Testata iscritta al tribunale di Roma n. 129/2012 del 3/5/2012. ISSN: 2280-4188

Il Documento Digitale

VIA LIBERA ALL’UTILIZZO DEI BIG DATA NELLE STATISTICHE NAZIONALI

di Nicola Savino

Il Garante della Privacy, con il provvedimento del 18/09/2014, n. 411, ha fornito parere positivo sullo schema del programma statistico nazionale, ma ha fortemente richiesto che siano assicurate tutte le misure minime ed idonee di sicurezza e la completa tutela dell’interessato. Tale progetto prevede che l’Istat tratti i dati relativi al cosiddetto “call detail record” (cdr), numero progressivo, assegnato dal gestore telefonico all’utente che effettua la chiamata.

pdf-icon

 

Il Big Data quale innovazione e semplificazione ma molte volte ci dimentichiamo di cosa questo comporti, cioè la sicurezza del dato trattato. Ma cosa sono i Big Data?

Da Wikipedia estraiamo:
Big data è il termine usato per descrivere una raccolta di dati così estesa in termini di volume, velocità e varietà da richiedere tecnologie e metodi analitici specifici per l’estrazione di valore.
Big data rappresenta anche l’interrelazione di dati provenienti potenzialmente da fonti eterogenee, quindi non soltanto i dati strutturati, come i database, ma anche non strutturati, come immagini, email, dati GPS, informazioni prese dai social network.
Con i big data la mole dei dati è dell’ordine dei Zettabyte, ovvero miliardi di Terabyte. Quindi si richiede una potenza di calcolo parallelo e massivo con strumenti dedicati eseguiti su decine, centinaia o anche migliaia di server.
Si parla di Big Data quando si ha un dataset grande da richiedere strumenti non convenzionali per estrapolare, gestire e processare informazioni entro un tempo ragionevole.Non esiste una dimensione di riferimento ma questa cambia sempre poiché le macchine sono sempre più veloci e i dataset sono sempre più grandi. Secondo uno studio del 2001, l’analista Doug Laney aveva definito il modello di crescita come tridimensionale (modello delle “3V”): con il passare del tempo aumentano volume (dei dati), velocità e varietà (dei dati). In molti casi questo modello è ancora valido, nonostante nel 2012 il modello sia stato esteso ad una quarta variabile, la veridicità. Vediamo queste caratteristiche nel dettaglio.

Caratteristiche
Le caratteristiche principali dei Big Data, si possono riassumere nelle seguenti caratteristiche:

  • volume: rappresenta la dimensione effettiva del dataset;
  • velocità: si riferisce alla velocità di generazione dei dati; si tende all’effettuare analisi dei dati in tempo reale o quasi;
  • varietà: riferita alle varie tipologie di dati, provenienti da fonti diverse (strutturate e non);

Il modello iniziale si fermava qui. Col tempo il modello si è esteso, andando ad aggiungere le seguenti caratteristiche:

  • variabilità: questa caratteristica può essere un problema; si riferisce alla possibilità di inconsistenza dei dati;
  • complessità: maggiore è la dimensione del dataset, maggiore è la complessità dei dati da gestire; il compito più difficile è collegare le informazioni, ed ottenerne di interessanti.

Inoltre, alcune organizzazioni utilizzano una quarta V per indicare la “veridicità” dei dati, ossia la qualità dei dati intesa come il valore informativo che si riesce ad estrarre”.

Quindi i Big Data sono enormi banche dati sparse per il mondo dove, attraverso algoritmi particolari, si possono correlare tutti questi dati, anche non strutturati, dando informazioni importanti

Ad esempio, le società emettitrici delle carte di credito hanno individuato delle associazioni inusuali per valutare il rischio finanziario di una persona.

Il progetto condotto da Google che, analizzando i gruppi dei termini di ricerca digitati dagli utenti sul proprio motore, era riuscito a prevedere, solo nel 2008, l’avanzamento dei focolai di influenza nei territori degli USA più velocemente di come lo stesso ministero della salute non fosse riuscito a fare utilizzando i record di ammissione ospedaliera delle strutture sanitare pubbliche e private.

Un altro esempio, per la tutela dell’ordine pubblico, la correlazione tra luoghi, persone ed incidenti, la creazione di modelli per analizzare i dati provenienti dagli essere viventi nelle scienze biologiche, e molto altro ancora.

Quindi, in sintesi, i Big Data sono la capacità di prelevare e analizzare enormi quantità di dati per trovarne un filo conduttore.

Il Garante della Privacy, con il provvedimento del 18/09/2014, n. 411, ha fornito parere positivo sullo schema del programma statistico nazionale, ma ha fortemente richiesto che siano assicurate tutte le misure minime ed idonee di sicurezza e la completa tutela dell’interessato.

Tale progetto prevede che l’Istat tratti i dati relativi al cosiddetto “call detail record” (cdr). Il cdr è un numero progressivo, assegnato dal gestore telefonico all’utente che effettua la chiamata (in sostituzione del codice fiscale, nome e cognome), al quale vanno aggiunte le informazioni relative al Comune nel quale si trova la cella di effettuazione, la data e l’ora della chiamata. Gli utenti verranno distinti in quattro categorie: residenti stanziali, temporaneamente dimoranti, pendolari giornalieri e visitatori occasionali.

Ma ecco che la gestione, meglio il trattamento del dato personale comporta un’attenzione maggiore e dedicata. L’incrociarsi dei dati, la loro correlazione anche solo a fini statistici o di ricerca comporta un utilizzo del dato personale che non sempre rispecchia i criteri di liceità, necessità, proporzionalità e finalità.

Inoltre la gestione (e parliamo di Sistema di Gestione con i processi annessi), che va oltre al trattamento, di queste enormi banche dati diventa estremamente problematica dal punto di vista della sicurezza. Al di là di un mero approccio formale (documentazione, nomine, procedure, ecc.) deve esistere una consapevolezza intrinseca dell’utilizzo di questi dati; una sorta di presa di coscienza di quello che viene fatto e perché, non solo ma anche del loro corretto utilizzo e divulgazione.

Anche se il dato viene trattato per soli fini statistici correlando vari parametri diventa importa l’anonimizzazione del dato per evitare di cadere nella trappola o meglio nella voragine della profilazione.

Tutto deve essere fatto in assoluta trasparenza e “alla luce del sole”.

Risulta facilmente intuibile che se non venissero prese le dovute precauzioni, la correlazione fatta di questi ci renderebbe completamente nudi ed esposti. Infatti attraverso il citato “cdr” chiunque potrebbe conoscere da dove e a che ora abbiamo effettuato la chiamata, se eravamo in transito, se ci siamo fermati per un certo periodo in quel luogo, chi siamo, dove abitiamo, ecc.. Ci troveremo sicuramente in vetrina.
Per questo motivo la normazione del Garante della Privacy non solo serve come monito, ma anche e soprattutto come la giusta organizzazione per la gestione di questi Big Data che già oggi fanno parte della nostra vita, lavorativa e non. è interessante sottolineare come questo prima via libera, possa essere l’inizio per l’utilizzazione dei Big Data nei processi sanitari e soprattutto in riferimento al Fascicolo Sanitario Elettronico, per il quale tra le altre cose il Garante ha già espresso parare positivo. Basti solo ImmaginatRe quanto siano importanti i Big Data nelle cure delle malattie e come l’integrazione di questa mole di dati possa permettere a tutto il mondo sanitario la possibilità di capire quale sia la cura o la prevenzione migliore per quella determinata malattia.
Resta fermo che il caso qui esposto, trova applicazione anche in tutte le altre attività che per soli fini statistici potranno utilizzare i Big Data per realizzare aggregazioni ed aggregatori di informazioni, utili alla gestione delle attività sociali.

Ben venga allora il monito dell’autorità Garante a tutela degli interessati, facendo prendere così coscienza dell’importanza del rispetto dei dati personali. ©


 

 

Altri articoli di Nicola Savino

agenzia-dogane LA DIGITALIZZAZIONE DELLA DOGANA PASSA PER LA DEMATERIALIZZAZIONE DELLE ACCISE
di Nicola Savino (N. II_MMXVI)
La conservazione sostitutiva delle accise dovrà seguire di fatto lo stesso percorso seguito per la dematerializzazione dei documenti contabili e fiscali, come ad esempio fatture, libri e registri iva, con la differenza di interfacciamento in termini di processo con l’Agenzia delle Dogane.
registro LE ISTRUZIONI PER LA CREAZIONE DEL REGISTRO GIORNALIERO DI PROTOCOLLO
di Nicola Savino (N. IV_MMXV)
Le Istruzioni per la produzione e conservazione del registro giornaliero di protocollo contengono le disposizioni sulla produzione e la trasmissione del registro in conformità alla normativa vigente. Come stabilito dal DPCM 3 dicembre 2013 in materia di protocollo informatico, a partire dall’11 ottobre 2015 le Pubbliche Amministrazioni sono tenute a inviare in conservazione il registro giornaliero di protocollo entro la giornata lavorativa successiva.
impronta IMPRONTA DELL’ARCHIVIO INFORMATICO: NON PIÚ NECESSARIA LA COMUNICAZIONE
di Nicola Savino (N. III_MMXV)
Agenzia delle Entrate - Risoluzione n. 4/E del 19 gennaio 2015. Con la richiesta di consulenza giuridica, l’Agenzia delle Entrate conferma l’interpretazione dell’’Associazione istante ovvero che, nonostante il tenore letterale dell’articolo 7, comma 3, del D.M. 17 giugno 2014, l’obbligo di comunicazione dell’impronta dell’archivio informatico sia completamente abrogato anche per i documenti conservati prima dell’entrata in vigore del decreto.
logo_sdi ANALISI IN PERCENTUALE DEL FUNZIONAMENTO DEL SISTEMA SDI
di Nicola Savino (N. I_MMXV)
A quasi un anno dall’entrata in vigore dell’obbligo di fatturazione elettronica verso le Pubbliche Amministrazioni Centrali (6 giugno 2014), la Sogei ha pubblicato dei reports relativi ai dati statistici sintetici del Sistema di Interscambio, unico sistema preposto all’invio delle fatture elettroniche alle Pubbliche Amministrazioni. Nel presente contributo viene presentata un’analisi dei dati raccolti.
iso-icon_1 UL NUOVO STANDARD ISO 16919:2014 PER I SISTEMI DI CONSERVAZIONE DIGITALE
di Nicola Savino (N. IV_MMXIV)
Il nuovo standard ISO 16919:2014 - “Space data and information transfer systems — Requirements for bodies providing audit and certification of candidate trustworthy digital repositories” ha lo scopo principale di definire una prassi raccomandata su cui basare le operazioni di valutazione dell’affidabilità e della robustezza degli archivi digitali.
Legal-Records-Management I SISTEMI DOCUMENTALI, LA CONSERVAZIONE E IL RECORDS MANAGEMENT
di Nicola Savino (N. III_MMXIV)
Un sistema documentale è una delle funzioni più importanti e portanti del sistema informativo aziendale, sia per il supporto e l’integrazione dei processi decisionali, sia evidentemente per la conservazione e la valorizzazione del patrimonio documentale. In ogni processo interno a qualsiasi azienda sono generate e gestite diverse informazioni, e pertanto assume rilevante importanza il sistema documentale, al quale è affidata la gestione, l’organizzazione e la conservazione delle informazioni stesse.
Translate »