Testata iscritta al tribunale di Roma n. 129/2012 del 3/5/2012. ISSN: 2280-4188

Il Documento Digitale

LE TECNICHE DI DATA MINING NEI MODERNI SISTEMI DI ARCHIVIAZIONE DIGITALE

di Corrado Randaccio

[toggle Title=”Abstract”]Il termine Data Mining identifica le tecniche finalizzate all’estrazione di conoscenza dall’immensa quantità di dati correlati che i moderni sistemi di archiviazione digitale permettono di gestire. Trasformare il diluvio di dati in leva strategica per la crescita sociale ed economica e riuscire ad estrarre nuova conoscenza dalle informazioni, per renderle utilizzabili, rappresentano sfide su cui si sta misurando tutta la comunità scientifica internazionale.[/toggle]

La nuova rivoluzione industriale in atto è trainata dai dati digitali, dall’informatica e dall’automazione. Le attività umane, i processi industriali e la ricerca generano un livello senza precedenti di raccolta ed elaborazione di dati, le quali favoriscono la comparsa di nuovi prodotti, servizi, processi commerciali e metodologie scientifiche.
I big data risultanti sono così grandi e complessi da rendere difficile l’elaborazione di una tale massa di dati con gli strumenti e i metodi di gestione dei dati attualmente disponibili. Secondo le previsioni, il mercato mondiale della tecnologia dei big data e dei servizi correlati raggiungerà i 16,9 miliardi di USD nel 2015, registrando un tasso di crescita annuo medio del 40%, ossia circa sette volte superiore a quello del mercato complessivo delle tecnologie dell’informazione e della comunicazione (TIC). Un recente studio prevede che nel solo Regno Unito nei prossimi cinque anni il numero di specialisti dei big data operanti all’interno di grandi aziende aumenterà di oltre il 240%(1). Questa tendenza mondiale presenta potenzialità enormi, che l’Europa non può lasciarsi sfuggire, in vari campi: sanità, sicurezza alimentare, clima, uso efficiente delle risorse, energia, sistemi di trasporto intelligenti e città intelligenti. Per poter cogliere tali opportunità e competere a livello mondiale nell’economia dei dati, l’UE deve sviluppare le tecnologie abilitanti e le infrastrutture e le competenze soggiacenti, soprattutto a vantaggio delle PMI.

I dati sono il fulcro dell’economia e della società della conoscenza del futuro. Le modalità di generazione, raccolta, elaborazione e utilizzo dei dati digitali sono in rapido aumento. Ad esempio, i produttori raccolgono ed elaborano i dati per ottimizzare il flusso delle materie prime e delle merci, mentre nuovi beni e servizi si avvalgono sempre più spesso dell’analisi dei dati incorporata (ad esempio nei sistemi anticollisione).In generale, l’analisi dei dati migliora i risultati, i processi e le decisioni. Contribuisce inoltre a generare nuove idee o soluzioni o a prevedere gli eventi futuri con maggiore precisione. Con il progresso tecnologico assistiamo alla riorganizzazione di interi settori di attività, che si basano sistematicamente sull’analisi dei dati(2).
Trasformare il diluvio di dati in leva strategica per la crescita sociale ed economica e riuscire ad estrarre nuova conoscenza dalle informazioni, per renderle utilizzabili, rappresentano sfide su cui si sta misurando tutta la comunità scientifica internazionale orientata verso nuovi strumenti e metodi, quali ad esempio potenti processori, software e algoritmi per la gestione di questi dataset ad elevata variabilità e in tempo reale.
Tradizionalmente l’analisi dei dati era un processo “manuale” e l’analista doveva avere famigliarità sia con i dati sia con i metodi della statistica: egli stesso agiva come un sofisticato processore di queries (domande), mentre l’elaboratore elettronico era solo un sostegno per il calcolo. Tale strategia di fronte alla crescita dimensionale degli archivi di dati era destinata a fallire. Di conseguenza si è costituita ed è cresciuta costantemente una comunità di ricercatori e professionisti interessati al problema dell’analisi automatica di grandi quantità di dati.

L’abilità di analizzare e sfruttare database enormi è in ritardo rispetto a quella di raccogliere e memorizzare i dati. Una nuova generazione di tecniche e strumenti computazionali è di conseguenza necessaria per agevolare l’estrazione di conoscenza (informazioni significative) dagli archivi di dati. Come abbiamo detto, il metodo tradizionale per trasformare i dati in conoscenza si basa sull’analisi e sull’interpretazione “manuale”, ma per i compiti richiesti oggigiorno, questo tipo di analisi risulta lenta, costosa e altamente soggettiva e contemporaneamente i databases sono cresciuti di dimensione: nel numero di records o oggetti memorizzati, e nel numero di campi o attributi per oggetto. Da ciò segue che il problema dell’estrazione di conoscenza da databases enormi doveva essere risolto tramite un processo di elaborazione più complesso, formato da molti passi, che possono andare dalla semplice manipolazione dei dati a sofisticate tecniche di inferenza statistica, di ricerca e di ragionamento artificiale.

… continua su EDICOLeA

Altri articoli di Corrado Randaccio

Translate »