Testata iscritta al tribunale di Roma n. 129/2012 del 3/5/2012. ISSN: 2280-4188

Il Documento Digitale

IL WEB COME “ARCHIVIO” E LA SEMANTICA COME STRUMENTO INTELLIGENTE DI ESTRAZIONE DI NUOVE CONOSCENZE

di Corrado Randaccio

Attualmente il Web è può essere considerato come un “archivio” dove trovare una grande quantità di documenti, ciò che manca è una connessione tra i contenuti stabilita dal loro significato (semantica), che permetta la risposta ad interrogazioni anche complesse, magari formulate con linguaggi “naturali”.


 

 

Possiamo immaginare che cosa si può fare con centinaia di miliardi di miliardi di byte, ovvero con gli oltre 600 exabyte dei big data attuali, peraltro in veloce crescita? Sicuramente ancora no. Ma possiamo intuire che da questi big data, attraversabili e interpretabili con strumenti di tipo semantico o genetico-evolutivo, emergeranno continuamente nuovi pattern. Ciò che è immediatamente e intuitivamente chiaro è il fatto che si tratta di miniere di informazione in cui si possono individuare imprevedibili strutture di conoscenza e di saperi.È da notare il fatto che connettendo queste singole miniere si ottiene un insieme che è molto di più della somma dei singoli data set, un insieme reticolare iper-complesso che può fornire non solo risposte a vecchie domande, ma che può anche far emergere domande nuove di particolare importanza per l’economia , la politica, l’ambiente, ecc…

Ormai è chiara l’importanza strategica che a livello planetario posso avere i big data e non è un caso che  la finanza privata e quella pubblica sono già in corsa frenetica per mettere a punto efficaci strumenti “intelligenti” che permettano di analizzare e gestire queste masse di dati che non si possono affrontare con i limitati strumenti usati con le normali banche dati.  Ogni proposito di sviluppo di strumenti “intelligenti”, si trova ad affrontare una mole non strutturata di dati eterogenei e ridondanti. Pare dunque giustificato cercare non solo di rafforzare, ma soprattutto di rivoluzionare gli strumenti di estrazione e di analisi dell’informazione, al fine di utilizzare questo grande patrimonio conoscitivo al meglio delle sue potenzialità. E per il 2020 le previsioni di iView IDC9 dicono, in maniera colorita, che avremo on line una quantità di byte pari ad almeno 40 volte la quantità di granelli di sabbia di tutte le spiagge della Terra. Allora quali sono – ci appare legittima come domanda – gli strumenti con cui possiamo aggredire la massa imponente dei big data? Due sono le principali tipologie: i motori semantici e il complesso del soft computing e delle reti neurali. In questo articolo ci soffermeremo nella trattazione della prima di queste principali tipologie.

Nel dare una definizione di questi strumenti e esempi del loro uso, possiamo definire i motori semantici quei software che analizzano il significato delle parole nel proprio contesto: i motori di ricerca che non si limitano a cercare negli archivi specifiche sequenze di bit, ma che analizzano la sequenza di bit richiesta all’interno di una “ontologia”, ovvero di una rete di rapporti con altre parole “imparentate”. Possiamo affermare che i motori semantici rientrano nella categoria di quei nuovi strumenti matematico/ linguistici per estrarre sapere da grossi set di dati, con risultati concreti non indifferenti. Sono strumenti di questo tipo che hanno permesso allo staff di Obama di monitorare in modo molto superiore rispetto ai tradizionali sondaggi, l’opinione pubblica nelle singole contee per le elezioni presidenziali; così come il noto esperimento dell’Università dell’Indiana (diventato poi spin-off e grappolo di aziende di successo) che ha permesso già diversi anni fa di prevedere all’87% l’andamento di Borsa nelle 48/72 ore dopo la rilevazione e l’analisi semantica del sentimenti di centinaia di milioni di tweets.

Per citare un altro esempio di progetto di questo tipo, l’Unione Europea ha stanziato un miliardo di euro con cui finanziare per un decennio (cento milioni l’anno) uno dei sei progetti selezionati a oggi: il progetto bandiera è FuturICT3 che coinvolge centinaia dei migliori scienziati europei; cuore del progetto è il “fantascientifico” Living Earth Simulator. Il Living Earth Simulator, che si può descrivere come un grande “acceleratore di conoscenza”, tenterà di scoprire le leggi sociologiche e psicologiche nascoste, alla base della civiltà umana. Nello stesso modo in cui al Large Hadron Collider del CERN si fanno scontrare i protoni tra di loro per vedere cosa succede, il Living Earth Simulator (LES) raccoglierà la conoscenza dal sistema nervoso planetario (PNS – Planetary Nervous System, sì, proprio così) per cercare di predire le varie fluttuazioni sociali, come disordini politici, bolle economiche, epidemie, e così via.

 

…continua su EDICOLeA e sull’APP gratuita (iOSAndroid)

 


 

Altri articoli di Corrado Randaccio

Knowledge-Graph I “KNOWLEDGE GRAPH” PER COSTRUIRE GRANDI COLLEZIONI STRUTTURATE DI DATI
di Corrado Randaccio (N. iI_MMXVI)
I "Knowledge Graph" sono un possibile approccio per costruire grandi basi di conoscenza, ovvero collezioni strutturate di dati interpretabili. Un esempio di grafi di conoscenza (Knowledge Graph) distribuiti sono i Linked Data, che potrebbero avere un impatto importante nella nascita di una “Linked Data Economy”.
conservazione PUBBLICATE LE LINEE GUIDA SULLA CONSERVAZIONE DEI DOCUMENTI INFORMATICI
di Nicola Savino (N. I_MMXVI)
Le linee guida sulla conservazione hanno lo scopo di fornire alle amministrazioni pubbliche tutte le informazioni relative a requisiti, processi, attività e responsabilità in materia di conservazione dei documenti informatici, nel rispetto dei riferimenti normativi vigenti.
int IL RAPPORTO DI BUSINESS INSIDER SULLA SFIDA DELLE BIG IT NEL CAMPO DELL’INTELLIGENZA ARTIFICIALE
di Corrado Randaccio (N. I_MMXVI)
Un recente rapporto di Business Insider, uno tra i più popolari siti di informazione del business, evidenzia come l’intelligenza artificiale rappresenta il nuovo terreno di sfida fra le Big IT: Microsoft ha infuso l’intelligenza artificiale in Cortana e ha investito nel team Project Oxford, per allenare i Pc a riconoscere 8 stati emotivi; di recente Apple ha acquisito VocalIQ, Perceptio e Emotient; invece Google sta sfruttando l’acquisizione di DeepMind; anche Facebook ritiene l’intelligenza artificiale la nuova frontiera dell’IT.
privacy-officer PROCESSI DECISIONALI E TRATTAMENTO DEI DATI
di Corrado Randaccio (N. III_MMXV)
L’uso dei dati per guidare il processo decisionale non è in sé una novità e rientra nell’ambito della analitica per le aziende. La differenza rispetto al passato è che ora vengono raccolte molte più informazioni relative ad ogni elemento rilevante per prendere decisioni, grazie al continuo calo dei costi della raccolta dei dati, immagazzinamento e delle tecniche di Machine Learning.
watson-analytics BIG DATA e COGNITIVE COMPUTING
di Corrado Randaccio (N. II_MMXV)
Watson Analytics è una piattaforma di analisi dati cloud-based della statunitense IBM, che poco tempo fa ha visto la luce e che segna la via verso un Cognitive Computing disponibile a chiunque. Watson Analytics è capace di analizzare e elaborare Big Data gratuitamente fino a 10.000 record. I dati vengono elaborati, schematizzati, suddivisi per aree tematiche semanticamente significative in maniera sorprendentemente efficace fino ad arrivare a suggerire la tipologia di analisi da applicare ai vostri dati e addirittura riuscire a rispondere alle vostre domande espresse con linguaggio naturale.
IEF GLI OPEN DATA NEL CONTESTO DELLO EUROPEAN INTEROPERABILITY FRAMEWORK
di Corrado Randaccio (N. I_MMXV)
Con la locuzione Open Data si identifica una nuova accezione piuttosto recente e maggiormente legata a Internet come canale principale di diffusione dei dati stessi accessibili a tutti, privi di brevetti o altre forme di controllo. L’European Interoperability Framework offre un modello di elaborazione degli Open Data alle organizzazioni e la possibilità di elaborare informazioni da fonti esterne o secondarie senza perdere il reale significato delle informazioni stesse nel processo di elaborazione.
Translate »