We stand with Ukraine

Viaggio al centro della tecnologia semantica – Terza puntata

10 Giugno 2013

11 giu 2013

La parola a Marco Varone, “papà” della tecnologia Cogito di Expert System, che ci aiuta a capire cos’è e come funziona la tecnologia semantica.
In questa puntata, e in quelle che seguiranno, vedremo come può essere utilizzata concretamente nelle attività di gestione delle informazioni e quali vantaggi di business possono ottenere le aziende che scelgono di implementarla.

Puntate già pubblicate:

  • Prima puntata: Conoscenza e… mal di denti
  • Seconda puntata: Calcolare o capire?


Terza puntata: Iniziamo a capirci qualcosa

 

Riprendiamo il nostro ragionamento sulla comprensione di un testo, elemento chiave nella gestione della conoscenza.

Come è evidente per tutti, se escludiamo la comunicazione verbale (che ha comunque un ruolo molto importante nella vita quotidiana), tutta la conoscenza che una persona accumula nella propria vita deriva dalla lettura e comprensione di un testo, sia esso un tweet da 40 caratteri o un libro di 600 pagine sulla storia del Medioevo. La maggior parte delle informazioni scambiate o consultate in rete sono testuali: fanno eccezione i filmati e gli audio ma questi rappresentano solo una piccola parte delle informazioni fruite ogni giorno.

Non sorprenderà perciò nessuno sapere che da moltissimi anni, fin dall’inizio dell’esplosione della quantità di informazioni disponibili in forma elettronica, molto tempo e risorse siano stati allocati per sviluppare tecnologie informatiche in grado di analizzare testi e di renderli più facilmente ricercabili e fruibili.Inoltre, più di recente, si lavora soprattutto a tecnologie capaci di “comprendere” i testi, in modo da ridurre il lavoro delle persone che da essi devono estrarre conoscenza utile per le proprie attività.

Visto che storicamente la prima esigenza è stata quella di cercare informazioni, e non tanto di comprendere il contenuto dei testi (perché i volumi erano enormemente minori e i computer molto meno potenti di adesso), è del tutto naturale che le prime tecnologie ad affermarsi siano state quelle più vicine ai calcoli e alla manipolazione di simboli logici, semplici da realizzare e “vicine” alla macchina.

È così nata la tecnologia a keyword, basata sulla manipolazione simbolica più o meno pura: le parole di un testo sono considerate come semplici sequenze di caratteri senza che il loro significato incida minimamente (potrebbero essere numeri di telaio di una vettura, codici a barre del latte o parole della lingua italiana… il senso non importa). Gli algoritmi alla base della tecnologia a keyword sono semplici, facili da implementare, con poco lavoro di aggiustamento per una certa lingua e una veloce esecuzione: se non fosse che il risultato finale è mediamente limitato e mediocre e, sarebbe la tecnologia perfetta :-).

Non capendo nulla di quanto scritto in un testo, la tecnologia a keyword è utilizzabile solo per i motori di ricerca e non per altre elaborazioni più evolute (categorizzare un testo, estrarne conoscenza puntuale, riassumerlo e così via) e questo è diventato presto un limite troppo grande. Sono aumentati il numero dei contenuti e le esigenze di analisi, e hanno stimolato lo sviluppo di approcci e tecnologie più complesse ed efficaci.

In contemporanea, si è creata una sorta di divisione fra le tecnologie utilizzate per cercare informazioni sul Web e quelle utilizzate per gestire la conoscenza (interna ed esterna) aziendale: le due strade non sono in realtà veramente distinte ma a volte si sovrappongono e altre volte divergono, con un andamento non sempre prevedibile e lineare (non a caso, il leader della ricerca su Internet è solo uno dei tanti quando si passa al mondo aziendale). Per il Web, l’esigenza primaria è stata fino a pochissimi anni fa solo quella di cercare, invece nell’enterprise la capacità di comprendere anche solo superficialmente un testo è apparsa da subito molto importante.

Sono così nate tecnologie statistiche (in cui l’analisi del testo è condotta su basi più sofisticate, ma comunque di tipo logico-matematico e meccanico), tecnologie linguistiche (che riconoscono il ruolo grammaticale delle parole e poi quello sintattico) e tecnologie semantiche (che vanno in profondità e riconoscono i significati, le espressioni e le relazioni): queste tecnologie spesso si usano in modo congiunto e/o coordinato per ottenere il miglior risultato possibile nei diversi contesti di utilizzo.
Nella prossima puntata, analizzeremo più in dettaglio queste tecnologie e capiremo come un computer, di solito bravo “solo” a fare i calcoli alla velocità della luce, possa anche elaborare concetti e non solo simboli..

 

Marco Varone

 

Se vuoi seguire le prossime puntate del “Viaggio al centro della tecnologia semantica”