19 settembre 2016 12:48

Rossano Schifanella è un giovane ricercatore dell’Università di Torino. Si occupa di informatica, intelligenza artificiale e interazioni (umane) sui social media. Scientific American ha da poco dedicato un articolo al suo più recente lavoro sul sarcasmo. Andare a cercarlo e fargli qualche domanda mi è sembrata una buona idea.

Oggi le macchine “capiscono” quello che noi essere umani diciamo?
La comprensione del linguaggio naturale è la prossima frontiera dell’intelligenza artificiale. Negli ultimi cinque anni le tecniche di deep learning, che usano evoluzioni delle reti neurali introdotte negli anni ottanta, hanno per esempio rivoluzionato l’automatizzazione del riconoscimento vocale e l’analisi di immagini: oggi le macchine sanno riconoscere parole dette a voce, volti, oggetti o azioni.

Ma tra riconoscere e capire c’è una bella differenza.
Capire quello che i testi significano rimane un problema aperto, sul quale i giganti dell’internet economy stanno investendo enormi risorse finanziarie e umane. Per una macchina, capire un testo è più complesso che analizzare un’immagine. All’interno di una frase o di un paragrafo alcune parole sono ambigue: possono, cioè, avere più di un senso, e vanno interpretate alla luce del resto del testo e del contesto.

Come fanno le macchine a “capire”?
I sistemi attuali – almeno nella maggioranza dei casi – imparano il significato dei termini o dei costrutti linguistici grazie a esempi di testo annotato da esperti. La macchina è come un tennista principiante, che a mano a mano impara dal maestro di tennis come colpire la palla in certe situazioni di gioco. Quanti più esempi riceve la macchina, tanto più il suo lavoro è accurato. Un approccio alternativo è lasciare che la macchina estragga da sola conoscenza da dati privi di annotazioni. Questo solitamente implica l’estrazione di associazioni frequenti nel testo e di modelli statistici di uso delle parole. Il vero problema è capire come la macchina si comporterà in una situazione nuova, non riconducibile agli esempi che già conosce. Qui entrano in gioco il concetto di ragionamento e la capacità di un sistema di imparare e di accrescere la propria conoscenza nel tempo.

Quanto tempo fa le macchine hanno cominciato a capire quello che diciamo?
I primissimi studi nella disciplina dell’analisi automatica del linguaggio naturale risalgono agli inizi degli anni cinquanta, ma la prima rivoluzione si è vista alla fine degli anni ottanta, con l’applicazione di tecniche moderne di apprendimento automatico.

Da allora si è fatta parecchia strada. Si prevede che nei prossimi dieci anni sistemi automatici possano essere in grado di comprendere i testi, e di dialogare su argomenti comuni come (o meglio, in maniera simile a) un essere umano.

Quanto capiranno le macchine tra dieci anni?
Gli stessi linguisti non sono in grado di spiegare al cento per cento i processi cognitivi che sono alla base della comprensione e della generazione del linguaggio umano: è difficile pensare che una macchina possa riuscirci in un arco temporale breve. Detto questo, le nuove tecnologie porteranno senza dubbio a una rivoluzione nel modo in cui comunichiamo con le macchine. Basti pensare che tutte le grandi aziende del mondo tecnologico hanno investito cifre enormi nella generazione di robot (bot in gergo informatico), con i quali dialogheremo quotidianamente, per esempio per fare acquisti online o per pianificare le prossime vacanze.

A che punto siamo con le traduzioni automatiche da una lingua all’altra?
Questo è uno dei problemi più complessi da affrontare ma, usando le tecniche di deep learning, i sistemi moderni hanno sensibilmente migliorato la traduzione automatica di testi nelle lingue più comuni. Basti vedere i passi avanti che hanno fatto sistemi come Google Translate o la nuova funzionalità in beta testing di Skype, che permetterà di tradurre in tempo reale da una lingua all’altra, durante una conversazione audio. In ogni caso, le traduzioni correnti sono lontane dall’essere perfette, soprattutto quando si tratta di lingue non comuni. Inoltre, come dicevamo, tradurre una frase senza avere il contesto generale può essere un problema a causa della polisemia delle parole.

Oggi le macchine stanno già “imparando a capire” da sole?
Tradizionalmente le macchine imparano osservando esempi che l’uomo gli fornisce, tradotti in una forma per loro comprensibile. Questo processo può essere “supervisionato”, se viene fornita ulteriore conoscenza nella forma di annotazioni di esperti – comune per esempio nel campo dell’analisi di immagini – oppure “non supervisionato”. La combinazione delle due modalità è uno dei caratteri emergenti degli approcci moderni. Il punto quindi non riguarda il se, ma il quanto gli esseri umani contribuiscono.

Tra un po’ le macchine saranno capaci di pensare, imparare e decidere da sole?
L’abilità di imparare autonomamente a risolvere problemi nuovi è uno dei tratti dei sistemi intelligenti del futuro. Detto questo, lo scenario che alcuni temono, quello in cui una macchina si costruisce da sola un’intelligenza autonoma, alternativa a quella umana e in continua espansione, è, se non utopico, quanto meno improbabile a breve termine.

Che cosa sanno fare oggi i computer con le immagini?
L’enorme interesse che l’intelligenza artificiale ha attirato negli ultimissimi anni ha avuto alcuni dei risultati più sorprendenti proprio nel campo dell’analisi automatica delle immagini. L’applicazione del paradigma delle reti neurali ha portato allo sviluppo di sistemi molto efficienti per il riconoscimento automatico di oggetti: pensiamo ai software che riconoscono in tempo reale i volti in una foto, o ai sistemi che descrivono il contenuto di un’immagine o la situazione mostrata, e sanno distinguere, per esempio, se si tratta di una festa di compleanno o di un matrimonio.
Pensiamo anche alle telecamere delle future automobili senza guidatore, in grado di individuare oggetti oppure ostacoli lungo il percorso e di reagire di conseguenza.

Com’è arrivato a occuparsi del sarcasmo e del modo in cui un computer lo può identificare?
Durante un periodo di ricerca in una nota media company mi sono avvicinato al problema della comprensione dei contenuti generati dagli utenti, e caricati sulle comuni piattaforme di social media. In particolare, ero interessato a capire come gli utenti esprimono le loro opinioni su un argomento, su un prodotto o semplicemente su eventi della vita quotidiana. Da un’analisi preliminare è emerso che il sarcasmo è una delle forme comuni di espressione, e che l’errata interpretazione di una frase sarcastica può cambiare completamente il senso di una frase, e quindi la comprensione di un fenomeno.

Noi facciamo del sarcasmo quando il senso di quello che diciamo contraddice il significato letterale della nostra affermazione. Per esempio, quando definiamo “geniale” un’idea palesemente stupida. Gli esseri umani sanno riconoscere il sarcasmo, perché confrontano il significato letterale di una frase con tutti gli altri dati di contesto. Ma già i bambini fanno fatica a fare questa specie di salto mortale. Come può riuscirci una macchina?
All’inizio i sistemi di riconoscimento automatico del sarcasmo erano applicati solo a contenuti testuali e si basavano sulla presenza di parole o elementi sintattici che erano con alta probabilità indicatori di sarcasmo: l’uso ripetuto di punti esclamativi, l’uso di superlativi assoluti, o di emoticon. Per esempio: “Oggi è senza dubbio la migliore giornata della mia vita!!!!!! :( “. Sistemi più moderni invece sono in grado di tenere in considerazione il contesto nel quale la frase si inserisce. Per esempio, sono in grado di capire se il tono di un messaggio è sarcastico confrontandolo con il contenuto dei precedenti messaggi all’interno di una sequenza.

Inoltre, nelle moderne piattaforme di social media il contenuto testuale è accompagnato da immagini o video, basti pensare a Facebook o Instagram. Per questo i sistemi di riconoscimento del sarcasmo devono combinare tecniche di analisi del testo con tecniche di analisi delle immagini.

Prendiamo l’affermazione “Trump è una benedizione per gli Stati Uniti”. Se a dirlo è Trump stesso, l’affermazione va intesa letteralmente. Se a dirlo è Clinton, si tratta di puro sarcasmo. Come se la cava una macchina?
Questo è un caso tipico in cui la macchina è in grado di individuare il tono sarcastico attraverso il profilo dell’autore del post, in particolare usando le preferenze politiche che vanno a costruire il contesto in cui la frase viene interpretata.
Questo caso è in un certo senso più semplice perché Trump e Clinton sono celebrità e il sistema può utilizzare i moderni metodi di analisi del testo che sono in grado di individuare nomi famosi: celebrità, nomi di città, attrazioni turistiche o altro.

Che cosa della sua ricerca ha colpito Scientific American, che le ha dedicato un articolo?
L’interesse è nato principalmente dall’idea innovativa di combinare la comprensione del testo e delle immagini per l’interpretazione del tono sarcastico di un messaggio. Spesso il testo da solo non dà indicazioni sufficienti, ed è l’immagine a fornire il contesto che permette di individuare l’intenzione sarcastica. Per esempio, se la frase “Che fantastico sole oggi!” è accompagnata dalla foto di un temporale torrenziale, è la foto a dirci che l’intenzione della frase è sarcastica. Questa integrazione tra linguaggio visivo e verbale è complessa, molto interessante e applicabile a molti altri contesti della comunicazione digitale.

Individuare a colpo sicuro il sarcasmo può aiutare le piattaforme a controllare e ridurre i casi di molestie sui social media?
Individuare il tono sarcastico di messaggi che sembrano minacce o insulti potrebbe aiutare i gestori dei social media a identificare e controllare le comunicazioni che, invece, sono davvero moleste o pericolose. Per esempio, ricordo un messaggio postato su Instagram da un gruppo di amici atterrati all’aeroporto di Parigi per un addio al celibato: “Questa sera metteremo a ferro e fuoco la capitale… attenzione Parigi”. Il testo era accompagnato da una scherzosa foto del gruppo: boccali di birra e travestimenti.

A parte il dubbio gusto, è chiaro che non si trattava di una minaccia alla sicurezza della città come il testo avrebbe potuto fare intendere. Distinzioni come queste sono difficili da fare, specie per una macchina, ma un equivoco può causare conseguenze negative reali per le persone. Ecco perché è importante investire in tecnologie che possono migliorare questo tipo di prestazione.

Quali sono le prospettive?
Nel futuro vorremmo applicare queste tecniche all’analisi di altre forme di espressione creativa nei social media, per esempio le metafore o lo humor.

Internazionale pubblica ogni settimana una pagina di lettere. Ci piacerebbe sapere cosa pensi di questo articolo. Scrivici a: posta@internazionale.it