ChatGpt, il chatbot dell’azienda statunitense OpenAi, sa dare risposte accettabili a domande su qualunque cosa, dall’ingegneria nucleare allo stoicismo. O almeno sa farlo in inglese. L’ultima versione, ChatGpt-4, ha dato l’85 per cento di risposte corrette a un questionario. In altre lingue, però, è meno bravo. Quando ha fatto il test in telugu, una lingua parlata da quasi cento milioni di persone in India, non è arrivato al 62 per cento.

I modelli linguistici di grandi dimensioni (llm, software che imitano la conversazione umana ) sono addestrati su testi presi da internet, dove l’inglese è la lingua franca. Circa il 93 per cento di quelli usati per la versione precedente di ChatGpt era in questa lingua. In Common Crawl, uno dei tanti archivi usati, l’inglese rappresenta il 47 per cento dei testi, e altre lingue europee arrivano al 38 per cento. Cinese e giapponese insieme sono il 9 per cento.

Non è un limite solo di ChatGpt: tutti gli llm se la cavano meglio con le lingue in cui esistono più documenti. Ed è un problema per chi vorrebbe esportare l’intelligenza artificiale (ia) nei paesi poveri, con la speranza che possa migliorare tante cose, dall’istruzione alla sanità. I ricercatori di tutto il mondo stanno quindi lavorando per rendere l’ia più multilingue.

Il governo indiano ci tiene particolarmente. Ha già digitalizzato molti servizi pubblici e vuole potenziarli con l’ia. A settembre ha lanciato un chatbot per aiutare gli agricoltori a trovare informazioni sulle sovvenzioni statali. Il bot fonde due tipi di modello, spiega Shankar Maruwada dell’Ekstep foundation, che ha contribuito a svilupparlo. Le domande sono inoltrate a un software che le traduce in inglese. A quel punto passano all’llm, e le risposte sono tradotte nella lingua dell’utente.

Il sistema sembra funzionare, ma è un espediente rudimentale: oltre al significato, le lingue veicolano anche modi di pensare e culture. Secondo la ricercatrice Rebecca Johnson, su argomenti come il controllo delle armi e i rifugiati ChatGpt-3 dava risposte tendenzialmente in sintonia con i valori espressi dagli statunitensi nel World values survey, un questionario globale che monitora l’opinione pubblica.

Montagne di carta

Una soluzione migliore è modificare la “tokenizzazione”, il processo con cui un llm scompone le parole in pezzi più piccoli (token). Un testo in devanagari, l’alfabeto usato per l’hindi, ha bisogno del triplo o del quadruplo di token rispetto all’inglese. La start up indiana Sarvam Ai ha ottimizzato la tokenizzazione per l’hindi, e sostiene che il suo modello, OpenHathi, è in grado di ridurre i costi di circa tre quarti.

Un altro metodo è migliorare gli archivi per l’addestramento, che spesso significa digitalizzare montagne di testi cartacei. A novembre un team di ricercatori di Abu Dhabi ha pubblicato l’ultima versione di un modello chiamato Jais, che ha un sesto dei parametri di ChatGpt-3, ma ha le stesse prestazioni in arabo.

Il terzo metodo consiste nel ritoccare i modelli dopo l’addestramento. Sia Jais sia OpenHathi contengono anche coppie di domande e risposte inserite da persone. Lo stesso succede con i chatbot occidentali, affinché non possano diffondere disinformazione. Ernie Bot, un Llm del colosso tecnologico cinese Baidu, è stato adattato per evitare che dica cose sgradite al governo. I modelli imparano anche dal feedback degli utenti, ma questo è più difficile in molte lingue dei paesi poveri, perché richiede il reclutamento di persone abbastanza istruite da poter criticare la scrittura della macchina.

Resta da vedere se questi sforzi avranno successo. Un quarto degli adulti indiani è analfabeta, e per comunicare molti usano i messaggi vocali. L’ia può trasformare il parlato in scrittura, come fa il chatbot indiano per gli agricoltori, ma introdurre un altro passaggio rischia di aggiungere errori.

Ed è possibile che gli sviluppatori siano superati dai giganti della Silicon valley. Pur non essendo perfetto, ChatGpt-4 è molto più bravo del predecessore a rispondere alle domande in altre lingue. In ogni caso insegnare all’ia nuove lingue tra le settemila usate nel mondo non può che essere un bene. ◆ sdf

Internazionale pubblica ogni settimana una pagina di lettere. Ci piacerebbe sapere cosa pensi di questo articolo. Scrivici a: posta@internazionale.it

Questo articolo è uscito sul numero 1548 di Internazionale, a pagina 96. Compra questo numero | Abbonati