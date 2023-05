ChatGpt non capisce le cose che dice. E vale per tutti i chatbot: Claude, Bard eccetera. Questi strumenti riescono a imitare il linguaggio umano anche perché l’intelligenza artificiale che li gestisce ha elaborato gigantesche quantità di informazioni, in gran parte prese da internet. Ma da quali siti?

Finora le grandi aziende sono state molto riservate. Il quotidiano statunitense Washington Post è riuscito ad analizzare un set di dati chiamato C4: incorpora materiale da 15 milioni di siti web ed è usato da Google e Facebook per istruire i propri sistemi di intelligenza artificiale. I siti da cui C4 ha preso più testi sono quelli d’informazione (c’è anche Internazionale), intrattenimento, sviluppo di software e medicina. E i tre singoli siti in cima alla lista sono patents.google.com (che raccoglie informazioni sui brevetti internazionali), Wikipedia e una biblioteca digitale.

Ma nel mucchio ci sono anche siti di propaganda filorussa o dell’ultradestra statunitense. Dal momento che C4 è la principale fonte di informazioni dell’intelligenza artificiale, ne condiziona le risposte. Quindi sarebbe importante sapere quali sono i criteri di selezione.

Un altro problema lo ha sollevato il settimanale britannico New Scientist. Chi legge un giornale di carta o un sito di notizie lo fa perché attribuisce un valore a ciò che ricava dalla lettura. In cambio paga con denaro (la singola copia o un abbonamento) o accetta di vedere della pubblicità. Quando però un’azienda tecnologica raccoglie informazioni sul web e le usa per istruire la propria intelligenza artificiale non compensa in nessun modo le fonti da cui ha preso il materiale.

La soluzione a questo problema non è semplice: sarebbe assurdo impedire o ostacolare lo sviluppo dell’intelligenza artificiale, ma è anche giusto che i contenuti di qualità siano pagati. Sia perché il lavoro andrebbe sempre retribuito sia perché, se non sono pagati, nessuno crea più quei contenuti, con un danno per tutti, non solo per le aziende tecnologiche. ◆