“C’è la possibilità che una startup innovativa da ingegneri brillanti con, diciamo, dieci milioni di dollari, crei un modello fondativo?”. “È assolutamente inutile competere con noi nell’addestramento di un modello di fondazione, quindi non dovreste provarci. Ma è il vostro lavoro provarci comunque”. Questo dialogo è avvenuto in India. Era l’8 giugno del 2023. ChatGpt era stato lanciato da qualche mese e continuava a stupire. Sam Altman, l’amministratore delegato della OpenAi, era impegnato in un’operazione di marketing e racconto del suo prodotto di punta.
Passava dalle petizioni catastrofiste – ne aveva appena firmata una sostenendo che “ridurre il rischio di estinzione rappresentato dalle ia dovrebbe essere una priorità globale insieme con la riduzione di altri rischi come le pandemie e la guerra nucleare” – ai tour in giro per il mondo. Quella volta in India Altman stava conversando con un pubblico di venture capitalist e la sua risposta brillante sembrava proprio da manuale di marketing. È il tipo di risposta retorica che ci si aspetta in un incontro del genere: strappa la risata, è da spaccone, ammicca alla retorica degli startupper che fanno cose impossibili sottolineando, però, la propria superiorità. Criticato, Altman ha poi precisato: “La domanda era se competere con noi con dieci milioni di dollari, cosa che penso davvero sia impossibile”.
Questo episodio è ritornato nelle timeline di molte persone sui social a gennaio 2025, perché è arrivato DeepSeek-R1.
DeepSeek è un modello di intelligenza artificiale generativa sviluppato dall’omonima startup cinese fondata a maggio del 2023 da Liang Wenfeng, un imprenditore che fa parte del fondo di investimento High-Flyer. Il fondo ha circa 7 miliardi di dollari investiti in varie aziende, fra cui proprio la DeepSeek.
Stando a quello che sappiamo fino a questo momento, DeepSeek-R1 offre risposte allo stesso livello di Gpt-4o e degli altri modelli linguistici più efficienti – un’occhiata alla classifica di Lmarena, costruita sulla base di voti anonimi, può servire a farsi un’idea. Non solo: è stato addestrato con un costo di 6 milioni di dollari contro i 100 serviti per addestrare Gpt-4 e consuma circa un decimo. Inoltre, usa chip della Nvidia di qualità inferiore rispetto a Gpt, perché gli Stati Uniti hanno vietato le esportazioni verso la Cina dei chip più avanzati. E ancora: il modello DeepSeek-R1 è anche rilasciato sotto licenza Mit, una delle più permissive in termini di riuso del software.
Questo significa che chiunque può usare il modello per fare altri software, lo può modificare, unire ad altri, lo può ridistribuire, persino commercializzando il nuovo prodotto. Tant’è che Perplexity, un noto motore di ricerca basato su ia, ha immediatamente incluso ricerche anche attraverso il modello cinese. Questo non fa di DeepSeek-R1 un modello interamente open source perché non c’è trasparenza sui dati usati per l’addestramento, ma posiziona tutta l’operazione in netto contrasto con la retorica della competitività statunitense.
In qualche modo, possiamo vedere DeepSeek come una risposta della Cina al riposizionamento nazionalista della Silicon valley.
È anche un bel colpo alla battuta di Altman in India. In effetti, l’arrivo di DeepSeek e il solo fatto che costi meno e consumi meno ha causato un tracollo in borsa di alcune fra le principali aziende statunitensi legate alle ia, fra cui la Nvidia che, in un giorno, ha perso circa 600 miliardi di capitalizzazione. È importante notare che il crollo sul mercato non ha alcuna base tecnica o scientifica: è pura speculazione, perché è così che funziona il capitalismo finanziario.
“Ecco gli indizi per una diagnosi di attacco di panico capitalistico”, scrive il giornalista Ferdinando Cotugno. “Non sono crollati solo i produttori di chip. Constellation Energy, il più grande operatore di centrali nucleari negli Stati Uniti, ha perso un quinto del valore di mercato. In una mattina. Cameco, il più grande trader di uranio al mondo, ha perso il 13 per cento”. Mentre DeepSeek “suggerisce che forse no, l’ia non deve necessariamente essere la catastrofe energetica che immaginavamo, il capitalismo occidentale vive una delle più grandi ondate di panico dell’era recente”.
Però dobbiamo fare “attenzione a non farci trascinare dall’idea che bastino poche risorse” per le ia, ha precisato il professor Giuseppe Attardi su Facebook. “Questo piacerebbe molto ai politici e alle decine di critici dell’ia. Ma DeepSeek ha decine di migliaia di processori e […] centinaia di ricercatori”.
Sam Altman ha ammesso che DeepSeek è un ottimo modello e che la sua azienda dovrà al più presto proporre qualcosa di nuovo: è lecito attendersi a breve operazioni che abbiano a che fare in qualche modo con il modello o3. Poi si è affrettato a pubblicare su X due righe sulla visita alla Helion Energy, la sua azienda per la fusione nucleare, perché la narrazione sulle ia energivore e quella sul nucleare vanno in parallelo.
Contemporaneamente al panico e alle speculazioni è iniziato lo stesso giro di reazioni che abbiamo visto quando è arrivato ChatGpt: prima sono arrivati gli allarmi sul fatto che il modello non risponde su fatti di politica cinese. È una forma di censura, certo. Ma la cosa non sorprende, visto che DeepSeek deve rispettare le regole della Cina secondo cui le ia non devono violare “i valori socialisti” nazionali.
Poi, ecco giornalisti che chiedono a DeepSeek informazioni su se stessi o citazioni letterali per poi stupirsi o lamentarsi se il modello inventa o sbaglia; esperti – o presunti tali – che producono video che spiegano perché “questo cambia tutto”; persone che valutano l’efficacia del modello sulla base di come ha risposto un paio di volte alle loro domande; video tutorial che svelano “tutti i segreti” di DeepSeek e “tutto quello che puoi fare da subito”; infine, ecco il garante per la privacy che dispone la sospensione di DeepSeek per l’Italia (mentre scrivo la app non si può più scaricare, ma la versione web continua a funzionare).
Ho preparato un breve vademecum per resistere a queste reazioni, alla sovrapproduzione di contenuti e al prossimo large language model di cui parleranno tutti, con poca fiducia che serva ma sapendo che, almeno, è un anticorpo.
Questo testo è tratto dalla newsletter Artificiale.
Iscriviti a Artificiale |
Cosa succede nel mondo dell’intelligenza artificiale. Ogni venerdì, a cura di Alberto Puliafito.
|
Iscriviti |
Iscriviti a Artificiale
|
Cosa succede nel mondo dell’intelligenza artificiale. Ogni venerdì, a cura di Alberto Puliafito.
|
Iscriviti |
Internazionale pubblica ogni settimana una pagina di lettere. Ci piacerebbe sapere cosa pensi di questo articolo. Scrivici a: posta@internazionale.it