La cosa sorprendente per chi gioca è che anche in presenza di pochi tratti fatti male il modello riesce a indovinare cosa rappresenta lo scarabocchio. Perché succede? Il modello di Quick, draw! non ha bisogno di un disegno preciso, realistico o dettagliato: gli bastano alcuni elementi ricorrenti per formulare un’ipotesi plausibile, perché la rete neurale che lo alimenta è stata addestrata su milioni di disegni simili, raccolti da persone di tutto il mondo.

Funziona così: il sistema propone al giocatore una parola – per esempio “gatto” o “bicicletta” o “tartaruga marina” – e dà venti secondi di tempo per disegnarla. Nel frattempo, una rete neurale prova a indovinare cosa sta emergendo sullo schermo, osservando il tratto in tempo reale. Quando pensa di aver capito, lo dice. Procede per tentativi, velocissimi, tipo: “Credo sia un cane”, “Forse è una pizza”, “È una bicicletta!”. Se riesce a indovinare, si passa al disegno successivo. Se fallisce, la partita continua comunque fino alla fine del turno. Il ciclo si ripete per sei parole diverse, alla fine delle quali si possono rivedere i propri disegni, confrontarli con quelli di altre persone e, volendo, riprendere a giocare.

Ogni tratto disegnato contribuisce a migliorare l’addestramento del modello e ad arricchire un archivio visivo che contiene migliaia di versioni diverse della stessa cosa, moltiplicata per tate cose diverse: migliaia di gatti stilizzati, di biciclette storte, di tartarughe marine abbozzate.

​​Quando un nuovo disegno viene tracciato, il modello lo confronta con le forme che ha già visto. Cerca schemi noti, sequenze familiari, combinazioni di linee che abbiano una certa probabilità di corrispondere a una parola. E, se trova una corrispondenza sufficientemente forte, scommette su quella.

È come se, invece di capire cosa stai disegnando, la macchina si chiedesse: “Questa cosa somiglia più a un elefante o a una scarpa?”. E decidesse sulla base di tutte le scarpe e tutti gli elefanti che ha già visto.

È importante ricordarci che il modello che interpreta gli scarabocchi non “capisce” davvero cosa vede, almeno, non nel senso umano della parola “capisce”. La rete neurale riconosce somiglianze, individua sequenze di tratti che ricorrono, confronta ciò che appare sullo schermo con ciò che ha già visto. È un processo statistico, per il momento non è semantico, anche se non possiamo escludere che lo diventerà in futuro, con le evoluzioni di questi strumenti. Ma anche da modello statistico funziona, e funziona bene.

Non solo. Oggi contiene anche una delle collezioni più vaste al mondo di disegni stilizzati: più di cinquanta milioni di immagini. Uno dei meriti del progetto è l’aver reso disponibile tutto il dataset, che oggi viene usato per scopi anche molto lontani da quelli originari. L’archivio alimenta ricerche in ambito educativo e cognitivo, viene impiegato nello sviluppo di strumenti di accessibilità per la comunicazione visiva, è utilizzato per insegnare alle macchine a interpretare schizzi in applicazioni tecniche, artistiche, commerciali. Gli stessi modelli che aiutano una persona a scrivere con simboli o che riconoscono la scrittura su dispositivi mobili si sono addestrati anche lì, tra una banana mal disegnata e un elefante stilizzato.

A proposito di domande intelligenti da farsi, uno dei ragazzi del pubblico di Internazionale Kids ha chiesto: “Ma se è l’ia a dirmi cosa devo disegnare, come faccio a sapere che non stia barando?”. Ammetto che lì per lì ho semplificato la risposta. Qui mi posso prendere il tempo di rispondere in maniera più articolata. Il software che chiede di disegnare un certo oggetto non comunica direttamente con l’ia. La sequenza è questa: il software propone un concetto da rappresentare, poi la rete neurale osserva in tempo reale ciò che compare sullo schermo, confrontandolo con il proprio archivio. E decide, sulla base di quanto ha appreso, se quello che sta vedendo somiglia a un fiore, a un razzo o a un cane.

Ma la domanda resta legittima, perché evidenzia un punto spesso trascurato: nei sistemi chiusi e non verificabili, anche la fiducia diventa una questione tecnica. Chi controlla l’interfaccia? Come possiamo sapere che ciò che vediamo non sia il risultato di una manipolazione e che la macchina non stia affatto barando? E cosa succede quando quel tipo di opacità si trasferisce in applicazioni più delicate?