21 aprile 2016 14:59

Omar Wagih è uno studente di bioinformatica di 24 anni, di Toronto, che studia a Cambridge, nel Regno Unito. Come tutti quelli che si occupano di bioinformatica, neuroscienze e infinite altre discipline, Omar ha spesso a che fare con grafici di dispersione, la rappresentazione di una serie di dati su un piano cartesiano che descrive la correlazione tra due variabili, una sull’asse orizzontale e una su quello verticale.

Interpretare un grafico di dispersione

Esempio ipotetico. Chi vive vicino ai corsi d’acqua corre più rischi di contrarre il virus zika? Raccolti i dati sui numeri di persone contagiate da ospedali e ambulatori nell’area interessata dall’epidemia, sull’asse orizzontale metto la distanza dall’acqua da -50 chilometri a 0 (chi vive sull’acqua); sull’asse verticale metto il numero di casi ogni mille abitanti, e ogni punto è un centro sanitario dove ho raccolto i dati. Il grafico che ne emergerà mi dirà quanto le due variabili sono correlate, così da permettermi – ipotizziamo – di tenerne conto mentre ridistribuisco il supporto sanitario. Se la correlazione è alta, vicina a uno, i punti sono distribuiti quasi lungo una retta, mentre se sono sparsi a caso sullo schema significa che le variabili non sono correlate, il numero è vicino allo zero, la diffusione del virus è indipendente dalla presenza di acqua. Ribadisco, è un esempio.

Leggere un grafico di dispersione non è facile, e per questo Omar Wagih lo scorso dicembre ha inventato Guess the correlation, un gioco di interpretazione di grafici di dispersione. Gtc invita a osservare un grafico e ipotizzare la correlazione indicando un numero a due decimali tra zero (nessuna correlazione) e 1 (correlazione totale).

Guess the correlation attecchisce molto presso le facoltà scientifiche

Il gioco prende in prestito le monete, i cuori e gli effetti sonori da una vecchia versione di Super Mario Bros, ma questa è l’unica concessione all’intrattenimento. Il resto è intuito, tigna e grafica elementare. Se con il numero si va molto vicini alla realtà, si guadagnano monete e anche una vita; se si sta vicini ma non così tanto, si guadagna solo una moneta; se ci si discosta troppo dal valore reale, si perde una delle tre vite. Con un gruppo di amici sono riuscito ad arrivare intorno ai 300 punti, ma i veri maestri, che vedono i dati osservando dei punti quasi come Neo vede la matrice in Matrix, sono su altri livelli. Mentre scrivo il record è di 1.702.

Guess the correlation è forse il gioco più nerd di sempre, e infatti attecchisce molto presso le facoltà scientifiche delle università di tutto il mondo. L’autore però non è molto forte: il suo record è 132.

“Se fai il ricercatore, vedi grafici di dispersione tutti i giorni, siano essi in un articolo che stai leggendo, in un resoconto sperimentale o generati da te. Ma nonostante questo, interpretare questi diagrammi a occhio nudo è difficile”. Omar ci risponde dal Wellcome genome campus, il centro di ricerca fuori Cambridge che ospita l’Istituto europeo di bioinformatica dove sta preparando una tesi di dottorato sulle mutazioni genetiche nei lieviti. “Ho programmato il gioco all’inizio di dicembre l’anno scorso”, racconta, “e ci ho messo circa una settimana per arrivare a una versione funzionante. Più avanti ho aggiunto la modalità sfida a due giocatori e il tabellone dei punteggi”.

Il voto e il matrimonio

In pochi mesi sono state aperte 340mila sessioni di gioco a Gtc. Omar sta ovviamente raccogliendo i dati forniti dalle partite: “I dati serviranno per capire meglio quali strutture nei grafici portino le persone a sottovalutare le correlazioni, e approfondire il tema della percezione umana. Voglio anche analizzare il modo in cui i giocatori migliorano man mano che giocano. In teoria la percentuale di errore dovrebbe crollare anche dopo solo mezz’ora di gioco”.

Basta una decina di risultati accurati per restare incollati al gioco

In effetti per chi non ha mai dovuto affrontare diagrammi come questi, l’inizio è disastroso. Ma dopo una prima fase a tentoni, si comincia a stimare sempre meglio. Dopo qualche ora si azzardano numeri con due decimali, e qualche volta si indovina il valore esatto. Basta una decina di risultati accurati, misti alla semplicità ossessiva della dinamica di gioco (una specie di slot machine dell’interpretazione statistica), per restare incollati. È anche in preparazione una versione più sofisticata di Gtc, per telefoni o sempre per browser, con livelli di difficoltà e trofei.

Saper vagamente leggere un grafico di dispersione è importante anche solo per capire il modo in cui gli scienziati analizzano e interpretano la realtà, oltre che per fare un po’ di pace con la statistica se non la si è mai studiata a scuola. Per intenderci, in questo articolo del New York Times si mette in relazione il risultato alle ultime presidenziali statunitensi, quelle del 2012, a favore di Obama o di Romney, con la propensione al matrimonio. Dopo avere passato qualche serata con gli amici su guessthecorrelation.com, ho capito che se fossi statunitense probabilmente non mi sposerei. O qualcosa del genere.