I computer svelano i segreti delle proteine

Per capire la vita bisogna capire le proteine. È infatti a queste catene molecolari, ricavate dal variegato assemblaggio di venti tipi di legami chimici noti come amminoacidi, che la biologia affida la maggior parte dei suoi processi. Sotto forma di enzimi catalizzano le reazioni chimiche che permettono a un corpo di funzionare. L’actina e la miosina, le proteine dei muscoli, gli consentono di muoversi; la cheratina gli fornisce pelle, peli e capelli; l’emoglobina gli porta l’ossigeno; l’insulina ne regola il metabolismo; e la proteina spike favorisce l’invasione dei coronavirus nelle cellule umane, fermando intere economie.

Ottenere l’elenco degli amminoacidi che formano una proteina è facile: da decenni ci sono macchine capaci di farlo. Ma questo non basta a capirne il funzionamento. Quello che una proteina fa, e come lo fa, dipende anche dal modo in cui, dopo la sua creazione, si piega per assumere la sua complessa forma finale.

chiara dattola

Per individuare la forma di una proteina i biologi molecolari si affidano a tecniche empiriche come la cristallografia a raggi X, che però è complicata e richiede tempo. La buona notizia è che potrebbe essere stata ideata una tecnica molto più semplice. Il 30 novembre i ricercatori del laboratorio d’intelligenza artificiale
DeepMind della Alphabet, l’azienda che controlla Google, hanno presentato i risultati di uno studio che potrebbe rispondere a uno dei più importanti quesiti della biologia, e cioè come usare i computer per prevedere la forma di una proteina avendo solo l’elenco dei suoi amminoacidi.

Anche se ai non addetti ai lavori potrebbe sembrare una scoperta a metà tra l’arcano e il noioso, si tratta di una conquista enorme. Sostituire mesi di esperimenti con qualche ora di elaborazione dati potrebbe aiutare a far luce sui meccanismi meno noti delle cellule, accelerare la messa a punto dei farmaci e soprattutto individuare cure per malattie come l’alzheimer, in cui probabilmente hanno un ruolo le proteine deformate.

L’idea di usare i computer per prevedere la struttura delle proteine risale a cinquant’anni fa. Da allora ci sono stati passi avanti, anche se lenti, spiega Ewan Birney, vicedirettore del Laboratorio europeo di biologia molecolare, un istituto di ricerca internazionale con sede in Germania. Ma ci sono stati anche molti errori e dichiarazioni di vittoria avventate.

Competizione biennale

Oggi la previsione della forma delle proteine misura i suoi progressi in base alle prestazioni degli algoritmi del Critical assessment of protein structure prediction (Casp), un esperimento-competizione biennale nato nel 1994 e chiamato scherzosamente “l’olimpiade delle proteine”. Gli algoritmi sono sottoposti a test per valutare la loro capacità di prevedere la forma di proteine che hanno una struttura nota. Al Casp di due anni fa il DeepMind si è presentato con l’algoritmo AlphaFold, che a sorpresa ha dominato la competizione. L’attuale versione, AlphaFold 2, è ancora più efficace. Uno degli eventi principali è il Global distance test, che confronta le posizioni previste e reali occupate dagli atomi in una struttura molecolare, assegnando agli algoritmi un punteggio da zero a cento. AlphaFold 2 ha ottenuto una media di 92,4 punti, un grado di accuratezza che secondo John Moult, biologo dell’università del Maryland e ideatore del test, è paragonabile ai risultati ottenuti dalla cristallografia a raggi X.

Finora il laboratorio DeepMind era conosciuto soprattutto per aver insegnato ai computer a giocare, in particolare a go. Ma secondo uno dei suoi fondatori Demis Hassabis, tra il ripiegamento delle proteine e il go ci sono più affinità di quanto si pensi. Per esempio, l’inutilità di ricorrere alla “forza bruta” computazionale. Sulla scacchiera del go è possibile disporre le pedine in circa 10170 combinazioni diverse, molte più degli atomi presenti nell’universo osservabile, e questo va oltre la portata di qualunque computer, a meno che non si trovino delle scorciatoie. Le proteine sono perfino più complicate. In teoria una proteina mediamente complessa può assumere 10300 forme diverse. Quella finale è il risultato dell’equilibrio di varie forze su scala atomica che agiscono all’interno degli amminoacidi, tra un amminoacido e l’altro e tra gli amminoacidi e le molecole circostanti, soprattutto di acqua. Dato che sono operazioni di notevole complessità e difficile misurazione, è evidente che, come nel go, l’unico modo per prevedere il ripiegamento delle proteine è cercare delle scorciatoie.

I progressi ottenuti dai computer negli anni dimostrano che le scorciatoie esistono. E a quanto pare perfino persone inesperte possono imparare questi trucchi. Hassabis dice di essere rimasto colpito dai risultati ottenuti da alcuni non addetti ai lavori a FoldIt, un videogioco scientifico lanciato nel 2008 in cui bisogna piegare le proteine e che ha prodotto vari articoli e scoperte.

I giocatori di FoldIt non sono in grado di spiegare con esattezza i loro risultati. Ed ecco un’altra affinità con il go: in entrambi i casi, invece di descrivere nel dettaglio la loro strategia, i giocatori tendono a parlare in termini generici di “intuito”. E qui s’inserisce l’apprendimento automatico. Fornendo gli esempi sufficienti, i computer imparano e applicano scorciatoie e regole empiriche, come quelle che usiamo noi e che fatichiamo a esprimere a parole. A volte le macchine hanno intuizioni che sorprendono gli esperti.

Anche altri gruppi di ricerca che hanno applicato l’apprendimento automatico alla questione della struttura delle proteine hanno notato progressi incoraggianti. Cos’abbia permesso al DeepMind di vincere la competizione non è chiaro, ma il laboratorio ha promesso un articolo tecnico con i dettagli.

Le sequenze di amminoacidi conosciute sono circa 180 milioni, ma quelle di cui la scienza ha individuato la struttura sono appena 170mila. Aumentando il numero, dice Moult, si potrebbero valutare i potenziali farmaci per capire quali si legano bene a una specifica proteina, riesaminare i farmaci esistenti per capire cos’altro sono in grado di fare e potenziare la biologia di sintesi accelerando la creazione di proteine artificiali in grado di catalizzare le reazioni chimiche.

Alcune importanti conquiste sono già avvenute. AlphaFold 2 ha previsto la struttura di alcune proteine usate dal virus sars-cov-2, compresa la spike. “C’è ancora molto lavoro da fare, ma vedendo questi risultati sono quasi caduto dalla sedia”, conclude Birney. ◆ sdf

Internazionale pubblica ogni settimana una pagina di lettere. Ci piacerebbe sapere cosa pensi di questo articolo. Scrivici a: posta@internazionale.it

Questo articolo è uscito sul numero 1388 di Internazionale, a pagina 108. Compra questo numero | Abbonati

I computer svelano i segreti delle proteine

Da non perdere

Entra