E' stata un po' la notizia del mese sul fronte scientifico, con toni più o meno sensazionalistici, come sempre. La notizia è che il consorzio DeepMind (che dal 2014 è entrato a far parte di Google) ha ottenuto risultati davvero senza precedenti nella 14esima edizione della competizione CASP, che sta per "Critical Assessment of protein Structure Prediction" ovvero "Valutazione critica della predizione di strutture di proteine". E da qui l'affermazione: cambierà tutto. E' vero? Cambierà davvero tutto? Provo a ragionare, ovviamente offrendo una mia visione molto parziale delle cose e cercando di spiegare un po' quello che so del problema scientifico e quello che ho capito della metodologia applicata.
Anzitutto: il problema ha praticamente la mia età, dato che al biochimico Christian Boehmer Anfinsen Jr. (raffigurato nella fotografia qui sopra) fu riconosciuto il premio Nobel per la chimica nel 1972: aveva dimostrato con i suoi lavori che tutto quello che occorre per determinare la struttura di una proteina è la sequenza degli amminoacidi che la compongono. Le proteine, infatti, sono in grado di ritrovare la loro forma, quella che è necessaria per il loro funzionamento, anche senza i complessi macchinari cellulari. A questo punto, per Anfinsen fu abbastanza naturale porre un problema, nella convinzione che potesse essere risolto di lì a poco: data la sequenza di amminoacidi, le leggi della fisica possono determinare la struttura di una qualunque proteina. E' il problema del protein folding: sembrava alla portata, nel 1972. In realtà ci stiamo finalmente e faticosamente avvicinando a risolverlo oggi, 48 anni dopo. Come mai?
Se volessi procedere per generalizzazioni come noi fisici amiamo tanto fare, il problema è proprio che in biologia è davvero difficile procedere per generalizzazioni. Più ci proviamo, meno capiamo della biologia e ancora meno della biochimica. Se è sempre valido il detto popolare che il diavolo è nei dettagli, direi che la biochimica è davvero una materia diabolica. Sì, la fisica riesce a individuare alcuni principi generali del protein folding, come per esempio il cosiddetto collasso idrofobico, ovvero la tendenza di alcuni amminoacidi a evitare l'acqua e quindi ad interagire fra loro formando la struttura centrale (il "core") della proteina, attorno alla quale si organizzano gli altri amminoacidi, quelli che non hanno problemi a interagire con l'acqua. Negli anni '70 e '80 in effetti diversi gruppi hanno cercato di stabilire ricette per il protein folding, anche perché erano anni in cui i computer stavano davvero promettendo miracoli: il punto è che ogni gruppo lanciava un articolo in cui sosteneva di essere arrivato molto vicino alla risoluzione del problema perché aveva lavorato su una o due strutture proteiche, le cui strutture magari erano già note. Puntualmente i metodi proposti fallivano non appena altri gruppi tentavano di applicarli a proteine diverse da quelle per i quali erano stati pensati: col senno di poi, e soprattutto col senno di oggi, diremmo che il problema è proprio nella natura intrinsecamente diabolica della biochimica. Nel senso dei dettagli, eh? Non vorrei incidenti diplomatici con i biochimici con cui vado tra l'altro molto d'accordo. Certo, c'è anche chi ha pensato che i risultati mostrati fossero solo quelli positivi e che i gruppi non mostrassero quelli negativi. La scienza è soprattutto un percorso umano e ne conosce tutte le altezze e le bassezze, come la storia degli influencer in virologia ci ha insegnato in questo anno che volge alla fine e che speriamo di non dover proprio rimpiangere.
Per questo John Moult si fece promotore, nel 1994, di un programma per confrontare i metodi di predizione di strutture di proteine, il CASP appunto. Funziona così: per conoscere le strutture delle proteine, l'unico metodo è sempre quello sperimentale. Ai faticosissimi esperimenti con i raggi X, negli anni, si sono aggiunti anche esperimenti NMR (risonanza magnetica nucleare) e, più recentemente, di crio-elettromicroscopia. Ciascuno di questi metodi ha i suoi pro e i suoi contro, ma tutti hanno dei costi non banali, non solo in termini economici, ma anche in termini di tempo. Nel CASP alcuni gruppi di ricerca si dicono disponibili a risolvere la struttura di alcune proteine: si tratta di proteine di cui hanno già determinato la struttura o, per esempio, sanno già che si potrà determinare a breve la struttura perché sono riusciti a trovare le condizioni per formare un cristallo che possa poi essere analizzato ai raggi X. Di queste proteine viene fornita solo la sequenza, senza altre informazioni. A questo punto, le sequenze sono rese pubbliche e chiunque (proprio chiunque) può liberamente tirare a indovinare, sia con metodi computazionali e teorici, sia anche (eventualmente) leggendo nelle sfere di cristallo, almeno in linea di principio.
A questo proposito, mi piace ricordare una figura italiana molto importante nella comunità del CASP, che davvero è stata la prima persona a cui ho pensato quando ho letto della performance strabiliante di DeepMind. Si tratta della professoressa Anna Tramontano, che purtroppo ci ha lasciato tre anni fa. Ho avuto il piacere di incontrarla nel 2003 ad una conferenza a Trieste: con la sua simpatia e quella passionalità che riusciva a mescolare i tratti più caratteristici di Napoli (sua città di nascita) e Roma (sua città di adozione), a proposito del CASP 5 diceva "sì, c'è stato un gruppo che ha lavorato meglio degli altri, pare che ci sia Tizio Caio (metto un nome a caso) che vede le sequenze e indovina dove mettere gli amminoacidi e poi da lì fanno qualche ottimizzazione con metodi computazionali. Bene, bravissimi: il problema è che però io Tizio Caio nel mio laboratorio non ce l'ho. Voglio determinare le strutture, mica lo posso produrre in serie e spedire per posta a tutti i laboratori che hanno bisogno di fare il folding. Nè me lo posso installare sull'hard disk e farlo funzionare. Quindi bravi ma alla comunità del protein folding non servite a niente." E, nel dirlo, si stringeva nelle spalle e accendeva l'immancabile sigaretta.
Beh, professoressa Tramontano, pare che DeepMind sia proprio riuscito a fare quello che lei voleva: ha costruito il Tizio Caio virtuale, si chiama AlphaFold e ora potremmo in linea di principio installarlo su dei computer abbastanza potenti per determinare la struttura delle proteine, data la sequenza. AlphaFold si basa su un meccanismo di Intelligenza Artificiale e ha mostrato un'impressionante capacità, surclassando tutti gli avversari, come si può vedere nella figura qui a lato, presa dalla prestigiosa rivista Nature. In figura si nota già che si tratta di AlphaFold 2: in effetti un primo AlphaFold aveva già vinto il CASP del 2018, ma il punteggio ottenuto da AlphaFold 2 nel 2020 è davvero impressionante: poco sotto la soglia di 90 punti che, in questo particolare gioco, viene considerato come un punteggio oltre il quale non c'è modo di distinguere predizione teorica e dato sperimentale.
Tuttavia quello che fa AlphaFold non è molto diverso dal famoso Tizio Caio, ma lo fa su centinaia di migliaia di strutture, codificando quello che per Tizio Caio avremmo definito una straordinaria capacità di intuito.
Questo cambierà tutto? Sì: se l'accuratezza con cui AlphaFold 2 prevede le strutture è davvero comparabile, come sembra, con quella sperimentale, non sarà più strettamente necessario spendere tanti soldi e tanto tempo nel determinare le strutture delle proteine sperimentalmente. Inoltre si potranno studiare tutte, ma proprio tutte le proteine: per la biofisica computazionale si aprono quindi intere praterie di studi, territori inesplorati in cui davvero non vedo l'ora di addentrarmi.
E però anzitutto AlphaFold 2 (e immagino ci sarà anche un AlphaFold 3) non chiuderà il capitolo della Biologia Molecolare: ci sarà ancora bisogno di esperimenti che confermino che quella di AlphaFold non sia stata una fortunata coincidenza. Inoltre, AlphaFold 2 ha costruito la sua esperienza sulle strutture note, che però sono una piccola parte rispetto a tutte le proteine codificate dal genoma umano. Chi ci dice che funzionerebbe altrettanto bene, ad esempio, per le proteine di membrana, o per quelle che subiscono le cosiddette modifiche post-traslazionali? Infine, AlphaFold 2 non è (ancora) in grado di prevedere come più strutture proteiche formino i loro aggregati e su questo ci sarà ancora moltissimo da lavorare. E cosa dire poi delle proteine che possiedono più di una struttura per svolgere la loro funzione? O di quelle intrinsecamente disordinate? E quando anche fossimo in grado di determinare la struttura, sapremmo come quella proteina si è formata? Come svolge la sua funzione? Sono tutte domande importanti, perché a queste domande sono legate molte delle malattie che ci affliggono. Temo, anzi no, sono sicuro che Alpha Fold 2 sia solo l'inizio della soluzione al problema di Anfinsen: per dirla come i matematici, Alpha Fold 2 ci dimostra che la soluzione esiste. Ma probabilmente non è l'unica, e soprattutto i dettagli ci interessano. Quello che è certo è che si tratta davvero di un bel momento in cui affacciarsi nel campo della biofisica computazionale: ci sarà da lavorare per molte persone e per molto, moltissimo tempo. Speriamo di poter tornare a farlo in presenza in questo nuovo anno.


Nessun commento:
Posta un commento