sabato 11 settembre 2021

AlphaFold: le magnifiche sorti e progressive

Leopardi e DeepMind: non so quanto sarebbe piaciuto al poeta di Recanati questo accostamento. Probabilmente lo avrebbe aggiunto proprio tra gli esempi con cui mettere in ridicolo la fiducia o la fede positivista nel progresso umano o nella bontà della natura che chiama "matrigna" in quella splendida (e forse anche un po' trascurata) poesia che è "La ginestra". Mi è tornato in mente questo celebre verso di Leopardi a proposito del recentissimo annuncio della pubblicazione di un intero database di strutture di proteine ottenute mediante AlphaFold. L'annuncio ha fatto il giro del mondo, accompagnato dalla solita fanfara di "niente sarà più come prima" o "risolto il problema del protein folding" con più o meno miracolistiche visioni di un futuro in cui potremo direttamente inserire in un sito web il codice genetico corrispondente a una proteina per ottenerne non solo la struttura, ma anche i farmaci su misura personalizzati ed efficaci nel contrastarne o migliorarne il funzionamento. Come queste mirabolanti iperboli del giornalismo (?) scientifico (???) riescano a convivere (spesso sulle stesse bacheche) con atteggiamenti di sospetto nei confronti di chiunque tenti onestamente di farci fare un passo avanti nell'eterna lotta tra noi e la natura matrigna con i suoi accidenti, le sue fortune e le sue leggi crudeli di sterminio dei più deboli, resta per me un mistero insondabile. Quindi, Giacomo, perdonami per l'accostamento, ma proprio mi sei scoppiato dentro al cuore all'improvviso, all'improvviso... E con questa facciamo un torto anche a Mina e cerchiamo di capirci qualcosa.
Circa un anno fa si era concluso il CASP14, ovvero la competizione internazionale per la predizione delle strutture di proteine. L'edizione del 2020 (la 14esima) aveva registrato una schiacciante vittoria della squadra "AlphaFold2", che aveva migliorato il precedente algoritmo denominato AlphaFold basato sull'intelligenza artificiale. Anche in quel caso, ne avevano parlato tutti i giornali e ne avevo parlato anche io in una puntata di questo blog intitolata appunto "Cambierà tutto. O no?". In quella occasione, avevo parlato del problema del protein folding, ovvero cercare di ottenere le strutture delle proteine conoscendo soltanto la sequenza degli amminoacidi, esattamente l'obiettivo delle competizioni CASP. Il risultato di AlphaFold ha certamente cambiato le prospettive del protein folding: l'algoritmo si era dimostrato in grado di fornire predizioni accurate e affidabili ben oltre le aspettative. 
Nel campo del protein folding diciamo che AlphaFold ha rappresentato un po' un gattino in una gara tra tartarughe, ma quel gattino potrebbe anche essere il cucciolo di un giaguaro e correre molto veloce. Ed è probabilmente quello che farà nelle sue magnifiche sorti e progressive: in questi mesi AlphaFold2 è stato applicato all'intero proteoma umano, ovvero a tutte le proteine che ci compongono. I risultati sono stati condivisi nel nuovo AlphaFold Protein Structure Database, liberamente accessibile a tutti. Per capire meglio la portata di questo lavoro, dobbiamo ricordare che le strutture delle proteine sono davvero difficili da risolvere con gli esperimenti: richiedono di ottenere un cristallo, sottoporlo ai raggi X che producono la diffrazione, analizzare i dati e sperare che siano coerenti in modo da fornire le coordinate di un numero sufficientemente elevato di atomi. Non sorprende che quindi le strutture risolte e presenti sul Protein Data Bank siano "solo" il 35% delle proteine umane. Non solo: se pensiamo al numero di amminoacidi dei quali si conosce esattamente la posizione, questa percentuale scende al 17%. E parliamo dell'Homo Sapiens, ovvero la specie per la quale (Carramba, che sorpresa!) sono presenti più strutture nel Protein Data Bank. Ebbene, AlphaFold è stato ora applicato all'intero genoma umano, facendo schizzare la percentuale di strutture di proteine umane note da quel ragguardevole e sudatissimo 35% al 98.5%! Dunque se ci fidiamo, e i dati sembrano indicarci che ci sarebbe parecchio da fidarsi, abbiamo a disposizione tutte le proteine umane a cui poterci dedicare per capirne la dinamica, per poter investigare il loro funzionamento, o malfunzionamento e anche per poter comprendere come taluni farmaci si legano più facilmente o meno facilmente, inibendole o aumentandone le prestazioni. 
Le possibilità sono tantissime: per la biofisica computazionale è come se si fosse passati da un Luna Park di paese a un enorme parco divertimenti a tema grande quanto una provincia italiana, con la promessa di estendersi ad un intero continente se o meglio semplicemente quando AlphaFold sarà applicato alle proteine di tutte le altre specie di cui si è sequenziato il genoma. E a tutte quelle il cui genoma è in corso di sequenziamento. Una gran parte di queste proteine, inoltre, sono proprio quelle più difficili da cristalizzare: le proteine di membrana, ad esempio, fondamentali e con implicazioni mediche di ogni tipo, sono poco rappresentate nel Protein Data Bank, proprio per questo motivo. AlphaFold è riuscito a restituire finalmente un database di proteine di membrana che sarà ora un ottimo punto di partenza per i futuri studi. E ancora: pensiamo alle proteine che sono implicate in malattie rare, quelle malattie talmente rare che è difficile trovare case farmaceutiche disposte a finanziarne la ricerca, senza un immediato ritorno economico. Anche per queste, finalmente abbiamo delle strutture con cui partire per esplorarne i meccanismi di funzionamento e malfunzionamento.
Non solo: anche la metodologia con cui AlphaFold è in grado di predire le strutture delle proteine non ancora risolte è stata completamente condivisa con la comunità scientifica mondiale. Sembrerebbe davvero che, almeno da un punto di vista operativo, il problema del protein folding sia stato ormai quasi risolto: il condizionale e il "quasi" sono però necessari, per diversi motivi. Il primo è che un conto è riuscire a predire le strutture, un altro è comprendere, fin nei minimi dettagli, i processi che portano al ripiegamento di proteine, studiando ad esempio come queste ultime raggiungono la loro forma finale e quali sono i problemi che possono incontrare, tutti ovviamente legati a malattie di cui è meglio che la mia ipocondria non sappia nulla. Il secondo è che AlphaFold ha dimostrato di funzionare molto meglio di tutti gli altri metodi finora disponibili, ma gli errori ci sono ancora: le predizioni miglioreranno man mano che aumenteranno anche i dati sperimentali su cui si basa il processo di inferenza automatico di AlphaFold (o apprendimento automatico o "machine learning", in base al livello di impressione che vogliamo fare su interlocutori, follower, finanziatori, amici e amanti). Il terzo è che ci sono regioni delle proteine per le quali non è stato possibile predire con certezza la forma, perché probabilmente corrispondono a regioni intrinsecamente disordinate o perché non esistono segmenti di proteine analoghe con le quali l'algoritmo di AlphaFold ha potuto confrontarsi. 
Resta solo una certezza: avremo tanto, ma proprio tanto da lavorare cercando di non cadere nell'errore di pensare che queste magnifiche sorti e progressive possano davvero renderci più forti e invulnerabili di tutto e tutti, come purtroppo questi ultimi due anni hanno dimostrato, dando ragione al poeta di Recanati che reputava la ginestra "più saggia, ma tanto meno inferma dell'uom, quanto le frali tue stirpi non credesti o dal fato o da te fatte immortali." O da AlphaFold e la biofisica computazionale, aggiungo io, caro Giacomo. E scusami se ho abusato della tua bellissima poesia.

Nessun commento:

Posta un commento