mercoledì 11 maggio 2022

Punto. Due punti. Ma sì, fai vedere che abbondiamo.

Ho recentemente letto un articolo di rassegna a firma di numerosi autori, tra cui, in particolare la professoressa Tamar Schlick della New York University. In effetti, l'articolo è partito proprio da quello che un tempo in Italia sarebbe stato chiamato un "seminario di studio" e che oggi si è evoluto in una delle metodologie didattiche innovative di cui mi sto occupando da un po' di tempo e che spero anche di implementare presto nei miei corsi universitari, un po' alla volta. La professoressa Schlick è molto nota nel campo della biofisica computazionale, sia per le sue ricerche, sia per il suo contributo a fare spesso il punto della situazione nel campo. Il punto e i due punti, un po' come Totò e Peppino nella celebre scenetta della lettera. Di Tamar, ad esempio, è un libro di testo che continuo a consigliare per gli studenti e le studentesse del mio corso di Computational Biophysics qui a Trento che vogliano approfondire la materia. Tamar è partita da un questionario, in cui chiedeva ai suoi studenti di riportare le loro impressioni sui lavori che ritenevano più rappresentativi del campo, sui successi e sui fallimenti che sono stati realizzati e percepiti dall'intera comunità, su quali ritengono siano le linee più promettenti al momento e quali i problemi ancora irrisolti. Naturalmente non si tratta di studenti di un corso di laurea triennale e neanche dei miei studenti della magistrale, ma immagino si riferisca agli studenti del suo laboratorio, quelli che da noi sarebbero i dottorandi. Si tratta di un esercizio che Tamar ha semplicemente ripreso e attualizzato, ma ne aveva già realizzato uno simile più o meno una decina di anni fa. L'articolo è stato pubblicato su una rivista che continua a regalarmi spunti interessanti, ovvero l'Annual Review of Biophysics, con la data di febbraio 2021. E' un articolo lungo, per cui ne darò un quadro molto ridotto, soprattutto relativo agli aspetti meno tecnici che mi hanno portato a riflettere.

Comincio allora da questa figura, che non è affatto semplice, ma ha il pregio di riassumere 50 anni di storia della biofisica computazionale, a partire dai suoi albori negli anni '70, caratterizzati dall'impiego dei primi computer ormai diffusi in diversi laboratori e non solo in quelli dedicati, come invece accadeva nei decenni precedenti. Gli anni '80, anche in questo campo, hanno segnato un picco nelle aspettative, come mostrato in figura, con l'avvento dei primi supercalcolatori che sembravano promettere prodigi che però non sono avvenuti. Infatti, come accade nelle storie d'amore, sono proprio le grandi aspettative a riservare le più cocenti delusioni: gli anni '90 sono infatti segnati sul diagramma di Tamar come la "depressione della disillusione", a cui però è seguita la ripresa solo negli anni 2000, ma con un ritmo molto più lento di quanto ci si attendeva nei ruggenti anni '80. Potrebbe sembrare una cattiva notizia, ma in realtà sono d'accordo con Tamar nel dire che questa lenta ripresa, cominciata a partire dagli anni 2000, sia stata proprio il segnale di una raggiunta maturità dell'intero ambito scientifico. I nuovi progressi tecnologici (come il calcolo distribuito, l'impiego delle veloci schede grafiche e gli impressionanti nuovi supercalcolatori dedicati) hanno permesso di indagare a fondo proprio quei problemi che il settore aveva mostrato negli anni '90. Non si sono ancora trovate le soluzioni per tutti quei problemi, ma per molti sì. La conferma della maturità del settore è avvenuta con il premio Nobel per la Chimica assegnato nel 2013 a Karplus, Levitt e Warshel, veri e propri pionieri delle simulazioni biomolecolari.

A questo punto però è lecito chiedersi: e ora? Dove andiamo? Quali sono i campi più promettenti? E quali i problemi ancora irrisolti? Qui il lavoro di Tamar e dei suoi studenti mette in luce diverse direzioni in cui effettivamente l'intera comunità sta muovendo passi sempre più impressionanti. Sicuramente ormai i tempi di simulazione si sono allungati molto, ma siamo ancora lontani dai tempi biologici. Tuttavia il divario tra i tempi simulati e i tempi corrispondenti ai dati sperimentali si è accorciato notevolmente e, in alcuni casi per proteine piuttosto piccole, siamo arrivati ormai a una sovrapposizione significativa: questo però significa anche che i risultati delle simulazioni stanno ormai affrontando il banco di prova del confronto con i dati sperimentali. E' proprio da qui però che si capisce che il campo è ormai maturo: diventa infatti sempre più difficile pubblicare studi che siano puramente computazionali e i gruppi sperimentali cominciano a guardare con meno sospetto alle simulazioni. Se non altro perché offrono un criterio per formulare delle ipotesi di lavoro, fare congetture sui meccanismi di funzionamento o anche perché consentono di isolare potenziali farmaci molto più velocemente rispetto a un qualunque tentativo umano. In questa direzione, un filone molto promettente è costituito dall'apprendimento automatico o machine learning: qui un primo grande successo è stato ottenuto proprio con AlphaFold2, di cui ho parlato in un post precedente. Con AlphaFold2 siamo ormai in grado di fornire predizioni incredibilmente accurate per qualunque sequenza di amminoacidi: non è la soluzione al problema del protein folding, almeno non quella che ci si attendeva negli anni '80, ma è un buon compromesso. 

Un altro campo importantissimo è quello del coarse graining, ovvero i modelli che permettono di semplificare la struttura delle biomolecole, rappresentandole mediante oggetti che raggruppano più atomi. Anche qui i progressi sono stati notevoli e hanno permesso di spingere il limite temporale delle simulazioni ben oltre il millisecondo. Tuttavia, Tamar non si fa scrupoli ad indicare i problemi anche in questi due campi apparentemente così prolifici. In realtà il problema è uno solo: condividere il più possibile le soluzioni, i risultati e gli algoritmi. Sia per il machine learning che per il coarse graining si assiste molto frequentemente a soluzioni un po' à la carte e prêt a porter (mi si perdoni il francese): ciascun gruppo di ricerca si è fabbricato il suo ma lo condivide molto poco. 

Nella migliore delle ipotesi la condivisione non riesce perché non si hanno a disposizione anche sviluppatori in grado di offrire piattaforme disponibili all'intera comunità scientifica: c'è anche da dire che tali sviluppatori in ambiente universitario sopravvivono poco. In un sistema in cui se non pubblichi semplicemente non esisti, è molto improbabile che queste persone riescano a intraprendere una carriera stabile. Nel privato a volte riescono a ottenere guadagni soddisfacenti, ma a quel punto il software non è più pubblico e diventa poco condiviso. Ci sono però ipotesi peggiori. La prima è in buona fede: non appena il software viene condiviso, si scopre che quel determinato algoritmo funziona per un singolo caso o per pochi casi, ma fallisce miseramente non appena lo si applichi ad altri. La seconda è in cattiva fede: in fondo, è sempre meglio tirar fuori un nuovo modello applicato a pochi, semplici, scontati casi e rimandare ad altri il compito di tentare di applicarlo, magari rendendolo anche un po' oscuro, in modo che sia piuttosto complicato farlo. Lì fuori, diciamo, fa parecchio freddo e non tutti i modelli riescono ad affrontare il gelo del confronto con i dati sperimentali. Del resto, è esattamente quanto è accaduto all'intero campo delle simulazioni biomolecolari negli anni '90. Tuttavia, la lezione che si può evincere dalla rassegna di Tamar e dei suoi studenti è che il confronto con i dati sperimentali non va temuto, anzi va ricercato, perché la scienza fa questo: si confronta con il dato sperimentale, abbandona le teorie che non funzionano, getta le basi per nuovi modelli e nuove teorie che porteranno a nuove scoperte, impensabili prima. 

Ci stiamo provando anche qui a Trento: non mancano le battute d'arresto, non mancano anche i momenti negativi, anche se non li chiamerei "depressione della disillusione". Tuttavia sono rimasto molto contento nel leggere le direzioni indicate da Tamar, perché direi che, nella nostra diversità (che è sempre ricchezza), sono praticamente rappresentate tutte. E probabilmente ce ne saranno anche di nuove: più studenti e studentesse arrivano, più c'è scambio, più aumentano le prospettive, più sinceramente mi diverto. E chissà, magari non scriverò un articolo di rassegna come quello di Tamar, ma tra nuovi metodi didattici e inventiva italiana, sono convinto che, come diceva Totò, a quel punto forse riusciremo ad aggiungere anche il punto e virgola, che non dica che siamo provinciali, che siamo tirati...

Nessun commento:

Posta un commento