lunedì 11 dicembre 2023

High throughput: cosa, come, quando e perché?

Si sente spesso parlare di metodi high throughput, anche in biofisica computazionale. Ma cosa si intende davvero per metodi high throughput? Sono davvero parte della biofisica computazionale, ammesso che sia possibile stabilirne i confini? E se questi confini esistono, e i metodi high throughput dovessero finire fuori, quanto fuori sarebbero? Ho deciso di rispondere a tutte queste domande, anche se devo premettere che la mia resta sempre una visione molto personale e non ha alcuna pretesa di verità assoluta, ammesso che ne esista una in un campo scientifico così vivace. Vado però con ordine, perché parlare di metodi high throughput richiede almeno una definizione: in generale, per high throughput si intendono tutte quelle analisi scientifiche in grado di svolgere test su un numero molto grande di dati in un tempo ristretto grazie a macchinari e/o strumentazioni automatizzate. La definizione (di wikipedia) però non permette di capire a cosa si riferiscano nel campo della biofisica computazionale.
Che in biologia ormai siano disponibili moltissimi dati è un fatto noto: già dagli anni '70 si era sentita l'esigenza di costruire i primi database di sequenze di basi del DNA che codificano per proteine note, ma anche di strutture di proteine. I dati che si raccoglievano in un anno di lavoro oggi si raccolgono in meno di un giorno: quei database sono letteralmente esplosi, perché contengono un numero impressionante di dati, ma ce ne sono di sempre più specializzati. Navigare attraverso questi database non è sempre facile, a meno che non si disponga di una preparazione adeguata e di tanta pazienza. Pazienza che a noi umani spesso manca, mentre nel caso dei calcolatori risulta essere infinita, anzi: più le operazioni sono metodiche e ripetitive, meglio funzionano i nostri computer. Da questo punto di vista, fanno esattamente le operazioni che per noi umani sono noiose.
Ecco quindi le analisi high throughput: automatizzate, forniscono risposte a moltissime domande in tempi molto rapidi. Ad esempio: quali e quante mutazioni sono presenti per una popolazione di cellule tumorali? Quali sono le più frequenti? Oppure: data la struttura di una proteina, quali farmaci possono legarsi in una sua particolare regione? Bastano pochi minuti di analisi e il computer (o meglio un qualche server) sputa fuori le risposte. Il punto è che queste risposte però sono tutte automatizzate: possono fornire una classifica dei farmaci potenzialmente più efficaci perché si legano più facilmente, ma quel farmaco poi raggiunge davvero la proteina? E per quanto riguarda le mutazioni potenzialmente implicate nell'insorgenza di una massa tumorale, quali conseguenze hanno e quali farmaci potrebbero evitarle? Ecco, su queste domande decisamente più dettagliate, i metodi high throughput non possono rispondere: certo, con gli approcci di apprendimento automatico (o machine learning) è oggi possibile anche formulare domande più complesse alle quali il calcolatore può rispondere, ma per poterlo fare è necessario che abbia già casi simili sui quali fare confronti e questi non sono sempre disponibili.
I metodi che io insegno nel mio corso di Biofisica Computazionale non sono però high throughput, anzi: mi piace proprio l'idea di focalizzare la mia attenzione e tutto quell'arsenale di metodologie, algoritmi, calcoli e trucchi per cercare di capire come funziona una specifica proteina, o come un farmaco molto specifico si leghi a quella proteina in una regione ben determinata. Voglio capire il funzionamento delle biomolecole, andare a fondo, scoprire quale percorso ha fatto la natura per selezionare quel particolare meccanismo, come la fisica possa spiegarne la precisione, e così via... Si capisce che non è un metodo high throughput, anzi è proprio lento e per questo applicabile a un numero decisamente ristretto di strutture proteiche. Se dunque la Biofisica Computazionale è, nella mia interpretazione, la scienza che utilizza i computer per cercare di capire come funziona la biologia attraverso le equazioni della fisica, i metodi high throughput si trovano ben oltre i suoi confini. 
Tuttavia, come spesso accade alle terre di confine, tra metodi high throughput e biofisica computazionale si possono creare delle contaminazioni straordinarie e molto fertili. I primi, per loro stessa natura, sono quelli preferiti dalle case farmaceutiche e da tutte le imprese biotech che proliferano. Il motivo è molto semplice: per un'impresa, il tempo è denaro, servono risposte veloci, anche quando non sono proprio affidabili. Anche quando i metodi high throughput non riescono a fornire la risposta esatta, riescono a realizzare una scrematura dei dati, ad esempio limitando i farmaci di interesse a poche unità, e quindi consentendo che questi farmaci possano essere prodotti e utilizzati in una qualche sperimentazione. La biofisica computazionale, invece, dopo un primo innamoramento da parte delle imprese biotech a inizio anni 2000, è stata progressivamente abbandonata, o meglio: ha resistito soltanto quella parte che è in grado di fornire risposte in tempi rapidi, gli unici compatibili con la continua esigenza di fornire soluzioni da immettere sul mercato. Per una gran parte dei metodi della biofisica computazionale, questo non è (ancora) possibile, anche se è diventato una via praticabile. Resta però l'interesse sia nel mondo accademico, che nei centri di ricerca: a differenza delle imprese biotech, infatti, le università e i centri di ricerca hanno a disposizione una risorsa importante che scarseggia nelle imprese biotech, ovvero il tempo. Non che ce ne sia infinito, ma sicuramente non c'è il fiato sul collo dei portatori di interesse (o stakeholder) che vogliono avere un ritorno per i loro finanziamenti. Nel mondo accademico, il ritorno è sempre la formazione degli studenti e delle studentesse: da questo punto di vista, la biofisica computazionale resta comunque una palestra per chiunque abbia interesse a capire i meccanismi molecolari alla base della vita. 
E allora: perché non sfruttare il tempo a nostra disposizione per studiare alcuni dei casi che i metodi high throughput segnalano? Il vantaggio è duplice: gli studenti hanno la possibilità di imparare questi metodi che potranno poi utilizzare qualora volessero lavorare in un'impresa biotech; inoltre, i metodi high throughput possono segnalare sistemi davvero interessanti, coinvolti in malattie importanti, ma i cui meccanismi possono essere spiegati dalla biofisica computazionale. 
E' questo il motivo per cui, da quest'anno, ho cominciato a inserire qualcosa dei metodi high throughput nel mio programma: perché sì, ormai il corso è alla sua settima edizione, ma non è mai troppo tardi per cambiare, e soprattutto le terre di confine sono da sempre le mie preferite, quelle in cui posso scatenare la mia curiosità mentre assisto a quella contaminazione che le rende così interessanti.

Nessun commento:

Posta un commento