mercoledì 11 aprile 2018

La validazione, questa sconosciuta.


Nelle puntate precedenti ho provato, a mio personalissimo modo, a descrivere alcuni degli aspetti caratteristici della biofisica computazionale, intesa come applicazione delle simulazioni molecolari. Questo mese approfitto di un recentissimo articolo, di cui qui a lato riporto l'immagine rappresentativa, per parlare di validazione delle simulazioni molecolari.
Il termine, di per sé, suona già parecchio strano in italiano, tant'è che il dizionario lo riporta come vocabolo derivato dal sostantivo francese validation. Sempre il dizionario (in questo caso ho consultato il vocabolario Treccani online) ci informa che si tratta del "controllo della validità e della correttezza di dati scientifici realizzato attraverso il confronto con regole e dati già noti e attendibili". Risulta chiaro quindi quale sia il problema: nelle puntate precedenti ho parlato dei campi di forza, dei modelli che permettono di rappresentare una realtà così complicata come una molecola biologica sul calcolatore. Trattandosi di modelli, il confronto con l'esperimento è dunque cruciale: da questo confronto deriva dunque la validazione di cui l'articolo, scritto a 14 mani, tratta.
Andiamo però con ordine, però, individuando sei punti che è necessario considerare, per poter procedere alla validazione dei modelli utilizzati in biofisica computazionale. Il primo riguarda l'accuratezza del dato sperimentale con il quale si vuole confrontare il risultato delle simulazioni. Non sono mai stato un fisico sperimentale, ma ci sono alcuni aspetti della fisica sperimentale che mi sono sempre piaciuti. Uno di questi è proprio la cosiddetta analisi degli errori. Infatti dalla fisica sperimentale si impara che esistono due tipi di errori: l'errore cosiddetto sistematico, dovuto a un problema del dispositivo utilizzato per compiere l'esperimento o alla semplice imperizia di chi compie l'esperimento e l'errore casuale, dovuto all'impossibilità di ottenere esattamente lo stesso risultato nel momento in cui si ripete l'esperimento: ci sono sempre fattori casuali che fanno sì che il risultato di una nuova operazione di misura risulti leggermente superiore o leggermente inferiore a quello della stessa operazione compiuta precedentemente. Discorso a parte riguarda la sensibilità dello strumento, rappresentata in figura: un righello che segna il millimetro ci permette di misurare una lunghezza di 2,5 cm o al più di 2,55 cm ma non potrà mai permetterci di affermare che un oggetto è lungo 2,57 cm. 
Molto si può e si deve fare per eliminare l'errore sistematico, ma nulla si può fare contro l'errore
casuale: mi è sempre piaciuto trasportare questo concetto anche nella vita quotidiana, dove assume quasi una connotazione zen. Ci sono infatti situazioni (e persone!) che possiamo trattare come errori sistematici: una volta individuati, vanno sicuramente risolti (di proposito non ho voluto usare la parola "eliminati") e MAI ripetuti. Altre situazioni e persone invece sono errori casuali: la fisica ci insegna che questi non potranno mai essere eliminati. Tuttavia in realtà l'errore casuale può tornare utile: ripetendo tante volte l'esperimento, possiamo infatti farlo diventare piccolo a piacimento, naturalmente sempre entro i limiti definiti dalla sensibilità dello strumento. Un po' come dire che con l'età, avendo ripetuto tante volte gli esperimenti, l'errore casuale diventa sempre meno importante, sicuramente contenuto entro la nostra sensibilità, o saggezza, che dir si voglia.
Ludwig Boltzmann (1844-1906),
tra i fondatori della Meccanica Statistica
Secondo aspetto, non meno importante: la quantità sperimentale deve essere confrontata con un dato proveniente dalla simulazione. Non sempre è facile capire come calcolare questa quantità a partire dai dati di una simulazione. In altre parole, supponendo per esempio di conoscere tutte le posizioni e le velocità delle molecole che si trovano all'interno della stanza in cui state leggendo questo mio maldestro tentativo di spiegare un articolo scientifico, sapreste calcolare esattamente la temperatura e la pressione della stanza? La materia che amo e che ho l'onore di insegnare qui a Trento, la Meccanica Statistica, ci fornisce dei metodi per determinare queste quantità, ma non sempre è così facile applicarli: nel caso di temperatura e pressione, direi che non è troppo difficile, ma non lo farei mai con carta e penna!
Terzo aspetto: quanto è sensibile quello che stiamo misurando rispetto alle posizioni e alle velocità delle componenti del sistema? Sempre sfruttando le povere molecole all'interno della stanza in cui state leggendo in questo momento, supponiamo di voler calcolare la densità media dell'aria nella stanza. La densità non è altro che il rapporto tra il numero totale di molecole e il volume della stanza: se la finestra e la porta sono sigillate e prive di spifferi, questo numero non dipende da dove si trovano le molecole o dalle loro velocità: stiamo dunque misurando una quantità che sarà sempre la stessa a prescindere da cosa facciano le molecole. La densità quindi, in questo caso, non è un buon parametro per la validazione del modello che stiamo utilizzando.
Quarto aspetto: il tempo. Al tempo ho già dedicato un post precedente, pertanto non mi dilungherò su questo. Tuttavia è importante fare in modo che quello che cerchiamo di confrontare abbia un senso dal punto di vista temporale: se la simulazione di cui parliamo corrisponde a un milionesimo di secondo, sarà molto difficile osservare fenomeni che avvengono su scale temporali dell'ordine del minuto. Ogni tentativo di confrontare i risultati della simulazione con i dati sperimentali, in questo senso, corrisponde a cercare di capire come sarà il tempo a Pasquetta tra un secolo: e sono stato fin troppo ottimista perché l'esperienza ci insegna che a Pasquetta normalmente piove!
Quinto aspetto: fino a che punto ciò che calcoliamo e la quantità sperimentale sono equivalenti? In altre parole, se di confronto si tratta, dobbiamo assicurarci che la quantità che abbiamo misurato sperimentalmente sia confrontabile con quella che poi calcoliamo nelle simulazioni: un tipico caso è quello dell'entropia. L'entropia (ce lo ripetono a scuola nei corsi di fisica) misura il grado di disordine di un sistema. E fin qui non è difficile: chi è entrato in casa mia sa che l'entropia è praticamente mia moglie. Un po' più sottile è però il modo in cui si calcola l'entropia, e mi piace riportarvelo con questo esempio. Prendete un maniaco dell'ordine, evitando quindi di citofonare a casa mia: metterà ogni oggetto al suo posto e ogni singolo oggetto avrà un unico suo posto ben determinato. In quanti modi potrà realizzare quell'ordine? Uno ed uno solo: ogni oggetto deve stare al suo posto, appunto. Ora supponiamo che io entri in questa casa per me fantascientifica: comincerò a spostare oggetti, utilizzarli e lasciarli in giro e potrò farlo in tantissimi modi. Più sono gli oggetti, più aumentano i modi in cui mi sarà possibile disordinare la stanza (non avete idea!). In altre parole l'ordine è uno solo: i disordini, o meglio, i casini sono tantissimi.
Ecco, l'entropia misura proprio questo: il numero corrispondente ai possibili casini! E lo fa utilizzando una funzione, il logaritmo, che ha una fantastica proprietà: il logaritmo di uno è zero, quindi nel caso del nostro amico con l'ordine maniacale, ci sarà una sola possibilità di sistemare gli oggetti nella stanza e l'entropia di quella stanza sarà rigorosamente zero. Nel mio caso invece sarà parecchio alta: non troppo, perché il logaritmo ci fa un favore in quanto cresce molto meno rispetto al numero di casini: ecco, quanto sarebbe bello un logaritmo nella vita!
Il problema è che uno non sa quanti possibili casini ci siano finché non ci finisce dentro! Una misura sperimentale di solito prende un po' di tempo e quindi permette di esplorare un certo numero di casini. Lo stesso non vale per una simulazione che resta comunque molto limitata nel tempo. Va da sé dunque che in presenza di quantità che coinvolgono l'entropia non sarà facile confrontare dati sperimentali con dati provenienti da una simulazione.
Sesto e ultimo punto: le condizioni in cui sono state ricavate le due quantità sono le stesse? Questo
problema sembrerebbe meno difficile da tenere sotto controllo: in fondo in una simulazione di solito fissiamo la temperatura, la pressione e le condizioni, in modo da rappresentare il più possibile la situazione sperimentale. Tuttavia il problema è che un esperimento in biologia riguarda sistemi davvero complicati: ad esempio è importante determinare la quantità di sale e il tipo di sale presente nella soluzione in cui compiamo l'esperimento. E fin qui possiamo anche farcela: come ce la caviamo però con gli esperimenti che avvengono all'interno di una cellula, in un ambiente decisamente molto affollato e in continuo movimento, come quello rappresentato qui a lato? E siamo poi proprio sicuri che la struttura della proteina o della molecola biologica da cui siamo partiti sia proprio quella implicata nell'esperimento? Ci sono davvero tantissimi fattori da tenere sotto controllo e non sempre è facile individuarli.
Spero di aver reso l'idea di quanto sia importante e difficoltosa la validazione, talmente complicata che molto spesso viene ignorata o data per scontata: in fondo, se un metodo è talmente popolare, perché metterlo in discussione? Mi piace tuttavia moltissimo la conclusione dell'articolo che riporto con la mia traduzione in italiano: "Notiamo infine che la popolarità non è un criterio di validazione adatto. Nonostante sia evidente una tendenza verso una politica avulsa dai fatti in molti Paesi, la comunità accademica DEVE (c'è un bel "must" in inglese) evitare qualunque passo nella direzione di una scienza avulsa dai fatti o avulsa dalla validazione". Niente altro da aggiungere, per questo mese.

Nessun commento:

Posta un commento