La "saggezza delle masse" per studiare le reti di geni. Ce la spiegano Alberto De La Fuente, Vincenzo De Leo, Andrea Pinna e Nicola Soranzo.

Il valore della conoscenza collettiva di una comunità umana è superiore alla somma delle conoscenze individuali. Sulla base di questo concetto un gruppo di ricerca internazionale ha sviluppato un approccio inedito per affrontare una delle sfide più impegnative nel campo della biologia molecolare e computazionale: scoprire e modellare reti di geni. Approccio reso possibile dall'evoluzione tecnologica ma anche dall'affinamento concettuale.
Lo studio, pubblicato su Nature Methods il 15 Luglio 2012 con il titolo "Wisdom of crowds for robust gene network inference", ha portato a ottenere una rete genica migliorata per l'organismo Escherichia coli e una rete genica completamente nuova per il batterio patogenico Staphylococcus aureus
Per cercare di capire il valore di questo studio ho interpellato quattro degli autori: Alberto de la Fuente (CRS4), Vincenzo De Leo (LinkaLab, CRS4), Andrea Pinna (CRS4), Nicola Soranzo (CRS4).

Alberto De La Fuente, qual'è l'idea principale di questa ricerca?
«L'idea è che noi abbiamo affrontato l'inferenza di una rete di geni come una comunità, come una "folla". Molti gruppi in varie parti del mondo hanno estratto delle reti dai medesimi dati; nel nostro articolo mostriamo che la rete del consenso (community consensus network) ottenuta dal contributo di tutte le differenti reti generate è più affidabile rispetto alle singole reti individuali da cui è stata ottenuta. Pertanto la comunità è più "saggia" delle singole individualità che la compongono. Con gli altri colleghi del CRS4 (Andrea Pinna, Vincenzo De Leo e Nicola Soranzo) nel Dream5 consortium abbiamo contribuito alla creazione di un metodo che è stato valutato come uno dei migliori.»

Nicola Soranzo, cos'è una rete di geni?
«Un gene è una porzione di DNA che contiene tutte le informazioni necessarie per la produzione di una proteina. Una rete di geni descrive le numerose e complesse interazioni attraverso le quali i prodotti di un gene influenzano l'espressione di un altro, ossia la produzione delle relative proteine. Le reti geniche si possono ottenere da matrici contenenti i livelli di espressione genica, cioè misure che indicano quante volte ciascun gene ha prodotto delle proteine durante il tempo di osservazione, per un certo numero di osservazioni (ad esempio 30 pazienti).
Un modo classico per calcolare la probabilità di un'interazione fra due geni partendo da una matrice di espressione è misurare la loro correlazione nei vari campioni.
Se le righe della matrice di espressione genica individuano i geni e le colonne i pazienti, la correlazione di ogni riga rispetto a tutte le altre è già una semplice rete genica, detta di co-espressione, che però non permette di capire chi influenza chi ma solo di sapere se due geni hanno una regolazione simile. Avendo a disposizione informazioni più complete è possibile risalire alla direzione delle interazioni tra i geni, ricavando quelle che sono le reti di regolazione.»

Vincenzo De Leo, cos'ha di particolarmente interessante questo articolo?
«È il primo caso in cui una comunità di scienziati di tutto il mondo è stata invitata a contribuire alla creazione di una nuova tecnica di analisi delle reti geniche; l'occasione è stata data dalla competizione DREAM 5 alla quale abbiamo partecipato insieme ai miei colleghi Andrea Pinna, Nicola Soranzo e Alberto de la Fuente: lo scopo della competizione era lo sviluppo di una nuova tecnica per l’identificazione dei bersagli dei fattori di trascrizione nelle reti di regolazione genica. I dati disponibili ai partecipanti contenevano delle matrici di espressione genica per 3 diversi microorganismi non specificati, relativi sia a stati stazionari che a serie temporali, ottenuti da centinaia di esperimenti effettuati in differenti laboratori e con diverse combinazioni di perturbazioni genetiche (inattivazione, sotto-espressione e sovra-espressione di geni), farmacologiche o ambientali. I 29 partecipanti alla competizione hanno inviato le loro predizioni indipendenti e le diverse tecniche di analisi da questi implementate sono state catalogate in sei categorie.

Dopo la valutazione delle predizioni da parte degli organizzatori (i quali conoscevano l'identità dei microorganismi e le relative reti di trascrizione) è risultato che nessuno dei vari metodi è nettamente superiore rispetto agli altri e hanno così scoperto che il valore delle predizioni migliorava combinando tra loro i singoli risultati forniti dai partecipanti.
Come si può vedere dall'immagine a sinistra (figura 2.a) ogni categoria di analisi è rappresentata da un colore e in rosso è invece riportato il risultato della combinazione dei risultati (indicato come "community").

La barra rossa infatti è sempre più alta delle altre, pertanto più idee messe insieme forniscono risultati migliori.

Da qui trae origine il titolo dell'articolo: "Saggezza delle masse" (Wisdom of crowds).
La figura 3 (destra) mostra inoltre l'aumentare della bontà delle predizioni all'aumentare del numero di contributi combinati tra loro (figura 3.a), mostra che la bontà delle predizioni è maggiore se i contributi sono presi da tecniche di analisi che non appartengono alla stessa categoria (figura 3.c) e mostra anche che la bontà delle predizioni aumenta anche se si combinano le peggiori tra le tecniche proposte (figura 3.d), anche se ovviamente l'aumento è maggiore se si prendono quelle migliori.»

Andrea Pinna, come si può applicare tutto questo agli organismi viventi?

«L'applicazione di questa tecnica di combinare diversi approcci ha portato all'individuazione di una forte struttura modulare in due dei microorganismi (Escherichia coli e Staphylococcus aureus) (figura 4.a - a sinistra), in cui ogni modulo è prevalentemente costituito da geni che svolgono un processo biologico molto specifico e con poche sovrapposizioni tra i moduli, quindi una struttura modulare molto nitida in cui è abbastanza chiaro cosa fa ogni modulo, per cui è possibile associare facilmente a geni di cui ancora non si sa molto la loro funzione in base al modulo a cui appartengono. Inoltre è stato possibile individuare 20 geni che probabilmente hanno un ruolo nella patogenesi del terzo microorganismo, il batterio Staphylococcus aureus (figura 4.b - sotto).»

Wisdom of crowds to infer gene networks, published on Nature Methods, 15 July 2012 (Linguaggio Macchina, 15 July 2012)
Il CRS4 (Programma Bioinformatica) tra i vincitori della competizione internazionale DREAM, dedicata alle metodologie di analisi dei dati biologici (Linguaggio Macchina, 21 Ottobre 2011)
Inferenza di reti biologiche: CRS4 e Linkalab ai primi posti nella classifica "DREAM5" (Linguaggio Macchina 13 Dicembre 2010)

Cerca nel blog

LINGUAGGIO MACCHINA

La "saggezza delle masse" per studiare le reti di geni. Ce la spiegano Alberto De La Fuente, Vincenzo De Leo, Andrea Pinna e Nicola Soranzo.

Commenti

Post popolari in questo blog

Ogni cosa è collegata: Gabriella Greison a Sant'Antioco il 24 giugno (e non è un caso)

La tavoletta di Dispilio. Quel testo del 5260 a.C. che attende di essere decifrato

Solar system genealogy revealed by extinct short-lived radionuclides in meteorites. Astronomy & Astrophysics, Volume 545, September 2012.