Sequenziamento

Il numero di organismi di cui è stato sequenziato il genoma è in continua crescita, grazie allo sviluppo di tecnologie sempre più potenti ed alla diminuzione dei costi. Per effettuare la determinazione del patrimonio genetico di un organismo è necessario avere a disposizione una certa quantità del DNA contenuto nelle sue cellule, che nel caso di organismi unicellulari come i batteri equivale a quello presente in circa un miliardo di essi. Tale numero, per quanto sembri elevato, si può ottenere facilmente isolando e facendo crescere i batteri in una capsula di Petri contenente l’adeguato terreno di coltura. Purtroppo la quasi totalità dei batteri non è in grado di adattarsi ad un terreno di coltura artificiale, perchè troppo diverso dagli ambienti da cui sono strettamente dipendenti, siano essi ad esempio il suolo, l’acqua, la vostra pelle. Questi batteri vengono perciò definiti “non coltivabili”.

In questi casi il sequenziamento può essere effettuato a partire da cellule singole, mediante una procedura (MDA) che genera delle copie del genoma, esatte ma suddivise in frammenti di lunghezze variabili, fino ad ottenere un volume di DNA equivalente a quello contenuto in circa un miliardo di cellule. Ciascun frammento viene poi analizzato mediante un sequenziatore per definire l’esatto ordine delle basi da cui è costituito.

La ricostruzione del DNA di partenza si basa sull’utilizzo di particolari algoritmi che cercano di unire tra loro i frammenti in base alla sovrapponibilità delle loro sequenze comuni (dette contig), come in una sorta di gioco del domino dove invece dei pallini con il punteggio ci sono le lettere delle basi azotate corrispondenti (adenina, timina, citosina, guanina). Questa procedura non è tuttavia esente da errori, in quanto gli algoritmi identificano troppo spesso delle sequenze non corrette (chimeriche). Una delle cause è legata al fatto che i diversi frammenti vengono replicati in un numero di copie molto variabile, portando ad una copertura non uniforme della effettiva sequenza originale del DNA di partenza, violando uno dei requisiti necessari per l’applicazione degli algoritmi stessi. In altre parole, alcuni frammenti sono rappresentati da un numero elevato di copie, altri da un numero talmente troppo basso da essere considerati una sorta di inutile rumore di fondo.

In un articolo 1 pubblicato su Nature Biotechnology, un gruppo di ricercatori statunitensi presenta un nuovo algoritmo di aggregazione delle sequenze ottenute da MDA su singola cellula, chiamato EULER+Velvet-SC.

La strategia di calcolo presenta due approcci differenti. Il primo basato sull’entità della sovrapposizione tra sequenze, il secondo sull’utilizzo di grafi di de Brujin. L’aspetto innovativo riguarda l’utilizzo di un valore variabile di cut-off (crescente a partire dal valore iniziale di 1) per la rimozione delle sequenze che mediamente sono poco rappresentate. Ad ogni passaggio queste ultime vengono rimosse dal grafo, ed alcune di quelle rimanenti di lunghezza non elevata possono essere unite a formarne altre, invece di essere scartate come avverebbe con altri algoritmi (Velvet). Questo processo viene poi ripetuto con valori di cut-off sempre maggiori fino al completamento della procedura.

L’applicazione di questo algoritmo ai genomi di Escherichia Coli e di Staphylococcus Aureus ha consentito di identificare più del 91% dei geni localizzati all’interno dei contig, valore che si avvicina al 95% che si ottiene mediante le procedure che utilizzano cellule batteriche in coltura.

L’importanza dello studio sta nella possibilità di addottare questo metodo per l’acquisizione dei genomi di batteri non coltivabili, ottenendo nel contempo informazioni genetiche specifiche per una singola cellula. Nell’articolo viene illustrata l’applicazione del metodo al caso di un batterio marino (classe Deltaproteobacteria) di genoma ancora indeterminato. Dall’analisi del patrimonio genetico determinato mediante l’algoritmo EULER+Velvet-SC, gli autori hanno ottenuto informazioni che suggeriscono che il batterio sia aerobico, chemotassico e dotato di motilità.

Questa ricerca permetterà quindi di accelerare gli studi sul microbioma umano (insieme di microrganismi di origine esterna presenti nel corpo umano, inclusi quelli patogeni) e sui batteri presenti nei suoli e nei mari, alcuni dei quali potenzialmente utili per la produzione di antibiotici e biocarburanti.


  1. Chitsaz H, Yee-Greenbaum JL, Tesler G, Lombardo MJ, Dupont CL, Badger JH, Novotny M, Rusch DB, Fraser LJ, Gormley NA, Schulz-Trieglaff O, Smith GP, Evers DJ, Pevzner PA, & Lasken RS (2011). Efficient de novo assembly of single-cell bacterial genomes from short-read data sets. Nature biotechnology, 29 (10), 915-21 PMID: 21926975 ^