RISULTATI
La Figura 11 mostra la distribuzione delle lunghezze genomiche per H. sapiens, D. melanogaster, C. elegans e A. thaliana. Tabella Table11 è un riassunto numerico. Le distribuzioni degli animali coprono 2-3 ordini di grandezza, ma la distribuzione delle piante copre solo un ordine di grandezza. L’implicazione per il problema dei grandi geni può essere stimata considerando quanti dei più grandi geni dovrebbero essere non identificati perché manchi la metà dello spazio intragenico. Le cifre vanno dall’11% e 10% ad un estremo, in H. sapiens e D. melanogaster, al 30% all’altro estremo, in A. thaliana. Inoltre, l’unico organismo in cui la frazione intergenica è maggiore del 10% è A. thaliana, anche se abbiamo incluso la correzione minore per i geni annidati (geni sul filamento inverso o dentro un introne). Questa correzione è calcolata contando le occorrenze di geni annidati nei nostri allineamenti di cDNA, e aggiustando per il fatto che non rileviamo tutte queste occorrenze perché non abbiamo tutti i cDNA.
Distribuzione delle lunghezze genomiche per (a) Homo sapiens, (b) Drosophila melanogaster, (c) Caenorhabditis elegans, e (d) Arabidopsis thaliana. L’ombreggiatura scura indica forti successi. Colpi deboli (leggermente ombreggiati) rappresentano allineamenti cDNA-genomica con < 3 esoni o <50% della lunghezza del cDNA allineato. La stragrande maggioranza di questi deboli successi sono in realtà allineamenti completi con solo uno o due esoni. I casi in cui <il 50% del cDNA è allineato rappresentano rispettivamente il 7,3%, 3,3%, 1,2% e 0,9% dei geni nei quattro organismi.
Tabella 1
Frazioni intergeniche stimate
Homo sapiens | Drosophila melanogaster | Caenorhabolitis elegans | Arabidosis thaliana | ||
---|---|---|---|---|---|
Eucromatina | 3180000 | 123000 | 97800 | 130000 | |
DNA in sequenza | 369000 | 123000 | 91000 | 119000 | |
Gene-to-gene | 45.4 | 9.0 | 5.3 | 4.7 | |
CDNA allineato | 1061 | 1628 | 583 | 1401 | |
Qualità genomica | 1.2 | 23.3 | 2.4 | 15.7 | |
Geni annidati | 6% | 8% | 4% | 1% | |
05 Percentile | 2.5 | 0.9 | 0.8 | 0.9 | |
Lunghezza genomica | 43.4 | 9.5 | 5.0 | 2.6 | |
95° percentile | 165.5 | 36.3 | 14.2 | 5.4 | |
%, metà mancante | 11% | 10% | 21% | 30% | |
DNA INTERGENICO | Discusso nel testo dell’articolo | 3% | 10% | 46% |
Le prime tre righe elencano le dimensioni del genoma eucromatico, la quantità di sequenza genomica che è stata analizzata e la stima basata sull’annotazione della distanza gene-gene. Le tre righe successive descrivono gli allineamenti di cDNA. Queste righe elencano il numero di cDNA allineati, la nostra valutazione della qualità per i contig genomici (vale a dire, la mediana della dimensione genomica contig diviso per la lunghezza genomica per il gene 95°-percentile), e la nostra stima della frequenza dei geni annidati (cioè, i geni sul filamento inverso o all’interno di un introne). La lunghezza genomica è data nelle prossime tre righe dalla sua media aritmetica e dai suoi valori del 5° o 95° percentile. Poi, indichiamo quale frazione dei geni più grandi dovrebbe essere non identificata perché manchi la metà dello spazio intragenico. L’ultima riga elenca la frazione intergenica, calcolata correggendo la lunghezza genomica media per i geni annidati, dividendola per la distanza media tra i geni e sottraendo il risultato da uno. Nota: In Drosophila melanogaster, non contiamo le giunzioni di scaffold più lunghe di 1 kb come contigue nel calcolo della qualità genomica. Tutte le lunghezze sono riportate in kp.
La principale incertezza del nostro metodo è che dobbiamo estrapolare da un sottoinsieme di geni all’intero genoma per determinare la lunghezza genomica media. Ci saranno bias di campionamento, ma possono essere categorizzati e sottocategorizzati come segue: (1) la misura in cui i dati cDNA sono arricchiti per geni grandi o piccoli, (2) la misura in cui i dati genomici sono distorti per geni grandi o piccoli, e poi, le regioni ricche di geni sono fatte prima dai progetti di sequenziamento? I contigs sono abbastanza grandi da permetterci di allineare i grandi geni?
Sosteniamo che il problema è principalmente nei dati genomici, non nei dati cDNA. Inoltre, nella misura in cui ci sono distorsioni di campionamento, la tendenza è sempre quella di sottostimare la lunghezza genomica media e di sovrastimare la frazione intergenica.
Ci sono due ragioni per sospettare che le distorsioni nei dati cDNA ci faranno sottostimare la lunghezza genomica media. Tenete presente che i geni grandi sono altamente correlati con i cDNA grandi (questo articolo; dati non mostrati). La prima spiegazione è che i cDNA a lunghezza intera sono estremamente difficili da clonare, data la facilità con cui le molecole di RNA vengono degradate e la distorsione intrinseca nel sistema di clonazione per inserti più piccoli. La seconda ragione è che le grandi molecole di RNA richiedono più tempo per trascrivere, quindi i grandi geni potrebbero essere meno altamente espressi e più difficili da isolare. Tuttavia, questa aspettativa non è corretta, perché il macchinario di trascrizione opera in parallelo. Come misura dei livelli di espressione, in H. sapiens, abbiamo allineato i 1.856.102 EST in GenBank con i nostri dati cDNA. Le letture multiple dallo stesso clone sono state contate solo una volta. La Figura 22 mostra che non c’è una variazione significativa nella copertura EST in funzione della lunghezza genomica. Si noti che le procedure di normalizzazione (Hillier et al. 1996) applicate alle librerie EST non influenzano le trascrizioni rare, in cui stavamo cercando un effetto. La conclusione è che i dati cDNA, estratti da GenBank, possono essere rappresentativi di tutte le lunghezze genomiche.
La collezione di sequenze di cDNA di Homo sapiens è di parte? Abbiamo allineato i 1.856.102 EST di GenBank alle nostre sequenze di cDNA e abbiamo tracciato il numero di EST allineati in funzione della lunghezza genomica. Le letture multiple dallo stesso clone sono contate solo una volta. Non c’è nessuna distorsione evidente, indicando che i cDNA per i geni di ogni lunghezza genomica sono ugualmente facili da isolare.
I dati genomici sono distorti in due modi. In primo luogo, c’è una tendenza sociologica a sequenziare prima le regioni ricche di geni. In secondo luogo, anche quando un genoma è completo, la mancanza di contiguità a lungo raggio, sulla scala dei geni più grandi, ridurrà la stima della lunghezza genomica media, perché qualsiasi interruzione nell’allineamento è più probabile che avvenga attraverso gli introni più grandi. Entrambe le questioni sono rilevanti nei dati di H. sapiens. In Figura 3,3, dimostriamo che i dati allineati sono sbilanciati verso i geni ricchi di GC, che sono di minore lunghezza genomica (Bernardi 2000). Per quanto riguarda la contiguità, stimiamo l’entità del problema calcolando il rapporto tra la dimensione genomica mediana dei contig e la lunghezza genomica del gene del 95° percentile. Idealmente, questo rapporto dovrebbe essere molto maggiore di uno. La tabella 11 mostra che è molto maggiore di uno in D. melanogaster e A. thaliana. È solo moderatamente maggiore di uno in C. elegans, ma questo è meno importante per questo organismo, perché le lunghezze genomiche non sono così ampiamente distribuite. Tuttavia, in H. sapiens, il rapporto è di 1,2, e sarebbe stato ancora più piccolo se non avessimo usato i dati genomici di una nuova divisione di GenBank in cui tutti i cloni sovrapposti sono stati uniti (Jang et al. 1999).
La collezione di sequenze genomiche di Homo sapiens è distorta? Abbiamo calcolato la probabilità che i cDNA di un particolare contenuto di GC si allineassero alla sequenza genomica, dato che erano disponibili solo 369 Mb di sequenza genomica finita non ridondante. La linea solida (su una scala arbitraria) indica la raccolta iniziale di cDNA. L’ovvio bias verso i cDNA ricchi di GC è importante perché questi sono noti per corrispondere a geni più piccoli (Bernardi 2000). L’ombreggiatura scura mostra forti riscontri; l’ombreggiatura chiara mostra riscontri deboli.
Possiamo stimare la gravità di questi bias con le diverse versioni dei dati genomici di D. melanogaster. In particolare, abbiamo ripetuto gli allineamenti con gli stessi dati cDNA ma siamo passati ai 34,9 Mb di dati genomici finiti clone per clone che erano disponibili prima del completamento dello shotgun dell’intero genoma (Adams et al. 2000). La misura della qualità dei contig è quindi 2,8, e la lunghezza genomica media risultante di 7,1 kb non è corretta del 34%. Confrontando i cDNA allineati in entrambi i set di dati, troviamo che il 16% di questo effetto è attribuibile al problema della contiguità. L’altro 18% è attribuibile alla distorsione verso il sequenziamento delle regioni ricche di geni per prime. Un esempio ancora più drammatico di queste distorsioni è Mus musculus, che ha una misura di qualità contig di 0,3 e una lunghezza genomica media di 9,7 kb. Se assumiamo che non ci siano differenze tra M. musculus e H. sapiens, questa stima è fuori strada del 447%. Parenteticamente, un altro modo inaffidabile per stimare la lunghezza genomica media è quello di estrarre le annotazioni GenBank. I geni annotati in quei 34,9 Mb di dati genomici per D. melanogaster hanno una lunghezza genomica media di 3,0 kb, che è fuori misura del 317%.
La conclusione essenziale è che la nostra cifra di 43,4 kb per la lunghezza genomica media in H. sapiens è una sottostima sostanziale, anche se è già 10 volte più grande dei set di allenamento utilizzati per questi programmi di predizione degli esoni. Tuttavia, anche il conteggio dei geni è incerto. La stima tradizionale di 70.000 (Antequera e Bird 1993; Fields et al. 1994) è stata recentemente messa in discussione da stime sostanzialmente inferiori, da 35.000 a 45.000 (Ewing e Green 2000; Hattori et al. 2000; Roest Crollius et al. 2000). Come possiamo interpretare i dati di H. sapiens? Se accettiamo il conteggio tradizionale dei geni di 70.000, la nostra lunghezza genomica media di 43,4 kb prevede una frazione intergenica del 10%. Supponiamo di gonfiare la nostra stima dello stesso 34% di discrepanza che è stato osservato tra i due set di dati di D. melanogaster. Il numero di geni che sarebbe coerente con la stessa frazione intergenica del 10% è quindi 51.400. Considerando che la qualità dei contig è molto peggiore in H. sapiens che nei dati clone per clone di D. melanogaster, è probabile che la lunghezza genomica media sia sottostimata del >34%. Quindi, il numero di geni dovrebbe essere sostanzialmente inferiore alle attuali stime basse di 35.000-45.000 perché i nostri argomenti consentano molto DNA intergenico.
Data l’incertezza del nostro metodo, non possiamo dare una stima precisa della frazione intergenica in H. sapiens. Tuttavia, siamo pronti a sostenere che la frazione intergenica in H. sapiens non può essere così grande come lo è per A. thaliana, perché, ad una frazione intergenica così alta, la distribuzione del contenuto di GC per il DNA genomico è bimodale, come in Figura 4.4. Adattare i dati a una somma di Gaussiane rivela che il modo principale è centrato a 0,382, che è quasi identico al contenuto di GC 0,390 dei geni allineati di A. thaliana. Il rapporto relativo delle due modalità implica una frazione intergenica del 30%, che è inferiore alla stima del 46% derivata da argomenti di lunghezza genomica, ma non inaspettatamente così, perché parte del DNA intergenico potrebbe avere un contenuto di GC che è simile al DNA intragenico. La ragione per cui questa bimodalità non è stata riportata in precedenza è che è estremamente sensibile al modo in cui i dati sono tracciati. In particolare, i bins dell’istogramma devono essere più piccoli della lunghezza genomica media, e i contigs genomici più piccoli (cioè quelli sequenziati perché contengono un probabile gene) non possono essere usati. Detto questo, non si osserva tale bimodalità in H. sapiens, D. melanogaster, o C. elegans, indipendentemente da come i dati sono tracciati.
Distribuzione del contenuto di GC per una sequenza genomica anonima in Arabidopsis thaliana. L’idea che una frazione significativa del genoma sia intergenica, unita al fatto che il DNA intergenico ha un contenuto di GC più basso del DNA intragenico, suggerisce che questa distribuzione sarà bimodale. Tuttavia, la bimodalità è facilmente oscurata dal modo in cui i dati sono tracciati. a e b differiscono nella dimensione dei bidoni su cui viene calcolato il contenuto di GC, 1 kb e 5 kb, rispettivamente. Bin più grandi della dimensione media del gene di 2,6 kb oscurano l’effetto perché ogni bin è probabile che contenga una miscela di DNA intragenico e intergenico. a e c differiscono nei contigs genomici che sono tracciati (ogni contig o solo contigs <35 kb, rispettivamente). Rimuovendo i cloni a grande inserimento favoriti dai centri del genoma, ciò che rimane sono quelle sequenze che sono state analizzate solo perché contengono un probabile gene. Quindi, la bimodalità scompare.