ERGEBNISSE
Abbildung Tab.11 zeigt die Verteilung der genomischen Längen für H. sapiens, D. melanogaster, C. elegans und A. thaliana. Tabelle Tabelle11 ist eine numerische Zusammenfassung. Die Verteilungen bei den Tieren umfassen 2-3 Größenordnungen, aber die Verteilung bei den Pflanzen umfasst nur eine Größenordnung. Die Implikation für das Problem der großen Gene kann abgeschätzt werden, indem man überlegt, wie viele der größten Gene unidentifiziert sein müssten, damit die Hälfte des intragenischen Raums fehlt. Die Zahlen reichen von 11 % und 10 % im einen Extrem, bei H. sapiens und D. melanogaster, bis zu 30 % im anderen Extrem, bei A. thaliana. Darüber hinaus ist der einzige Organismus, bei dem der intergene Anteil größer als 10% ist, A. thaliana, obwohl wir die geringfügige Korrektur für verschachtelte Gene (Gene auf dem Rückwärtsstrang oder innerhalb eines Introns) berücksichtigt haben. Diese Korrektur wird berechnet, indem wir die Vorkommen von verschachtelten Genen in unseren cDNA-Alignments zählen und um die Tatsache bereinigen, dass wir nicht jedes solche Vorkommen entdecken, weil wir nicht alle cDNAs haben.
Verteilung der genomischen Längen für (a) Homo sapiens, (b) Drosophila melanogaster, (c) Caenorhabditis elegans, und (d) Arabidopsis thaliana. Dunkle Schattierung zeigt starke Treffer an. Schwache Treffer (hell schattiert) repräsentieren cDNA-zu-Genom Alignments mit <3 Exons oder <50% der ausgerichteten cDNA Länge. Eine überwältigende Mehrheit dieser schwachen Treffer sind tatsächlich vollständige Alignments mit nur einem oder zwei Exons. Instanzen, in denen <50% der cDNA ausgerichtet sind, repräsentieren 7,3%, 3,3%, 1,2% bzw. 0,9% der Gene in den vier Organismen.
Tabelle 1
Geschätzte intergene Fraktionen
Homo sapiens | Drosophila melanogaster | Caenorhabolitis elegans | Arabidose thaliana | |
---|---|---|---|---|
Euchromatin | 3180000 | 123000 | 97800 | 130000 |
Sequenzierte DNA | 369000 | 123000 | 91000 | 119000 |
Gen-to-gene | 45.4 | 9.0 | 5.3 | 4.7 |
cDNA aligned | 1061 | 1628 | 583 | 1401 |
Genomische Qualität | 1.2 | 23.3 | 2.4 | 15.7 |
Schachtelgene | 6% | 8% | 4% | 1% |
05 Percentile | 2.5 | 0.9 | 0.8 | 0.9 |
Genomische Länge | 43.4 | 9,5 | 5,0 | 2,6 |
95 Percentile | 165.5 | 36,3 | 14,2 | 5.4 |
%, fehlende Hälfte | 11% | 10% | 21% | 30% |
Intergene DNA | Besprochen im Text des Artikels | 3% | 10% | 46% |
Die ersten drei Zeilen listen die euchromatische Genomgröße auf, die Menge an genomischer Sequenz, die analysiert wurde, und die Annotations-basierte Schätzung des Gen-zu-Gen-Abstands. Die nächsten drei Zeilen beschreiben die cDNA-Alignments. In diesen Zeilen werden die Anzahl der alignierten cDNAs, unsere Qualitätsbewertung für die genomischen Contigs (d. h. der Median der genomischen Contig-Größe geteilt durch die genomische Länge für das 95-perzentilige Gen) und unsere Schätzung der Häufigkeit von verschachtelten Genen (d. h. Gene auf dem Rückwärtsstrang oder innerhalb eines Introns) aufgeführt. Die genomische Länge wird in den nächsten drei Zeilen durch ihren arithmetischen Mittelwert und ihren 5. bzw. 95-ten Perzentilwert angegeben. Als nächstes geben wir an, welcher Anteil der größten Gene unidentifiziert sein müsste, damit die Hälfte des intragenischen Raums fehlt. Die letzte Zeile listet den intergenen Anteil auf, der berechnet wird, indem die mittlere genomische Länge für verschachtelte Gene korrigiert, durch den mittleren Gen-zu-Gen-Abstand dividiert und das Ergebnis von 1 subtrahiert wird. Hinweis: In Drosophila melanogaster zählen wir Gerüstverbindungen, die länger als 1 kb sind, nicht als zusammenhängend, wenn wir die genomische Qualität berechnen. Alle Längen werden in kp angegeben.
Die größte Unsicherheit in unserer Methode besteht darin, dass wir von einer Teilmenge der Gene auf das gesamte Genom extrapolieren müssen, um die mittlere genomische Länge zu bestimmen. Es wird Stichprobenverzerrungen geben, die sich aber wie folgt kategorisieren und unterteilen lassen: (1) das Ausmaß, in dem cDNA-Daten für große oder kleine Gene angereichert sind, (2) das Ausmaß, in dem genomische Daten für große oder kleine Gene voreingenommen sind, und dann: Werden die genreichen Regionen zuerst von Sequenzierprojekten bearbeitet? Sind die Contigs groß genug, damit wir die großen Gene alignieren können?
Wir werden argumentieren, dass das Problem primär in den genomischen Daten liegt, nicht in den cDNA-Daten. Darüber hinaus gibt es in dem Maße, in dem es Stichprobenverzerrungen gibt, immer die Tendenz, die mittlere genomische Länge zu unterschätzen und den intergenischen Anteil zu überschätzen.
Es gibt zwei Gründe für die Vermutung, dass Verzerrungen in den cDNA-Daten dazu führen, dass wir die mittlere genomische Länge unterschätzen. Bedenken Sie, dass große Gene hoch mit großen cDNAs korreliert sind (diese Arbeit; Daten nicht gezeigt). Die erste Erklärung ist, dass cDNAs in voller Länge extrem schwierig zu klonieren sind, da RNA-Moleküle leicht abgebaut werden und das Klonierungssystem einen intrinsischen Bias für kleinere Inserts aufweist. Der zweite Grund ist, dass große RNA-Moleküle mehr Zeit für die Transkription benötigen, so dass große Gene möglicherweise weniger stark exprimiert werden und schwieriger zu isolieren sind. Diese Erwartung ist jedoch falsch, da die Transkriptionsmaschinerie parallel arbeitet. Als Maß für die Expressionsniveaus in H. sapiens haben wir die 1.856.102 ESTs in GenBank mit unseren cDNA-Daten abgeglichen. Mehrfache Reads vom selben Klon wurden nur einmal gezählt. Abbildung22 zeigt, dass es keine signifikante Variation in der EST-Abdeckung als Funktion der Genomlänge gibt. Beachten Sie, dass die auf die EST-Bibliotheken angewendeten Normalisierungsverfahren (Hillier et al. 1996) keinen Einfluss auf die seltenen Transkripte haben, bei denen wir nach einem Effekt gesucht haben. Die Schlussfolgerung ist, dass cDNA-Daten, die aus GenBank extrahiert wurden, repräsentativ für alle genomischen Längen sein können.
Ist die Sammlung der Homo sapiens cDNA-Sequenz voreingenommen? Wir haben die 1.856.102 ESTs in GenBank mit unseren cDNA-Sequenzen aligniert und die Anzahl der alignierten ESTs in Abhängigkeit von der genomischen Länge aufgetragen. Mehrere Reads vom selben Klon werden nur einmal gezählt. Es gibt keine offensichtliche Verzerrung, was darauf hinweist, dass cDNAs für Gene jeder genomischen Länge gleich leicht zu isolieren sind.
Genomische Daten sind auf zwei Arten verzerrt. Erstens gibt es eine soziologische Tendenz, genreiche Regionen zuerst zu sequenzieren. Zweitens, selbst wenn ein Genom vollständig ist, reduziert ein Mangel an weitreichender Kontiguität auf der Skala der größten Gene die Schätzung der durchschnittlichen Genomlänge, da Brüche im Alignment höchstwahrscheinlich über die größten Introns auftreten. Beide Probleme sind bei den H. sapiens-Daten relevant. In Abbildung3,3 zeigen wir, dass die ausgerichteten Daten in Richtung GC-reicher Gene verzerrt sind, die eine geringere genomische Länge aufweisen (Bernardi 2000). Wie bei der Kontiguität schätzen wir das Ausmaß des Problems, indem wir das Verhältnis der medianen genomischen Kontig-Größe zur genomischen Länge des 95-ten Perzentils der Gene berechnen. Im Idealfall wäre dieses Verhältnis viel größer als eins. Tabelle11 zeigt, dass es in D. melanogaster und A. thaliana viel größer als eins ist. In C. elegans ist es nur mäßig größer als eins, aber das ist für diesen Organismus weniger wichtig, weil die genomischen Längen nicht so breit verteilt sind. Bei H. sapiens beträgt das Verhältnis jedoch 1,2, und es wäre sogar noch kleiner, wenn wir nicht Genomdaten aus einer neuen Abteilung der GenBank verwendet hätten, in der alle überlappenden Klone zusammengefügt wurden (Jang et al. 1999).
Ist die Sammlung der genomischen Sequenz von Homo sapiens verzerrt? Wir berechneten die Wahrscheinlichkeit, dass cDNAs mit einem bestimmten GC-Gehalt mit der genomischen Sequenz alignierten, da nur 369 Mb an nichtredundanter fertiger genomischer Sequenz zur Verfügung standen. Die durchgezogene Linie (auf einer willkürlichen Skala) zeigt die ursprüngliche Sammlung von cDNAs an. Der offensichtliche Bias zu GC-reichen cDNAs ist wichtig, da diese bekanntermaßen kleineren Genen entsprechen (Bernardi 2000). Dunkle Schattierung zeigt starke Treffer; helle Schattierung zeigt schwache Treffer.
Wir können die Schwere dieser Verzerrungen mit den verschiedenen Versionen der D. melanogaster Genomdaten abschätzen. Insbesondere wiederholten wir die Alignments mit denselben cDNA-Daten, wechselten aber zu den 34,9 Mb der fertigen klonweisen genomischen Daten, die vor der Fertigstellung des Whole-Genome Shotgun verfügbar waren (Adams et al. 2000). Das Contig-Qualitätsmaß ist dann 2,8, und die daraus resultierende mittlere genomische Länge von 7,1 kb liegt um 34% daneben. Vergleicht man die in beiden Datensätzen alignierten cDNAs, so stellt man fest, dass 16 % dieses Effekts auf das Kontiguitätsproblem zurückzuführen sind. Die anderen 18 % sind auf die Tendenz zurückzuführen, genreiche Regionen zuerst zu sequenzieren. Ein noch dramatischeres Beispiel für diese Verzerrungen ist Mus musculus, das ein Kontig-Qualitätsmaß von 0,3 und eine mittlere genomische Länge von 9,7 kb hat. Wenn wir annehmen, dass es keinen Unterschied zwischen M. musculus und H. sapiens gibt, liegt diese Schätzung um 447 % daneben. Eine weitere unzuverlässige Methode zur Schätzung der durchschnittlichen Genomlänge ist die Extraktion von GenBank-Annotationen. Die annotierten Gene in den 34,9 Mb Genomdaten von D. melanogaster haben eine mittlere genomische Länge von 3,0 kb, was eine Abweichung von 317% bedeutet.
Die wesentliche Schlussfolgerung ist, dass unsere Zahl von 43,4 kb für die mittlere genomische Länge von H. sapiens eine erhebliche Unterschätzung ist, auch wenn sie bereits 10 mal größer ist als die Trainingsmengen, die für diese Exon-Vorhersageprogramme verwendet werden. Aber auch die Anzahl der Gene selbst ist unsicher. Die traditionelle Schätzung von 70.000 (Antequera und Bird 1993; Fields et al. 1994) wurde kürzlich durch wesentlich niedrigere Schätzungen von 35.000 bis 45.000 (Ewing und Green 2000; Hattori et al. 2000; Roest Crollius et al. 2000) in Frage gestellt. Wie können wir die Daten von H. sapiens interpretieren? Wenn wir die traditionelle Genanzahl von 70.000 akzeptieren, sagt unsere mittlere genomische Länge von 43,4 kb einen intergenen Anteil von 10 % voraus. Nehmen wir an, wir erhöhen unsere Schätzung um die gleiche Diskrepanz von 34 %, die zwischen den beiden D. melanogaster-Datensätzen beobachtet wurde. Die Anzahl der Gene, die mit dem gleichen intergenen Anteil von 10 % konsistent wäre, beträgt dann 51.400. Wenn man bedenkt, dass die Contig-Qualität bei H. sapiens viel schlechter ist als bei den klonweisen D. melanogaster-Daten, ist es wahrscheinlich, dass die mittlere genomische Länge um >34 % unterschätzt wird. Die Anzahl der Gene müsste also wesentlich geringer sein als die derzeitige niedrige Schätzung von 35.000 bis 45.000, damit unsere Argumentation viel intergene DNA zulässt.
Angesichts der Unsicherheiten in unserer Methode können wir keine genaue Schätzung für den intergenen Anteil bei H. sapiens abgeben. Wir sind jedoch bereit zu argumentieren, dass der intergene Anteil bei H. sapiens nicht so groß sein kann wie bei A. thaliana, weil bei einem so hohen intergenen Anteil die Verteilung des GC-Gehalts der genomischen DNA bimodal ist, wie in Abbildung4.4 dargestellt. Die Anpassung der Daten an eine Gauß-Summe zeigt, dass der Hauptmodus bei 0,382 zentriert ist, was fast identisch mit dem 0,390 GC-Gehalt der alignierten A. thaliana-Gene ist. Das relative Verhältnis der beiden Moden impliziert einen intergenen Anteil von 30 %, was kleiner ist als die 46 %-Schätzung, die aus den genomischen Längenargumenten abgeleitet wurde, aber nicht unerwartet, weil ein Teil der intergenen DNA einen GC-Gehalt haben könnte, der der intragenen DNA ähnlich ist. Der Grund, warum diese Bimodalität bisher nicht berichtet wurde, ist, dass sie extrem empfindlich darauf reagiert, wie die Daten gezeichnet werden. Insbesondere müssen die Histogramm-Bins kleiner sein als die mittlere genomische Länge, und kleinere genomische Contigs (d. h. solche, die sequenziert wurden, weil sie ein wahrscheinliches Gen enthalten) können nicht verwendet werden. Abgesehen davon wird bei H. sapiens, D. melanogaster oder C. elegans keine derartige Bimodalität beobachtet, unabhängig davon, wie die Daten aufgetragen werden.
Verteilung des GC-Gehalts für anonyme genomische Sequenz in Arabidopsis thaliana. Die Idee, dass ein signifikanter Anteil des Genoms intergen ist, gepaart mit der Tatsache, dass intergene DNA einen geringeren GC-Gehalt hat als intragene DNA, legt nahe, dass diese Verteilung bimodal sein wird. Die Bimodalität wird jedoch leicht durch die Art der Darstellung der Daten verdeckt. a und b unterscheiden sich durch die Größe der Bins, über die der GC-Gehalt berechnet wird, 1 kb bzw. 5 kb. Bin-Größen, die größer als die durchschnittliche Gengröße von 2,6 kb sind, verschleiern den Effekt, da jedes Bin wahrscheinlich eine Mischung aus intragenischer und intergenischer DNA enthält. a und c unterscheiden sich in den genomischen Contigs, die geplottet werden (jedes Contig oder nur Contigs <35 kb). Wenn man die von den Genomzentren favorisierten Large-Insert-Klone entfernt, bleiben die Sequenzen übrig, die nur deshalb analysiert wurden, weil sie ein wahrscheinliches Gen enthalten. Daher verschwindet die Bimodalität.