WYNIKI
Rysunek 11 przedstawia rozkład długości genomów dla H. sapiens, D. melanogaster, C. elegans, i A. thaliana. Tabela Tabela11 jest liczbowym podsumowaniem. Rozkłady dla zwierząt obejmują 2-3 rzędy wielkości, ale rozkład dla roślin obejmuje tylko jeden rząd wielkości. Implikacje dla problemu dużych genów można oszacować rozważając, ile z największych genów musiałoby być niezidentyfikowanych, aby brakowało połowy przestrzeni wewnątrzgenowej. Liczby te wahają się od 11% i 10% na jednym biegunie, u H. sapiens i D. melanogaster, do 30% na drugim biegunie, u A. thaliana. Co więcej, jedynym organizmem, w którym frakcja intergeniczna jest większa niż 10% jest A. thaliana, nawet jeśli uwzględniliśmy drobną poprawkę na geny zagnieżdżone (geny na odwrotnej nici lub wewnątrz intronu). Ta poprawka jest obliczana przez policzenie wystąpień zagnieżdżonych genów w naszych wyrównaniach cDNA i dostosowanie do faktu, że nie wykrywamy każdego takiego wystąpienia, ponieważ nie mamy wszystkich cDNA.
Rozkład długości genomów dla (a) Homo sapiens, (b) Drosophila melanogaster, (c) Caenorhabditis elegans, i (d) Arabidopsis thaliana. Ciemne cieniowanie wskazuje silne trafienia. Słabe trafienia (lekko zacienione) reprezentują dopasowania cDNA do genomu z <3 eksonami lub <50% długości dopasowanego cDNA. Przeważająca większość tych słabych trafień to w rzeczywistości kompletne dopasowania z tylko jednym lub dwoma eksonami. Przypadki, w których <50% cDNA jest wyrównane reprezentują odpowiednio 7.3%, 3.3%, 1.2% i 0.9% genów w czterech organizmach.
Tabela 1
Oszacowane frakcje intergeniczne
Homo sapiens | Drosophila melanogaster | Caenorhabolitis elegans | Arabidoza thaliana | ||
---|---|---|---|---|---|
Euchromatyna | 3180000 | 123000 | 97800 | 130000 | |
Sekwencjonowane DNA | 369000 | 123000 | 91000 | 119000 | |
Gene-to-gene | 45.4 | 9.0 | 5.3 | 4.7 | |
cDNA aligned | 1061 | 1628 | 583 | 1401 | |
Jakość genomowa | 1.2 | 23.3 | 2.4 | 15.7 | |
geny zagnieżdżone | 6% | 8% | 4% | 1% | |
05 Percentyl | 2.5 | 0,9 | 0,8 | 0,9 | |
Długość genomu | 43.4 | 9.5 | 5.0 | 2.6 | |
95 Percentyl | 165.5 | 36.3 | 14.2 | 5.4 | |
%, brakująca połowa | 11% | 10% | 21% | 30% | |
Intergeniczne DNA | Przedstawione w text of article | 3% | 10% | 46% | 46% |
Pierwsze trzy wiersze wyszczególniają rozmiar genomu euchromatycznego, ilość sekwencji genomowej, która została przeanalizowana, oraz oparte na anotacji oszacowanie odległości między genami. Następne trzy wiersze opisują wyrównania cDNA. Rzędy te wymieniają liczbę wyrównanych cDNA, naszą ocenę jakości kontigów genomowych (tj. medianę rozmiaru kontigu genomowego podzieloną przez długość genomową dla 95-percentyla genu) oraz nasze oszacowanie częstości występowania zagnieżdżonych genów (tj. genów na odwrotnej nici lub wewnątrz intronu). Długość genomu podajemy w kolejnych trzech wierszach jako jego średnią arytmetyczną oraz wartości 5. lub 95. percentyla. Następnie podajemy, jaki ułamek największych genów musiałby być niezidentyfikowany, aby brakowało połowy przestrzeni intragenicznej. W ostatnim rzędzie podajemy frakcję intergeniczną, obliczoną poprzez skorygowanie średniej długości genomu dla zagnieżdżonych genów, podzielenie jej przez średnią odległość gen-gen i odjęcie wyniku od jednego. Uwaga: W Drosophila melanogaster nie liczymy połączeń rusztowań dłuższych niż 1 kb jako ciągłych przy obliczaniu jakości genomu. Wszystkie długości są podawane w kp.
Główną niepewnością w naszej metodzie jest to, że musimy ekstrapolować z podzbioru genów do całego genomu, aby określić średnią długość genomową. Wystąpią błędy w próbkowaniu, ale można je sklasyfikować i podkategoryzować w następujący sposób: (1) stopień, w jakim dane cDNA są wzbogacone o duże lub małe geny, (2) stopień, w jakim dane genomowe są stronnicze dla dużych lub małych genów, a następnie, czy regiony bogate w geny są najpierw wykonywane przez projekty sekwencjonowania? Czy kontigi są wystarczająco duże, abyśmy mogli wyrównać duże geny?
Będziemy twierdzić, że problem leży przede wszystkim w danych genomowych, a nie w danych cDNA. Co więcej, w zakresie, w jakim występują błędy w próbkowaniu, tendencje są zawsze do niedoszacowania średniej długości genomu i przeszacowania frakcji intergenicznej.
Istnieją dwa powody, by podejrzewać, że błędy w danych cDNA spowodują niedoszacowanie średniej długości genomu. Należy pamiętać, że duże geny są silnie skorelowane z dużymi cDNA (ta praca; dane nie pokazane). Pierwszym wyjaśnieniem jest to, że pełnometrażowe cDNA są niezwykle trudne do sklonowania, biorąc pod uwagę łatwość, z jaką cząsteczki RNA są degradowane i wewnętrzne uprzedzenie w systemie klonowania dla mniejszych wstawek. Drugim powodem jest to, że duże cząsteczki RNA wymagają więcej czasu na transkrypcję, więc duże geny mogą być mniej wysoko wyrażone i trudniejsze do wyizolowania. Jednakże, to oczekiwanie jest błędne, ponieważ maszyny transkrypcyjne działają równolegle. Jako miarę poziomów ekspresji u H. sapiens, wyrównaliśmy 1,856,102 EST w GenBank z naszymi danymi cDNA. Wielokrotne odczyty z tego samego klonu były liczone tylko raz. Rysunek 22 pokazuje, że nie ma znaczącej różnicy w pokryciu EST jako funkcji długości genomu. Zauważmy, że procedury normalizacji (Hillier et al. 1996) zastosowane do bibliotek EST nie mają wpływu na rzadkie transkrypty, w których szukaliśmy efektu. Wniosek jest taki, że dane cDNA, pobrane z GenBank, mogą być reprezentatywne dla wszystkich długości genomowych.
Czy kolekcja sekwencji cDNA Homo sapiens jest stronnicza? Wyrównaliśmy 1 856 102 EST w GenBank do naszych sekwencji cDNA i wykreśliliśmy liczbę wyrównanych EST jako funkcję długości genomu. Wielokrotne odczyty z tego samego klonu są liczone tylko raz. Nie ma oczywistej tendencyjności, co wskazuje, że cDNA dla genów o każdej długości genomowej są równie łatwe do wyizolowania.
Dane genomowe są tendencyjne na dwa sposoby. Po pierwsze, istnieje socjologiczna tendencja do sekwencjonowania najpierw regionów bogatych w geny. Po drugie, nawet gdy genom jest kompletny, brak przylegania na duże odległości, w skali największych genów, zmniejszy szacunkową średnią długość genomu, ponieważ wszelkie przerwy w wyrównaniu najprawdopodobniej wystąpią w poprzek największych intronów. Obie kwestie są istotne w przypadku danych dotyczących H. sapiens. Na Rysunku 3,3 pokazujemy, że wyrównane dane są ukierunkowane na geny bogate w GC, które mają mniejszą długość genomową (Bernardi 2000). Jeśli chodzi o kontigowość, szacujemy zakres problemu, obliczając stosunek mediany genomowego rozmiaru kontigu do długości genomowej genu 95. percentyla. Idealnie byłoby, gdyby ten stosunek był znacznie większy niż jeden. Tabela 11 pokazuje, że jest on znacznie większy niż jeden w D. melanogaster i A. thaliana. W C. elegans jest on tylko umiarkowanie większy niż jeden, ale jest to mniej ważne dla tego organizmu, ponieważ długości genomowe nie są tak szeroko rozłożone. Natomiast u H. sapiens stosunek ten wynosi 1,2, a byłby jeszcze mniejszy, gdybyśmy nie wykorzystali danych genomowych z nowego podziału GenBanku, w którym wszystkie nakładające się klony zostały połączone (Jang et al. 1999).
Czy zbiór sekwencji genomowych Homo sapiens jest stronniczy? Obliczyliśmy prawdopodobieństwo, że cDNA o określonej zawartości GC dopasują się do sekwencji genomowej, biorąc pod uwagę, że dostępne było tylko 369 Mb nieredundantnej, gotowej sekwencji genomowej. Linia ciągła (w arbitralnej skali) wskazuje początkowy zbiór cDNA. Oczywiste przesunięcie w kierunku cDNA bogatych w GC jest ważne, ponieważ wiadomo, że odpowiadają one mniejszym genom (Bernardi 2000). Ciemne cieniowanie pokazuje silne trafienia; jasne cieniowanie pokazuje słabe trafienia.
Możemy oszacować dotkliwość tych uprzedzeń z różnymi wersjami danych genomowych D. melanogaster. W szczególności, powtórzyliśmy wyrównania z tymi samymi danymi cDNA, ale przełączyliśmy się na 34,9 Mb gotowych danych genomowych klon po klonie, które były dostępne przed zakończeniem shotguna całego genomu (Adams et al. 2000). Miara jakości kontigu wynosi więc 2,8, a wynikowa średnia długość genomu 7,1 kb jest przekroczona o 34%. Porównując cDNA wyrównane w obu zestawach danych, stwierdzamy, że 16% tego efektu można przypisać problemowi contiguity. Pozostałe 18% można przypisać tendencji do sekwencjonowania w pierwszej kolejności regionów bogatych w geny. Jeszcze bardziej dramatycznym przykładem tego zjawiska jest Mus musculus, którego wskaźnik jakości kontigów wynosi 0,3, a średnia długość genomu 9,7 kb. Jeśli założymy, że nie ma różnic między M. musculus i H. sapiens, to szacunek ten jest obarczony błędem o 447%. Parentetycznie, innym niewiarygodnym sposobem oszacowania średniej długości genomu jest wyodrębnienie anotacji GenBank. Opisane geny w 34,9 Mb danych genomowych dla D. melanogaster mają średnią długość genomową 3,0 kb, co jest błędem o 317%.
Zasadniczy wniosek jest taki, że nasza liczba 43,4 kb dla średniej długości genomowej u H. sapiens jest znacząco niedoszacowana, nawet jeśli jest już 10 razy większa niż zestawy treningowe używane w tych programach przewidywania eksonów. Jednakże, sama liczba genów jest również niepewna. Tradycyjny szacunek 70 000 (Antequera i Bird 1993; Fields et al. 1994) został ostatnio zakwestionowany przez znacznie niższe szacunki, od 35 000 do 45 000 (Ewing i Green 2000; Hattori et al. 2000; Roest Crollius et al. 2000). Jak możemy interpretować dane dotyczące H. sapiens? Jeśli przyjmiemy tradycyjną liczbę genów wynoszącą 70 000, nasza średnia długość genomu wynosząca 43,4 kb przewiduje frakcję intergeniczną na poziomie 10%. Załóżmy, że zawyżymy nasze szacunki o tę samą 34% rozbieżność, którą zaobserwowano między dwoma zestawami danych D. melanogaster. Liczba genów, która byłaby zgodna z tą samą 10% frakcją intergeniczną wynosi wtedy 51 400. Biorąc pod uwagę, że jakość kontigów jest znacznie gorsza u H. sapiens niż w danych klon po klonie D. melanogaster, jest prawdopodobne, że średnia długość genomu jest niedoszacowana o >34%. Tak więc, liczba genów musiałaby być znacznie mniejsza niż obecne niskie szacunki 35 000 do 45 000 dla naszych argumentów, aby dopuścić dużo intergenicznego DNA.
Z uwagi na niepewność w naszej metodzie, nie możemy podać dokładnego oszacowania dla frakcji intergenicznej w H. sapiens. Jesteśmy jednak gotowi twierdzić, że frakcja intergeniczna w H. sapiens nie może być tak duża, jak w przypadku A. thaliana, ponieważ przy tak wysokiej frakcji intergenicznej rozkład zawartości GC dla genomowego DNA jest bimodalny, jak na Rysunku 4.4. Dopasowanie danych do sumy Gaussianów ujawnia, że główny tryb jest wyśrodkowany na 0,382, co jest prawie identyczne z zawartością GC 0,390 w wyrównanych genach A. thaliana. Względny stosunek tych dwóch trybów implikuje frakcję intergeniczną na poziomie 30%, co jest mniejsze niż 46% oszacowane na podstawie argumentów dotyczących długości genomu, ale nie jest to niespodziewane, ponieważ część intergenicznego DNA może mieć zawartość GC podobną do intragenicznego DNA. Powodem, dla którego ta bimodalność nie została wcześniej opisana, jest fakt, że jest ona niezwykle wrażliwa na sposób, w jaki dane są wykreślane. W szczególności, biny histogramu muszą być mniejsze niż średnia długość genomu, a mniejsze genomowe kontigi (tj. te, które zostały zsekwencjonowane, ponieważ zawierają prawdopodobny gen) nie mogą być użyte. Nie obserwuje się takiej bimodalności u H. sapiens, D. melanogaster, czy C. elegans, niezależnie od sposobu wykreślania danych.
Dystrybucja zawartości GC dla anonimowej sekwencji genomowej w Arabidopsis thaliana. Idea, że znaczna część genomu jest intergeniczna, w połączeniu z faktem, że intergeniczne DNA ma niższą zawartość GC niż intrageniczne, sugeruje, że rozkład ten będzie bimodalny. Jednakże, dwumodalność jest łatwo przesłonięta przez sposób, w jaki dane są wykreślone. a i b różnią się wielkością bloków, w których obliczana jest zawartość GC, odpowiednio 1 kb i 5 kb. Rozmiary bloków większe niż średni rozmiar genu 2,6 kb zaciemniają efekt, ponieważ każdy blok może zawierać mieszaninę DNA intragenicznego i intergenicznego. a i c różnią się kontigami genomowymi, które są wykreślane (odpowiednio każdy kontig lub tylko kontig <35 kb). Po usunięciu klonów z dużymi wstawkami, preferowanych przez centra genomowe, pozostają te sekwencje, które były analizowane tylko dlatego, że zawierają prawdopodobny gen. Stąd bimodalność znika.