RESULTATEN

Figuur Figuur11 toont de verdeling van de genomische lengtes voor H. sapiens, D. melanogaster, C. elegans, en A. thaliana. Tabel 11 is een numerieke samenvatting. De verdeling voor dieren beslaat 2 tot 3 grootteordes, maar die voor planten slechts 1 grootteorde. De implicatie voor het probleem van de grote genen kan worden geschat door na te gaan hoeveel van de grootste genen niet geïdentificeerd zouden moeten zijn om de helft van de intragenische ruimte te missen. De cijfers lopen uiteen van 11% en 10% aan het ene uiterste, bij H. sapiens en D. melanogaster, tot 30% aan het andere uiterste, bij A. thaliana. Bovendien is A. thaliana het enige organisme waarin de intergene fractie groter is dan 10%, ook al hebben wij de kleine correctie voor geneste genen (genen op de omgekeerde streng of binnen een intron) opgenomen. Deze correctie wordt berekend door het aantal genen te tellen dat in onze cDNA-uitlijningen voorkomt, en te corrigeren voor het feit dat we niet elk gen detecteren omdat we niet alle cDNA’s hebben.

Distributie van genomische lengtes voor (a) Homo sapiens, (b) Drosophila melanogaster, (c) Caenorhabditis elegans, en (d) Arabidopsis thaliana. Donkere arcering geeft sterke hits aan. Zwakke hits (licht gearceerd) vertegenwoordigen cDNA-to-genomic alignments met <3 exons of <50% van de cDNA lengte aligned. Een overweldigende meerderheid van deze zwakke treffers zijn in feite volledige uitlijningen met slechts één of twee exonen. De gevallen waarin <50% van het cDNA is uitgelijnd, vertegenwoordigen respectievelijk 7,3%, 3,3%, 1,2%, en 0,9% van de genen in de vier organismen.

Tabel 1

Geschatte Intergene Fracties

d7

d5

Homo sapiens Drosophila melanogaster Caenorhabolitis elegans Arabidosis thaliana
Euchromatine 3180000 123000 97800 130000
Gequenceerd DNA 369000 123000 91000 119000
Gene-to-gen 45.4 9.0 5.3 4.7
cDNA aligned 1061 1628 583 1401
Genomic kwaliteit 1.2 23.3 2.4 15.1 15.2
Nest genen 6% 8% 4% 1%
05 Percentile 2.5 0.9 0.8 0.9
Genomic length 43.4 9.5 5.0 2.6
95 Percentiel 165.5 165.1
36.3 14.2 5.4 %, ontbrekende helft 11% 10% 21% 30%
Intergeen DNA Besproken in tekst van artikel 3% 10% 46%

In de eerste drie rijen staat de euchromatische genoomgrootte, de hoeveelheid genoomsequentie die is geanalyseerd, en de op annotatie gebaseerde schatting van de gen-tot-gen-afstand. De volgende drie rijen beschrijven de cDNA-uitlijningen. Deze rijen vermelden het aantal uitgelijnde cDNA’s, onze kwaliteitsbeoordeling voor de genomische contigs (d.w.z. de mediaan van de genomische contig grootte gedeeld door de genomische lengte voor het 95ste percentiel gen), en onze schatting van de frequentie van geneste genen (d.w.z. genen op de omgekeerde streng of binnen een intron). De genomische lengte wordt in de volgende drie rijen gegeven door het rekenkundig gemiddelde, en de 5e of 95e percentielwaarden. Vervolgens geven we aan welk deel van de grootste genen niet geïdentificeerd zou moeten zijn om de helft van de intragenische ruimte te missen. De laatste rij geeft de intergene fractie, berekend door de gemiddelde genoomlengte voor geneste genen te corrigeren, die te delen door de gemiddelde gen-tot-gen afstand, en het resultaat van één af te trekken. Opmerking: In Drosophila melanogaster tellen we bij de berekening van de genomische kwaliteit scaffold joins van meer dan 1 kb niet als aaneengesloten. Alle lengtes worden gerapporteerd in kp.

De belangrijkste onzekerheid in onze methode is dat we een extrapolatie moeten maken van een deelverzameling van de genen naar het volledige genoom om de gemiddelde genomische lengte te bepalen. Er zullen steekproefvertekeningen zijn, maar die kunnen als volgt worden gecategoriseerd en gesubcategoriseerd: (1) de mate waarin cDNA-gegevens verrijkt zijn met grote of kleine genen, (2) de mate waarin genomische gegevens vertekend zijn voor grote of kleine genen, en vervolgens, worden de genrijke regio’s eerst door sequencing-projecten gedaan? Zijn de contigs groot genoeg om de grote genen te kunnen aligneren?

Wij zullen betogen dat het probleem vooral in de genomische gegevens zit, niet in de cDNA-gegevens. Bovendien, voor zover er sprake is van vertekeningen bij de steekproeftrekking, is de tendens altijd dat de gemiddelde genomische lengte wordt onderschat en dat de intergene fractie wordt overschat.

Er zijn twee redenen om aan te nemen dat vertekeningen in de cDNA-gegevens ertoe zullen leiden dat we de gemiddelde genomische lengte onderschatten. Bedenk dat grote genen sterk gecorreleerd zijn met grote cDNA’s (dit artikel; gegevens niet weergegeven). De eerste verklaring is dat full-length cDNA’s zijn uiterst moeilijk te klonen, gezien het gemak waarmee RNA-moleculen worden afgebroken en de intrinsieke bias in het kloneringssysteem voor kleinere inserts. De tweede reden is dat grote RNA-moleculen meer tijd nodig hebben om te transcriberen, zodat grote genen wellicht minder tot expressie komen en moeilijker te isoleren zijn. Deze verwachting is echter onjuist, omdat de transcriptie-machine parallel werkt. Als maatstaf voor de expressieniveaus in H. sapiens hebben we de 1.856.102 ESTs in GenBank uitgelijnd met onze cDNA-gegevens. Meerdere leest van dezelfde kloon werden slechts een keer geteld. Figuur 22 laat zien dat er geen significante variatie in EST dekking als functie van de genomische lengte. Merk op dat de normalisatie procedures (Hillier et al. 1996) toegepast op de EST bibliotheken geen invloed op de zeldzame transcripten, waarin we op zoek waren naar een effect. De conclusie is dat cDNA-gegevens, afkomstig uit GenBank, representatief kunnen zijn voor alle genomische lengtes.

Is de verzameling cDNA-sequenties van Homo sapiens vertekend? We hebben de 1.856.102 EST’s in GenBank uitgelijnd met onze cDNA-sequenties en het aantal uitgelijnde EST’s uitgezet als functie van de genomische lengte. Meervoudige lezingen van dezelfde kloon worden slechts eenmaal geteld. Er is geen duidelijke bias, wat erop wijst dat cDNA’s voor genen van elke genomische lengte even gemakkelijk te isoleren zijn.

Genomische gegevens zijn op twee manieren biased. Ten eerste is er een sociologisch vooroordeel om eerst de genenrijke regio’s te sequencen. Ten tweede, zelfs als een genoom compleet is, zal gebrek aan lange-afstands contiguïteit, op de schaal van de grootste genen, de schatting van de gemiddelde genomische lengte verminderen, omdat eventuele breuken in de uitlijning hoogstwaarschijnlijk over de grootste introns zullen voorkomen. Beide kwesties zijn relevant in de H. sapiens gegevens. In Figuur 3,3, tonen we aan dat de uitgelijnde gegevens zijn vertekend in de richting van GC-rijke genen, die van kleinere genomische lengte (Bernardi 2000). Wat de contiguïteit betreft, schatten wij de omvang van het probleem door de verhouding te berekenen tussen de mediane genomische contigomvang en de genomische lengte van het 95ste percentiel gen. Idealiter zou deze verhouding veel groter dan één zijn. Tabel 11 laat zien dat hij bij D. melanogaster en A. thaliana veel groter dan één is. Zij is slechts matig groter dan één in C. elegans, maar dat is voor dit organisme minder belangrijk, omdat de genomische lengtes niet zo breed verdeeld zijn. In H. sapiens is de verhouding echter 1,2, en ze zou nog kleiner zijn geweest als we geen gebruik hadden gemaakt van genomische gegevens van een nieuwe afdeling van GenBank waarin alle overlappende klonen zijn samengevoegd (Jang et al. 1999).

Is de verzameling van genomische sequenties van Homo sapiens vertekend? Wij hebben de waarschijnlijkheid berekend dat cDNA’s met een bepaald GC-gehalte uitgelijnd zijn met genomische sequentie, gegeven het feit dat slechts 369 Mb niet-redundante voltooide genomische sequentie beschikbaar was. De ononderbroken lijn (op een willekeurige schaal) geeft de eerste verzameling van cDNAs. De voor de hand liggende bias in de richting van GC-rijke cDNA’s is belangrijk omdat deze bekend zijn te corresponderen met kleinere genen (Bernardi 2000). Donkere arcering toont sterke hits; lichte arcering toont zwakke hits.

We kunnen de ernst van deze biases te schatten met de verschillende versies van de D. melanogaster genomische gegevens. In het bijzonder hebben we de uitlijningen herhaald met dezelfde cDNA-gegevens, maar zijn we overgestapt op de 34,9 Mb aan voltooide kloon-voor-kloon-genomicagegevens die beschikbaar waren vóór de voltooiing van de whole-genome shotgun (Adams et al. 2000). De contig-kwaliteitsmaat is dan 2,8, en de resulterende gemiddelde genomische lengte van 7,1 kb ligt 34% naast het doel. Door de cDNA’s te vergelijken die in beide datasets zijn uitgelijnd, vinden wij dat 16% van dit effect toe te schrijven is aan het contiguïteitsprobleem. De andere 18% is toe te schrijven aan het vooroordeel dat gen-rijke regio’s het eerst worden gesequeneerd. Een nog dramatischer voorbeeld van deze bias is Musculus, die een contig-kwaliteitsmaat heeft van 0.3 en een gemiddelde genomische lengte van 9.7 kb. Als we aannemen dat er geen verschil is tussen M. musculus en H. sapiens, zit deze schatting er 447% naast. Terzijde: een andere onbetrouwbare manier om de gemiddelde genomische lengte te schatten is het extraheren van GenBank annotaties. De geannoteerde genen in die 34.9 Mb aan genomische gegevens voor D. melanogaster hebben een gemiddelde genomische lengte van 3.0 kb, wat 317% afwijkt.

De belangrijkste conclusie is dat ons cijfer van 43.4 kb voor de gemiddelde genomische lengte in H. sapiens een aanzienlijke onderschatting is, ook al is het al 10 keer groter dan de trainingsreeksen die voor deze exon-voorspellingsprogramma’s worden gebruikt. Het aantal genen zelf is echter ook onzeker. De traditionele schatting van 70.000 (Antequera and Bird 1993; Fields et al. 1994) is onlangs aangevochten door aanzienlijk lagere schattingen, van 35.000 tot 45.000 (Ewing and Green 2000; Hattori et al. 2000; Roest Crollius et al. 2000). Hoe kunnen we de gegevens van H. sapiens interpreteren? Als we de traditionele genentelling van 70.000 aanvaarden, voorspelt onze gemiddelde genomische lengte van 43.4 kb een intergene fractie van 10%. Veronderstel dat we onze schatting opblazen met hetzelfde verschil van 34% dat werd waargenomen tussen de twee D. melanogaster data sets. Het aantal genen dat consistent zou zijn met dezelfde 10% intergene fractie is dan 51.400. Gezien het feit dat de contig-kwaliteit veel slechter is bij H. sapiens dan in de kloon-voor-kloon D. melanogaster gegevens, is het waarschijnlijk dat de gemiddelde genomische lengte met >34% onderschat wordt. Het aantal genen zou dus aanzienlijk minder moeten zijn dan de huidige lage schattingen van 35.000 tot 45.000, willen onze argumenten veel intergeen DNA toelaten.

Gezien de onzekerheid in onze methode kunnen we geen precieze schatting geven voor de intergene fractie in H. sapiens. We zijn echter bereid te stellen dat de intergene fractie in H. sapiens niet zo groot kan zijn als die voor A. thaliana, omdat bij zo’n hoge intergene fractie de verdeling van het GC-gehalte voor genomisch DNA bimodaal is, zoals in figuur 4.4. Montage van de gegevens op een som van Gaussians blijkt dat de belangrijkste modus is gecentreerd op 0,382, die bijna identiek is aan de 0,390 GC inhoud van de uitgelijnde A. thaliana genen. De relatieve verhouding van de twee modi impliceert een intergene fractie van 30%, wat kleiner is dan de 46% schatting afgeleid uit argumenten voor de genomische lengte, maar niet onverwacht, omdat een deel van het intergene DNA een GC-gehalte zou kunnen hebben dat vergelijkbaar is met het intragene DNA. De reden waarom deze bimodaliteit nog niet eerder is gerapporteerd, is dat zij uiterst gevoelig is voor de manier waarop de gegevens worden uitgezet. Meer bepaald moeten de histogram-bins kleiner zijn dan de gemiddelde genomische lengte, en kleinere genomische contigs (d.w.z. diegene die gesequenced zijn omdat ze een waarschijnlijk gen bevatten) kunnen niet gebruikt worden. Dat gezegd hebbende, geen dergelijke bimodaliteit wordt waargenomen in H. sapiens, D. melanogaster, of C. elegans, ongeacht hoe de gegevens worden uitgezet.

Distributie van GC-gehalte voor anonieme genomische sequentie in Arabidopsis thaliana. Het idee dat een aanzienlijk deel van het genoom intergenisch is, gekoppeld aan het feit dat intergenisch DNA een lager GC-gehalte heeft dan intragenisch DNA, suggereert dat deze verdeling bimodaal zal zijn. De bimodaliteit wordt echter gemakkelijk verdoezeld door de manier waarop de gegevens zijn uitgezet. a en b verschillen in de grootte van de bins waarover het GC-gehalte wordt berekend, respectievelijk 1 kb en 5 kb. Grotere bins dan de gemiddelde gengrootte van 2,6 kb vertroebelen het effect omdat elke bin waarschijnlijk een mengsel van intragenisch en intergenisch DNA bevat. a en c verschillen in de genomische contigs die worden uitgezet (elke contig of alleen contigs <35 kb, respectievelijk). Door de grote-insert klonen te verwijderen die door de genoom-centra begunstigd worden, blijven de sequenties over die enkel geanalyseerd werden omdat ze een waarschijnlijk gen bevatten. De bimodaliteit verdwijnt dus.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *