RESULTATS

Figure Figure11 représente la distribution des longueurs génomiques pour H. sapiens, D. melanogaster, C. elegans, et A. thaliana. Le tableau 11 est un résumé numérique. Les distributions animales couvrent 2 à 3 ordres de grandeur, mais la distribution végétale ne couvre qu’un ordre de grandeur. L’implication pour le problème des grands gènes peut être estimée en considérant combien des plus grands gènes devraient être non identifiés pour que la moitié de l’espace intragénique soit manquant. Les chiffres vont de 11% et 10% à un extrême, chez H. sapiens et D. melanogaster, à 30% à l’autre extrême, chez A. thaliana. En outre, le seul organisme dans lequel la fraction intergénique est supérieure à 10% est A. thaliana, même si nous avons inclus la correction mineure pour les gènes imbriqués (gènes sur le brin inverse ou à l’intérieur d’un intron). Cette correction est calculée en comptant les occurrences de gènes imbriqués dans nos alignements d’ADNc, et en ajustant le fait que nous ne détectons pas chacune de ces occurrences car nous ne disposons pas de tous les ADNc.

Distribution des longueurs génomiques pour (a) Homo sapiens, (b) Drosophila melanogaster, (c) Caenorhabditis elegans, et (d) Arabidopsis thaliana. L’ombrage foncé indique les résultats forts. Les résultats faibles (légèrement ombrés) représentent les alignements ADNc-génomique avec <3 exons ou <50% de la longueur de l’ADNc aligné. Une écrasante majorité de ces résultats faibles sont en fait des alignements complets avec seulement un ou deux exons. Les instances dans lesquelles <50% de l’ADNc est aligné représentent respectivement 7,3%, 3,3%, 1,2% et 0,9% des gènes des quatre organismes.

Tableau 1

Fractions intergéniques estimées

.

.

Homo sapiens Drosophila melanogaster Caenorhabolitis elegans Arabidosis. thaliana
Euchromatine 3180000 123000 97800 130000
ADN séquencé 369000 123000 91000 119000
Gène-à gène 45.4 9,0 5,3 4.7
ADNc aligné 1061 1628 583 1401
Qualité génomique 1.2 23,3 2,4 15.7
Gènes imbriqués 6% 8% 4% 1%
05 Percentile 2.5 0,9 0,8 0,9
Longueur génomique 43.4 9,5 5,0 2,6
95 Percentile 165.5 36,3 14,2 5.4
%, moitié manquante 11% 10% 21% 30%
ADN intergénique Discutée dans le le texte de l’article 3% 10% 46%

Les trois premières lignes énumèrent la taille du génome euchromatique, la quantité de séquence génomique qui a été analysée, et l’estimation basée sur l’annotation de la distance gène à gène. Les trois lignes suivantes décrivent les alignements d’ADNc. Ces lignes indiquent le nombre d’ADNc alignés, notre évaluation de la qualité des contigs génomiques (c’est-à-dire la médiane de la taille des contigs génomiques divisée par la longueur génomique du gène du 95e centile) et notre estimation de la fréquence des gènes imbriqués (c’est-à-dire les gènes sur le brin inverse ou à l’intérieur d’un intron). La longueur génomique est donnée dans les trois lignes suivantes par sa moyenne arithmétique, et ses valeurs de 5ème ou 95ème percentile. Ensuite, nous indiquons quelle fraction des plus grands gènes devrait être non identifiée pour que la moitié de l’espace intragénique soit manquante. La dernière ligne indique la fraction intergénique, calculée en corrigeant la longueur génomique moyenne pour les gènes imbriqués, en divisant cette longueur par la distance moyenne entre les gènes et en soustrayant le résultat de un. Note : Chez Drosophila melanogaster, nous ne comptons pas les joints d’échafaudage de plus de 1 kb comme contigus lors du calcul de la qualité génomique. Toutes les longueurs sont rapportées en kp.

La principale incertitude de notre méthode est que nous devons extrapoler d’un sous-ensemble de gènes à l’ensemble du génome pour déterminer la longueur génomique moyenne. Il y aura des biais d’échantillonnage, mais ils peuvent être catégorisés et sous-catégorisés comme suit : (1) la mesure dans laquelle les données d’ADNc sont enrichies pour les grands ou les petits gènes, (2) la mesure dans laquelle les données génomiques sont biaisées pour les grands ou les petits gènes, et ensuite, les régions riches en gènes sont-elles faites en premier par les projets de séquençage ? Les contigs sont-ils suffisamment grands pour que nous puissions aligner les grands gènes ?

Nous soutiendrons que le problème réside principalement dans les données génomiques, et non dans les données d’ADNc. En outre, dans la mesure où il existe des biais d’échantillonnage, les tendances sont toujours de sous-estimer la longueur génomique moyenne et de surestimer la fraction intergénique.

Il y a deux raisons de soupçonner que les biais dans les données d’ADNc nous amèneront à sous-estimer la longueur génomique moyenne. Gardez à l’esprit que les grands gènes sont fortement corrélés avec les grands ADNc (cet article ; données non présentées). La première explication est que les ADNc complets sont extrêmement difficiles à cloner, étant donné la facilité avec laquelle les molécules d’ARN sont dégradées et le biais intrinsèque du système de clonage pour les inserts plus petits. La deuxième raison est que les grosses molécules d’ARN nécessitent plus de temps pour être transcrites, de sorte que les gènes de grande taille pourraient être moins bien exprimés et plus difficiles à isoler. Cependant, cette attente est incorrecte, car la machinerie de transcription fonctionne en parallèle. Pour mesurer les niveaux d’expression, chez H. sapiens, nous avons aligné les 1 856 102 EST de la GenBank avec nos données d’ADNc. Les lectures multiples provenant du même clone n’ont été comptées qu’une seule fois. La figure 22 montre qu’il n’y a pas de variation significative de la couverture des EST en fonction de la longueur génomique. Remarquez que les procédures de normalisation (Hillier et al. 1996) appliquées aux bibliothèques EST n’affectent pas les transcrits rares, dans lesquels nous recherchions un effet. La conclusion est que les données d’ADNc, extraites de GenBank, peuvent être représentatives de toutes les longueurs génomiques.

La collection de séquences d’ADNc d’Homo sapiens est-elle biaisée ? Nous avons aligné les 1 856 102 EST de GenBank sur nos séquences d’ADNc et avons tracé le nombre d’EST alignés en fonction de la longueur génomique. Les lectures multiples du même clone ne sont comptées qu’une seule fois. Il n’y a pas de biais évident, ce qui indique que les ADNc pour les gènes de chaque longueur génomique sont aussi faciles à isoler.

Les données génomiques sont biaisées de deux façons. Premièrement, il y a un biais sociologique vers le séquençage des régions riches en gènes en premier. Deuxièmement, même lorsqu’un génome est complet, le manque de contiguïté à longue distance, à l’échelle des plus grands gènes, réduira l’estimation de la longueur génomique moyenne, car toute rupture dans l’alignement est plus susceptible de se produire à travers les plus grands introns. Ces deux problèmes sont pertinents dans les données de H. sapiens. Dans la figure 3,3, nous démontrons que les données alignées sont biaisées vers les gènes riches en GC, qui ont une longueur génomique plus petite (Bernardi 2000). En ce qui concerne la contiguïté, nous estimons l’ampleur du problème en calculant le rapport entre la taille médiane des contigs génomiques et la longueur génomique du gène du 95e centile. Idéalement, ce rapport devrait être bien supérieur à un. Le tableau 11 montre qu’il est bien supérieur à un chez D. melanogaster et A. thaliana. Il n’est que modérément supérieur à un chez C. elegans, mais cela est moins important pour cet organisme, car les longueurs génomiques ne sont pas aussi largement distribuées. Cependant, chez H. sapiens, le rapport est de 1,2, et il aurait été encore plus petit si nous n’avions pas utilisé les données génomiques d’une nouvelle division de la GenBank dans laquelle tous les clones qui se chevauchent ont été réunis (Jang et al. 1999).

La collection de séquences génomiques d’Homo sapiens est-elle biaisée ? Nous avons calculé la probabilité que les ADNc d’un contenu GC particulier s’alignent sur la séqence génomique, étant donné que seulement 369 Mb de séquence génomique finie non redondante étaient disponibles. La ligne continue (sur une échelle arbitraire) indique la collection initiale d’ADNc. Le biais évident vers les ADNc riches en GC est important car on sait que ceux-ci correspondent à des gènes plus petits (Bernardi 2000). L’ombrage foncé indique les hits forts ; l’ombrage clair indique les hits faibles.

Nous pouvons estimer la gravité de ces biais avec les différentes versions des données génomiques de D. melanogaster. Plus précisément, nous avons répété les alignements avec les mêmes données d’ADNc mais nous sommes passés aux 34,9 Mb de données génomiques finies clone par clone qui étaient disponibles avant l’achèvement du shotgun du génome entier (Adams et al. 2000). La mesure de la qualité des contigs est alors de 2,8, et la longueur génomique moyenne résultante de 7,1 kb est erronée de 34 %. En comparant les ADNc alignés dans les deux ensembles de données, nous constatons que 16 % de cet effet est attribuable au problème de contiguïté. Les 18 % restants sont attribuables à la tendance à séquencer d’abord les régions riches en gènes. Un exemple encore plus spectaculaire de ces biais est Mus musculus, qui a une mesure de qualité de contiguïté de 0,3 et une longueur génomique moyenne de 9,7 kb. Si nous supposons qu’il n’y a pas de différence entre M. musculus et H. sapiens, cette estimation est erronée de 447 %. Entre parenthèses, une autre façon peu fiable d’estimer la longueur génomique moyenne consiste à extraire les annotations GenBank. Les gènes annotés dans ces 34,9 Mb de données génomiques pour D. melanogaster ont une longueur génomique moyenne de 3,0 kb, ce qui est hors de la marque de 317%.

La conclusion essentielle est que notre chiffre de 43,4 kb pour la longueur génomique moyenne chez H. sapiens est une sous-estimation substantielle, même s’il est déjà 10 fois plus grand que les ensembles d’entraînement utilisés pour ces programmes de prédiction d’exon. Cependant, le nombre de gènes lui-même est également incertain. L’estimation traditionnelle de 70 000 (Antequera et Bird 1993 ; Fields et al. 1994) a récemment été remise en question par des estimations sensiblement plus basses, de 35 000 à 45 000 (Ewing et Green 2000 ; Hattori et al. 2000 ; Roest Crollius et al. 2000). Comment pouvons-nous interpréter les données relatives à H. sapiens ? Si nous acceptons le nombre traditionnel de 70 000 gènes, notre longueur génomique moyenne de 43,4 kb prédit une fraction intergénique de 10%. Supposons que nous gonflions notre estimation du même écart de 34 % que celui observé entre les deux ensembles de données de D. melanogaster. Le nombre de gènes qui serait cohérent avec la même fraction intergénique de 10 % est alors de 51 400. Si l’on considère que la qualité des contigs est bien plus mauvaise chez H. sapiens que dans les données clone par clone de D. melanogaster, il est probable que la longueur génomique moyenne soit sous-estimée de >34%. Ainsi, le nombre de gènes devrait être sensiblement inférieur aux estimations basses actuelles de 35 000 à 45 000 pour que nos arguments permettent beaucoup d’ADN intergénique.

Vu l’incertitude de notre méthode, nous ne pouvons pas donner une estimation précise de la fraction intergénique chez H. sapiens. Cependant, nous sommes prêts à soutenir que la fraction intergénique chez H. sapiens ne peut pas être aussi importante que chez A. thaliana, car, à une fraction intergénique aussi élevée, la distribution du contenu en GC pour l’ADN génomique est bimodale, comme dans la figure Figure4.4. L’ajustement des données à une somme de gaussiennes révèle que le mode principal est centré à 0,382, ce qui est presque identique au contenu GC de 0,390 des gènes alignés de A. thaliana. Le rapport relatif des deux modes implique une fraction intergénique de 30%, ce qui est inférieur à l’estimation de 46% dérivée des arguments de la longueur génomique, mais pas de manière inattendue, car une partie de l’ADN intergénique pourrait avoir un contenu en GC similaire à l’ADN intragénique. La raison pour laquelle cette bimodalité n’a pas été signalée précédemment est qu’elle est extrêmement sensible à la façon dont les données sont représentées. Plus précisément, les cases de l’histogramme doivent être plus petites que la longueur génomique moyenne, et les contigs génomiques plus petits (c’est-à-dire ceux qui ont été séquencés parce qu’ils contiennent un gène probable) ne peuvent pas être utilisés. Cela dit, aucune bimodalité de ce type n’est observée chez H. sapiens, D. melanogaster ou C. elegans, quelle que soit la façon dont les données sont tracées.

Distribution du contenu GC pour une séquence génomique anonyme chez Arabidopsis thaliana. L’idée qu’une fraction significative du génome est intergénique, couplée au fait que l’ADN intergénique a un contenu en GC plus faible que l’ADN intragénique, suggère que cette distribution sera bimodale. Cependant, la bimodalité est facilement masquée par la façon dont les données sont représentées. a et b diffèrent par la taille des intervalles sur lesquels la teneur en GC est calculée, 1 kb et 5 kb, respectivement. Les tailles de cases supérieures à la taille moyenne des gènes de 2,6 kb masquent l’effet car chaque case est susceptible de contenir un mélange d’ADN intragénique et intergénique. a et c diffèrent dans les contigs génomiques qui sont tracés (tous les contigs ou seulement les contigs <35 kb, respectivement). En éliminant les clones à grande insertion favorisés par les centres génomiques, il ne reste que les séquences qui ont été analysées uniquement parce qu’elles contiennent un gène probable. Par conséquent, la bimodalité disparaît.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *