RESULTADOS

La Figura11 representa la distribución de las longitudes genómicas de H. sapiens, D. melanogaster, C. elegans y A. thaliana. La Tabla11 es un resumen numérico. Las distribuciones de los animales abarcan 2-3 órdenes de magnitud, pero la distribución de las plantas abarca sólo un orden de magnitud. La implicación para el problema de los genes grandes puede estimarse considerando cuántos de los genes más grandes tendrían que estar sin identificar para que faltara la mitad del espacio intragénico. Las cifras oscilan entre el 11% y el 10% en un extremo, en H. sapiens y D. melanogaster, y el 30% en el otro extremo, en A. thaliana. Además, el único organismo en el que la fracción intergénica es superior al 10% es A. thaliana, a pesar de que hemos incluido la corrección menor para los genes anidados (genes en la cadena inversa o dentro de un intrón). Esta corrección se calcula contando las apariciones de genes anidados en nuestros alineamientos de ADNc, y ajustando el hecho de que no detectamos cada una de esas apariciones porque no tenemos todos los ADNc.

Distribución de las longitudes genómicas para (a) Homo sapiens, (b) Drosophila melanogaster, (c) Caenorhabditis elegans, y (d) Arabidopsis thaliana. El sombreado oscuro indica las coincidencias fuertes. Las coincidencias débiles (ligeramente sombreadas) representan alineaciones de ADNc a genoma con <3 exones o <50% de la longitud del ADNc alineado. Una abrumadora mayoría de estos aciertos débiles son en realidad alineaciones completas con sólo uno o dos exones. Los casos en los que <50% del ADNc está alineado representan el 7,3%, 3,3%, 1,2% y 0,9% de los genes en los cuatro organismos, respectivamente.

Tabla 1

Fracciones intergénicas estimadas

Homo sapiens Drosophila melanogaster Caenorhabolitis elegans Arabidosis thaliana
Eucromatina 3180000 123000 97800 130000
ADN secuenciado 369000 123000 91000 119000
Gene-to-gene 45.4 9,0 5,3 4.7
ADNc alineado 1061 1628 583 1401
Calidad genómica 1.2 23,3 2,4 15.7
Genes anidados 6% 8% 4% 1%
05 Percentil 2.5 0,9 0,8 0,9
Longitud genómica 43.4 9,5 5,0 2,6
Percentil 95 165.5 36,3 14,2 5.4
%, falta la mitad 11% 10% 21% 30%
ADN Intergénico Discutido en texto del artículo 3% 10% 46%

Las tres primeras filas enumeran el tamaño del genoma eucromático, la cantidad de secuencia genómica que se analizó, y la estimación basada en la anotación de la distancia entre genes. Las tres filas siguientes describen las alineaciones de ADNc. Estas filas enumeran el número de ADNc alineados, nuestra evaluación de la calidad de los contigs genómicos (es decir, la mediana del tamaño del contig genómico dividida por la longitud genómica del gen del percentil 95) y nuestra estimación de la frecuencia de genes anidados (es decir, genes en la cadena inversa o dentro de un intrón). La longitud genómica se indica en las tres filas siguientes mediante su media aritmética y sus valores de percentil 5 o 95. A continuación, indicamos qué fracción de los genes más grandes tendría que estar sin identificar para que faltara la mitad del espacio intragénico. La última fila indica la fracción intergénica, calculada corrigiendo la longitud genómica media de los genes anidados, dividiéndola por la distancia media entre genes y restando el resultado de uno. Nota: En Drosophila melanogaster, no contamos las uniones de andamios de más de 1 kb como contiguas al calcular la calidad genómica. Todas las longitudes se reportan en kp.

La principal incertidumbre de nuestro método es que debemos extrapolar desde un subconjunto de genes a todo el genoma para determinar la longitud genómica media. Habrá sesgos de muestreo, pero pueden ser categorizados y subcategorizados como sigue (1) el grado de enriquecimiento de los datos de ADNc para los genes grandes o pequeños, (2) el grado de sesgo de los datos genómicos para los genes grandes o pequeños, y luego, ¿las regiones ricas en genes están hechas primero por proyectos de secuenciación? ¿Son los contigs lo suficientemente grandes como para que podamos alinear los genes grandes?

Defenderemos que el problema está principalmente en los datos genómicos, no en los datos de ADNc. Además, en la medida en que hay sesgos de muestreo, las tendencias son siempre a subestimar la longitud genómica media y a sobreestimar la fracción intergénica.

Hay dos razones para sospechar que los sesgos en los datos de ADNc nos harán subestimar la longitud genómica media. Hay que tener en cuenta que los genes grandes están altamente correlacionados con los ADNc grandes (este trabajo; datos no mostrados). La primera explicación es que los ADNc de longitud completa son extremadamente difíciles de clonar, dada la facilidad con la que se degradan las moléculas de ARN y el sesgo intrínseco del sistema de clonación para insertos más pequeños. La segunda razón es que las moléculas de ARN de gran tamaño requieren más tiempo para transcribirse, por lo que los genes de gran tamaño podrían ser menos expresados y más difíciles de aislar. Sin embargo, esta expectativa es incorrecta, porque la maquinaria de transcripción funciona en paralelo. Como medida de los niveles de expresión, en H. sapiens, alineamos las 1.856.102 ESTs en GenBank con nuestros datos de cDNA. Las lecturas múltiples del mismo clon se contaron sólo una vez. La figura 22 muestra que no hay una variación significativa en la cobertura de las EST en función de la longitud del genoma. Obsérvese que los procedimientos de normalización (Hillier et al. 1996) aplicados a las bibliotecas de EST no afectan a las transcripciones raras, en las que buscábamos un efecto. La conclusión es que los datos de ADNc, extraídos de GenBank, pueden ser representativos de todas las longitudes genómicas.

¿Está sesgada la colección de secuencias de ADNc de Homo sapiens? Alineamos las 1.856.102 ESTs en GenBank con nuestras secuencias de cDNA y trazamos el número de ESTs alineadas en función de la longitud genómica. Las lecturas múltiples del mismo clon se cuentan sólo una vez. No hay ningún sesgo obvio, lo que indica que los cDNAs para los genes de cada longitud genómica son igualmente fáciles de aislar.

Los datos genómicos están sesgados de dos maneras. En primer lugar, existe un sesgo sociológico para secuenciar primero las regiones ricas en genes. En segundo lugar, incluso cuando un genoma está completo, la falta de contigüidad de largo alcance, en la escala de los genes más grandes, reducirá la estimación de la longitud genómica media, porque cualquier ruptura en la alineación es más probable que ocurra a través de los intrones más grandes. Ambas cuestiones son relevantes en los datos de H. sapiens. En la Figura 3,3, demostramos que los datos alineados están sesgados hacia los genes ricos en GC, que tienen una longitud genómica menor (Bernardi 2000). En cuanto a la contigüidad, estimamos la magnitud del problema calculando la relación entre la mediana del tamaño del contig genómico y la longitud genómica del gen del percentil 95. Lo ideal sería que esta relación fuera mucho mayor que uno. La Tabla 11 muestra que es mucho mayor que uno en D. melanogaster y A. thaliana. Sólo es moderadamente superior a uno en C. elegans, pero eso es menos importante para este organismo, porque las longitudes genómicas no están tan ampliamente distribuidas. Sin embargo, en H. sapiens, la relación es de 1,2, y habría sido incluso menor si no hubiéramos utilizado datos genómicos de una nueva división del GenBank en la que se han unido todos los clones superpuestos (Jang et al. 1999).

¿Está sesgada la colección de secuencias genómicas de Homo sapiens? Calculamos la probabilidad de que los cDNAs de un determinado contenido de GC se alinearan con la secuencia genómica, dado que sólo se disponía de 369 Mb de secuencia genómica acabada no redundante. La línea sólida (en una escala arbitraria) indica la colección inicial de ADNc. El sesgo obvio hacia los ADNc ricos en GC es importante porque se sabe que éstos corresponden a genes más pequeños (Bernardi 2000). El sombreado oscuro muestra coincidencias fuertes; el sombreado claro muestra coincidencias débiles.

Podemos estimar la gravedad de estos sesgos con las diferentes versiones de los datos genómicos de D. melanogaster. Específicamente, repetimos los alineamientos con los mismos datos de ADNc pero cambiamos a los 34,9 Mb de datos genómicos terminados clon por clon que estaban disponibles antes de la finalización del shotgun del genoma completo (Adams et al. 2000). La medida de calidad del contig es entonces de 2,8, y la longitud genómica media resultante de 7,1 kb está fuera de la marca en un 34%. Comparando los cDNAs alineados en ambos conjuntos de datos, encontramos que el 16% de este efecto es atribuible al problema de contigüidad. El otro 18% es atribuible al sesgo de secuenciar primero las regiones ricas en genes. Un ejemplo aún más dramático de estos sesgos es Mus musculus, que tiene una medida de calidad de contigüidad de 0,3 y una longitud genómica media de 9,7 kb. Si suponemos que no hay diferencias entre M. musculus y H. sapiens, esta estimación se aleja de la realidad en un 447%. Entre paréntesis, otra forma poco fiable de estimar la longitud genómica media es extraer las anotaciones del GenBank. Los genes anotados en esos 34,9 Mb de datos genómicos para D. melanogaster tienen una longitud genómica media de 3,0 kb, que está fuera de la marca en un 317%.

La conclusión esencial es que nuestra cifra de 43,4 kb para la longitud genómica media en H. sapiens es una subestimación sustancial, incluso si ya es 10 veces mayor que los conjuntos de entrenamiento utilizados para estos programas de predicción de exones. Sin embargo, el propio recuento de genes también es incierto. La estimación tradicional de 70.000 (Antequera y Bird 1993; Fields et al. 1994) ha sido recientemente cuestionada por estimaciones sustancialmente más bajas, de 35.000 a 45.000 (Ewing y Green 2000; Hattori et al. 2000; Roest Crollius et al. 2000). ¿Cómo podemos interpretar los datos de H. sapiens? Si aceptamos el recuento tradicional de 70.000 genes, nuestra longitud genómica media de 43,4 kb predice una fracción intergénica del 10%. Supongamos que inflamos nuestra estimación con la misma discrepancia del 34% que se observó entre los dos conjuntos de datos de D. melanogaster. El recuento de genes que sería coherente con la misma fracción intergénica del 10% es entonces de 51.400. Considerando que la calidad del contig es mucho peor en H. sapiens que en los datos de D. melanogaster clonados, es probable que la longitud genómica media esté subestimada en un >34%. Así, el recuento de genes tendría que ser sustancialmente menor que las bajas estimaciones actuales de 35.000 a 45.000 para que nuestros argumentos permitan mucho ADN intergénico.

Dada la incertidumbre de nuestro método, no podemos dar una estimación precisa de la fracción intergénica en H. sapiens. Sin embargo, estamos preparados para argumentar que la fracción intergénica en H. sapiens no puede ser tan grande como lo es para A. thaliana, porque, a una fracción intergénica tan alta, la distribución del contenido de GC para el ADN genómico es bimodal, como en la Figura4.4. El ajuste de los datos a una suma de gaussianos revela que el modo principal está centrado en 0,382, que es casi idéntico al contenido de GC de 0,390 de los genes alineados de A. thaliana. La relación relativa de los dos modos implica una fracción intergénica del 30%, que es menor que la estimación del 46% derivada de los argumentos de longitud genómica, pero no inesperadamente, porque parte del ADN intergénico podría tener un contenido de GC similar al del ADN intragénico. La razón por la que esta bimodalidad no ha sido reportada previamente es que es extremadamente sensible a la forma en que se trazan los datos. En concreto, los intervalos del histograma deben ser más pequeños que la longitud genómica media, y no se pueden utilizar los contigs genómicos más pequeños (es decir, los secuenciados porque contienen un gen probable). Dicho esto, no se observa tal bimodalidad en H. sapiens, D. melanogaster o C. elegans, independientemente de cómo se tracen los datos.

Distribución del contenido de GC para la secuencia genómica anónima en Arabidopsis thaliana. La idea de que una fracción significativa del genoma es intergénica, junto con el hecho de que el ADN intergénico tiene un menor contenido de GC que el ADN intragénico, sugiere que esta distribución será bimodal. Sin embargo, la bimodalidad queda fácilmente oculta por la forma en que se representan los datos. a y b difieren en el tamaño de los intervalos sobre los que se calcula el contenido de CG, 1 kb y 5 kb, respectivamente. Los tamaños de los intervalos mayores que el tamaño medio del gen de 2,6 kb ocultan el efecto porque es probable que cada intervalo contenga una mezcla de ADN intragénico e intergénico. a y c difieren en los contigs genómicos que se representan (cada contig o sólo contigs <35 kb, respectivamente). Al eliminar los clones de gran tamaño favorecidos por los centros genómicos, lo que queda son las secuencias que se analizaron sólo porque contienen un gen probable. Por lo tanto, la bimodalidad desaparece.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *