RESULTADOS

Figura11 representa a distribuição de comprimentos genómicos para H. sapiens, D. melanogaster, C. elegans, e A. thaliana. Tabela Tabela11 é um resumo numérico. A distribuição dos animais abrange 2-3 ordens de grandeza, mas a distribuição vegetal abrange apenas uma ordem de grandeza. A implicação para o problema dos grandes genes pode ser estimada considerando quantos dos maiores genes teriam de ser não identificados para que faltasse metade do espaço intragénico. Os números variam entre 11% e 10% num extremo, em H. sapiens e D. melanogaster, e 30% no outro extremo, em A. thaliana. Além disso, o único organismo em que a fracção intergénica é superior a 10% é A. thaliana, embora tenhamos incluído a correcção menor para os genes aninhados (genes no cordão inverso ou dentro de um intrão). Esta correcção é calculada através da contagem das ocorrências de genes aninhados nos nossos alinhamentos de cDNA, e ajustando para o facto de não detectarmos todas essas ocorrências porque não temos todos os cDNAs.

Distribuição de comprimentos genómicos para (a) Homo sapiens, (b) Drosophila melanogaster, (c) Caenorhabditis elegans, e (d) Arabidopsis thaliana. O sombreamento escuro indica acertos fortes. Batidas fracas (ligeiramente sombreadas) representam alinhamentos cDNA-a-genómica com <3 exons ou <50% do comprimento de cDNA alinhado. Uma esmagadora maioria destes fracos êxitos são na realidade alinhamentos completos com apenas um ou dois exões. Instâncias em que <50% do cDNA está alinhado representam 7,3%, 3,3%, 1,2%, e 0,9% dos genes nos quatro organismos, respectivamente.

Tabela 1

Fracções Intergénicas Estimadas

Comprimento genómico

95 Percentil

Homo sapiens Drosophila melanogaster Caenorhabolitis elegans Arabidose thaliana
Euchromatina 3180000 123000 97800 130000
DNA sequenciado 369000 123000 91000 119000
Gene…to-gene 45.4 9.0 5.3 4.7
cDNA alinhado 1061 1628 583 1401
Qualidade genómica 1″.2 23.3 2.4 15.7
Genes aninhados 6% 8% 8% 4% 1%
05 Percentil 2.5 0.9 0.8 0.9
43.4 9.5 5.0 2.6
165.5 36,3 14,2 5.4
%, missing half 11% 10% 21% 30%
ADN interergénico Discutido em texto do artigo 3% 10% 46%
p> As três primeiras filas listam o tamanho do genoma eucromático, a quantidade de sequência genómica que foi analisada, e a estimativa baseada na anotação da distância de género para género. As três filas seguintes descrevem os alinhamentos de cDNA. Estas linhas listam o número de cDNAs alinhados, a nossa avaliação de qualidade para os contigentes genómicos (ou seja, a mediana do tamanho do contigente genómico dividido pelo comprimento genómico do gene do percentil 95), e a nossa estimativa da frequência dos genes aninhados (ou seja, genes na cadeia inversa ou dentro de um intrão). O comprimento genómico é dado nas três filas seguintes pela sua média aritmética, e os seus valores do 5º ou 95º percentil. A seguir, indicamos que fracção dos maiores genes teria de ser não identificada para que faltasse metade do espaço intragénico. A última linha lista a fracção intergénica, calculada através da correcção do comprimento genómico médio dos genes aninhados, dividindo-o pela distância média entre genes, e subtraindo o resultado de um. Nota: Em Drosophila melanogaster, não contamos as uniões do andaime com mais de 1 kb como contíguas ao calcular a qualidade genómica. Todos os comprimentos são contabilizados em kp.

A principal incerteza no nosso método é que devemos extrapolar de um subconjunto dos genes para todo o genoma para determinar o comprimento genómico médio. Haverá enviesamentos de amostragem, mas estes podem ser categorizados e subcategorizados da seguinte forma: (1) a medida em que os dados cDNA são enriquecidos para genes grandes ou pequenos, (2) a medida em que os dados genómicos são tendenciosos para genes grandes ou pequenos, e depois, as regiões ricas em genes são feitas primeiro através de projectos de sequenciação? Serão os contigs suficientemente grandes para alinharmos os genes grandes?

Argumentaremos que o problema está principalmente nos dados genómicos, e não nos dados cDNA. Além disso, na medida em que existem vieses de amostragem, as tendências são sempre para subestimar a extensão genómica média e para sobrestimar a fracção intergénica.

Existem duas razões para suspeitar que os vieses nos dados cDNA nos levarão a subestimar a extensão genómica média. Tenha em mente que os grandes genes estão altamente correlacionados com os grandes cDNAs (este artigo; dados não mostrados). A primeira explicação é que os cDNAs de comprimento total são extremamente difíceis de clonar, dada a facilidade com que as moléculas de RNA são degradadas e o viés intrínseco no sistema de clonagem para inserções mais pequenas. A segunda razão é que moléculas grandes de RNA requerem mais tempo para serem transcrevidas, pelo que os genes grandes podem ser menos expressos e mais difíceis de isolar. No entanto, esta expectativa é incorrecta, porque a maquinaria de transcrição funciona em paralelo. Como medida dos níveis de expressão, em H. sapiens, alinhamos os 1,856,102 ESTs no GenBank contra os nossos dados de cDNA. As múltiplas leituras do mesmo clone foram contadas apenas uma vez. A figura22 mostra que não há variação significativa na cobertura de ESTs em função do comprimento genómico. Note-se que os procedimentos de normalização (Hillier et al. 1996) aplicados às bibliotecas EST não afectam as raras transcrições, nas quais procurávamos um efeito. A conclusão é que os dados de cDNA, extraídos do GenBank, podem ser representativos de todos os comprimentos genómicos.

A colecção de cDNA do Homo sapiens é tendenciosa? Alinhámos os 1.856.102 ESTs no GenBank com as nossas sequências de cDNA e traçámos o número de ESTs alinhados em função do comprimento genómico. Múltiplas leituras do mesmo clone são contadas apenas uma vez. Não há um viés óbvio, indicando que os cDNAs para genes de cada comprimento genómico são igualmente fáceis de isolar.

Dados genómicos são enviesados de duas maneiras. Em primeiro lugar, existe um enviesamento sociológico no sentido de sequenciar primeiro as regiões ricas em genes. Segundo, mesmo quando um genoma está completo, a falta de contiguidade de longo alcance, na escala dos maiores genes, reduzirá a estimativa do comprimento genómico médio, porque quaisquer quebras no alinhamento são mais prováveis de ocorrer através dos maiores introns. Ambas as questões são relevantes nos dados do H. sapiens. Na Figura 3,3, demonstramos que os dados alinhados estão enviesados para genes ricos em GC, que são de menor comprimento genómico (Bernardi 2000). Quanto à contiguidade, estimamos a extensão do problema através do cálculo da relação entre o tamanho médio do contigente genómico e o comprimento genómico do gene do percentil 95. Idealmente, este rácio seria muito superior a um. A tabela11 mostra que é muito maior do que um em D. melanogaster e A. thaliana. É apenas moderadamente maior do que um em C. elegans, mas isso é menos importante para este organismo, porque os comprimentos genómicos não estão tão amplamente distribuídos. Contudo, em H. sapiens, a proporção é 1,2, e teria sido ainda menor se não tivéssemos utilizado dados genómicos de uma nova divisão do GenBank, na qual todos os clones sobrepostos foram unidos (Jang et al. 1999).

A recolha da sequência genómica do Homo sapiens é tendenciosa? Calculámos a probabilidade de cDNAs de um determinado conteúdo de GC alinhados com a sequência genómica, dado que apenas 369 Mb de sequência genómica acabada não redundante estavam disponíveis. A linha sólida (a uma escala arbitrária) indica a colecção inicial de cDNAs. A tendência óbvia para cDNAs ricos em GC é importante porque estes correspondem a genes mais pequenos (Bernardi 2000). O sombreamento escuro mostra acertos fortes; o sombreamento claro mostra acertos fracos.

Podemos estimar a gravidade destes enviesamentos com as diferentes versões dos dados genómicos de D. melanogaster. Especificamente, repetimos os alinhamentos com os mesmos dados cDNA mas mudámos para os 34,9 Mb de dados genómicos clone a clone acabados que estavam disponíveis antes da conclusão da caçadeira de todo o genoma (Adams et al. 2000). A medida de qualidade contig é então de 2,8, e o comprimento genómico médio resultante de 7,1 kb está fora da marca em 34%. Comparando os cDNAs alinhados em ambos os conjuntos de dados, verificamos que 16% deste efeito é atribuível ao problema da contigüidade. Os outros 18% são atribuíveis ao enviesamento em primeiro lugar para as regiões ricas em genomas sequenciais. Um exemplo ainda mais dramático destes enviesamentos é Mus musculus, que tem uma medida de qualidade contigente de 0,3 e um comprimento genómico médio de 9,7 kb. Se assumirmos que não há diferença entre M. musculus e H. sapiens, esta estimativa está fora da marca em 447%. Parentheticamente, outra forma pouco fiável de estimar o comprimento genómico médio é extrair anotações do GenBank. Os genes anotados nos 34,9 Mb de dados genómicos para D. melanogaster têm um comprimento genómico médio de 3,0 kb, que está fora da marca em 317%.

A conclusão essencial é que o nosso valor de 43,4 kb para o comprimento genómico médio em H. sapiens é uma subestimação substancial, mesmo que já seja 10 vezes maior do que os conjuntos de treino utilizados para estes programas de exon-previsão. No entanto, a própria contagem de genes é também incerta. A estimativa tradicional de 70.000 (Antequera e Bird 1993; Fields et al. 1994) foi recentemente contestada por estimativas substancialmente inferiores, de 35.000 a 45.000 (Ewing e Green 2000; Hattori et al. 2000; Roest Crollius et al. 2000). Como podemos interpretar os dados de H. sapiens? Se aceitarmos a contagem tradicional de genes de 70.000, o nosso comprimento genómico médio de 43,4 kb prevê uma fracção intergénica de 10%. Suponhamos que inflacionamos a nossa estimativa pela mesma discrepância de 34% que foi observada entre os dois conjuntos de dados D. melanogaster. A contagem do gene que seria consistente com a mesma fracção intergénica de 10% é então 51.400. Considerando que a qualidade do contig é muito pior em H. sapiens do que nos dados de D. melanogaster clonado-por-clone, é provável que o comprimento genómico médio seja subestimado por >34%. Assim, a contagem de genes teria de ser substancialmente inferior às actuais estimativas baixas de 35.000 a 45.000 para que os nossos argumentos permitam muito ADN intergénico.

Dada a incerteza do nosso método, não podemos dar uma estimativa precisa da fracção intergénica em H. sapiens. Contudo, estamos preparados para argumentar que a fracção intergénica em H. sapiens não pode ser tão grande como para A. thaliana, porque, numa fracção intergénica tão elevada, a distribuição do conteúdo de GC para ADN genómico é bimodal, como na Figura 4.4. Adaptando os dados a uma soma de Gaussians revela que o modo principal está centrado em 0,382, que é quase idêntico ao conteúdo de 0,390 GC dos genes alinhados de A. thaliana. A relação relativa dos dois modos implica uma fracção intergénica de 30%, que é menor do que a estimativa de 46% derivada de argumentos de comprimento genómico, mas não inesperadamente, porque parte do ADN intergénico poderia ter um conteúdo de GC semelhante ao ADN intragénico. A razão pela qual esta bimodalidade não foi relatada anteriormente é que é extremamente sensível à forma como os dados são traçados. Especificamente, as caixas de histograma devem ser menores do que o comprimento genómico médio, e não podem ser utilizados contigs genómicos mais pequenos (isto é, os sequenciados porque contêm um gene provável). Dito isto, tal bimodalidade não é observada em H. sapiens, D. melanogaster, ou C. elegans, independentemente da forma como os dados são plotados.

Distribuição de conteúdo GC para sequência genómica anónima em Arabidopsis thaliana. A ideia de que uma fracção significativa do genoma é intergénica, juntamente com o facto de o DNA intergénico ter um conteúdo de GC inferior ao do DNA intragénico, sugere que esta distribuição será bimodal. Contudo, a bimodalidade é facilmente obscurecida pela forma como os dados são traçados. a e b diferem no tamanho das caixas sobre as quais o conteúdo de GC é calculado, 1 kb e 5 kb, respectivamente. Os tamanhos dos contentores maiores do que o tamanho médio do gene de 2,6 kb obscurecem o efeito porque cada contentor é susceptível de conter uma mistura de ADN intragénico e intergénico. a e c diferem nos contigentes genómicos que são plotados (cada contigente ou apenas contigentes <35 kb, respectivamente). Ao remover os clones de grande inerte favorecidos pelos centros genómicos, o que fica para trás são as sequências que foram analisadas apenas porque contêm um gene provável. Assim, a bimodalidade desaparece.

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *