結果
図11は、H. sapiens、D. melanogaster、C. elegans、A. thalianaのゲノム長の分布を示したものです。 表11はその数値的なまとめである。 動物の分布は2~3桁の大きさにわたっていますが、植物の分布は1桁しかありません。 大遺伝子問題への影響は、遺伝子内スペースの半分が欠落するためには、どれだけの大遺伝子が未同定でなければならないかを考えることで推定できる。 この数字は、H. sapiensやD. melanogasterの11%と10%から、A. thalianaの30%までの範囲である。 さらに、入れ子になっている遺伝子(逆鎖やイントロン内にある遺伝子)の補正を行ったにもかかわらず、遺伝子間の割合が10%を超えている生物はA. thalianaだけである。 この補正は、cDNAのアラインメントでネストした遺伝子の発生を数え、すべてのcDNAを持っているわけではないので、そのような発生をすべて検出するわけではないという事実を調整することによって計算されます。
(a)Homo sapiens、(b)Drosophila melanogaster、(c)Caenorhabditis elegans、(d)Arabidopsis thalianaのゲノムの長さの分布。 濃い陰影は強いヒットを示す。 弱いヒット(薄い陰影)は、<<cDNA長の50%がアラインメントされたcDNA-to-genomicアラインメントを表します。 これらの弱いヒットの圧倒的多数は、実際には1つまたは2つのエクソンだけの完全なアラインメントです。 <50%のcDNAがアラインメントされたケースは、4つの生物の遺伝子のそれぞれ7.3%、3.3%、1.2%、0.9%を占めています。
表1
推定される遺伝子間分画
Homo sapiens | Drosophila melanogaster | Caenorhabolitis elegans | Arabidosis thaliana | ||
---|---|---|---|---|---|
Euchromatin | 3180000 | 123000 | 97800 | 130000 | |
Sequenced DNA | 369000 | 123000 | 91000 | 119000 | |
ジーンto-gene | 45.4 | 9.0 | 5.3 | 4.7 | |
cDNAのアライメント | 1061 | 1628 | 583 | 1401 | |
ゲノム品質 | 1.2 | 23.3 | 2.4 | 15.7 | |
Nested genes | 6% | 8% | 4% | 1% | |
05 パーセンタイル | 2.5 | 0.9 | 0.8 | 0.9 | |
Genomic length | 43.4 | 9.5 | 5.0 | 2.6 | |
95 Percentile | 165.5 | 36.3 | 14.2 | 5.4 | |
%, 半分欠けている | 11% | 10% | 21% | 30% | |
Intergenic DNA | Discussed in the article | 3% | 10% | 46% |
最初の3つの行には、ユークロマティックゲノムサイズが記載されています。 このようにして得られた情報をもとにして、遺伝子間の距離を推定しています。 次の3行は、cDNAのアラインメントを示しています。 これらの行には、アラインメントされたcDNAの数、ゲノムコンティグの品質評価(ゲノムコンティグサイズの中央値を95パーセンタイルの遺伝子のゲノム長で割ったもの)、入れ子になった遺伝子(逆鎖やイントロン内にある遺伝子)の頻度の推定値が記載されています。 ゲノム長は次の3行で算術平均値、5パーセンタイル値、95パーセンタイル値で示される。 次に、遺伝子内スペースの半分が欠落するためには、最大の遺伝子の何割が未同定でなければならないかを示す。 最後の行には、遺伝子間の割合を示しています。これは、入れ子になった遺伝子の平均ゲノム長を補正し、それを平均遺伝子間距離で割り、その結果を1から引いて算出しています。 注:Drosophila melanogasterでは、ゲノム品質を計算する際に、1kb以上のスキャフォールド結合を連続したものとはみなさない。 すべての長さはkpで報告されています。
私たちの方法の主な不確実性は、平均ゲノム長を決定するために、遺伝子のサブセットからゲノム全体に外挿する必要があることです。 サンプリング・バイアスはあるでしょうが、それは以下のように分類され、さらに細分化されます。 (1)cDNAデータが大きい遺伝子に偏っているか、小さい遺伝子に偏っているか、(2)ゲノムデータが大きい遺伝子に偏っているか、それから、遺伝子の多い領域はシーケンスプロジェクトで最初に行われるのか? コンティグは大きい遺伝子を揃えるのに十分な大きさですか?
問題は主にcDNAデータではなく、ゲノムデータにあることを主張します。
cDNA データのバイアスが平均ゲノム長を過小評価する原因になると考える理由は 2 つあります。 大きな遺伝子は大きな cDNA と高い相関関係があることを覚えておいてください (本論文; データは示していません)。 第一の理由は、RNA分子が分解されやすいことと、クローニングシステムが小さい挿入物に内在するバイアスを考慮すると、完全長のcDNAをクローニングするのは非常に難しいということです。 2つ目の理由は、大きなRNA分子は転写に多くの時間を要するため、大きな遺伝子は発現量が少なく、単離するのが難しいのではないかということです。 しかし、転写装置は並行して動作しているので、この予想は正しくありません。 発現レベルの指標として、H. sapiensでは、GenBankに登録されている1,856,102個のESTを我々のcDNAデータと照合した。 同一クローンからの複数のリードは1回だけカウントした。 図22は、ゲノム長の関数としてのESTカバレッジには大きな変化がないことを示している。 ESTライブラリに適用された正規化手順(Hillier et al. 1996)は、我々が効果を求めていた希少な転写産物には影響しないことに注目してください。 結論としては、GenBankから抽出したcDNAデータは、すべてのゲノム長を代表することができるということです。
ホモサピエンスのcDNA配列のコレクションは偏っていますか? GenBankに登録されている1,856,102個のESTを我々のcDNA配列にアラインし、アラインしたESTの数をゲノム長の関数としてプロットしました。 同一クローンからの複数のリードは一度だけカウントされます。
ゲノムデータには2つの意味での偏りがあります。 まず、遺伝子の多い領域を最初に配列するという社会的な偏りがあります。 第二に、ゲノムが完全であっても、最大の遺伝子の規模で長距離の連続性がないと、平均ゲノム長の推定値が減少します。なぜなら、アライメントの切れ目は最大のイントロンを横切って起こる可能性が高いからです。 この2つの問題は、H. sapiensのデータにも当てはまります。 図3,3では、アラインメントされたデータが、ゲノム長の小さいGCリッチな遺伝子に偏っていることを示している(Bernardi 2000)。 コンティグネスに関しては、ゲノムコンティグサイズの中央値と95パーセンタイル遺伝子のゲノム長との比を計算することで、問題の程度を推定している。 理想的には、この比率は1よりはるかに大きい。 表11によると、D. melanogasterとA. thalianaでは、この比率は1よりはるかに大きい。 C. elegansでは1よりも中程度の大きさであるが、この生物ではゲノムの長さがそれほど広く分布していないので、その重要性は低い。 しかし、H. sapiensでは、この比率は1.2であり、重複するクローンをすべて結合したGenBankの新部門からのゲノムデータを使用しなければ、さらに小さくなっていたでしょう(Jang et al. 1999)。
ホモ・サピエンスのゲノム配列のコレクションには偏りがあるのでしょうか? 369 Mbの非冗長な完成したゲノム配列のみが利用可能であった場合、特定のGC含有量のcDNAがゲノム配列に整列する確率を計算しました。 実線(任意のスケール)は、cDNAの最初の収集を示しています。 GCリッチなcDNAに明らかに偏っているのは、これらのcDNAがより小さな遺伝子に対応することが知られているからである(Bernardi 2000)。
D. melanogasterのゲノムデータの異なるバージョンを使って、これらのバイアスの深刻さを推定することができます。 具体的には、同じ cDNA データを使ってアラインメントを繰り返しましたが、全ゲノムショットガンが完了する前に利用可能だった 34.9 Mb の完成したクローン単位のゲノムデータに切り替えました (Adams et al. 2000)。 その結果、コンティグクオリティーは2.8となり、平均ゲノム長は7.1kbとなり、34%もの誤差が生じました。 両データセットでアラインメントされたcDNAを比較すると、この影響の16%はコンティグの問題に起因することがわかりました。 残りの18%は、遺伝子の多い領域を先に配列するというバイアスに起因するものです。 これらのバイアスのより劇的な例は、Mus musculusで、コンティグ品質指標は0.3、平均ゲノム長は9.7kbでした。 M. musculusとH. sapiensの間に違いがないと仮定すると、この推定値は447%もの誤差があることになります。 なお、平均ゲノム長を推定するもう一つの方法は、GenBankのアノテーションを抽出することである。
本質的な結論は、H. sapiens の平均ゲノム長の 43.4 kb という数字は、これらのエクソン予測プログラムに使用されるトレーニングセットの 10 倍の大きさであっても、かなり過小評価されているということです。 しかし、遺伝子数自体も不確かである。 従来の推定値である70,000個(Antequera and Bird 1993; Fields et al. 1994)に対して、最近では35,000から45,000個(Ewing and Green 2000; Hattori et al. H. sapiensのデータをどのように解釈すればよいのでしょうか? 従来の遺伝子数70,000を受け入れると、平均ゲノム長43.4kbから遺伝子間の割合は10%と予測される。 仮に、D. melanogasterの2つのデータセットの間で観察されたのと同じ34%の不一致によって、この推定値を膨らませたとしましょう。 すると、遺伝子間の割合が10%の場合の遺伝子数は51,400となる。 H. sapiensではコンティグの質がクローンごとのD. melanogasterのデータよりもはるかに悪いことを考えると、平均ゲノム長は>34%過小評価されていると考えられます。
私たちの方法には不確実性があるため、H. sapiens の遺伝子間の割合を正確に見積もることはできません。
私たちの方法が不確かであることから、H. sapiensの遺伝子間の割合を正確に見積もることはできませんが、H. sapiensの遺伝子間の割合はA. thalianaの場合ほど大きくはないと主張する準備はできています。なぜなら、そのような高い遺伝子間の割合では、ゲノムDNAのGC含量の分布は図4.4のように二峰性になるからです。 データをガウスの和に当てはめてみると、メインモードは0.382を中心にしており、これはアライメントされたA. thaliana遺伝子のGC含量0.390とほぼ同じである。 この2つのモードの相対的な比率は、遺伝子間の割合が30%であることを示唆している。これは、ゲノム長の議論から得られた46%の推定値よりも小さいが、遺伝子間のDNAの中には、遺伝子内のDNAと同様のGC含量を持つものがある可能性があるので、予想外のことではない。 この二峰性がこれまで報告されなかった理由は、データのプロット方法に非常に敏感であるためです。 具体的には、ヒストグラムのビンが平均ゲノム長よりも小さくなければならず、より小さいゲノムコンティグ(つまり、遺伝子が含まれている可能性が高いという理由でシーケンスされたもの)は使用できない。 とはいえ、H. sapiens、D. melanogaster、C. elegansでは、データをどのようにプロットしても、そのような二峰性は観察されません。
シロイヌナズナの匿名ゲノム配列のGC含量の分布。 ゲノムのかなりの部分が遺伝子間であるという考えと、遺伝子間のDNAは遺伝子内のDNAよりもGC含量が低いという事実とが相まって、この分布は二峰性になることを示唆しています。 aとbは、GC含量を計算するビンの大きさがそれぞれ1kbと5kbであることが異なる。 平均的な遺伝子サイズである2.6kbよりも大きなビンサイズでは、すべてのビンに遺伝子内と遺伝子間のDNAが混在している可能性があるため、効果が不明瞭になります。 aとcはプロットするゲノムコンティグが異なります(それぞれ、すべてのコンティグまたはコンティグ<35kbのみ)。 ゲノムセンターで好まれる大きな挿入クローンを取り除くことで、残るのは、遺伝子が含まれている可能性が高いという理由だけで解析された配列です。