コンテンツにスキップ

「コンティグ」の版間の差分

出典: フリー百科事典『ウィキペディア(Wikipedia)』
削除された内容 追加された内容
Xlueokruo (会話 | 投稿記録)
編集の要約なし
Cewbot (会話 | 投稿記録)
m Bot作業依頼: {{Cite journal}}のパラメータ一を小文字にする - log
9行目: 9行目:


== コンティグの元の定義 ==
== コンティグの元の定義 ==
1980年、Staden <ref>{{Cite journal|last=Staden|first=R|date=1980|title=A new computer method for the storage and manipulation of DNA gel reading data|journal=Nucleic Acids Research|volume=8|issue=16|pages=3673–3694|DOI=10.1093/nar/8.16.3673|PMID=7433103|PMC=324183}}</ref>は''次のように''書い''ている。''「 ''In order to make it easier to talk about our data gained by the shotgun method of sequencing we have invented the word "contig". A contig is a set of gel readings that are related to one another by overlap of their sequences. All gel readings belong to one and only one contig, and each contig contains at least one gel reading. The gel readings in a contig can be summed to form a contiguous consensus sequence and the length of this sequence is the length of the contig.」''
1980年、Staden <ref>{{Cite journal|last=Staden|first=R|date=1980|title=A new computer method for the storage and manipulation of DNA gel reading data|journal=Nucleic Acids Research|volume=8|issue=16|pages=3673–3694|doi=10.1093/nar/8.16.3673|pmid=7433103|pmc=324183}}</ref>は''次のように''書い''ている。''「 ''In order to make it easier to talk about our data gained by the shotgun method of sequencing we have invented the word "contig". A contig is a set of gel readings that are related to one another by overlap of their sequences. All gel readings belong to one and only one contig, and each contig contains at least one gel reading. The gel readings in a contig can be summed to form a contiguous consensus sequence and the length of this sequence is the length of the contig.」''


== シーケンスコンティグ ==
== シーケンスコンティグ ==
シーケンスコンティグは、 [[ショットガン・シークエンシング法|ボトムアップシーケンス]]ストラテジーによって生成された小さなDNAフラグメントの再アセンブリの結果として生じる連続(連続ではない)シーケンス。 コンティグのこの意味は、 Rodger Staden (1979)による元の定義と一致<ref>{{Cite journal|last=Staden R|year=1979|title=A strategy of DNA sequencing employing computer programs|journal=Nucleic Acids Research|volume=6|issue=7|pages=2601–2610|DOI=10.1093/nar/6.7.2601|PMID=461197|PMC=327874}}</ref>。
シーケンスコンティグは、 [[ショットガン・シークエンシング法|ボトムアップシーケンス]]ストラテジーによって生成された小さなDNAフラグメントの再アセンブリの結果として生じる連続(連続ではない)シーケンス。 コンティグのこの意味は、 Rodger Staden (1979)による元の定義と一致<ref>{{Cite journal|last=Staden R|year=1979|title=A strategy of DNA sequencing employing computer programs|journal=Nucleic Acids Research|volume=6|issue=7|pages=2601–2610|doi=10.1093/nar/6.7.2601|pmid=461197|pmc=327874}}</ref>。
{{節スタブ|date=2019年12月5日 (木) 03:41 (UTC)}} <!-- The bottom-up DNA sequencing strategy involves shearing genomic DNA into many small fragments ("bottom"), sequencing these fragments, reassembling them back into contigs and eventually the entire genome ("up"). Because current technology allows for the direct sequencing of only relatively short DNA fragments (300–1000 nucleotides), genomic DNA must be fragmented into small pieces prior to sequencing. In bottom-up sequencing projects, amplified DNA is sheared randomly into fragments appropriately sized for sequencing. The subsequent sequence reads, which are the data that contain the sequences of the small fragments, are put into a database. The assembly software then searches this database for pairs of overlapping reads. Assembling the reads from such a pair (including, of course, only one copy of the identical sequence) produces a longer contiguous read (contig) of sequenced DNA. By repeating this process many times, at first with the initial short pairs of reads but then using increasingly longer pairs that are the result of previous assembly, the DNA sequence of an entire chromosome can be determined. -->
{{節スタブ|date=2019年12月5日 (木) 03:41 (UTC)}} <!-- The bottom-up DNA sequencing strategy involves shearing genomic DNA into many small fragments ("bottom"), sequencing these fragments, reassembling them back into contigs and eventually the entire genome ("up"). Because current technology allows for the direct sequencing of only relatively short DNA fragments (300–1000 nucleotides), genomic DNA must be fragmented into small pieces prior to sequencing. In bottom-up sequencing projects, amplified DNA is sheared randomly into fragments appropriately sized for sequencing. The subsequent sequence reads, which are the data that contain the sequences of the small fragments, are put into a database. The assembly software then searches this database for pairs of overlapping reads. Assembling the reads from such a pair (including, of course, only one copy of the identical sequence) produces a longer contiguous read (contig) of sequenced DNA. By repeating this process many times, at first with the initial short pairs of reads but then using increasingly longer pairs that are the result of previous assembly, the DNA sequence of an entire chromosome can be determined. -->
[[ファイル:PET_contig_scaffold.png|サムネイル| ペアエンドシーケンスからの読み取りの重複は、コンティグを形成します。既知の長さのコンティグとギャップが足場を形成します。 ]] <!-- Today, it is common to use paired-end sequencing technology where both ends of consistently sized longer DNA fragments are sequenced. Here, a contig still refers to any contiguous stretch of sequence data created by read overlap. Because the fragments are of known length, the distance between the two end reads from each fragment is known. This gives additional information about the orientation of contigs constructed from these reads and allows for their assembly into scaffolds in a process called scaffolding.
[[ファイル:PET_contig_scaffold.png|サムネイル| ペアエンドシーケンスからの読み取りの重複は、コンティグを形成します。既知の長さのコンティグとギャップが足場を形成します。 ]] <!-- Today, it is common to use paired-end sequencing technology where both ends of consistently sized longer DNA fragments are sequenced. Here, a contig still refers to any contiguous stretch of sequence data created by read overlap. Because the fragments are of known length, the distance between the two end reads from each fragment is known. This gives additional information about the orientation of contigs constructed from these reads and allows for their assembly into scaffolds in a process called scaffolding.

2020年1月25日 (土) 14:45時点における版

コンティグ(Contig)は、DNA配列断片群を重ね合わせて (アライメントして) できるコンセンサス配列や、それを構成する配列断片群のことを指す[1]。単語「contiguous」に由来している。 ボトムアップシーケンスボトムアップのシークエンシングプロジェクトでは重ね合わされる配列データ(readとも呼ぶ)を指し、 [2] トップダウンシーケンスプロジェクトでは、配列決定の計画に使う物理地図上で重なり合うクローン群シーケンスとアセンブリのガイドに使用されるゲノムの物理マップを形成する重複クローンを指す[3]。 したがって、コンティグは、コンテキストに応じて、重複するDNAシーケンスと、クローンに含まれる重複する物理セグメント(フラグメント)の両方を参照できる。

ボトムアップシークエンシングでは、短い配列断片をアセンブルすると連続的に重なり合うリードの一群を得ることができ、これを配列コンティグと呼ぶ。

この「コンティグ」という語の使い方は、元のRodger Staden(1979)の定義に合致している。

ボトムアップシークエンシングではゲノムDNAを短い配列断片に切断し(bottom)、それらをアセンブルすることによってコンティグを得、最終的にはゲノム(up)を再現することになる。

コンティグの元の定義

1980年、Staden [4]次のように書いている。In order to make it easier to talk about our data gained by the shotgun method of sequencing we have invented the word "contig". A contig is a set of gel readings that are related to one another by overlap of their sequences. All gel readings belong to one and only one contig, and each contig contains at least one gel reading. The gel readings in a contig can be summed to form a contiguous consensus sequence and the length of this sequence is the length of the contig.」

シーケンスコンティグ

シーケンスコンティグは、 ボトムアップシーケンスストラテジーによって生成された小さなDNAフラグメントの再アセンブリの結果として生じる連続(連続ではない)シーケンス。 コンティグのこの意味は、 Rodger Staden (1979)による元の定義と一致[5]

ペアエンドシーケンスからの読み取りの重複は、コンティグを形成します。既知の長さのコンティグとギャップが足場を形成します。

BACコンティグ

コンティグは、 トップダウンまたは階層的なシーケンス戦略が使用されている場合、染色体の物理的なマップを形成する重複クローンも参照できる[1]。 この配列決定法では、配列決定の前に低解像度マップを作成して、ゲノムの配列読み取りのその後のアセンブリをガイドするフレームワークを提供。 このマップは、シーケンスに使用されるクローンの相対的な位置と重複を識別し DNAの連続したストレッチを形成する重複クローンのセットは、コンティグと呼ばれます。染色体全体をカバーするコンティグを形成する最小数のクローンが、シーケンスに使用されるタイルパスを構成。 タイルパスが選択されると、そのコンポーネントBACは小さな断片に分割され、シーケンス化され、コンティグは階層的なシーケンスのフレームワークを提供[3]。 コンティグマップのアセンブリには、いくつかの手順が含まれ、DNAをより大きな(50〜200kb)断片に切断し、BACまたはPACにクローン化してBAC ライブラリーを形成し これらのクローンはゲノム/染色体全体をカバーするはずなので、理論的には、染色体全体をカバーするBACのコンティグを組み立てることができる。 ただし、現実は常に理想的とは限らず 多くの場合、ギャップが残り、マップ領域をカバーする足場(コンティグとギャップで構成される)が最初の結果になることがよくあり コンティグ間のギャップは、以下に概説するさまざまな方法で埋めることが可能。


参照資料

  1. ^ a b Gregory, S. Contig Assembly. Encyclopedia of Life Sciences, 2005.
  2. ^ Gibson, Greg; Muse, Spencer V. (2009). A Primer of Genome Science (3rd ed.). Sinauer Associates. p. 84. ISBN 978-0-878-93236-8 
  3. ^ a b Dear, P. H. Genome Mapping.
  4. ^ Staden, R (1980). “A new computer method for the storage and manipulation of DNA gel reading data”. Nucleic Acids Research 8 (16): 3673–3694. doi:10.1093/nar/8.16.3673. PMC 324183. PMID 7433103. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC324183/. 
  5. ^ Staden R (1979). “A strategy of DNA sequencing employing computer programs”. Nucleic Acids Research 6 (7): 2601–2610. doi:10.1093/nar/6.7.2601. PMC 327874. PMID 461197. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC327874/. 

外部リンク