Tajima's D

Tajima's Dとは、田嶋文生^[1]により発表され、彼の名にちなんで名付けられた統計的検定である。この検定の目的は、ランダムに進化（中立進化）するという理論上の過程を経たDNA配列とランダムでない進化の過程を経たDNA配列を区別することである。「ランダムでない進化の過程（non-random process）」とは、方向性選択（directional selection）・平衡選択（balancing selection,）、集団拡大・集団縮小、ヒッチハイク効果、遺伝子移入（introgression）のことを指す。

概要

ランダムに進化してきたDNA配列は、適応度や生存力に影響しない突然変異の影響を受けている。このランダムな効果で生じた突然変異の性質は「中立的」と呼び、また自然選択の影響下にある突然変異の性質は「非中立的」と呼ぶ。後者の具体例は、出生前死亡や重症疾患の原因となる突然変異のことを指す。

人類集団における中立的な突然変異を考えてみると、集団内における中立的突然変異の頻度は遺伝的浮動によってランダムに変動している。言い換えれば、生物集団がある世代から次の世代に移り変わる中で集団内において突然変異を保有した人々の割合は変化し続けており、その割合の変化率は上昇する確率と下降する確率が等しいという意味である。そして、このような遺伝的浮動の効果は集団の大きさに依存している。集団のサイズが一定、突然変異率が一定である理想集団を仮定すると、集団において遺伝子頻度が平衡状態に達すると予想できる。

この平衡状態で重要な性質を表すと考えられるのが多型サイト（segregating sites）の数 $S$ と、サンプルされた2本のDNA配列間でヌクレオチドが異なる数（pairwise differences）である。pairwise differencesのデータの標準化のためにはpairwise differencesの平均が用いられる。これは全ての組み合わせにおけるpairwise differencesの合計を配列のペアの数で割った値であり、 $π$ と表す。

Tajima's test の目的は、検定標本となる遺伝子配列が、上記で述べた、突然変異と遺伝的浮動の平衡状態にある中立モデルに合うか否か判断することである。

この検定では、標本DNA配列における多型サイトの合計数と、ランダムに抽出した標本DNA配列ペア間での突然変異数の平均を計算する。この二つの統計量は、集団遺伝学的なパラメータである $θ$ のモーメント推定量であり、同じ値を取り得る事が期待される。これらの二つの値の差の大きさが、偶然によって期待される程度である場合、中立モデルである帰無仮説は棄却されない。そうでない場合、帰無仮説は棄却される。

Tajima's D の説明は、オンライン動画で視聴できる。

科学的解釈

中立説のモデルに従うと、平衡状態にあるサイズ一定の集団では次の式が成り立つ。

二倍体の場合、

E[\pi ]=\theta =E\left[{\frac {S}{\sum _{i=1}^{n-1}{\frac {1}{i}}}}\right]=4N\mu

一倍体の場合、

E[\pi ]=\theta =E\left[{\frac {S}{\sum _{i=1}^{n-1}{\frac {1}{i}}}}\right]=2N\mu

上記の式における $S$ は多型サイトの数、 $n$ はサンプルの数である。

しかし、自然選択や個体数の変化、その他の中立モデルから逸脱する効果（種間交雑、遺伝子移入等も含む）が集団に働くと、 $S$ や $π$ の期待値を変化させると推測され、二つの値が等しいとは言えなくなる。Tajima's D testにおいて重要なポイントは、これら二つの変数の期待値の差(正の値と負の値のどちらも取り得る)である。

統計量 $D$ は、集団遺伝学のパラメータ $θ$ の二つの推定値の差から計算される。この差を $d$ と表すと、 $D$ は、 $d$ をその分散の平方根（すなわち、標準偏差）で割ることで計算される。

つまり、

D={\frac {d}{\sqrt {{\hat {V}}(d)}}}

田嶋文生は、統計量 $D$ がベータ分布に近似されることをシミュレーションにより明らかにした。

DNA配列標本から得られる $D$ が信頼区間外であれば、「注目しているサンプルセットが中立的に進化してきた」という帰無仮説は棄却される。

数学的定義

D={\frac {d}{\sqrt {{\hat {V}}(d)}}}={\frac {{\hat {k}}-{\frac {S}{a_{1}}}}{\sqrt {[e_{1}S+e_{2}S(S-1)]}}}

ただし、

$e_{1}={\frac {c_{1}}{a_{1}}}$	$e_{2}={\frac {c_{2}}{a_{1}^{2}+a_{2}}}$
$c_{1}=b_{1}-{\frac {1}{a_{1}}}$	$c_{2}=b_{2}-{\frac {n+2}{a_{1}n}}+{\frac {a_{2}}{a_{1}^{2}}}$
$b_{1}={\frac {n+1}{3(n-1)}}$	$b_{2}={\frac {2(n^{2}+n+3)}{9n(n-1)}}$
$a_{1}=\sum _{i=1}^{n-1}{\frac {1}{i}}$	$a_{2}=\sum _{i=1}^{n-1}{\frac {1}{i^{2}}}$

$ˆ k$ と $.mw-parser-output .sfrac{white-space:nowrap}.mw-parser-output .sfrac.tion,.mw-parser-output .sfrac .tion{display:inline-block;vertical-align:-0.5em;font-size:85%;text-align:center}.mw-parser-output .sfrac .num,.mw-parser-output .sfrac .den{display:block;line-height:1em;margin:0 0.1em}.mw-parser-output .sfrac .den{border-top:1px solid}.mw-parser-output .sr-only{border:0;clip:rect(0,0,0,0);height:1px;margin:-1px;overflow:hidden;padding:0;position:absolute;width:1px}S/a1$ は、有効集団サイズが $N$ である集団から得た $n$ 個体の標本において、中立進化モデル仮定下での2本のDNA配列間のSNPsの期待値の推定値である。

第一の推定値 $ˆ k$ は、標本中の $(i, j)$ 番目の配列をペアワイズで比較した時に見られるSNPsの平均であり、

{\hat {k}}={\frac {\sum \sum _{i<j}k_{ij}}{\binom {n}{2}}}

第二の推定値 $S / a 1$ は、 $S$ の期待値から導かれ、

E(S)=a_{1}M\,

田嶋は $M = 4 Nμ$ と定義したが、Hartl & Clarkは同じパラメータを異なる記号 $θ = 4 Nμ$ と定義して使っている。

参考文献

^ Tajima, F. (Nov 1989). “Statistical method for testing the neutral mutation hypothesis by DNA polymorphism.”. Genetics 123 (3): 585–95. PMC 1203831. PMID 2513255.

Tajima's D

概要

科学的解釈

数学的定義

参考文献

Tajima's D test 用ツール

関連項目