ダネットの検定

統計学において、ダネットの検定（ダネットのけんてい、英: Dunnett's test）は、多重比較手順の一つである^[1]。カナダの統計学者チャールズ・ダネット^[2]によって、多くの処理群のそれぞれと単一の対照群を比較するために開発された^[3]^[4]。対照群に対する多重比較は多対一（many-to-one）比較とも呼ばれる。

歴史

ダネットの検定は1955年に開発され^[5]、臨界値の更新した表が1964年に発表された^[6]。

多重比較問題

→詳細は「多重比較問題」を参照

多重比較、多重性、あるいは多重検定問題は、一組の統計的推定を同時に考える時や、観測値に基づいて選択されたパラメータの一部を推測する時に起こる。多重比較手順の議論における主要問題は、第一種過誤の確率の課題である。様々な方法間での大きな違いは、これらの過誤をいかに制御するかという課題に対して異なるアプローチを取ることから来ている。この問題は部分的には技術的なものである。しかし、どのように誤り率を定義するか、どの程度の最大誤り率を望むのかという、実際にはかなり主観的な問いなのである^[7]。ダネットの検定はよく知られており、正規性の仮定が妥当である分布からサンプリングされた全ての処理群を対照群と同時に比較するための多重比較手順において広く使われている。ダネットの検定は、処理群と対照群との多重比較を行った時にファミリーワイズエラー率を $\alpha$ より低く抑えるように設計されている^[7]。

ダネットの検定の使用

多重比較問題に関する最初の研究はテューキーとシェッフェによって成された。彼らの手法は、全ての種類の対比較を考慮した一般的なものであった^[7]。テューキーの方法とシェッフェの方法は一式の標本平均の間でいくらでも比較をすることができる。一方、ダネットの方法は一つの群とその他の群の比較のみを行うことができる。これによって、対照群と処理群の対比較を行う際の多重比較問題の特別な場合に対処できる。一般に、対比較を行うとすると ${\frac {k(k-1)}{2}}$ 回（kは群の数）の比較を行うが、処理群と対照群を比較する場合は $(k-1)$ 回の比較のみで済む。もし処理群と対照群の場合により一般的なテューキーやシェッフェの方法を用いると、不必要に広い信頼区間が得られてしまう。ダネットの方法は処理群と対照群の比較の特別な構造を考慮し、より狭い信頼区間を与える^[5]。

医学的実験ではダネットの検定が非常によく使われる。例えば、3群の動物についての血球数測定を比較する時、1つは対照群、その他2つは2つの異なる薬剤を処理する場合が考えられる。ダネットの検定は農学者にもよく使用される。農学者はある化学物質を土壌に添加した時の作物の収量に与える影響を調べたいので、1つの区画を無処理（対照区画）とし土壌に化学物質を添加した区画（処理区画）と比較する。

ダネットの検定の形式的記述

ダネットの検定は、個々の実験あるいは処理、群についてスチューデントのt-統計量を計算することによって行われる。この統計量によって処理群と単一の対照群を比較する^[8]^[9]。個々の比較は共通して同じ対照群を持つため、この手順はこれらの比較間に依存性を含有する。具体的には、t-統計量は全て同じ誤差分散の推定量から導かれる。この誤差分散は全ての群（処理群および対照群）にわたる誤差の二乗の和を合併することによって得られる。ダネットの検定での形式的検定統計量は、これらのt-統計量の絶対値の中で最も大きい（両側検定が必要な場合）あるいはt統計量の最も負あるいは最も正のもの（片側検定が必要な場合）である。

ダネットの検定では、共通の臨界値の表を使用できるが、今日はより柔軟な方法がRのような多くの統計パッケージで容易に利用できる。任意のパーセンテージ点に対する臨界値は、片側検定か両側検定かや、比較する群の数、試験の総数に依存する。

仮定

この分析では、実験の結果が数字で表わされ、p 個の処理群と対照群を比較するために実験が行われた場合を考える。結果は一連の観測 $({\bar {X_{0}}},...,{\bar {X_{p}}})$ について計算された (p + 1) 個の平均として要約できる。ここで $({\bar {X_{1}}},...,{\bar {X_{p}}})$ は処理された一連の観測、 ${\bar {X_{0}}}$ は対照となる観測、s は p + 1 個全ての観察の共通標準偏差の独立した推定値である。p + 1 個の観測の全ての ${\bar {X_{i}}}$ は独立であり、共通分散 σ² と平均 μ_i を持ち正規分布していると仮定される。また、σ² に対する推定値 s² の存在も仮定される。

計算

ダネットの検定の計算は、 $p$ 個の差（ ${\bar {X_{i}}}-{\bar {X_{0}}}$ 、したがって処理群の平均と対照群の平均の差）の真の値あるいは期待値に関する信頼記述の計算に基づく手順である。この手順によって、 $p$ 個全ての記述 ${\bar {X_{i}}}-{\bar {X_{0}}}$ が同時に正しい確率が指定された値 $P$ と等しくなる。処理群の平均と対照群の平均との間の差の真の値に関する片側上方（あるいは下方）信頼区間を計算する時、 $P$ はこの実際の値が信頼区間の上方限界よりも小さい（あるいは下方限界よりも大きい）確率を表わす。両側信頼区間を計算する時、 $P$ は真の値が上方限界と下方限界の間にある確率を表わす。

はじめに、利用できるN個の観測を $X_{ij}$ （ $i=1...p$ 、 $j=1...N_{i}$ ）によって示し、共通分散を例えば $s^{2}={\frac {\sum _{i=0}^{p}\sum _{j=1}^{N_{i}}(X_{ij}-{\bar {X_{i}}})}{n}}$ によって推定する（ ${\bar {X_{i}}}$ は群 $i$ の平均、 $N_{i}$ は群 $i$ の観測の数、自由度 $n=\sum _{i=0}^{p}N_{i}-(p+1)$ ）。上述したようにここでは、 $p$ 個全ての信頼区間が対応する $m_{i}-m_{0}$ を含む確率が $P$ と等しくなるように、個々の差 $m_{i}-m_{0},(i=1...p)$ について独立した信頼限界を得たい。

ここで、 $p$ 個の処理群と1個の対照群がある一般的な場合を考えると、

$z_{i}={\cfrac {{\bar {X_{i}}}-{\bar {X_{0}}}-(m_{i}-m_{0})}{\sqrt {{\cfrac {1}{N_{i}}}+{\cfrac {1}{N_{0}}}}}}$

$D_{i}={\cfrac {{\bar {X_{i}}}-{\bar {X_{0}}}-(m_{i}-m_{0})}{s{\sqrt {{\cfrac {1}{N_{i}}}+{\cfrac {1}{N_{0}}}}}}}$

と書ける。 $D_{i}={\frac {z_{i}}{s}}$ とも書くことができ、これは自由度nのスチューデントのt分布に従う。 $p$ 個の処理効果 $m_{i}-m_{0},(i=1...p)$ に対する共有の信頼係数 $P$ 下方信頼限界は以下の式で表わされ、

${\bar {X_{i}}}-{\bar {X_{0}}}-d_{i}'s{\sqrt {{\frac {1}{N_{i}}}+{\frac {1}{N_{0}}}}},i=1...p$

$p$ 個の係数 $d_{i}'$ は $Prob(t_{1}<d_{1}',...,t_{p}<d_{p}')$ となるように選ばれる。

同様に、上方限界は以下の式で表わされる。

${\bar {X_{i}}}-{\bar {X_{0}}}+d_{i}'s{\sqrt {{\frac {1}{N_{i}}}+{\frac {1}{N_{0}}}}},i=1...p$

したがって、上方と下方を併せると信頼区間は

${\bar {X_{i}}}-{\bar {X_{0}}}\pm d_{i}'s{\sqrt {{\frac {1}{N_{i}}}+{\frac {1}{N_{0}}}}},i=1...p$

となる（ $d_{i}''$ は $Prob(|t_{1}|<d_{1}',...,|t_{p}|<d_{p}')$ を満たすように選ばれる）。両側検定での $d_{i}''$ 、片側検定での $d_{i}'$ の具体的な値の解は表で与えられている^[5]。この臨界値の表は1964年に更新されている^[6]。

例

布の破壊強度^[5]

データは、標準製法および異なる3種類の化学プロセスによって処理された布の破壊強度の測定値を表わしている。

破壊強度 (lbs.)
	標準	プロセス1	プロセス2	プロセス3
	55	55	55	50
	47	64	49	44
	48	64	52	41
平均	50	61	52	45
分散	19	27	9	21

ここで、p = 3、N = 3である。平均分散は $s^{2}=19$ であり、これは自由度 (p+1)(N-1)=8 の4組の共通分散の推定値である。

平均分散は以下のように計算できる。

${\frac {55^{2}+47^{2}+48^{2}+55^{2}+...+41^{2}-3(50^{2}+61^{2}+52^{2}+45^{2})}{8}}={\frac {152}{8}}=19$ .

標準偏差は $s={\sqrt {19}}=4.36$ 、2つの平均間の差の推定標準誤差は $s{\sqrt {\frac {2}{N}}}=4.36{\sqrt {\frac {2}{N}}}=3.56$ である。信頼限界を与えるために、観測された平均間の差に加えるあるいは差し引かなければならない量はテューキーによって「allowance（許容量）」と呼ばれており、式 $A=t_{s}{\sqrt {\frac {2}{N}}}$ で与えられる。値tは片側検定の場合はダネットの表1から、両側検定の場合はダネットの表2から得られる。p = 3、自由度 = 8の場合、p=95%でのt値は、片側検定では t = 2.42、両側検定では t = 2.88である。片側検定の場合、「許容量」はA=(2.42)(3.56)=9であり、実験者は以下のように結論できる。