順序統計量(じゅんじょとうけいりょう、英: order statistic)は、統計において、標本の確率変数を値が小さい順に並べることで得られる統計量である。日本産業規格では、「確率変数を非減少な順序に並べることによって得られる統計量」と定義されている。ノンパラメトリック統計学における最も基本的ツールである。
順序統計量に属する重要な値として、標本の最小値、最大値、中央値、分位などがある。
連続確率分布での無作為標本の順序統計量を確率論的に分析する場合、一様分布の順序統計量ならば累積分布関数によって分析を簡略化できる。
例えば、4つの数が観測され記録されたとすると、標本の大きさは となる。各観測値は以下のようであったとする。
- 6, 9, 3, 8,
通常はこれを次のように表記する。
の添え字 i は単に記録上の順序を表し、通常は重要なものではない。ただし、時系列のデータにおいては順序が重要となる。
順序統計量では次のように表記する。
ここで括弧で囲まれた添え字 (i) は順序統計量における i 番目の値を表す。
順序統計において、第一順序統計量(最小順序統計量)は最小値を表し、次のように表される。
ここで、確率変数を示す一般的な記法として大文字を使用している。小文字は具体的な観測値を指すのに使われる。
同様に大きさ n の標本で第 n 順序統計量(最大順序統計量)は最大値を表し、次のように表される。
より一般に、順序統計量は
の関係で与えられる。
観測値の範囲は最大値と最小値の差である。これは明らかに順序統計量の関数となっている。
探索的データ解析での類似の重要な統計量である四分位数は順序統計量に関係している。
標本の中央値(第2四分位点)は順序統計量となる場合もあるし、そうでない場合もある。これのは、標本の大きさ が奇数であった場合だけ唯一の中央値が存在するからである。正確に言えば、 となる整数 があるとき、中央値 は順序統計量である。一方、 が偶数の場合は となるので、中央値の候補は と の2つとなり、中央値はこれらの関数(一般に平均)で表されるため、順序統計量とは言えない。同様の注意はあらゆる標本分位点を求める際にも必要となる。
ここでは、標本X1, X2,..., Xnは無作為抽出で得られたもので連続確率分布に従うものとし、単純化のために、確率密度関数があるものとする(つまり絶対連続である)。
いま X1, X2,..., Xn は 無作為抽出での標本であるとする。すなわち、同一分布に従い、互いに独立 である(i.i.d.)とする。さらに、これらは連続分布を持つ確率変数であり、f (x) がその確率密度関数、F (x) が累積分布関数とする。また、これらを小さい順に並べた順序統計量をX(1), X(2),..., X(n) とする。この時、k 番目の順序統計量X(k)の累積分布関数は次式で与えられる。
また、その確率密度関数は
となる。
特に最小値、最大値については、
となる。
- 導出の詳細
累積分布関数
において、確率値P( ) 内の事象は『n 個中少なくとも k 個の Xi が x 以下』 = 『x 以下の値がn 回の試行中 k 回以上発生する』を意味することから
が成り立つ。
確率密度関数と累積分布関数の関係に注意すれば、
となる。上記の畳み込み級数の総和は、最初と最後の項以外は全て相殺されるため
となる。さらに第二項はゼロとなるから
を得る。
この節では、特に単位区間上の一様分布からの順序統計量を考え、それがベータ分布族に属する周辺分布を持つことを示す。また、任意個の順序統計量の同時分布を求め、累積分布関数を用いて任意の連続型分布のケースに一般化する簡単な方法を示す。
なお、 X1, X2,..., Xn が、累積分布関数 FX を持つ連続型分布から得られた無作為標本とすると、 Ui = FX(Xi) と置くことによって、標準一様分布にしたがう無作為標本 U1,..., Un が得られることに注意する。また、対応する順序統計量X(1), X(2),..., X(n)においても、U(i) = FX(X(i)) が成り立つことに注意する。
標準一様分布からのk番目の順序統計量 U(k) が [u, u + du] の範囲に落ちる確率は
に等しい。よって、 U(k)の確率密度関数は、
で与えられる。ここで、B (k, n-k+1 )はベータ関数を表す。したがって、U(k)はベータ分布に従う確率変数
となる。
- 導出の詳細
証明は以下の通り。U(k) が u と u + du の間にあるためには、標本中の k − 1 個の要素が u より小さく、かつ少なくとも 1 個の要素が u と u + du の間にあることが必要である。複数の要素が後者の範囲にある確率は O (du2) となるため、求める確率は、k − 1 個の観測値が (0, u) に、1 個が (u , u +du) に、n − k 個が (u +du, 1) に落ちる場合に相当する。つまり、その確率は
に等しい(詳しくは多項分布参照)。
同様に、i < j であるとき、2つの順序統計量 Ui < Uj の同時確率密度関数は次のようになることが示せる。
これは(O (du dv) までの項において)、区間 (0, u), (u, u + du), (u + du, v), (v, v + dv), (v + dv, 1) に落ちる標本要素の数が、各々 i − 1, 1, j − 1 − i, 1, n − j 個となる確率に等しい。
同様にして、より高次の同時分布も導くことができる。おそらく意外なことに、n 次の同時分布は次のような定数になる:
この一つの解釈として、「順序のない標本は確率密度 1 を持ち、同じ順序統計量の列に対応する n! 個の異なる順列を持つ標本が存在する」ことが考えられる。これは、領域 0< u1 < … < un < 1 の体積が 1 / n! に等しいことと関係がある。
一様分布での結果の応用として、一般の分布の n 個の標本抽出における k 個目の順序統計量 X(k) の分布を考える。X(k) の累積分布関数 FX(k) に対し、 fX(k)が対応する確率密度関数とする。このとき、一様分布への変数変換
を行い、fX(k) に前述の一様分布におけるfU(k) (u) の結果を代入すれば、次の確率密度関数が導かれる。
同様に2つの累積分布関数 FX(j)、FX(k) に対し、 fX(j)、fX(k)が対応する確率密度関数とする。このとき、一様分布への変数変換
を行い、fX(i),X(j)に先ほどの一様分布における同時確率分布fU(i),U(j)(u, v)の結果を代入すれば、次式を得る。
同様に高次の場合について考えれば、次式を得る。
但し、x1 < x2 < … < xnとする。
以下では、標本中央値によって母集団中央値がどの程度良く推定できるかを、最も単純なケースで考える。
例として、サイズ 6 の無作為標本を考える。この場合の標本中央値は、通常、3 番目と 4 番目の順序統計量で区切られた区間の中点として定義される。しかしこれまでの議論から、この区間が実際に母集団中央値を含む確率は次のようになる:
標本中央値は母集団中央値のおそらく分布に依存しない最良の点推定であるが、この例は、標本中央値が絶対的な意味で優れているわけではないことを表している。母集団中央値のより良い信頼区間は、この例の場合、2 番目と 5 番目の順序統計量で囲まれた区間であり、母集団中央値を含む確率は次のようになる:
このように小さな標本サイズでは、もしも少なくとも 95% の信頼度が欲しければ、確率 31/32 つまり約 97% で 6 個の観測値の最小値と最大値の間にある、と表現することになってしまう。サイズ 6 は、最小値と最大値で決まる区間が、少なくとも 95% 信頼区間になるような最小の標本サイズである。
もしも分布が対称であることがわかっていて、分散が有限ならば(例えば正規分布のような場合)、母集団の平均値は中央値に等しく、標本平均値は標本中央値よりもかなり良い信頼区間を持つ。これは、分布に依存しない統計的方法の相対的弱点を表している。他方において、もしも間違った分布に立脚した方法を用いると、推定に大きな系統誤差が生じてしまう可能性もある。
数列からk番目に小さい(大きい)要素を選択する問題は選択問題と呼ばれ、その解法は選択アルゴリズムと呼ばれる。この問題は数列が巨大であればあるほど難しくなるが、要素の順序が完全に無作為であっても要素数に比例した時間内に答えを求めることができる洗練された選択アルゴリズムが知られている。