「最頻値」の版間の差分
InternetArchiveBot (会話 | 投稿記録) 2個の出典を修正し、0個にリンク切れのタグを追加しました。 #IABot (v1.5.4) |
|||
19行目: | 19行目: | ||
次の[[MATLAB]]のコード例は、標本群から最頻値を計算するものである。 |
次の[[MATLAB]]のコード例は、標本群から最頻値を計算するものである。 |
||
< |
<syntaxhighlight lang="matlab"> |
||
X = sort(x); |
X = sort(x); |
||
indices = find(diff([X; realmax]) > 0); % indices where repeated values change |
indices = find(diff([X; realmax]) > 0); % indices where repeated values change |
||
[modeL,i] = max (diff([0; indices])); % longest persistence length of repeated values |
[modeL,i] = max (diff([0; indices])); % longest persistence length of repeated values |
||
mode = X(indices(i)); |
mode = X(indices(i)); |
||
</syntaxhighlight> |
|||
</source> |
|||
このアルゴリズムでは、まず標本群を昇順に[[ソート]]する必要がある。次いでソートされたリストの離散微分係数を計算し、その微分係数が正となるインデックス群 (indices) を求める(つまり、値が上がっている位置を求める)。次にそのインデックス列の離散微分係数を計算し、それが最大となっている位置を求める(つまり、同じ値が長く続いているほどインデックスの差が大きくなり、微分係数が大きくなる)。 |
このアルゴリズムでは、まず標本群を昇順に[[ソート]]する必要がある。次いでソートされたリストの離散微分係数を計算し、その微分係数が正となるインデックス群 (indices) を求める(つまり、値が上がっている位置を求める)。次にそのインデックス列の離散微分係数を計算し、それが最大となっている位置を求める(つまり、同じ値が長く続いているほどインデックスの差が大きくなり、微分係数が大きくなる)。 |
2020年7月5日 (日) 22:41時点における版
統計学における最頻値(さいひんち)またはモード(英: mode)とは、データ群や確率分布で最も頻繁に出現する値である[1]。日本工業規格では、「離散分布の場合は確率関数が,連続分布の場合は密度関数が,最大となる確率変数の値。分布が多峰性の場合は,それぞれの極大値を与える確率変数の値[2]。」と定義している。
平均や中央値と同様、最頻値は確率変数または何らかの単一の量についての母集団に関しての重要な情報を得る手段の一つである[3][4]。最頻値は一般に平均や中央値とは異なり、特に歪度の大きい分布では大きく異なることがある。
最も頻繁に出現する値は1つとは限らないため、最頻値は一意に定まらないことがある。特に一様分布ではどの値も同じ確率で出現するため、最頻値が定まらない。
確率分布の最頻値
離散確率分布の最頻値は、確率質量関数が最大となる値である。言い換えれば、標本として最も頻繁に出現しやすい値である。連続確率分布の最頻値は、確率密度関数が最大となる値であり、大まかに言えばそのピークとなる値である。先述の通り、最頻値は一意に定まらないことがあり、確率質量関数や確率密度関数が複数の地点で最大となることもある。
先述の定義から全域的最大値が最頻値だとわかる。若干困惑させるが、確率密度関数が複数の極値をもつとき、それぞれをその分布の最頻値とすることもある。そのような連続確率分布を「多峰性分布」、そうでないものを「単峰性分布」と呼ぶ。
正規分布などの線対称な単峰性分布では、平均、中央値、最頻値が全て一致する。例えば、線対称な分布に従っていると判明していれば、標本群の平均を母集団の最頻値の推定値として使うことができる。
標本の最頻値
標本データの最頻値は、その中で最も頻繁に出現する値を意味する。例えば [1, 3, 6, 6, 6, 6, 7, 7, 12, 12, 17] という標本群の最頻値は6である。[1, 1, 2, 4, 4] というデータでは最頻値は一意に定まらない。そのようなデータ群を「二峰性 (英: bimodal)」と呼び、最頻値が2つよりも多ければ「多峰性 (英: multimodal)」と呼ぶ。
連続確率分布の標本は [0.935..., 1.211..., 2.430..., 3.668..., 3.874...] のようになり、正確に同じ値が出現することはないため、そのままの定義では最頻値を求められない。この場合一般に、値の範囲を等間隔の区間に分割し、ヒストグラムを作成することで区間ごとの頻度を求め、区間の中央の値でその区間を代表させる。したがって最頻値はヒストグラムのピークの値ということになる。標本数が少ない場合、区間の幅をどう選択するかで値が大きく変わってくる。一般に各区間の標本数をある程度以上確保するために区間数を少なくする。もう1つの手法としてカーネル密度推定があるが、これは本質的に標本値をぼやけさせて確率密度関数を連続的に推定するもので、それによって最頻値を提供できる。
次のMATLABのコード例は、標本群から最頻値を計算するものである。
X = sort(x);
indices = find(diff([X; realmax]) > 0); % indices where repeated values change
[modeL,i] = max (diff([0; indices])); % longest persistence length of repeated values
mode = X(indices(i));
このアルゴリズムでは、まず標本群を昇順にソートする必要がある。次いでソートされたリストの離散微分係数を計算し、その微分係数が正となるインデックス群 (indices) を求める(つまり、値が上がっている位置を求める)。次にそのインデックス列の離散微分係数を計算し、それが最大となっている位置を求める(つまり、同じ値が長く続いているほどインデックスの差が大きくなり、微分係数が大きくなる)。
平均値、中央値、最頻値の比較
代表値の比較 | ||||
種類 | 意味 | 式 | 例 | 結果 |
算術平均 | 総和を標本数で割ったもの | (1+2+2+3+4+7+9) / 7 | 4 | |
中央値 | 標本群を昇順に並べたとき中央に位置する値 | 1, 2, 2, 3, 4, 7, 9 | 3 | |
最頻値 | 標本群で最も頻繁に出現する値 | 1, 2, 2, 3, 4, 7, 9 | 2 |
これらの値の意味
平均や中央値とは異なり、最頻値の概念は「名義尺度」(数値以外のデータからなる場合)においても意味がある。例えば日本で姓の標本を採取すると、「佐藤」という姓が他の姓より頻繁に出現するだろう。したがってこの場合の最頻値は「佐藤」となる。得票数が最も多い人が勝ちとなる投票方式では、最頻値が1つに定まることで勝者が決まり、多峰性の分布になると引き分けとなってしまう。
中央値とは異なり、平均は何らかのベクトル空間の値をとる確率変数でも意味がある。このベクトル空間にはもちろん、実数(1次元のベクトル空間)や整数も含まれる。例えば、平面上に分布する点群において平均や最頻値は存在するが、中央値の概念は適用されない。中央値は、とりうる値に線型順序が存在する場合に意味を持つ。中央値の概念を高次元の空間に一般化したものとして、幾何学的中央値 (en) と中央点 (en) がある。
一意性と定義性
一部の確率分布において、期待値は無限だったり未定義だったりすることもあるが、存在する場合は一意に定まる。(有限の)標本群では平均は常に定義される。中央値は、それより小さい標本の数とそれを越える標本の数が共に2分の1となる値である。一意とは限らないが、無限になったり未定義となることはない。標本群を昇順に並べたとき、その真ん中の値が中央値であり、標本数が偶数の場合は真ん中に最も近い2つの標本の平均を中央値とする。最頻値は前述の通り一意に定まるとは限らない。例えばカントール分布のような病的な (pathological) 分布では、最頻値は全く定義されない[要出典]。標本数が有限であれば、最頻値は標本内のいずれかの値に定まる(1つとは限らない)。
特性
定義性と単純化のための一意性を仮定すると、次のような興味深い特性が存在する。
- これら3つの値には次の特性がある。確率変数(または標本群のそれぞれの値) X のアフィン写像 aX+b を求めたとき、変換後の平均値・中央値・最頻値も同じ変換で得られる。
- 任意の単調な変換を施したとき、同様に変換に従うのは中央値のみである。例えば、X を exp(X) に変換すると、中央値 m は exp(m) となるが、平均と最頻値はそうならない。
- 標本数が極端に少ない場合を除けば、最頻値は「外れ値」に鈍感である。中央値も外れ値に強いが、平均値はやや敏感である。
- 連続な単峰性分布では、経験則として、平均値から最頻値の方に3分の1ほどのところに中央値がある。式で表すと「中央値 ≈ (2 × 平均値 + 最頻値)/3」となる。カール・ピアソンの経験則と呼ばれ、正規分布に近いやや非対称の分布に適用されるが、常に真ではなく、3つの値が並ぶ順序は様々である[5][6]。
- 単峰性分布では、最頻値は平均値から標準偏差の の範囲内にあり、最頻値の二乗平均偏差は標準偏差と標準偏差の2倍の間にある[7]。
歪度の高い分布における例
歪度の高い分布としてよく知られている例として「富の分布」がある。富裕層の方が少なく、中でも大富豪はさらに少なく、大部分は貧困層に分類される。
歪度を恣意的に変化させられる確率分布として、対数正規分布がよく知られている。正規分布の確率変数 X を Y = exp(X) となる確率変数 Y に変換することで得られる。この確率変数 Y の対数をとると正規分布となるため、このように呼ばれている。
X の平均 μ を0としたとき、Y の中央値は 1 となり、X の標準偏差 σ には依存しない。これは X が線対称の分布であるためで、その中央値も標準偏差によらず常に 0 である。X から Y への変換は単調であり、Y の中央値は exp(0) = 1 となる。
X の標準偏差 σ = 0.2 のとき、Yの分布の歪度はあまり高くない。小数点以下4桁まで求めると次のようになる(計算方法は対数正規分布を参照)。
- 平均 = 1.0202
- 最頻値 = 0.9608
中央値は平均から最頻値までの3分の1ほどの位置となる。
X の標準偏差がずっと大きく σ = 5 の場合、Y の分布の歪度は大きくなる。この場合、次のような値となる。
- 平均 = 7.3891
- 最頻値 = 0.0183
この場合、ピアソンの経験則は成り立たない。
脚注
- ^ Butler, Gregory (2010). “Mode”. In Salkind, Neil. Encyclopedia of research design. Sage. pp. 140–142. ISBN 978-1-4129-6127-1
- ^ JIS Z 8101-1 : 1999 統計 − 用語と記号 − 第1部:確率及び一般統計用語 1.11 最頻値, 日本規格協会, http://kikakurui.com/z8/Z8101-1-1999-01.html
- ^ 西岡康夫,数学チュートリアル やさしく語る 確率統計,1.3 代表値 p.5, オーム社, 2013, ISBN 9784274214073
- ^ 伏見康治「確率論及統計論」第III章 記述統計量 13節 確率分布、統計分布 p.110 ISBN 9784874720127 http://ebsa.ism.ac.jp/ebooks/ebook/204
- ^ “Relationship between the mean, median, mode, and standard deviation in a unimodal distribution”. 2012年7月20日時点のオリジナルよりアーカイブ。2012年7月20日閲覧。
- ^ Paul T. von Hippel. Mean, Median, and Skew: Correcting a Textbook Rule. J. of Statistics Education 13:2 (2005)
- ^ Maximum distance between the mode and the mean of a unimodal distribution
参考文献
- 西岡康夫『数学チュートリアル やさしく語る 確率統計』オーム社、2013年。ISBN 9784274214073。
- 伏見康治『確率論及統計論』河出書房、1942年。ISBN 9784874720127 。
- 日本数学会『数学辞典』岩波書店、2007年。ISBN 9784000803090。
- JIS Z 8101-1:1999 統計 − 用語と記号 − 第1部:確率及び一般統計用語, 日本規格協会, http://kikakurui.com/z8/Z8101-1-1999-01.html
関連項目
外部リンク
- A Guide to Understanding & Calculating the Mode
- Weisstein, Eric W. "Mode". mathworld.wolfram.com (英語).