標準偏差

標準偏差（ひょうじゅんへんさ、（英: standard deviation, SD）とは、データや確率変数の、平均値からの散らばり具合（ばらつき）を表す指標の一つである。偏差ベクトルと、値が標準偏差のみであるベクトルは、ユークリッドノルムが等しくなる。

標準偏差を2乗したのが分散であり、従って、標準偏差は分散の非負の平方根である^[1]。標準偏差が $0$ であることは、データの値が全て等しいことと同値である。

母集団や確率変数の標準偏差を $σ$ で、標本の標準偏差を $s$ で表すことがある。

二乗平均平方根 (RMS) を用いると、標準偏差は偏差の二乗平均平方根に等しくなる。

概要

データ $x 1, x 2, \dots, x n$ の平均値からの散らばり具合を数値にした標準偏差は、次の式で定義される：

s={\sqrt {{\frac {1}{n}}\textstyle \sum \limits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}}

ここで $x$ は平均値を表す。この定義は、データを数ベクトルと見て、「散らばり具合」を偏差ベクトルのユークリッドノルムととらえる考えに基づく（このことより平均偏差でなく自乗平均をとる）。

もとのデータ

x

を、平均値、「散らばり具合」を変えず、偏差が全て同じであるように取り直したデータ

y

を考える。

x

の大きさが奇数のときは、

x

を、自分自身2個を併せたデータ（大きさは偶数）に取り直す（そうしても平均値、「散らばり具合」は変わらない）。

y

の偏差ベクトルは

(\pm s, \pm s, \dots, \pm s) (s \geq 0)

の形になる。

x

と

y

の「散らばり具合」が等しいことから、

\|{\boldsymbol {x}}-{\overline {\boldsymbol {x}}}\|=\|(\pm s,\cdots ,\pm s)\|

ns^{2}=\textstyle \sum \limits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}

s={\sqrt {{\frac {1}{n}}\textstyle \sum \limits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}}

//

標準偏差は平方根を取るため、簡単な計算法則が成り立ちにくいという特徴がある。そこで分散 $s 2$ を

s^{2}={\frac {1}{n}}\textstyle \sum \limits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}

で定義する。分散には簡単な計算法則がいくつか成り立つことから、種々の標準偏差ができるようになる。

→詳細は「分散 (統計学)」を参照

標準偏差の概念は、イギリスの統計学者フランシス・ゴルトンにより、親子の身長の相関関係を調べる中で初めて見出された^[2]。データを数ベクトルと見る考え方は相関係数の導入と命名につながった。ゴルトンはこれらの研究により平均への回帰という現象を見出した^[3]。

ユニヴァーシティ・カレッジ・ロンドンのゴルトン研究室を継承した^[4]カール・ピアソンはゴルトンの研究を定式化^[2]、体系化し^[5]、初めて "standard deviation"（「標準偏差」）と名付けた^[6]^[7]^[8]。

確率分布において最も基本となる正規分布曲線において、変曲点の $x$ 座標と平均の絶対差は標準偏差に等しくなる。このことから、標準偏差は信頼区間の基本的な単位となる。

日本の受験業界で広く使われている学力偏差値は標準偏差の応用例の一つで、異なる試験でも、平均点よりどれだけ離れているかをある統一した尺度でとらえることができるようになっている。

金融工学においては、株式のリスクを確率分布の標準偏差でとらえることがある^[9]^[10]。

母集団の標準偏差

母集団全てのデータ $x 1, x 2, \dots, x n$ に対して、平均値 $x$ は次の式で定義される：

{\overline {x}}={\frac {1}{n}}\textstyle \sum \limits _{i=1}^{n}x_{i}

この平均値 $x$ を使って得られる分散 $σ 2$ を次の式で定義する：

\sigma ^{2}={\frac {1}{n}}\textstyle \sum \limits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}={\dfrac {1}{n}}\sum \limits _{i=1}^{n}{x_{i}}^{2}-{\overline {x}}^{2}

$σ 2$ を母分散と言うこともある。

この分散の非負の平方根 $σ$ を、母集団の標準偏差と定義する^[11]。分散もデータの散らばり具合を表す統計量であるが、分散と違い標準偏差はデータの値と次元が等しくなる。偏差は平均的には標準偏差の分だけ離れていると考えることができる^[12]。

標本の標準偏差

標本標準偏差

母集団の中から、大きさ $n$ （母集団の大きさよりはるかに小さい）の標本 $x 1, x 2, \dots, x n$ を抽出したとする。このとき、標本平均は次の式で表される：

{\bar {x}}={\frac {1}{n}}\textstyle \sum \limits _{i=1}^{n}x_{i}

この標本平均を使って次式で定義される量を標本分散と呼ぶ：

s^{2}={\frac {1}{n}}\textstyle \sum \limits _{i=1}^{n}(x_{i}-{\bar {x}})^{2}={\dfrac {1}{n}}\sum \limits _{i=1}^{n}{x_{i}}^{2}-{\bar {x}}^{2}

標本分散の平方根 $s$ を標本標準偏差と呼ぶ^[11]。

不偏標準偏差

$σ 2$ を母分散、 $s 2$ を標本分散とすると、標本分散の期待値 $E [s 2]$ は、

E[s^{2}]={\frac {n-1}{n}}\sigma ^{2}

となることが示される。つまり、標本分散は母分散よりも少し小さくなる^{[注釈 1]}。そのため、標本分散は母分散の不偏推定量ではない。そこで、

v^{2}={\frac {1}{n-1}}\textstyle \sum \limits _{i=1}^{n}(x_{i}-{\bar {x}})^{2}={\dfrac {1}{n-1}}\sum \limits _{i=1}^{n}{x_{i}}^{2}-{\dfrac {n}{n-1}}{\bar {x}}^{2}

を考えると、この量の期待値は母分散に等しく、母分散の不偏推定量になっている。

こうして定義される $v 2$ を不偏分散という。 $v$ を不偏標準偏差という。

紛らわしいが、 $v 2$ を標本分散と呼ぶこともある。さらに $v 2$ の平方根 $v$ を標本標準偏差ということもある。名称の混乱については後述する。

母集団の標準偏差の不偏推定量

前述のように不偏分散は、母分散の不偏推定量である（標本から測定した推定量の期待値が母分散に等しい）。しかし、不偏分散の平方根 $v$ は、母集団の標準偏差の不偏推定量ではない。

母集団が正規分布に従う場合、母集団の標準偏差の不偏推定量 $D$ は次式で与えられる^[13]：

D={\sqrt {\frac {n-1}{2}}}{\frac {\Gamma \left({\frac {n-1}{2}}\right)}{\Gamma \left({\frac {n}{2}}\right)}}v

ここで、 $Γ$ はガンマ関数、 $v 2$ は不偏分散である。

標本の大きさが大きくなれば、母集団の標準偏差の不偏推定量 $D$ は、近似的に、平均からの偏差平方和を $n - 1.5$ で割った値の平方根として求められる^[14]：

D\approx {\sqrt {{\frac {1}{n-1.5}}\textstyle \sum \limits _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}={\sqrt {{\dfrac {1}{n-1.5}}\textstyle \sum \limits _{i=1}^{n}{x_{i}}^{2}-{\dfrac {n}{n-1.5}}{\bar {x}}^{2}}}

名称の混乱

統計の教科書によっては、不偏分散（分母が $n - 1$ の方）を「標本分散」と呼んでいる場合もあり^[15]、用語が混乱して使用されている場合がある。母平均が不明で、代わりに標本平均を使用する場合には、期待値が母分散となる不偏分散を使用することが多い^[16]。

英語

英語では不偏分散による標準偏差のことを「sample standard deviation」（標本標準偏差）と呼ぶことが多い。この語はカール・ピアソンによって1893年に導入された^[17]。ただし不偏分散による標準偏差を意味する英語の表現には混乱がある。

英語版ウィキペディアの「standard deviation」という記事では、不偏分散による標準偏差（平均からの偏差平方和を $n - 1$ で割った値の平方根）のことを「corrected sample standard deviation」と表記し、平均からの偏差平方和を $n$ で割った値の平方根を「uncorrected sample standard deviation」や「the standard deviation of the sample」と表記している^{[出典無効]}。
アメリカの Fundamentals of Engineering (FE) の試験問題での「sample standard deviation」は $n - 1$ で割る方を意味する。
アメリカ・ユタ大学のトム・マロイは、統計学の学習者向けウェブページ^[18]では、「sample standard deviation」を平均からの偏差平方和を $n$ で割った値の平方根だと解説している。

日本語

日本語の「不偏標準偏差」という語にも混乱がある。日本の大学教授の間でも、不偏分散 $v 2$ の平方根を、不偏標準偏差だと教える大学教員も多いが、母集団の標準偏差の不偏推定量 $D$ を不偏標準偏差だと教える教員もいる。

兵庫大学の河野稔によるウェブページ^[19]や神戸大学の中澤港によるウェブページ^[20]では前者である。
東北学院大学の根市一志による資料^[21]では後者である。

このように、同じ用語でも話者によって定義が異なる場合がある。

表計算ソフト

表計算ソフトでは次のようなワークシート関数が用意されている。

分母	Microsoft Excel Googleスプレッドシート	Lotus 1-2-3
$n$	`STDEVP`, `STDEVPA`, `STDEV.P`	-
$n - 1$	`STDEV`, `STDEVA`, `STDEV.S`	`@STD`, `@STDS`

確率変数の標準偏差

離散型確率変数

$X$ を離散型確率変数とする。 $X$ のとりうる値を $x 1, x 2, \dots, x n, \dots$ とし、 $X$ が $x i$ をとる確率を $p i$ で表す。このとき

\textstyle \sum \limits _{i=1}^{\infty }p_{i}=1\quad (p_{i}\geq 0)

である。このとき

E[X]=\textstyle \sum \limits _{i=1}^{\infty }p_{i}x_{i}

を確率変数 $X$ の期待値という。また、

V[X]=E{\Bigl [}{\bigl (}X-E[X]{\bigr )}^{2}{\Bigr ]}=\textstyle \sum \limits _{i=1}^{\infty }p_{i}{\bigl (}x_{i}-E[X]{\bigr )}^{2}=E[X^{2}]-(E[X])^{2}

を確率変数 $X$ の分散という。この分散の非負の平方根を標準偏差という。

連続型確率変数

$X$ を連続型確率変数とする。 $X$ の値が区間 $[x 1, x 2]$ に属する確率が、連続関数 $f (x)$ を用いて

\int _{x_{1}}^{x_{2}}\!f(x)\,dx

と表せるとき、 $f (x)$ を $X$ の確率密度関数という。このとき

f(x)\geq 0,\quad \int _{-\infty }^{\infty }\!f(x)\,dx=1

である。このとき

E[X]=\int _{-\infty }^{\infty }\!xf(x)\,dx

を確率変数 $X$ の期待値という。また、

V[X]=\int _{-\infty }^{\infty }\!{\big (}x-E[X]{\big )}^{2}f(x)\,dx

を確率変数 $X$ の分散という。この分散の非負の平方根を標準偏差という。

標準偏差の推定

母標準偏差が未知のときは、標本から得られた標本標準偏差から推定することができる。母標準偏差を $σ$ 、大きさ $N$ の標本の標準偏差を $s$ とすると、母集団分布が正規分布ならば $σ 2$ は次の自由度 $N - 1$ の $χ 2$ 分布に従う。

\chi ^{2}={\frac {Ns^{2}}{\sigma ^{2}}}

$σ$ の95%信頼区間は $P = 0.975$ の $χ 2$ から $P = 0.025$ の $χ 2$ までの範囲で、 $s$ と $σ$ の比は $N = 5$ では 0.31 から 1.49、 $N = 20$ では 0.67 から 1.28 となり、標本が小さい場合はかなり範囲が広いことに留意すべきである。

信頼区間	信頼度	不信頼度
信頼区間	百分率	百分率	分数
0.318639 $σ$	25%	75%	3/4
0.674490 $σ$	50%	50%	1/2
0.994458 $σ$	68%	32%	1/3.125
1 $σ$	68.2689492%	31.7310508%	1/3.1514872
1.281552 $σ$	80%	20%	1/5
1.644854 $σ$	90%	10%	1/10
1.959964 $σ$	95%	5%	1/20
2 $σ$	95.4499736%	4.5500264%	1/21.977895
2.575829 $σ$	99%	1%	1/100
3 $σ$	99.7300204%	0.2699796%	1/370.398
3.290527 $σ$	99.9%	0.1%	1/1000
3.890592 $σ$	99.99%	0.01%	1/10000
4 $σ$	99.993666%	0.006334%	1/15787
4.417173 $σ$	99.999%	0.001%	1/100000
4.5 $σ$	99.9993204653751%	0.0006795346249%	1/147159.5358 = 3.4/1000000
4.891638 $σ$	99.9999%	0.0001%	1/1000000
5 $σ$	99.9999426697%	0.0000573303%	1/1744278
5.326724 $σ$	99.99999%	0.00001%	1/10000000
5.730729 $σ$	99.999999%	0.000001%	1/100000000
6 $σ$	99.9999998027%	0.0000001973%	1/506797346
6.109410 $σ$	99.9999999%	0.0000001%	1/1000000000
6.466951 $σ$	99.99999999%	0.00000001%	1/10000000000
6.806502 $σ$	99.999999999%	0.000000001%	1/100000000000
7 $σ$	99.9999999997440%	0.000000000256%	1/390682215445

脚注

[脚注の使い方]

注釈

^ 極端な例として、標本の大きさが $1$ の場合、ばらつきがないので標本の分散は必ず $0$ となるが、母集団のばらつきは通常 $0$ ではない。

出典

^ JIS Z 8101-1:1999, 1.13 分散.
^ ^a ^b 高校からの統計・データサイエンス活用総務省政策統括官（統計基準担当）p.34
^ 平均への回帰、相関係数―統計学史(2) ブログ統計WEB
^ 農環研ウェブ高座「農業環境のための統計学」第10回 (農業と環境 No.158 2013.6)
^ 酒井弘憲「第5回統計学の巨人:ゴルトンとピアソン」『ファルマシア』第52巻第2号、日本薬学会、2016年、164-165頁、doi:10.14894/faruawpsj.52.2_164、ISSN 0014-8601、NAID 130005127751。
^ カールピアソンとは - コトバンク
^ 【科学史の肖像】Karl Pearson, 1857-1936
^ 標準偏差の名付け親は，相関係数で有名なピアソン，不偏標準偏差の話題と共に生物科学研究所井口研究室
^ 分散投資の意義② 投資のリスクとは|年金積立金管理運用独立行政法人
^ 標準偏差・分散｜証券用語解説集｜野村證券
^ ^a ^b 栗原 2011, p. 47
^ 稲垣 1990, p. 21.
^ 吉澤 1989, pp. 78–79.
^ Brugger 1969, p. 32.
^ 例：(東京大学教養学部統計学教室編 1991)。
^ 分散または標準偏差の図による解説と具体例は、(村瀬, 高田 & 廣瀬 2007, pp. 52–53)などを参照。
^ “Earliest Known Uses of Some of the Words of Mathematics (S)”. 2016年1月30日閲覧。
^ 「Estimating Parameters Web Page」
^ 「健康統計学-散布度」
^ 「高崎経済大学非常勤講義第4回「記述統計(2):代表値」」
^ 「標準偏差の不偏性」

参考文献

Brugger, Richard M (1969-10). “A Note on Unbiased Estimation of the Standard Deviation”. The American statistician (ASA（アメリカ統計学会）) 23 (4): 32. doi:10.1080/00031305.1969.10481865. ISSN 0003-1305.
吉澤康和『新しい誤差論 - 実験データ解析法』共立出版、1989年。ISBN 4320014243。
稲垣宣生『数理統計学』裳華房、1990年。ISBN 4-7853-1406-0。
『統計学入門』東京大学出版会、1991年。ISBN 4-13-042065-8。
村瀬洋一、高田洋、廣瀬毅士『SPSSによる多変量解析』オーム社、2007年。ISBN 4-27-406626-6。
栗原伸一『入門統計学検定から多変量解析・実験計画法まで』オーム社、2011年。ISBN 978-4-274-06855-3。
西岡康夫『数学チュートリアルやさしく語る確率統計』オーム社、2013年。ISBN 9784274214073。
伏見康治『確率論及統計論』河出書房、1942年。ISBN 9784874720127。
日本数学会編『数学辞典』岩波書店、2007年。ISBN 9784000803090。
日本規格協会, JIS Z 8101-1:1999 統計−用語と記号−第1部：確率及び一般統計用語

外部リンク

Weisstein, Eric W. "Standard Deviation". mathworld.wolfram.com (英語).
『標準偏差』 - コトバンク

[13] 極端な例として、標本の大きさが $1$ の場合、ばらつきがないので標本の分散は必ず $0$ となるが、母集団のばらつきは通常 $0$ ではない。

[FOOTNOTEJIS_Z_8101-1:19991.13_分散-1] JIS Z 8101-1:1999, 1.13 分散.

[soumu-2] 高校からの統計・データサイエンス活用総務省政策統括官（統計基準担当）p.34

[3] 平均への回帰、相関係数―統計学史(2) ブログ統計WEB

[4] 農環研ウェブ高座「農業環境のための統計学」第10回 (農業と環境 No.158 2013.6)

[5] 酒井弘憲「第5回統計学の巨人:ゴルトンとピアソン」『ファルマシア』第52巻第2号、日本薬学会、2016年、164-165頁、doi:10.14894/faruawpsj.52.2_164、ISSN 0014-8601、NAID 130005127751。

[6] カールピアソンとは - コトバンク

[7] 【科学史の肖像】Karl Pearson, 1857-1936

[8] 標準偏差の名付け親は，相関係数で有名なピアソン，不偏標準偏差の話題と共に生物科学研究所井口研究室

[9] 分散投資の意義② 投資のリスクとは|年金積立金管理運用独立行政法人

[10] 標準偏差・分散｜証券用語解説集｜野村證券

[K-11] 栗原 2011, p. 47

[FOOTNOTE稲垣199021-12] 稲垣 1990, p. 21.

[FOOTNOTE吉澤198978–79-14] 吉澤 1989, pp. 78–79.

[FOOTNOTEBrugger196932-15] Brugger 1969, p. 32.

[16] 例：(東京大学教養学部統計学教室編 1991)。

[17] 分散または標準偏差の図による解説と具体例は、(村瀬, 高田 & 廣瀬 2007, pp. 52–53)などを参照。

[18] “Earliest Known Uses of Some of the Words of Mathematics (S)”. 2016年1月30日閲覧。

[19] 「Estimating Parameters Web Page」

[20] 「健康統計学-散布度」

[21] 「高崎経済大学非常勤講義第4回「記述統計(2):代表値」」

[22] 「標準偏差の不偏性」

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[注釈 1]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

概要