相関係数

相関係数（そうかんけいすう、英: correlation coefficient）とは、2つのデータまたは確率変数の間にある線形な関係の強弱を測る指標である^[1]^[2]。相関係数は無次元量で、−1以上1以下の実数に値をとる。相関係数が正のとき確率変数には正の相関が、負のとき確率変数には負の相関があるという。また相関係数が0のとき確率変数は無相関であるという^[3]^[4]。

たとえば、先進諸国の失業率と実質経済成長率は強い負の相関関係にあり、相関係数を求めれば−1に近い数字になる。

相関係数が ±1 に値をとることは、2つのデータ（確率変数）が線形の関係にあるときに限る^[5]。また2つの確率変数が互いに独立ならば相関係数は 0 となるが、逆は成り立たない。

普通、単に相関係数といえばピアソンの積率相関係数を指す^[6]。ピアソン積率相関係数の検定は偏差の正規分布を仮定する（パラメトリック）方法である^[7]が、他にこのような仮定を置かないノンパラメトリックな方法として、スピアマンの順位相関係数、ケンドールの順位相関係数なども一般に用いられる^[8]^[9]。

定義[編集]

相関[編集]

日本産業規格では、相関（そうかん：correlation）を、「二つの確率変数の分布法則の関係。多くの場合，線形関係の程度を指す。」と定義している^[10]。

相関係数[編集]

正の分散を持つ確率変数 $X, Y$ が与えられたとき、共分散を $\operatorname {cov} [X,Y]$ 、標準偏差を $σ X, σ Y$ とおく。このとき

\rho ={\frac {\operatorname {cov} [X,Y]}{\sigma _{X}\sigma _{Y}}}

を確率変数 $X$ と $Y$ の相関係数という。これは期待値を $E [\dots]$ で表せば

\rho ={\frac {E\left[\left(X-E\left[X\right]\right)\left(Y-E\left[Y\right]\right)\right]}{\sqrt {E\left[\left(X-E\left[X\right]\right)^{2}\right]E\left[\left(Y-E\left[Y\right]\right)^{2}\right]}}}

と書き直すこともできる。

母集団相関係数[編集]

標本相関係数[編集]

大きさの同じ2個のデータ $(x 1, x 2, \dots, x n), (y 1, y 2, \dots, y n)$ に対して、標本共分散を $s xy$ 、標本標準偏差をそれぞれ $s x, s y$ とおく。このとき

r:={\frac {s_{xy}}{s_{x}s_{y}}}={\frac {\sum \limits _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)\left(y_{i}-{\overline {y}}\right)}{\sqrt {\sum \limits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}\sum \limits _{i=1}^{n}(y_{i}-{\overline {y}})^{2}}}}

を標本相関係数 (sample correlation coefficient) あるいはピアソンの積率相関係数という。ただし、 $x, y$ はそれぞれデータ $(x 1, x 2, \dots, x n), (y 1, y 2, \dots, y n)$ の平均値で、 ${\overline {x}}={\frac {1}{n}}\textstyle \sum \limits _{i=1}^{n}x_{i}$ , ${\overline {y}}={\frac {1}{n}}\textstyle \sum \limits _{i=1}^{n}y_{i}$ である。

相関係数は、幾何学的には次のような意味になる。

データ $(x 1, x 2, \dots, x n), (y 1, y 2, \dots, y n)$ をそれぞれ $n$ 次の列ベクトル $x = [x 1 x 2 ... x n] ⊤, y = [y 1 y 2 ... y n] ⊤$ と考えると、 $x, y$ の偏差ベクトルはそれぞれ以下のようになる。

{\boldsymbol {x}}-{\overline {x}}\,{\boldsymbol {1}}={\begin{bmatrix}x_{1}-{\overline {x}}\\x_{2}-{\overline {x}}\\\vdots \\x_{n}-{\overline {x}}\end{bmatrix}},\;{\boldsymbol {y}}-{\overline {y}}\,{\boldsymbol {1}}={\begin{bmatrix}y_{1}-{\overline {y}}\\y_{2}-{\overline {y}}\\\vdots \\y_{n}-{\overline {y}}\end{bmatrix}}

ただし、 $1$ は全ての成分が1である $n$ 次の列ベクトルで、 $1 = [1 1 ... 1] ⊤$ である。このとき、 $x, y$ の偏差ベクトル $x - x 1, y - y 1$ のなす角を $θ$ としたときの

\cos \theta ={\frac {\langle {\boldsymbol {x}}-{\overline {x}}\,{\boldsymbol {1}},\;{\boldsymbol {y}}-{\overline {y}}\,{\boldsymbol {1}}\rangle }{\|{\boldsymbol {x}}-{\overline {x}}\,{\boldsymbol {1}}\|\|{\boldsymbol {y}}-{\overline {y}}\,{\boldsymbol {1}}\|}}

が標本相関係数 $r$ である。ここで、 $⟨ ●, ● ⟩$ は内積を表す。

データ $(x 1, x 2, \dots, x n), (y 1, y 2, ..., y n)$ が2次元正規分布からの標本のとき、標本相関係数 $r$ は母集団相関係数 $ρ$ の最尤推定量ではあるが、不偏推定量ではなく（絶対値で見ると）小さめに見積もりがちである^[11]。また外れ値に大きく影響してしまう。

順位相関係数[編集]

「スピアマンの順位相関係数」および「ケンドールの順位相関係数」を参照

誤解や誤用[編集]

「相関関係と因果関係」も参照

相関と因果の混同[編集]

相関係数は、あくまでも確率変数の間にある線形な関係の尺度に過ぎない^[1]^[2]。また、確率変数間の因果関係を説明するものでもない。相関係数は順序尺度であり比尺度ではないので、例えば「相関係数が0.2と0.4であることから、後者は前者より2倍の相関がある」などと言うことはできない。

しばしば、相関があるという表現が、あたかも因果関係を示しているかのように誤解あるいは誤用される。

2つの変数（A，B）間に相関が見られる場合、偶然による相関を除けば、次の3つの可能性が想定される（相関と因果の違いに関する誤解・誤用において目立つのは、3番目の場合である）。

AがBを発生させる
BがAを発生させる
第3の変数CがAとBを発生させる（この場合、AとBの間に因果関係はなく擬似相関と呼ばれる）

因果的な効果の推定ににあたっては、単に相関を見るだけでは分からない。ジューディア・パール^[12]やドナルド・ルービン^[13]などによってまとめられてきた統計的因果推論などに則った調査研究を実施する必要がある。

相関係数と回帰係数の混同[編集]

相関分析とは2変数の間に線形関係があるかどうか、およびその強さについての分析であり、2つの変数の間に質的な区別を仮定しない。それに対し回帰分析とは、変数の間にどのような関係があるか（具体的な関数の形）についての分析であり、また説明変数によって目的変数を予測するのを目的としている。初学者によく見られる勘違いとして、相関係数と回帰係数が取り違えて理解されることが多い。また、回帰式を作ることは、あくまで予測モデルを立てることに過ぎず、回帰分析によって因果関係の推定が直接的にできるわけではない。

HARKing[編集]

詳細は「HARKing」を参照

また、多数のデータを比較したときに、たまたま相関係数が強く出た組み合わせの結果をもとに、事前の仮説を訂正して論文を書き上げる行為は、HARKingと呼ばれる。探索的研究としてではなく、仮説検証型の研究としてHARKingを行った論文を公表することは、偶然の結果を、あたかも強い意味がある結果であるかのように誤認させ、第一種や第二種の過誤をしてしまう可能性が高いため、研究の手続きとして大きな問題がある。

脚注[編集]

^ ^a ^b 栗林 2011, p. 18.
^ ^a ^b Drouet Mari & Kotz 2001, 2.2.1. Linear relationship.
^ 稲垣 1990, p. 66.
^ 伏見康治「確率論及統計論」第III章　記述的統計学 21節 2偶然量の相関 p.146 ISBN 9784874720127 http://ebsa.ism.ac.jp/ebooks/ebook/204
^ 稲垣 1990, 定理4.2.ii.
^ 中西他 2004.
^ 和田恒之. “統計学セミナー第5回資料相関 (Correlation)” (PDF). 北海道対がん協会. 2016年5月31日閲覧。
^ Debasis Bhattacharya (Ph. D.); Soma Roychowdhury (2012). Statistics in Social Science and Agricultural Research. Concept Publishing Company. p. 74. ISBN 978-81-8069-822-4
^ Chris Spatz (2007-05-16). Basic Statistics: Tales of Distributions. Cengage Learning. pp. 319-320. ISBN 0-495-38393-7
^ JIS Z 8101-1 : 1999 統計 − 用語と記号 − 第1部:確率及び一般統計用語 1.9 相関, 日本規格協会、http://kikakurui.com/z8/Z8101-1-1999-01.html
^ Hedges & Olkin 1985, p. 255.
^ Judea Pearl. 2000. Causality: Models, Reasoning, and Inference, Cambridge University Press.
^ Rubin, Donald (1974). “Estimating Causal Effects of Treatments in Randomized and Nonrandomized Studies”. J. Educ. Psychol. 66 (5): 688-701 [p. 689]. doi:10.1037/h0037350.

参考文献[編集]

稲垣宣生『数理統計学』裳華房、1990年。ISBN 4-7853-1406-0。
中西寛子、岩崎学、時岡規夫『実用統計用語事典』オーム社、2004年。ISBN 4-274-06554-5。
栗原伸一『入門統計学―検定から多変量解析・実験計画法まで』オーム社、2011年。ISBN 978-4-274-06855-3。
Drouet Mari, Dominique; Kotz, Samuel (2001). Correlation and Dependence. Imperial College Press. ISBN 1-86094-264-4. MR1835042
Hedges, Larry V.; Olkin, Ingram (1985). Statistical Methods for Meta-Analysis. Academic Press. ISBN 0-12-336380-2. MR0798597
伏見康治『確率論及統計論』河出書房、1942年。ISBN 9784874720127。
日本数学会『数学辞典』岩波書店、2007年。ISBN 9784000803090。
JIS Z 8101-1:1999 統計 − 用語と記号 − 第1部:確率及び一般統計用語、日本規格協会、http://kikakurui.com/z8/Z8101-1-1999-01.html