分散共分散行列 (ぶんさんきょうぶんさんぎょうれつ、英 : variance-covariance matrix )や共分散行列 (きょうぶんさんぎょうれつ、英 : covariance matrix )とは、統計学 と確率論 において、ベクトル の要素間の共分散 の行列 である。これは、スカラー 値をとる確率変数 における分散 の概念を、多次元に拡張したものである。
次のような列ベクトルを考える。
X
=
[
X
1
X
2
⋮
X
n
]
{\displaystyle {\textbf {X}}={\begin{bmatrix}X_{1}\\X_{2}\\\vdots \\X_{n}\end{bmatrix}}}
このベクトルの要素が各々分散が有限である確率変数であるとき、( i , j ) の要素が次のような行列 Σ を分散共分散行列という。
Σ
i
j
=
E
[
(
X
i
−
μ
i
)
(
X
j
−
μ
j
)
]
=
E
(
X
i
X
j
)
−
E
(
X
i
)
E
(
X
j
)
{\displaystyle \Sigma _{ij}=\mathrm {E} {\begin{bmatrix}(X_{i}-\mu _{i})(X_{j}-\mu _{j})\end{bmatrix}}=\mathrm {E} (X_{i}X_{j})-\mathrm {E} (X_{i})\mathrm {E} (X_{j})}
ただし、
μ
i
=
E
(
X
i
)
{\displaystyle \mu _{i}=\mathrm {E} (X_{i})\,}
は、ベクトル X の i 番目の要素の期待値 である。すなわち、Σ は次のような行列である。
Σ
=
[
E
[
(
X
1
−
μ
1
)
(
X
1
−
μ
1
)
]
E
[
(
X
1
−
μ
1
)
(
X
2
−
μ
2
)
]
⋯
E
[
(
X
1
−
μ
1
)
(
X
n
−
μ
n
)
]
E
[
(
X
2
−
μ
2
)
(
X
1
−
μ
1
)
]
E
[
(
X
2
−
μ
2
)
(
X
2
−
μ
2
)
]
⋯
E
[
(
X
2
−
μ
2
)
(
X
n
−
μ
n
)
]
⋮
⋮
⋱
⋮
E
[
(
X
n
−
μ
n
)
(
X
1
−
μ
1
)
]
E
[
(
X
n
−
μ
n
)
(
X
2
−
μ
2
)
]
⋯
E
[
(
X
n
−
μ
n
)
(
X
n
−
μ
n
)
]
]
{\displaystyle \Sigma ={\begin{bmatrix}\mathrm {E} [(X_{1}-\mu _{1})(X_{1}-\mu _{1})]&\mathrm {E} [(X_{1}-\mu _{1})(X_{2}-\mu _{2})]&\cdots &\mathrm {E} [(X_{1}-\mu _{1})(X_{n}-\mu _{n})]\\\\\mathrm {E} [(X_{2}-\mu _{2})(X_{1}-\mu _{1})]&\mathrm {E} [(X_{2}-\mu _{2})(X_{2}-\mu _{2})]&\cdots &\mathrm {E} [(X_{2}-\mu _{2})(X_{n}-\mu _{n})]\\\\\vdots &\vdots &\ddots &\vdots \\\\\mathrm {E} [(X_{n}-\mu _{n})(X_{1}-\mu _{1})]&\mathrm {E} [(X_{n}-\mu _{n})(X_{2}-\mu _{2})]&\cdots &\mathrm {E} [(X_{n}-\mu _{n})(X_{n}-\mu _{n})]\end{bmatrix}}}
この行列の逆行列は
Σ
−
1
{\displaystyle \Sigma ^{-1}}
は、逆共分散行列 (英 : inverse covariance matrix ) または精度行列 (英 : precision matrix ) と呼ばれる[ 1] 。
上記の定義は、下記の等式と同値である。
Σ
=
E
[
(
X
−
E
[
X
]
)
(
X
−
E
[
X
]
)
⊤
]
{\displaystyle \Sigma =\mathrm {E} \left[\left({\textbf {X}}-\mathrm {E} [{\textbf {X}}]\right)\left({\textbf {X}}-\mathrm {E} [{\textbf {X}}]\right)^{\top }\right]}
この形は、スカラー値における分散を高次元に拡張したものと捉えられる。
スカラー値を取る確率変数 X について、次が成り立つことに注意する。
σ
2
=
v
a
r
(
X
)
=
E
[
(
X
−
μ
)
2
]
{\displaystyle \sigma ^{2}=\mathrm {var} (X)=\mathrm {E} [(X-\mu )^{2}]\ }
ただし、
μ
=
E
(
X
)
{\displaystyle \mu =\mathrm {E} (X)\ }
Σ
{\displaystyle \Sigma }
が、分散共分散行列と呼ばれるのは、対角要素は分散だからである。
この行列の名前の呼び名には、いくつかの異なった流儀がある。統計学者の一部は、ウィリアム・フェラー (英語 : William Feller ) にならって、この行列が 1 次元の分散の自然な拡張であることから、この行列を確率変数のベクトル
X
{\displaystyle X}
の分散 と呼ぶ。また、この行列がベクトル
X
{\displaystyle X}
のスカラー要素の共分散であることから、この行列を共分散行列 と呼ぶ流儀もある。すなわち、
var
(
X
)
=
cov
(
X
)
=
E
[
(
X
−
E
[
X
]
)
(
X
−
E
[
X
]
)
⊤
]
{\displaystyle \operatorname {var} ({\textbf {X}})=\operatorname {cov} ({\textbf {X}})=\mathrm {E} \left[({\textbf {X}}-\mathrm {E} [{\textbf {X}}])({\textbf {X}}-\mathrm {E} [{\textbf {X}}])^{\top }\right]}
しかし、二つの確率変数ベクトルの間の相互共分散 の標準的な記法は次のようになる。
cov
(
X
,
Y
)
=
E
[
(
X
−
E
[
X
]
)
(
Y
−
E
[
Y
]
)
⊤
]
{\displaystyle \operatorname {cov} ({\textbf {X}},{\textbf {Y}})=\mathrm {E} \left[({\textbf {X}}-\mathrm {E} [{\textbf {X}}])({\textbf {Y}}-\mathrm {E} [{\textbf {Y}}])^{\top }\right]}
var
{\displaystyle \operatorname {var} }
による記法は、フェラーの 2 巻の本 An Introduction to Probability Theory and Its Applications [ 2] に見ることができるが、どちらの形式もかなり標準化されていて、その間に曖昧性はない。
分散共分散行列
Σ
=
E
[
(
X
−
E
[
X
]
)
(
X
−
E
[
X
]
)
⊤
]
{\displaystyle \Sigma =\mathrm {E} \left[\left({\textbf {X}}-\mathrm {E} [{\textbf {X}}]\right)\left({\textbf {X}}-\mathrm {E} [{\textbf {X}}]\right)^{\top }\right]}
について、次のような基本的な性質がある。ただし、
μ
=
E
(
X
)
{\displaystyle \mu =\mathrm {E} ({\textbf {X}})}
とし、
X
{\displaystyle \mathbf {X} }
、
X
1
{\displaystyle \mathbf {X} _{1}}
と
X
2
{\displaystyle \mathbf {X} _{2}}
は確率変数の
p
×
1
{\displaystyle p\times 1}
ベクトル、
Y
{\displaystyle \mathbf {Y} }
は
q
×
1
{\displaystyle q\times 1}
ベクトル、
a
{\displaystyle \mathbf {a} }
は
q
×
1
{\displaystyle q\times 1}
ベクトル、
A
{\displaystyle \mathbf {A} }
と
B
{\displaystyle \mathbf {B} }
は
q
×
p
{\displaystyle q\times p}
行列とする。
Σ
=
E
(
X
X
⊤
)
−
μ
μ
⊤
{\displaystyle \Sigma =\mathrm {E} (\mathbf {XX^{\top }} )-\mathbf {\mu } \mathbf {\mu ^{\top }} }
Σ
{\displaystyle \Sigma }
は、半正定値行列
var
(
A
X
+
a
)
=
A
var
(
X
)
A
⊤
{\displaystyle \operatorname {var} (\mathbf {AX} +\mathbf {a} )=\mathbf {A} \,\operatorname {var} (\mathbf {X} )\,\mathbf {A^{\top }} }
cov
(
X
,
Y
)
=
cov
(
Y
,
X
)
⊤
{\displaystyle \operatorname {cov} (\mathbf {X} ,\mathbf {Y} )=\operatorname {cov} (\mathbf {Y} ,\mathbf {X} )^{\top }}
cov
(
X
1
+
X
2
,
Y
)
=
cov
(
X
1
,
Y
)
+
cov
(
X
2
,
Y
)
{\displaystyle \operatorname {cov} (\mathbf {X} _{1}+\mathbf {X} _{2},\mathbf {Y} )=\operatorname {cov} (\mathbf {X} _{1},\mathbf {Y} )+\operatorname {cov} (\mathbf {X} _{2},\mathbf {Y} )}
もし p = q ならば、
var
(
X
+
Y
)
=
var
(
X
)
+
cov
(
X
,
Y
)
+
cov
(
Y
,
X
)
+
var
(
Y
)
{\displaystyle \operatorname {var} (\mathbf {X} +\mathbf {Y} )=\operatorname {var} (\mathbf {X} )+\operatorname {cov} (\mathbf {X} ,\mathbf {Y} )+\operatorname {cov} (\mathbf {Y} ,\mathbf {X} )+\operatorname {var} (\mathbf {Y} )}
cov
(
A
X
,
B
⊤
Y
)
=
A
cov
(
X
,
Y
)
B
{\displaystyle \operatorname {cov} (\mathbf {AX} ,\mathbf {B} ^{\top }\mathbf {Y} )=\mathbf {A} \,\operatorname {cov} (\mathbf {X} ,\mathbf {Y} )\,\mathbf {B} }
もし
X
{\displaystyle \mathbf {X} }
と
Y
{\displaystyle \mathbf {Y} }
が独立ならば、
cov
(
X
,
Y
)
=
0
{\displaystyle \operatorname {cov} (\mathbf {X} ,\mathbf {Y} )=0}
この共分散行列は、シンプルではあるが、非常に多岐にわたる分野でとても有用なツールである。分散共分散行列からは、データの相関を完全に失わせるような写像を作る変換行列 を作ることができる。これは、違った見方をすれば、データを簡便に記述するのに最適な基底を取っていることになる。(分散共分散行列のその他の性質やその証明については、en:Rayleigh quotient を参照)
これは、統計学では主成分分析 (PCA) と呼ばれており、画像処理 の分野では、カルーネン・レーベ変換 (英語版 ) (KL-transform) と呼ばれている。
線形作用素としてみたとき、分散共分散行列は、ベクトル c を、確率変数ベクトル X の c に関する c による線形和と確率変数 X 自身の間で取った共分散ベクトルに写像する
c
⊤
Σ
=
cov
(
c
⊤
X
,
X
)
{\displaystyle \mathbf {c} ^{\top }\Sigma =\operatorname {cov} (\mathbf {c} ^{\top }\mathbf {X} ,\mathbf {X} )}
二次形式 としてみた場合は、X に関する c と d の二つの線形和の間で取った共分散に写像すると考えればよい。
d
⊤
Σ
c
=
cov
(
d
⊤
X
,
c
⊤
X
)
{\displaystyle \mathbf {d} ^{\top }\Sigma \mathbf {c} =\operatorname {cov} (\mathbf {d} ^{\top }\mathbf {X} ,\mathbf {c} ^{\top }\mathbf {X} )}
ここで、d を c とすれば、X に関する c による線形和の分散となる。
c
⊤
Σ
c
{\displaystyle \mathbf {c} ^{\top }\Sigma \mathbf {c} }
すぐ上で使った次の等式と、
var
(
a
⊤
X
)
=
a
⊤
var
(
X
)
a
{\displaystyle \operatorname {var} (\mathbf {a^{\top }} \mathbf {X} )=\mathbf {a^{\top }} \operatorname {var} (\mathbf {X} )\mathbf {a} \,}
実数値を取る確率変数の分散は非負であるということから、すぐに半正定値 行列だけが分散共分散行列になることができるということがわかる。さらに、任意の半正定値行列は分散共分散行列とみなすことができる。これを示すには、次のようにする。まず、M を p × p の半正定値対称行列 とする。有限次元のスペクトル理論 より、M は半正定値対称平方根行列 M 1/2 を持つ。X を任意の p × 1 の確率変数の列ベクトルとし、その分散共分散行列が p × p の恒等行列 だとする。すると
var
(
M
1
/
2
X
)
=
M
1
/
2
(
var
(
X
)
)
M
1
/
2
=
M
.
{\displaystyle \operatorname {var} (M^{1/2}\mathbf {X} )=M^{1/2}(\operatorname {var} (\mathbf {X} ))M^{1/2}=M.\,}
複素数 のスカラー値を取る期待値μの確率変数の分散は、便宜的に、以下のように共役複素数を用いて定義される。
var
(
z
)
=
E
[
(
z
−
μ
)
(
z
−
μ
)
∗
]
{\displaystyle \operatorname {var} (z)=\operatorname {E} \left[(z-\mu )(z-\mu )^{*}\right]}
ただし、
z
∗
{\displaystyle z^{*}}
は
z
{\displaystyle z}
の共役複素数。
Z
{\displaystyle Z}
が複素数の確率変数の列ベクトルであるときは、共役転置 (転置して共役を取ったもの)を用いることで、次の正方行列を得る。
E
[
(
Z
−
μ
)
(
Z
−
μ
)
∗
]
{\displaystyle \operatorname {E} \left[(Z-\mu )(Z-\mu )^{*}\right]}
ただし、
Z
∗
{\displaystyle Z^{*}}
は共役転置。スカラーの転置をとってもやはりスカラーなので、スカラーの場合の議論は、この形の特殊な場合とみなせる。
多次元正規分布 の分散共分散行列の最尤推定量の導出は、驚くほど巧妙である。
en:estimation of covariance matrices を参照。
n
{\displaystyle n}
個の相関のある確率変数の確率密度関数、特に n 次のガウス分布 に従う確率変数ベクトルの同時確率については、最尤法 を参照。
^ Wasserman .
^ Feller Vol.1 , Feller Vol.2 .
Weisstein, Eric W. "Covariance Matrix" . mathworld.wolfram.com (英語).
Larry Wasserman (2004). All of Statistics: A Concise Course in Statistical Inference (1st Corrected ed.). Springer. ISBN 978-0387402727
N.G. van Kampen (2007). Stochastic processes in physics and chemistry (3rd ed.). New York: North-Holland. ISBN 978-0444529657
William Feller (1968). An Introduction to Probability Theory and Its Applications . 1 (3rd ed.). WILEY. ISBN 978-0471257080
William Feller (1971). An Introduction to Probability Theory and Its Applications . 2 (2nd ed.). WILEY. ISBN 978-0471257097