確率変数

確率変数（かくりつへんすう、英: random variable, aleatory variable, stochastic variable）とは、統計学の確率論において、起こりうることがらに割り当てている値（ふつうは実数や整数）を取る変数。各事象は確率をもち、その比重に応じて確率変数はランダム^[1]^:391に値をとる。

確率変数は離散型確率変数（りさんがたかくりつへんすう、英: discrete random variable）と連続型確率変数（れんぞくがたかくりつへんすう、英: continuous random variable）に分けられる。離散型確率変数の場合の確率分布は確率質量関数で表される。連続型確率変数の場合の確率分布は、確率測度が絶対連続ならば確率密度関数で表される。

確率空間 $(\Omega ,{\mathcal {F}},P)$ において、標本空間 $Ω$ の大きさが連続体濃度の場合、確率変数とは、Ω 上で定義された実数値関数で、 ${\mathcal {F}}$ 可測であるものといえる。確率変数値をとる $Ω$ の部分集合が事象であり従って確率をもつために「 ${\mathcal {F}}$ 可測」は必要になる。

用語の定義

日本産業規格では、確率変数（かくりつへんすう、random variable）を

どのような値となるかが，ある確率法則によって決まる変数。確率法則は確率分布で記述される。とることができる値が離散的であるか，連続的であるかによって，それぞれ離散（確率）変数，連続（確率）変数という。離散確率変数で表されるデータを計数値 (discrete variable)，連続確率変数で表されるデータを計量値 (continuous variable) という。(JIS Z 8101-1:1999 統計 − 用語と記号 − 第1部:確率および一般統計用語, 1.2 確率変数)

と規定している。

確率変数は、

これから行う試行の結果
既に行った試行の結果がいまだ不確かである場合（実験結果が出揃っていない場合や測定結果が不確実である場合など）の結果

に割り当てられている値である。

確率論においては、確率変数は確率分布を記述する上で事実上必要な概念である。

確率変数は離散型確率変数（有限個または可算個）と連続型確率変数に分けられる。離散型確率変数の場合の確率は確率質量関数および離散確率分布を参照。連続型確率変数の場合の確率は確率密度関数を参照。

本項では、確率変数を標本空間に定義された可測関数から得られた数値として考える^[2]。確率論での数学的な取り扱いは#測度論的定義を参照のこと。

定義

確率変数 $X:\Omega \to E$ は、標本空間（起こりうることがらの集まり） $Ω$ の元に数 $E$ を対応させる可測関数である（ $Ω$ , $E$ はそれぞれ可測空間）（#測度論的定義も参照）。 $E$ は通常 $\mathbb {R}$ または $\mathbb {N}$ （や $\mathbb {Z}$ ）である。そうでない場合は確率要素として考察する（#概念の拡張参照）。

$X$ の値として、測定値や観測値（例えば、様々な人々の身長など）だけでなく、指示関数値（例えば、ある回数コイントスをしたときの表が出た回数）を採用することが多い。

$X$ の像（値域）が高々可算個である時、 $X$ は離散型確率変数と呼ばれ^[1]^:399、その分布（離散確率分布）は確率変数値の確率の全てを表したものとして確率質量関数で記述できる。

像が非可算個である時、 $X$ は連続型確率変数と呼ばれ、確率分布 $P X$ が絶対連続ならば確率密度関数が存在し、確率変数が $E\in {\mathcal {E}}$ （例えば区間）に属する確率が確率密度関数の $E$ 上のルベーグ積分で表される。

注意すべき点は、絶対連続のとき連続確率分布であるため、確率変数がある値をとる確率は全て 0 になるということである。確率分布が連続でも絶対連続とは限らない^[3]。混合分布（英語版）がその例である。そのような確率変数は確率密度関数または確率質量関数で記述できない。

あらゆる確率分布は累積分布関数で記述できる。分布関数とは、 $x$ に確率変数が $x$ 以下である確率を対応される関数のことである。

確率変数が可測関数として可積分ならば、期待値が存在する。

実例

例えば、任意に抽出した人の身長を確率変数とする場合を考える。数学的には、確率変数は対象となる人→その身長という関数を意味する。確率変数は確率分布に対応し、妥当にあり得る範囲の確率（身長180cm以上190cm以下である確率や 150cm未満または200cm超である確率）を計算できるようになる。

もう一つの確率変数の例は、抽出した人には何人の子供がいるかというものである。これは非負の整数値を取る離散型確率変数である。この場合、確率分布は確率質量関数の積分により表される。また、無限個の仮説を想定することも可能である。例えば、偶数人の子供がいるか、といったものである。何方の場合においても、確率値は確率質量関数の要素の和を無限に取っていくことで求めることができる。子供が0人の可能性 + 子供が2人の可能性 + 子供が4人の可能性 + … という要領である。

このような例では標本空間はしばしば有限に制限される。離散値を無限に計算していくのが数学的に困難だからである。しかしアウトカムの標本空間内で2つの確率変数が同時に測定される場合、すなわちある人について身長と子供の数とを同時に調査する場合などは、両変数に相関関係があるのか否かを知るのは容易である。

概念の拡張

統計学における基本として、確率変数がとる値は実数であり、従って期待値や分散その他の値を計算することができる。しかし、実数以外の要素を値としてとる確率変数も考えられる。値として取る要素としては、ブール変数、カテゴリカル変数（英語版）、複素数ベクトル、ベクトル、行列、数列、樹形図、コンパクト集合、図形、多様体、関数等が考えられる。確率要素という用語はこれら全ての概念を指し示す。

もう1つの拡張は確率過程、すなわち時間や空間などで添字付けられた添字付き確率変数である。

このような、より一般化された概念は計算機科学や自然言語処理といった非数的要素を扱う分野で特に有用である。これらの確率要素は実数値の確率変数（主に乱数ベクトル）として取り扱えることが多い。

下記に実例を上げる。

「ランダムな単語」は語彙集合の中で整数を添字としてパラメータ化することができる。あるいは、単語に対応する特定のベクトル要素一つのみが1で他の全ての要素が0であるような指示ベクトルとして、表現し得る。
「ランダムな文章」はランダムな単語のベクトルとしてパラメータ化することができる。
数学において $V$ 本の辺を持つ「ランダムなグラフ」は、 $N$ 次正方行列を用いて各辺の重みならびに辺以外での値を0として表すことができる。（グラフに重み付けがない場合、辺の値は1とする）

要素の数値化は、非数的な独立した確率要素を扱う際の必須操作ではない。

実例

コイントスをするという試行において、標本空間は $\Omega =\{{\text{heads}},{\text{tails}}\}$ である。表が出る回数を調べたい場合は、ここから確率変数 $X$ を次の式で定義する：

X(\omega )={\begin{cases}1,&{\text{if}}\ \ \omega ={\text{heads}},\\\\0,&{\text{if}}\ \ \omega ={\text{tails}}.\end{cases}}

コインの表 (head) と裏 (tail) が出る確率が等しい時、確率質量関数 $f_{X}$ は次式の通りである。

f_{X}(x)={\begin{cases}{\tfrac {1}{2}},&{\text{if }}x=1,\\\\{\tfrac {1}{2}},&{\text{if }}x=0.\end{cases}}

2つのサイコロを振るとき、出た目の和の確率分布を調べるには、確率変数を次のように取る。

標本空間 $Ω$ は、"2つのサイコロを振って出た目の集合"である。これを $\Omega =\{1,2,3,4,5,6\}^{2}$ と略記する^{[注 1]}。確率変数 $X$ は2つのサイコロの出た目に書かれた数の和を表現する、 $Ω$ から $\mathbb {Z}$ への写像である。これは次の式で定義される：

X((n_{1},n_{2}))=n_{1}+n_{2}

$n 1$ は1つ目のサイコロ、 $n 2$ は2つ目のサイコロの出た目が表す数を表す。

このとき確率質量関数 $f X$ は次の式になる：

f_{X}(S)={\tfrac {\min(S-1,13-S)}{36}},{\text{for }}S\in \{2,3,4,5,6,7,8,9,10,11,12\}

連続型確率変数の例として、水平方向に回るルーレットを挙げることができる。標本空間としては「ルーレットの向き全体」を考える。この「向き」は連続的な状態を取り得るのでその標本空間の表現には実数を使うことが適切である。そこで真北方向を0（度）とし、確率変数 $X$ を「ルーレットが真北の向きに対して取る角度」として定義すると、確率変数の値域は区間 $[0, 360)$ （0度以上360度未満の実数）であり、ルーレットの元々の目的から各値を取る確率は等しいと考えられる。このとき区間内のあらゆる実数について、その値を取る確率は $0$ であるが、ある範囲内の角度をなす確率は正の値である。例えば、 $[0, 180]$ （0度以上180度以下）となる確率は 1/2 である。

確率質量関数の代わりに、 $X$ の確率密度を考えると、幅1度の確率密度は 1/360 である。確率は幅に比例し、確率分布は連続一様分布になる。一般に、連続型確率変数における確率は、存在すれば確率密度関数の範囲における積分値でとらえることができる。

混合タイプの確率変数としては例えば、コインを投げて表が出た時のみルーレットを回すということを考えることができる。コインが裏であれば $X = -1$ 、表であれば $X =$ ルーレットの角度とすると、この確率変数は確率 1/2 で $-1$ 、その他の数 $[0, 360)$ である確率は上記の例の半分である。

測度論的定義

→詳細は「測度論」を参照

確率空間 $(\Omega ,{\mathcal {F}},P)$ が与えられたとき、確率変数とは、標本 $\omega \in \Omega$ に割り当てた値をとる変数のことである。値にはその名の通り $\mathbb {R}$ や $\mathbb {Z}$ の他、ベクトル値 $\mathbb {R} ^{d}$ を割り当てることもある。「値」として、一般的には可測空間 $(E,{\mathcal {E}})$ とする^[2]。確率変数とは $({\mathcal {F}},{\mathcal {E}})$ -可測関数 $X:\Omega \to E$ である。つまり、値 $B\in {\mathcal {E}}$ の原像 $X^{-1}(B)=\{\omega :X(\omega )\in B\}$ が ${\mathcal {F}}$ の元であることを意味している^[4]。

特に $E$ が位相空間である時、最も一般的なσ-集合代数 ${\mathcal {E}}$ はボレルσ-集合代数 ${\mathcal {B}}(E)$ である。これは、 $E$ の全ての開集合から生成されるσ-代数である。

実数確率変数

ここでは観測値を実数とする。 $(\Omega ,{\mathcal {F}},P)$ が確率空間である。下記の場合、実測値空間として、関数 $X:\Omega \rightarrow \mathbb {R}$ を実数確率変数とする。

\{\omega :X(\omega )\leq r\}\in {\mathcal {M}}\qquad \forall r\in \mathbb {R} .

この定義は上記の特別な場合である。集合 $\{(-\infty ,r]:r\in \mathbb {R} \}$ が実数空間内にボレル完全加法族を成し、それが集合の可測性を示す十分条件だからである。これで $\{\omega :X(\omega )\leq r\}=X^{-1}((-\infty ,r])$ を用いて生成する集合の可測性が証明される。

確率変数の分布関数

確率変数 $X:\Omega \to \mathbb {R}$ が確率空間 $(\Omega ,{\mathcal {F}},P)$ 内に定義されたとすると、「 $X$ の値が2をとる確率はいくつか？」等と問うことができる。これは事象 $\{\omega :X(\omega )=2\}$ の確率と同じであり、しばしば短く $P(X=2)$ や $p_{X}(2)$ と記述される。

実数確率変数 $X$ が示す範囲の確率を全て記録すると、 $X$ の確率分布が得られる。確率分布は $X$ の定義に使われた特定の確率空間を「忘れる」ので、 $X$ の様々な値の確率を記録するのみである。このような確率分布は常に分布関数で捉えることができる。

F_{X}(x)=\operatorname {P} (X\leq x)

加えて確率密度関数 $p_{X}$ を使える場合も多い。測度論的には確率変数 $X$ は、 $Ω$ 上での $P$ の測定から $\mathbb {R}$ 上での $p_{X}$ の測定に「押し進める」もの、といえる。根底にある確率空間 $Ω$ は確率変数の存在を保証するツールであり、しばしば変数を構成し、同一確率空間内の2つ以上の変数の同時分布における相関・依存や独立性の基礎となる。実際は、空間 $Ω$ 全体に1つの変数を置き、数直線 $\mathbb {R}$ 全体で1つの変数とする。つまり、その変数が確率変数に代わって確率分布する。

確率変数値の平均

→詳細は「期待値 § 連続型確率変数」を参照

確率空間 $(Ω, F, P)$ に割り当てた確率変数 $X:\Omega \to {\mathcal {E}}$ が可積分であるとは、

\int _{\Omega }|X(\omega )|\,P(\mathrm {d} \omega )<\infty

を満たすことである。これは測度論における可測関数の可積分性と同じである。

このとき確率変数 $X$ あるいはその確率分布の平均は

E[X]=\int _{\Omega }X(\omega )\,P(\mathrm {d} \omega )

で定義される。

事象 $A\in {\mathcal {F}}$ の下での確率変数 $X$ の条件付期待値は

E[X:A]=E[1_{A}X]=\int _{A}X(\omega )\,P(\mathrm {d} \omega )

で定義される。ここで $1 A$ は指示関数である。

モーメント

→詳細は「モーメント (確率論)」を参照

確率変数の確率分布は、多くの場合少数の特性値で規定される。例えば、確率変数の期待値 ( $E[X]$ ) は確率分布の"1次モーメント"であり、平均とも呼ばれる。一般に、 $E[f (X)]$ は $f (E[X])$ と等しくない。次に、確率変数値が全体として「平均」からどれだけ散らばっているかを表す特性値として分散 ( $V[X]$ ) および標準偏差 ( $σ[X]$ ) がある。分散 $V[X]$ とは、 $X$ と平均の差の2乗の期待値 $E[(X - E[X]) 2]$ のことである。

数学的には、与えられた確率変数 $X$ が所属する母集団に関する（一般化された）モーメント問題（英語版）として知られ、確率変数 $X$ の分布の性質を示す期待値 $E[f i (X)]$ の関数のコレクション ${f i}$ である。

モーメントは確率変数が実数関数である場合（複素数等についても）に定義できる。確率変数自身が連続であるならば、変数のモーメント自身は確率変数の恒等関数 $f (X) = X$ と等価である。しかし、非実数の確率変数の場合にも、モーメントをその変数の実数関数として得ることができる。例えば、名義尺度変数 $X$ として「赤」、「青」、「緑」がある場合、実数関数 $[X={\text{green}}]$ を考えることができる。こうしてアイバーソンの記法を用いることで、 $X$ が「緑」の時は1、それ以外は0と記述できるので、期待値および他のモーメントを定義できる。

確率変数の関数

実数のボレル可測関数 $g:\mathbb {R} \rightarrow \mathbb {R}$ を実数値確率変数 $X$ に適用すると、新たな確率変数 $Y$ を定義することができる。 $Y$ の分布関数は、

F_{Y}(y)=\operatorname {P} (g(X)\leq y)

である。

関数 $g$ に逆関数 $g -1$ が定義可能であり、かつそれが増加関数かまたは減少関数である場合には、上記の関係は以下のように展開できる。

$F_{Y}(y)=\operatorname {P} (g(X)\leq y)$
	$={\begin{cases}\operatorname {P} (X\leq g^{-1}(y))=F_{X}(g^{-1}(y)),&\,\\\operatorname {P} (X\geq g^{-1}(y))=1-F_{X}(g^{-1}(y)),\,\end{cases}}$	（ $g -1$ が増加関数の場合）,
		（ $g -1$ が減少関数の場合）.

さらに、同じく $g$ の可逆性に加えて微分可能性も仮定すると、両辺を $y$ で微分することにより、確率密度関数の関係を下記のように記述できる。

f_{Y}(y)=f_{X}(g^{-1}(y))\left|{\frac {dg^{-1}(y)}{dy}}\right|

$g$ の逆関数が存在しない場合でも、それぞれの $y$ が高々可算個の根を持つ場合（すなわち、 $y = g (x i)$ である $x i$ の数が有限または可算無限の場合）には、上記の確率密度関数の関係は次のように一般化できる。

f_{Y}(y)=\sum _{i}f_{X}(g_{i}^{-1}(y))\left|{\frac {dg_{i}^{-1}(y)}{dy}}\right|

ただし

x i = g i -1 (y)

この式は $g$ が増加関数でなくとも成立する。

確率に対する公理的アプローチとしての測度論において、空間 $Ω$ 上の確率変数 $X$ およびボレル可測関数 $g:\mathbb {R} \rightarrow \mathbb {R}$ を取る。可測関数を合成したものもまた可測である（しかし、 $g$ がルベーグ可測の場合はその限りではない)ため、 $Y = g (X)$ もまた空間 $Ω$ 上の確率変数である。 $Y$ の分布を知るために、確率空間 $(Ω, P)$ から $(\mathbb {R} ,dF_{X})$ への移行と同じ手順を利用できる。

例1

$X$ を実数の連続確率分布とした時、 $Y = X 2$ とすると、

F_{Y}(y)=\operatorname {P} (X^{2}\leq y)

$y < 0$ の時は $\operatorname {P} (X^{2}\leq y)=0$ であるので、

F_{Y}(y)=0

（ただし

y < 0

）である。

$y \geq 0$ の時は $\operatorname {P} (X^{2}\leq y)=\operatorname {P} (|X|\leq {\sqrt {y}})=\operatorname {P} (-{\sqrt {y}}\leq X\leq {\sqrt {y}})$ であるので、

F_{Y}(y)=F_{X}({\sqrt {y}})-F_{X}(-{\sqrt {y}})

（ただし

y \geq 0

）である。

例2

$x$ は、分布関数が

F_{X}(x)=\operatorname {P} (X\leq x)={\frac {1}{(1+e^{-x})^{\theta }}}

となる確率変数とする。ただし $θ > 0$ は固定されたパラメーターである。確率変数 $Y$ を $Y=\log(1+e^{-X})$ とすると、

F_{Y}(y)=\operatorname {P} (Y\leq y)=\operatorname {P} (\log(1+e^{-X})\leq y)=\operatorname {P} (X>-\log(e^{y}-1)).

最後の表現は $X$ の分布関数で計算できる。すなわち

F_{Y}(y)=1-F_{X}(-\log(e^{y}-1))

=1-{\frac {1}{(1+e^{\log(e^{y}-1)})^{\theta }}}

=1-{\frac {1}{(1+e^{y}-1)^{\theta }}}

=1-e^{-y\theta }.

例3

$X$ を標準正規分布に従う確率変数であるとすると、その確率密度は下記の通りである。

f_{X}(x)={\frac {1}{\sqrt {2\pi }}}e^{-x^{2}/2}

確率変数 $Y = X 2$ を考えると、上記の式を変数変換して確率密度を下記のように表すことができる。

f_{Y}(y)=\sum _{i}f_{X}(g_{i}^{-1}(y))\left|{\frac {dg_{i}^{-1}(y)}{dy}}\right|

この場合、 $Y$ の値は2つの $X$ （正の値と負の値）に対応するので、変換は単調写像ではない。しかし、関数が対称であるので、両半分をそれぞれ変形することができる。すなわち、

f_{Y}(y)=2f_{X}(g^{-1}(y))\left|{\frac {dg^{-1}(y)}{dy}}\right|

である。この逆変換は、

x=g^{-1}(y)={\sqrt {y}}

であり、両辺を微分すると

{\frac {dg^{-1}(y)}{dy}}={\frac {1}{2{\sqrt {y}}}}

である。従って、

f_{Y}(y)=2{\frac {1}{\sqrt {2\pi }}}e^{-y/2}{\frac {1}{2{\sqrt {y}}}}={\frac {1}{\sqrt {2\pi y}}}e^{-y/2}

これは自由度 $1$ の $χ 2$ 分布である。

確率変数の同値性

確率変数が同値と見なされるには「等しい」「ほとんど確実に等しい」「分布が等しい」といった、いくつかの異なる意味がある。強さの順に並べると、これらの正確な定義は以下の通り。

分布が等しい

標本空間が実数直線の部分集合の場合、確率変数 $X$ と $Y$ の分布が等しいとは（ $X\;{\stackrel {d}{=}}\;Y$ と表記する）下記のように同じ分布関数を持つことである。

\operatorname {P} (X\leq x)=\operatorname {P} (Y\leq x)\quad {\hbox{for all}}\quad x.

2つの確率変数は同じ積率母関数を持つ時に同じ分布になる。この事実は、例えば独立同一分布の確率変数による複数の異なった関数が同じ分布になるかどうかを調べるための便利な方法を提供する。しかしながら、積率母関数が存在するのは、ラプラス変換が定義される分布関数に対してのみである。

ほとんど確実に等しい

2つの確率変数 $X$ と $Y$ が「ほとんど確実に等しい」とは、その2つが異なる確率が $0$ であることと同値である^{[注 2]}。

\operatorname {P} (X\neq Y)=0.

これは、以下で定義される距離が0であることとも同値である。

d_{\infty }(X,Y)=\operatorname {ess} \sup _{\omega }|X(\omega )-Y(\omega )|,

(ただし、ess sup は測度論の意味での本質的上限)

確率論におけるすべての現実的な目的に関して、この同値性の概念は実際に等しい場合と同等の強さをもつ。

等しい

最後に、2つの確率変数 $X$ と $Y$ が等しいとは、それらが定義される可測空間上の関数として等しいことを指す。

X(\omega )=Y(\omega )\qquad {\hbox{for all }}\omega \in \Omega

収束

→詳細は「確率変数の収束」を参照

数理統計学の重要なテーマは、例えば大数の法則や中心極限定理のように、ある確率変数の特定の列の収束結果を得ることである。

確率変数列 $(X n)$ を確率変数 $X$ に収束させる方法は様々なものがある。詳細は確率変数の収束で説明する。

脚注

[脚注の使い方]

注釈

^ サイコロの目に書かれた数字は単なる名義尺度であるから、この場合の $\{1,2,3,4,5,6\}^{2}$ とは $\mathbb {Z} ^{2}$ の部分集合ではなく、単なる ${1, 2, 3, 4, 5, 6}$ という「記号」の対集合に過ぎない。
^ 測度論としての立場で考えれば、 $X$ , $Y$ が確率測度 $P$ でほとんど至るところ等しい、ことと同値である。

出典

^ ^a ^b Yates, Daniel S.; Moore, David S; Starnes, Daren S. (2003). The Practice of Statistics (2nd ed.). New York: Freeman. ISBN 978-0-7167-4773-4. http://bcs.whfreeman.com/yates2e/
^ ^a ^b Steigerwald, Douglas G.. “Economics 245A – Introduction to Measure Theory” (PDF). University of California, Santa Barbara. 2013年4月26日閲覧。
^ L. Castañeda, V. Arunachalam, and S. Dharmaraja (2012). Introduction to Probability and Stochastic Processes with Applications. Wiley. p. 67
^ Fristedt & Gray (1996, page 11)

参考文献

西岡康夫『数学チュートリアルやさしく語る確率統計』オーム社、2013年。ISBN 9784274214073。
伏見康治『確率論及統計論』河出書房、1942年。ISBN 9784874720127。
日本数学会『数学辞典』岩波書店、2007年。ISBN 9784000803090。
“JIS Z 8101-1:1999 統計 − 用語と記号 − 第1部 :確率及び一般統計用語”. 日本規格協会. 2016年7月6日閲覧。

外部リンク

[4] サイコロの目に書かれた数字は単なる名義尺度であるから、この場合の $\{1,2,3,4,5,6\}^{2}$ とは $\mathbb {Z} ^{2}$ の部分集合ではなく、単なる ${1, 2, 3, 4, 5, 6}$ という「記号」の対集合に過ぎない。

[6] 測度論としての立場で考えれば、 $X$ , $Y$ が確率測度 $P$ でほとんど至るところ等しい、ことと同値である。

[Yates-1] Yates, Daniel S.; Moore, David S; Starnes, Daren S. (2003). The Practice of Statistics (2nd ed.). New York: Freeman. ISBN 978-0-7167-4773-4. http://bcs.whfreeman.com/yates2e/

[UCSB-2] Steigerwald, Douglas G.. “Economics 245A – Introduction to Measure Theory” (PDF). University of California, Santa Barbara. 2013年4月26日閲覧。

[3] L. Castañeda, V. Arunachalam, and S. Dharmaraja (2012). Introduction to Probability and Stochastic Processes with Applications. Wiley. p. 67

[5] Fristedt & Gray (1996, page 11)

[1]

[2]

[3]

[注 1]

[4]

[注 2]