自己相互情報量

自己相互情報量（じこそうごじょうほうりょう、英語: pointwise mutual information、略称: PMI）は、統計学、確率論、情報理論における関連性の尺度である^[1]。全ての可能な事象の平均を取る相互情報量（mutual information、MI）とは対照的に、単一の事象を指す。

定義

離散確率変数 $X,Y$ に属する結果 $x,y$ の組の自己相互情報量は、独立性の仮定の下で、それらの同時分布と個々の分布が与えられたときの同時確率の不一致を定量化したものである。数学的には下記の式として表される。

\operatorname {pmi} (x;y)\equiv \log {\frac {p(x,y)}{p(x)\,p(y)}}=\log {\frac {p(x\mid y)}{p(x)}}=\log {\frac {p(y\mid x)}{p(y)}}

多確率変数の結果の組 $y_{1},y_{2},\dots ,y_{q}$ の自己相互情報量は、次に与えられる。

\operatorname {PMI} \left(y_{1},y_{2},\ldots ,y_{q}\right)=\log {\frac {p\left(y_{1},y_{2},\ldots ,y_{q}\right)}{p\left(y_{1}\right)p\left(y_{2}\right)\ldots p\left(y_{q}\right)}}=\log p({\boldsymbol {y}})-\log \prod _{j=1}^{q}p(y_{j})

確率変数 $X_{1},X_{2},\dots ,X_{q}$ の相互情報量は、自己相互情報量の期待値である。

{\begin{aligned}I({\boldsymbol {X}})&{}=D_{\mathrm {KL} }\left(P_{\boldsymbol {X}}{\|}\bigotimes _{X\in {\boldsymbol {X}}}P_{X}\right)\\&{}=\int p({\boldsymbol {x}})\log {\frac {p({\boldsymbol {x}})}{\prod _{i}p(x_{i})}}\mathrm {d} {\boldsymbol {x}}\\&{}=\int p({\boldsymbol {x}})\left(\log p({\boldsymbol {x}})-\log \prod _{i}p(x_{i})\right)\mathrm {d} {\boldsymbol {x}}\\&{}=\mathbb {E} _{p\left({\boldsymbol {x}}\right)}\left[\log {p({\boldsymbol {x}})}-\log {\prod _{i}p(x_{i})}\right]\\&{}=\mathbb {E} _{p\left({\boldsymbol {x}}\right)}\left[\operatorname {PMI} \left(p\left({\boldsymbol {x}}\right)\right)\right]\end{aligned}}

対称性がある。

\operatorname {pmi} (x;y)=\operatorname {pmi} (y;x)

正負の値を取りうるが、 $X,Y$ が独立している場合はゼロである。 PMI が負であっても正であっても、すべての共同イベントに対する期待値である相互情報量は正である。 $X,Y$ が完全に関連している場合、すなわち、 $p(x\mid y)=1$ または $p(y\mid x)=1$ のとき、次のような境界が得られる。

-\infty \leq \operatorname {pmi} (x;y)\leq \min \left\{-\log p(x),-\log p(y)\right\}

なお、 $p(x\mid y)$ が一定で $p(x)$ が減少するなら、 $\operatorname {pmi} (x;y)$ は増加する。

次の例を考える。

$x$	$y$	$p(x,y)$
0	0	0.1
0	1	0.7
1	0	0.15
1	1	0.05

この表を周辺化して、個々の分布について次のような表が得られる。

	$p(x)$	$p(y)$
0	0.8	0.25
1	0.2	0.75

2を底とする対数用いると、 $\operatorname {pmi} (x;y)$ を次のように計算できる。

{\begin{aligned}\operatorname {pmi} (x=0;y=0)&=-1\\\operatorname {pmi} (x=0;y=1)&=0.222392\\\operatorname {pmi} (x=1;y=0)&=1.584963\\\operatorname {pmi} (x=1;y=1)&=-1.584963\end{aligned}}

なおこのとき、相互情報量 $\operatorname {I} (X;Y)=0.2141709$ と計算できる。

相互情報量との類似点

自己相互情報量は、相互情報量と同様の性質がある。

${\begin{aligned}\operatorname {pmi} (x;y)&=h(x)+h(y)-h(x,y)\\&=h(x)-h(x\mid y)\\&=h(y)-h(y\mid x)\end{aligned}}$

ここで、自己情報量 $h(x)=-\log _{2}p(X=x)$ である。

正規化自己相互情報量（Normalized PMI）

自己相互情報量は、区間 $[-1,1]$ で正規化できる。決して共起しない場合は−1、独立の場合は0、完全に共起する場合は+1が得られる^[2]。

\operatorname {npmi} (x;y)={\frac {\operatorname {pmi} (x;y)}{h(x,y)}}

ここで、 $h(x,y)$ は共同自己情報であり、次のように推定できる。

-\log _{2}p(X=x,Y=y)

PMIの亜種

上記のNormalized PMI以外にも多くの亜種がある^[3]。

PMIの連鎖律

相互情報量と同様、自己相互情報量は連鎖律に従う^[4]。

\operatorname {pmi} (x;\,y,z)=\operatorname {pmi} (x;\,y)+\operatorname {pmi} (x;\,z\mid y)

これは次のように証明できる。

{\begin{aligned}\operatorname {pmi} (x;y)+\operatorname {pmi} (x;z\mid y)&=\log {\frac {p(x,y)}{p(x)\,p(y)}}+\log {\frac {p(x,z\mid y)}{p(x\mid y)\,p(z\mid y)}}\\&{}=\log \left[{\frac {p(x,y)}{p(x)\,p(y)}}{\frac {p(x,z\mid y)}{p(x\mid y)\,p(z\mid y)}}\right]\\&{}=\log {\frac {p(x\mid y)\,p(y)\,p(x,z\mid y)}{p(x)\,p(y)\,p(x\mid y)\,p(z\mid y)}}\\&{}=\log {\frac {p(y)\,p(x,z\mid y)}{p(x)\,p(y)\,p(z\mid y)}}\\&{}=\log {\frac {p(x,y,z)}{p(x)\,p(y,z)}}\\&{}=\operatorname {pmi} (x;yz)\end{aligned}}

応用

自己相互情報量は、情報理論、言語学、化学（化合物のプロファイリングと分析など）など、さまざまな分野で利用できる^[5]。計算言語学では、自己相互情報量は単語間のコロケーションや関連正を見つけるために使用されてきた。たとえば、テキストコーパス内の単語の出現と共起をカウントして、その確率 $p(x)$ および $p(x,y)$ を近似的に求めることができる。次の表は、ウィキペディアの上位5000万語（2015年10月時点）のうち、共起回数が1000回以上でフィルタリングした上で、PMIスコアが最も高い単語と最も低い単語のカウントを示したものである。各カウントの頻度は、その値を50,000,952で割ることで得られる（注：基底 2 ではなく、自然対数を使用して自己相互情報量を計算した）。

単語1	単語2	単語1の数	単語2の数	共起の数	PMI
puerto	rico	1938	1311	1159	10.0349081703
hong	kong	2438	2694	2205	9.72831972408
los	angeles	3501	2808	2791	9.56067615065
carbon	dioxide	4265	1353	1032	9.09852946116
prize	laureate	5131	1676年	1210	8.85870710982
san	francisco	5237	2477	1779	8.83305176711
nobel	prize	4098	5131	2498	8.68948811416
ice	hockey	5607	3002	1933	8.6555759741
star	trek	8264	1594	1489	8.63974676575
car	driver	5578	2749	1384	8.41470768304
it	the	283891	3293296	3347	-1.72037278119
are	of	234458	1761436	1019	-2.09254205335
this	the	199882	3293296	1211	-2.38612756961
is	of	565679	1761436	1562	-2.54614706831
and	of	1375396	1761436	2949	-2.79911817902
a	and	984442	1375396	1457	-2.92239510038
in	and	1187652	1375396	1537	-3.05660070757
to	and	1025659	1375396	1286	-3.08825363041
to	in	1025659	1187652	1066	-3.12911348956
of	and	1761436	1375396	1190	-3.70663100173

良好なコロケーションのペアは、共起確率が各単語の出現確率よりもわずかに低い程度であり、PMIは高い。逆に、出現確率が共起確率よりもかなり高い単語のペアは、PMIが低い。

脚注

^ Kenneth Ward Church and Patrick Hanks (March 1990). “Word association norms, mutual information, and lexicography”. Comput. Linguist. 16 (1): 22–29. http://aclweb.org/anthology/J90-1003.
^ Bouma (2009年). “Normalized (Pointwise) Mutual Information in Collocation Extraction”. Proceedings of the Biennial GSCL Conference. 2022年5月2日閲覧。
^ Francois Role, Moahmed Nadif. Handling the Impact of Low frequency Events on Co-occurrence-based Measures of Word Similarity:A Case Study of Pointwise Mutual Information. Proceedings of KDIR 2011 : KDIR- International Conference on Knowledge Discovery and Information Retrieval, Paris, October 26-29 2011
^ Paul L. Williams. INFORMATION DYNAMICS: ITS THEORY AND APPLICATION TO EMBODIED COGNITIVE SYSTEMS
^ Čmelo, I.; Voršilák, M.; Svozil, D. (2021-01-10). “Profiling and analysis of chemical compounds using pointwise mutual information”. Journal of Cheminformatics 13 (1): 3. doi:10.1186/s13321-020-00483-y. ISSN 1758-2946.

参考文献

Fano, R M (1961). “chapter 2”. Transmission of Information: A Statistical Theory of Communications. MIT Press, Cambridge, MA. ISBN 978-0262561693

外部リンク

Demo at Rensselaer MSR Server (PMI values normalized to be between 0 and 1)

[Church1990-1] Kenneth Ward Church and Patrick Hanks (March 1990). “Word association norms, mutual information, and lexicography”. Comput. Linguist. 16 (1): 22–29. http://aclweb.org/anthology/J90-1003.

[2] Bouma (2009年). “Normalized (Pointwise) Mutual Information in Collocation Extraction”. Proceedings of the Biennial GSCL Conference. 2022年5月2日閲覧。

[3] Francois Role, Moahmed Nadif. Handling the Impact of Low frequency Events on Co-occurrence-based Measures of Word Similarity:A Case Study of Pointwise Mutual Information. Proceedings of KDIR 2011 : KDIR- International Conference on Knowledge Discovery and Information Retrieval, Paris, October 26-29 2011

[4] Paul L. Williams. INFORMATION DYNAMICS: ITS THEORY AND APPLICATION TO EMBODIED COGNITIVE SYSTEMS

[5] Čmelo, I.; Voršilák, M.; Svozil, D. (2021-01-10). “Profiling and analysis of chemical compounds using pointwise mutual information”. Journal of Cheminformatics 13 (1): 3. doi:10.1186/s13321-020-00483-y. ISSN 1758-2946.

[1]

[2]

[3]

[4]

[5]