自己相互情報量
自己相互情報量(じこそうごじょうほうりょう、英語: pointwise mutual information、略称: PMI)は、統計学、確率論、情報理論における関連性の尺度である[1]。全ての可能な事象の平均を取る相互情報量(mutual information、MI)とは対照的に、単一の事象を指す。
定義
[編集]離散確率変数 に属する結果 の組の自己相互情報量は、独立性の仮定の下で、それらの同時分布と個々の分布が与えられたときの同時確率の不一致を定量化したものである。数学的には下記の式として表される。
多確率変数の結果の組 の自己相互情報量は、次に与えられる。
確率変数 の相互情報量は、自己相互情報量の期待値である。
対称性がある。
正負の値を取りうるが、 が独立している場合はゼロである。 PMI が負であっても正であっても、すべての共同イベントに対する期待値である相互情報量は正である。 が完全に関連している場合、すなわち、 または のとき、次のような境界が得られる。
なお、 が一定で が減少するなら、 は増加する。
次の例を考える。
0 | 0 | 0.1 |
0 | 1 | 0.7 |
1 | 0 | 0.15 |
1 | 1 | 0.05 |
この表を周辺化して、個々の分布について次のような表が得られる。
0 | 0.8 | 0.25 |
1 | 0.2 | 0.75 |
2を底とする対数用いると、 を次のように計算できる。
なおこのとき、相互情報量 と計算できる。
相互情報量との類似点
[編集]自己相互情報量は、相互情報量と同様の性質がある。
ここで、自己情報量 である。
正規化自己相互情報量(Normalized PMI)
[編集]自己相互情報量は、区間 で正規化できる。決して共起しない場合は−1、独立の場合は0、完全に共起する場合は+1が得られる[2]。
ここで、は共同自己情報であり、次のように推定できる。
PMIの亜種
[編集]上記のNormalized PMI以外にも多くの亜種がある[3]。
PMIの連鎖律
[編集]これは次のように証明できる。
応用
[編集]自己相互情報量は、情報理論、言語学、化学(化合物のプロファイリングと分析など)など、さまざまな分野で利用できる[5]。計算言語学では、自己相互情報量は単語間のコロケーションや関連正を見つけるために使用されてきた。たとえば、テキストコーパス内の単語の出現と共起をカウントして、その確率 および を近似的に求めることができる。次の表は、ウィキペディアの上位5000万語(2015年10月時点)のうち、共起回数が1000回以上でフィルタリングした上で、PMIスコアが最も高い単語と最も低い単語のカウントを示したものである。各カウントの頻度は、その値を50,000,952で割ることで得られる(注:基底 2 ではなく、自然対数を使用して自己相互情報量を計算した)。
単語1 | 単語2 | 単語1の数 | 単語2の数 | 共起の数 | PMI |
---|---|---|---|---|---|
puerto | rico | 1938 | 1311 | 1159 | 10.0349081703 |
hong | kong | 2438 | 2694 | 2205 | 9.72831972408 |
los | angeles | 3501 | 2808 | 2791 | 9.56067615065 |
carbon | dioxide | 4265 | 1353 | 1032 | 9.09852946116 |
prize | laureate | 5131 | 1676年 | 1210 | 8.85870710982 |
san | francisco | 5237 | 2477 | 1779 | 8.83305176711 |
nobel | prize | 4098 | 5131 | 2498 | 8.68948811416 |
ice | hockey | 5607 | 3002 | 1933 | 8.6555759741 |
star | trek | 8264 | 1594 | 1489 | 8.63974676575 |
car | driver | 5578 | 2749 | 1384 | 8.41470768304 |
it | the | 283891 | 3293296 | 3347 | -1.72037278119 |
are | of | 234458 | 1761436 | 1019 | -2.09254205335 |
this | the | 199882 | 3293296 | 1211 | -2.38612756961 |
is | of | 565679 | 1761436 | 1562 | -2.54614706831 |
and | of | 1375396 | 1761436 | 2949 | -2.79911817902 |
a | and | 984442 | 1375396 | 1457 | -2.92239510038 |
in | and | 1187652 | 1375396 | 1537 | -3.05660070757 |
to | and | 1025659 | 1375396 | 1286 | -3.08825363041 |
to | in | 1025659 | 1187652 | 1066 | -3.12911348956 |
of | and | 1761436 | 1375396 | 1190 | -3.70663100173 |
良好なコロケーションのペアは、共起確率が各単語の出現確率よりもわずかに低い程度であり、PMIは高い。逆に、出現確率が共起確率よりもかなり高い単語のペアは、PMIが低い。
脚注
[編集]- ^ Kenneth Ward Church and Patrick Hanks (March 1990). “Word association norms, mutual information, and lexicography”. Comput. Linguist. 16 (1): 22–29 .
- ^ Bouma (2009年). “Normalized (Pointwise) Mutual Information in Collocation Extraction”. Proceedings of the Biennial GSCL Conference. 2022年5月2日閲覧。
- ^ Francois Role, Moahmed Nadif. Handling the Impact of Low frequency Events on Co-occurrence-based Measures of Word Similarity:A Case Study of Pointwise Mutual Information. Proceedings of KDIR 2011 : KDIR- International Conference on Knowledge Discovery and Information Retrieval, Paris, October 26-29 2011
- ^ Paul L. Williams. INFORMATION DYNAMICS: ITS THEORY AND APPLICATION TO EMBODIED COGNITIVE SYSTEMS
- ^ Čmelo, I.; Voršilák, M.; Svozil, D. (2021-01-10). “Profiling and analysis of chemical compounds using pointwise mutual information”. Journal of Cheminformatics 13 (1): 3. doi:10.1186/s13321-020-00483-y. ISSN 1758-2946 .
参考文献
[編集]- Fano, R M (1961). “chapter 2”. Transmission of Information: A Statistical Theory of Communications. MIT Press, Cambridge, MA. ISBN 978-0262561693
外部リンク
[編集]- Demo at Rensselaer MSR Server (PMI values normalized to be between 0 and 1)