反実仮想機械学習

反実仮想機械学習（はんじつかそうきかいがくしゅう, 英: Counterfactual Machine Learning, 略称：CFML）とは、機械学習の手法の一つであり、機械学習と因果推論の融合技術である。

観測されたデータに基づいて、起こり得たが、実際には起こらなかった反実仮想的な状況を推定する技術である。実験的にすべての可能な行動を観測できない現実世界において、何らかの介入や選択の結果を予測するために使用され、特に医療、経済、社会政策などの分野で、因果関係の理解や意思決定の最適化に活用することができる。

概要

反実仮想機械学習では、観測されたログデータから、実際には観測できなかった反実仮想的な状況を推定する。ログデータは以下のような形をしている。

$LogData=\{{\bigl (}Feature_{i},Action_{i},Result_{i}{\bigr )}\}_{i=1}^{n}$

ここで特徴量(Feature)は、行動の結果(Result)に影響を与える可能性がある情報。行動(Action)はログデータが収集された期間において行われた行動(意思決定)の情報である。行動の結果(Result)は、例えばユーザ評価や購入アイテムなどである。ここで重要なのは、ログデータとして観測された情報は複数ある選択肢の中から選ばれた結果であり、起こり得たが実際には起こらなかった反実仮想的な状況は観測されていないということである。反実仮想機械学習(意思決定最適化問題)では、過去のログデータから意思決定則を学習し、新たな特徴量に対しても最適な行動を選択することが目的である。

オフ方策評価

特定の方策（ポリシー）によって収集されたデータを使用して、他の方策の性能を評価することを指す。実際の環境でデータ収集方策以外の新たな方策を試すことなく、その方策の性能を推定するために利用される。新しい方策のテストを行う際に、実際の環境での試行を避けたい場合などに有効である。方策の性能の定義を以下に示す。

$V(\pi )=\mathbb {E} _{p(x)\pi (a|x)}[q(x,a)]$

性能Vは方策πを実環境に導入した際の報酬rの期待値であり、q(x,a)は期待報酬関数(expected reward function)と呼ばれる。

オフ方策評価における基本推定量

データ収集方策によって得られたログデータを用いて、評価方策の性能を推定するための基本的な推定量を以下に示す。

Direct Method 推定量

DM推定量は、真の期待報酬関数をデータ収集方策によって収集されたログデータに基づく期待報酬関数の予測モデルで直接置き換えることで、オフ方策評価を行う推定量。そのためDM推定量の精度は期待報酬関数の予測モデルの推定精度に依存する。またバリアンスは小さい傾向にあるが、バイアスが大きい傾向にあるという特徴を持つ。

Inverse Policy Score 推定量

IPS推定量は、期待報酬関数の推定モデルを使うことなくオフ方策評価が行える推定量。オンライン実験を行わなかったとしても、評価方策とデータ収集方策による行動選択確率の比で定義される重要度重みを用いることで、バイアスを一切生じない不偏推定を得ることができる。しかしこれは、以下に示す共通サポートの仮定が成り立つ範囲においての話である。またIPS推定量は、バイアスを一切生じない一方で、評価方策とデータ収集方策で大きく異なる挙動をする場合、バリアンスが大きくなるという特徴がある。

共通サポート(Common Support)の仮定

評価方策とデータ収集方策の関係に関する仮定。評価方策が正の行動選択確率を持つ行動については、データ収集方策の元でも正の行動選択確率を持っていなければならないということ。

Doubly Robust 推定量

DR推定量は、バリアンスが小さいDM推定量とバイアスを一切生じないIPS推定量の、それぞれの利点を活かした推定量である。DM推定量をベースとしながらも、IPS推定量と同様の重要度重みを用いて期待報酬関数の推定誤差を補正する。そうすることで、不偏性を保ちながらもIPS推定量と比べてバリアンスを改善することができる。データ収集方策と期待報酬関数のどちらかを正確に推定できれば十分であるため、推定量の名前にもある通り二重に頑健であると言えるが、重要度重みを用いているので共通サポートの仮定が成り立つ範囲で不偏推定量を得ることができる。

参考文献

齋藤優太『反実仮想機械学習機械学習と因果推論の融合技術の理論と実践』、技術評論社、2024年4月26日。ISBN 978-4-297-14029-8

概要