傾向スコア・マッチング

傾向スコア・マッチング（プロペンシティ・スコア・マッチング、propensity score matching、PSM）は、観察データの統計分析の分野において、治療を受けることを予測する共変量を考慮して、処置（treatment）、方針、その他介入の効果を推定しようとするマッチング手法。処置を受けた人々と受けなかった人々の結果を単純に比較して治療効果を推定すると交絡変数によるバイアス（偏り）が発生する。このバイアスを軽減するための手法が傾向スコア・マッチングであり、1983年、ポール・ローゼンバウムとドナルド・ルービンが発表した ^[1]。

処置群とコントロール群（非処置群）の処置結果（平均処置効果など）の違いは、処置そのものではなく処置を予測する要因によって引き起こされる可能性があり、その場合はバイアスが発生する。ランダム化比較試験では、無作為割り付けによってバイアスなく処置効果を推定することができる。無作為割り付けによって、各共変量のバランスが取れることを大数の法則が保証する。残念ながら、観察研究の多くで、処置の無作為割り付けはなされていない。マッチングでは、観察された共変量が同じくらいの標本を処置群とコントロール群のそれぞれから抽出することにより、割り付けバイアスを減らして、無作為割り付けに近いものにする。

たとえば、喫煙の影響を知りたい場合を考える。人々を喫煙群に無作為に割り付けることは非倫理的であるため、観察研究が必要である。喫煙群と非喫煙群とを単純に比較することによって処置効果を推定すると、喫煙率に影響する要因（性別や年齢など）によるバイアスが生じる。傾向スコア・マッチングでは、処置群とコントロール群の制御変数（この例では性別や年齢など）を同じくらいにすることによって、これらのバイアスを制御することを目指す。

概要

傾向スコア・マッチングは、以下の様な非実験的設定における因果推論および選択バイアスに対して使用される。

コントロール群には、処置群の被験者と同等といえる被験者がほとんどいない
高次元の特徴量を元に比較する必要があるため、処置群の被験者とよく似たコントロール群の被験者を選択することが難しい

通常のマッチングでは、治療群と対照群を区別する単一の特性が照合される。ただし、2つのグループに実質的な重複がない場合は、かなりの誤差が発生する可能性がある。たとえば、コントロール群の最悪のケースと処置群の最良のケースとの比較になってしまうと、平均への回帰によって、実際によりも良く見えたり悪く見えたりする可能性がある。

傾向スコア・マッチングでは割り付けの予測確率（たとえば、処置群とコントロール群のどちらに割り付けられるかの確率）を採用する。この予測確率は、観測された予測因子に基づいたロジスティック回帰によって取得されることが多く、反実仮想群を作成することができる。傾向スコアは、単独または他のマッチング変数または共変量と一緒に、マッチングに使ったり共変量として扱ったりすることができる

一般的な手順

1. ロジスティック回帰を実行する

従属変数：治療群では $Z=1$ 、コントロール群（非治療群）では $Z=0$ となる。
適切な交絡因子（治療と結果の両方に関連すると仮定された変数）を選択する。
傾向スコアの推定量（予測確率 $p$ ）を得る。

2. 傾向スコアで層別化した上で、層内の治療群とコントロール群との間で共変量のバランスが取れていることを確認する

標準化群間差（standardized difference）またはグラフで分布を調べる

3. 次のいずれかの方法を用いて、傾向スコアに基づいて治療群の各被験者をコントロール群の被験者 1 人（または複数）とマッチングする

最近傍探索
キャリパーマッチング
マハラノビス距離マッチング
層化抽出法
差分マッチング
完全一致

4. マッチングした被験者において、処置群とコントロール群との間で共変量のバランスが取れていることを確認する

5. 新しいサンプルに基づいて多変量解析を行う

処置群の被験者のマッチング対象をコントロール群の被験者から複数選ぶ場合は、独立性を仮定しない手法で解析する。すなわち、通常の最小二乗法ではなく、加重最小二乗法を使用する。

正式な定義

基本設定

基本的なケースとして、2 つの処置（処置群が 1、コントロール群が 0 ）を $N$ 人の被験者に割り付け、独立同分布（i.i.d.）を仮定する ^[1]。

$i$ 番目の被験者（被験者 $i$ とする）の処置への反応 $r_{1i}$ とコントロールへの反応 $r_{0i}$ とを考えて、平均治療効果 $E[r_{1}]-E[r_{0}]$ を推定する。

変数 $Z_{i}$ を用いて、被験者 $i$ が処置群に割り付けられた場合は $Z_{i}=1$ 、コントロール群に割り付けられた場合は $Z_{i}=0$ と表現する。 $X_{i}$ を被験者 $i$ の処置の割り当て前に観測された値を表すベクトルとする。処置の割り当てを決定する場合に参考にする変数の中には、 $X_{i}$ に含まれないもののあるかもしれない。番号付け（ $i=1,2,3,\dots ,N$ ）の値そのものには、 $X_{i}$ の内容に関する情報は含まれていないものとする。以降も個々の被検者について議論するが、 $i$ の記載は省略する。

「強く無視可能」な治療の割り当て (SITA)

ある被験者が共変量 $X$ を持つ（すなわち、条件付き交絡がない）ものとする。治療群およびコントロール群の潜在アウトカムを、それぞれ、 $r_{0}$ 、 $r_{1}$ とする。潜在アウトカムが背景変数 $X$ を条件とする治療 $Z$ とは独立である場合、治療の割り当ては「強く無視可能である」とされる。 Strongly ignorable treatment assignment (SITA) は、以下のように簡潔に記載することができる。

r_{0},r_{1}\perp Z\,|\,X

ここで、 $\perp$ は統計的独立性を示す ^[1]。

バランシングスコア

バランシングスコア（balancing score） $b(X)$ は観測された共変量 $X$ の関数であり、 $b(X)$ に対する $X$ の条件付き分布は、処置群の被験者（ $Z=1$ ）とコントロール群の被験者（ $Z=0$ ）とで等しい。

Z\perp X\,|\,b(X)

最もシンプルな関数は $b(X)=X$ である。

傾向スコア

傾向スコアは、所与の観察値に応じて、被験者（人、教室、学校など）が特定の処置に割り当てられる確率を示す。傾向スコアは、これらの共変量に基づき処置群とコントロール群とを均質化して、選択バイアスを減らすために用いられる。

2 値変数の処置指標 $Z$ 、応答変数 $r$ 、およびバックグラウンドで観測された共変量 $X$ があるとする。傾向スコアは、バックグラウンド変数に対する処置の条件付き確率として定義される。

e(x)\ {\stackrel {\mathrm {def} }{=}}\ \Pr(Z=1\mid X=x)

主な定理

1983年、ポール・ローゼンバウムとドナルド・ルービンが下記内容を示した ^[1]

傾向スコア $e(x)$ はバランシングスコアである。
関数 $f$ $f$ を用いて $e(X)=f(b(X))$ $e(X)=f(b(X))$ と表されるような、傾向スコア $e(X)$ $e(X)$ よりも細かい（finer）スコア $b(X)$ $b(X)$ は、バランシングスコアである。
- 最も粗い（coarsest）バランシングスコア関数は傾向スコアである。（多次元オブジェクト $X_{i}$ を 1 次元に変換する）
- 最も細かい（finest）バランシングスコア関数は $b(X)=X$ である。
任意の $X$ $X$ に対し、処置の割り付けが強く無視可能な場合は、次のようになる。
- 任意のバランシングスコア関数に対して、強く無視可能である。具体的には、任意の傾向スコアに対して $(r_{0},r_{1})\perp Z\mid e(X)$
- バランシングスコアの任意の値について、バランシングスコアの値が同じである被験者に基づく、標本中の処置群とコントロール群の平均の差 ${\bar {r}}_{1}-{\bar {r}}_{0}$ は、平均処置効果の不偏推定量 $E[r_{1}]-E[r_{0}]$ として機能する。
バランシングスコアの標本推定量を使用すると、 $X$ に関する標本の均衡が得られる。

十分統計量との関係

$Z$ の値を $X$ の分布に影響を与える母集団のパラメータと考えると、バランススコアは $Z$ の十分統計量として機能する。さらに、上記の定理は、 $Z$ を $X$ のパラメーターとして考える場合、傾向スコアは最小十分統計量であることを示している。最後に、 $X$ に対して処置割り付け $Z$ が強く無視可能な場合、傾向スコアは、同時分布 $(r_{0},r_{1})$ の最小十分統計量となる。

交絡変数の存在を検出するためのグラフィカルテスト

ジューディア・パールは、交絡変数の存在を検出する、バックドア基準と呼ばれる単純なグラフィカルテストが存在することを示した。治療の効果を推定するには、回帰する際に交絡変数として補正するか、交絡変数をマッチングすることによって、グラフ内の全てのバックドア経路をブロックすることが必要である ^[2]。

短所

傾向スコア・マッチングはモデルの「不均衡、非効率、モデル依存、バイアス」を増加させる場合があることが示され、Gary King によって他のマッチング方法に比して推奨されない、とされた ^[3]。マッチングの背後にある洞察は有効であっても、他のマッチング法が必要になる。また、傾向スコアには重み付けや二重ロバスト推定などマッチング以外の用途もある。

他のマッチング法と同様、傾向スコア・マッチングは観測データから平均処置効果を推定する。傾向スコア・マッチングが紹介された当初は、単一のスコアに対して共変量の線形結合を使用することにより、多数の観測値を失うことなく、多数の共変量について処置群とコントロール群を均衡させることができることが利点として挙げられた。処置群とコントロール群とが多くのの共変量において均衡している場合、「次元の呪い」を克服するために膨大な観測データが必要になる。すなわち、均衡させる共変量の項目を増やせば増やすほど、必要となる観測データが幾何級数的に増大する。

傾向スコア・マッチングの欠点の1つは、観測された（および観測可能な）共変量のみを考慮し、潜在的な変数は考慮しないことである。処置への割り付けとアウトカムに影響を与えるが観察できない要因は、マッチングでは考慮できない ^[4]。観測データのみをコントロールするため、マッチングしても潜在変数による隠れたバイアスが残る可能性がある ^[5]。

さらに、傾向スコア・マッチングでは、処置群とコントロール群とが十分に重なり合った、膨大な数の標本が必要である。

ジューディア・パールは、マッチングに関する一般的な懸念事項として、観測された変数に基づいてマッチングすることで、観測されていない交絡因子によるバイアスが表面化する可能性があると主張した。さらに、パールは、バイアスの低減は、処置、アウトカム、観察された共変量と観察されなかった共変量の間の定性的な因果関係をモデル化することによってのみ（漸近的に）保証できると主張した ^[6]。交絡は、実験者が独立変数と従属変数の間に観察された関係について、本来の因果関係以外の原因をコントロールできない場合に発生する。これをコントロールするためには、パールの「バックドア基準」を満たす必要がある ^[2]。

統計パッケージでの実装

R – 傾向スコアマッチングは MatchIt パッケージで利用することができるほか ^[7] ^[8]、手動で実装することもできる ^[9]。
SAS – PSMatchプロシージャおよび OneToManyMTCH マクロは、傾向スコアに基づいてマッチングする ^[10]。
Stata – ユーザー作成の psmatch2 コマンドなどが傾向スコア・マッチングを実装している ^[11] ^[12] 。Stataバージョン13以降では、組み込みの teffects psmatch コマンドも提供されている ^[13]。
SPSS – IBM SPSS Statistics の「傾向スコアによる一致」で傾向スコア・マッチングのダイアログボックスが開き、「適合の許容」、「完全一致を優先」、「実行パフォーマンスを最大化」、「一致の抽出時にケース順序をランダム化」「乱数のシード」などの設定が可能である。FUZZY Python プロシージャは、拡張機能ダイアログボックスからソフトウェアの拡張機能として追加することもできる。このプロシージャは、指定されたキー変数のセットに基づいて、コントロール群からの無作為抽出を利用して、処置群とコントロール群とをマッチングする。 FUZZYコマンドは、完全一致とあいまい一致をサポートする。

書籍

星野崇宏(2009)『調査観察データの統計科学―因果推論・選択バイアス・データ融合 (シリーズ確率と情報の科学)』岩波書店

脚注

^ ^a ^b ^c ^d Rosenbaum, Paul R.; Rubin, Donald B. (1983). “The Central Role of the Propensity Score in Observational Studies for Causal Effects”. Biometrika 70 (1): 41–55. doi:10.1093/biomet/70.1.41.
^ ^a ^b Pearl, J. (2000). Causality: Models, Reasoning, and Inference. New York: Cambridge University Press. ISBN 978-0-521-77362-1
^ King, Gary; Nielsen, Richard (2019-05-07). “Why Propensity Scores Should Not Be Used for Matching”. Political Analysis 27 (4): 435–454. doi:10.1017/pan.2019.11. ISSN 1047-1987. | link to the full article (from the author's homepage)
^ “Methods for Constructing and Assessing Propensity Scores”. Health Services Research 49 (5): 1701–20. (2014). doi:10.1111/1475-6773.12182. PMC 4213057. PMID 24779867.
^ Shadish, W. R.; Cook, T. D.; Campbell, D. T. (2002). Experimental and Quasi-experimental Designs for Generalized Causal Inference. Boston: Houghton Mifflin. ISBN 978-0-395-61556-0
^ Pearl, J. (2009). “Understanding propensity scores”. Causality: Models, Reasoning, and Inference (Second ed.). New York: Cambridge University Press. ISBN 978-0-521-89560-6
^ Ho, Daniel; Imai, Kosuke; King, Gary; Stuart, Elizabeth (2007). “Matching as Nonparametric Preprocessing for Reducing Model Dependence in Parametric Causal Inference”. Political Analysis 15 (3): 199–236. doi:10.1093/pan/mpl013.
^ “MatchIt: Nonparametric Preprocessing for Parametric Causal Inference”. R Project. 2020年12月30日閲覧。
^ Gelman, Andrew; Hill, Jennifer (2007). Data Analysis Using Regression and Multilevel/Hierarchical Models. New York: Cambridge University Press. pp. 206–212. ISBN 978-0-521-68689-1
^ Parsons. “Performing a 1:N Case-Control Match on Propensity Score”. SAS Institute. June 10, 2016閲覧。
^ Implementing Propensity Score Matching Estimators with STATA. Lecture notes 2001
^ Leuven, E.; Sianesi, B. (2003). PSMATCH2: Stata module to perform full Mahalanobis and propensity score matching, common support graphing, and covariate imbalance testing.
^ “teffects psmatch — Propensity-score matching”. Stata Manual. 2020年12月30日閲覧。

参考文献

Abadie, Alberto; Imbens, Guido W. (2006). “Large Sample Properties of Matching Estimators for Average Treatment Effects”. Econometrica 74 (1): 235–267. doi:10.1111/j.1468-0262.2006.00655.x.
Leite, Walter L. (2017). Practical Propensity Score Methods using R. Washington, DC: Sage Publications. ISBN 978-1-4522-8888-8

外部リンク

[Rosenbaum_1983_41–55-1] Rosenbaum, Paul R.; Rubin, Donald B. (1983). “The Central Role of the Propensity Score in Observational Studies for Causal Effects”. Biometrika 70 (1): 41–55. doi:10.1093/biomet/70.1.41.

[pearl-2] Pearl, J. (2000). Causality: Models, Reasoning, and Inference. New York: Cambridge University Press. ISBN 978-0-521-77362-1

[3] King, Gary; Nielsen, Richard (2019-05-07). “Why Propensity Scores Should Not Be Used for Matching”. Political Analysis 27 (4): 435–454. doi:10.1017/pan.2019.11. ISSN 1047-1987. | link to the full article (from the author's homepage)

[4] “Methods for Constructing and Assessing Propensity Scores”. Health Services Research 49 (5): 1701–20. (2014). doi:10.1111/1475-6773.12182. PMC 4213057. PMID 24779867.

[5] Shadish, W. R.; Cook, T. D.; Campbell, D. T. (2002). Experimental and Quasi-experimental Designs for Generalized Causal Inference. Boston: Houghton Mifflin. ISBN 978-0-395-61556-0

[pearl:ch11-3-5-6] Pearl, J. (2009). “Understanding propensity scores”. Causality: Models, Reasoning, and Inference (Second ed.). New York: Cambridge University Press. ISBN 978-0-521-89560-6

[7] Ho, Daniel; Imai, Kosuke; King, Gary; Stuart, Elizabeth (2007). “Matching as Nonparametric Preprocessing for Reducing Model Dependence in Parametric Causal Inference”. Political Analysis 15 (3): 199–236. doi:10.1093/pan/mpl013.

[8] “MatchIt: Nonparametric Preprocessing for Parametric Causal Inference”. R Project. 2020年12月30日閲覧。

[9] Gelman, Andrew; Hill, Jennifer (2007). Data Analysis Using Regression and Multilevel/Hierarchical Models. New York: Cambridge University Press. pp. 206–212. ISBN 978-0-521-68689-1

[10] Parsons. “Performing a 1:N Case-Control Match on Propensity Score”. SAS Institute. June 10, 2016閲覧。

[11] Implementing Propensity Score Matching Estimators with STATA. Lecture notes 2001

[12] Leuven, E.; Sianesi, B. (2003). PSMATCH2: Stata module to perform full Mahalanobis and propensity score matching, common support graphing, and covariate imbalance testing.

[13] “teffects psmatch — Propensity-score matching”. Stata Manual. 2020年12月30日閲覧。

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

概要