欠測データ

欠測データ（けっそくデータ、英語:missing data）または欠測値（けっそくち、英語:missing values）は、観測において、変数に値が格納されないときに発生する。欠損データ、欠落データなどとも訳される。データの欠測はよくあることであり、データから引き出す結論に甚大な影響を与える場合がある。

概要

無回答は、対象の一つ以上の項目について情報が全く得られないことを意味し、欠測の原因となる。例えば、収入などのプライベートな項目は、無回答となりやすい。

漸減は、縦断的研究における欠測の原因となる。例えば、一定期間後に測定が繰り返される発達の研究では、テストが終了する前に参加者が脱落することで欠測となる。

経済学、社会学、政治学の研究では、政府や民間団体が重要な統計を報告しないことを選択した、報告できなかった、情報が得られなかった、などの理由から、データが欠落していることがよくある。データ収集が不適切だった、データ入力に誤りがあった、など、研究者が欠測値を引き起こすこともある。 ^[1]

これらの欠落の形式にはさまざまなタイプがあり、研究からの結論の妥当性にさまざまな影響を与える。欠測データは打ち切りデータと同様に処理することができる。

欠測の種類

データが欠落している理由を理解することは、残りのデータを正しく処理するために重要である。欠測が完全にランダムである場合、標本は母集団を表しているといえる。ただし、値が体系的に欠落している場合は、分析にバイアスがかかる可能性がある。たとえば、IQと収入の関係の調査で、IQ の高い参加者に収入を答えない傾向があった場合、この欠損値のタイプ（MAR として以下に記述）を念頭に置かなければ、IQと給与の間の正の相関を見逃してしまう可能性がある。こうしたことから、方法論者は、欠測値の発生を最小限に抑えるための研究を設計するように研究者に日常的にアドバイスしている。 ^[1]

図を使用して、欠損データメカニズムを詳細に説明することができる。 ^[2]

MCAR

完全にランダムな欠測（missing completely at random, MCAR）は、特定のデータ項目が失われる原因となるイベントが、観察可能か不可能かに関わらず全ての変数に依存せず、完全にランダムに発生する場合を指す ^[3] 。 MCAR であれば、無作為抽出した標本に相当し、バイアスのない解析が可能となるが、実際に MCAR であることは稀である。

MAR

ランダムな欠測（missing at random, MAR）は、欠測が完全にはランダムではないが、欠失のない変数を用いて欠落を完全に説明できる場合を指す。 MAR は統計的に検証することが不可能な仮定であり、合理的に仮定する必要がある。

MNAR

ランダムではない欠測（missing not at random, MNAR）は、無視できない無回答とも呼ばれ、MCAR にも MAR にも該当しない場合を意味する。すなわち、欠落している変数の値は欠落している理由に関連している ^[3] 。

例

「男性がうつ病調査に記入する可能性は低い」「男性の方がうつ病の重症度が高い」という事象を仮定すると、うつ病の重症度が高い方が（男性の可能性が高いので）欠測率が高くなることが想定され、MCAR にはならない。

ここで、「性別で層別化するとうつ病の重症度と欠測率とに関連がみられない」という事象が確認された場合、MAR とみなされる。

一方で、「性別で層別化してもうつ病の重症度と欠測率とに関連がみられる」という事象が確認された場合、「うつ病が重症すぎるからうつ病調査に記入できない」といった因果関係を想定すると、うつ病の重症度が欠測している以上、MNAR となる。

欠測データを処理する手法

欠測データによって、標本の代表性が低下するため、母集団に関する推論を歪める可能性がある。一般的に、欠測データを処理するには3つの主要なアプローチがある。(1) 代入法 - 欠測データの代わりに値を代入する (2) 欠落 - 無効なデータを含むサンプルが以降の分析から破棄される (3) 解析法 - 欠測データの影響を受けない手法を直接適用する。

実験者は欠測の程度を制御し、データ収集前に欠測値を防ぐことができる場合がある。コンピュータのアンケートでは、質問に答えないと次へ進むことができないようにすることが多い。こうしたアンケートにより参加者に起因する欠測値を排除することができるが、研究を監督する倫理委員会によって許可されない場合もある。調査研究では、対象となる個々人に連絡するため手を尽くすことが一般的であり、参加しない人に手紙を郵送して考えを変えるように説得する。ただし、説得に応じる人たちと応じない人たちとでは背景が大きく異なる場合があるため、欠測データの影響をかえって増やしてしまう可能性もある。

欠測値が発生する可能性が高い状況では、研究者はしばしば、欠測に対して堅牢なデータ分析手法を用いた研究計画を立てるようにアドバイスされる。手法の主要な仮定に対する軽度から中程度の違反によって生じる偏りや結論の歪みがあってもわずかである場合、分析は堅牢であるといえる。

代入法 Imputation

→詳細は「代入法 (統計学)」を参照

欠測に対して堅牢ではないデータ解析手法に対しては、欠測データを「埋める」、すなわち代入する必要がある。欠測値に対して単一の値を代入する単一代入法（simple imputation）と、複数の値を代入する多重代入法（multiple imputation）とが知られている。

Rubin は、5回以下であっても、代入を繰り返すことで推定の質が大幅に向上すると主張した^[1]。実用上、2、3回の代入だけでも、多数回の代入と同等の効果が得られる。ただし、代入の回数が少なすぎると、統計的検出力が大幅に失われる可能性があり、20〜100回以上の代入を推奨している学者もいる。多重代入法を用いた場合は代入したデータセットごとに解析を繰り返す必要があり、その解析結果を統合するのには複雑な手法が必要となる場合もある。

期待値最大化アルゴリズムは、完全なデータセットが利用可能である場合に計算される統計量が、欠測データのパターンを考慮して推定（代入）される手法であり、欠測値そのものは代入されない。

補間 Interpolation

数値解析の数学的分野では、補間は、既知のデータポイントの範囲内で新しいデータポイントを構築する方法である。

部分削除 Partial deletion

欠測値のないデータセットへと削減する手法には、次のものがある。

リストワイズ削除 / ケースワイズ削除
ペアワイズ削除

完全な分析 Full analysis

入手可能な情報を全て考慮する手法であり、代入された値を用いることによる歪みが生じない。

生成的アプローチ：
- 期待値最大化アルゴリズム
- 完全な情報の最尤推定
識別的アプローチ：
- 欠測データの最大マージン分類

部分的な識別方法も使用できる。

モデルベースの手法

モデルベースの手法では、多くの場合、グラフを使用して欠測データの種類（MCAR、MAR、MNAR）をテストし、欠測データ下でパラメータを推定するためのツールを提供する。

3つの変数 $X$ 、 $Y$ 、 $Z$ について、 $X$ と $Y$ のみに欠測値がある場合、欠測データの種類が MAR または MCAR となるためには、以下の条件を満たす必要がある。

X\perp \!\!\!\perp R_{y}\,|\,(R_{x},Z)

言い換えると、 $X$ の観測された部分は、 $Z$ のすべての値を条件として、 $Y$ の欠落ステータスに依存しないはずであり、この条件を満たすことができない場合は、欠測データの種類が MNAR であることを示している。これらのテストは、イベントベースの MAR とはわずかに異なる、変数ベースの MAR に必要とされる。

データが MNAR カテゴリに分類される場合でも、特定の条件がモデルに当てはまる場合、パラメータを一貫して推定するための手法を利用できる ^[2] 。たとえば、 $Y$ が $X$ の欠測の理由となり、 $Y$ 自体に欠測値がある場合、 $Y$ の欠測がランダムであるならば、 $X$ と $Y$ の同時確率分布を推定することができる。この場合の推定値は次のようになる。

{\begin{aligned}P(X,\,Y)&=P(X\,|\,Y)\,P(Y)\\&=P(X\,|\,Y,\,R_{x}=0,\,R_{y}=0)\,P(Y\,|\,R_{y}=0)\end{aligned}}

ここで、 $R_{x}=0$ と $R_{y}=0$ は、それぞれの変数の観測された部分を示す。

一貫した推定が可能であっても、モデル構造によって推定値も推定手順も異なる可能性がある。前述の推定では、まずは欠測のないデータから $P(X\,|\,Y)$ を推定し、 $X$ によらない $Y$ の確率である $P(Y)$ を乗じる必要がある。さらに、一貫した推定値を得るには、最初の項が $P(Y\,|\,X)$ ではなく $P(X\,|\,Y)$ である必要がある。

多くの場合、モデルベースの手法では、モデル構造に対して検証することができる。欠測値のある変数 $X$ と別の変数 $Y$ の欠測インジケーター $R_{y}$ との間の独立性を暗示するモデルでは、次の仮説を提示することができる。

X\perp \!\!\!\perp R_{y}\,|\,R_{x}=0

最後に、これらの手法から得られる推定値は閉じた形式で導出され、局所最適化の影響を受けやすい期待値最大化などの反復手順を必要としない。

欠測率が時間に依存する場合、特別な問題が発生する。たとえば、外傷データベースでは、外傷のアウトカムに関するデータの欠測率は、外傷後の経過日数によって異なる。こうした場合、さまざまな非定常マルコフ連鎖モデルが適用される。

脚注

[脚注の使い方]

^ ^a ^b ^c Hand, David J.; Adèr, Herman J.; Mellenbergh, Gideon J. (2008). Advising on Research Methods: A Consultant's Companion. Huizen, Netherlands: Johannes van Kessel. pp. 305–332. ISBN 978-90-79418-01-5
^ ^a ^b Mohan, Karthika; Pearl, Judea; Tian, Jin (2013). Advances in Neural Information Processing Systems 26. pp. 1277–1285
^ ^a ^b Polit DF Beck CT (2012). Nursing Research: Generating and Assessing Evidence for Nursing Practice, 9th ed.. Philadelphia, USA: Wolters Klower Health, Lippincott Williams & Wilkins

外部リンク

背景

Missing values-envision
psychwiki.com: Missing Values, Identifying Missing Values, and Dealing with Missing Values
missingdata.org.uk, Department of Medical Statistics, London School of Hygiene & Tropical Medicine
Spatial and temporal Trend Analysis of Long Term rainfall records in data-poor catchments with missing data, a case study of Lower Shire floodplain in Malawi for the Period 1953–2010. https://www.hydrol-earth-syst-sci-discuss.net/hess-2017-601/hess-2017-601.pdf
R-miss-tastic, A unified platform for missing values methods and workflows.

ソフトウェア

Mplus
PROC MIおよびPROC MIANALYZE-SAS
SPSS
R
mice - 連鎖方程式による多重代入法（Multivariate Imputation by Chained Equations）を実行するための R のパッケージ

[AM_2008-1] Hand, David J.; Adèr, Herman J.; Mellenbergh, Gideon J. (2008). Advising on Research Methods: A Consultant's Companion. Huizen, Netherlands: Johannes van Kessel. pp. 305–332. ISBN 978-90-79418-01-5

[moh:13-2] Mohan, Karthika; Pearl, Judea; Tian, Jin (2013). Advances in Neural Information Processing Systems 26. pp. 1277–1285

[Polit-3] Polit DF Beck CT (2012). Nursing Research: Generating and Assessing Evidence for Nursing Practice, 9th ed.. Philadelphia, USA: Wolters Klower Health, Lippincott Williams & Wilkins

[1]

[2]

[3]