項目応答理論

項目応答理論（こうもくおうとうりろん）または項目反応理論（こうもくはんのうりろん）、略称IRT (Item Response Theory; Item Latent Theory) は、評価項目群への応答に基づいて、被験者の特性（認識能力、物理的能力、技術、知識、態度、人格特徴等）や、評価項目の難易度・識別力を測定するための試験理論である。この理論の主な特徴は、個人の能力値を測るだけでなく、項目（問題）の難易度・識別力・当て推量といった変数を、評価項目の正誤といった離散的な結果から確率論的に求める点である。

IRTでは、能力値や難易度のパラメータを推定し、データがモデルにどれくらい適合しているかを確かめ、評価項目の適切さを吟味することができる。従って、試験を開発・洗練させ、試験項目のストックを保守し、複数の試験の難易度を同等と見なす（例えば異なる時期に行われた試験の結果の比較をする）ためにIRTは有用である。また、コンピュータ適応型テスト (CAT:Computerized Adaptive Testing) もIRTによって可能になる。

より古典的テスト理論（正答率、素点方式、偏差値方式）と比べると、IRTは、試験者が評価項目の信頼性の改善に役に立つ情報を提供し得る、標本（受験者）依存性・テスト依存性にとらわれずに不変的に受験者の能力値とテスト項目の難易度を求められる、という利点がある。

概要

例として、4択問題100問、配点が1問につき10点（1000点満点）で構成されるテストを考える。この場合、以下の問題が発生しうる。

全問完全にランダムに回答した場合でも、25問は正解（250点は獲得）することが期待される。このように、回答の際の運による要素を多分に含んでおり、実力を正しく測れない。
得られた点数から計れる受験者の能力は集団やテストの内容に依存する。
項目（問題）の特性と受験者の能力との関係は、項目（問題）ごとの正答率・素点だけでは評価できない。
得られた点数や平均点等の各値は、項目（問題）の難易度などの特性に依存する。そのため、出題される項目（問題）が違うテスト間において、得られた点数や平均点などを直接比較することはできない。
このような、正答率や総得点による受験者の評価を、古典的テスト理論（Classical Test Theory）、あるいは素点方式という。

項目応答理論は、運による要素や評価の相対性といった性質をもつ古典的テスト理論の限界を解消し、より科学的な手法で受験者の実力をより正確に測ろうとする理論である。項目応答理論では、個々の項目（問題）に対して、正答率や配点では無く、後述する数学的な仮説やパラメータを用い、受験者の能力を推定する。

これにより、以下のメリットを得られる。

識別力が著しく低い問題の正誤は、受験者の能力を決めるのにほとんど影響を持たないため、実質的に能力の推定や集計対象から除外する事ができる。
ある項目（問題）群が相互に関係しており、一定の能力があれば全問正解できるにもかかわらず、1問しか正解しなかった場合、その正解は当て推量であり、受験者の実力によるものではない結果であることを推定できる。
受験者の能力や項目（問題）の難易度を、テストの難易度や受験者の集団に依存する事なく、普遍的に推定できる。
ある点数以上を取れば合格とする（実際の点数の多寡は関係ない）テストにおいて、その信頼性を担保できる。
同じ正答率・得点を得た受験者同士でも、能力値は違う結果になり、受験者の特性を評価できる。

IRTモデル

一般的なモデルでは、項目への離散的な応答（正誤など）の確率が、1つの能力値と1つ以上の項目パラメータによる関数であるという数学的な仮説に基づいている。用いられる変数は以下の通りである。

${\theta }$ ：能力値: 各受験者の特性の大きさを表す実数値。正答率や総得点とは違い、間隔尺度である。
$a_{i}$ ：識別力: 項目（問題）iが受験者の能力を識別する力を表す実数値である。
$b_{i}$ ：難易度（困難度）: 項目（問題）iの難しさを表す実数値。一般的には各項目に50％の正答率を持つ被験者の能力値 ${\theta }$ である。
$c_{i}$ ：当て推量: 項目（問題）iに受験者が偶然に正答できる確率を表す実数値である。

IRTでは、各項目（問題）に対し、受験者の能力値と、項目（問題）の正答率の関係を、ロジスティック曲線で表す。これを項目特性曲線という。例えば、あるテストにおいて、ある項目（問題）が被験者にとって非常に簡単であった場合、その正答率は限りなく1に近づき、逆にある項目（問題）が被験者にとって非常に難しいものであった場合、その正答率は限りなく0（パラメータcを用いる場合は $c_{i}$ ）に近づく。

最も簡単な1パラメータロジスティック (1PL) モデル（ラッシュモデルとも呼ばれる）では、変数に ${\theta }$ と $b_{i}$ のみを用いる。しかし適用のための条件は厳しくなっている。このモデルでは、項目（問題）iに正答する確率は次の式で与えられる。

$p_{i}({\theta })={\frac {1}{1+e^{-({\theta }-b_{i})}}}$

2パラメータロジスティック(2PL)モデルでは、さらに $a_{i}$ を用いる。 $a_{i}$ は、その項目（問題）への回答の正誤から、能力値の高低を識別する正確さを示している。このモデルでは、ある項目（問題）iに正答する確率は次の式で与えられる。　　

$p_{i}({\theta })={\frac {1}{1+e^{-Da_{i}({\theta }-b_{i})}}}$

ここで、定数Dは1.701という値で、ロジスティック関数を累積正規分布関数に近似するためのもので、確率が関数の定義域（一般的に-3 - 3）内で0.01以上異ならないようになっている。なお、IRTモデルは当初は普通の累積正規分布関数が用いられたが、このように近似されたロジスティックモデルを使うことで、大きく計算を単純化することができた。

3パラメータロジスティック(3PL)モデルでは、多肢選択形式の場合において、適当に選択肢を選択しても偶然正答する確率 $c_{i}$ （当て推量ともいう）を考慮に入れ、項目iに正答する確率は次の式で与えられる。

$p_{i}({\theta })=c_{i}+{\frac {(1-c_{i})}{1+e^{-Da_{i}({\theta }-b_{i})}}}$

人パラメータは被験者の評価の対象となっている1次元的な特性の大きさを表す。この特性は因子分析の1つの因子に類似している。また、個々の項目や人は相互に独立であり、集合的に直交であると仮定されている。すなわち、ある項目の正誤は他の項目の正誤に影響せず、ある人の正誤は他の人の正誤に影響しないという仮定を置いている。

項目パラメータは、ある項目の性質を示す。項目パラメータが定まると、受験者がその項目に正答する確率 $p_{i}$ は各受験者の能力 ${\theta }$ の1変数のみを持つ関数になり、縦軸に正答率、横軸に能力値としたグラフが描ける。このグラフは項目特性曲線 (ICC; item characteristic curve) と呼ばれる。パラメータbは項目の難しさであり、この値は人パラメータと同じスケール上にある。パラメータaは項目特性曲線の傾きを決定し、その項目が個人の特性の水準を識別する程度を示す。曲線の傾きが大きいほど、項目の難しさと人の特性の大きさに差があるときに回答の正誤がくっきり分かれることを示す。最後のパラメータcは、項目特性曲線の負の側の漸近線である。すなわち、これは非常に低い能力を持つ人がこの項目に偶然正答する確率を示す。

各項目は互いに独立であるという前提を置いているので、テスト全体の特性を表すモデルを、すべての項目特性曲線を足すことで求めることができる。これをテスト特性曲線という。

$T({\theta })=\sum _{i=1}^{N}p_{i}({\theta })$

試験のスコアはこのテスト特性曲線によって求められる。テスト特性曲線は ${\theta }$ の関数であり、 $T({\theta })$ の値を受験者のスコアとする。よって、IRTによるスコアは従来の方法によるスコアと比べ、計算・解釈において非常に異なっている。しかし、ほとんどのテストにおいて、値 ${\theta }$ と従来のスコアとの（線形）相関関係は非常に高い（.95以上になることが多い）。したがって、従来のスコアに比べ、IRTのスコアのグラフは累積度数分布曲線の形に近くなる。

ここまでで示したモデルでは、1次元的な特性と、項目に対する正解・不正解のような2値のいずれかの応答を前提としていた。しかし、多値ラッシュモデルのように多値（例えば0:全く誤り 1:ほとんど誤り 2:概ね正しい 3:完全に正しい、の4値）をとるように拡張されたモデルや、多次元的な特性を仮定したモデルも存在する。

パラメータの推定

以上では ${\theta }$ 、 $a_{i}$ 、 $b_{i}$ 、 $c_{i}$ の各パラメータが存在するものとして考えてきたが、それぞれの真の値は一般的に未知である。よって、離散的な回答からそれぞれの値を推定することもIRTにおける重要な問題である。その推定方法としては、最尤推定法、ベイズ推定法などが知られている。

情報関数

IRTの主な知見の1つは信頼性の概念を拡張したことである。伝統的に、信頼性とは測定の精度を示すものであり、真のスコアと観察されたスコアの誤差の比率など、様々な方法で定義される単一の指標であらわされる。古典的なテスト理論では、クロンバックのα係数（英語版）などがテスト全体としての信頼性の指標を表すものとして知られている。しかしIRTによると、評価の精度はテストの成績の全範囲にわたって均一ではないことが明らかになる。一般的に、試験点数の範囲の端のスコアは、中央に近いスコアより多くの誤差を含んでいる。

IRTでは、項目・テストのそれぞれについて、信頼性の概念を置き換える情報関数 (Information Function) という概念が用いられる。例えばフィッシャーの情報理論に従って、ラッシュモデルの場合には、項目情報関数は単純に正しい応答の確率と不正確な応答の確率の積で与えられる。すなわち、不正確な応答の確率を $q_{i}({\theta })=1-p_{i}({\theta })$ で表すと、以下の式で与えられる。

$I({\theta })=p_{i}({\theta })q_{i}({\theta })$

推定の標準誤差はテスト情報の逆数である。すなわち以下の式で表される。

${\mbox{SE}}({\theta })=1/{\sqrt {I({\theta })}}$

従って、情報量が多いほど、測定の間違いがより少ない（被験者の能力の推定がより正確である）ことを意味する。

2PL、3PLモデルでもほぼ同様であるが、他のパラメータも考慮に入る。2PL、3PLモデルのための項目情報関数はそれぞれ以下の式で表される。

$I({\theta })=a_{i}^{2}p_{i}({\theta })q_{i}({\theta })$

$I({\theta })=a_{i}^{2}{\frac {q_{i}({\theta })}{p_{i}({\theta })}}{\frac {(p_{i}({\theta })-c_{i})^{2}}{(1-c_{i})^{2}}}$

各項目は互いに独立であるという前提を置いているので、項目情報関数は加法的である。テスト情報関数は単純にその試験における各項目の項目情報関数の和で求められる。テスト情報関数は、古典的なテスト理論における信頼性の概念を置き換えるものになる。

この性質を用いて、テスト項目の適切性に理論的根拠を与えることや、ある目的に特化したテストを作ることが可能になる。例えば、ある合格基準点を超えるか超えないかのみで合格・不合格が結果として与えられる（実際の合格点は重要でない）テストを作るのに有効なのは、合格基準点の近くで大きい情報が得られる項目だけを集めてテストを作ることである。また、コンピュータ適応型テストのように、ある時点での回答状況に応じて受験者の能力値を推定し、次にその受験者の能力値周辺で大きな情報が得られる問題を出題するということも可能になる。

等化

等化 (equating) とは、異なったテストの結果、異なった受験者に対してのテストの結果を、項目パラメータや被験者能力値に関係なく、共通の原点と単位をもつ尺度に変換することである。等化には、水平的等化、垂直的等化の2種類がある。

水平的等化 (horizontal equating): 同一の能力水準に対して複数のテストの難易度間に共通の尺度を設定すること
垂直的等化 (vertical equating): 異なった難易度のテスト間に異なった尺度を設定すること

古典的なテスト理論においては、テスト依存性や受験者依存性がつきまとうので等化を実現することは困難であった。しかしIRTによる項目パラメータは不変的であり、理論的には等化の必要はない。しかし、実際には一定の定数によって、2つのテストの得点を同一尺度上に変換することがよく行われる。この手続きは以下の式で行われる。

${\theta }'={\alpha }{\theta }+{\beta }$