スレットスコア
スレットスコア (Threat Score, TS) とは、稀な現象・事象を2値のカテゴリで予報・推定する手法についてその性能を評価する指標の1つである。天気予報などの分野で主に用いられ、Critical Success Index (CSI, 重要成功指数) と呼ばれることもある。
解説
[編集]例えば年間360日以上晴れている地域では、人工衛星やスーパーコンピューターなどを用いなくても常に晴れの予報を出しておけば適中率は99%近くなる。しかしこの場合に価値があるのは、この地域では稀な現象である降雨を予報し適中することであるため、適中率という指標では予報手法の性能や価値を評価できない。このような場合、稀な事象を適中させる性能を評価する指標の1つとしてスレットスコアが用いられる。
スレットスコアは、情報検索技術の性能評価に用いられるF値 (F-score, F-measure) と類似した指標であり、統計学における第一種及び第二種過誤の考え方に基づいている。
定義
[編集]ある事象を2値のカテゴリ(発生する/発生しない、有る/無い、等)で予報・推定し、実際の結果・状態との関係を見た場合に、その件数を以下の様な分割表で表す。
実況、実際の結果、実際の状態 (Observation, Results) | |||
---|---|---|---|
発生した、有った | 発生しなかった、無かった | ||
稀な事象に対する 予報、推定 (Forecast, Estimate) |
発生する、有る (Positive, 陽性) |
TP 真陽性 (True Positive) 稀な事象を適中した重要な正解 (hits) |
FP 偽陽性 (False Positive) 第一種過誤 (type-I error) 空振り,誤警報 (false alarms) |
発生しない、無い (Negative, 陰性) |
FN 偽陰性 (False Negative) 第二種過誤 (type-II error) 見逃し (misses) |
TN 真陰性 (True Negative) ありふれた事象を適中した正解 |
以下の数式では、TP, FP, FN, TN がそれぞれ TP, FP, FN, TN の件数を表す。
通常の意味での正解率(Accuracy、精度とも)は以下の様に定義される。
しかし、稀な事象を扱う場合は TN が非常に大きな値になるため、注目すべき TP や FP, FN の値が変わっても適中率はほとんど変化しない。そのため稀な事象の予報手法の評価には適していない。
一方、スレットスコア[1]又は CSI は以下の様に TN を無視して定義される。スレットスコアが高い方が稀な事象を適中する性能が高いと評価できる。 前述の「ほとんど晴れている地域で常に晴れの予報を出す」という手法は常に TP=FP=0 であるためスレットスコアが0であり、価値が無い手法であることが示される。
情報検索や機械学習の分野で用いられるF値という指標は、適合率 (Precision = TP/(TP+FP)) と、再現率 (Recall = TP/(TP+FN)) という2つの指標の調和平均として定義されており、式変形すると以下のようにスレットスコアとよく似ていることが分かる。形式上の違いは分母の FP+FN を2で割るかどうかである。ちなみに天気予報の分野では、適合率は False Alarm Ratio (FAR)、再現率は Probability Of Detection (POD) と呼ばれる[1]ことがある。
スレットスコアは、常に 0~1 の値をとる。空振り(FP)と見逃し(FN)を同時に0にできればスレットスコアが1になり、最高の性能であることが示される。しかしこれは通常かなり困難であり、FP と FN はトレードオフの関係にあることが多い。予報・推定手法に調整可能なパラメータが含まれている場合は、これを調整して FP=FN をねらう、又は FN を小さくして見逃しを減らすなど、目的に応じた手法の最適化を行う。これは TP+FP と TP+FN の比であるバイアススコア[1]、又は適合率と再現率の重み付き調和平均である一般化されたF値を用いると分かりやすい。
天気予報の分野においては、他にも多くの指標が用いられている[1][2]。
注釈
[編集]参考文献
[編集]- 立平良三『気象予報による意思決定-不確実情報の経済価値-』東京堂出版、1999年。ISBN 449020387X。
- Ferreira, C.; Gama, J.; Matias, L.; Botterud, A.; Wang, J. (2010), “A Survey on Wind Power Ramp Forecasting”, Argonne National Lab., Decision and Information Sciences Div. ANL/DIS-10-13.