分類 (統計学)

分類（ぶんるい、英: classification）や統計的分類や統計的識別とは、統計学において、データを複数のクラス（グループ）に分類すること。2つのクラスに分ける事を二項分類や二値分類、多数のクラスに分ける事を多クラス分類という。Y = f(X) というモデルを適用する際に、Y が離散であれば分類、連続値であれば回帰である。

個体をクラス分けする統計的手続きの一つであり、分類対象に固有な1つ以上の特性についての数値化された情報に基づいて実施される。このとき、事前にラベル付けされた訓練例（英: training set）を用いる。

形式的に表すと、次のようになる。訓練データ $\{(\mathbf {x_{1}} ,y_{1}),\dots ,(\mathbf {x_{n}} ,y_{n})\}$ から、オブジェクト $\mathbf {x} \in {\mathcal {X}}$ から分類ラベル $\mathbf {y} \in {\mathcal {Y}}$ へマップする分類器（英: classifier、識別器とも） $h:{\mathcal {X}}\rightarrow {\mathcal {Y}}$ を生成するのが統計分類である。例えば、スパムのフィルタリングをする場合、 $\mathbf {x_{i}}$ は具体的な電子メールの例であり、 $y$ は "Spam" か "Non-Spam" のどちらかである。

統計的分類アルゴリズムは主にパターン認識システムなどで使われる。

注: 群集生態学で言う「分類; classification」という用語は、一般に（たとえば機械学習で）データ・クラスタリングと呼ばれているものと同じものを指す。詳しくは教師なし学習などを参照されたい。

技法

分類手法は多数存在するが、それらは3つの相互に関連する数学的問題のいずれかを解決する。

第一の問題は、特徴空間（一般に多次元のベクトル空間）からラベルの集合への写像を求める問題である。これは、特徴空間を領域分割して、各領域にラベルを割り当てるのと同じである。このようなアルゴリズム（例えばk近傍法）は事後処理を行わないとクラス確率を生成できないのが一般的である。この問題を解く別のアルゴリズムとしては、特徴空間への教師なしクラスタリングの適用をし、次いで各クラスターまたは領域にラベルを付ける。

第二の問題は、統計分類を一種の予測問題とみなし、以下のような形式の関数を予測することを目標とするものとみなす。

P({\rm {class}}|{\vec {x}})=f\left({\vec {x}};{\vec {\theta }}\right)

ここで、特徴ベクトル入力が ${\vec {x}}$ であり、関数 f は一般に ${\vec {\theta }}$ の一部によってパラメータ化される。この問題のベイズ推定的アプローチでは、唯一のパラメータベクトル ${\vec {\theta }}$ を選ぶのではなく、考えられる全てのθの積分が結果となり、各θが訓練データ D によって与えられる確率で重み付けされる。

P({\rm {class}}|{\vec {x}})=\int f\left({\vec {x}};{\vec {\theta }}\right)P({\vec {\theta }}|D)d{\vec {\theta }}

第二の問題とも関連するが、第三の問題は条件付き確率 $P({\vec {x}}|{\rm {class}})$ を推測する問題であり、それに第二の問題のようにクラス確率を生成するためにベイズの定理を利用する。

主な統計分類アルゴリズム:

線形分類器
- フィッシャーの線形判別分析
- ロジスティック回帰
- 単純ベイズ分類器
- 単純パーセプトロン
- 線形サポートベクターマシン
二次分類器
- 二次判別分析
その他、非線形など

問題の性質（分類すべきデータ）と各種分類アルゴリズム（分類器）の性能の関係は、未だ解決されていない興味深い問題である。Van der Walt と Barnard（参考文献参照）は特定の人工的なデータ群を使って、どの分類器がよい性能を示すかを研究した。

分類器の性能は分類すべきデータの特性に大きく依存する。あらゆる問題について最高の性能を示す分類器は存在しない（ノーフリーランチ定理と同様の現象である）。分類器の性能を比較し、データの特性を特定するために各種実験的検証を実施して分類器の性能を決定する。ただし、ある問題に適した分類器を特定する手法は科学というよりも技能である。

評価手法

→詳細は「交差検証」を参照

判別式の妥当性は、誤判別率などで評価できる。適した変数選択と判別方法にもとづいて分析することが必要であり、判別式（のみならず変数選択)の妥当性を検証する手法として、元のデータから1つだけ外して判別（モデル）式を得、外したデータを新たなデータとして適用した際に妥当な結果が得られるかを検証する、1つとって置き法(英: leave-1-out)などが一般に用いられる。

例

入試を具体例に取ると、個々の受験生は、各群に属する個々の入試得点により、合格・不合格という2群に分けられる。学校側で明確な基準を設ける場合、たとえば英語で100点満点中70点を合否ラインにした場合、生徒の合否は得点が70点を境に分かれることとなるが、合否基準が非公開な場合や、その年度によって、合格者の平均点も変動することは周知である。

このような教師データが存在する場合（予備校などでは自己採点結果などから、相当に精度の高い標本を有しており、これを教師データとして扱うことは相応に妥当と考えられる）、統計分類により、過去の受験生の点数実績と合格実績から、合否の基準を計算によって求めることができる。

応用分野

参考文献

C.M. van der Walt and E. Barnard,“Data characteristics that determine classifier performance”, in Proceedings of the Sixteenth Annual Symposium of the Pattern Recognition Association of South Africa, pp.160-165, 2006.

外部リンク

Classifier showdown 分類アルゴリズムの実用的な比較

技法

評価手法

例

応用分野

参考文献

関連項目

外部リンク