利用者:Tredirand/sandbox

ここはTredirandさんの利用者サンドボックスです。編集を試したり下書きを置いておいたりするための場所であり、百科事典の記事ではありません。ただし、公開の場ですので、許諾されていない文章の転載はご遠慮ください。

登録利用者は自分用の利用者サンドボックスを作成できます（サンドボックスを作成する、解説）。

機械学習（きかいがくしゅう、英: Machine Learning）とは、経験からの学習により自動で改善するコンピューターアルゴリズムもしくはその研究領域で^[1]^[2]、人工知能の一種であるとみなされている。「訓練データ」もしくは「学習データ」と呼ばれるデータを使って学習し、学習結果を使って何らかのタスクをこなす。例えば過去のスパムメールを訓練データとして用いて学習し、スパムフィルタリングというタスクをこなす、といった事が可能となる。

機械学習は以下の分野と密接に関係する：

計算統計学（英語版）：計算機を使った予測に焦点を当てた分野
数理最適化：定められた条件下における最適解の探索に焦点を当てた分野
データマイニング：教師なし学習（後述）における探索的データ解析に焦点を当てた分野^[4]^[5]

機械学習という名前は1959年にアーサー・サミュエルによって造語された^[6]。

概要

定義

論者により定義が異なるものの、トム・M・ミッチェルによる下記の簡潔な定義は広く引用されている：

A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E^[7]。
コンピュータプログラムがタスクのクラスTと性能指標Pに関し経験Eから学習するとは、T内のタスクのPで測った性能が経験Eにより改善される事を言う。 — トム・M・ミッチェル（英語版）

ここでタスクとは、プログラムが解くべき課題を指し、例えば売上予測タスクであれば「明日の売上を予測せよ」といったタスクである。

経験はなんらかのデータとしてプログラムに与えられる。このデータを訓練データもしくは学習データといい、売上予測タスクであれば例えば「過去の経験」である今日までの売上が訓練データとして与えられる。訓練データを使ってプログラムの性能を改善する過程を、「プログラムを訓練する」もしくは「プログラムを学習させる」という。またプログラムの訓練に用いられるデータ全体の集合を（訓練もしくは学習）データセット（データ集合とも）という。

最後に性能指標は、プログラムがタスクをどの程度の性能で達成したかを測る指標で、前述の売上予測タスクであれば、例えば実際の売上との誤差を性能指標として用いる事ができる。

変数の種類

機械学習では、データ $x$ が連続量であるとき、 $x$ を量的変数(quantitative variable)といい、「イヌ」、「ネコ」といった分類カテゴリのように物の種類を表す変数を質的変数(qualitative variable)という^[8]^[9]。質的変数はカテゴリ型変数(categorical variable)、因子(factor)とも呼ばれる^[9]。

量的変数、質的変数以外にも「大」「中」「小」のように順序づけられた離散値を取る順序付きカテゴリ型変数(ordered categorical variable)もある^[9]。また自然言語のように質的変数とは違い連続量ではなく、カテゴリ型変数と違い有限個のカテゴリに値を取るわけではないものも機械学習では取り扱う。

機械学習タスクの種類

機械学習のタスクは、以下の代表的な３種類のカテゴリーに分けられる。ただしこれらの３つで機械学習で扱う全てのタスクをカバーしているわけではないし、複数のカテゴリーに属するタスクや、どのカテゴリーに属するのか曖昧なタスクもある。

教師あり学習: 入力とそれに対応すべき出力（人間の専門家が訓練例にラベル付けすることで提供されることが多いのでラベルとも呼ばれる）を写像する関数を生成する。例えば、分類問題では入力ベクトルと出力に対応する分類で示される例を与えられ、それらを写像する関数を近似的に求める。
教師なし学習: 入力のみ（ラベルなしの例）からモデルを構築する。データマイニングも参照。
強化学習: 周囲の環境を観測することでどう行動すべきかを学習する。行動によって必ず環境に影響を及ぼし、環境から報酬という形でフィードバックを得ることで学習アルゴリズムのガイドとする。例えばQ学習がある。

教師あり学習

概要

教師あり学習（supervised learning）では、未知の確率分布 $p(\mathbf {x} ,\mathbf {y} )$ を対象にする。実応用上は何らかの意味で $x$ を入力、 $y$ を出力とみなせる事が多く、例えば $y$ は $x$ に未知の関数 $F$ を施した値 $F (x)$ に小さなノイズが載ったものである。アルゴリズムには、 $p(\mathbf {x} ,\mathbf {y} )$ に従う $x$ と $y$ の組 $(\mathbf {x} _{1},\mathbf {y} _{1}),\ldots ,(\mathbf {x} _{n},\mathbf {y} _{n})$ が訓練データとして与えられる。アルゴリズムが解くべきタスクは訓練データに属していない（かもしれない）データ $x$ に対し、条件付き確率分布 $p(\mathbf {y} \mid \mathbf {x} )$ ないしそこから決まる値（たとえば $p(\mathbf {y} \mid \mathbf {x} )$ の期待値）をよく近似することである^[10]。近似の精度は事前に定められた損失関数という関数を使って評価する。したがって損失関数の値の期待値を小さくする事が、教師あり機械学習の目標であると言える。

前述した機械学習の定義に沿って言えば、教師あり機械学習は以下のような機械学習であるといえる：


タスク	経験	性能指標
$p(\mathbf {y} \mid \mathbf {x} )$ ないしそこから決まる値をよく近似する事	訓練データ $(\mathbf {x} _{1},\mathbf {y} _{1}),\ldots ,(\mathbf {x} _{n},\mathbf {y} _{n})$	損失関数の期待値

教師あり学習では事前知識である $(\mathbf {x} _{1},\mathbf {y} _{1}),\ldots ,(\mathbf {x} _{n},\mathbf {y} _{n})$ から、未知の $x$ に対応する $y$ の分布 $p(\mathbf {y} \mid \mathbf {x} )$ を当てる事が求められる。このため、アルゴリズムが未知の $x$ から $p(\mathbf {y} \mid \mathbf {x} )$ （ないしそこから決まる値）を求める操作を汎化もしくは推論（inference）と呼ぶ。タスクによっては「予測」「判断」「認識」等と呼ばれる事もある。

アルゴリズムは未知のデータ $x$ から $x$ に対応する $y$ の分布の情報を推測する必要があるが、この推論の為に事前知識として与えられる訓練データには $x i$ から推論しなければならない $y i$ が「解答」としてついている。「教師あり学習」という名称は、このように既知の「問題」 $x i$ に対する「解答」 $y i$ を「教師」が教えてくれるというセッティングで「生徒」であるアルゴリズムが未知の「問題」 $x$ に対応する「解答」 $y$ を推論する事から名付けられたものである。同様の理由により、教師あり学習では訓練データの事を教師データとも呼ぶ。

訓練フェーズと汎化フェーズ

多くの教師あり機械学習のモデルでは、実際の汎化を行う前に訓練もしくは学習と呼ばれる作業が発生し、機械学習のモデルは「訓練アルゴリズム」と「汎化アルゴリズム」のペアとして捉える事ができる。訓練アルゴリズムは訓練データを入力として受け取り、パラメータと呼ばれる値 $θ$ を出力する。パラメータは直観的には訓練データから有用な情報を引き出した「学習結果」であり、汎化の際にはこの「学習結果」である $θ$ を使って汎化を行う。すなわち、汎化アルゴリズムは入力 $x$ の他にパラメータ $θ$ をも入力として受け取り、 $p(\mathbf {y} \mid \mathbf {x} )$ （ないしそこから決まる値）を求める。

変数の名称

教師あり機械学習において、変数 $x$ を説明変数(explanation variable)、 $y$ を目的変数、目標変数(target variable)、もしくは標的(target)と呼ぶ^[8]。これらは別の名称で呼ばれる事も多く、 $x$ を予測変数(predictor)、 $y$ を応答変数（response variable）と呼んだり^[9]、 $x$ を独立変数（independent variable）、 $y$ を従属変数(dependent variable)と呼んだりする事もある^[9]。またタスクによってはこれら以外の名称で呼ばれる事もある。

回帰と分類

教師あり学習に属する代表的なタスクとして回帰と分類がある。教師あり学習において、目的変数 $y$ が量的変数である場合を回帰(regression)、有限集合に値を取るカテゴリ型変数のである場合を分類(classification)もしくは判別と呼ぶ^[9]^[11]。

回帰

回帰の目標は入力 $x$ が与えられたとき、 $p(\mathbf {y} \mid \mathbf {x} )$ に関する情報を予想する事である。典型的には

\mathbf {y} =F(\mathbf {x} )+\mathbf {\varepsilon }

のように $y$ が未知の関数 $F$ の像 $F (x)$ にランダムなノイズ $ε$ を加えたデータであるケースにおいて、入力 $x$ から $y$ の可能な限り正確な予想値 ${\hat {\mathbf {y} }}$ を出力する事が求められる。なお回帰で扱う目的変数 $y$ は連続量であり、典型的には実数を複数並べた数値ベクトルである。

他の教師あり機械学習アルゴリズムと同様、回帰アルゴリズムは $p(\mathbf {x} ,\mathbf {y} )$ に従って選ばれた訓練データの集合 $D=\{(\mathbf {x} _{1},\mathbf {y} _{1}),\ldots ,(\mathbf {x} _{n},\mathbf {y} _{n})\}$ をとして受け取る事ができ、これらの訓練データをヒントにして入力 $x$ に対応する $y$ の予想値

{\hat {\mathbf {y} }}={\hat {F}}_{D}(\mathbf {x} )

を出力する。予想の正確さは損失関数 $L({\hat {\mathbf {y} }},\mathbf {y} )$ によって測られる。回帰では損失関数 $L({\hat {\mathbf {y} }},\mathbf {y} )$ としては自乗誤差損失

L({\hat {\mathbf {y} }},\mathbf {y} )=||{\hat {\mathbf {y} }}-\mathbf {y} ||^{2}

を用いる事が多い。

回帰の目標は、汎化誤差（予測誤差、予測損失とも）

E[L({\hat {\mathbf {y} }}(\mathbf {x} ),\mathbf {y} )]=\iint L({\hat {\mathbf {y} }}(\mathbf {x} ),\mathbf {y} )p(\mathbf {x} ,\mathbf {y} )\mathrm {d} \mathbf {x} \mathrm {d} \mathbf {y}

を小さく抑える事である。ここで ${\hat {\mathbf {y} }}(\mathbf {x} )=M(\mathbf {x} ,\theta )$ は汎化アルゴリズムの出力であり、 $E [・]$ は期待値を表す。

分類

分類タスクでは、事前に定められた有限個のクラスが定められていて、各クラスには、「ネコ」、「イヌ」などのクラスラベル（もしくは単にラベル）と呼ばれるクラス名が割り振られている。分類タスクの目的は与えられた入力 $x$ がのいずれに属するかを当てる事である。

分類タスクを解くアルゴリズムには大まかに「決定論的アプローチ」と「確率論的アプローチ」の２種類があり^[12]、前者は分類タスクでは入力 $x$ が与えられたとき、 $x$ が属すると思われるクラスラベルを出力するというものであり、損失関数としては典型的には0-1損失

L({\hat {y}},y)={\begin{cases}1&{\text{if }}{\hat {y}}\neq y\\0&{\text{otherwise}}\end{cases}}

を使う^[13]。

一方、後者はクラスラベルを直接出力するのではなく、確信度（confidence score） ${\widehat {y_{1}}},\ldots ,{\widehat {y_{k}}}$ を出力するというものである。ここで ${\widehat {y_{j}}}$ は $x$ が $j$ 番目のクラスに属しているとどの程度確信しているかを表す尺度であり、 $0\leq {\widehat {y_{j}}}\leq 1$ と ${\widehat {y_{1}}}+\cdots +{\widehat {y_{k}}}=1$ を満たす。

確信度を出力させる分類タスクでは、訓練データ $(\mathbf {x} _{i},\mathbf {y} _{i})$ の $y i$ も確信度と整合性が取れるように符号化する。すなわち、 $x i$ が $j$ 番目のクラスに属している場合、 $\mathbf {y} _{i}=\mathbf {e} _{j}$ とする。ここで $e j$ は $j$ 番目の成分が1でそれ以外の成分が0のベクトルである（このように1つの成分だけが1でそれ以外は0となるベクトルをone-hotベクトルとい、one-hotベクトルによりデータを表現する事をone-hot表現^[14]という）。損失関数としては典型的には交差エントロピー

L({\hat {\mathbf {y} }},\mathbf {y} )=-\sum _{k}y_{k}\log {\widehat {y_{k}}}

を使う^[13]。

回帰と分類の関係性

確信度を使った分類タスクに対するアルゴリズムを設計する典型的な手法は、回帰タスクのアルゴリズムを流用するというものである。すなわちクラスをone-hotベクトルで符号化した訓練データ $(\mathbf {x} _{1},\mathbf {y} _{1}),\ldots ,(\mathbf {x} _{n},\mathbf {y} _{n})$ を使って回帰タスクのアリゴリズムを訓練し、訓練結果のアルゴリズムを分類タスクに利用するという手法である。ただし、回帰タスク出力 ${\widehat {\mathbf {u} }}=({\widehat {u_{1}}},\ldots ,{\widehat {u_{k}}})$ は、分類タスクの出力である確信度と違い、 $0\leq {\widehat {u_{j}}}\leq 1$ と ${\widehat {u_{1}}}+\cdots +{\widehat {u_{k}}}=1$ という条件を満たさないという問題が起こる。そこで一旦ソフトマックス変換

\mathrm {softmax} ~:~\mathbb {R} ^{k}\to [0,1]^{k},(u_{1},\ldots ,u_{k})\mapsto {1 \over \sum _{j=1}^{k}e^{u_{j}}}(e^{u_{1}},\ldots ,e^{u_{k}})

をかける事でこの問題を解決する。

逆に確信度を使った分類タスクを回帰タスクに流用する事もでき、この場合は上と同様の理由でソフトマックス変換の逆変換をかける必要がある。

バイアスと分散のトレードオフ

→詳細は「偏りと分散」を参照

回帰では、入力 $x$ に対応する $y$ の予測値 ${\hat {\mathbf {y} }}={\hat {F}}_{D}(\mathbf {x} )$ を出力する事を求められ、 ${\hat {\mathbf {y} }}$ は $y$ の期待値に近いことが望ましく、しかも ${\hat {\mathbf {y} }}$ のばらつきは小さい方が望ましい。しかし下記に示すようにこの２つの要件はトレードオフの関係にある^[15]：

定理 (バイアスと分散のトレードオフ) ― $p (x, y)$ を $\mathbb {R} ^{\ell }\times \mathbb {R} ^{k}$ 上の確率分布とし、 $D$ を $\mathbb {R} ^{\ell }\times \mathbb {R} ^{k}$ 上の何らかの確率分布に従って選ばれた訓練データの集合とし^{[注 1]}、 ${\hat {F}}$ を回帰アルゴリズムとし、 $D$ によってこの回帰アルゴリズムを訓練して得られた関数を ${\hat {\mathbf {y} }}={\hat {F}}_{D}(\mathbf {x} )$ とし、誤差関数を自乗誤差

L({\hat {\mathbf {y} }},\mathbf {y} )=||{\hat {\mathbf {y} }}-\mathbf {y} ||^{2}

により定義し、さらに $(\mathbf {x} ,\mathbf {y} )\sim p$ を $D$ とは独立に選び、

{\bar {\mathbf {y} }}(\mathbf {x} )=E_{\mathbf {y} \sim p|_{\mathbf {x} }}[\mathbf {y} |\mathbf {x} ]

{\bar {F}}(\mathbf {x} )=E_{D}[{\hat {F}}_{D}(\mathbf {x} )]

とする。

このとき、予測誤差の訓練データ集合 $D$ に関する期待値（期待予測誤差^[16]）

E_{D}[E_{(\mathbf {x} ,\mathbf {y} )\sim p}[L({\hat {F}}_{D}(\mathbf {x} ),\mathbf {y} )]=E_{(\mathbf {x} ,\mathbf {y} )\sim p,D}[||{\hat {F}}_{D}(\mathbf {x} )-\mathbf {y} ||^{2}]

は以下を満たす：

E_{(\mathbf {x} ,\mathbf {y} )\sim p,D}[||{\hat {F}}_{D}(\mathbf {x} )-\mathbf {y} ||^{2}]={\mathsf {Var}}({\hat {F}})+{\mathsf {Bias}}^{2}({\hat {F}})+{\mathsf {Noise}}(p)

ここで、

{\mathsf {Var}}({\hat {F}})=E_{\mathbf {x} \sim p|_{\mathbf {x} },D}(||{\hat {F}}_{D}(\mathbf {x} )-{\bar {F}}(\mathbf {x} )||^{2})

{\mathsf {Bias}}^{2}({\hat {F}})=E_{\mathbf {x} \sim p|_{\mathbf {x} }}(||{\bar {F}}(\mathbf {x} )-{\bar {\mathbf {y} }}(\mathbf {x} )||^{2})

{\mathsf {Noise}}({\hat {F}})=E_{(\mathbf {x} ,\mathbf {y} )\sim p}(||{\bar {\mathbf {y} }}(\mathbf {x} )-\mathbf {y} ||^{2})

証明

{\begin{aligned}&{1 \over 2}(E_{(\mathbf {x} ,\mathbf {y} )\sim p,D}[||{\hat {F}}_{D}(\mathbf {x} )-\mathbf {y} ||^{2}]-{\mathsf {Var}}({\hat {F}})-{\mathsf {Bias}}^{2}({\hat {F}})-{\mathsf {Noise}}(p))\\&={1 \over 2}E_{(\mathbf {x} ,\mathbf {y} )\sim p,D}[||{\hat {F}}_{D}(\mathbf {x} )-\mathbf {y} ||^{2}-||{\hat {F}}_{D}(\mathbf {x} )-{\bar {F}}(\mathbf {x} )||^{2}-||{\bar {F}}(\mathbf {x} )-{\bar {\mathbf {y} }}(\mathbf {x} )||^{2}-||{\bar {\mathbf {y} }}(\mathbf {x} )-\mathbf {y} ||^{2}]\\&=E_{(\mathbf {x} ,\mathbf {y} )\sim p,D}[-{\hat {F}}_{D}(\mathbf {x} )\cdot \mathbf {y} +{\hat {F}}_{D}(\mathbf {x} )\cdot {\bar {F}}(\mathbf {x} )+{\bar {F}}(\mathbf {x} )\cdot {\bar {\mathbf {y} }}(\mathbf {x} )+{\bar {\mathbf {y} }}(\mathbf {x} )\cdot \mathbf {y} -||{\bar {F}}(\mathbf {x} )||^{2}-||{\bar {\mathbf {y} }}(\mathbf {x} )||^{2}]=(1)\end{aligned}}

ここで

{\begin{aligned}&E_{(\mathbf {x} ,\mathbf {y} )\sim p,D}[-{\hat {F}}_{D}(\mathbf {x} )\cdot \mathbf {y} +{\hat {F}}_{D}(\mathbf {x} )\cdot {\bar {F}}(\mathbf {x} )]\\&=-E_{(\mathbf {x} ,\mathbf {y} )\sim p}[E_{D}[{\hat {F}}_{D}(\mathbf {x} )]\cdot \mathbf {y} +E_{D}[{\hat {F}}_{D}(\mathbf {x} )]\cdot {\bar {F}}(\mathbf {x} )\\&=E_{(\mathbf {x} ,\mathbf {y} )\sim p}[-{\bar {F}}(\mathbf {x} )\cdot \mathbf {y} +||{\bar {F}}(\mathbf {x} )||^{2}]\end{aligned}}

なので、

{\begin{aligned}(1)&=E_{(\mathbf {x} ,\mathbf {y} )\sim p}[-{\bar {F}}(\mathbf {x} )\cdot \mathbf {y} +{\bar {F}}(\mathbf {x} )\cdot {\bar {\mathbf {y} }}(\mathbf {x} )+{\bar {\mathbf {y} }}(\mathbf {x} )\cdot \mathbf {y} -||{\bar {\mathbf {y} }}(\mathbf {x} )||^{2}]\\&=E_{(\mathbf {x} ,\mathbf {y} )\sim p}[({\bar {F}}(\mathbf {x} )-{\bar {\mathbf {y} }}(\mathbf {x} ))({\bar {\mathbf {y} }}(\mathbf {x} )-\mathbf {y} )]\\&=E_{\mathbf {x} }[({\bar {F}}(\mathbf {x} )-{\bar {\mathbf {y} }}(\mathbf {x} ))({\bar {\mathbf {y} }}(\mathbf {x} )-E_{\mathbf {y} \sim p|_{\mathbf {x} }}[\mathbf {y} ])]\\&=0\end{aligned}}

上では回帰の場合について述べたが、確信度を出力する分類でも同様である。

ベイズ規則

$L$ 、 $p (x, y)$ をそれぞれ回帰や分類といった教師あり学習のタスクに対する損失関数、データ分布とし、関数 $F$ に関する予測損失を $R_{L}(F)=E_{(x,y)\sim p}[L(F(x),y)]$ と書き表す。このとき、予測損失の下限

{\underset {F}{\mathrm {inf} }}R_{L}(F)

を損失関数 $L$ のもとでのベイズ誤差(Bayes error)と呼び、下限を達成する $F$ をベイズ規則(Bayes rule)という^[17]。ここで ${\underset {F}{\mathrm {inf} }}$ は可測関数全体の集合における下限である。

ベイズ規則は理論上の最良の予測関数であるが、実際には確率分布 $p (x, y)$ が未知なので、 $p (x, y)$ に関する予測損失 $R_{L}(F)=E_{(x,y)\sim p}[L(F(x),y)]$ を計算できず、ベイズ規則を求める事ができない。このため教師あり学習では既知のデータ $(\mathbf {x} _{1},\mathbf {y} _{1}),\ldots ,(\mathbf {x} _{n},\mathbf {y} _{n})$ から可能な限りベイズ規則に近い値を出力するアルゴリズムを探索する事が求められる。

回帰

自乗損失を損失関数として選んだ場合、次の定理が成り立つ^[18]：

定理 (自乗損失に関する回帰のベイズ規則) ― $p (x, y)$ を $\mathbb {R} ^{\ell }\times \mathbb {R} ^{k}$ 上の確率分布とし、

L({\hat {\mathbf {y} }},\mathbf {y} )=||{\hat {\mathbf {y} }}-\mathbf {y} ||^{2}

とする。このとき、汎化誤差 $R_{L}(F)=E_{(x,y)\sim p}[L(F(x),y)]$ を最小にする $F(\mathbf {x} )$ は、

F(\mathbf {x} )=E[\mathbf {y} |\mathbf {x} ]

である。ここで $E$ は $p (x, y)$ から定まる条件付き確率分布 $p(\mathbf {y} \mid \mathbf {x} )$ からランダムに $y$ を選んだときの期待値である。

証明

E[L(F(\mathbf {x} ),\mathbf {y} )]=\iint ||F(\mathbf {x} )-\mathbf {y} ||^{2}p(\mathbf {x} ,\mathbf {y} )\mathrm {d} \mathbf {x} \mathrm {d} \mathbf {y}

=\int \left(\int ||F(\mathbf {x} )-\mathbf {y} ||^{2}p(\mathbf {y} \mid \mathbf {x} )\mathrm {d} \mathbf {y} \right)p(\mathbf {x} )\mathrm {d} \mathbf {x}

を最小にするには、各 $x$ に対し、

S=\int ||F(\mathbf {x} )-\mathbf {y} ||^{2}p(\mathbf {y} \mid \mathbf {x} )\mathrm {d} \mathbf {y}

を最小にすればよい。

{\begin{aligned}S&=||F(\mathbf {x} )||^{2}\int p(\mathbf {y} \mid \mathbf {x} )\mathrm {d} \mathbf {y} -2F(\mathbf {x} )\cdot \int \mathbf {y} p(\mathbf {y} \mid \mathbf {x} )\mathrm {d} \mathbf {y} +\int ||\mathbf {y} ||^{2}p(\mathbf {y} \mid \mathbf {x} )\mathrm {d} \mathbf {y} \\&=||F(\mathbf {x} )||^{2}-2F(\mathbf {x} )\cdot E[\mathbf {y} \mid \mathbf {x} ]+\int ||\mathbf {y} ||^{2}p(\mathbf {y} \mid \mathbf {x} )\mathrm {d} \mathbf {y} \\&=||F(\mathbf {x} )-E[\mathbf {y} \mid \mathbf {x} ]||^{2}-||E[\mathbf {y} \mid \mathbf {x} ]||^{2}+\int ||\mathbf {y} ||^{2}p(\mathbf {y} \mid \mathbf {x} )\mathrm {d} \mathbf {y} \end{aligned}}

より $S$ が最小になるのは、

F(\mathbf {x} )=E[\mathbf {y} \mid \mathbf {x} ]

の場合である。

関数 $f(\mathbf {x} )=E[\mathbf {y} |\mathbf {x} ]$ を回帰関数と呼ぶ事もある^[18]。

分類

（確信度ではなくクラスを直接出力するタイプの）分類タスクにおいて、0-1損失関するベイズ規則は以下のようになる：

定理 (0-1損失に関する分類タスクのベイズ規則) ― $p (x, y)$ を $\mathbb {R} ^{\ell }\times \mathbb {R} ^{k}$ 上の確率分布とし、

L({\hat {\mathbf {y} }},\mathbf {y} )=||{\hat {\mathbf {y} }}-\mathbf {y} ||^{2}

とする。このとき、汎化誤差 $R_{L}(F)=E_{(x,y)\sim p}[L(F(x),y)]$ を最小にする $F(\mathbf {x} )$ は、

F(\mathbf {x} )=E[\mathbf {y} |\mathbf {x} ]

である。ここで $E$ は $p (x, y)$ から定まる条件付き確率分布 $p(\mathbf {y} \mid \mathbf {x} )$ からランダムに $y$ を選んだときの期待値である。

証明

E[L(F(\mathbf {x} ),\mathbf {y} )]=\iint ||F(\mathbf {x} )-\mathbf {y} ||^{2}p(\mathbf {x} ,\mathbf {y} )\mathrm {d} \mathbf {x} \mathrm {d} \mathbf {y}

=\int \left(\int ||F(\mathbf {x} )-\mathbf {y} ||^{2}p(\mathbf {y} \mid \mathbf {x} )\mathrm {d} \mathbf {y} \right)p(\mathbf {x} )\mathrm {d} \mathbf {x}

を最小にするには、各 $x$ に対し、

S=\int ||F(\mathbf {x} )-\mathbf {y} ||^{2}p(\mathbf {y} \mid \mathbf {x} )\mathrm {d} \mathbf {y}

を最小にすればよい。

{\begin{aligned}S&=||F(\mathbf {x} )||^{2}\int p(\mathbf {y} \mid \mathbf {x} )\mathrm {d} \mathbf {y} -2F(\mathbf {x} )\cdot \int \mathbf {y} p(\mathbf {y} \mid \mathbf {x} )\mathrm {d} \mathbf {y} +\int ||\mathbf {y} ||^{2}p(\mathbf {y} \mid \mathbf {x} )\mathrm {d} \mathbf {y} \\&=||F(\mathbf {x} )||^{2}-2F(\mathbf {x} )\cdot E[\mathbf {y} \mid \mathbf {x} ]+\int ||\mathbf {y} ||^{2}p(\mathbf {y} \mid \mathbf {x} )\mathrm {d} \mathbf {y} \\&=||F(\mathbf {x} )-E[\mathbf {y} \mid \mathbf {x} ]||^{2}-||E[\mathbf {y} \mid \mathbf {x} ]||^{2}+\int ||\mathbf {y} ||^{2}p(\mathbf {y} \mid \mathbf {x} )\mathrm {d} \mathbf {y} \end{aligned}}

より $S$ が最小になるのは、

F(\mathbf {x} )=E[\mathbf {y} \mid \mathbf {x} ]

の場合である。

教師なし学習

教師なし学習（unsupervised learning）では、教師あり学習と違い、目的変数 $y$ に相当するものがそもそも存在しないか、あっても知る事ができない。

教師なし機械学習では、未知の確率分布 $p(\mathbf {x} )$ に従う変数 $\mathbf {x} _{1},\ldots ,\mathbf {x} _{n}$ が訓練データとしてアルゴリズムに与えられる。アルゴリズムが解くべきタスクは、確率分布 $p(\mathbf {x} )$ やその重要な性質を何らかの形で学習し、 $p(\mathbf {x} )$ の特性を直接推定する事である^[19]^[20]。教師あり学習と違い、明確な「正解」 $y$ が存在しないので、教師なし学習では出力の妥当性を直接評価する評価尺度は存在せず^[20]、妥当か否かの判断は主観的なものになり^[20]、ヒューリスティックな議論が必要となる^[20]。

教師なし学習の興味の一つは確率密度関数 $p(\mathbf {x} )$ それ自身を推定する密度推定のタスクであり、カーネル密度推定など統計学で様々なノンパラメトリック密度推定の手法が知られている^[20]。しかし $x$ の次元が高い場合は次元の呪いが原因でこうした推定はうまくいかず^[20]、それゆえ多くの教師なし学習では、 $p(\mathbf {x} )$ の何らかのパラメトリックなモデルで $p(\mathbf {x} )$ を近似することを試みたり、訓練データから $p(\mathbf {x} )$ の何らかの重要な性質を抽出するといったアプローチが取られる。

具体的な例として以下のようなものがある。

強化学習

強化学習（きょうかがくしゅう、英: reinforcement learning）とは、ある環境内におけるエージェントが、現在の状態を観測し、取るべき行動を決定する問題を扱う機械学習の一種。エージェントは行動を選択することで環境から報酬を得る。強化学習は一連の行動を通じて報酬が最も多く得られるような方策（policy）を学習する。環境はマルコフ決定過程として定式化される。代表的な手法としてTD学習やQ学習が知られている。

その他の機械学習

例えば以下のものがある

半教師あり学習（英語版）: ラベルありの例とラベルなしの例をどちらも扱えるようにしたもので、それによって近似関数または分類器を生成する。
トランスダクション（英語版）（トランスダクティブ推論）: 観測された具体的な（訓練）例から具体的かつ固定の（テスト）例の新たな出力を予測しようとする。
マルチタスク学習（英語版）: 関連する複数の問題について同時に学習させ、主要な問題の予測精度を向上させる。

能動学習アルゴリズムは、予算に基づいて限られた入力のセットに対して所望の出力（訓練ラベル）にアクセスし、訓練ラベルを取得する入力の選択を最適化する。インタラクティブに使用される場合、これらはラベリングのために人間のユーザーに提示することができる。強化学習アルゴリズムは、動的な環境で正または負の強化の形でフィードバックを与えられ、自動運転車や人間の対戦相手とゲームをするための学習に使用される^[21]。機械学習における他の専門的なアルゴリズムには、コンピュータプログラムに自然言語文書のセットを与え、類似したトピックをカバーする他の文書を見つけるトピックモデリングがある。機械学習アルゴリズムは、密度推定問題において、観測不可能な確率密度関数を求めるために使用することができる。メタ学習アルゴリズムは、過去の経験に基づいて独自の帰納的バイアスを学習する。発達ロボティクスでは、ロボット学習アルゴリズムは、カリキュラムとも呼ばれる学習経験のシーケンスを独自に生成し、自己誘導型の探索や人間との社会的相互作用を通じて、新しいスキルを累積的に獲得する。これらのロボットは、能動的学習、成熟、運動相乗効果、模倣などの誘導メカニズムを使用する

人間との相互作用

機械学習システムによっては、人間の直観によるデータ解析の必要性を排除しようとしているが、人間と機械の協調的相互作用を取り入れたものもある。しかし、そもそもシステムのデータ表現方法やデータの特徴を探る機構は、人間が設計したものであり、人間の直観を完全に排除することはできない。

データマイニングとの関係

機械学習とデータマイニングは交差する部分が大きく、技法も同じなので混同されることが多いが、次のように定義できる。

機械学習の目的は、訓練データから学んだ「既知」の特徴に基づく予測である。
データマイニングの目的は、それまで「未知」だったデータの特徴を発見することである。

この2つは、さまざまな面でオーバーラップしている。データマイニングは、機械学習の技法を使うが、その目的は若干異なることが多い。一方、機械学習もデータマイニングの技法を「教師なし学習」として、あるいは学習者の正確性を向上させる前処理として用いる。2つの研究領域は、ECML PKDD という例外はあるが、基本的に学会も学術誌も別々である。それらの間の混同の最大の原因は、それらの基本的前提に由来する。機械学習では、既知の知識を再生成できるかどうかで性能を評価するが、データマイニングではそれまで「未知」だった知識を発見することが重視される。したがって、既知の知識によって評価するなら「教師なしの技法」よりも「教師ありの技法」の方が容易に優れた結果を示すことができる。しかし、典型的なデータマイニングでは、訓練データが用意できないので、「教師ありの技法」を採用することができない。

理論

機械学習アルゴリズムとその性能についての分析は、理論計算機科学の一分野であり、計算論的学習理論（英語版）と呼ばれている。訓練例は有限であるのに対して、未来は不確かであるため、学習理論は一般にアルゴリズムの性能を保証できない。その代わりに、性能の確率的範囲を与える。 Wassily Hoeffding（英語版）によるヘフディングの不等式（英語版）など統計的学習理論という表現もある。^[22]

それに加えて、学習の時間複雑性と実現可能性についても研究している。計算論的学習理論では、多項式時間で終了する計算を実現可能とみなす。

機械学習と統計学は、多くの点で似ているが、使用する用語は異なる。

統計的機械学習

統計的機械学習とは、機械学習のうちデータの確率的な生成規則を学習するもの^[23]を指す。

統計学は母集団と標本、そこに存在する確率分布に着目した方法論である。統計的機械学習ではデータが母集団から確率的に得られると考え、データの生成過程を確率分布を用いてモデル化し、実際のデータに基づいてモデルの学習（あるいはモデル選択自体の学習）をおこなう。母集団からデータが得られる、母集団からのサンプリングによってデータが生成されると解釈できるため、統計的機械学習のモデルは生成モデル・統計モデルとも呼ばれる^[24]。

標本に基づいた母集団（パラメータ）の推定・選択は統計学において長く研究され、多くの理論が存在する。統計的機械学習における学習はまさに母集団の推定・選択であるため、統計学の理論が機械学習に適用できる。学習の収束や汎化性能など様々な機械学習の課題が統計学の知識体系を用いて研究されている。

統計的機械学習の例としては、ニューラルネットワークにおける生成モデル、例えば自己回帰型生成ネット、変分オートエンコーダー（VAE）、敵対的生成ネットワーク（GAN）などが挙げられる。これらのモデル（＝母集団）から実際にサンプリングすれば画像や音声といったデータが生成できるため、特にニューラルネットワークの分野では2010年代後半に非常によく研究され大きな成果をあげている（WaveNet、VQ-VAE-2、BigGANなど）。

数理最適化

多くの機械学習手法はデータに対するモデル出力の誤差を定義し、誤差を最小化するようにパラメータの更新（学習）をおこなう。誤差を計算する関数、すなわち損失関数を最小化する学問体系は応用数学において数理最適化（解かれる問題は最適化問題）と呼ばれる。

例えばニューラルネットワークでは損失関数に対して微分をおこなう勾配法（確率的勾配降下法など）で学習がしばしばおこなわれる。勾配法による最適化が最適解に収束するか否かは数理最適化の理論によって研究される。また用いられる最適化法によってニューラルネットワークに課される制約も異なり、勾配法を用いるには連続する関数適用がすべて微分可能である（バックプロパゲーションが可能である）ことが求められる（生成モデルのサンプリングに強く制約を与える）。

技法

決定木学習: 決定木を予測モデル（英語版）として使用した学習であり、アイテムについての観測をそのアイテムの目標値についての結論とマッピングする。具体例としてID3やRandom forestがある。
相関ルール学習（英語版）: 大規模データベースにおける変数間の興味深い関係を発見するための技法。
ニューラルネットワーク (NN): 人工ニューラルネットワーク (ANN) とも呼ばれ、生物の神経ネットワークの構造と機能を模倣するという観点から生まれた学習アルゴリズムである。人工神経を相互接続したもので計算を構造化し、コネクショニズム的計算技法で情報を処理する。現代的ニューラルネットワークは非線形な統計的データモデリングツールである。入力と出力の間の複雑な関係をモデル化するのに使われ、データのパターン認識や観測された変数間の未知の同時分布における統計的構造を捉えるなどの用途がある。
遺伝的プログラミング (GP): 生物の進化を模倣した進化的アルゴリズムに基づく技法であり、ユーザーが定義したタスクを実行するプログラムを探索する。遺伝的アルゴリズムを拡張・特化させたものである。所定のタスクを実行する能力によって適応度地形を決定し、それによってコンピュータプログラムを最適化させていく機械学習技法である。
帰納論理プログラミング（英語版） (ILP): 例、背景知識、仮説を一様な表現とし、論理プログラミングを使って学習を規則化する技法である。既知の背景知識と例の集合をコード化して事実の論理データベースとし、全てのポジティブな例を含み、ネガティブな例を全く含まない仮説的論理プログラムを生成する。
サポートベクターマシン (SVM): 分類や回帰に使われる一連の教師あり学習技法である。訓練例のラベルは二値分類（2つに分類される）であり、訓練アルゴリズムによってモデルを構築し、新たな例がどちらに分類されるかを予測する。
クラスタリング: クラスタリングは、観測された例をクラスタと呼ばれる部分集合に振り分けるもので、振り分けは事前に指示された基準に従って行う。クラスタリングはデータの構造についての仮説（基準）の立て方によって結果が異なる。仮説は「類似尺度」で定義され、「内部コンパクト性」（同一クラスタ内のメンバー間の類似性）や異なるクラスタ間の距離によって評価される。「推定密度」や「グラフ接続性」に基づく技法もある。クラスタリングは教師なし学習技法であり、統計的データ解析でよく使われる。
ベイジアンネットワーク: 確率変数群とそれらの条件付き独立性（英語版）を有向非巡回グラフ (DAG) で表した確率論的グラフィカルモデルである。例えば、病気と症状の関係を確率的に表すことができる。そのネットワークに症状を入力すれば、考えられる病気の一覧を確率付きで出力できる。これを使って推論と学習を行う効率的アルゴリズムが存在する。
表現学習（英語版）: 教師なし学習アルゴリズムの一部は、訓練中に提供された入力のよりよい表現を発見しようとする。古典的な例として主成分分析やクラスタ分析がある。入力の持つ情報は保持したまま、分類や予測の前に入力をより便利な表現に変換するアルゴリズムもある。その際に入力データが従っている未知の確率分布から入力を再建できるようにするが、その確率分布においては信じがたい例も忠実に再現する必要はない。例えば多様体学習（英語版）アルゴリズムは、何らかの制約下で入力の次元を低く変換して表現する。スパースコーディング（英語版）アルゴリズムでは、入力が疎ら（ゼロが多い）という制約下で同様の表現の変換を行う。ニューラルネットワークの深層学習は複数レベルの表現または特徴の階層を発見するもので、低いレベルで抽出した特徴から高いレベルの抽象化した特徴までを求める。知的機械は、観測されたデータを説明する偏差の潜在的要因を解きほぐす表現を学習するものだという主張もある^[25]。
エクストリーム・ラーニング・マシン (ELM): 1層もしくは複数の隠れ層を有する順伝播型ニューラルネットワークであり，分類や回帰，クラスタリングへ適用できる。

応用分野

機械学習には以下のような応用分野がある。

2006年、オンラインDVDレンタル会社ネットフリックスは、同社のレコメンダシステムより10%以上高性能な（ユーザーの好みをより正確に予測する）プログラムを捜す競技会 Netflix Prize を開催した。この競技会は数年かけて行われ、AT&T Labs のチームが「プラグマティック・ケイオス」^[26]という機械学習プログラムで2009年に優勝し100万ドルを獲得した^[27]。

実応用

以下のものがある：


分類		具体例
認識^[28]	画像認識	顔認証^[29]
		監視業務^[29]
		検査・検品^[29]
		画像の整理^[29]
		医療診断^[29]
	音声認識	音声入力^[30]
		議事録の自動作成^[30]
		コールセンターの補助または代替^[30]
	文章解析・文章認識	不正文章検知^[31]
		ニーズの把握^[31]
		過去の類似事例検索^[31]
	異常検知	故障の検知^[32]
		不審行動検知^[32]
		デフォルトの検知^[32]
分析^[28]（多くは予測^[33]）	数値の予測	売上げなどの需要予測^[34]
		株価や経済指標の予測^[34]
		所要時間の予測^[34]
		劣化の予測^[34]
		品質の予測^[34]
	イベント発生の予測	購買や解約の予測^[35]
		故障の予測^[35]
		疾病の予測^[35]
		相性の予測^[35]
対処^[28]	行動の最適化	在庫の最適化^[36]
		広告の最適化^[36]
		キャンペーンの最適化^[36]
		出店の最適化^[36]
		配送の最適化^[36]
	作業の最適化	自動運転^[37]
		ロボット制御^[37]
		Q&Aの自動化^[37]
	表現の生成	翻訳^[38]
		要約^[38]
		画像生成^[38]

ソフトウェア

各種機械学習アルゴリズムを備えたソフトウェアスイートとして、SAS・RapidMiner・LIONsolver・KNIME・Weka・ODM・Shogun toolbox・Orange・Apache Mahout・scikit-learn・mlpy・MCMLL・OpenCV・XGBoost・Jubatus などがある。

データロボット社^[39]による複数の手法を並列計算させて比較する方法がある^[40]。

学術誌と国際学会

Machine Learning（学術誌）
Journal of Machine Learning Research（学術誌）
Neural Computation（学術誌）
International Conference on Machine Learning (ICML)（国際学会）
Neural Information Processing Systems (NeurIPS 旧称NIPS)（国際学会）

脚注

注釈

^ 典型的には、 $p (x, y)$ に従って独立に $D$ の各データを選ぶが、 $D$ をどのような確率分布から選んだかによらず、定理は証明できる

出典

^ “Machine Learning textbook”. www.cs.cmu.edu. 2020年5月28日閲覧。
^ Harnad, Stevan (2008), “The Annotation Game: On Turing (1950) on Computing, Machinery, and Intelligence”, in Epstein, Robert; Peters, Grace, The Turing Test Sourcebook: Philosophical and Methodological Issues in the Quest for the Thinking Computer, Kluwer, pp. 23–66, ISBN 9781402067082, http://eprints.ecs.soton.ac.uk/12954/
^ 引用エラー: 無効な <ref> タグです。「bishop2006」という名前の注釈に対するテキストが指定されていません
^ Machine learning and pattern recognition "can be viewed as two facets of the same field."^[3]^:vii
^ Friedman, Jerome H. (1998). “Data Mining and Statistics: What's the connection?”. Computing Science and Statistics 29 (1): 3–9.
^ Samuel, Arthur (1959). “Some Studies in Machine Learning Using the Game of Checkers”. IBM Journal of Research and Development 3 (3): 210–229. doi:10.1147/rd.33.0210.
^ Mitchell, T. (1997). Machine Learning. McGraw Hill. pp. 2. ISBN 978-0-07-042807-2
^ ^a ^b #瀧 p.20.
^ ^a ^b ^c ^d ^e ^f #ESL p11-12
^ #GBC 5.1.3節
^ #金森 p.3.
^ #瀧 p.8.
^ ^a ^b #瀧 p.36.
^ #瀧 p.30.
^ “Lecture 12: Bias-Variance Tradeoff”. CS4780/CS5780: Machine Learning for Intelligent Systems [FALL 2018]. コーネル大学. 2020年11月10日閲覧。
^ #金森 p.13.
^ #金森 p.9.
^ ^a ^b #ESL p22-23
^ #GBC 5.1.3節
^ ^a ^b ^c ^d ^e ^f #ESL p559-561
^ Bishop, C. M. (2006), Pattern Recognition and Machine Learning, Springer, ISBN 978-0-387-31073-2
^ 統計的学習理論, 金森敬文, 機械学習プロフェッショナルシリーズ, 講談社, 2015, ISBN 9784061529052
^ "統計的機械学習理論とボルツマン機械学習" 安田宗樹. 山形大学
^ 上田. "統計的機械学習入門" NII. https://www.youtube.com/watch?v=wqb3k22toFY&t=478
^ Yoshua Bengio (2009). Learning Deep Architectures for AI. Now Publishers Inc.. p. 1–3. ISBN 978-1-60198-294-0
^ 英: Pragmatic Chaos
^ "BelKor Home Page" research.att.com
^ ^a ^b ^c #本橋2018 1.3章「人工知能の利用用途」「人工知能の３つの役割」の冒頭付近。
^ ^a ^b ^c ^d ^e #本橋2018 1.4章「認識の具体例」図1-4「画像認識の具体例」
^ ^a ^b ^c #本橋2018 1.4章「認識の具体例」図1-5「音声入力の具体例」
^ ^a ^b ^c #本橋2018 1.4章「認識の具体例」図1-6「文章解析・文章認識の具体例」
^ ^a ^b ^c #本橋2018 1.4章「認識の具体例」図1-7「異常検知の具体例」
^ #本橋2018 1.5章「分析とは？」冒頭
^ ^a ^b ^c ^d ^e #本橋2018 1.5章「分析の具体例」図1-8「数値の予測の具体例」
^ ^a ^b ^c ^d #本橋2018 1.5章「分析の具体例」図1-9「イベントの発生の予測の具体例」
^ ^a ^b ^c ^d ^e #本橋2018 1.6章「対処の具体例」図1-10「行動の最適化の具体例」
^ ^a ^b ^c #本橋2018 1.6章「対処の具体例」図1-12「作業の具体化の具体例」
^ ^a ^b ^c #本橋2018 1.6章「対処の具体例」図1-13「表現の生成の具体例」
^ 英: DataRobot
^ DataRobot: https://www.datarobot.com

参考文献

Thomas Mitchell "Machine Learning" McGraw-Hill (1997) ISBN 978-0071154673 (入門用の教科書) →サポートページ
Christopher M. Bishop "Pattern Recognition And Machine Learning" Springer-Verlag (2006) ISBN 978-0387310732 (中上級の教科書) →サポートページ（ここから、第8章 "Graphical Models" をpdf形式で入手可能）
- 日本語版「パターン認識と機械学習 - ベイズ理論による統計的予測」シュプリンガージャパン (2007-2008) 上巻：ISBN 978-4431100133 下巻：ISBN 978-4431100317 →日本語版サポートページ
Trevor Hastie, Robert Tibshirani, and Jerome H. Friedman "The Elements of Statistical Learning: Data Mining, Inference, and Prediction" Springer-Verlag (2001) ISBN 978-0387952840 (高度な内容も含む．数理・統計系の手法が中心) →サポートページ（ここから、全章をpdf形式で入手可能）
David MacKay "Information Theory, Inference, and Learning Algorithms" (2003) (ベイズ推論を中心に、情報理論と機械学習を包括的にカバーした教科書) →著者ページ（ここから全文をPDF形式で入手可能）
Sergios Theodoridis, Konstantinos Koutroumbas (2009) "Pattern Recognition", 4th Edition, Academic Press, ISBN 978-1-59749-272-0.
Ethem Alpaydın (2004) Introduction to Machine Learning (Adaptive Computation and Machine Learning), MIT Press, ISBN 0-262-01211-1
Bing Liu (2007), Web Data Mining: Exploring Hyperlinks, Contents and Usage Data. Springer, ISBN 3-540-37881-2
Toby Segaran (2007), Programming Collective Intelligence, O'Reilly, ISBN 0-596-52932-5
Ray Solomonoff, "An Inductive Inference Machine" A privately circulated report from the 1956 Dartmouth Summer Research Conference on AI.
Ray Solomonoff, An Inductive Inference Machine, IRE Convention Record, Section on Information Theory, Part 2, pp., 56-62, 1957.
Ryszard S. Michalski, Jaime G. Carbonell, Tom M. Mitchell (1983), Machine Learning: An Artificial Intelligence Approach, Tioga Publishing Company, ISBN 0-935382-05-4.
Ryszard S. Michalski, Jaime G. Carbonell, Tom M. Mitchell (1986), Machine Learning: An Artificial Intelligence Approach, Volume II, Morgan Kaufmann, ISBN 0-934613-00-1.
Yves Kodratoff, Ryszard S. Michalski (1990), Machine Learning: An Artificial Intelligence Approach, Volume III, Morgan Kaufmann, ISBN 1-55860-119-8.
Ryszard S. Michalski, George Tecuci (1994), Machine Learning: A Multistrategy Approach, Volume IV, Morgan Kaufmann, ISBN 1-55860-251-8.
Bishop, C.M. (1995). Neural Networks for Pattern Recognition, Oxford University Press. ISBN 0-19-853864-2.
Richard O. Duda, Peter E. Hart, David G. Stork (2001) Pattern classification (2nd edition), Wiley, New York, ISBN 0-471-05669-3.
Huang T.-M., Kecman V., Kopriva I. (2006), Kernel Based Algorithms for Mining Huge Data Sets, Supervised, Semi-supervised, and Unsupervised Learning, Springer-Verlag, Berlin, Heidelberg, 260 pp. 96 illus., Hardcover, ISBN 3-540-31681-7.
KECMAN Vojislav (2001), Learning and Soft Computing, Support Vector Machines, Neural Networks and Fuzzy Logic Models, The MIT Press, Cambridge, MA, 608 pp., 268 illus., ISBN 0-262-11255-8.
Ian H. Witten and Eibe Frank (2011). Data Mining: Practical machine learning tools and techniques Morgan Kaufmann, 664pp., ISBN 978-0123748560.
Sholom Weiss and Casimir Kulikowski (1991). Computer Systems That Learn, Morgan Kaufmann. ISBN 1-55860-065-5.
Mierswa, Ingo and Wurst, Michael and Klinkenberg, Ralf and Scholz, Martin and Euler, Timm: YALE: Rapid Prototyping for Complex Data Mining Tasks, in Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD-06), 2006.
Vladimir Vapnik (1998). Statistical Learning Theory. Wiley-Interscience, ISBN 0-471-03003-1.

ピーターフラッハ, 竹村彰通 (監訳）、「機械学習 ─データを読み解くアルゴリズムの技法─」、朝倉書店、ISBN 978-4254122183　（2017年4月5日）。
本橋, 洋介 (2018/2/15). 人工知能システムのプロジェクトがわかる本企画・開発から運用・保守まで (AI & TECHNOLOGY). 翔泳社. ASIN B078JMLVR2. ISBN 978-4798154053
Ian Goodfellow, Yoshua Bengio, Aaron Courville 翻訳：黒滝紘生, 河野慎, 味曽野雅史, 保住純, 野中尚輝, 冨山翔司, 角田貴大, 監訳：岩澤有祐, 鈴木雅大, 中山浩太郎, 松尾豊訳 (2018/8/27). 深層学習(kindle版). ドワンゴ. ASIN B07GQV1X76
- “Deep Learning An MIT Press book”. 2020年10月30日閲覧。同書原著のweb版
著者：Trevor Hastie, Robert Tibshirani, Jerome Friedman, 翻訳：杉山将 , 井手剛 , 神嶌敏弘 , 栗田多喜夫 , 前田英作 , 井尻善久 , 岩田具治 , 金森敬文 , 兼村厚範 , 烏山昌幸 , 河原吉伸 , 木村昭悟 , 小西嘉典 , 酒井智弥 , 鈴木大慈 , 竹内一郎 , 玉木徹 , 出口大輔 , 冨岡亮太 , 波部斉 , 前田新一 , 持橋大地 , 山田誠 (2014/6/25). 統計的学習の基礎 ―データマイニング・推論・予測. 共立出版. ISBN 978-4320123625
- “The Elements of Statistical Learning: Data Mining, Inference, and Prediction.”. スタンフォード大学. 2020年11月10日閲覧。：上述の書籍の英語版公式サイト。無料pdfあり。
瀧雅人 (2017/10/21). これならわかる深層学習入門. KS情報科学専門書機械学習スタートアップシリーズ. 講談社. ISBN 978-4061538283
金森敬文 (2015/8/8). 統計的学習理論. KS情報科学専門書機械学習スタートアップシリーズ. 講談社. ISBN 978-4061529052

外部リンク

電子情報通信学会情報論的学習理論と機械学習 (IBISML) 研究会
朱鷺の杜Wiki 機械学習・データマイニングについてのWiki

脚注

[脚注の使い方]

注釈

出典

[16] 典型的には、 $p (x, y)$ に従って独立に $D$ の各データを選ぶが、 $D$ をどのような確率分布から選んだかによらず、定理は証明できる

[1] “Machine Learning textbook”. www.cs.cmu.edu. 2020年5月28日閲覧。

[2] Harnad, Stevan (2008), “The Annotation Game: On Turing (1950) on Computing, Machinery, and Intelligence”, in Epstein, Robert; Peters, Grace, The Turing Test Sourcebook: Philosophical and Methodological Issues in the Quest for the Thinking Computer, Kluwer, pp. 23–66, ISBN 9781402067082, http://eprints.ecs.soton.ac.uk/12954/

[bishop2006-3] 引用エラー: 無効な <ref> タグです。「bishop2006」という名前の注釈に対するテキストが指定されていません

[4] Machine learning and pattern recognition "can be viewed as two facets of the same field."^[3]^:vii

[5] Friedman, Jerome H. (1998). “Data Mining and Statistics: What's the connection?”. Computing Science and Statistics 29 (1): 3–9.

[Samuel2-6] Samuel, Arthur (1959). “Some Studies in Machine Learning Using the Game of Checkers”. IBM Journal of Research and Development 3 (3): 210–229. doi:10.1147/rd.33.0210.

[Mitchell-19973-7] Mitchell, T. (1997). Machine Learning. McGraw Hill. pp. 2. ISBN 978-0-07-042807-2

[:0-8] #瀧 p.20.

[:1-9] ^ ^a ^b ^c ^d ^e ^f #ESL p11-12

[10] #GBC 5.1.3節

[11] #金森 p.3.

[12] #瀧 p.8.

[:4-13] #瀧 p.36.

[14] #瀧 p.30.

[15] “Lecture 12: Bias-Variance Tradeoff”. CS4780/CS5780: Machine Learning for Intelligent Systems [FALL 2018]. コーネル大学. 2020年11月10日閲覧。

[17] #金森 p.13.

[18] #金森 p.9.

[:2-19] #ESL p22-23

[20] #GBC 5.1.3節

[:3-21] ^ ^a ^b ^c ^d ^e ^f #ESL p559-561

[bishop20062-22] Bishop, C. M. (2006), Pattern Recognition and Machine Learning, Springer, ISBN 978-0-387-31073-2

[23] 統計的学習理論, 金森敬文, 機械学習プロフェッショナルシリーズ, 講談社, 2015, ISBN 9784061529052

[24] "統計的機械学習理論とボルツマン機械学習" 安田宗樹. 山形大学

[25] 上田. "統計的機械学習入門" NII. https://www.youtube.com/watch?v=wqb3k22toFY&t=478

[26] Yoshua Bengio (2009). Learning Deep Architectures for AI. Now Publishers Inc.. p. 1–3. ISBN 978-1-60198-294-0

[27] 英: Pragmatic Chaos

[28] "BelKor Home Page" research.att.com

[:02-29] #本橋2018 1.3章「人工知能の利用用途」「人工知能の３つの役割」の冒頭付近。

[:12-30] #本橋2018 1.4章「認識の具体例」図1-4「画像認識の具体例」

[:22-31] #本橋2018 1.4章「認識の具体例」図1-5「音声入力の具体例」

[:32-32] #本橋2018 1.4章「認識の具体例」図1-6「文章解析・文章認識の具体例」

[:42-33] #本橋2018 1.4章「認識の具体例」図1-7「異常検知の具体例」

[34] #本橋2018 1.5章「分析とは？」冒頭

[:52-35] #本橋2018 1.5章「分析の具体例」図1-8「数値の予測の具体例」

[:62-36] #本橋2018 1.5章「分析の具体例」図1-9「イベントの発生の予測の具体例」

[:72-37] #本橋2018 1.6章「対処の具体例」図1-10「行動の最適化の具体例」

[:82-38] #本橋2018 1.6章「対処の具体例」図1-12「作業の具体化の具体例」

[:92-39] #本橋2018 1.6章「対処の具体例」図1-13「表現の生成の具体例」

[40] 英: DataRobot

[41] DataRobot: https://www.datarobot.com

[1]

[2]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[注 1]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[3]

表話編歴コンピュータ科学
ハードウェア	プリント基板周辺機器 Integrated Circuit (IC) Very Large Scale Integration (超大規模集積回路、VLSI) Systems on Chip (SoC) エネルギー消費 (グリーン・コンピューティング) EDA ハードウェアアクセラレーション
コンピュータシステムの構造	コンピュータ・アーキテクチャ組み込みシステムリアルタイムシステムディペンダビリティ
ネットワーク	ネットワーク・アーキテクチャ（英語版）通信プロトコルネットワーク・コンポーネント（英語版）ネットワーク・スケジューラ（英語版）ネットワーク性能評価（英語版）ネットワーク・サービス（英語版）
ソフトウェアの構造	インタプリタミドルウェア仮想マシンオペレーティングシステムソフトウェア品質
ソフトウェア記法（英語版）とツール	プログラミングパラダイムプログラミング言語コンパイラドメイン固有言語モデリング言語ソフトウェアフレームワーク統合開発環境ソフトウェア構成管理ソフトウェアライブラリソフトウェアリポジトリ
ソフトウェア開発	ソフトウェア開発プロセス要求分析ソフトウェア設計ソフトウェア構築（英語版）ソフトウェアデプロイメントソフトウェアメンテナンスプログラミングチーム（英語版）オープンソースモデル
計算理論	計算モデル形式言語オートマトン理論計算可能性理論計算複雑性理論コンピュータ科学における論理学（英語版）意味論
アルゴリズム	アルゴリズム（英語版）アルゴリズム解析アルゴリズム効率（英語版）乱択アルゴリズム計算幾何学
コンピューティングの数学	離散数学確率統計学数学ソフトウェア情報理論解析学数値解析
情報システム	データベース管理システム情報ストレージシステム企業情報システム社会情報システム（英語版）地理情報システム意思決定支援システムプロセス制御システムマルチメディア情報システム（英語版）データマイニング電子図書館コンピューティング・プラットフォームデジタルマーケティング World Wide Web 情報検索
セキュリティ	暗号理論形式手法セキュリティ・サービス（英語版）侵入検知システムハードウェア・セキュリティ（英語版）ネットワーク・セキュリティ情報セキュリティアプリケーション・セキュリティ（英語版）
ヒューマンコンピュータインタラクション	インタラクションデザインソーシャル・コンピューティング（英語版）ユビキタスコンピューティング可視化アクセシビリティ
並行性	並行コンピューティング並列コンピューティング分散コンピューティングマルチスレッディングマルチプロセッシング
人工知能	自然言語処理知識表現と推論コンピュータビジョン自動計画とスケジューリング検索手法制御手法人工知能の哲学（英語版）分散人工知能（英語版）
機械学習	教師あり学習教師なし学習強化学習マルチタスク学習（英語版）交差検証
グラフィックス	アニメーションレンダリング画像編集 GPU 複合現実バーチャル・リアリティ画像圧縮ソリッドモデリング
応用コンピューティング	電子商取引企業アプリケーション計算数学（英語版）計算物理学計算化学計算生物学計算社会科学計算工学（英語版）健康情報学デジタルアート電子出版サイバー戦争電子投票コンピュータゲームワードプロセッサーオペレーションズ・リサーチ教育工学文書管理システム
概要（英語版）カテゴリブックコモンズ

概要

定義