「ディープラーニング」の版間の差分

削除された内容追加された内容

インライン

2020年9月6日 (日) 08:39時点における版

ディープラーニング（英: Deep learning）または深層学習（しんそうがくしゅう）とは、（狭義には4層以上^[1]^{[注釈 1]}の）多層の人工ニューラルネットワーク（ディープニューラルネットワーク、英: deep neural network; DNN）による機械学習手法である^[2]。要素技術としてはバックプロパゲーションなど、20世紀のうちに開発されていたものの、4層以上の深層ニューラルネットについて、局所最適解や勾配消失などの技術的な問題によって十分学習させられず、性能も芳しくなかった。しかし、21世紀に入って、オートエンコーダを始めとするヒントンらによる多層ニューラルネットワークの学習の研究や、学習に必要な計算機の能力向上、および、インターネットの発展による学習データの流通により、十分に学習させられるようになった。その結果、音声・画像・自然言語を対象とする諸問題に対し、他の手法を圧倒する高い性能を示し^[3]、2010年代に普及した^[1]。

概要

単層パーセプトロンの「線型分離不可能な問題」を解けない、という限界は、多層パーセプトロンの機械学習がバックプロパゲーションにより実現されたことで、ある程度は解決された。しかし、層数を増やした多層ニューラルネットの学習は、局所最適解や勾配消失などの技術的な問題によって、十分に学習させられず、性能も芳しくないとして、1990年代を中心とした時期には研究なども退潮気味にあった。しかし、2006年にニューラルネットワークの代表的な研究者であるジェフリー・ヒントンらの研究チームが、制限ボルツマンマシンによるオートエンコーダ（自己符号化器）の深層化に成功し、再び注目を集めるようになった。この際、発表した論文から、これまでの多層ニューラルネットよりもさらに深いネットワーク構造を意味する、ディープネットワークの用語が定着した。元々はジェフリー・ヒントンらの開発したディープネットワークは層が直列された単純な構造をしていたが、現在のアルゴリズムは複数の分岐やループのある複雑なグラフ構造を持つ。そのため、基本技術をまとめて複雑なグラフ構造を簡単に実現できるようにしたライブラリも公開されている。

1979年に提唱されたネオコグニトロンなど、ニューラルネットワークの多層化の発想自体はコンピュータ黎明期からあり続けたものの、莫大な計算コストが問題となって研究は遅々として進まず、長らく低迷していた^[4]。

しかし、コンピュータのハード性能の急激な進歩、インターネット普及によるデータ収集の容易化、CPUよりも単純な演算の並列処理に優れたGPUの低価格化、また、それらの計算資源の拡張を礎として、画像処理におけるディープラーニングの有用性が競技会で世界的に認知された2012年頃からは急速に研究が活発となり、第三次人工知能ブームが到来したとされている^[5]。

歴史

→「ニューラルネットワーク § 歴史」も参照

人間の脳の構造を模した機械学習における最初の手法であるパーセプトロンが考案されたのは1957年であるが、計算機の性能の大幅な不足や、2層からなる単純パーセプトロンでは排他的論理和の認識ができないなどの欠点があったため、研究が大きく続けられることはなかった^[6]。その後、1980年代より、排他的論理和の問題を扱うことができる3層からなる多層パーセプトロンの学習を可能にするバックプロパゲーションが開発されたが、非効率的なメカニズムや、動詞の過去形など複雑な認識ができない（そもそも3層ニューラルネットで任意関数は全て近似可能であり、大脳新皮質がなぜ3層以上存在するのかが不明であった）などの要因により、1990年代後半には沈静化した^[7]^[8]。

長らく冬の時代が続いていたニューラルネットワークであるが、2006年にジェフリー・ヒントンによって積層自己符号化器（スタックトオートエンコーダ）など多層にネットワークを積み重ねる手法が提唱され、さらに2012年には物体の認識率を競うILSVRCにおいてジェフリー・ヒントン率いるトロント大学のチームがディープラーニングによって従来の手法（エラー率26%）に比べてエラー率17%と実に10%もの劇的な進歩を遂げたことが機械学習の研究者らに衝撃を与えた。その後もILSVRCでは毎年上位はディープラーニングを使ったチームが占めるようになり、エラー率は2014年時点で5%程度にまで改善した^[9]。

今日のディープラーニングにつながる世界的に最も先駆的研究として、日本の福島邦彦（NHK放送技術研究所、その後大阪大学基礎工学部生物工学科）によって1979年に発表されたネオコグニトロン^[10]^[11]が挙げられる^[12]^[13]。ネオコグニトロンには自己組織化機能があり、自ら学習することによってパターン認識能力を獲得（概念の形成）していく。応用例として、福島らは手書き文字データベース（ビッグデータ）から自己学習によって手書き文字認識能力（各文字の概念）が獲得されることを実証した。しかし、当時は「手書き文字認識方式の一つ」と誤解され、その重要性についての認識が世間に広がらなかった。

利用

ディープラーニングは物体認識を中心にさまざまな分野で活用されている。また、Googleをはじめとした多くのIT企業が研究開発に力を入れている。また、自動運転車の障害物センサーにも使われている^[14]

GoogleのAndroid 4.3^[15]は、音声認識にディープラーニング技術を活用することで、精度を25から50パーセント向上させた^[16]。2012年、スタンフォード大学との共同研究であるグーグル・ブレイン（英語版）は、1,000のサーバーの16,000のコアを使い、3日間で猫の画像に反応するニューラルネットワークを構築したと発表して話題となった^[17]^[18]。この研究では、200ドット四方の1,000万枚の画像を解析させている。ただし、人間の脳には遠く及ばないと指摘されている^[19]。GoogleLeNetと呼ばれるチームによるトロント大学との共同研究では、画像の説明文を自動で生成できる「Image to Text」と呼ばれるシステムを開発した。これは、コンピュータビジョンと自然言語処理を組み合わせ、ユーザーがアップロードした画像を認識し、説明文を表示するもの^[20]^[21]^[22]である。2015年3月、Schroffらは800万人の2億枚の画像を99.6%の精度で判定した（22層）^[23]。2016年1月、AlphaGoと呼ばれるシステムが中国系フランス人のヨーロッパ囲碁王者である樊麾と2015年10月に対局し、5戦全勝の成績を収めていたことが発表された。主に開発に携わったのは2013年にGoogleが買収したDeepMind。囲碁はチェスよりも盤面が広いために打てる手数の多さは比較にならないほどで人間のプロと互角に打てるようになるまでさらに10年はかかるという予測を覆した点と、囲碁に特化したエキスパートマシンではなく汎用的にも用いることができるシステムを使っている点に注目が集まった^[24]^[25]。2016年から2017年にかけては、いずれも世界トップクラスの棋士である韓国の李世乭と中国の柯潔と対戦し、2016年の李世ドルとの5番勝負では4勝1敗、2017年の柯潔との3番勝負では3連勝を収めた^[26]^[27]。

→「DQN (コンピュータ)」、「Google DeepMind」、「AlphaGo」、および「AlphaGo対李世ドル」も参照

中国では天網に代表されるようにディープラーニングが国民に対する当局の監視強化を目的に急速に普及しており^[28]^[29]^[30]、世界のディープラーニング用サーバーの4分の3を占めているとされる^[31]。米国政府によれば2013年からディープラーニングに関する論文数では中国が米国を超えて世界一となっている^[32]。ヒントンらと並んで「ディープラーニングの父」と呼ばれているヨシュア・ベンジオは中国が市民の監視や独裁政治の強化に人工知能を利用していることに警鐘を鳴らした^[33]^[34]。

Facebookは、ユーザーがアップロードした画像を、ディープラーニングによって認識させ、何が写っているかの判別精度を向上させている^[16]。また、人工知能研究ラボを2013年に立ち上げ^[35]、その成果としてディープラーニング開発環境を2015年1月16日にオープンソースで公開した。これは、GPU環境において、従来のコードの23.5倍の速度を実現しており^[36]、ディープラーニングの研究開発の促進が期待されている^[37]。

ニューラルネットワークによるディープラーニングを使ったニューラル機械翻訳（NMT）が登場したことで、翻訳の品質が大幅に向上した^[38]。

ネットワークモデル

ネットワークモデルは現在も盛んに研究されており、毎年新しいものが提案されている。

畳み込みニューラルネットワーク

畳み込みニューラルネットワーク (Convolutional Neural Networks: CNN) とは、全結合していない順伝播型ニューラルネットワークの一種。特に2次元の畳込みニューラルネットワークは人間の視覚野のニューロンの結合と似たニューラルネットワークであり、人間の認知とよく似た学習が行われることが期待される。結合がスパース（疎）であるため、全結合しているニューラルネットワークに比べて学習が高速である。

1979年に福島邦彦が発表したネオコグニトロンから発展し、1988年にHomma Toshiteruらが音素の認識に^[39]、1989年にYann LeCunらが文字画像の認識に使用し^[40]^[41]、1998年にLeCunらが発表したLeNet-5へと続き、2012年にILSVRCでの物体カテゴリ認識で優勝したアルゴリズムも深層畳み込みニューラルネットワークである^[42]。ネオコグニトロンの時から深層であったが、近年は深層であることを強調するため、深層が頭につき、深層畳み込みニューラルネットワークと呼ばれることもある。自然言語処理に対する応用もなされはじめた。

スタックトオートエンコーダ

まず3層のオートエンコーダで学習を行い、学習が完了したら次の層（4層目）をオートエンコーダとして学習する。これを必要な分だけ繰り返していき、最後に全層の学習を行う。事前学習とも呼ばれる。類似技術にディープビリーフネットワーク、ディープボルツマンマシンなどがある。

Residual network

入力データを出力に変える変換を学習するのではなく、残差を学習する。通常の多層ニューラルネットより勾配消失がおきにくく、はるかに多層化できる。実験的には1000層まで学習されたものもある。欠点としては、入力次元数と出力次元数を変えることができない。

敵対的生成ネットワーク

→詳細は「敵対的生成ネットワーク」を参照

2つのネットワークが相反した目的のもとに学習するネットワークモデル。Discriminatorが損失関数の役目を担う。二乗誤差最小化などでは、ピークが一つしか無いことを仮定しているが、discriminatorはニューラルネットであるのでピークを複数持つ確率分布を近似でき、より一般の確率分布を扱うことができる。

ボルツマンマシン

→詳細は「ボルツマンマシン」を参照

統計的な変動をもちいたホップフィールド・ネットワークの一種。

制限ボルツマンマシン

同一層間では接続を持たないボルツマンマシン。

回帰型ニューラルネットワーク

→詳細は「回帰型ニューラルネットワーク」を参照

回帰型ニューラルネットワーク (Recurrent Neural Network: RNN) とは、有向閉路を持つニューラルネットワークのこと。それ以前の入力によって変化する状態を保持する（オートマトン）。動画像、音声、言語など、入力データの順序によって出力が変わる場合に有効である。また、順伝播型ニューラルネットワークでは、近似できるピーク数が中間層の素子数に依存するのに対して、回帰型ニューラルネットワークでは無限の周期性を持つ関数を近似することが可能である。

1980年代から研究が始まり、1982年に発表されたホップフィールド・ネットワークが初期の研究。その後ElmanネットワークやJordanネットワークが発表され、1997年にS. HochreiterおよびJ. SchmidhuberらがLSTMネットワーク（長・短期記憶、Long short-term memory）を発表した。

特有の問題

勾配消失問題

確率的勾配法は誤差から勾配を計算して中間層の重みを修正するが、シグモイド関数などは見てすぐにわかる通り、勾配が0に近い領域が存在する。偶然その領域に進むと勾配が0に近くなり、重みがほぼ修正されなくなる。多層NNでは一か所でも勾配が0に近い層が存在すると、それより下の層の勾配も全て0に近くなるため、確率的には層数が増えるほど学習が難しくなる。詳しくはバックプロパゲーション、活性化関数も参照のこと。

過学習

トレーニングデータでは高識別率を達成しながら、テストデータでは識別率が低い現象。過剰適合も参照のこと。

局所最適解へのトラップ

学習が、大域的な最適解ではなく、局所的には適した解へと収束し、抜け出せなくなること。

テクニック

データ拡張

深層学習以外でも広く使われているが、入力データが画像など、どのようなテストデータが来るかあらかじめある程度の想定（モデル化）ができる場合は、たとえば画像の回転や引き延ばしを行うことで入力データ数を増やすことも昔から行われている。

活性化関数

古くからニューラルネットワークにおいてはシグモイド関数がよく使われていたが、勾配消失問題などにより、近年では別の関数が使われるようになった。詳しくは活性化関数を参照。

ReLU

→詳細は「正規化線形関数」を参照

ReLU（rectified linear unit ランプ関数とも呼ばれる）

f(x)=\max(0,x)

出力が0.0 - 1.0に規格化されないため勾配消失問題が起きにくく、またシグモイド関数に比べると単純であるために計算量が小さく学習が速く進む等のメリットがある^[43]。

maxout

複数の次元の最大値を出力する関数。CNNのプーリングと同じ計算である。高性能と言われるが、性質上、次元が減少する。特徴選択も兼ねていると言える。

ドロップアウト

ドロップアウトはランダムに任意のニューロン（次元）を何割か無視してしまう技術である。入力データを増やせずとも、次元を減らすことで解の有意性を上げることができる。ドロップアウトして得た学習結果は、テスト時には同時に使用し、結果は平均して用いる。これはRandom forestと同様、検出率の低い識別器でも並列化することで信頼度を上げることができるためである。

スパースコーディング

Lasso回帰（英語版）とも呼ばれる。辞書行列と係数行列の内積（線形結合）で入力データ(列ベクトル)を近似するとき、係数行列は疎行列（非零の要素が僅かしかない行列）になる。L1正則化のこと。

→「正則化」、「逆問題」、および「回帰モデル」も参照

バッチ正則化

バッチ学習を行う際に、バッチ正則化層を設け、白色化 (入力データを平均 0、分散 1 に正則化) する。従来は、内部共変量シフト (internal covariance shift) を抑えることで、学習が効率的に進むとされていたが、現在では単に内部共変量シフトだけによるものではないと考えられている^[44]^[45]^[46]。

ミニバッチ法

蒸留

事前学習 (Pre-training)

AdaGrad

Adam

ライブラリ

Caffe - Python, C++
torch - Lua
Theano - Python。関数型言語。並列化に特化し、GPUのコードが自動的に生成される。
Pylearn2 - Python
Blocks - Python
Keras - Python。TensorFlowのラッパー。Theanoでも動作可能。
Lasagne - Python
deepy - Python
cuDNN - NVIDIAが提供するCUDAベース (GPUベース) のDNN用プリミティブライブラリ。
Deeplearning4j - Java、Scalaが使用されている。
EBlearn - C++で書かれているCNN用ライブラリ。
cuda-convnet - C++/CUDA実装のCNN。基本的な機能はEBlearnと同じ。
Chainer - Python
TensorFlow - Python, C++
ReNom - Python
PyTorch
Microsoft Cognitive Toolkit - Python, C++, C#。以前はCNTKと呼ばれていた。
DyNet - Python, C++

脚注

[脚注の使い方]

注釈

^ 2層なら単純パーセプトロン。3層なら階層型ニューラルネット。これらと比較して深い層の階層型ニューラルネットを、深層（階層型）ニューラルネットと呼ぶ。

出典

^ ^a ^b 麻生英樹他、監修: 人工知能学会「深層学習手法の全体像」『深層学習』近代科学社、2015年、xiv頁。ISBN 9784764904873。
^ 深層学習人工知能学会深層学習手法の全体像xiii
^ 岡谷貴之深層学習 (機械学習プロフェッショナルシリーズ)、2015年4月8日、まえがき、ISBN 978-4061529021
^ 小林雅一 2015, p. 107.
^ “【第四回】今、最も熱いディープラーニングを体験してみよう（2ページ）”. エンタープライズ (2015年1月14日). 2015年5月30日閲覧。
^ 小林雅一 2013, p. 92.
^ “ディープラーニングはビジネスにどう使えるか?”. WirelessWire News (2015年5月20日). 2015年5月21日閲覧。
^ 小林雅一 2013, p. 94.
^ 浅川直輝 (2014年10月1日). “［脳に挑む人工知能1］驚異のディープラーニング、その原型は日本人が開発”. 日経 xTECH（クロステック）. 2019年12月20日閲覧。
^ “ネオコグニトロン”. 2015年6月30日閲覧。
^ “位置ずれに影響されないパターン認識機構の神経回路のモデル --- ネオコグニトロン ---”. 電子通信学会論文誌A (1979年10月1日). 2017年8月16日閲覧。
^ “「ネオコグニトロンはまだ進化する」、画像向けディープラーニング「CNN」の父に聞く” (2015年5月22日). 2015年9月3日閲覧。
^ “［CEDEC 2015］画像認識ではすでに人間を凌駕。ディープラーニングが日本を再生する”. 4gamer (2015年8月29日). 2015年9月1日閲覧。
^ “人とくるまのテクノロジー展2015 - 「ディープラーニング」を採用したZMPのRoboCar MiniVan”. マイナビニュース (2015年5月20日). 2015年5月26日閲覧。
^ “Googleのディープラーニングはレトロゲームを自分で学習してプレイする”. ascii×デジタル (2015年3月21日). 2015年5月21日閲覧。
^ ^a ^b 小林雅一 2015, p. 29.
^ 小林雅一 2015, p. 28.
^ “グーグルが開発を進めている、写真を「自動的に説明する」技術”. wired (2014年11月20日). 2015年5月18日閲覧。
^ “ディープラーニングというGPUの新市場”. PC Watch (2014年4月17日). 2015年5月21日閲覧。
^ “画像をアップすると自動で説明文を生成してくれる「Images to Text」”. GIGAZINE (2014年12月13日). 2015年5月21日閲覧。
^ “グーグルが開発を進めている、写真を「自動的に説明する」技術”. WIRED (2014年11月20日). 2015年5月30日閲覧。
^ “人工知能は世界をもっと認識できる：グーグルのコンピューターヴィジョン”. WIRED (2014年9月9日). 2015年5月30日閲覧。
^ CEDEC 2015 画像認識ではすでに人間を凌駕。ディープラーニングが日本を再生する松尾豊東京大学大学院准教授の発表スライドから
^ ITTOUSAI (2016年1月28日). “Googleの囲碁AI『AlphaGo』がプロ棋士に勝利、史上初の快挙。自己対局を機械学習して上達”. Engadget. 2016年3月2日閲覧。
^ CADE METZ (2016年1月31日). “「囲碁の謎」を解いたグーグルの超知能は、人工知能の進化を10年早めた”. WIRED. 2016年3月2日閲覧。
^ “＜囲碁：人間ｖｓ人工知能＞李世ドル「必ず勝ちたかったが、３連敗した時より今日のほうが辛かった」”. 中央日報. (2016年3月16日) 2018年2月7日閲覧。
^ “AlphaGoが最終戦も勝利で3連勝”. 日本棋院 (2017年5月27日). 2018年2月7日閲覧。
^ “顔認証で市民監視、中国の新たなAIツール”. ウォール・ストリート・ジャーナル. (2017年6月30日) 2018年2月7日閲覧。
^ “アングル：中国の顔認証技術に活況投資、監視用の需要も後押し”. ロイター. (2017年11月18日) 2018年2月7日閲覧。
^ “中国の「超ＡＩ監視社会」－－新疆ウイグル自治区では“体内”まで監視！”. 集英社. (2018年2月3日) 2018年2月7日閲覧。
^ “中国、新疆ウイグル自治区で顔認識システム運用をテスト。指定地域から300m以上離れると当局に警告”. Engadget. (2018年1月20日) 2018年2月7日閲覧。
^ “中国が「AI超大国」になる動きは、もはや誰にも止められない”. WIRED. (2017年8月16日) 2018年2月7日閲覧。
^ “「深層学習の父」、中国のＡＩ利用に警鐘”. Sankei Biz. (2019年4月1日) 2019年4月5日閲覧。
^ “Deep Learning ‘Godfather’ Bengio Worries About China's Use of AI”. ブルームバーグ. (2019年2月2日) 2019年4月5日閲覧。
^ “Facebook、人工知能研究ラボを立ち上げ”. ITMedia News (2013年12月10日). 2015年5月22日閲覧。
^ “Facebook、ディープラーニング開発環境「Torch」向けモジュールをオープンソースで公開”. ITMedia News (2015年1月19日). 2015年5月22日閲覧。
^ “Facebook、ディープラーニング技術をオープンソースに”. ZDNet Japan (2015年1月19日). 2015年5月22日閲覧。
^ 中澤敏明、機械翻訳の新しいパラダイム：ニューラル機械翻訳の原理『情報管理』 2017年 60巻 5号 p.299-306, doi:10.1241/johokanri.60.299
^ Homma, Toshiteru; Les Atlas; Robert Marks II (1988). “An Artificial Neural Network for Spatio-Temporal Bipolar Patters: Application to Phoneme Classification”. Advances in Neural Information Processing Systems 1: 31–40.
^ Yann Le Cun (June 1989). Generalization and Network Design Strategies.
^ Y. LeCun; B. Boser; J. S. Denker; D. Henderson; R. E. Howard; W. Hubbard; L. D. Jackel (1989). “Backpropagation applied to handwritten zip code recognition”. Neural Computation 1 (4): 541-551.
^ Alex Krizhevsky; Ilya Sutskever; Geoffrey E. Hinton (2012). “ImageNet Classification with Deep Convolutional Neural Networks”. Advances in Neural Information Processing Systems 25: 1097-1105.
^ 岡谷貴之深層学習 p11
^ [1806.02375]バッチ正規化について
^ Understanding Batch Normalization · Issue #942 · arXivTimes/arXivTimes · GitHub
^ 論文紹介 Understanding Batch Normalization - じんべえざめのノート

参考文献

小林雅一『AIの衝撃人工知能は人類の敵か』（第1刷）講談社〈講談社現代新書〉、2015年3月20日。ISBN 978-4-06-288307-8。
小林雅一『クラウドからAIへアップル、グーグル、フェイスブックの次なる主戦場』（第1刷）朝日新聞出版〈朝日新書〉、2013年7月30日。ISBN 978-4-02-273515-7。
松尾豊『人工知能は人間を超えるかディープラーニングの先にあるもの』（第1刷）KADOKAWA〈角川EPUB選書〉、2015年3月11日。ISBN 978-4040800202。

@@ 21行目: / 21行目: @@
 ディープラーニングは物体認識を中心にさまざまな分野で活用されている。また、Googleをはじめとした多くのIT企業が研究開発に力を入れている。また、自動運転車の障害物センサーにも使われている<ref>{{Cite web|url=http://news.mynavi.jp/articles/2015/05/20/automotive201501/|title=人とくるまのテクノロジー展2015 - 「ディープラーニング」を採用したZMPのRoboCar MiniVan|publisher=マイナビニュース|date=2015-5-20|accessdate=2015-5-26}}</ref>
-Googleの[[Android]] 4.3<ref>{{Cite web|url=http://ascii.jp/elem/000/000/991/991583/|title=Googleのディープラーニングはレトロゲームを自分で学習してプレイする|publisher=ascii×デジタル|date=2015-3-21|accessdate=2015-5-21}}</ref>は、音声認識にディープラーニング技術を活用することで、精度を25から50パーセント向上させた{{sfn|小林雅一|2015|p=29}}。2012年、[[スタンフォード大学]]との共同研究である{{仮リンク|グーグル・ブレイン|en|Google Brain}}は、1,000の[[サーバー]]の16,000のコアを使い、3日間で[[ネコ|猫]]の画像に反応するニューラルネットワークを構築したと発表して話題となった{{sfn|小林雅一|2015|p=28}}<ref name="wired112">{{Cite web|url=http://wired.jp/2014/11/20/google-image-recognition/|title=グーグルが開発を進めている、写真を「自動的に説明する」技術|publisher=wired|date=2014-11-20|accessdate=2015-5-18}}</ref>。この研究では、200ドット四方の1,000万枚の画像を解析させている。ただし、人間の脳には遠く及ばないと指摘されている<ref name="pcw632">{{Cite web|url=http://pc.watch.impress.co.jp/docs/column/kaigai/20140417_644632.html|title=ディープラーニングというGPUの新市場|publisher=PC Watch|date=2014-4-17|accessdate=2015-5-21}}</ref>。GoogleLeNetと呼ばれるチームによる[[トロント大学]]との共同研究では、画像の説明文を自動で生成できる「Image to Text」と呼ばれるシステムを開発した。これは、[[コンピュータビジョン]]と自然言語処理を組み合わせ、ユーザーがアップロードした画像を認識し、説明文を表示するもの<ref>{{Cite web|url=http://gigazine.net/news/20141213-images-to-text/|title=画像をアップすると自動で説明文を生成してくれる「Images to Text」|publisher=GIGAZINE|date=2014-12-13|accessdate=2015-5-21}}</ref><ref>{{Cite web|url=http://wired.jp/2014/11/20/google-image-recognition/|title=グーグルが開発を進めている、写真を「自動的に説明する」技術|publisher=WIRED|date=2014-11-20|accessdate=2015-5-30}}</ref><ref>{{Cite web|url=http://wired.jp/2014/09/09/google-research-object-recognition/|title=人工知能は世界をもっと認識できる：グーグルのコンピューターヴィジョン|publisher=WIRED|date=2014-9-9|accessdate=2015-5-30}}</ref>である。2015年3月、Schroffらは800万人の2億枚の画像を99.6%の精度で判定した（22層）<ref>[http://www.4gamer.net/games/999/G999902/20150829007/ CEDEC 2015 画像認識ではすでに人間を凌駕。ディープラーニングが日本を再生する]松尾豊東京大学大学院准教授の発表スライドから</ref>。2016年1月、[[AlphaGo]]と呼ばれるシステムが中国系フランス人の[[ヨーロッパ碁コングレス|ヨーロッパ囲碁王者]]である[[樊麾]]と2015年10月に対局し、5戦全勝の成績を収めていたことが発表された。主に開発に携わったのは2013年にGoogleが買収したDeepMind。囲碁は[[チェス]]よりも盤面が広いために打てる手数の多さは比較にならないほどで人間のプロと互角に打てるようになるまでさらに10年はかかるという予測を覆した点と、囲碁に特化したエキスパートマシンではなく汎用的にも用いることができるシステムを使っている点に注目が集まった<ref>
+Googleの[[Android (オペレーティングシステム)|Android]] 4.3<ref>{{Cite web|url=http://ascii.jp/elem/000/000/991/991583/|title=Googleのディープラーニングはレトロゲームを自分で学習してプレイする|publisher=ascii×デジタル|date=2015-3-21|accessdate=2015-5-21}}</ref>は、音声認識にディープラーニング技術を活用することで、精度を25から50パーセント向上させた{{sfn|小林雅一|2015|p=29}}。2012年、[[スタンフォード大学]]との共同研究である{{仮リンク|グーグル・ブレイン|en|Google Brain}}は、1,000の[[サーバー]]の16,000のコアを使い、3日間で[[ネコ|猫]]の画像に反応するニューラルネットワークを構築したと発表して話題となった{{sfn|小林雅一|2015|p=28}}<ref name="wired112">{{Cite web|url=http://wired.jp/2014/11/20/google-image-recognition/|title=グーグルが開発を進めている、写真を「自動的に説明する」技術|publisher=wired|date=2014-11-20|accessdate=2015-5-18}}</ref>。この研究では、200ドット四方の1,000万枚の画像を解析させている。ただし、人間の脳には遠く及ばないと指摘されている<ref name="pcw632">{{Cite web|url=http://pc.watch.impress.co.jp/docs/column/kaigai/20140417_644632.html|title=ディープラーニングというGPUの新市場|publisher=PC Watch|date=2014-4-17|accessdate=2015-5-21}}</ref>。GoogleLeNetと呼ばれるチームによる[[トロント大学]]との共同研究では、画像の説明文を自動で生成できる「Image to Text」と呼ばれるシステムを開発した。これは、[[コンピュータビジョン]]と自然言語処理を組み合わせ、ユーザーがアップロードした画像を認識し、説明文を表示するもの<ref>{{Cite web|url=http://gigazine.net/news/20141213-images-to-text/|title=画像をアップすると自動で説明文を生成してくれる「Images to Text」|publisher=GIGAZINE|date=2014-12-13|accessdate=2015-5-21}}</ref><ref>{{Cite web|url=http://wired.jp/2014/11/20/google-image-recognition/|title=グーグルが開発を進めている、写真を「自動的に説明する」技術|publisher=WIRED|date=2014-11-20|accessdate=2015-5-30}}</ref><ref>{{Cite web|url=http://wired.jp/2014/09/09/google-research-object-recognition/|title=人工知能は世界をもっと認識できる：グーグルのコンピューターヴィジョン|publisher=WIRED|date=2014-9-9|accessdate=2015-5-30}}</ref>である。2015年3月、Schroffらは800万人の2億枚の画像を99.6%の精度で判定した（22層）<ref>[http://www.4gamer.net/games/999/G999902/20150829007/ CEDEC 2015 画像認識ではすでに人間を凌駕。ディープラーニングが日本を再生する]松尾豊東京大学大学院准教授の発表スライドから</ref>。2016年1月、[[AlphaGo]]と呼ばれるシステムが中国系フランス人の[[ヨーロッパ碁コングレス|ヨーロッパ囲碁王者]]である[[樊麾]]と2015年10月に対局し、5戦全勝の成績を収めていたことが発表された。主に開発に携わったのは2013年にGoogleが買収したDeepMind。囲碁は[[チェス]]よりも盤面が広いために打てる手数の多さは比較にならないほどで人間のプロと互角に打てるようになるまでさらに10年はかかるという予測を覆した点と、囲碁に特化したエキスパートマシンではなく汎用的にも用いることができるシステムを使っている点に注目が集まった<ref>
 {{cite web
 |url  = http://japanese.engadget.com/2016/01/28/google-ai-alphago/