出典: フリー百科事典『ウィキペディア(Wikipedia)』
長・短期記憶 (LSTM) セルはデータを連続的に処理し、長時間にたってその隠れ状態を保持することができる。

長・短期記憶(ちょう・たんききおく、: Long short-term memory、略称: LSTM)は、深層学習(ディープラーニング)の分野において用いられる人工回帰型ニューラルネットワーク(RNN)アーキテクチャである[1]。標準的な順伝播型ニューラルネットワークとは異なり、LSTMは自身を「汎用計算機」(すなわち、チューリングマシンが計算可能なことを何でも計算できる)にするフィードバック結合を有する[2]。LSTMは(画像といった)単一のデータ点だけでなく、(音声あるいは動画といった)全データ配列を処理できる。例えば、LSTMは分割されていない、つながった手書き文字認識[3]音声認識[4][5]といった課題に適用可能である。ブルームバーグ ビジネスウィーク誌は「これらの力がLSTMを、病気の予測から作曲まで全てに使われる、ほぼ間違いなく最も商業的なAIの成果としている」と書いた[6]






LSTMは1997年にゼップ・ホッフライター英語版ユルゲン・シュミットフーバー英語版によって提唱された[1]。Constant Error Carousel(定誤差カルーセル、CEC)ユニットの導入によって、LSTMは勾配爆発および消失問題を解決しようとする。LSTMブロックの最初の型はセル、入力ゲート、および出力ゲートを含んでいた[7]

1999年、フェリックス・ゲルス英語版と彼のアドバイザーのユルゲン・シュミットフーバーとFred CumminsはLSTMアーキテクチャへ忘却ゲート(「保持ゲート」とも)を導入した[8]。これはLSTMが自身の状態をリセットすることを可能にする[7]。2000年、 ゲルス、シュミットフーバー、CumminsはLSTMアーキテクチャへ覗き穴(peehole)結合(セルからゲートへの結合)を追加した[9]。加えて、出力活性化関数は削除された[7]

2014年、Kyunghyun Cho(조 경현)らはゲート付き回帰型ユニット(Gated recurrent unit、GRU)と呼ばれる単純化した変異型を提案した[10]


2016年時点で、GoogleAppleマイクロソフトを含む主要なテクノロジー企業は新製品の基本要素としてLSTMを使用していた[14]。例えば、Googleはスマートフォン上での音声認識[15][16]、スマートアシスタントAllo[17]、およびGoogle翻訳[18][19]のためにLSTMを使用した。AppleはiPhone上の「Quicktype」機能[20][21]Siri[22]のためにLSTMを使用する。AmazonAmazon AlexaのためにLSTMを使用する[23]


2017年、ミシガン州立大学IBM基礎研究所コーネル大学の研究者らは、Knowledge Discovery and Data Mining(KDD)会議において研究発表を行った[25][26][27]。彼らの研究は、広く使われるLSTMニューラルネットワークよりも特定のデータセットに対して優れた性能を示す新規ニューラルネットワークに関するものである。


















  • : LSTMユニットへの入力ベクトル
  • : 忘却ゲートの活性化ベクトル
  • : 入力ゲートの活性化ベクトル
  • : 出力ゲートの活性化ベクトル
  • : LSTMユニットの出力ゲートとも呼ばれる隠れ状態ベクトル
  • : セル状態ベクトル
  • : 訓練中に学習される必要がある重み行列およびバイアスベクトルのパラメータ



  • : シグモイド関数
  • : 双曲線正接関数
  • : 双曲線正接関数または、覗き穴LSTMの論文[30][31]が提案しているように


となる。この式から が直接回帰し、がゲート・セルを通じて回帰していることがわかる。また入力と重みの積は時間を跨いで回帰無しに計算できることがわかる( で一括計算が可能)。


入力()、出力()、および忘却()ゲートを持つ覗き穴LSTMユニット。これらのゲートのそれぞれは順伝播型(または多層)ニューラルネットワークにおける「標準的」なニューロンとして考えることができる。すなわち、それらは(活性化関数を用いて)加重和の活性化を計算する。およびはそれぞれ時間ステップにおける入力、出力、および忘却ゲートの活性化を表わす。 記憶セルから3つのゲート、およびへ出ていく3本の矢印は「覗き穴」結合を表わす。これらの覗き穴結合は実際には時間ステップにおける記憶セルの活性化の寄与(すなわち、図が示唆するように、ではなくの寄与)を示す。言い換えれば、ゲート、およびは時間ステップにおけるそれらの活性化(すなわちおよび)を計算し、時間ステップにおける記憶セルの活性化(すなわち)も考慮する。 記憶セルから出る単一の左から右への矢印は覗き穴結合ではなく、を示す。 記号を含む小さな丸は出力間の要素毎の乗算を表わす。Sのような曲線を含む大きな丸は加重和への(シグモイド関数のような)微分可能な関数の適用を表わす。 LSTMには他にも多くの種類が存在する[7]







LSTMを用いるRNNは、一連の訓練において、教師あり学習のやり方で訓練できる。訓練では、最適化プロセス中で必要な勾配を計算するための通時的誤差逆伝播法英語版(Backpropagation through time、BPTT)と組み合わせて最急降下法のような最適化アルゴリズムを使って、(LSTMネットワークの出力層における)誤差の微分に比例してLSTMネットワークの個々の重みを変化させる。





多くの応用がLSTM RNNのスタックを使用し[36]、訓練セット中のラベル配列の確率を最大化する重み行列を探すために、それらをコネクショニスト時系列分類英語版(CTC)によって訓練する[37]。CTCはアラインメントと認識の両方を達成する。







2018年、ビル・ゲイツは、OpenAIによって開発されたボットがゲームDota 2で人間を破ることができた時、これを「人工知能の進歩における巨大な一里塚」と呼んだ[39]。OpenAI Fiveは5つの独立した、しかし協調したニューラルネットワークから成る。個々のネットワークは教師なしで方策勾配法によって訓練され、現在のゲーム状態を見て、複数の可能な動作から動作を出す単層の1024ユニットLSTMを含む[39]












