GPT-2

出典: フリー百科事典『ウィキペディア(Wikipedia)』
Generative Pre-trained Transformer 2 (GPT-2)
GPT-2がプロンプトを補完する様子を示すHugging FaceのWrite With Transformerのウェブサイト。Wikipediaのこの記事から得たテキストをプロンプトとして用いた。最初のプロンプトに続くハイライトされたテキストはすべて最初の補完候補から機械的に生成されたもので、それ以外の編集はない。
作者 OpenAI
初版 14 February 2019年 (5年前) (14 February 2019)
リポジトリ https://github.com/openai/gpt-2
前身 GPT-1
後継 GPT-3
種別 Transformer 言語モデル
公式サイト openai.com/blog/gpt-2-1-5b-release/
テンプレートを表示

Generative Pre-trained Transformer 2GPT-2) は、2019年2月にOpenAIによって開発されたオープンソース人工知能ソフトウェアである[1][2][3][4]。GPT-2は、テキストを翻訳し、質問に答え、文章の要約を行い[5]、時には人間と見分けがつかないようなテキスト出力を生成するが[6]、長い文章を生成すると繰り返したり意味不明な表現になることもある[7]。GPT-2は、多目的学習器であり、特定のタスク(仕事)を行うための特別な訓練を受けてはおらず、これらのタスクを行う能力は、任意の順序で次の項目を正確に合成する一般的な能力の延長線上にある[8][5]。GPT-2は、OpenAIの2018年版GPTモデルの「スケールアップ版」として構築され[9]、パラメータ数と訓練用データセットがともに10倍に増加した[4]

GPTアーキテクチャは、ディープラーニング(深層学習)によるニューラルネットワーク、具体的には「トランスフォーマー(Transformer)モデル」を実装しており[9]、これまでの回帰型や畳み込み型のアーキテクチャの代わりに「アテンション」を使用している[10][11]。アテンション機構により、モデルは、入力テキストの中から最も関連性が高いと予測される部位に選択的に焦点を当てることができる[12][13]。このモデルでは、並列化を大幅に向上させることができ、RNN/CNN/LSTMに基づくモデルのこれまでのベンチマークよりも優れた性能を発揮している[9]

OpenAIは、2019年11月、GPT-2言語モデルの完全版(15億個のパラメータを含む)を公開した[14]。GPT-2に続いて、1,750億個のパラメータを含むGPT-3[15]が、2020年に公開される予定だった[16](そのソースコードは公開されていない)。GPT-3へのアクセスは、OpenAIとマイクロソフトが提供するアプリケーションプログラミングインタフェース(API)を通じてのみ提供されている[17]

背景[編集]

コンピュータの黎明期英語版から人工知能は研究対象であった。1950年にアラン・チューリングが提唱した「イミテーション・ゲーム(imitation game)」(しばしばチューリング・テストと呼ばれる)は、電子システムや機械的システムの知的行動をとる能力を、評価者がシステムと人間の行動を区別する能力によって判定することを提案するものである[18]。「機械学習(machine learning)」という用語は、早くも1959年に、IBMの研究者であるアーサー・サミュエルによって、人工知能の可能性を説明する言葉として最初に使われた[19]。現在、この用語には、統計的学習データサイエンスニューラルネットワークなど、計算問題に対するさまざまな手法(しばしば人工知能の下に置かれる)が包含されている。

計算言語学[編集]

コンピュータによる自然言語処理(NLP)は、もともと計算言語学の一分野として考えられていたもので、コンピュータのハードウェアに能力が備わると同時に試みられるようになった。1948年、ロンドンのバークベック・カレッジで開発された辞書ルックアップテーブルが最初の応用例である[20]。1954年のジョージタウン大学での実験英語版では、60文のロシア語の文章を英語に翻訳するという(主にロシア語の単語を英語の同義語に置き換える)完全に自動化された機械翻訳が実演された[21][22]。そのシステムには6つの文法規則と250語の語彙しかなく[23]統語構造の解析や翻訳も行われなかったため、翻訳は粗雑なものが多かった[24]。しかし、この実験によって、コンピュータが自然言語を解釈し処理できることが一般に証明され[25]、さらなる研究のためにCIAの資金が確保された[21]。直接置換は、機械翻訳プログラムを評価する際の基準として残存している。

20世紀半ばには、人間とコンピュータの対話(HCI)に自然言語を利用するシステムも登場し始めた。1968年から1970年にかけてMITで開発された「SHRDLU」は、いくつかの物体がある仮想空間で、ユーザーが自然言語による命令を使って対話を行うプログラムである(たとえば「今持っているものより高いブロックを探して、箱の中に入れる」)[26][27]。1966年に開発されたおしゃべりロボットの「ELIZA」は、人間の対話者が入力したテキストからキーワードを解析し、会話に適する返答をした[28]。多くの被験者が、ELIZAの会話と人間の会話を区別できないと主張したが、これが知性を構成するかどうかという問題については議論となった(もっとも有名な台本は、心理療法士がユーザーの言ったことをほぼそのまま繰り返すというパロディであった)[29]

機械翻訳の初期の試みは純粋に計算によるものだったが、1950年代になると、計算言語学の主流がノーム・チョムスキー普遍文法という概念が重視されるようになった[20]。当時のNLP研究は、任意の自然言語の文を、言語に依存しない論理構造に還元する試みが中心であった。1970年代には、意味論的なNLPシステムは、構文的なエンコーディングsyntactic encodings)を避け、より一般意味論的なエンコーディング(semantic encodings)を支持するようになった[30]。しかし、ニューラルネットワークが登場するまでは、ほとんどのシステムが、手作業でプログラムされた大規模な(そしてますます扱いにくくなった)ルールセットに依存し続け、当初の狙いどおりに拡張することはできなかった[20]

人工知能の分野は20世紀後半も発展を続けたが、ときおり「AIの冬英語版」と呼ばれる停滞期が訪れた。さまざまな文献で「AIの冬」はさまざまな時期に発生したと述べられている。1994年にHoweは、1973年に始まって10年続いたと著し[31]、2003年のRussell & Norvigは、1988年にすぐ始まったと述べている[32]

ニューラルネットワーク[編集]

人工知能の初期の概念であるコネクショニズムは、生物学的な脳におけるニューロン(神経細胞)の挙動をシミュレートするように設計された人工ニューラルネットワークによって知的行動を引き起こそうとするものであった。人工ニューラルネットワークの最初の例は、1951年に構築された「SNARC英語版」である。「パーセプトロン」(二値分類器の一種)は、1957年に心理学者のフランク・ローゼンブラットによって発表された[33]。彼の機械は、400個のフォトセル(光電池)を「ニューロン」に接続して画像認識するように設計され、加重値はポテンショメータで決定されていた(訓練過程で電気モーターで調整[34])。パーセプトロンは大きな話題となり、ニューヨーク・タイムズ紙の記事で『(海軍が)期待する電子コンピュータの萠芽は、歩き、話し、見て、書き、自己複製し、自分の存在を意識できるようになるだろう』と紹介された[35]。しかし、マービン・ミンスキーシーモア・パパートによる1969年の書籍「パーセプトロン:計算機科学への道英語版」において[36]、当時の最先端技術(単層パーセプトロン)の欠点として、排他的論理和(XOR)関数を符号化できないことなどが指摘されて以来、パーセプトロンシステムは数十年間も衰退したままであった。この本は当時、有望な研究分野としてのパーセプトロン(および一般的なニューラルネットワーク)を否定するものと考えられていた[35]

ニューラルネットワークは、「訓練(training)」および「学習(learning)」という過程を経て、さまざまな入力を分類することができるようになる(すなわち個別のカテゴリに区分する)。学習は、まずネットワークの重み(各ニューロンの「活性化」が後続層の特定ニューロンの活性化に影響を与える量)をランダム(無作為)に初期化する。この状態では、ネットワークの出力も同様にランダムとなる。そして、ネットワークの出力がどれだけ望ましいできばえに近いかを定量的に測定する損失関数などの目的関数を定義する(たとえば、手書きの数字からなる入力が、その数字に対応する出力ニューロンのみを活性化させる頻度)[37]。この関数とネットワークのできばえから、重みを調整して性能を改善することができる[38]

バックプロパゲーションは、1974年のポール・ワーボス英語版の学位論文で初めて機械学習システムに適用した教師ありアルゴリズムであり[39]、所与の入出力例に対するネットワーク全体の重みの最適調整を記述するベクトル場である「勾配」の計算を効率化した[38][37]。この勾配を使用してニューラルネットワークを訓練する勾配降下法によって、より複雑なシステムを構築することが可能となり、1980年代にはニューラルネットワークの自然言語処理への応用が広まることになった[40][32]。1985年にはD.B. Parkerがワーボスの手法を再発見し[41]、1986年にはラメルハートヒントンウイリアムスが「深層学習(ディープラーニング)」ネットワークと呼ばれる隠れ層を持つニューラルネットワークで、入力データの内部表現を生成するためにこの手法を応用し[42]、この研究はその後の回帰型ニューラルネットワークの基礎を築いた。

従来の順伝播型ニューラルネットワーク(FFNN)は、各層が前の層からの出力を取り入れ、次の層に送り出すことからその名が付けられた。FFNNの構造には、情報が逆流するような「巡回(cycles)」は存在しない。これに対して、回帰型ニューラルネットワーク(RNN)は、活性化の流れの巡回を少なくとも一つ持っている[37]。RNNネットワークでは、ある項目そのものと、以前の項目を処理したときの出力の両方を使用して一連の項目を処理できるため、順序付いた項目を処理する(および将来の順序項目を予測する)ためによく使用された[37]

1979年に福島邦彦が哺乳動物の視覚野における神経構造モデルに基づいて提唱したネオコグニトロン[43]は、画像処理で広く使われる畳み込みニューラルネットワーク(CNN)の基礎を築いた[44]。CNNは、大きな入力層に対して小さな層を「重ねて滑らせる」ことで、より少ない計算量でより深い処理を行うことができる。たとえば、100×100の画像には10,000個の画素があり、全結合層で処理するには10,000個の重みが必要だが、画像上をスライドする5×5の「窓」からなる畳み込み層では、わずか25個の学習可能なパラメータでエッジ検出を行うことが可能である。畳み込み層は「プーリング層」によって結合され、「全結合層」(一般的に多層パーセプトロン)によって処理される。

自然言語処理のための機械学習[編集]

回帰型ニューラルネットワーク(RNN)は、系列的な情報を処理することができるため、多くの自然言語処理(NLP)アプリケーションで利用されている。RNNは、FFNNとは異なり、同じ項目に対して、順序項目の周囲の状況に応じて異なる重みを符号化する(そして異なる出力を与える)ことができる。ということは、一度に一個の単語を解析するRNNシステムでも、「黒い犬(black dog)」は毛むくじゃらの脚、「アメリカンドッグ(corn dog)」はケチャップ、「幻日(sun dog)」は屈折のように、同じ「dog」から異なる連想ができる。さらに、RNNでは、以前の順序項目の情報を再帰的に呼び出すことができるため、ずっと以前に遡って任意の項目を思い出すようにシステムを設計することができる。たとえば、「トムは黒い犬を見た」「トムはアメリカンドッグを見た」「トムは幻日を見た」という順序項目を、それぞれ「優しく」「飢えて」「間接的に」と続けることができるようになる[45][11]

しかし、多層型のFFNNとRNNは優れた解を出せる一方で、どちらも勾配消失問題に対して脆弱であることが判明した。勾配は有限精度の数値として符号化され、モデルの全ての層にわたって逆伝播する必要があるため、多数の層を重ねるとゼロに「消滅」、または無限大に「発散」する可能性がある。1995年-1997年にかけて、Sepp HochreiterJürgen Schmidhuberが初めて提案した長・短期記憶ネットワーク(LSTM)は、「入力」「出力」「忘却」ゲートを持つ複数の個別の「セル」からなる新しいアーキテクチャを導入することによって、この問題を解決しようとした[46][47][48]。2009年に、Alex Gravesチームが提出したLSTMに基づくモデルが、手書き文字認識ICDARコンペティションで優勝し[49]、もう一つのモデルは最も正確なモデル、3番目のモデルは最も高速なモデルであった[50]

RNNやLSTMが抱えるもう一つの問題は、以前の順序項目の文脈しか考慮できないことである[45][51]。このため、「トムはバイクに乗って店に行き、キックスタンドを下ろしてエンジンを切った」のように、「バイク(自転車)」が「モーターバイク(オートバイ)」であるという必要な文脈が最後でしか明らかにならない文章を解析するときに問題を引き起こすことがある。このような問題を解決する一つが双方向LSTM(bidirectional LSTM)であり、双方向に同時に進行することで、「過去」と「未来」の両方の入力特徴にアクセスすることを可能にする[45]条件付き確率場(CRF)は、タグを使って入力と出力を直接結びつける[45]。 上記のアプローチの組み合わせた、LSTM-CRFネットワークやBI-LSTM-CRFネットワークもある[45]。その他に、RNNモデルの改良として、ニューラルチューリングマシン英語版、適応計算時間(adaptive computation time)、ニューラルプログラマー(neural programmers)、アテンション機構などがあり、最後のものはGPT-2や関連技術の基礎をなしている[11]

選択的集中[編集]

2010年代初頭まで、ニューラル機械翻訳で最高の性能を発揮したのは、RNNやLSTMによる「エンコーダネットワーク」が原文をベクトルに符号化し、そのベクトルを同様のアーキテクチャの「デコーダネットワーク」が処理して翻訳出力を得るという「エンコーダ・デコーダ」モデルであった[12]。2014年に、非常に複雑な「アテンション」機構が導入され、これらのモデルの性能は大幅に向上した。アテンション機構は、デコーダネットワークに、テキスト全体を単一ベクトルとして解析するのではなく、原文の特定の側面に適応的に「アテンション(注意)」を集中させる能力を与えた[12][13]

その後、2017年には、さらに一歩進んでアテンション機構を使用して、RNN/LSTMアーキテクチャを完全に置き換えた「トランスフォーマー(Transformer)」モデルが導入された[10][11]

アテンション機構[編集]

エンコーダ・デコーダモデルの制約の一つに、より大きな文章を符号化して固定長のベクトルに圧縮することの難しさがあり、入力が大きくなるにつれて性能が低下することがよく見られた。2014年、Bahdanauらは[12]、「整列と翻訳を共同で行う」ことができるエンコーダ・デコーダモデルの拡張を発表した[13]。Bahdanauモデルのエンコーダ(各方向に1000個の隠れユニットを持つ双方向RNN)は、翻訳された原文の各単語に対して、その文の残り全てを検索して関連する情報の位置を探した。従来のように入力文全体を固定長でベクトル化してデコーダに入力するのではなく、それらの位置と以前に生成したターゲット語を関連付けた「文脈ベクトル」を生成した[12]。そして、デコーダ(これも1000個の隠れユニットを持つ)は、この文脈ベクトルを使用して、どこに「注意」を向けるかを決定した[12][13][11]

「アテンション」機構の探究は、Luongらによる2015年の論文で継続された[13]。Bahdanau論文に基づく「グローバル」アプローチと、原語の部分集合のみを一度に「考慮」する「ローカル」アプローチが試みられ、ローカルアプローチは、アーキテクチャ的にはより複雑だが、計算量が少なく、訓練が容易であった[13]。1秒間に1,000個のターゲット語を翻訳できるように特別に設計された英語-ドイツ語翻訳モデルを完全に訓練するのに7-10日を要した。その精度は、2014年のACL Workshop on Machine Translation(WMT'14)における英語-ドイツ語文ペアのタスクに対するテストで、23.0 BLEUという結果を達成した。これは、以前の試みで達成した最高結果であるBuck et al. 2014によるフレーズベースの言語モデルよりも2.1 BLEU優れていた[52][13]

Transformers[編集]

アテンション機構は、既存の畳み込み型ニューラルネットワーク回帰型ニューラルネットワークのアーキテクチャを改善するために使うことで性能向上に効果的であったが、すぐに、何も基礎を置かずにアテンション機構単独でも高性能なモデルを構築できることがわかった[10]

2017年6月、Google Brain英語版Google Research、およびトロント大学の研究者が発表した論文で、Transformerアーキテクチャが初めて紹介された[10]。Transformerは、畳み込み回帰を完全に捨て去り、アテンション機構のみに基づいたモデルの一種である。従来のRNNに基づくモデルと異なり、Transformerは、系列的に入力される各項目について順番に計算することなく処理できるため、大規模な並列化が可能であることを意味した[10]。WMT'14フランス語-英語タスクでは、Transformerアーキテクチャを使用して特別に訓練したフランス語-英語翻訳モデルが、41.8 BLEUという新しい単一モデルのベンチマークを達成することができた[10]。Transformerは、導入以来、多くの自然言語処理(NLP)アプリケーションで使用されている[53]

Generative Pre-trained Transformer[編集]

GPTモデルの模式図
GPTシリーズの比較
アーキテクチャ パラメータ数 訓練用データ
GPT-1 12層、12ヘッドのTransformerデコーダ(エンコーダなし)、次いで線形softmax 1.2億 BookCorpus: 4.5 GBのテキスト、さまざまなジャンルの未発表小説7000冊分[54]
GPT-2 GPT-1 変種 15億[55] WebTextコーパス (40 GB)
GPT-3 GPT-2, ただしスケーリングが大きく変更された 1750億 570 GBの平文、4,000億のトークン。主にCommonCrawlWebText、英語版Wikipedia、2つの書籍コーパス(Books1、Books2)

2018年6月11日、OpenAIは「Improving Language Understanding by Generative Pre-Training」(生成的事前学習による言語理解の向上)と題する論文を発表し、その中で「Generative Pre-trained Transformer(GPT)」と呼ぶNLPモデルを紹介した[9]。この当時、最高性能を発揮するニューラルNLPモデルでは、主に手作業でラベル付けされた大量のデータを用いて、教師あり学習を採用していた。こうした教師あり学習への依存によって、ラベル付けが十分でないデータセットでの利用は制限を受け、さらに非常に大規模なモデルを訓練するには非常に高価かつ時間もかかっていた[9][56]スワヒリ語ハイチ・クレオール語などの多くの言語は、コーパス構築のためのテキストが不足しているため、このようなモデルを用いて翻訳や通訳することは困難であった[56]。これに対して、GPTの「半教師付き」アプローチは、言語モデリングの目的に基づいて初期パラメータを設定する教師なし生成的「事前学習」段階と、これらのパラメータを標的タスクに適応させる教師あり識別的「微調整」段階の2段階に分けて行われた[9]

アテンション強化RNNを含む従来の技術とは異なり、Transformerアーキテクチャを用いたGPTには、より構造化された記憶が備わり、それによって「多様なタスクに対応できる頑健な転移性能」が実現された[9]

転移時には、トラバース形式の手法から派生したタスク固有の入力適応を利用し、構造化テキストの入力を単一の連続したトークン列として処理する。[9]

コーパス[編集]

教師なし事前学習は、さまざまなジャンルに属する7,000冊以上の未発表小説のデータセット「BooksCorpus」を用いて行われた[57]。このデータセットが選ばれた理由の一つは、長距離の情報を処理するためのモデルの条件として、連続した長い文章が求められたことにある。利用可能な他のデータセットは、規模は大きくても、このような長範囲的な構造がない(文レベルで「入れ替え」られている)ことを理由に却下された[9]。BooksCorpusのテキストをクリーニング(句読点や空白の標準化)するためにftfyライブラリが、トークン化ではspaCyが使われた[9]

アーキテクチャ[編集]

GPTのアーキテクチャ自体は、12層のデコーダのみのTransformerで、それぞれ64次元の状態を持つ12個のマスク付き自己アテンション・ヘッド(合計768個)を使用した。単純な確率的勾配降下法ではなく、Adam最適化アルゴリズムが使用された。学習率は、最初の2,000回の更新では、0から最大2.5×10−4まで線形に増加し、コサインスケジュールによって0までアニリーングされた[9]

512個の連続したトークンからなるランダムにサンプリングした64個のミニバッチの訓練を100エポック行う。レイヤーノルムはモデル全体で広く用われているため、N(0,0.02)の単純な重みの初期化で十分であった。40,000個のバイト対符号化(BPE)語彙のマージと、正則化には残差、埋め込み、アテンションのドロップアウトを比率0.1で行った。また、Loshchilov et al. 2017で提案されたL2正則化の修正版を採用し、すべての非バイアスウェイトやゲインウェイトはw=0.01とした。

 (中略)
原著で提案された正弦波バージョンの代わりに学習された位置埋め込みを使用した。
 (中略)

特に指定がない限り、教師なし事前学習でのハイパーパラメータ設定を再利用する。分類器にはドロップアウトを比率0.1で追加する。ほとんどのタスクでは、学習速度6.25e-5、バッチサイズ32を使用する。このモデルは高速に微調整され、ほとんどの場合は3エポックの訓練で十分であった。学習率は線形減衰スケジュールを用い、ウォームアップは訓練の0.2%以上とした。λは0.5とした[9]

GPTは、微調整の段階で特定のタスクに適応させたが、事前学習の段階はそうしなかった。さまざまなタスクを実行するために、タスクに依存しない基礎となるモデルアーキテクチャに最小限の変更が加えられた[9]。それにもかかわらず、GPTはいくつかの言語処理タスクにおいて過去のベンチマークを上回り、多くの多様なタスクにおいて、タスク指向のアーキテクチャを持つ識別的に訓練されたモデルより優れていた[9]

性能[編集]

自然言語推論(テキスト含意推論英語版(textual entailment)とも呼ばれる)タスクでは、モデルの評価は、さまざまなデータセットに含まれる文の対を解釈し、それらの関係を「含意」「矛盾」「中立」に分類する能力に基づいて行われる[9]。たとえば、QNLI(Wikipediaの記事)やMultiNLI(速記、大衆小説、政府報告など)といった情報源に対して[58]、GPTは従来の最高値からそれぞれ5.8%、1.5%優れていた[9]。同様に、質問応答や常識推論英語版に関連する2つのタスクでも、RACE(中学校と高校の筆記試験の問題と解答の組からなるデータセット)で5.7%[59]クローズ・テスト英語版で8.9%、従来のモデルをそれぞれ上回った[60]

もう一つの意味的類似性(または言い換え検出)のタスクでは、2つの文が互いに言い換えであるかどうかをモデルが予測できるかどうかを評価するもので、Quora Question Pairs(QQP)データセットで、GPTは従来の最高性能モデルよりも4.2%向上した[9]。また、Corpus of Linguistic Acceptability(CoLA)を用いたテキスト分類タスクでは、従来の最高スコア35.0に対してGPTはスコア45.4を達成した。最後に、マルチタスクテストのGLUEで[61]、GPTは総合スコア72.8(従来は68.9)を達成した[9]

GPT-2[編集]

GPT-2はGPTのスケールアップ版として作成され、パラメータ数とデータセットサイズをいずれも10倍にしている[8][9][4]。双方とも教師なしTransformerモデルで、一連のトークンの並びから次の単語を予測してテキストを生成するように訓練された。GPT-2モデルは15億のパラメータを持ち、800万のウェブページのデータセットで訓練が行われた[8]。GPT-2は、テキストサンプル中の一連の単語を解釈し、最も可能性の高い次の単語を予測するという非常に単純な基準で強化され、追加される単語を予測し続けることで完全な文や段落を生成し、自然言語で完全に理解できる(そして意味論的に意味を持つ)文を生成する[8]。特に、GPT-2は、ゼロショット設定英語版でのタスクに対する性能で評価された。

データセット[編集]

GPT-2は新規に開発された WebText コーパスをデータセットとして利用している。

WebTextコーパス[編集]

WebText コーパスは約800万のウェブページから抽出された高品質自然言語テキストコーパスである[62]

GPT-2はゼロショット推論可能な基盤モデルを意図して開発された。個別タスクを明示的に学習せずゼロショットで推論するには、学習用テキスト内に様々なタスクの具体例が(タスクラベル無しで)含まれている必要があると考えられる[63]。一方で質の低いテキストはモデルの精度を落とすため[64]コモン・クロールのような無作為収集されたコーパスは利用できない[65]。これらの問題を解決するためにGPT-2論文で開発されたコーパスが WebText コーパスである。

WebText は人間によるキュレーションを品質向上に利用している[66]。まずRedditで3回以上賛成票を受けたリンク先ウェブページを一定品質のテキストとみなし[67]、重複文章の除去・Wikipedia記事の削除[68]・ヒューリスティックによるクリーニングを経て、最終的に約800万のウェブページから抽出された約40GBの自然言語テキストをWebTextとしている[69]

モデル[編集]

GPT-2のモデルアーキテクチャはGPT-1のマイナーチェンジ版である。アーキテクチャ上の変更点は以下の通り:

  • Post LN → Pre LN[70]
  • 最終アテンションブロック後の追加LN[71]
  • 残差レイヤーの深度 重み付け初期化[72]

アーキテクチャはほぼ同一であるが、GPT-2はGPT-1より大きなモデルとなっている。モデル上の変更点は以下の通り:

  • モデルパラメータサイズ: 15億(約13倍)[55]
  • ボキャブラリ: 50,257[73]
  • コンテキストトークン長: 512→1024[74]

訓練[編集]

モデルと同じく学習もスケールされており、バッチサイズは512に変更されている[75]

GPT-2の訓練費用は1時間あたり256ドルであることが知られているが[76][77]、訓練に要した総時間は不明なため、訓練費用の総額を正確に見積もることはできない[78]。しかし、Transformerアーキテクチャを用いた同等の大規模言語モデルでの費用はより詳細に記述されており、BERTXLNetの訓練過程では、それぞれ6,912ドルと245,000ドルの資源を消費した[77]

性能[編集]

GPT-2が作成した、2020年の米国大統領選挙に勝利した後のエドワード・スノーデンの行動に関する架空のニュース記事。強調表示されたテキストはすべて機械が生成したものである。スノーデンは(生成時点で)公職に選出されたことはなかったが、生成されたサンプルは文法的にも文体的にも妥当なものである。

GPT-2は、そのデータセットとアプローチの広さによって、単純なテキスト生成にとどまらない幅広いタスクに対応できるようになった。質問に答えたり、長文を要約したり、さまざまな特定領域英語版で言語間の翻訳をしたり、一連の単語の次の予測方法以上のことは何も指示されずに実行できる[79][80]

一般化学習の一例は、フランス語-英語間の機械翻訳をするGPT-2の能力であり、そのために、WMT-14の翻訳タスクを使用してGPT-2の性能が評価された。GPT-2の訓練用コーパスには、フランス語のテキストはほとんど含まれていなかった。訓練前にデータセットのクリーニングで英語以外のテキストを意図的に削除したため、得られた40,000 MBのうちモデルが訓練に使用できたフランス語は10 MBにすぎなかった(ほとんどは英語の投稿や記事に含まれた外国語の引用)[8]。それでもGPT-2は、WMT-14の英語-フランス語間テストセットで5 BLEUを達成した(単語単位での置換による翻訳をわずかに下回るスコア)。また、フランス語から英語へのテストセットでGPT-2は、当時(2017年)の教師なし機械翻訳ベースラインを上回って、11.5 BLEUを達成した。これは、33.5 BLEUを達成した当時(2019年)最も高性能な教師なし手法を下回るものだった[8]。しかし、他のモデルは、この結果を達成するために大量のフランス語テキストを使用しており、一方のGPT-2は、同等の手法の約1/500のサイズの単一言語フランス語コーパスを使用したと推定された[8]

公開[編集]

GPT-2は、2019年2月14日に初めて発表された。2019年2月のThe Vergeに掲載されたJames Vincentによる記事では、『(このプログラムが)作り出す文章は、通常、人間ではないと容易に判別できる』ものの、言語生成プログラムの『これまでで、もっともわくわくする例の一つ』であることに変わりはないと述べている[79]

偽の見出しを付けると、あとは偽の引用や統計を交えた残りを書いてくれる。短編小説の最初の行を入力すると、登場人物に次に何が起こるか教えてくれる。適切なプロンプト(命令)を入力すれば、ファン・フィクションだって書ける[79]

ガーディアン紙はこの出力を『もっともらしい新聞の散文』と表現し[7]VoxKelsey Piperは『私がこれまで見た中で最もクールなAIシステムの一つは、私を失業に追い込むものかもしれない』と述べている[80]。GPT-2の柔軟性は、The Vergeによれば『印象的』と評され、具体的には、言語間でのテキスト翻訳、長文の記事の要約、雑学的な質問へ回答などの能力が注目された[79]

修正チューリングテストを用いたアムステルダム大学の研究では、少なくともいくつかのシナリオで、参加者はGPT-2が生成した詩と人間が書いた詩を見分けられないことが分かった[81]

制限と部分公開[編集]

「Skub」は実在する製品ではないが、DistilGPT2で使用されている縮小サイズのモデルでさえ、賛成と反対の両側からもっともらしい議論を作り出すことができる。

これまでOpenAIのモデルはすぐに一般公開されていたが、2019年2月の発表では、悪用される危険性があるとして[7]、GPT-2のソースコードの公開を当初拒否していた[7]。発表時には、一部の報道関係者にのみ、モデルへの制限付きアクセス(ソースコード自体ではなく、入力でき、出力を提供するインターフェース)が許可された。よく言われるのは、生成されたテキストは通常まったく新しいものなので、スパマー英語版自動フィルターを回避するために悪用する可能性があるという正当化の理由である。OpenAIは、GPT-2を微調整して『肯定的または否定的な製品レビューを永遠に生成する』バージョンを実演した[7]。もう一つの問題は、GPT-2を使用すると、わいせつあるいは人種差別的なテキストが生成される可能性があることである。ジェレミー・ハワードなどの研究者は、『この技術は、Twitterや電子メール、そしてウェブを、合理的な響きを持って文脈に沿った散文で完全に埋め尽し、他のすべての発言をかき消すようなものであり、フィルタリングは不可能になる』と警告した[79]アレン人工知能研究所英語版は、GPT-2に呼応して「ニューラルフェイクニュース」を検出するツールを発表した[82]

しかし、意見は分かれた。2019年2月のThe Vergeの記事は、GPT-2がもたらす脅威は誇張されていると論じ[83]カリフォルニア工科大学の教授でNvidiaの機械学習研究ディレクターであるAnima Anandkumarは、OpenAIが言うような脅威をもたらす能力がGPT-2にあるという証拠はなく、彼らがしたことは『オープンとは正反対』だと述べ、完全モデルの公開を拒否したことを「悪意のあるたわごと英語版」とみなした[83]The Gradient紙は、OpenAIに対してモデルの公開を促す公開書簡を発表し、テキスト生成AIがもたらす脅威を印刷機のそれと比較し、『混乱をもたらす可能性があったにものの、(幸いにも)現代社会を破壊しなかった技術』としてPhotoshopを例に挙げた[84]

30年後、Photoshopは高校生が使えるほど簡単で、動詞として広く使われているにもかかわらず、社会は比較的無事ですんでいる。なぜか?それは、誰もがPhotoshopを知っているからこそである[84]

774M公開[編集]

OpenAIは、完全な学習済みモデルや、訓練用コーパスを公開しなかったが、過去の出版物におけるその手法の説明(および基礎となる技術の無償での入手性)により、GPT-2はフリーソフトウェアとして他者が複製することが可能であった。そのような複製の一つ、OpenGPT-2は、OpenWebTextと呼ばれる自由ライセンス版のWebTextと組み合わせて2019年8月に公開された。OpenGPT-2のクラウドコンピューティング費用は約50,000ドルと提示された[85]

2019年8月20日、OpenAIは、7億7,400万のパラメータ(15億パラメータの完全モデルの約半分の規模)を持つGPT-2の縮小版を公開した[2]

完全版1.5B公開[編集]

しかし、GPT-2が広範な悪用につながるのではないかという当初の懸念は、現実のものとならなかった。The Vergeは、『AI技術がある種の「情報世紀末(infopocalypse)」をもたらすという主張には懐疑的な理由がある。まず第一に、わずかなコストでもっともらしい文章を大量に生成できるプログラム、すなわち人間が既に存在している。』 と述べている[86]。2019年11月までに、OpenAIは『これまでのところ悪用された強い証拠は見られない』と述べ、2019年11月5日に15億のパラメータを持つ完全版を公開した[3][14]

限界[編集]

GPT-2は、さまざまなシナリオに対してテーマに沿ったテキストを生成することができる。たとえば、ドナルド・トランプがアニメ キャラクターの惣流・アスカ・ラングレーを賞賛する演説をしたというCNNの記事のような非現実的なものでさえ生成することができる。ここでは、1.5Bの完全モデルであっても、第2段落では文法の劣化が始まり、最終的には意味不明な一文が何度も繰り返される出力など、出力が長くなるにつれて無意味で反復的なテキストを生成する傾向が見られる。

GPT-2の自然言語テキストの生成能力は、おおむね高く評価されているが、特に段落数が2段を超える長いテキストを生成する場合には、その欠点も指摘されている。Voxは『散文はかなり大まかで、ときおり非合理的なこともあり、記事が長くなればなるほど一貫性が失われる』と述べている[80]The Vergeも同様に、GPT-2の文章は長いサンプルになると『話題がそれる』傾向があり、首尾一貫性に欠けると指摘した[79]The Register英語版は、『それを読んだ人間は、しばらくすると、何かが起きていることに気づくはずだ』と評し、『GPT-2は、情報を抽出し取りだすためにアルゴリズムに依存する他のシステムと同様、質問には答えていない』と述べている[76]

GPT-2を導入するには多くの資源が必要で、完全版モデルの大きさは5ギガバイトを超えるため、アプリケーションにローカルに組み込むことが難しく、また大量のメモリー(RAM)を消費する。また、1回の予測を行うと『CPUを100%の使用率で数分間占有することがある』ほか、GPU処理でも『1回の予測に数秒かかることがある』[6]。これらの問題を軽減するために、Hugging Faceは、知識蒸留を使用して、『いくつかの品質ベンチマークで数ポイント低い』ものの、『33%小さく、2倍速い』という小型モデルを作成するDistilGPT2を開発した[6]

実装とその後の研究[編集]

ジャーナリストによって報じられたGPT-2の応用として、ニュース記事などの文章を人間が書くことを補助するなどが挙げられている[7]。GPT-2は、製品版の公開以前から、さまざまなアプリケーションやサービス、それにエンターテインメントに利用されていた。2019年6月にはRedditサイト内に、r/SubSimulatorGPT2というコミュニティ(サブレディット)が作られ、さまざまなサブレディットで訓練したGPT-2の実例(インスタンス)が投稿し、互いのコメントに返信することで『r/Bitcoinが擬人化したAIと、r/ShittyFoodPornの機械学習に由来する霊が議論する』状況が作られた[86]。同年7月までに、GPT-2に基づいて、さまざまなプログラミング言語のコード行を自動補完するソフトウェアが公開され、ユーザーから「ゲームチェンジャー(トレンドを変えるできごと)」と評された[87]

2019年には、GPT-2を利用し、ユーザーの入力に基づいて動的なテキストアドベンチャーを提供するAI Dungeon英語版が発表された[88]。2021年現在、AI Dungeonは、オプションの有料アップグレードとしてGPT-3の最大リリースAPIへのアクセスを提供し、無料版ではGPT-3の2番目に大きなリリースを使用した[89]。AI Dungeonを中心に設立されたLatitudeは、2021年に開業資金英語版330万ドルを調達した[90]。いくつかのウェブサイトでは、GPT-2やその他のTransformerモデルのさまざまなインスタンスの対話的なデモンストレーションを公開している[91][92][93]

2021年2月、問題を抱えたティーンエージャー向けの危機管理センターが、カウンセラーが十代の模擬患者と会話をしてトレーニングするために、GPT-2由来のチャットボットの使用を始めると発表した(この使用は純粋に内部目的であり、GPT-2はティーンエージャー自身と交信しなかった)[94]

脚注[編集]

  1. ^ Piper, Kelsey (2019年5月15日). “A poetry-writing AI has just been unveiled. It's ... pretty good.”. Vox. 2020年11月7日時点のオリジナルよりアーカイブ。2020年12月19日閲覧。
  2. ^ a b Johnson, Khari (2019年8月20日). “OpenAI releases curtailed version of GPT-2 language model”. VentureBeat. 2020年12月18日時点のオリジナルよりアーカイブ。2020年12月19日閲覧。
  3. ^ a b Vincent, James (2019年11月7日). “OpenAI has published the text-generating AI it said was too dangerous to share”. The Verge. 2020年6月11日時点のオリジナルよりアーカイブ。2020年12月19日閲覧。
  4. ^ a b c Better Language Models and Their Implications”. OpenAI (2019年2月14日). 2020年12月19日時点のオリジナルよりアーカイブ。2020年12月19日閲覧。
  5. ^ a b Hegde, Chaitra; Patil, Shrikumar (9 June 2020). "Unsupervised Paraphrase Generation using Pre-trained Language Models". arXiv:2006.05477 [cs.CL]。
  6. ^ a b c Kaiser, Caleb (2020年1月31日). “Too big to deploy: How GPT-2 is breaking servers”. Towards Data Science. 2020年2月15日時点のオリジナルよりアーカイブ。2021年2月27日閲覧。
  7. ^ a b c d e f Hern, Alex (2019年2月14日). “New AI fake text generator may be too dangerous to release, say creators”. The Guardian. 2019年2月14日時点のオリジナルよりアーカイブ。2020年12月19日閲覧。
  8. ^ a b c d e f g Radford, Alec; Wu, Jeffrey; Child, Rewon; Luan, David; Amodei, Dario; Sutskever, Ilua (14 February 2019). Language models are unsupervised multitask learners. 1. オリジナルの6 February 2021時点におけるアーカイブ。. https://web.archive.org/web/20210206183945/https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf 2020年12月19日閲覧。. 
  9. ^ a b c d e f g h i j k l m n o p q r s Improving Language Understanding by Generative Pre-Training”. OpenAI. pp. 12 (2018年6月11日). 2021年1月26日時点のオリジナルよりアーカイブ。2021年1月23日閲覧。
  10. ^ a b c d e f Polosukhin, Illia; Kaiser, Lukasz; Gomez, Aidan N.; Jones, Llion; Uszkoreit, Jakob; Parmar, Niki; Shazeer, Noam; Vaswani, Ashish (12 June 2017). "Attention Is All You Need". arXiv:1706.03762 [cs.CL]。
  11. ^ a b c d e Olah, Chris; Carter, Shan (8 September 2016). “Attention and Augmented Recurrent Neural Networks”. Distill 1 (9). doi:10.23915/distill.00001. オリジナルの22 December 2020時点におけるアーカイブ。. https://web.archive.org/web/20201222104024/https://distill.pub/2016/augmented-rnns/ 2021年1月22日閲覧。. 
  12. ^ a b c d e f Bahdanau, Dzmitry; Cho, Kyunghyun; Bengio, Yoshua (1 September 2014). "Neural Machine Translation by Jointly Learning to Align and Translate". arXiv:1409.0473 [cs.CL]。
  13. ^ a b c d e f g Luong, Minh-Thang; Pham, Hieu; Manning, Christopher D. (17 August 2015). "Effective Approaches to Attention-based Neural Machine Translation". arXiv:1508.04025 [cs.CL]。
  14. ^ a b GPT-2: 1.5B Release” (英語). OpenAI (2019年11月5日). 2019年11月14日時点のオリジナルよりアーカイブ。2019年11月14日閲覧。
  15. ^ Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (22 July 2020). "Language Models are Few-Shot Learners". arXiv:2005.14165 [cs.CL]。
  16. ^ Arram (2020年7月9日). “GPT-3: An AI that's eerily good at writing almost anything”. Arram Sabeti. 2020年7月20日時点のオリジナルよりアーカイブ。2020年7月31日閲覧。
  17. ^ Hao, Karen (September 23, 2020). “OpenAI is giving Microsoft exclusive access to its GPT-3 language model” (英語). MIT Technology Review. https://www.technologyreview.com/2020/09/23/1008729/openai-is-giving-microsoft-exclusive-access-to-its-gpt-3-language-model/ 2020年9月25日閲覧. ""The companies say OpenAI will continue to offer its public-facing API, which allows chosen users to send text to GPT-3 or OpenAI’s other models and receive its output. Only Microsoft, however, will have access to GPT-3’s underlying code, allowing it to embed, repurpose, and modify the model as it pleases."" 
  18. ^ Turing, Alan (October 1950), "Computing Machinery and Intelligence", Mind, LIX (236): 433–460, doi:10.1093/mind/LIX.236.433, ISSN 0026-4423
  19. ^ Samuel, Arthur (1959). “Some Studies in Machine Learning Using the Game of Checkers”. IBM Journal of Research and Development 3 (3): 210–229. doi:10.1147/rd.33.0210. 
  20. ^ a b c Hancox, P.J. (1996年1月26日). “SEM1A5 – Part 1 – A brief history of NLP”. University of Birmingham. 2021年1月13日時点のオリジナルよりアーカイブ。2021年1月12日閲覧。
  21. ^ a b Nye, Mary Jo (2016). “Speaking in Tongues: Science's centuries-long hunt for a common language”. Distillations 2 (1): 40–43. オリジナルの3 August 2020時点におけるアーカイブ。. https://web.archive.org/web/20200803130801/https://www.sciencehistory.org/distillations/magazine/speaking-in-tongues 2018年3月22日閲覧。. 
  22. ^ Gordin, Michael D. (2015). Scientific Babel: How Science Was Done Before and After Global English. Chicago, Illinois: University of Chicago Press. ISBN 9780226000299 
  23. ^ John Hutchins. The first public demonstration of machine translation: the Georgetown-IBM system, 7th January 1954 (PDF) (Report). S2CID 132677
  24. ^ Reifler, Erwin (February 2–5, 1960). “The solution of MT linguistic problems through lexicography.”. Proceedings of the National Symposium on Machine Translation. 
  25. ^ Hutchins, John (1997). “From first conception to first demonstration: the nascent years of machine translation, 1947–1954. A chronology.”. Machine Translation 12, 195–252 12 (3): 195–252. doi:10.1023/A:1007969630568. 
  26. ^ Winograd, Terry (1971-01-01) (英語). Procedures as a Representation for Data in a Computer Program for Understanding Natural Language. hdl:1721.1/7095. オリジナルの2021-01-13時点におけるアーカイブ。. https://web.archive.org/web/20210113121007/https://dspace.mit.edu/handle/1721.1/7095 2021年1月12日閲覧。. 
  27. ^ SHRDLU”. Stanford Human-Computer Interaction (HCI) Group. 2020年8月16日時点のオリジナルよりアーカイブ。2021年1月12日閲覧。
  28. ^ Weizenbaum, Joseph (January 1966), “ELIZA – A Computer Program For the Study of Natural Language Communication Between Man And Machine”, Communications of the ACM 9 (1): 36–45, doi:10.1145/365153.365168 
  29. ^ Bassett, Caroline (2019). “The computational therapeutic: exploring Weizenbaum's ELIZA as a history of the present”. AI & Society 34 (4): 803–812. doi:10.1007/s00146-018-0825-9. 
  30. ^ Hancox, P.J. (1996年1月26日). “SEM1A5 – Part 1 – The state-of-the-art”. University of Birmingham. 2021年1月16日時点のオリジナルよりアーカイブ。2021年1月12日閲覧。
  31. ^ Howe, J. (1994年11月). “Artificial Intelligence at Edinburgh University : a Perspective”. 2007年8月17日時点のオリジナルよりアーカイブ。2007年8月30日閲覧。 “Lighthill's [1973] report provoked a massive loss of confidence in AI by the academic establishment in the UK (and to a lesser extent in the US). It persisted for a decade ― the so-called 'AI Winter'”
  32. ^ a b Russell, Stuart J.; Norvig, Peter (2003), Artificial Intelligence: A Modern Approach (2nd ed.), Upper Saddle River, New Jersey: Prentice Hall, p. 24, ISBN 0-13-790395-2, オリジナルの2011-02-28時点におけるアーカイブ。, https://web.archive.org/web/20110228023805/http://aima.cs.berkeley.edu/ 2021年1月12日閲覧, ""Overall, the AI industry boomed from a few million dollars in 1980 to billions of dollars in 1988. Soon after that came a period called the 'AI Winter'"" 
  33. ^ Rosenblatt, Frank (1957). “The Perceptron—a perceiving and recognizing automaton”. Report 85-460-1 (Cornell Aeronautical Laboratory). 
  34. ^ Bishop, Christopher M. (2006). Pattern Recognition and Machine Learning. Springer. ISBN 0-387-31073-8 
  35. ^ a b Olazaran, Mikel (1996). “A Sociological Study of the Official History of the Perceptrons Controversy”. Social Studies of Science 26 (3): 611–659. doi:10.1177/030631296026003005. JSTOR 285702. 
  36. ^ Minsky, Marvin; Papert, Seymour (1969), Perceptrons: An Introduction to Computational Geometry, MIT Press, ISBN 0-262-63022-2 
  37. ^ a b c d Wilson, Bill (2012年6月24日). “The Machine Learning Dictionary”. www.cse.unsw.edu.au. 2018年8月26日時点のオリジナルよりアーカイブ。2021年1月19日閲覧。
  38. ^ a b Goodfellow, Ian; Bengio, Yoshua; Courville, Aaron (2016). “6.5 Back-Propagation and Other Differentiation Algorithms”. Deep Learning. MIT Press. pp. 200–220. ISBN 9780262035613. オリジナルの2018-01-27時点におけるアーカイブ。. https://web.archive.org/web/20180127104809/http://www.deeplearningbook.org/ 2021年3月14日閲覧。 
  39. ^ Werbos, Paul J. (1994). The Roots of Backpropagation : From Ordered Derivatives to Neural Networks and Political Forecasting. New York: John Wiley & Sons. ISBN 0-471-59897-6 
  40. ^ Crevier, Daniel [in 英語] (1993), AI: The Tumultuous Search for Artificial Intelligence, New York, NY: BasicBooks, ISBN 0-465-02997-3
  41. ^ Parker, D.B. (1985). Learning Logic. Cambridge MA: Massachusetts Institute of Technology. 
  42. ^ Rumelhart, David E.; Hinton, Geoffrey E.; Williams, Ronald J. (1986a). “Learning representations by back-propagating errors”. Nature 323 (6088): 533–536. Bibcode1986Natur.323..533R. doi:10.1038/323533a0. 
  43. ^ Fukushima, Kunihiko「位置ずれに影響されないパターン認識機構の神経回路のモデル --- ネオコグニトロン ---」『Trans. IECE』J62-A第10号、1979年10月、658–665頁、 オリジナルの2021年1月28日時点におけるアーカイブ、2021年1月20日閲覧 
  44. ^ LeCun, Yann; Bengio, Yoshua; Hinton, Geoffrey (2015). “Deep learning”. Nature 521 (7553): 436–444. Bibcode2015Natur.521..436L. doi:10.1038/nature14539. PMID 26017442. 
  45. ^ a b c d e Bajpai, Akash (2019年2月23日). “Recurrent Neural Networks: Deep Learning for NLP”. Towards Data Science. 2021年1月19日閲覧。
  46. ^ ゼップ・ホッフライター; ユルゲン・シュミットフーバー (1995年8月21日), Long Short Term Memory, ftp://ftp.idsia.ch/pub/juergen/fki-207-95.ps.gz , Wikidata Q98967430
  47. ^ ゼップ・ホッフライター; ユルゲン・シュミットフーバー (1997年), “LSTM can Solve Hard Long Time Lag Problems” (英語), Advances in Neural Information Processing Systems 9, Advances in Neural Information Processing Systems, https://papers.nips.cc/paper/1215-lstm-can-solve-hard-long-time-lag-problems.pdf , Wikidata Q77698282
  48. ^ Sepp Hochreiter; Jürgen Schmidhuber (1997). “Long short-term memory”. Neural Computation 9 (8): 1735–1780. doi:10.1162/neco.1997.9.8.1735. PMID 9377276. オリジナルの2021-01-22時点におけるアーカイブ。. https://web.archive.org/web/20210122144703/https://www.researchgate.net/publication/13853244_Long_Short-term_Memory 2021年1月20日閲覧。. 
  49. ^ Graves, A.; Liwicki, M.; Fernández, S.; Bertolami, R.; Bunke, H.; Schmidhuber, J. (May 2009). “A Novel Connectionist System for Unconstrained Handwriting Recognition”. IEEE Transactions on Pattern Analysis and Machine Intelligence 31 (5): 855–868. doi:10.1109/tpami.2008.137. ISSN 0162-8828. PMID 19299860. 
  50. ^ Märgner, Volker; Abed, Haikal El (July 2009). “ICDAR 2009 Arabic Handwriting Recognition Competition”. 2009 10th International Conference on Document Analysis and Recognition: 1383–1387. doi:10.1109/ICDAR.2009.256. ISBN 978-1-4244-4500-4. 
  51. ^ Olah, Chris (2015年8月27日). “Understanding LSTM Networks”. 2017年8月1日時点のオリジナルよりアーカイブ。2021年1月22日閲覧。
  52. ^ N-gram Counts and Language Models from the Common Crawl”. pp. 3579–3584 (2014年5月). 2021年1月28日時点のオリジナルよりアーカイブ。2021年1月22日閲覧。
  53. ^ Wolf, Thomas; Debut, Lysandre; Sanh, Victor; Chaumond, Julien; Delangue, Clement; Moi, Anthony; Cistac, Pierric; Rault, Tim et al. (2020). “Transformers: State-of-the-Art Natural Language Processing”. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. pp. 38–45. doi:10.18653/v1/2020.emnlp-demos.6 
  54. ^ Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (2015). Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books. pp. 19–27. arXiv:1506.06724. https://www.cv-foundation.org/openaccess/content_iccv_2015/html/Zhu_Aligning_Books_and_ICCV_2015_paper.html. 
  55. ^ a b "Our largest model, GPT-2, is a 1.5B parameter Transformer" Radford. (2019)
  56. ^ a b Tsvetkov, Yulia (2017年6月22日). “Opportunities and Challenges in Working with Low-Resource Languages”. Carnegie Mellon University. 2020年3月31日時点のオリジナルよりアーカイブ。2021年1月23日閲覧。
  57. ^ Zhu, Yukun; Kiros, Ryan; Zemel, Richard; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (22 June 2015). "Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books". arXiv:1506.06724 [cs.CV]. # of books: 11,038 / # of sentences: 74,004,228 / # of words: 984,846,357 / mean # of words per sentence: 13 / median # of words per sentence: 11
  58. ^ A Broad-Coverage Challenge Corpus for Sentence Understanding through Inference”. Association for Computational Linguistics (2018年6月1日). 2020年2月11日時点のオリジナルよりアーカイブ。2021年1月23日閲覧。 “At 433k examples, this resource is one of the largest corpora available for natural language inference (a.k.a. recognizing textual entailment), [...] offering data from ten distinct genres of written and spoken English [...] while supplying an explicit setting for evaluating cross-genre domain adaptation.”
  59. ^ Lai, Guokun; Xie, Qizhe; Hanxiao, Liu; Yang, Yiming; Hovy, Eduard (15 April 2017). "RACE: Large-scale ReAding Comprehension Dataset From Examinations". arXiv:1704.04683 [cs.CL]。
  60. ^ LSDSem 2017 Shared Task: The Story Cloze Test”. Association for Computational Linguistics (2017年4月3日). 2020年11月22日時点のオリジナルよりアーカイブ。2021年1月23日閲覧。 “The LSDSem’17 shared task is the Story Cloze Test, a new evaluation for story understanding and script learning. This test provides a system with a four-sentence story and two possible endings, and the system must choose the correct ending to the story. Successful narrative understanding (getting closer to human performance of 100%) requires systems to link various levels of semantics to commonsense knowledge.”
  61. ^ Wang, Alex; Singh, Amanpreet; Michael, Julian; Hill, Felix; Levy, Omar; Bowman, Samuel R. (20 April 2018). "GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding". arXiv:1804.07461 [cs.CL]。
  62. ^ "a new dataset of millions of webpages called WebText ... which emphasizes document quality." Radford. (2019). Language Models are Unsupervised Multitask Learners.
  63. ^ "Our approach motivates building as large and diverse a dataset as possible in order to collect natural language demonstrations of tasks in as varied of domains and contexts as possible." Radford. (2019)
  64. ^ Trinh, Trieu H.; Le, Quoc V. (7 June 2018). "A Simple Method for Commonsense Reasoning". arXiv:1806.02847 [cs.CL]。
  65. ^ "Common Crawl ... they have significant data quality issues ... We observed similar data issues in our initial experiments with Common Crawl." Radford. (2019)
  66. ^ "emphasizes document quality. To do this we only scraped web pages which have been curated/filtered by humans." Radford. (2019)
  67. ^ "we scraped all outbound links from Reddit, a social media platform, which received at least 3 karma." Radford. (2019)
  68. ^ 他の多くのデータセットに含まれているので、過剰適合の原因となる可能性があった
  69. ^ "a preliminary version of WebText ... which ... contains slightly over 8 million documents for a total of 40 GB of text." Radford. (2019)
  70. ^ "Layer normalization ... was moved to the input of each sub-block" Radford. (2019)
  71. ^ "an additional layer normalization was added after the final self-attention block." Radford. (2019)
  72. ^ "A modified initialization which accounts for the accumulation on the residual path with model depth ... scale the weights of residual layers at initialization by a factor of 1/√N where N is the number of residual layers." Radford. (2019)
  73. ^ "The vocabulary is expanded to 50,257." Radford. (2019)
  74. ^ "We also increase the context size from 512 to 1024 tokens" Radford. (2019)
  75. ^ "a larger batchsize of 512 is used." Radford. (2019)
  76. ^ a b Quach, Katyanna (2019年2月14日). “Roses are red, this is sublime: We fed OpenAI's latest chat bot a classic Reg headline”. The Register. 2021年3月9日時点のオリジナルよりアーカイブ。2021年2月27日閲覧。
  77. ^ a b The Staggering Cost of Training SOTA AI Models”. Synced (2019年6月27日). 2020年11月24日時点のオリジナルよりアーカイブ。2021年2月27日閲覧。
  78. ^ Wiggers, Kyle (2020年3月23日). “Google open-sources framework that reduces AI training costs by up to 80%”. VentureBeat. 2020年11月26日時点のオリジナルよりアーカイブ。2021年2月27日閲覧。
  79. ^ a b c d e f Vincent, James (2019年2月14日). “OpenAI's new multitalented AI writes, translates, and slanders”. The Verge. 2020年12月18日時点のオリジナルよりアーカイブ。2020年12月19日閲覧。
  80. ^ a b c Piper, Kelsey (2019年2月14日). “An AI helped us write this article”. Vox. 2020年11月8日時点のオリジナルよりアーカイブ。2020年12月19日閲覧。
  81. ^ Köbis, Nils; Mossink, Luca D. (1 January 2021). “Artificial intelligence versus Maya Angelou: Experimental evidence that people cannot differentiate AI-generated from human-written poetry”. Computers in Human Behavior 114: 106553. doi:10.1016/j.chb.2020.106553. 
  82. ^ Schwartz, Oscar (2019年7月4日). “Could 'fake text' be the next global political threat?”. The Guardian. オリジナルの2019年7月16日時点におけるアーカイブ。. https://web.archive.org/web/20190716035703/https://www.theguardian.com/technology/2019/jul/04/ai-fake-text-gpt-2-concerns-false-information 2019年7月16日閲覧。 
  83. ^ a b Vincent, James (2019年2月21日). “AI researchers debate the ethics of sharing potentially harmful programs”. The Verge. 2021年2月9日時点のオリジナルよりアーカイブ。2021年2月27日閲覧。
  84. ^ a b Zhang, Hugh (2019年2月19日). “OpenAI: Please Open Source Your Language Model”. The Gradient. 2021年1月28日時点のオリジナルよりアーカイブ。2021年2月28日閲覧。
  85. ^ OpenGPT-2: We Replicated GPT-2 Because You Can Too”. Noteworthy (2019年8月22日). 2021年2月27日閲覧。
  86. ^ a b Vincent, James (2019年6月6日). “There's a subreddit populated entirely by AI personifications of other subreddits”. The Verge. 2021年2月21日時点のオリジナルよりアーカイブ。2021年2月27日閲覧。
  87. ^ Vincent, James (2019年7月24日). “This AI-powered autocompletion software is Gmail's Smart Compose for coders”. The Verge. 2021年3月9日時点のオリジナルよりアーカイブ。2021年2月27日閲覧。
  88. ^ Olson, Mathew (2019年12月17日). “AI Dungeon 2, the Text Adventure Where You Can do Nearly Anything, Is Now on Mobile”. 2020年9月20日時点のオリジナルよりアーカイブ。2021年2月27日閲覧。
  89. ^ Nelius, Joanna (2020年8月3日). “This AI-Powered Choose-Your-Own-Adventure Text Game Is Super Fun and Makes No Sense”. Gizmodo. 2021年2月28日時点のオリジナルよりアーカイブ。2021年2月27日閲覧。
  90. ^ Ha, Anthony (2021年2月4日). “AI Dungeon-maker Latitude raises $3.3M to build games with 'infinite' story possibilities”. TechCrunch. 2021年2月21日時点のオリジナルよりアーカイブ。2021年2月27日閲覧。
  91. ^ Write With Transformer”. 2019年12月4日閲覧。
  92. ^ Talk to Transformer”. 2019年12月4日閲覧。
  93. ^ CreativeEngines”. 2021年6月25日閲覧。
  94. ^ An AI is training counselors to deal with teens in crisis”. MIT Technology Review (2021年2月26日). 2021年2月27日時点のオリジナルよりアーカイブ。2021年2月27日閲覧。