コンテンツにスキップ

利用者:Rrrwrrrrrw/sandbox/自動要約

自動要約(じどうようやく)は、コンピュータを用いて文章の要約を作成する処理である[1]人工知能自然言語処理分野のタスクとして研究されている[1]。元の文章の重要な部分を保持しながら、短く簡潔な文章を作成することが求められる[2][3]。大量の電子化された文章が得られるようになり情報オーバーロードが起こるようになったことで、効率よく情報を得るために自動要約が求められるようになった[4][5]。ニュース記事や医療文書の要約や[6][2]ウェブ検索の検索結果へのウェブページの要約の提示などに応用されている[5]

1950年代から研究が始められ[1][7]、当初は元の文章から重要な文を抽出する重要文抽出法という手法が研究されてきたが[5][7]、技術が発展するにつれて様々な手法が研究されるようになった[5]。1990年代には自然言語処理の発展に従い、文よりも小さな単位(文節など)の重要箇所を抽出する手法や、複数の文書を要約する手法などが研究されるようになった[5]深層学習が適用された2010年代には、それまでの主流であった抽出的要約(元の文章から重要箇所を抽出する手法)だけではなく、入力された文章に含まれない表現を含む新しい文章を生成する生成的要約の研究が発展した[2]

自動要約の種類[編集]

自動要約は、要約の目的や要約の対象とする文書の数、要約の方法などによっていくつかの種類に分類することができる[2][8]

指示的要約と報知的要約[編集]

指示的要約(Indicative Summarization)は、要約の元となった文書を読むべきか否かという情報を提供する[8][5]。例えば、新聞記事の見出しは記事全体の簡潔な要約となっており、読者に対して元の記事全体を読むべきか否か判断する材料を与えるという点において指示的要約である[9]。一方、報知的要約(Informative Summarization)は、要約そのものが元となった文書を代替しうる要約である[8][5]。例えば、ニュース番組の字幕は、聴覚に何らかの障害のある視聴者に対してはアナウンサーによる音声の代替として機能するため、報知的要約と言える[9]

単一文書要約と複数文書要約[編集]

単一文書要約は、単一の文書を要約の対象とするものである[2]。例えば、1つの新聞記事を要約する作業は単一文書要約である[2]複数文書要約は、複数の文書を要約の対象として、それらから単一の要約を作成するものである[2]。例えば、同一のトピックに関する複数の新聞記事に対して1つの要約を作成するのは複数文書要約である[2]

抽出的要約と生成的要約[編集]

抽出的要約(Extractive Summarization)は、要約の対象となる文書に含まれる単語や句、文などの言語単位のうち重要な部分を抽出し、それらを組み合わせることで要約を作成する手法である[10][2]生成的要約(Abstractive Summarization)は、 文書を中間表現に変換し、中間表現から要約を生成する手法である[3]。入力された文章に含まれない表現を含む要約も生成される[2][3]。生成的要約は自然言語生成を行う必要があるため難易度が高く、かつては抽出的要約が主流であったが、深層学習の適用により生成的要約の研究も発展した[2]。また、これらの二つの手法を組み合わせた手法も研究されている[3]

応用[編集]

ニュース記事、ブログ、書籍、電子メール、医療文書、法律文書、科学論文などに対する自動要約が利用されている[6][2]

また、自動要約はテキストマイニング情報検索質問応答検索エンジンなどの分野で利用されている[11]。例えばウェブ検索の検索結果にウェブページの内容を要約したものが併せて提示されることがある[5]

歴史[編集]

1958年に自動要約の最初の研究として、雑誌の記事や論文を要約する研究が発表された[1][7]。伝統的には文章から重要な文を抜き出す重要文抽出法という手法が研究されてきた[5][7]

1990年代に入ると研究が活発化し、研究の方向性も多様化した[5]。この時期に構文解析が発展したことで、文よりも小さな単位(例えば文節など)の重要箇所を抽出する自動要約が研究されるようになった[7]。また、複数文書要約、特定のユーザに特化した要約などの研究が行われるようになった[5]

手法[編集]

多くの自動要約システムは、事前処理、要約、事後処理という3つの段階で構成される[1]。事前処理では文章、文節、単語などに分割したり、品詞タグ付け(POSタグ付け)英語版などが行われる[1]。事後処理では、代名詞指示語の照応関係を修正したり、選択された文の順番を入れ替えるなどの処理を行なって、生成された要約文の問題を解消する[1]

抽出的要約[編集]

抽出的要約は、元の文章から重要な部分を抽出して、事後処理として順番を入れ替えるなどの処理を行うことで要約文を作成する[12][1]

重要な部分の抽出[編集]

元の文章から重要な部分(文や文節など)を抽出する方法を説明する。元の文章の重要な部分を抽出する手法としては、機械学習を用いる手法、元の文章のトピック(主題)を特定することに基づく手法、統計的手法、データベースなどの外部知識を使用する手法、クラスタリングを用いる手法、潜在意味解析を用いる手法などがあるが[13][14]、ここでは主な手法を紹介する。

tf-idfを用いる手法
元の文章のトピック(主題)を特定することに基づく手法として、tf-idfという指標(統計量)を用いる手法がある[15][13]tf-idfとは、注目している文章に多く含まれるが、一般的な文章にはあまり含まれない単語を特定するための指標である[15]。すなわち、tf-idfが高い単語は、注目している文章に特別に関係した単語であると推測することができる[15]。そのため、tf-idfの高い単語を多く含むような文を、重要な文として抽出する手法が研究されている[15]。これは教師なし手法のひとつである[15]
機械学習を用いる手法
重要な部分を抽出するというタスクを、元の文章の分や文節が重要かどうかを判断する教師あり分類課題として捉えることによって、機械学習手法を用いる方法が研究されている[13]。すなわち、元の文章と人間が作成した要約文を含むような学習データとして、分類を行う機械学習モデルを学習するという手法である[13]

抽出的要約の利点と欠点[編集]

抽出的要約の利点として、生成的要約と比較して単純かつ高速であることが多い[16]。また、元の文中の表現をそのまま抽出するため、精度が高いことが多い[17]

抽出的要約の欠点として、作成される要約文は人間が生成する要約文とは大きく異なることが多いとされている[13]。また、元の文章から抽出された文を連結させるため、文同士のつながりを自然なものにすることが難しく[13]、共参照を解決する(代名詞などの関係性を正しく処理する)必要がある[13]。元の文章から表現を抽出するため、冗長な要約文が生成されることが多いとも言われている[13]

生成的要約[編集]

生成的要約は、元の文章から中間表現を生成してから、人間が作成した要約文と似た文章を生成できるように学習した文章生成器を用いて要約文を作成する[18]

生成的要約の利点と欠点[編集]

生成的要約の利点としては、元の文章に含まれない表現も用いることができるため柔軟性が高い[18]。高い柔軟性により、冗長性を減らして短い要約文を生成することができるとされている[18]

生成的要約の欠点として、生成的要約に求められる自然言語生成の分野は2021年時点でも発展途上の技術であり、質の高い要約文を生成することが難しいことが挙げられる[18]。具体的な問題としては、同じ単語を繰り返し生成してしまったり、知らない単語に対応できないといった点が知られている[18]

データセット[編集]

評価手法[編集]

評価手法としては人間による評価の他に、人間が作成した理想的な要約(参照要約)との類似性を用いる方法が研究されてきた[19]

参照要約との類似性による評価[編集]

自動要約によって生成された要約文が「人間が作成した理想的な要約(参照要約)とどれだけ似ているか」を自動的に評価する手法である[19]。このように人間が作成した理想的な文章と比較するという評価手法は機械翻訳などの自然言語生成のタスクでも使用されているので、機械翻訳で使用されているBLEU英語版という評価手法を自動要約にも用いることができる[19]。BLEUを自動要約の評価のために改良した、ROUGEも広く用いられている[19]

参照要約を用いない評価[編集]

質問応答モデルを用いた評価[編集]

含意関係推論を用いた評価[編集]

研究課題[編集]

データセットバイアス[編集]

データセットバイアスとは、機械学習モデルの学習に使用したときに誤った結論を導く可能性がある、データセットの偏りのことである[20]。自動要約においてもデータセットバイアスによる影響を受けることが知られている[21]。例えば、ニュース記事などでは重要な文は最初の段落で書かれることが多い[21]。そのため、自動要約システムが、文の内容を理解して重要な文を抽出することなく、最初の段落から文章を抽出することを学習してしまうことが起こり得る[21]。2018年の研究では、元の文章の文の順番をシャッフルした場合に、自動要約システムの性能が大きく落ちることが報告されている[21]

脚注[編集]

  1. ^ a b c d e f g h El-Kassas 2021, p. 2.
  2. ^ a b c d e f g h i j k l 西川 2019, p. 446.
  3. ^ a b c d El-Kassas 2021, p. 1.
  4. ^ 奥村 & 難波 1999, p. 2.
  5. ^ a b c d e f g h i j k 奥村, 学「自然言語による情報アクセス技術:3.テキスト自動要約」『情報処理』第45巻第6号、2004年6月15日、574–579頁。 
  6. ^ a b El-Kassas 2021, pp. 4–5.
  7. ^ a b c d e 難波 2008, p. 2.
  8. ^ a b c Inderjeet Mani (著), 奥村学, 植田禎子, 難波英嗣 (訳). ``自動要約". 共立出版, pp. 8, 2003. ISBN 978-4320120730
  9. ^ a b 奥村学, 難波英嗣. ``テキスト自動要約". オーム社, pp. 12-13, 2005. ISBN 978-4274200427
  10. ^ Inderjeet Mani (著), 奥村学, 植田禎子, 難波英嗣 (訳). ``自動要約". 共立出版, pp. 6, 2003. ISBN 978-4320120730
  11. ^ El-Kassas 2021, p. 4.
  12. ^ Jurafsky 2009, p. 804.
  13. ^ a b c d e f g h El-Kassas 2021, p. 6.
  14. ^ Jurafsky 2009, pp. 804–810.
  15. ^ a b c d e Jurafsky 2009, p. 805.
  16. ^ El-Kassas 2021, p. 5.
  17. ^ El-Kassas 2021, pp. 5–6.
  18. ^ a b c d e El-Kassas 2021, p. 8.
  19. ^ a b c d 難波 2008, p. 1.
  20. ^ Tommasi, Tatiana; Patricia, Novi; Caputo, Barbara; Tuytelaars, Tinne (2017), “A Deeper Look at Dataset Bias”, in Csurka, Gabriela (英語), Domain Adaptation in Computer Vision Applications, Springer International Publishing, p. 39, doi:10.1007/978-3-319-58347-1_2, ISBN 978-3-319-58347-1, https://doi.org/10.1007/978-3-319-58347-1_2 
  21. ^ a b c d Kedzie, Chris; McKeown, Kathleen; Daumé III, Hal (2018). “Content Selection in Deep Learning Models of Summarization” (英語). Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing (Brussels, Belgium: Association for Computational Linguistics): 1818–1828. doi:10.18653/v1/D18-1208. http://aclweb.org/anthology/D18-1208. 

参考文献[編集]

書籍[編集]

サーベイ論文(日本語)[編集]

  • 奥村, 学; 難波, 英嗣 (1999). “テキスト自動要約に関する研究動向 (巻頭言に代えて)”. 自然言語処理 6 (6). 
  • 難波, 英嗣; 平尾, 努 (2008). “テキスト要約の自動評価(<特集>テキストの自動評価)”. 人工知能 23 (1): 10-16. 
  • 西川, 仁 (2019). “深層学習による自動要約”. 人工知能 34 (4): 446-450. 

サーベイ論文(英語)[編集]