自動要約
自動要約(じどうようやく、英: Automatic summarization)は、コンピュータプログラムを用いて、文書からその要約を作成する処理である。
作成される要約は、要約の対象となる文書の最も重要な要素のみを残しているべきであり、いわゆる情報のオーバーロードに伴い自動要約に対する関心も増している。首尾一貫した要約を作成するためには要約の長さや書き方のスタイル、文法などといった点が考慮されなければならない。自動要約の応用先の1つはGoogleなどの検索エンジンであるが、もちろん独立した1つの要約プログラムといったものもありうる。
自動要約の種類
[編集]自動要約は、要約の目的や要約の対象とする文書の数、要約の方法などによっていくつかの種類に分類することができる。
指示的要約と報知的要約
[編集]指示的要約は、要約の元となった文書を読むべきか否かという情報を提供する[1]。 例えば、新聞記事の見出しは記事全体の簡潔な要約となっており、読者に対して元の記事全体を読むべきか否か判断する材料を与えるという点において指示的要約である[2]。一方、報知的要約は、要約そのものが元となった文書を代替しうる要約である[1]。例えば、ニュース番組の字幕は、聴覚に何らかの障害のある視聴者に対してはアナウンサーによる音声の代替として機能するため、報知的要約と言える[2]。
単一文書要約と複数文書要約
[編集]単一文書要約は、単一の文書を要約の対象とするものである。例えば、1つの新聞記事を要約する作業は単一文書要約である。複数文書要約は、複数の文書を要約の対象として、それらから単一の要約を作成するものである。典型的には、Googleニュースなどのニュース・アグリゲーターによって収集された同一事件に関する記事の集合を入力として、それらの簡潔な要約を作成するものである。
抽出的要約と生成的要約
[編集]抽出的要約は、要約の対象となる文書に含まれる単語や句、文といった単位をうまく抽出し、それらを組み合わせることで要約を作成する[3]。
一方、生成的要約は、文書を一度何らかの中間表現(あるいは意味表現)に変換し、この中間表現を元に自然言語生成の技術を用いて要約を作成する。そのため、生成的要約によって作成された要約には元の文書に含まれていない表現が含まれることもありうる。生成的要約には、文書を中間表現に正確に変換すること(すなわち、精度の高い自然言語理解を実現すること)、そこから要約を生成するための自然言語生成器が必要になるといった問題が存在するため、もっぱら研究の焦点は抽出的要約にあてられている。
抽出的要約
[編集]現在の自動要約の中心となるアプローチは抽出的要約である。抽出的要約は以下の手続に従って行われる[4]。
- 文分割
- 文短縮
- 重要文抽出
- 文の順序づけ
文分割
[編集]他の多くの自然言語処理アプリケーションと同様に、自動要約においても文分割は基本となる処理である。抽出的要約の場合は特に文を単位として行われることが多いため、文分割の精度は重要である。基本的には、句点などを機械的に検出しそれをもって文境界を推定するが、統計的な手法による文境界推定[5]も行われている。
文短縮
[編集]文分割によって得られた文の短い亜種を作成する。
重要文抽出
[編集]文分割によって文書から分割された文と、文短縮によって生成されたそれらの亜種を入力して、何らかの目的関数に基づいて与えられた要約長を満たす文の組み合わせを探索する。
文の順序づけ
[編集]重要文抽出によって選択された文集合を最終的な要約として出力するため、文集合に対して順序を与える必要がある。単一文書要約の場合は抽出された文の入力文書における位置に基づいて順序を与えればよい。一方、複数文書要約の場合は、異なる文書から文が選択されている場合、そのように順序を与えることができない。そのため、文集合に対して適切な順序を与える方法が必要となる。
抽出的要約の問題点
[編集]照応関係の取り扱い
[編集]単に文を抜き出してそれらを組み合わせて要約を作成した場合、照応関係が問題となる場合がある。例えば、以下のような2つの文があったとする:
- エイブラハム・リンカーンは1809年2月12日にトーマス・リンカーンおよびナンシー・ハンクス夫妻の息子として生まれた。
- 彼の誕生日はチャールズ・ダーウィンと同じ日である。
このとき、2番めの文が要約に選ばれ、1番めの文が要約に選ばれなかった場合、2番めの文の「彼」が指すものがわからなくなってしまう。このような時には2番めの文の「彼」を「エイブラハム・リンカーン」に置き換える処理が必要になる。
入手可能な日本語の自動要約エンジン
[編集]商用システム
[編集]- 商品評判要約API(gooラボ)、gooラボ(API提供は2018年12月3日に終了)
脚注
[編集]- ^ a b Inderjeet Mani (著), 奥村学, 植田禎子, 難波英嗣 (訳). ``自動要約". 共立出版, pp. 8, 2003. ISBN 978-4320120730
- ^ a b 奥村学, 難波英嗣. ``テキスト自動要約". オーム社, pp. 12-13, 2005. ISBN 978-4274200427
- ^ Inderjeet Mani (著), 奥村学, 植田禎子, 難波英嗣 (訳). ``自動要約". 共立出版, pp. 6, 2003. ISBN 978-4320120730
- ^ Daniel Jurafsky and James H. Martin. ``Speech and Language Processing (2nd Edition)". Pearson Prentice Hall, 2008. ISBN 978-0131873216
- ^ Dan Gillick. ``Sentence boundary detection and the problem with the U.S.". In Proceeding NAACL-Short '09 Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, Companion Volume: Short Papers, pp. 241-244, 2009.
参考文献
[編集]- Daniel Jurafsky and James H. Martin. ``Speech and Language Processing (2nd Edition)". Pearson Prentice Hall, 2008. ISBN 978-0131873216
- Inderjeet Mani and Mark T. Maybury (Eds.). ``Advances in Automatic Text Summarization". The MIT Press, 1999. ISBN 978-0262133593
- Inderjeet Mani. ``Automatic Summarization". John Benjamins Pub Co, 2001. ISBN 978-9027249869
- Inderjeet Mani (著), 奥村学, 植田禎子, 難波英嗣 (訳). ``自動要約". 共立出版, 2003. ISBN 978-4320120730
- Ani Nenkova and Kathleen McKeown. ``Automatic Summarization". Now Publishing, 2011. ISBN 978-1601984708
- 奥村学, 難波英嗣. ``テキスト自動要約". オーム社, 2005. ISBN 978-4274200427