TREC
Text REtrieval Conference (TREC) はいくつかの情報検索関連の研究分野に着目し開催されているワークショップの一つである。個々の研究部門はトラック (track)と呼ばれている。主催はアメリカ国立標準技術研究所 (NIST) とアメリカ国防総省内の研究部門の一つであるARDA (Advanced Research and Development Activity) による。1992年にTIPSTER Textプログラムの一部として始まったものが発展しながら継続してきている。ワークショップの目的は、大規模データによるテキスト検索手法の評価研究、評価手法を開発、提供して、情報検索の研究コミュニティを支援し前進させ、研究室において構築された先端的技術の産業界への技術移転を目指している。
個々のトラックにおいて、NISTは参加者にデータセットとテスト用の課題集合を渡し、それをうまく解決する手法の開発、適用を行うよう促す。トラックによって、テスト用の課題集合は「質問」であったり、「検索課題」であったり、「パターン認識用の特徴素」であったりする。参加者の返してきた結果を元に、参加者システム群の性能を測るための定量的なスコア付けを行う。結果の評価が出た後、参加者が一堂に会して集まり、アイデアの交換、研究活動の方向性について議論するための国際会議を行う。
参加者
[編集]TRECには多くの国から研究者、開発者たちが様々な観点から参加している。2003年には、各種大学、研究機関および産業界をはじめとして93チーム、22カ国からの参加があった。
成果
[編集]TREC主催者によれば、ワークショップ開始から最初の6年間でテキスト検索システムの性能は約2倍に向上した。非英語圏の文書、音声認識による検索、ビデオ動画検索、言語横断検索に対する大規模な評価実験を初めて行った。さらに、参加者、オーガナイザーによる成果発表論文という形で多くの研究発表がなされている[1]。TRECで開発された技術は、現在の世界中のサーチエンジンにおいて提供されるようになっている。
研究分野(トラック)
[編集]2007年現在、以下のトラックが開催されている。
- ブログ (Blog Track) - ブロゴスフィアにおける情報検索
- エンタープライズ (Enterprise Track) - 組織(企業)内の情報に関する検索
- 生医学情報 (TREC Genomics Track) - 生物医学情報の検索。遺伝子配列の検索に加え、研究論文、報告などの文献情報検索
- 法情報 (Legal Track) - 弁護士等の法分野の専門家の情報要求に応える検索
- 大量検索質問 (Million Query Track) - 多くの不完全な適合判定情報からだけでテストコレクションを作成する研究。伝統的なプーリング手法を越える手法の開発を目指す。2007年開始。
- 質問応答 (Question Answering Track) - 適合文書を提示するだけの情報検索を超えた、質問に対して事実を応答する技術。応答内容には事項的事実だけでなく、リスト型応答、定義文の応答といったいくつかの種別がある。
- スパム (メール) (Spam Track) - スパムフィルタ技術の評価
過去に行われたトラック
[編集]- 言語横断検索 (Cross-Language Track) - 文書検索において、記述言語にかかわらず適合文書を検索、提示する手法
- フィルタリング (Filtering Track) - 新着文書が情報要求に適合するものであるかどうか判別する技術
- 高精度検索 (HARD Track) - 検索者についての情報や検索の文脈を理解した高精度な検索
- インタラクティブ検索 (Interactive Track) - テキスト検索システムと利用者とのインタラクションの研究
- 新情報 (Novelty Track) - 新情報(非冗長な情報)を判別する手法
- ロバスト検索 (Robust Retrieval Track) - 個々の検索課題の性能向上を目指す
- テラバイト (Terabyte Track) - 大量文書コレクションに対する既存評価手法の適用可能性、検索性能、応答性能などの技術
- ビデオ (Video Track) - ビデオ映像の自動分割、索引付け、文脈を理解した検索
- 2003年から、ビデオトラックは独立したTRECVIDという評価ワークショップとなった。
- ウェブ検索 (Web Track) - WWW空間のスナップショットを文書集合とした
関連ワークショップ
[編集]1997年からは日本でもTRECスタイルのワークショップとして国立情報学研究所主催のNTCIRワークショップが行われている[2]。さらに2001年からはヨーロッパでのワークショップとして、Cross Language Evaluation Forum (CLEF) が開始されている。
参考文献
[編集]- E. M. Voorhees , Donna K. Harman, eds. TREC: Experiment And Evaluation in Information Retrieval (Digital Libraries and Electronic Publishing). MIT Press, 368p. 2005. (ISBN 0-262-22073-3)