文書分類
表示
文書分類(ぶんしょぶんるい、英: Document classification/categorization)は、情報科学における問題である。電子文書をその内容に基づいて、1つ以上に分類する。文書分類には、外部から(例えば人間が)正しい分類に関する情報を与える教師あり文書分類と、外部の情報を参照せずに分類する教師なし文書分類がある。
技法
[編集]文書分類に使われる技法としては、以下のものがある。
他にも、自然言語処理に基づく手法がある。
応用
[編集]電子メールのスパムを分離するスパムフィルタに応用されている。
関連項目
[編集]参考文献
[編集]- Fabrizio Sebastiani. Machine learning in automated text categorization. ACM Computing Surveys, 34(1):1–47, 2002 [1]
- Introduction to document classification
- Bibliography on Automated Text Categorization
- Bibliography on Query Classification
- TechTC - Technion Repository of Text Categorization Datasets
- David D. Lewis's Datasets