KH Coder
漱石「こころ」の共起ネットワーク | |
作者 | 樋口耕一 |
---|---|
最新版 |
2.00f
/ 2015年12月29日 |
最新評価版 |
3.Beta.06
/ 2022年10月6日 |
リポジトリ | |
プログラミング 言語 | Perl |
対応OS | Cross-platform |
対応言語 | 日本語, 英語 |
サポート状況 | Active |
種別 | 内容分析, テキストマイニング |
ライセンス | GPL ver.2 |
公式サイト | [1] |
KH Coderとは、テキスト型データの計量的な内容分析(計量テキスト分析)もしくはテキストマイニングのためのフリーソフトウェアである。各種の検索を行えるほか、どんな言葉が多く出現していたのかを頻度表から見ることができる。さらに多変量解析によって、一緒に出現することが多い言葉のグループや、同じ言葉を含む文書のグループを見ることで、データ中に含まれるコンセプトを探索できる。また一部の文書群に注目した場合に、その文書群に特に多く出現する言葉をリストアップすることで、その文書群の特徴を探索できる。あるいは分析者が指定した基準によって、文書の分類を自動的に行うこともできる。
多変量解析の具体的な手法としては、対応分析(数量化III類)・クラスター分析・多次元尺度構成法(MDS)・自己組織化マップ・共起ネットワーク・機械学習(ナイーブベイズ)などに対応している。 こうした分析を日本語・英語データに対して行えるほか、オランダ語・フランス語・ドイツ語・イタリア語・ポルトガル語・スペイン語データについても実験的に対応している。
KH Coderを用いて行われた研究としては、アンケートの自由回答項目・新聞記事・インタビューデータなど様々なデータを分析した事例がある[1]。
KH CoderはPerlによって作製されており、バックエンドとしてChaSen・MeCab・MySQL・R言語・Stanford POS Tagger・Snowball Stemmer・TermExtractなどを利用している。すべての機能をマウス操作で利用することができるが、より高度な検索・分析のために直接MySQLにアクセスして独自の検索を行ったり、R言語に修正を加えることで統計分析をカスタマイズすることができる。また短いPerlスクリプトを書くことでプラグインを作成し、独自の機能を付け加えることもできる。
文献
[編集]- 樋口耕一 (2014) 『社会調査のための計量テキスト分析 ―内容分析の継承と発展を目指して』 ナカニシヤ出版 ISBN 978-4779508035
- 樋口耕一 (2020) 『社会調査のための計量テキスト分析 ―内容分析の継承と発展を目指して 第二版』 ナカニシヤ出版 ISBN 978-4779514746
- 樋口耕一 (2012) 「社会調査における計量テキスト分析の手順と実際 ―アンケートの自由回答を中心に―(第10章)」「今日から始めるテキストマイニング ―計量テキスト分析の環境『KH Coder』―(資料2)」 石田基広・金明哲編著 (2012) 『コーパスとテキストマイニング』 共立出版 ISBN 978-4320110335 pp. 119-128, 204-209.
- 樋口耕一「テキスト型データの計量的分析:―2つのアプローチの峻別と統合―」『理論と方法』第19巻第1号、数理社会学会、2004年、101-115頁、doi:10.11218/ojjams.19.101、ISSN 0913-1442、NAID 110000991711。
- 樋口耕一 (2022) 『動かして学ぶ! はじめてのテキストマイニング』 ナカニシヤ出版 ISBN 978-4779516399