Gensim
作者 | Radim Řehůřek |
---|---|
開発元 | RARE Technologies Ltd. |
初版 | 2009 |
最新版 |
4.3.2[1]
/ 2022年12月21日 |
リポジトリ |
github |
プログラミング 言語 | Python |
対応OS | Linux, Windows, macOS |
種別 | 情報検索 |
ライセンス | LGPL |
公式サイト |
radimrehurek |
Gensim(ジェンシム)は、最新の統計的機械学習を使用した、教師なしトピックモデリングと自然言語処理のためのオープンソースライブラリである。
Gensimは、Python言語と性能向上を図るためにCython言語で記述されている。Gensimは、データストリーミングとインクリメンタルオンラインアルゴリズムを使用して大規模なテキストコレクションを処理するように設計されており、インメモリ処理のみを対象とした他の多くの機械学習ソフトウェアパッケージとの差別化を図っている[要出典]。
主な機能
[編集]Gensimには、fastText[2]、word2vec、doc2vecアルゴリズムのストリーミング並列化実装に加えて[3]、潜在意味解析(LSA、LSI、SVD)、非負行列分解(NMF)、潜在ディリクレ配分(LDA)、tf-idf、およびランダム射影が含まれている[4]。
Gensimの新しいオンラインアルゴリズムのいくつかは、Gensimの制作者であるRadim Řehůřekの2011年の博士論文『Scalability of Semantic Analysis in Natural Language Processing(自然言語処理における意味解析のスケーラビリティ)』にも掲載されている[5]。
Gensimの使用例
[編集]Gensimは、2018年の時点で[6]、医学から保険金請求分析、特許検索まで、さまざまな分野で1,400件を超える商用および学術用途で使用および引用されている[7]。このソフトウェアは、いくつかの新しい記事、ポッドキャスト、インタビューでも取り上げられている[8][9][10]。
無償および有償サポート
[編集]Gensimのソースコードは、GitHub[11]で開発および公開されており、Google Groups[12]とGitter[13]上でサポートフォーラムが公開・維持されている。
Gensimは、rare-technologies.com社によって商業的にサポートされている。学生インキュベータープログラムを通じて Gensimの学生メンターシップと学術論文プロジェクトも提供している[14]。
脚注
[編集]- ^ “Release 4.3.2” (24 8月 2023). 18 9月 2023閲覧。
- ^ Scalable *2vec training
- ^ Deep learning with word2vec and Gensim
- ^ Radim Řehůřek and Petr Sojka (2010). Software framework for topic modelling with large corpora. Proc. LREC Workshop on New Challenges for NLP Frameworks
- ^ “Scalability of Semantic Analysis in Natural Language Processing” (2011年). 27 January 2015閲覧。 “my open-source gensim software package that accompanies this thesis”
- ^ Gensim academic citations
- ^ Commercial adopters of Gensim
- ^ Podcast.__init__ episode #71 on Gensim
- ^ Interview with Radim Řehůřek, creator of Gensim
- ^ “DecisionStats Interview Radim Řehůřek Gensim #python” (8 December 2015). 2022年1月22日閲覧。
- ^ Gensim source code on Github
- ^ Gensim mailing list on Google Groups
- ^ Gensim chat room on Gitter
- ^ Gensim open source Incubator