https://github.com/torao/samplecode.mallet-lda
Mallet Training, Prediction Sample
https://github.com/torao/samplecode.mallet-lda
gibbs-sampling java lda machine-learning mallet scala
Last synced: 14 days ago
JSON representation
Mallet Training, Prediction Sample
- Host: GitHub
- URL: https://github.com/torao/samplecode.mallet-lda
- Owner: torao
- License: apache-2.0
- Created: 2017-08-03T12:02:01.000Z (almost 9 years ago)
- Default Branch: master
- Last Pushed: 2017-08-30T11:47:23.000Z (almost 9 years ago)
- Last Synced: 2025-07-17T18:52:57.393Z (11 months ago)
- Topics: gibbs-sampling, java, lda, machine-learning, mallet, scala
- Language: Scala
- Size: 37.6 MB
- Stars: 1
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
- License: LICENSE
Awesome Lists containing this project
README
# Sample Code for Mallet LDA (ParallelTopicModel)
[Mallet](http://mallet.cs.umass.edu/) の gibbs-sampling LDA を使用してドキュメントのトピック分類を行うサンプルコード。
1. 学習用とトピック推定用に使用するデータは1行に1ドキュメントが保存されているテキストファイル。
2. 日本語の形態素解析には [Kuromoji](https://www.atilika.com/ja/products/kuromoji.html) + [NEologd](https://github.com/neologd/mecab-ipadic-neologd) を使用している。
```
$ sbt "runMain train.txt --predict predict.txt"
```
Maven に登録されているライブラリを使用しているが、Mallet のサイトからコマンドライン版がダウンロードできる。
コマンドラインで使用するには [Getting Started with Topic Modeling and MALLET](https://programminghistorian.org/lessons/topic-modeling-and-mallet) のチュートリアルを参照。