Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/nishiwen1214/so-pmi
使用SO-PMI算法生成经济领域情感词典
https://github.com/nishiwen1214/so-pmi
Last synced: about 9 hours ago
JSON representation
使用SO-PMI算法生成经济领域情感词典
- Host: GitHub
- URL: https://github.com/nishiwen1214/so-pmi
- Owner: nishiwen1214
- Created: 2020-05-25T16:15:10.000Z (over 4 years ago)
- Default Branch: master
- Last Pushed: 2022-03-16T09:59:22.000Z (over 2 years ago)
- Last Synced: 2023-10-20T22:05:28.129Z (about 1 year ago)
- Language: Python
- Homepage:
- Size: 4.36 MB
- Stars: 13
- Watchers: 1
- Forks: 1
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# SO-PMI
使用SO-PMI(情感倾向点互信息算法)算法生成特定领域情感词典(本项目以经济类文本为例)若对您有用,请star一下,谢谢!
# 运行方式:
python PMI.py# 训练
1)输入:
六十几万个文档,每个文档为一行,保存在'./data/corpus.txt'中,由于语料库太大所以只保留少部分文本
种子情感词:正负情感词共190个,格式为 ‘词 极性’,保存在'./data/sentiment_words.txt'中
2)输出:
生成正向情感候选词,保存在'./data/pos.txt'中
生成负向情感候选词,保存在'./data/neg.txt'中# 注:
1、本算法效果受训练语料影响,语料越大,效果越好
2、本算法效率受训练语料影响,语料越大,训练越耗时190个种子词,六十几万条的语料,大约耗时六百多秒
3、候选词的选择,主要还是靠人工效果会比较好