https://github.com/lining0806/textclassify2
多算法综合的文本分类系统
https://github.com/lining0806/textclassify2
Last synced: 11 months ago
JSON representation
多算法综合的文本分类系统
- Host: GitHub
- URL: https://github.com/lining0806/textclassify2
- Owner: lining0806
- Created: 2015-11-11T03:23:01.000Z (over 10 years ago)
- Default Branch: master
- Last Pushed: 2017-01-14T04:07:34.000Z (about 9 years ago)
- Last Synced: 2025-03-28T01:50:15.542Z (12 months ago)
- Language: Python
- Homepage:
- Size: 1.8 MB
- Stars: 24
- Watchers: 3
- Forks: 15
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# 多算法的文本分类系统
### **更多详见[TextMining](https://github.com/lining0806/TextMining)**
***
## 关于分词
**英文分词,采用nltk工具包进行分词**
pip install nltk
**中文分词,采用jieba工具包进行分词**
pip install jieba
**jieba分词**
dict 主词典文件
user_dict 用户词典文件,即分词白名单
**user_dict为分词白名单**
* 如果添加的过滤词(包括黑名单和白名单)无法正确被jieba正确分词,则将该需要添加的单词及词频加入到主词典dict文件中或者用户词典user_dict,一行一个(词频也可省略)