Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/camel2000/-
用多层BLSTM模型同时进行中文分词和标点符号预测
https://github.com/camel2000/-
Last synced: 29 days ago
JSON representation
用多层BLSTM模型同时进行中文分词和标点符号预测
- Host: GitHub
- URL: https://github.com/camel2000/-
- Owner: camel2000
- Created: 2017-10-22T07:00:50.000Z (about 7 years ago)
- Default Branch: master
- Last Pushed: 2024-11-08T16:52:46.000Z (about 1 month ago)
- Last Synced: 2024-11-08T17:41:55.707Z (about 1 month ago)
- Language: Python
- Homepage:
- Size: 48.8 KB
- Stars: 18
- Watchers: 1
- Forks: 2
- Open Issues: 2
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# -本项目用多层BLSTM模型搭建的联合框架进行了中文分词和标点预测
中文分词和标点符号预测都可以被当做序列标注问题进行处理,这是实现联合标注,进而搭建联合框架同时进行中文分词和标点预测的关键。本项目包含2个要点:
1 中文分词和标点预测的联合标注(中文分词使用四词位)
2 多层BLATM模型项目用Python语言所写,神经网络的实现用到了Google的tensorflow-1.0.1
1)my_biLSTM_multilayer_CWS.py
此文件定义搭建的多层BLSTM模型和执行迭代训练,首先要运行此文件,训练联合框架。2) my_biLSTM_multilayer_CWS_testing.py
此文件为测试程序3)my_reader.py
此文件为预处理程序,把预料送入神经网络之前,要建立词典,为每个字符打标签。