Ecosyste.ms: Awesome

An open API service indexing awesome lists of open source software.

Awesome Lists | Featured Topics | Projects

https://github.com/camel2000/-

用多层BLSTM模型同时进行中文分词和标点符号预测
https://github.com/camel2000/-

Last synced: 29 days ago
JSON representation

用多层BLSTM模型同时进行中文分词和标点符号预测

Awesome Lists containing this project

README

        

# -本项目用多层BLSTM模型搭建的联合框架进行了中文分词和标点预测
中文分词和标点符号预测都可以被当做序列标注问题进行处理,这是实现联合标注,进而搭建联合框架同时进行中文分词和标点预测的关键。本项目包含2个要点:
1 中文分词和标点预测的联合标注(中文分词使用四词位)
2 多层BLATM模型

项目用Python语言所写,神经网络的实现用到了Google的tensorflow-1.0.1

1)my_biLSTM_multilayer_CWS.py
此文件定义搭建的多层BLSTM模型和执行迭代训练,首先要运行此文件,训练联合框架。

2) my_biLSTM_multilayer_CWS_testing.py
此文件为测试程序

3)my_reader.py
此文件为预处理程序,把预料送入神经网络之前,要建立词典,为每个字符打标签。