Ecosyste.ms: Awesome

An open API service indexing awesome lists of open source software.

https://github.com/camel2000/-

用多层BLSTM模型同时进行中文分词和标点符号预测
https://github.com/camel2000/-

Last synced: 2 months ago
JSON representation

用多层BLSTM模型同时进行中文分词和标点符号预测

# -本项目用多层BLSTM模型搭建的联合框架进行了中文分词和标点预测
中文分词和标点符号预测都可以被当做序列标注问题进行处理，这是实现联合标注，进而搭建联合框架同时进行中文分词和标点预测的关键。本项目包含2个要点：
1 中文分词和标点预测的联合标注（中文分词使用四词位）
2 多层BLATM模型

项目用Python语言所写，神经网络的实现用到了Google的tensorflow-1.0.1

1）my_biLSTM_multilayer_CWS.py
此文件定义搭建的多层BLSTM模型和执行迭代训练，首先要运行此文件，训练联合框架。

2） my_biLSTM_multilayer_CWS_testing.py
此文件为测试程序

3）my_reader.py
此文件为预处理程序，把预料送入神经网络之前，要建立词典，为每个字符打标签。