https://github.com/howl-anderson/corpus_compare
https://github.com/howl-anderson/corpus_compare
Last synced: 4 days ago
JSON representation
- Host: GitHub
- URL: https://github.com/howl-anderson/corpus_compare
- Owner: howl-anderson
- Created: 2019-11-15T09:27:49.000Z (almost 6 years ago)
- Default Branch: master
- Last Pushed: 2019-11-26T07:02:03.000Z (almost 6 years ago)
- Last Synced: 2025-07-03T16:43:39.677Z (4 months ago)
- Language: Python
- Size: 4.4 MB
- Stars: 0
- Watchers: 1
- Forks: 1
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# corpus_compare
## 处理步骤
### 转换格式
* Input: 位于 data 目录下的 json line 格式的语料(多个)文件
* Output: data.conllx
* Script: convert_to_corpus.py
### 按照领域分组
* Input: data.conllx
* Output: 位于 domain_data 目录下文件名为领域名的(多个)文件
* Script: group_by_domain.py
### 比较数据
* Input:
* model/deliverable_model (模型数据)
* 位于 domain_data 目录下文件名为领域名的(多个)文件
* Output: pickle 格式的 compare_result.pkl
* Script: compare_corpus.py
### 输出报告
输出报告的格式和内容,可以从 output_format 模块里找,也可以仿照已有接口实现自定义格式* Input: pickle 格式的 compare_result.pkl
* Output: 位于 report 目录下文件名为领域名的(多个)文件
* Script: output_report.py