Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/leonardodalinky/acg_corpus_ja_zh
https://github.com/leonardodalinky/acg_corpus_ja_zh
Last synced: 29 days ago
JSON representation
- Host: GitHub
- URL: https://github.com/leonardodalinky/acg_corpus_ja_zh
- Owner: leonardodalinky
- License: mit
- Created: 2022-05-13T13:11:17.000Z (over 2 years ago)
- Default Branch: main
- Last Pushed: 2022-06-07T14:30:23.000Z (over 2 years ago)
- Last Synced: 2024-10-28T04:48:28.154Z (3 months ago)
- Language: Python
- Size: 30.3 KB
- Stars: 0
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
- License: LICENSE
Awesome Lists containing this project
README
# acg_corpus_ja_zh
日文到中文的 ACG(主要是轻小说) 文本数据集。
## 克隆仓库
仓库里使用了 [vecalign](https://github.com/thompsonb/vecalign) 子仓库。
如果未克隆仓库,使用以下命令克隆:
```bash
git clone --recurse-submodules --shallow-submodules [email protected]:leonardodalinky/acg_corpus_ja_zh.git
```如果已经 clone 了前面版本,则需要同步子模块:
```bash
git submodule update --recursive --depth 3
```## 依赖设置
```
pip install -r requirements.txt
````requirements.txt` 中的部分依赖建议手动安装,并且被注释:
* `torch`
* `numba`
* `faiss-gpu` or `faiss-cpu`**对于开发者**,需要安装 pre-commit 脚本,用于检查代码规范:
```bash
pre-commit install
```## 数据集构建流程
数据集构建流程如下:
* `data_extract`: 从原始数据中提取每章节的文本数据,将每章节转化为一个文件。
* `data_process`: 将上述生成的章节文件,根据原始语言与目标语言,进行句子对齐。
* `data_report`: 将句子对齐的结果进行可视化,目前支持 HTML。### 文本数据抽取
详见 `data_extract` 中,目前支持将 epub 中的章节抽取。
### 章节句子对齐
详见 `data_process` 中,将同一章节的不同语种对应后,可以生成各章节中的句子对应结果。
### 对齐可视化
详见 `data_report` 中,可以对 JSON 形式的对齐结果进行可视化。