https://github.com/linhaow/TextClassification

基于预训练模型（BERT，BERT-wwm）的文本分类模板，CCF BDCI新闻情感分析A榜4/2735。
https://github.com/linhaow/TextClassification

Last synced: 8 days ago
JSON representation

基于预训练模型（BERT，BERT-wwm）的文本分类模板，CCF BDCI新闻情感分析A榜4/2735。

Host: GitHub
URL: https://github.com/linhaow/TextClassification
Owner: linhaow
License: apache-2.0
Created: 2019-11-25T03:25:45.000Z (over 5 years ago)
Default Branch: master
Last Pushed: 2020-09-16T13:19:43.000Z (over 4 years ago)
Last Synced: 2024-11-08T09:03:48.585Z (6 months ago)
Language: Python
Homepage:
Size: 2.63 MB
Stars: 258
Watchers: 2
Forks: 48
Open Issues: 0
Metadata Files:
- Readme: README.md
- License: LICENSE

Awesome Lists containing this project

TCPapers - linhaow / TextClassify - 基于预训练模型的文本分类模板，CCF BDCI新闻情感分析初赛A榜4/2735，复赛1% (Repository & Tool / Weakly-supervised & Semi-supervised Learning)

README

作者ustc-linhw

本文件为文本分类任务

目前支持的功能如下：

—— 训练数据集kfold处理

—— 训练数据集数据信息查看

—— 使用预训练模型进行文本分类

—— roberta_wwm_ext_large

—— roberta_large

—— xlnet_large (to do)

—— 不同模型结果进行投票ensemble

—— 对于训练完成的模型自动保存模型，配置以及输出结果

主要文件目录如下：

—— backup-models:自动存档目录，输出的模型和结果会自动存档到该目录

—— data：数据文件，用于存放训练用的数据，在该文件下数据分析，数据kfold处理

—— pretrained_model: 用于存放预训练的模型

—— run_xxxxx.sh: 训练某个模型所使用的bash文件

—— run_xxxx.py: 具体的训练代码

—— ensemble_submits：对输出的result文件进行vote融合结果

具体使用流程

1. 对于不同的分类任务，可能需要修改下述文件，目前是2分类，如要修改，修改下述文件。

—— preprocess.py

—— run_bert.py

—— 标签label

—— 类别数

—— 类别loss

—— combine.py

2. cd data && python analysis.py 查看数据集的相关情况

3. python preprocess.py 完成数据预处理，并且将数据分成kfold

4. 修改run_xxxx.sh文件设置参数

注：该模型将文本截成k段，分别输入语言模型，然后顶层用GRU拼接起来。好处在于设置小的max_length和更大的k来降低显存占用，因为显存占用是关于长度平方级增长的，而关于k是线性增长

1)实际长度 = max_seq_length * split_num

2)实际batch size 大小= per_gpu_train_batch_size * numbers of gpu

3)上面的结果所使用的是4卡GPU，因此batch size为4。如果只有1卡的话，那么per_gpu_train_batch_size应设为4, max_length设置小一些。

4)如果显存太小，可以设置gradient_accumulation_steps参数，比如gradient_accumulation_steps=2，batch size=4，那么就会运行2次，每次batch size为2，累计梯度后更新，等价于batch size=4，但速度会慢两倍。而且迭代次数也要相应提高两倍，即train_steps设为10000

具体batch size可看运行时的log，如：

09/06/2019 21:03:41 - INFO - __main__ - ***** Running training *****

09/06/2019 21:03:41 - INFO - __main__ - Num examples = 5872

09/06/2019 21:03:41 - INFO - __main__ - Batch size = 4

09/06/2019 21:03:41 - INFO - __main__ - Num steps = 5000

5. 最后输出文件会生成result.csv，模型会在对应的模型文件夹中生成，backup文件夹问自动保存对应的模型。

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Awesome

https://github.com/linhaow/TextClassification

Awesome Lists containing this project

README