https://github.com/cluebenchmark/cluewsc2020
CLUEWSC2020: WSC Winograd模式挑战中文版,中文指代消解任务
https://github.com/cluebenchmark/cluewsc2020
Last synced: 5 months ago
JSON representation
CLUEWSC2020: WSC Winograd模式挑战中文版,中文指代消解任务
- Host: GitHub
- URL: https://github.com/cluebenchmark/cluewsc2020
- Owner: CLUEbenchmark
- Created: 2020-05-24T14:37:33.000Z (about 6 years ago)
- Default Branch: master
- Last Pushed: 2020-05-24T15:04:03.000Z (about 6 years ago)
- Last Synced: 2025-07-02T09:11:01.216Z (12 months ago)
- Homepage: https://www.CLUEbenchmark.com
- Size: 4.88 KB
- Stars: 75
- Watchers: 3
- Forks: 2
- Open Issues: 1
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
CLUEWSC2020: WSC Winograd模式挑战中文版,中文指代消解任务
数据集介绍
-------------------------------------------------------------------------
Winograd Scheme Challenge(WSC)是一类代词消歧的任务。
即判断句子中的代词指代的是哪个名词。题目以真假判别的方式出现,如:
句子:这时候放在床上枕头旁边的手机响了,我感到奇怪,因为欠费已被停机两个月,现在它突然响了。需要判断“它”指代的是“床”、“枕头”,还是“手机”?
数据来源:数据有CLUE benchmark提供,从中国现当代作家文学作品中抽取,再经语言专家人工挑选、标注。
数据形式:
{"target":
{"span2_index": 37,
"span1_index": 5,
"span1_text": "床",
"span2_text": "它"},
"idx": 261,
"label": "false",
"text": "这时候放在床上枕头旁边的手机响了,我感到奇怪,因为欠费已被停机两个月,现在它突然响了。"}
"true"表示代词确实是指代span1_text中的名词的,"false"代表不是。
数据集大小:
训练集:1244
开发集:304
模型效果
-------------------------------------------------------------------------
| 模型 | dev| test |
|:-------------:|:-----:|:-----:|
| Bert-base | 77.63% |:-----:|
| RoBERTa-large-clue |85.53% |:-----:|
基线模型
-------------------------------------------------------------------------
添加基线模型