Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/shibing624/fake-news-detector
Fake News Detection Competition
https://github.com/shibing624/fake-news-detector
nlp text-classification
Last synced: 28 days ago
JSON representation
Fake News Detection Competition
- Host: GitHub
- URL: https://github.com/shibing624/fake-news-detector
- Owner: shibing624
- License: apache-2.0
- Created: 2019-09-16T08:45:54.000Z (about 5 years ago)
- Default Branch: master
- Last Pushed: 2022-02-10T03:17:13.000Z (almost 3 years ago)
- Last Synced: 2024-10-23T03:40:35.251Z (29 days ago)
- Topics: nlp, text-classification
- Language: Python
- Size: 11.2 MB
- Stars: 8
- Watchers: 4
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
- License: LICENSE
Awesome Lists containing this project
README
# fake-news-detector
Fake News Detection Competition# [Competition](https://biendata.com/competition/falsenews)
## 背景简介
互联网虚假信息正在威胁着全球互联网的安全,其在规模、传播速度、造假手段三个方面呈现快速增长。2018年顶级国际期刊《科学》指出,
在2016年美国总统大选期间样本选民平均每人每天要接触4篇假新闻;要传播至1500个选民,假新闻的速度是真实新闻的6-20倍。
研究认为互联网虚假新闻甚至影响了英国脱欧投票和2016年美国总统大选的结果。2018年底陆续出来的DeepFake造假技术(图像视频换脸)
和DeepNude造假技术(自动生成裸体照片)给各国政府带来了恐慌。国际咨询公司Gartner预测,到2020年,互联网虚假新闻将面临泛滥之势,
基于人工智能技术的造假能力将远超于虚假检测的能力。这种现象引起了各国政府和社会群体的空前关切和担忧,其对国家安全、个人与企业声誉和媒体信任度带来了严重冲击。为此,2019年6月,
美国国会召开听证会,讨论DeepFake(深度伪造)技术的风险和对策。呼吁国家加强虚假信息检测技术的研发,以及虚假信息治理执法。
2019年8月,人民网舆情中心也发出了同样的呼吁,目前辟谣滞后造成“空窗期”内谣言广泛传播,造假手段不断更新让人工审核力不从心,
急需开展人工智能技术和人工审核结合的联合辟谣。本次虚假新闻检测由中国科学院计算技术研究所,以及北京智源人工智能研究院共同举办,旨在促进互联网虚假新闻检测技术的发展,营造清朗的网络空间。
## 任务描述
为应对当前虚假新闻泛滥的现状,将虚假新闻带来的危害最小化,我们设立此赛题以促进对虚假新闻自动化检测方法的研究。针对虚假新闻的特点,我们设立了任务:`虚假新闻文本检测`:文本是新闻信息的主要载体,对新闻文本的研究有助于虚假新闻的有效识别。具体任务为:给定一个新闻事件的文本,判定该事件属于真实新闻还是虚假新闻。
# Data format
[Data link](https://biendata.com/competition/falsenews/data/),数据文件请从官网下载,比赛开放,注册即可下载。
虚假新闻文本检测任务中,训练集共包含38,471条新闻,其中包含真实新闻19,186条,虚假新闻19,285条。初赛测试集共4,000条,复赛测试集3,902条,真假新闻比例与训练集基本一致。
```
数据字段:
id:新闻id,每条文本中id均不相同,唯一表征一条新闻;text: 新闻的文本内容;
label: 取值为{0,1},0表示真实新闻,1表示虚假新闻。
```