Ecosyste.ms: Awesome

An open API service indexing awesome lists of open source software.

Awesome Lists | Featured Topics | Projects

https://github.com/shibing624/fake-news-detector

Fake News Detection Competition
https://github.com/shibing624/fake-news-detector

nlp text-classification

Last synced: 28 days ago
JSON representation

Fake News Detection Competition

Awesome Lists containing this project

README

        

# fake-news-detector
Fake News Detection Competition

# [Competition](https://biendata.com/competition/falsenews)

## 背景简介
互联网虚假信息正在威胁着全球互联网的安全,其在规模、传播速度、造假手段三个方面呈现快速增长。2018年顶级国际期刊《科学》指出,
在2016年美国总统大选期间样本选民平均每人每天要接触4篇假新闻;要传播至1500个选民,假新闻的速度是真实新闻的6-20倍。
研究认为互联网虚假新闻甚至影响了英国脱欧投票和2016年美国总统大选的结果。2018年底陆续出来的DeepFake造假技术(图像视频换脸)
和DeepNude造假技术(自动生成裸体照片)给各国政府带来了恐慌。国际咨询公司Gartner预测,到2020年,互联网虚假新闻将面临泛滥之势,
基于人工智能技术的造假能力将远超于虚假检测的能力。

这种现象引起了各国政府和社会群体的空前关切和担忧,其对国家安全、个人与企业声誉和媒体信任度带来了严重冲击。为此,2019年6月,
美国国会召开听证会,讨论DeepFake(深度伪造)技术的风险和对策。呼吁国家加强虚假信息检测技术的研发,以及虚假信息治理执法。
2019年8月,人民网舆情中心也发出了同样的呼吁,目前辟谣滞后造成“空窗期”内谣言广泛传播,造假手段不断更新让人工审核力不从心,
急需开展人工智能技术和人工审核结合的联合辟谣。

本次虚假新闻检测由中国科学院计算技术研究所,以及北京智源人工智能研究院共同举办,旨在促进互联网虚假新闻检测技术的发展,营造清朗的网络空间。

## 任务描述
为应对当前虚假新闻泛滥的现状,将虚假新闻带来的危害最小化,我们设立此赛题以促进对虚假新闻自动化检测方法的研究。针对虚假新闻的特点,我们设立了任务:

`虚假新闻文本检测`:文本是新闻信息的主要载体,对新闻文本的研究有助于虚假新闻的有效识别。具体任务为:给定一个新闻事件的文本,判定该事件属于真实新闻还是虚假新闻。

# Data format

[Data link](https://biendata.com/competition/falsenews/data/),数据文件请从官网下载,比赛开放,注册即可下载。

虚假新闻文本检测任务中,训练集共包含38,471条新闻,其中包含真实新闻19,186条,虚假新闻19,285条。初赛测试集共4,000条,复赛测试集3,902条,真假新闻比例与训练集基本一致。

```
数据字段:
id:新闻id,每条文本中id均不相同,唯一表征一条新闻;

text: 新闻的文本内容;

label: 取值为{0,1},0表示真实新闻,1表示虚假新闻。

```