https://github.com/46319943/newsforpaddle
借助百度飞桨对新闻进行分析,并将结果进行地图可视化。Analyze news with Paddle and visualize the result on the map.
https://github.com/46319943/newsforpaddle
baidu-api mapbox-gl news paddle paddlehub paddlepaddle
Last synced: 6 months ago
JSON representation
借助百度飞桨对新闻进行分析,并将结果进行地图可视化。Analyze news with Paddle and visualize the result on the map.
- Host: GitHub
- URL: https://github.com/46319943/newsforpaddle
- Owner: 46319943
- Created: 2020-12-04T14:27:28.000Z (over 5 years ago)
- Default Branch: master
- Last Pushed: 2021-03-09T05:51:56.000Z (over 5 years ago)
- Last Synced: 2023-03-05T02:12:59.937Z (over 3 years ago)
- Topics: baidu-api, mapbox-gl, news, paddle, paddlehub, paddlepaddle
- Language: Jupyter Notebook
- Homepage:
- Size: 1.65 MB
- Stars: 2
- Watchers: 1
- Forks: 3
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# 新闻地图之可视化
- 在现在这样一个大数据时代,新闻资讯作为获取信息的有效途径,存在信息冗杂、分类不清、表达不直观等问题,为此我们团队不断寻找创新新闻表现形式的突破口,最终发现了地图。它作为一类重要的信息载体,在信息展示方面具有直观、多维的特点。
- 由此,我们尝试将新闻与地图融合,借助百度飞桨,实现新闻在地图上的可视化表达。同时,根据新闻文本内容,我们可以尝试性地探究新闻情感、主题在时空上的分布特征。
# 实验步骤
- 使用Baidu AI Studio完成,项目链接:https://aistudio.baidu.com/aistudio/projectdetail/1301096
- 在本例中,我们首先载入示例数据
- 利用Senta模型对文本进行情感倾向分析,计算得到情感得分
- 利用LDA主题模型,对文本进行主题分析,得到各个主题的关键词分布以及新闻对应的主题
- 随后,利用飞桨进行命名实体识别,提取新闻中的地名,并结合百度地图进行地理编码
- 最后,我们使用Mapbox-GL对新闻进行地图的可视化,将之前的分析结果呈现在地图上
# 技术路线
- 使用百度飞桨Paddle实现情感分析、分词、命名实体识别
- 使用百度地图完成地理编码
- 使用Gensim、Requests等库完成新闻主题分析
- 使用Mapbox-GL完成结果的地图可视化
# 数据来源
- 本例中,我们提供了长江网上5月1日至5月5日的244条新闻作为示例数据
- 实际平台中,我们采用的是定时运行的分布式爬虫,结合新闻智能提取算法对各新闻源网站进行新闻提取。代码可以参考base_scrape.py
# 新闻地点名提取
- 在本例中,我们仅演示了武汉地点名的提取,对于全国地点名的提取需要额外的处理步骤,可以参考geocoder.py