Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/python3spiders/allnewsspider
澎湃新闻,新浪新闻,腾讯新闻,搜狐新闻,新闻联播,泰晤士报,纽约时报,BBCNews,旨在爬取所有新闻门户网站的新闻,禁止将所得数据商用!
https://github.com/python3spiders/allnewsspider
bbc-news crawler newsapi nytimes sina sohu spider tencent thetimes xwlb
Last synced: 1 day ago
JSON representation
澎湃新闻,新浪新闻,腾讯新闻,搜狐新闻,新闻联播,泰晤士报,纽约时报,BBCNews,旨在爬取所有新闻门户网站的新闻,禁止将所得数据商用!
- Host: GitHub
- URL: https://github.com/python3spiders/allnewsspider
- Owner: Python3Spiders
- License: apache-2.0
- Created: 2019-05-27T06:03:02.000Z (over 5 years ago)
- Default Branch: master
- Last Pushed: 2022-10-18T03:24:22.000Z (about 2 years ago)
- Last Synced: 2024-12-13T15:16:35.238Z (12 days ago)
- Topics: bbc-news, crawler, newsapi, nytimes, sina, sohu, spider, tencent, thetimes, xwlb
- Language: Python
- Homepage:
- Size: 32.3 MB
- Stars: 356
- Watchers: 8
- Forks: 62
- Open Issues: 7
-
Metadata Files:
- Readme: README.md
- License: LICENSE
Awesome Lists containing this project
README
# env
**必须是 python 3.6.6 64 bit windows/linux/mac**
**如果要爬取纽约时报,则需要使用urllib3的1.25.11版本,否则代理可能出错**
# intro
新浪新闻,腾讯新闻,搜狐新闻,澎湃新闻。
短期目前旨在爬取所有新闻门户网站的新闻,每个门户网站爬虫开箱即用,并自动保存到同目录下的 csv/excel 文件中,禁止将所得数据商用。
长期目标是打造一个信息流聚合平台,或者进行更高层面的比如社会舆情、新闻地理可视化等的处理。
集成该爬虫的网站已上线,体验地址:
~~https://xt98.tech:9494~~
**http://buyixiao.xyz****http://8.142.38.214**
**项目长期维护,欢迎 star,项目更多信息欢迎关注个人微信公众号 【月小水长】**
# how to use
每个文件夹下的代码就是对应平台的新闻爬虫
py 文件直接运行
pyd 文件需要,假设为 pengpai_news_spider.pyd
1. 将 pyd 文件下载到本地,新建项目,把 pyd 文件放进去
2. 项目根目录下新建 runner.py,写入以下代码即可运行并抓取
```python
import pengpai_news_spider
pengpai_news_spider.main()
```
# todo
1、百度新闻爬虫,已完成,已发布
2、澎拜新闻爬虫,已完成,已发布
3、腾讯新闻爬虫,已完成,已发布
4、新浪新闻爬虫,已完成,已发布
5、纽约时报爬虫,已完成,已发布
6、泰晤士报爬虫,已完成,已发布
7、BBC新闻爬虫,已完成,已发布