Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/princehaku/pyrailgun
Simple And Easy Python Crawler Framework,支持抓取javascript渲染的页面的简单实用高效的python网页爬虫抓取模块
https://github.com/princehaku/pyrailgun
Last synced: 4 months ago
JSON representation
Simple And Easy Python Crawler Framework,支持抓取javascript渲染的页面的简单实用高效的python网页爬虫抓取模块
- Host: GitHub
- URL: https://github.com/princehaku/pyrailgun
- Owner: princehaku
- Created: 2013-02-25T15:56:54.000Z (almost 12 years ago)
- Default Branch: master
- Last Pushed: 2021-09-03T22:07:47.000Z (over 3 years ago)
- Last Synced: 2024-07-07T11:44:28.801Z (8 months ago)
- Language: Python
- Homepage:
- Size: 174 KB
- Stars: 377
- Watchers: 42
- Forks: 159
- Open Issues: 6
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
NEED Python2.7 or Python3+
功能
* 支持从[json](https://github.com/princehaku/pyrailgun/blob/master/demo/tour/basic.json)文件读取抓取任务
* 支持 python字典数据源方式 定义抓取任务
* [通配符和多页码抓取](https://github.com/princehaku/pyrailgun/wiki/用通配符抓取多页码数据)
* [参数暂存和传递 深度抓取](https://github.com/princehaku/pyrailgun/wiki/参数传递)
* [css选择器](https://github.com/princehaku/pyrailgun/wiki/css选择器)
* [使用requests抓取网页](https://github.com/princehaku/pyrailgun/wiki/使用requests抓取网页)
* [使用webkit内核抓取网页](https://github.com/princehaku/pyrailgun/wiki/使用webkit内核抓取网页)
安装
* [从pip安装] (https://pypi.python.org/pypi/pyrailgun) `pip install pyrailgun`
* 源码安装 `python setup.py install`
语法
* [json对象说明](https://github.com/princehaku/pyrailgun/wiki/json%E6%96%87%E4%BB%B6%E6%A0%BC%E5%BC%8F%E8%AF%B4%E6%98%8E)
例子
* [快速入门] (https://github.com/princehaku/pyrailgun/wiki/简单使用说明)
* [全功能简单例子] (https://github.com/princehaku/pyrailgun/blob/master/demo/tour/)
* [读取输入变量] (https://github.com/princehaku/pyrailgun/blob/master/demo/userinput/)
* [WebKit抓取] (https://github.com/princehaku/pyrailgun/blob/master/demo/webkit/)
* [在没有X的服务器上运行webkit内核抓取](https://github.com/princehaku/pyrailgun/wiki/在没有X的服务器上运行webkit内核抓取)
贡献者
* hitmaft lekko
其他
* python2.7 是必须的
* [_pages](https://github.com/princehaku/pyrailgun/wiki/_pages)
更新
* 0.25
fix 一个crash问题* 0.24
受版权限制,替换webbroser为自己写的版本
去除yaml的支持