Ecosyste.ms: Awesome

An open API service indexing awesome lists of open source software.

Awesome Lists | Featured Topics | Projects

https://github.com/princehaku/pyrailgun

Simple And Easy Python Crawler Framework,支持抓取javascript渲染的页面的简单实用高效的python网页爬虫抓取模块
https://github.com/princehaku/pyrailgun

Last synced: about 2 months ago
JSON representation

Simple And Easy Python Crawler Framework,支持抓取javascript渲染的页面的简单实用高效的python网页爬虫抓取模块

Awesome Lists containing this project

README

        

NEED Python2.7 or Python3+

功能

* 支持从[json](https://github.com/princehaku/pyrailgun/blob/master/demo/tour/basic.json)文件读取抓取任务

* 支持 python字典数据源方式 定义抓取任务

* [通配符和多页码抓取](https://github.com/princehaku/pyrailgun/wiki/用通配符抓取多页码数据)

* [参数暂存和传递 深度抓取](https://github.com/princehaku/pyrailgun/wiki/参数传递)

* [css选择器](https://github.com/princehaku/pyrailgun/wiki/css选择器)

* [使用requests抓取网页](https://github.com/princehaku/pyrailgun/wiki/使用requests抓取网页)

* [使用webkit内核抓取网页](https://github.com/princehaku/pyrailgun/wiki/使用webkit内核抓取网页)

安装

* [从pip安装] (https://pypi.python.org/pypi/pyrailgun) `pip install pyrailgun`

* 源码安装 `python setup.py install`

语法

* [json对象说明](https://github.com/princehaku/pyrailgun/wiki/json%E6%96%87%E4%BB%B6%E6%A0%BC%E5%BC%8F%E8%AF%B4%E6%98%8E)

例子

* [快速入门] (https://github.com/princehaku/pyrailgun/wiki/简单使用说明)

* [全功能简单例子] (https://github.com/princehaku/pyrailgun/blob/master/demo/tour/)

* [读取输入变量] (https://github.com/princehaku/pyrailgun/blob/master/demo/userinput/)

* [WebKit抓取] (https://github.com/princehaku/pyrailgun/blob/master/demo/webkit/)

* [在没有X的服务器上运行webkit内核抓取](https://github.com/princehaku/pyrailgun/wiki/在没有X的服务器上运行webkit内核抓取)

贡献者

* hitmaft lekko

其他

* python2.7 是必须的

* [_pages](https://github.com/princehaku/pyrailgun/wiki/_pages)

更新

* 0.25
fix 一个crash问题

* 0.24
受版权限制,替换webbroser为自己写的版本
去除yaml的支持