Ecosyste.ms: Awesome

An open API service indexing awesome lists of open source software.
Awesome Lists | Featured Topics | Projects
https://github.com/luohaha/jlitespider

A lite distributed Java spider framework :-)
https://github.com/luohaha/jlitespider
crawler distributed distributed-systems rabbitmq spider
Last synced: 2 months ago
JSON representation
A lite distributed Java spider framework :-)
Host: GitHub
URL: https://github.com/luohaha/jlitespider
Owner: luohaha
License: apache-2.0
Created: 2016-03-04T09:03:42.000Z (almost 9 years ago)
Default Branch: master
Last Pushed: 2017-05-03T13:06:54.000Z (over 7 years ago)
Last Synced: 2024-08-03T06:02:09.322Z (6 months ago)
Topics: crawler, distributed, distributed-systems, rabbitmq, spider
Language: Java
Homepage:
Size: 9.56 MB
Stars: 148
Watchers: 18
Forks: 39
Open Issues: 2
Metadata Files:
- Readme: README.md
- License: LICENSE
Awesome Lists containing this project

README

        # JLiteSpider

**A lite distributed Java spider framework.**  

**这是一个轻量级的分布式java爬虫框架**

### 特点

这是一个强大，但又轻量级的分布式爬虫框架。jlitespider天生具有分布式的特点，各个worker之间需要通过一个或者多个消息队列来连接。消息队列我的选择是[rabbitmq](http://www.rabbitmq.com)。worker和消息之间可以是一对一，一对多，多对一或多对多的关系，这些都可以自由而又简单地配置。消息队列中存储的消息分为四种：url，页面源码，解析后的结果以及自定义的消息。同样的，worker的工作也分为四部分：下载页面，解析页面，数据持久化和自定义的操作。  

用户只需要在配置文件中，规定好worker和消息队列之间的关系。接着在代码中，定义好worker的四部分工作。即可完成爬虫的编写。

总体的使用流程如下：

* 启动rabbitmq。

* 在配置文件中定义worker和消息队列之间的关系。

* 在代码中编写worker的工作。

* 最后，启动爬虫。

### 安装

>使用maven：  

```xml

  com.github.luohaha

  jlitespider

  0.4.3

```

>直接下载jar包:  

点击[下载](http://7xrlnt.com1.z0.glb.clouddn.com/jlitespider-0.4.1.jar)。  

### 设计思想

虽然JLiteSpider将抓取流程抽象成了几个部分，但这并不意味着你就必须遵从这种抽象，你应该根据自己的应用场景，来作出最符合效率最大化的使用决策。比如，如果你抓取的网页源码较大，如果把网页源码也存入消息队列，会导致消息队列负担过大。所以这个时候比较好的做法是将下载和解析的流程合并，直接向消息队列输出解析后的结果。  

所以，虽然JLiteSpider帮你抽象出了抓取过程中的不同阶段，但这完全是选择性的，用户完全是自由的。我在设计JLiteSpider的时候，尽力保障了自由。后面要介绍到的Worker和消息队列的自由配置，以及添加了`freeman`，同样是这种设计思路的体现。

### Worker和消息队列之间关系

worker和消息队列之间的关系可以是一对一，多对一，一对多，多对多，都是可以配置的。在配置文件中，写上要监听的消息队列和要发送的消息队列。例如：

```json

{

    "workerid" : 2,

    "mq" : [{

        "name" : "one",

        "host" : "localhost",

        "port" : 5672,

        "qos" : 3  ,

        "queue" : "url"

    },

    {

        "name" : "two",

        "host" : "localhost",

        "port" : 5672,

        "qos" : 3  ,

        "queue" : "hello"

    }],

    "sendto" : ["two"],

    "recvfrom" : ["one", "two"]

}

```

>workerid : worker的id号  

>mq : 各个消息队列所在的位置，和配置信息。`name`字段为这个消息队列的唯一标识符，供消息队列的获取使用。`host`为消息队列所在的主机ip，`port`为消息队列的监听端口号（rabbitmq中默认为5672）。`qos`为消息队列每次将消息发给worker时的消息个数。`queue`为消息队列的名字。`host`+`port`+`queue`可以理解为是消息队列的唯一地址。  

>sendto : 要发送到的消息队列，填入的信息为`mq`中的`name`字段中的标识符。  

>recvfrom : 要监听的消息队列，消息队列会把消息分发到这个worker中。填入的信息同样为`mq`中的`name`字段中的标识符。

### 消息的设计

在消息队列中，消息一共有四种类型。分别是url，page，result和自定义类型。在worker的程序中，可以通过messagequeue的四种方法(sendUrl, sendPage, sendResult, send)来插入消息。worker的downloader会处理url消息，processor会处理page消息，saver会处理result消息，freeman会处理所有的自定义的消息。我们所要做的工作，就是实现好worker中的这四个函数。

### Worker接口的设计

JLiteSpider将整个的爬虫抓取流程抽象成四个部分，由四个接口来定义。分别是downloader，processor，saver和freeman。它们分别处理上述提到的四种消息。 

你所需要做的是，实现这个接口，并将想要抓取的url链表返回。具体的实现细节，可以由你高度定制。  

#### 1. Downloader:

>这部分实现的是页面下载的任务，将想要抓取的url链表，转化（下载后存储）为相应的页面数据链表。

接口设计如下：

```java

public interface Downloader {

	/**

	 * 下载url所指定的页面。

	 * @param url 

	 * 收到的由消息队列传过来的消息

	 * @param mQueue 

	 * 提供把消息发送到各个消息队列的方法

	 * @throws IOException

	 */

	public void download(Object url, Map mQueue) throws IOException;

}

```

你同样可以实现这个接口，具体的实现可由你自由定制，只要实现`download`函数。`url`是消息队列推送过来的消息，里面不一定是一条`url`，具体是什么内容，是由你当初传入消息队列时决定的。`mQueue`提供了消息发送到各个消息队列的方法，通过`mQueue.get("...")`选取消息队列，然后执行messagequeue的四种方法(sendUrl, sendPage, sendResult, send)来插入消息。

#### 2. Processor:

>`Processor`是解析器的接口，这里会从网页的原始文件中提取出有用的信息。

接口设计：

```java

public interface Processor{

	/**

	 * 处理下载下来的页面源代码

	 * @param page

	 * 消息队列推送过来的页面源代码数据消息

	 * @param mQueue

	 * 提供把消息发送到各个消息队列的方法

	 * @throws IOException

	 */

	public void process(Object page, Map mQueue) throws IOException;

}

```

实现这个接口，完成对页面源码的解析处理。`page`是由消息队列推送过来的消息，具体格式同样是由你在传入时决定好的。`mQueue`使用同上。  

#### 3. Saver:

>`Saver`实现的是对解析得到结果的处理，可以将你解析后得到的数据存入数据库，文件等等。或者将url重新存入消息队列，实现迭代抓取。

接口的设计：

```java

public interface Saver {

	/**

	 * 处理最终解析得到的结果

	 * @param result 

	 * 消息队列推送过来的结果消息

	 * @param mQueue 

	 * 提供把消息发送到各个消息队列的方法

	 * @throws IOException

	 */

	public void save(Object result, Map mQueue) throws IOException;

}

```

通过实现这个接口，可以完成对结果的处理。你同样可以实现这个接口，具体的实现可由你自由定制，只要实现`download`函数。`result`是消息队列推送过来的结果消息，具体的格式是由你当初传入消息队列时决定的。`mQueue`的使用同上。

#### 4. Freeman:

>通过上述的三个流程，可以实现爬虫抓取的一个正常流程。但是`jlitespider`同样提供了自定义的功能，你可以完善，加强，改进甚至颠覆上述的抓取流程。`freeman`就是一个处理自定义消息格式的接口，实现它就可以定义自己的格式，以至于定义自己的流程。

接口的设计：

```java

public interface Freeman {

	/**

	 * 自定义的处理函数

	 * @param key

	 * key为自定义的消息标记

	 * @param msg

	 * 消息队列推送的消息

	 * @param mQueue

	 * 提供把消息发送到各个消息队列的方法

	 * @throws IOException

	 */

	public void doSomeThing(String key, Object msg, Map mQueue) throws IOException;

}

```

通过实现`doSomeThing`函数，你就可以处理来自消息队列的自定义消息。`key`为消息的标记，`msg`为消息的内容。同样，通过`mQueue`的`send`方法，可以实现向消息队列发送自定义消息的操作。(需要注意，自定义的消息标记不能为：`url`，`page`，`result`。否则会被认为是`jlitespider`的保留消息，也就是由上述的三个接口函数来处理。)

### 总结说明

`jlitespider`的设计可能会让您有些疑惑，不过等您熟悉这一整套的设计之后，您就会发现`jlitespider`是多么的灵活和易于使用。

###使用方法

JLiteSpider使用：

```java

//worker的启动

Spider.create() //创建实例

      .setDownloader(...) //设置实现了Downloader接口的下载器

      .setProcessor(...) //设置实现了Processor接口的解析器

      .setSaver(...) //设置实现了Saver接口的数据持久化方法

      .setFreeman(...) //设置自定义消息的处理函数

      .setSettingFile(...) //设置配置文件

      .begin(); //开始爬虫

//消息队列中初始消息添加器的使用。只有向消息队列中添加初始的消息后，整个爬虫系统才能启动，因此称其为spider的lighter（点火器）。

SpiderLighter.locateMQ("localhost", 5672, "MQ's name") // 定位到要访问的消息队列

                 .addUrl(...) //向消息队列添加url类型的消息

                 .addPage(...) //向消息队列添加page类型的消息

                 .addResult(...) //向消息队列添加result类型的消息

                 .add(..., ...) //向消息队列添加自定义类型的消息

                 .close() //关闭连接，一定要记得在最后调用！

```

以豆瓣电影的页面为例子，假设我们要抓取豆瓣电影的爱情分类中的所有电影名称，并存入txt文件中：   

* 首先，需要设计消息队列和worker之间的关系。我的设计是有两个worker和两个消息队列，其中一个worker在main消息队列上，负责下载，解析并把最终结果传入data消息队列。第二个worker从data消息队列中取数据，并存入txt文件中。两个worker的配置文件如下：  

第一个worker：

```json

{

    "workerid" : 1,

    "mq" : [{

        "name" : "main",

        "host" : "localhost",

        "port" : 5672,

        "qos" : 3  ,

        "queue" : "main"

    }, {

        "name" : "data",

        "host" : "localhost",

        "port" : 5672,

        "qos" : 3  ,

        "queue" : "data"

    }],

    "sendto" : ["main", "data"],

    "recvfrom" : ["main"]

}

```

第二个worker：

```json

{

    "workerid" : 2,

    "mq" : [{

        "name" : "main",

        "host" : "localhost",

        "port" : 5672,

        "qos" : 3  ,

        "queue" : "main"

    }, {

        "name" : "data",

        "host" : "localhost",

        "port" : 5672,

        "qos" : 3  ,

        "queue" : "data"

    }],

    "sendto" : [],

    "recvfrom" : ["data"]

}

```

* 接着，编写第一个worker的代码，如下： 

```java

//下载页面数据，并存入main队列。

public class DoubanDownloader implements Downloader {

	private Logger logger = Logger.getLogger("DoubanDownloader");

	@Override

	public void download(Object url, Map mQueue) throws IOException {

		// TODO Auto-generated method stub

		String result = "";

		try {

			result = Network.create()

				            .setUserAgent("...")

				            .setCookie("...")

				            .downloader(url.toString());

			//下载成功，将页面数据放入main消息队列

			mQueue.get("main").sendPage(result);

		} catch (IOException e) {

			logger.info("本次下载失败！重新下载！");

			//因为下载失败，所以将url重新放入main队列中

			mQueue.get("main").sendUrl(url);

		}

	}

}

```

```java

//解析页面数据，将结果放入main消息队列。同时，后面页面的url信息同样需要放入队列，以便迭代抓取。

public class DoubanProcessor implements Processor {

//url去重复

	private Set urlset = new HashSet<>();

	@Override

	public void process(Object page, Map mQueue) throws IOException {

		// TODO Auto-generated method stub

		String path = "//[@id=content]/div/div[1]/div[2]/table/tbody/tr/td[1]/a/@title";

		List result = Xsoup.compile(path).evaluate(Jsoup.parse(page.toString())).list();

		//将结果放入main消息队列

		mQueue.get("main").sendResult(result);

		path = "//[@id=content]/div/div[1]/div[3]/a/@href";

		List url = Xsoup.compile(path).evaluate(Jsoup.parse(page.toString())).list();

		for (String each : url) {

			if (!urlset.contains(each)) {

			//如果url之前并未抓取过，则加入main队列，作为接下来要抓取的url

				mQueue.get("main").sendUrl(each);

				urlset.add(each);

			}

		}

	}

}

```

```java

//把最终的数据放入data消息队列

public class DoubanSaver implements Saver {

	@Override

	public void save(Object result, Map mQueue) throws IOException {

		// TODO Auto-generated method stub

		List rList = (List) result;

		for (String each : rList) {

		//把数据发往data消息队列

			mQueue.get("data").send("cc", each);

		}

	}

}

```

```java

//启动worker的主程序

public class DoubanSpider {

	public static void main(String[] args) {

		try {

			Spider.create().setDownloader(new DoubanDownloader())

			               .setProcessor(new DoubanProcessor())

			               .setSaver(new DoubanSaver())

			               .setSettingFile("./conf/setting.json")

			               .begin();

		} catch (ShutdownSignalException e) {

			// TODO Auto-generated catch block

			e.printStackTrace();

		} catch (ConsumerCancelledException e) {

			// TODO Auto-generated catch block

			e.printStackTrace();

		} catch (IOException e) {

			// TODO Auto-generated catch block

			e.printStackTrace();

		} catch (TimeoutException e) {

			// TODO Auto-generated catch block

			e.printStackTrace();

		} catch (InterruptedException e) {

			// TODO Auto-generated catch block

			e.printStackTrace();

		} catch (SpiderSettingFileException e) {

			// TODO Auto-generated catch block

			e.printStackTrace();

		}

	}

}

```

* 接下来，还要写第二个worker的代码。

```java

//接收data消息队列中的数据，写入txt

public class SaveToFile implements Freeman {

	@Override

	public void doSomeThing(String key, Object msg, Map mQueue) throws IOException {

		// TODO Auto-generated method stub

		File file = new File("./output/name.txt");

		FileWriter fileWriter = new FileWriter(file, true);

		fileWriter.write(msg.toString() + "\n");

		fileWriter.flush();

		fileWriter.close();

	}

}

```

```java

//第二个worker的启动主程序

public class SaveToFileSpider {

	public static void main(String[] args) {

		try {

			Spider.create().setFreeman(new SaveToFile())

			               .setSettingFile("./conf/setting2.json")

			               .begin();

		} catch (ShutdownSignalException e) {

			// TODO Auto-generated catch block

			e.printStackTrace();

		} catch (ConsumerCancelledException e) {

			// TODO Auto-generated catch block

			e.printStackTrace();

		} catch (IOException e) {

			// TODO Auto-generated catch block

			e.printStackTrace();

		} catch (TimeoutException e) {

			// TODO Auto-generated catch block

			e.printStackTrace();

		} catch (InterruptedException e) {

			// TODO Auto-generated catch block

			e.printStackTrace();

		} catch (SpiderSettingFileException e) {

			// TODO Auto-generated catch block

			e.printStackTrace();

		}

	}

}

```

* 还要编写一个main消息队列的初始化程序(点火程序)，把第一个入口url放入main消息队列中。

```java

//把入口url放入main消息队列

public class AddUrls {

	public static void main(String[] args) {

		try {

			// 首先定位到要访问的消息队列，队列在localhost:5672/main

			// 然后向这个消息队列添加url

			// 最后关闭lighter

			SpiderLighter.locateMQ("localhost", 5672, "main")

			             .addUrl("https://movie.douban.com/tag/%E7%88%B1%E6%83%85?start=0&type=T")

			             .close();

		} catch (IOException e) {

			// TODO Auto-generated catch block

			e.printStackTrace();

		} catch (TimeoutException e) {

			// TODO Auto-generated catch block

			e.printStackTrace();

		}

	}

}

```

* 最后，依次启动程序。启动的顺序是：rabbitmq -> worker1/2 -> 初始化消息程序。关于rabbitmq的使用，它的官方网站上有详细的安装和使用文档，可用于快速搭建rabbitmq的server。

### 辅助工具

>当前版本的`jlitespider`能提供的辅助工具并不多，您在使用`jlitespider`的过程中，可以将您实现的辅助工具合并到`jlitespider`中来，一起来完善`jlitespider`的功能。辅助工具在包`com.github.luohaha.jlitespider.extension`中。

* Network

简单的网络下载器，输入url，返回页面源代码。使用如下：

```java

		String result = Network.create()

				.setCookie("...")

				.setProxy("...")

				.setTimeout(...)

				.setUserAgent("...")

				.downloader(url);

```

>不推荐使用这个网络下载器，因为它是同步的，会阻塞进程。

* AsyncNetwork

异步非阻塞的网络下载器，推荐使用这个作为页面下载器，因为它不会阻塞进程。

```java

// 创建下载器

AsyncNetwork asyncNetwork = new AsyncNetwork();

// 设置cookie

asyncNetwork.setCookie(cookies);

// 设置代理

asyncNetwork.setProxy("...");

// 设置agent

asyncNetwork.setUserAgent("...");

// 启动下载器

asyncNetwork.begin();

```

在异步下载器启动后，可以随时往下载器中添加url，和对应的回调处理对象。

```java

// 添加要下载的页面的url，和下载完成后的处理函数。

asyncNetwork.addUrl("...", new DownloadCallback() {

			

			@Override

			public void onReceived(String result, String url) {

				// 下载成功后，执行这个函数。result为下载下来的页面信息，url为对应的url链接。

				

			}

			

			@Override

			public void onFailed(Exception exception, String url) {

				// 下载失败时，执行这个函数。exception为失败原因。

				

			}

		});

```

* 解析工具

项目中依赖了两个很常用的解析工具：[xsoup](https://github.com/code4craft/xsoup) 和 [jsoup](https://jsoup.org)。