https://github.com/wonderkun/spider
https://github.com/wonderkun/spider
Last synced: 2 months ago
JSON representation
- Host: GitHub
- URL: https://github.com/wonderkun/spider
- Owner: wonderkun
- Created: 2016-03-21T11:07:23.000Z (about 9 years ago)
- Default Branch: master
- Last Pushed: 2016-12-30T12:51:47.000Z (over 8 years ago)
- Last Synced: 2025-02-09T13:33:21.021Z (4 months ago)
- Language: Python
- Size: 307 KB
- Stars: 0
- Watchers: 1
- Forks: 1
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
#spider
-------------
#分布式网络爬虫
--------------------###server 是服务端
├── bin
│ ├── pycopile.py 编译,压缩客户端的的代码
│ ├── slave 编译压缩之后的二进制文件
│ └── slave.py 客户端代码的所有模块代码的合并
├── code.py 客户端运行的代码
├── dict 字典目录
│ ├── dns_servers.txt
│ ├── next_sub.txt
│ ├── subnames_largest.txt
│ └── subnames.txt
├── DnsBrute.py 子域名爆破模块,用的是dict中的字典
├── domainRecorder.py path url domain 的统一分类,记录模块
├── HttpServer.py HTTP 服务模块
└── server.py 服务端的入口文件
###slave 是客户端├── client.py 客户端入口,主线程
├── controler.py 控制线程,(1)控制主线程的退出,(2)和server进行数据交换
├── domainRecorder.py path url domain 的统一分类,记录模块
├── pages.db 数据库
├── visited.db
├── worker.py 爬虫模块
###comm 服务端和客户端的公用模块
├── domainRecorder.py
└── __init__.py# 用法
```bash
cd ./server
#修改 ./server/server.py 的address 参数为自己服务器的ip
cd ./server/bin
#修改./server/bin/slave.py 的参数 server_addr 为自己的服务器的ip
python pycopile.py #运行次文件,编译客户端代码
cd ../
python server.py domain [-i] [-T num] #运行server -i 指定是否进行子域名爆破,-T 指定线程
python -c "exec(__import__('urllib2').urlopen('http://server_addr:8000/').read())" # server_addr 换为自己的ip,然后运行起来客户端
```