Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/toannd96/crawler_web_js
Dùng scrapy-splash kết hợp lua script để crawl các trang web sử dụng Javascript (websosanh)
https://github.com/toannd96/crawler_web_js
crawler javascript lua-script scrapy scrapy-splash splash
Last synced: 2 months ago
JSON representation
Dùng scrapy-splash kết hợp lua script để crawl các trang web sử dụng Javascript (websosanh)
- Host: GitHub
- URL: https://github.com/toannd96/crawler_web_js
- Owner: toannd96
- Created: 2018-11-04T17:52:58.000Z (about 6 years ago)
- Default Branch: master
- Last Pushed: 2022-12-08T01:16:30.000Z (about 2 years ago)
- Last Synced: 2023-04-27T12:46:02.031Z (over 1 year ago)
- Topics: crawler, javascript, lua-script, scrapy, scrapy-splash, splash
- Language: Python
- Homepage: https://viblo.asia/p/thu-thap-du-lieu-voi-scrapy-splash-noi-dung-duoc-tao-boi-javascript-3Q75wBbMlWb
- Size: 26.4 KB
- Stars: 15
- Watchers: 4
- Forks: 13
- Open Issues: 8
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# Crawler-JS
Dùng scrapy-splash kết hợp lua script để crawl các trang web sử dụng Javascript (websosanh)
```
├── crawl_service
│ ├── __init__.py
│ ├── items.py
│ ├── middlewares.py
│ ├── pipelines.py
│ ├── run.py
│ ├── settings.py
│ └── spiders
│ ├── __init__.py
│ └── websosanh.py
└── lazada.py
├── requirements.txt
└── scrapy.cfg
```- Cài đặt Splash
Cài Docker sau đó chạy
```
$ sudo docker pull scrapinghub/splash
```
và
```
$ sudo docker run -p 8050:8050 scrapinghub/splash
```
- Cài các thư viện cần thiết khác ( Nên dùng virtualenv )
```
pip install -r requirements.txt
```
- Chạy script
```
python run.py
```
hoặc
```
scrapy crawl wss
scrapy crawl lazada
```