https://github.com/zj-john/housecrawler
爬取网站房产数据
https://github.com/zj-john/housecrawler
Last synced: about 1 year ago
JSON representation
爬取网站房产数据
- Host: GitHub
- URL: https://github.com/zj-john/housecrawler
- Owner: zj-john
- Created: 2018-03-02T07:59:10.000Z (over 8 years ago)
- Default Branch: master
- Last Pushed: 2024-01-08T07:56:41.000Z (over 2 years ago)
- Last Synced: 2025-02-11T13:59:24.543Z (over 1 year ago)
- Language: JavaScript
- Size: 9.02 MB
- Stars: 1
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# houseCrawler
爬取房天下网站房型、房价数据的爬虫
## 运行步骤:
前提:已安装node.js。
1. npm install
2. 修改db.js中的数据库配置文件
3. 打开数据库工具,导入create.sql
4. 爬取二手房数据
```
node fangtianxia_old.js
```
5. 爬取新房数据
```
node fangtianxia_new.js
```
## 结果
运行完成后,结果保存在数据库中,可以自行导出为excel文件中
## 后续计划
* 针对反爬,检测到获取不到数据(需要输入验证码的页面),记录报错url
* 爬取完成后,针对报错url进行二次爬取
* 全部爬取完成后,导出为excel文件