https://github.com/henryhaohao/it_orange
:rainbow:Multiprocessing多进程爬取IT桔子网站的10万+公司信息
https://github.com/henryhaohao/it_orange
company itorange multiprocessing python
Last synced: 4 months ago
JSON representation
:rainbow:Multiprocessing多进程爬取IT桔子网站的10万+公司信息
- Host: GitHub
- URL: https://github.com/henryhaohao/it_orange
- Owner: Henryhaohao
- Created: 2018-04-24T11:22:24.000Z (over 7 years ago)
- Default Branch: master
- Last Pushed: 2018-10-20T02:44:10.000Z (almost 7 years ago)
- Last Synced: 2025-04-09T00:33:56.327Z (6 months ago)
- Topics: company, itorange, multiprocessing, python
- Language: Python
- Homepage: https://www.itjuzi.com/
- Size: 717 KB
- Stars: 16
- Watchers: 3
- Forks: 8
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
多进程爬取IT桔子网站的10万+公司信息 
===========================
   
### IT桔子官网 - https://www.itjuzi.com/
|Author|:sunglasses:Henryhaohao:sunglasses:|
|---|---
|Email|:hearts:1073064953@qq.com:hearts:
****
## :dolphin:声明
### 软件均仅用于学习交流,请勿用于任何商业用途!感谢大家!
## :dolphin:介绍
- 项目介绍:该项目为爬取[IT桔子](https://www.itjuzi.com/)10万+公司信息
- 爬取内容:通过IT雷达中国公司信息展示平台,爬取了101865家公司信息(包括公司名、logo、城市、上市情况、融资情况等)
- 爬取方式:我爬取时刚注册赠送了会员,可以查看后面页数的公司信息,而目前由于IT雷达需要会员注册方可查看后面页数的公司,所以此代码需带入会员的登录cookie才可行
- 运行方法: 直接运行Spider目录下的main.py即可
- 数据截图:
- 
- 
## :dolphin:运行环境
Version: Python3
## :dolphin:存储数据库
MongoDB
## :dolphin:安装依赖库
```
pip3 install -r requirements.txt
```
## :dolphin:**总结**
> **最后,如果你觉得这个项目不错或者对你有帮助,给个Star呗,也算是对我学习路上的一种鼓励!
哈哈哈,感谢大家!笔芯~**:cupid::cupid: