Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/kingschan1204/easyCrawl
一个java实现的爬虫工具包
https://github.com/kingschan1204/easyCrawl
crawling-sites stock-data
Last synced: 14 days ago
JSON representation
一个java实现的爬虫工具包
- Host: GitHub
- URL: https://github.com/kingschan1204/easyCrawl
- Owner: kingschan1204
- License: apache-2.0
- Created: 2023-04-04T19:59:09.000Z (over 1 year ago)
- Default Branch: main
- Last Pushed: 2024-09-24T10:58:47.000Z (about 2 months ago)
- Last Synced: 2024-10-27T11:16:32.807Z (17 days ago)
- Topics: crawling-sites, stock-data
- Language: Java
- Homepage:
- Size: 206 KB
- Stars: 57
- Watchers: 3
- Forks: 7
- Open Issues: 0
-
Metadata Files:
- Readme: readme.md
- License: LICENSE
Awesome Lists containing this project
README
## 前言
> 本工程是一个基于java实现的爬虫工具包,初衷是想能简单高效爬取互联网数据,我个人比较感兴趣的还是股票数据,因此测试用例全是爬的股票数据
目前只是个半成品,慢慢来吧。
## 实现功能
- 支持http/https `html页面、restapi、文件流`
- 文件下载
- 自动分页并发爬取数据
- http代理设置:heavy_exclamation_mark: :point_right: 本项目初衷纯属技术交流,勿作商业用途:heavy_exclamation_mark::bangbang:
## 测试用例
:ballot_box_with_check: A股所有股票代码
:ballot_box_with_check: 开盘交易日数据
:ballot_box_with_check: 大盘指数(上证、深圳、沪深300)
:ballot_box_with_check: 上市公司历史财报Excel下载
:ballot_box_with_check: 历史分红
:ballot_box_with_check: 公司简介
:ballot_box_with_check: top10 股东
:ballot_box_with_check: 股东人数
> 测试用例爬取的网站如下
- `同花顺`
- `新浪财经`
- `雪球`
- `深交所`
## 截图
![](https://raw.githubusercontent.com/kingschan1204/easycrawl/main/images/xueqiu-test.png "雪球测试")## 依赖
- lombok
- slf4j
- logback
- jsoup
- fastjson
- freemarker
- junit
- commons-io## 运行
> 下面是单元测试类,本工程所有测试用例全在这里
https://github.com/kingschan1204/easycrawl/tree/main/src/test/java/com/github/kingschan1204/easycrawl