Ecosyste.ms: Awesome

An open API service indexing awesome lists of open source software.

Awesome Lists | Featured Topics | Projects

https://github.com/kingschan1204/easyCrawl

一个java实现的爬虫工具包
https://github.com/kingschan1204/easyCrawl

crawling-sites stock-data

Last synced: 14 days ago
JSON representation

一个java实现的爬虫工具包

Awesome Lists containing this project

README

        

## 前言

> 本工程是一个基于java实现的爬虫工具包,初衷是想能简单高效爬取互联网数据,我个人比较感兴趣的还是股票数据,因此测试用例全是爬的股票数据
目前只是个半成品,慢慢来吧。
## 实现功能
- 支持http/https `html页面、restapi、文件流`
- 文件下载
- 自动分页并发爬取数据
- http代理设置

:heavy_exclamation_mark: :point_right: 本项目初衷纯属技术交流,勿作商业用途:heavy_exclamation_mark::bangbang:

## 测试用例

:ballot_box_with_check: A股所有股票代码

:ballot_box_with_check: 开盘交易日数据

:ballot_box_with_check: 大盘指数(上证、深圳、沪深300)

:ballot_box_with_check: 上市公司历史财报Excel下载

:ballot_box_with_check: 历史分红

:ballot_box_with_check: 公司简介

:ballot_box_with_check: top10 股东

:ballot_box_with_check: 股东人数

> 测试用例爬取的网站如下
- `同花顺`
- `新浪财经`
- `雪球`
- `深交所`
## 截图
![](https://raw.githubusercontent.com/kingschan1204/easycrawl/main/images/xueqiu-test.png "雪球测试")

## 依赖
- lombok
- slf4j
- logback
- jsoup
- fastjson
- freemarker
- junit
- commons-io

## 运行
> 下面是单元测试类,本工程所有测试用例全在这里
https://github.com/kingschan1204/easycrawl/tree/main/src/test/java/com/github/kingschan1204/easycrawl