https://github.com/masterjoyhunan/region
国家统计局省市区编码 使用 GO 语言 colly 爬虫框架
https://github.com/masterjoyhunan/region
Last synced: 5 months ago
JSON representation
国家统计局省市区编码 使用 GO 语言 colly 爬虫框架
- Host: GitHub
- URL: https://github.com/masterjoyhunan/region
- Owner: MasterJoyHunan
- Created: 2020-04-21T03:34:44.000Z (about 6 years ago)
- Default Branch: master
- Last Pushed: 2020-04-23T03:52:15.000Z (about 6 years ago)
- Last Synced: 2025-04-09T11:49:10.545Z (about 1 year ago)
- Language: TSQL
- Size: 404 KB
- Stars: 0
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
### 由GO语言编写的爬虫爬取国家统计局省市区编码,并存储MYSQL
* [国家统计局省市区统计地址](http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm)
注意:国家统计局官网有反爬虫系统,爬取速度不能过快,否则会出现请求重定向,导致爬取失败
所以添加如下参数:
```go
// 限制速度
if err := c.Limit(&colly.LimitRule{
DomainGlob: "*",
Parallelism: 2,
Delay: 200 * time.Millisecond,
RandomDelay: 5 * time.Second,
}); err != nil {
fastmysql.Logger.Panic("set colly limit error :", err)
}
```
这样导致的后果也很明显,没有错误,但是爬取速度也变的非常慢。好在这是一劳永逸的工作,爬取之后就完事了。
项目是爬取2019年的数据,如需修改,修改爬取地址(页面结构都是一样的,无需修改 OnHtml 回调)
```go
c.Visit("http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2019/index.html")
```
爬取结果不包含港澳台
tips: 在实战项目中,省市区数据应该存储在 redis 中最好