https://github.com/rasrea/three-piece-of-mysql
自制MySQL三件套 :数据爬取,导入,导出
https://github.com/rasrea/three-piece-of-mysql
Last synced: 3 months ago
JSON representation
自制MySQL三件套 :数据爬取,导入,导出
- Host: GitHub
- URL: https://github.com/rasrea/three-piece-of-mysql
- Owner: Rasrea
- Created: 2023-12-16T10:14:27.000Z (over 1 year ago)
- Default Branch: main
- Last Pushed: 2024-03-09T09:32:17.000Z (over 1 year ago)
- Last Synced: 2024-03-09T10:30:44.337Z (over 1 year ago)
- Language: Python
- Homepage:
- Size: 406 KB
- Stars: 2
- Watchers: 0
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# MySQL三件套
插播一则广告:作为一名大数据学生,你还在因数据匮乏感到焦虑吗?还在因为MySQL空空如也感到鸡肋吗?为了解决这个问题正是我写这个项目的原因。
本项目包括python爬虫,数据导入MySQL,数据导出## Spider
基础功能:输出地址,即可在指定地址处生成爬取的数据,以csv文件呈现。版本:
1.0: 豆瓣读书Top250(包括:排名,书籍,封面,作者,时间,时间(无月日),出版社,评分,评价人数,售价(元))。 2023-12-171.1: 增加豆瓣电影Top250(包括:排名,电影导演,主演,时间,国家,类型,评分,评价人数,评语)。增加B站【每周必看】(包括:排名,视频名,作者,IP地址,摘要,观看网址,观看次数,点赞数,收藏数,投币数,转发数)。2023-12-24
1.2: 增加微博三榜爬虫(可一次性爬取三个榜单:热搜榜(包括:排名,词条,类型,热度,网址)、文娱榜(同上)、要闻榜(包括:排名,主题,出处,类型,简介,阅读量,讨论量,网址))。 2024-1-12
更多爬虫代码请参考https://github.com/Rasrea/python-spider## 导入向导
基础功能:连接到数据库,自定义表格,支持列名修改,支持数据类型修改,支持主键创建。版本:
1.00: 将csv文件导入MySQL, 使用之前最好先打开MySQL。1.15: 不必再导入全部列了,支持列自定义删除。优化用户体验。修复部分bug。 2023-12-20
1.25: 支持导入excel表格。主键可以不必定义。支持数据类型选择性的修改。增加输入输出的容错性。 2023-12-24
1.29: 1.25画饼太大,导致bug频出,在此进行进一步修改,支持导入常见的excel后缀(包括:'.xls','.xlsx','.xlsm','.xlsb','.odf', '.ods', '.odt','.csv')。增加容错性。 2023-12-27
1.32:持续修复1.25版本bug,基本修复完成。通过使用try语句,大幅度提高容错性,提高用户体验。 2023-12-29
1.34:利用函数将代码区块化,提高可读性和准确性。 2023-12-31
## 导出向导
基础功能:连接数据库,需要会使用基础的SELECT语句,可导出查询的数据,支持多表查询,支持数据预览。版本:
1.15: 增加导出excel格式。目前可同时导出csv和xlsx文件。修复部分bug。 2023-12-231.17:增加MySQL连接阶段的容错性。 2023-12-31
1.172:修复已知问题。 2024-1-7
仅供学习参考。