{"id":28700457,"url":"https://github.com/zhanwen/pythondatascience","last_synced_at":"2025-06-14T11:07:43.914Z","repository":{"id":56752801,"uuid":"111481407","full_name":"zhanwen/PythonDataScience","owner":"zhanwen","description":"Python数据科学入门  样例代码","archived":false,"fork":false,"pushed_at":"2017-12-07T15:02:58.000Z","size":501,"stargazers_count":18,"open_issues_count":1,"forks_count":14,"subscribers_count":5,"default_branch":"master","last_synced_at":"2023-03-04T19:50:18.649Z","etag":null,"topics":[],"latest_commit_sha":null,"homepage":"","language":"Python","has_issues":true,"has_wiki":null,"has_pages":null,"mirror_url":null,"source_name":null,"license":null,"status":null,"scm":"git","pull_requests_enabled":true,"icon_url":"https://github.com/zhanwen.png","metadata":{"files":{"readme":"README.md","changelog":null,"contributing":null,"funding":null,"license":null,"code_of_conduct":null,"threat_model":null,"audit":null,"citation":null,"codeowners":null,"security":null,"support":null}},"created_at":"2017-11-21T01:12:36.000Z","updated_at":"2023-01-31T18:09:19.000Z","dependencies_parsed_at":"2022-08-16T01:40:26.385Z","dependency_job_id":null,"html_url":"https://github.com/zhanwen/PythonDataScience","commit_stats":null,"previous_names":[],"tags_count":null,"template":null,"template_full_name":null,"purl":"pkg:github/zhanwen/PythonDataScience","repository_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/zhanwen%2FPythonDataScience","tags_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/zhanwen%2FPythonDataScience/tags","releases_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/zhanwen%2FPythonDataScience/releases","manifests_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/zhanwen%2FPythonDataScience/manifests","owner_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners/zhanwen","download_url":"https://codeload.github.com/zhanwen/PythonDataScience/tar.gz/refs/heads/master","sbom_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/zhanwen%2FPythonDataScience/sbom","host":{"name":"GitHub","url":"https://github.com","kind":"github","repositories_count":259804868,"owners_count":22913903,"icon_url":"https://github.com/github.png","version":null,"created_at":"2022-05-30T11:31:42.601Z","updated_at":"2022-07-04T15:15:14.044Z","host_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub","repositories_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories","repository_names_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repository_names","owners_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners"}},"keywords":[],"created_at":"2025-06-14T11:07:43.328Z","updated_at":"2025-06-14T11:07:43.899Z","avatar_url":"https://github.com/zhanwen.png","language":"Python","funding_links":[],"categories":[],"sub_categories":[],"readme":"\n\n# 《Python数据科学入门》阅读计划\n——图灵大数据与机器学习群阅读计划（第2期）\n\n##### 领读人：张旱文\n\n##### 本书特色\n\n - 让读者亲切体会到不同类型文本数据（csv、json、自然语言中的文本）的\u003cfont color='red'\u003e获取\u003c/font\u003e、\u003cfont color='red'\u003e清洗\u003c/font\u003e、\u003cfont color='red'\u003e组织\u003c/font\u003e和\u003cfont color='red'\u003e可视化\u003c/font\u003e\n - 使用 \u003cfont color='green'\u003eNumPy\u003c/font\u003e 和 \u003cfont color='green'\u003ePandas\u003c/font\u003e 模块处理数值数据\n - 实战分别用 \u003cfont color='green'\u003eMySQL\u003c/font\u003e 、 \u003cfont color='green'\u003eMongoDB\u003c/font\u003e 数据库进行\u003cfont color='red'\u003e配置\u003c/font\u003e、\u003cfont color='red'\u003e填充\u003c/font\u003e、\u003cfont color='red'\u003e查询\u003c/font\u003e数据\n - 基于网络和非网络的数据，\u003cfont color='red'\u003e创建网络\u003c/font\u003e、\u003cfont color='red'\u003e网络度量\u003c/font\u003e和\u003cfont color='red'\u003e分析网络\u003c/font\u003e\n - 概率与统计以及机器学习相关的基本概念\n\n##### 适合读者  \n\n- 刚入门的数据科学专业人员\n- 数据科学教师和培训人士\n- Python语言爱好者\n- 研究生和本科生\n- 想了解大数据分析和机器学习的兴趣爱好者\n- 想拥有一本参考手册来帮助记住所有Python函数及参数的开发人员\n\n\n##### 总阅读时长：3～4 周  \n##### 每天阅读用时：1～2小时（建议多做练习）\n##### 答疑时间安排：每周一次，周六 20:00～22:00\n\n##### 阅读打卡小程序\n\u003cimg src=\"https://github.com/zhanwen/PythonDataScience/blob/master/images/daka.jpg\"  height=\"220\" width=\"200\"\u003e\n\n###### 图灵社区本书网址：\u003ca href=\"http://www.ituring.com.cn/book/1919\"\u003ehttp://www.ituring.com.cn/book/1919\u003c/a\u003e\n###### 图灵阅读计划网址：\u003ca href=\"https://github.com/BetterTuring/turingWeChatGroups\"\u003ehttps://github.com/BetterTuring/turingWeChatGroups\u003c/a\u003e\n\n## 读前须知\n - 书中代码你可以从GitHub上获取，\u003ca href=\"https://github.com/zhanwen/PythonDataScience\"\u003e点击获取\u003c/a\u003e。如果你觉得代码有不妥的地方，可以提出\u003cfont color='red'\u003eissue\u003c/font\u003e，或者将你自己认为比较好的代码进行\u003cfont color='green'\u003ePull requests\u003c/font\u003e，对有价值的\u003cfont color='red'\u003eissue\u003c/font\u003e、\u003cfont color='green'\u003ePull requests\u003c/font\u003e我会非常感谢，同时发放一些奖励。\n   \n - 为方便记录大家分享学习笔记，同时帮助我们学习用 \u003cfont color='green'\u003eMarkdown\u003c/font\u003e 来记录笔记，当然你也可以选择用其他方式。我在GitHub上创建了一个仓库，大家可以把每天的学习笔记进行PR。让更多后来读者看到大家的贡献，是一件了不起的事情。有贡献的读者将会获取相应的奖励，在这里，大家一起尊重知识的价值。  \n \n   1. 仓库地址：[https://github.com/zhanwen/PythonDataScience][1]  \n   \n   2. 目录已创建完成。为了方便记录和区分，大家在PR的时候，建议文件命名规则为：**作者姓名英文缩写+笔记文件名**。在***note***目录中已有示例。       \n\n- 另外，我会找一些其他资料中跟本书知识点相关的笔记，让大家一起来练习，以便更好地掌握本书知识。\n- 如果读者有任何不清楚的地方，或者对一些技术（Markdown、Git）搞不明白，都可以在\u003ca href=\"https://github.com/zhanwen/PythonDataScience\"\u003e这里\u003c/a\u003e提出\u003cfont color='red'\u003eIssue\u003c/font\u003e，也可以通过 1106002609@qq.com 与我联系，我将倾自己所学为大家解答问题\u003cfont color='orange'\u003e^_^\u003c/font\u003e。\n\n\n## 阅读规划\n\n\u003cdiv style=\"margin-top:15px\"\u003e\u003c/div\u003e\n\n### 第一部分（1~2章）\n\n\u003cdiv style=\"margin-top:10px\"\u003e\u003c/div\u003e\n\n##### 阅读时长：1周之内    \n\n#### 基础部分   \n\n\n* 对数据科学有个初步的认识  \n\t1. 数据分析步骤\n\t2. 数据的获取途径\n\t3. 报告的结构\n\n#### 重点部分（实战） \n\n* Python 的使用，没有 Python 编程经验的，需要更多练习  \n\t1. 基本的字符串函数使用\n\t2. Python 中的数据结构\n\t3. Python 中的文件使用\n\t4. 正则表达式\n\t5. \u003cfont color='green'\u003ePickling\u003c/font\u003e 和 \u003cfont color='green'\u003eUnpickling\u003c/font\u003e 数据\n\n\u003cdiv style=\"margin-top:20px\"\u003e\u003c/div\u003e\n\n### 第二部分（3~5章）\n\n\u003cdiv style=\"margin-top:10px\"\u003e\u003c/div\u003e\n\n##### 阅读时长：1~1.5周    \n\n#### 基础部分   \n\n* Python 的使用，巩固第2章所学的知识\n* 了解文本数据的格式（csv、html、json）\n* \u003cfont color='green'\u003eMySQL\u003c/font\u003e、\u003cfont color='green'\u003eMongoDB\u003c/font\u003e 的概念理解  \n  \n#### 重点部分（理解与实战）    \n\n* 使用 Python 处理文本数据\n* \u003cfont color='green'\u003eMySQL\u003c/font\u003e 的命令行操作以及使用 Python 来操作 \u003cfont color='green'\u003eMySQL\u003c/font\u003e\n* \u003cfont color='green'\u003eMongoDB\u003c/font\u003e 的安装，使用 Python 来操作\u003cfont color='green'\u003e MongoDB\u003c/font\u003e \n* 数组的索引和切片，聚合与排序\n* 数组的保存和读取\n* 如何合成正弦波\n\n\u003cdiv style=\"margin-top:20px\"\u003e\u003c/div\u003e\n\n### 第三部分（6~7章）\n\n\u003cdiv style=\"margin-top:10px\"\u003e\u003c/div\u003e\n\n##### 阅读时长：1周之内    \n\n#### 基础部分   \n\n* 理解 \u003cfont color='green'\u003ePandas\u003c/font\u003e 的数据结构\n* \u003cfont color='green'\u003ePandas\u003c/font\u003e 模块里的 \u003cfont color='green'\u003eseries\u003c/font\u003e、\u003cfont color='green'\u003eframe\u003c/font\u003e 的使用  \n* 理解网络数据的概念\n\n#### 重点部分（理解与实战）    \n\n* 使用 \u003cfont color='green'\u003ePandas\u003c/font\u003e 处理一些常见的问题\n\t1. 数据重塑\n\t2. 处理缺失的数据\n\t3. 组合数据\n\t4. 数据的排序和描述\n\t5. 数据之间的转换\n\t6. 文件的读写\n* 基于网络的和非网络的数据创建网络  \n\t1. 网络度量\n\t2. 网络分析序列\n\u003cdiv style=\"margin-top:20px\"\u003e\u003c/div\u003e\n\n### 第四部分（8~10章）\n\n\u003cdiv style=\"margin-top:10px\"\u003e\u003c/div\u003e\n\n##### 阅读时长：1~1.5周    \n\n#### 基础部分   \n\n* 了解可视化工具，绘图类型\n*  概率与统计的一些基本概念\n*  机器学习的基础知识\n  \n#### 重点部分（理解与实战）    \n\n* 使用 \u003cfont color='green'\u003ePyplot\u003c/font\u003e 进行绘图，并可以进一步对绘图进行装饰\n* 使用 \u003cfont color='green'\u003ePandas\u003c/font\u003e 绘图\n* 以 Python 的方式完成统计\n* 线性回归你拟合\n* k 均值聚类实现数据分组\n* 随机决策森林\n\n\u003cdiv style=\"margin-top:20px\"\u003e\u003c/div\u003e\n\n## 其他建议    \n\n - 每个人学习方式不同，读书进度不同，大家可以在建议阅读时长上自行调整\n - 对理解不透的知识，我们可以在微信群里一起讨论，或者通过\u003ca href=\"https://mail.qq.com\"\u003e1106002609@qq.com\u003c/a\u003e（张旱文）与我联系\n  \n\n\n  [1]: https://github.com/zhanwen/PythonDataScience\n","project_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fzhanwen%2Fpythondatascience","html_url":"https://awesome.ecosyste.ms/projects/github.com%2Fzhanwen%2Fpythondatascience","lists_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fzhanwen%2Fpythondatascience/lists"}