Ecosyste.ms: Awesome

An open API service indexing awesome lists of open source software.

Awesome Lists | Featured Topics | Projects

https://github.com/oldratlee/data-science-practice

数据科学实践 | data science practice
https://github.com/oldratlee/data-science-practice

anaconda data-science python statistics

Last synced: 22 days ago
JSON representation

数据科学实践 | data science practice

Awesome Lists containing this project

README

        

# 数据科学实践

**数据科学** 是指

1. **数学/统计学**
1. **计算机技术(编程)**
1. **业务领域**

三者的交叉应用学科。数据科学这个词近些年火起来,典型事件是2015年2月美国白宫宣布任命曾在多家硅谷科技公司任职的帕蒂尔(_DJ Patil_)为白宫首位首席数据科学家。

数据科学3者下的两两交叉应用,其实已经广为大家所知:

1. 数学/统计学 **`+`** 计算机技术(编程)
**`=>`** **机器学习**(Bang!)
1. 计算机技术(编程) **`+`** 业务领域
**`=>`** **业务软件开发**(平时说的软件工程师)
1. 数学/统计学 **`+`** 业务领域
**`=>`** **传统研究**

在数据科学火起来之前,大家用的多是『数据分析』这个词。所以2个主题的书一起看,早些年典型的『数据分析』主题的书实际讲的是数据科学的内容。

❤️❤️
欢迎进入数据科学的世界!
❤️❤️

-----------------------------

- [0. 学习资料/书单](#0-%E5%AD%A6%E4%B9%A0%E8%B5%84%E6%96%99%E4%B9%A6%E5%8D%95)
- [1. 实践/开发环境搭建](#1-%E5%AE%9E%E8%B7%B5%E5%BC%80%E5%8F%91%E7%8E%AF%E5%A2%83%E6%90%AD%E5%BB%BA)
- [1.1 `Python`运行环境搭建](#11-python%E8%BF%90%E8%A1%8C%E7%8E%AF%E5%A2%83%E6%90%AD%E5%BB%BA)
- [1.1.1 安装`Anaconda`的`Python`发行版](#111-%E5%AE%89%E8%A3%85anaconda%E7%9A%84python%E5%8F%91%E8%A1%8C%E7%89%88)
- [1.1.2 配置镜像源](#112-%E9%85%8D%E7%BD%AE%E9%95%9C%E5%83%8F%E6%BA%90)
- [1.1.3 `Anaconda`的使用](#113-anaconda%E7%9A%84%E4%BD%BF%E7%94%A8)
- [1.2 代码编写的环境](#12-%E4%BB%A3%E7%A0%81%E7%BC%96%E5%86%99%E7%9A%84%E7%8E%AF%E5%A2%83)
- [1.2.1 `Jupyter Notebook`](#121-jupyter-notebook)
- [1.2.2 `PyCharm`](#122-pycharm)
- [1.2.3 `VS Code`](#123-vs-code)
- [2. 自己的数据科学学习/实践](#2-%E8%87%AA%E5%B7%B1%E7%9A%84%E6%95%B0%E6%8D%AE%E7%A7%91%E5%AD%A6%E5%AD%A6%E4%B9%A0%E5%AE%9E%E8%B7%B5)

-----------------------------

# 0. 学习资料/书单

- [数据科学/Data Science](https://www.douban.com/doulist/119731263/) 书单,个人推荐先看:
- [深入浅出数据科学](https://book.douban.com/subject/30338984/)
- [集体智慧编程](https://book.douban.com/subject/3288908/)
- [Python数据科学手册](https://book.douban.com/subject/27667378/)
- [数据分析](https://www.douban.com/doulist/45963852/) 书单,个人推荐先看:
- [精益数据分析](https://book.douban.com/subject/26278639/)
- [利用Python进行数据分析 原书第2版](https://book.douban.com/subject/30283996/)

可以看看了解

- [数据分析师和数据科学家有何区别? - 知乎](https://www.zhihu.com/question/20935297)

# 1. 实践/开发环境搭建

`Python`已经成为数据科学/机器学习的首选实践/开发环境。
\# 当然也可以使用`R` 或是 `Excel`,使用不同工具环境都可以实践数据科学。
\# `Excel`,是的,没听错;`Excel`应该是使用人数最多的数据分析工具。

- `Python`繁荣与活跃生态 对 数据科学/机器学习 已经有了成熟的支持。
- `Python`作为通用编程语言,相对`R`、`Excel`而言,灵活性不可比拟。

## 1.1 `Python`运行环境搭建

**_`Anaconda`_**!

- 使用[`Anaconda`的`Python`发行版](https://www.anaconda.com/)已经成为数据科学/机器学习`Python`运行环境搭建的最佳实践!
- `Anaconda`快速提供了
- 一个包含各种数据分析、机器学习的库的`Python`运行环境
- 不同的`Python`版本/不同库的隔离环境
- 而无需在琐碎但没有价值的事情上浪费时间:
- 各种库的安装过程
- 不同库不同版本的兼容性问题

下面给下快速搭建数据科学/机器学习的`Python`运行环境的说明。

### 1.1.1 安装`Anaconda`的`Python`发行版

下载地址:

- https://www.anaconda.com/distribution/
- 照着网页上的说明,完成安装。

安装好`Anaconda`之后,执行命令

- `jupyter notebook`: 运行基于`Web`浏览器里的一体化交互式环境
- `ipython`:运行加强的`python`解释器

,运行看看~ 🎉

安装过程,如有问题,更多说明参见

- 2019年最新最全的 Anaconda 安装指南 - 简书
https://www.jianshu.com/p/e23e70fe8788
- 或是搜索一下 :")

### 1.1.2 配置镜像源

在国内没有镜像可不行,包安装下载要等死。

- 配置`Anaconda`的镜像源
- 使用清华的镜像。
- 直接修改配置文件`~/.condarc`:

```yaml
channels:
- defaults
show_channel_urls: true
default_channels:
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r
custom_channels:
conda-forge: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
msys2: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
bioconda: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
menpo: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
pytorch: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
simpleitk: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
```

- 或是通过命令行设置(安装好`Anaconda`之后,包含了`conda`):

```clj
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r
conda config --set show_channel_urls yes
```

- 配置`pip`的镜像源
- 修改`~/.pip/pip.conf`:

```ini
[global]
trusted-host = pypi.douban.com
index-url = http://pypi.douban.com/simple
```

如有问题,更多说明参见

- Anaconda | 镜像站使用帮助 | 清华大学开源软件镜像站
https://mirror.tuna.tsinghua.edu.cn/help/anaconda/
- `Anaconda`修改国内镜像源 - 简书
https://www.jianshu.com/p/042fd657e2d4
- 或是 搜索一下 :")

### 1.1.3 `Anaconda`的使用

下载安装后`Anaconda`的使用:

- 常见的`Anaconda`使用
- `Python`环境维护

👉 参见独立的文档:[`Anaconda`的使用](anaconda-usage.md)。

## 1.2 代码编写的环境

`Jupyter Notebook` | `PyCharm` | `VS Code`。

### 1.2.1 `Jupyter Notebook`

`Jupyter Notebook`已经在`Anaconda`的发行版本中有了。

提供基于`Web`浏览器里的一体化交互式环境,非常流行。试试用用,你会喜欢的。

### 1.2.2 `PyCharm`

`IDE`王者`JetBrains`提供`Python`开发的专业`IDE`。

- 强劲的代码编写提示支持
- 内置集成支持
- 流行`Jupyter Notebook`的编写
- `Anaconda`

如果你是`JetBrains`/`IntelliJ`的粉丝更会喜欢。

### 1.2.3 `VS Code`

无需多解释。

# 2. 自己的数据科学学习/实践

- 学习
- 《统计学:从数据到结论》第四版 _吴喜之_:
[代码练习库 - github.com/oldratlee/statistics-from-data-to-conclusion-4e](https://github.com/oldratlee/statistics-from-data-to-conclusion-4e)

- 实践
- 计数不对的『豆瓣豆列』抓取:
[github.com/oldratlee/doulist-wrong-counter-analysis](https://github.com/oldratlee/doulist-wrong-counter-analysis)
基于`Jupyter Notebook`使用`Python`完成 页面抓取 与 分析。