Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/lanzhiwang/data_analysis
数据分析基础库
https://github.com/lanzhiwang/data_analysis
Last synced: 3 months ago
JSON representation
数据分析基础库
- Host: GitHub
- URL: https://github.com/lanzhiwang/data_analysis
- Owner: lanzhiwang
- Created: 2018-09-25T06:37:52.000Z (over 6 years ago)
- Default Branch: master
- Last Pushed: 2018-09-27T07:17:24.000Z (over 6 years ago)
- Last Synced: 2024-08-01T17:29:57.296Z (6 months ago)
- Size: 2.18 MB
- Stars: 1
- Watchers: 2
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
- awesome-huzhi - data_analysis - `Numpy`、`Pandas`、`Scipy`、`Matplotlib`的使用方法([参考文档](https://github.com/donnemartin/data-science-ipython-notebooks)) (python)
README
# 数据科学常用基础库
- [数据科学常用基础库](#数据科学常用基础库)
- [Numpy](#numpy)
- [Pandas](#pandas)
- [Scipy](#scipy)
- [Matplotlib](#matplotlib)## Numpy
Numpy 是Python的高性能科学计算基础库。
Numpy 参考
[numpy](https://github.com/donnemartin/data-science-ipython-notebooks#numpy)Numpy 基础
![Numpy 基础](NumPy_base.png)## Pandas
Pandas是基于Numpy构建的搞性能数据统计库。它提供了Series、DataFrame、Panel三种数据结构。
| 数据结构 | 说明 |
|-------|---|
| Series | 一位维数组,带有标签作为索引。 |
| DataFrame | 二维数组,与 SQL 的表结构类似。可以理解为 Series 为 value 的 Map 数据结构。 |
| Panel | 三维数组,可以理解为 DataFrame 为 value 的 Map 数据结构。 |
| Panel4D\PanelND | 已废弃 |相关操作:
1. 数据创建
2. 数据查看
3. 数据选择
4. 数据设置
5. 缺失值处理
6. 汇总与统计
7. 类 SQL 操作
8. 时间序列
9. 文件I\O参考
[pandas](https://github.com/donnemartin/data-science-ipython-notebooks#pandas)## Scipy
Scipy 是一款高性能数学计算函数库,包含常见的数学方法实现。
Scipy 根据不同的功能应用划分为不同的子模块,子模块之间基本是相互独立的。| 模块 | 说明 |
|-------|---|
| cluster | 矢量量化 / Kmeans |
| fftpack | 离散傅立叶变换算法 |
| integrate | 数值积分 |
| interpolate | 插值 |
| io | 输入输出 |
| linalg | 线性代数 |
| linalg.blas | Wrappers to BLAS library |
| linalg.lapack | Wrappers to LAPACK library |
| misc | Various utilities that don't have another home |
| ndimage | n维图像包 |
| odr | 正交距离回归 |
| optimize | Optimization Tools |
| signal | Signal Processing Tools |
| signal.windows | Window functions |
| sparse | 稀疏矩阵 |
| sparse.linalg | 稀疏线性代数 |
| sparse.linalg.dsolve | 线性求解 |
| sparse.linalg.dsolve.umfpack | :Interface to the UMFPACK library: Conjugate Gradient Method (LOBPCG) |
| sparse.linalg.eigen | 稀疏特征值求解 |
| sparse.linalg.eigen.lobpcg | Locally Optimal Block Preconditioned Conjugate Gradient Method (LOBPCG) |
| spatial | 空间数据结构和算法 |
| special | Special functions |
| stats | 统计功能 |![SciPy基础功能](SciPy_base.png)
## Matplotlib
Matplotlib 是绘制高质量2D图像的Python库。
1、面向过程作图
面向过程作图是指利用 pyplot 包提供的函数来逐步绘图。步骤如下:
1. 创建figure,类似于图纸
2. 创建坐标
3. 绘制图像
4. 调整刻度和标签、添加注释2、面向过程作图
Matplotlib 提供了 Object Container 的概念,它有 Figure、Axes、Axis、Tick 四种类型的对象容器。| 容器 | 说明 |
|-----|------|
| Figure | 负责图像大小、位置等操作 |
| Axes | 负责坐标系位置、绘图等操作 |
| Axis | 负责坐标抽的操作 |
| Tick | 负责刻度的相关操作 |notes:
四种对象容器之间是层层包含的关系。作图过程如下:
1. 实例化 Figure 对象
2. Figure 定位图像大小、位置,返回 Axes 对象
3. Axes 对象绘制图像,调整坐标抽位置,返回 Axis 对象
4. Axis 对象设置X、Y坐标的显示长度,刻度,标签等,返回 Tick 对象
5. Tick 对象格式化刻度的样式等Matplotlib 参考
[matplotlib](https://github.com/donnemartin/data-science-ipython-notebooks#matplotlib)Matplotlib 基础
![Matplotlib 基础](Matplotlib_base.png)