https://github.com/camara94/data-science

Bienvenu dans ce tutorie, aucours duquel nous allons découvrir la librairie pandas qui est l'une des libraire les plus importantes en python, lorsque nous voulons découvrir la data science. Avec cette librairie nous pouvons faire tout ce dont nous pouvons imaginer en data science en python
https://github.com/camara94/data-science

data-science dataanalysis pandas-dataframe python

Last synced: 2 months ago
JSON representation

Host: GitHub
URL: https://github.com/camara94/data-science
Owner: camara94
License: mit
Created: 2021-09-27T15:20:20.000Z (almost 5 years ago)
Default Branch: main
Last Pushed: 2021-09-27T17:32:38.000Z (almost 5 years ago)
Last Synced: 2025-04-09T15:11:59.491Z (about 1 year ago)
Topics: data-science, dataanalysis, pandas-dataframe, python
Language: Jupyter Notebook
Homepage:
Size: 66.4 KB
Stars: 1
Watchers: 1
Forks: 0
Open Issues: 0
Metadata Files:
- Readme: README.md
- License: LICENSE

Awesome Lists containing this project

README

# data-science
Bienvenu dans ce tutorie, aucours duquel nous allons découvrir la librairie **pandas** qui est l'une des libraire les plus importantes en python, lorsque nous
voulons découvrir la data science.
Avec cette librairie nous pouvons faire tout ce dont nous pouvons imaginer en data science en python:
* charger les données
* csv
* excel
* text
* ***
* manipuler les les données
* combiner les datasets
* ...
* tout ceci grâce à une structure qu'on appelle le **DataFrame**

Dans ce tutoriel, nous allons illustrer l'utilisation de **pandas** grâce au **dataset** nommé **titanic.csv**

## Chargement d'un fichier CSV
pour un fichier, il faut d'abord importer le package, puis on fait appelle aux différentes methodes:
*importer le pacage

`import pandas as pd`

* pour charger un excel:

`pd.read_excel('urlFichier')`

* pour charger un fichier html:

`pd.read_html('urlFichier')`

* pour charger un sql:

`pd.read_sql()`

* etc
* pour notre fichier **csv**

`df = pd.read_csv('titanic.csv')`

## Quelques fonctions utiles

### La fonction head()

`df.head()`

cette fonction permet d'afficher les cinq prémières lignes d'un **dataframe** par defaut, mais on peut à fait indiquer le nombre de ligne qu'on affcicher si l'on souhaite.

### La fonction describe()

`df.describe()`

Celle-la est une fonction de statistique qui nous permet:

* d'afficher le nombre de ligne
* la moyenne des colonnes qui contiennent des valeurs discretes et continue
* le quartile
* la median
* la deviation
* etc

### La fonction drop

`df.drop([colonne1, colonne2, ...])`

Cette fonction permet d'éliminer les colonnes dont nous desirons exclure de notre analys.
Elle prend également le paramètre **inplace** qui a pour **True** ou **False** qui pour rôle de supprimer directement sans créer de nouvelle variable.

### La fonction dropna()

`df.dropna(axis=0)`

dropnan() permet de supprimer les valeurs manquant dans un dataset **dataframe**, le paramètre **axis** est obligatoire et il prend les valeurs **0** pour faire la suppression selon les lignes et **1** selon les colonnes.

## La fonction value_counts()
elle compte le nombre de répétition de chaque valeurs dans une colonne.

## La fonction groupby()
Cette fonction, nous permet de faire des analyse par groupe
## L'attribut shape
il permet de renvoyer le nombre de ligne et le nombre de colonne d'un **dataframe** sous forme d'un tuple

## L'attribut columns
cet attribut nous permet de lister toutes les colonnes d'un **dataframe**

## L'attribut plot
nous permet de générer les graphique sur un **dataframe**

* df.plot.scatter()
* df.plot.bar()
* df.plot.hist()
* etc

## DataFrame et Series
Dans pandas, il existe deux structures de données:

* DataFrame
* Serie

## Series
Une **Serie** est une colonne dans un **DataFrame** dont est associé un index à chaque valeur donc une sorte de dictionnaire **clée-valeur**

## DataFramme
Un **DataFrame** est un ensemble de **Series** donc un dataframe est un dictionnaire dont les clés sont les colonnes et les valeurs sont les **Series**

## Les opérations sur les dataframes
En pandas nous pouvous faire des **indexing** et du **boolean indexing** à travers **iloc** et **loc**

* iloc: pour dire **index location**
* loc: pour dire **location**

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Awesome