Ecosyste.ms: Awesome

An open API service indexing awesome lists of open source software.

Awesome Lists | Featured Topics | Projects

https://github.com/acensjj/dslr

Sujet proposé par l'association 42AI. Découvrez la Data Science à travers ce projet dans la reconstitution du Choixpeau Magique de Poudlard ! Attention, ceci n'est pas un sujet sur les appareils photos.
https://github.com/acensjj/dslr

42 42born2code dslr ia python

Last synced: about 7 hours ago
JSON representation

Host: GitHub
URL: https://github.com/acensjj/dslr
Owner: AcensJJ
Created: 2021-11-09T15:01:33.000Z (about 3 years ago)
Default Branch: main
Last Pushed: 2021-12-28T15:36:07.000Z (about 3 years ago)
Last Synced: 2024-11-09T04:36:19.454Z (about 2 months ago)
Topics: 42, 42born2code, dslr, ia, python
Language: Python
Homepage:
Size: 10.5 MB
Stars: 0
Watchers: 2
Forks: 0
Open Issues: 0
Metadata Files:
- Readme: README.md

Awesome Lists containing this project

README

42-lyon

# dslr

### Description

> *Project en collaboration avec Nemuel Page Léonie (nepage-l).*

# Partie Obligatoire

## V.1 Data Analysis

Avant toutes choses, jetez un oeil aux données disponibles. Regardez sous quel formatelles sont enregistrées, s’il y a divers types de données, les différentes fourchettes, etc. Il est important de se faire une idée de votre matière première avant de commencer à travailler. Plus vous travaillerez sur des données et plus vous développerez une intuition sur comment vous allez pouvoir vous en servir.

Dans cette partie, le professeur McGonagall vous demande de produire un programme nommé describe.[extension]. Ce programme prendra un dataset en paramètre. Il devra ni plus ni moins afficher les informations sur toutes les features numériques comme l’exemple qui suit :

![exemple 1](https://user-images.githubusercontent.com/45235527/140956374-bd39ca97-3633-44b2-b493-32e194b6c4dd.PNG)

## V.2 Data Visualization

La visualisation des données est un outil puissant pour le datascientist. Cela vous permet d’acquérir une intuition sur comment les données sont connectées les unes aux autres. Visualiser vos données vous permet aussi de déceler plusieurs défauts.

Dans cette section, il vous est demandé de répondre à une question en créant un script pour chacune des questions qui affichera une visualisation particulière. Il n’y a pas forcèment une seule réponse valable à la question.

## V.2.1 Histogram

Faites un script nommé histogram.[extension] qui affiche un histogram répondant à la question suivante :

Quel cours de Poudlard a une répartition des notes homogènes entre les quatres maisons ?

## V.2.2 Scatter plot

Faites un script nommé scatter_plot.[extension] qui affiche un scatter plot répondant à la question suivante :

Quelles sont les deux features qui sont semblables ?

## V.2.3 Pair plot

Faites un script nommé pair_plot.[extension] qui affiche un pair plot ou scatter plot matrix (selon la librairie graphique que vous utiliserez).

À partir de cette visualisation, quelles caractéristiques allez-vous utiliser pour entraîner votre prochaine régression logistique ?

## V.3 Logistic Regression

Vous arrivez à la dernière partie : coder votre Choixpeau magique. Pour ce faire, il vous est demandé de réaliser un multi-classifieur en utilisant une régression logistique en one-vs-all.

Vous devrez rendre deux programmes :

- un premier qui va train vos modèles, il se nomme logreg_train.[extension]. Il prend en paramètre dataset_train.csv. Pour la partie obligatoire, vous devez utilisez la technique du gradient descent pour minimiser l’erreur. Le programme génère un fichier contenant les poids qui seront réutilisés pour la prédiction.

- un second qui se nomme logreg_predict.[extension]. Il prend en paramètre dataset_test.csv et un fichier contenant les poids entraînés au préalable. Afin d’évaluer les performances de votre classifieur ce second programme devra génèrer un fichier de prédictions houses.csv formatté strictement de la manière suivante:

![exemple 2](https://user-images.githubusercontent.com/45235527/140956376-a3c95194-5fc6-45c6-a6c3-bb0c549b71b7.PNG)

# Partie bonus

Il est possible de faire plein de bonus pour ce sujet. Voici quelques suggestions :
- implémenter plus de champs pour describe.[extension]
- implémenter un stochastic gradient descent
- implémenter une fonction d’optimisation autre
- ...

# Requirements

- python3.10
- lib:
- pip3 install pandas
- pip3 install matplotlib

# doc

gd vs sgd

# Results

## Tools

`python ./histogram.py DATA`

histo