Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/saajann/data-science
Road to Data Scientist 🚀
https://github.com/saajann/data-science
data-analysis data-science machine-learning python
Last synced: about 1 month ago
JSON representation
Road to Data Scientist 🚀
- Host: GitHub
- URL: https://github.com/saajann/data-science
- Owner: saajann
- Created: 2024-11-29T15:51:56.000Z (3 months ago)
- Default Branch: main
- Last Pushed: 2025-01-07T16:04:41.000Z (about 1 month ago)
- Last Synced: 2025-01-07T17:23:45.435Z (about 1 month ago)
- Topics: data-analysis, data-science, machine-learning, python
- Language: Jupyter Notebook
- Homepage:
- Size: 8.34 MB
- Stars: 0
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# Data Science Journey 🚀
Benvenuti nella mia repository dedicata allo studio della **Data Science**. Qui documenterò il mio percorso di apprendimento, seguendo un piano strutturato per coprire tutti i concetti fondamentali richiesti da un data scientist.
## Obiettivo 🎯
- Imparare la **Data Science** in **180 giorni**, concentrandomi inizialmente sulla teoria.
- Documentare ogni argomento in file Markdown per mostrare i progressi, favorire la revisione personale e rendere le informazioni disponibili anche ad altri.
- Costruire una solida base teorica prima di iniziare progetti pratici.## Struttura della repository 📂
Ogni argomento è organizzato in cartelle specifiche con file Markdown che contengono spiegazioni, esempi e note utili.### Contenuto attuale
- **`data/`**
- Vari dataset usati durante lo studio
- **`numpy/`**
- [numpy.md](numpy/numpy.md): Introduzione a Numpy.
- **`pandas/`**
- [pandas.md](pandas/pandas.md): Introduzione a Pandas, una libreria fondamentale per la manipolazione e l'analisi dei dati.
- **`matplotlib/`**
- [matplotlib.md](matplotlib/matplotlib.md): Introduzione a Matplotlib, una libreria fondamentale per la visualizzazione dei dati.
- **`seaborn/`**
- [seaborn.md](seaborn/seaborn.md): Introduzione a Seaborn, una libreria fondamentale per la visualizzazione avanzata dei dati.
- **`SQL/`**
- [sql.md](SQL/sql.md): Introduzione a SQL.
- **`EDA/`**
- [eda.md](EDA/eda.md): Introduzione all'Analisi Esplorativa dei Dati.
- [01_iris_EDA.ipynb](EDA/01_iris_EDA.ipynb): Notebook contenente un'analisi esplorativa dei dati sul dataset Iris.
- [02_titanic_EDA.ipynb](EDA/02_titanic_EDA.ipynb): Notebook contenente un'analisi esplorativa dei dati sul dataset Titanic.
- [03_football_EDA.ipynb](EDA/03_football_EDA.ipynb): Notebook contenente un'analisi esplorativa dei dati su un dataset di calciatori.
- **`feature-engineering/`**
- [feature-engineering.md](feature-engineering/feature-engineering.md): Introduzione alla Feature Engineering.
- [01_housing.ipynb](feature-engineering/01_housing.ipynb): Notebook contenente semplice feature engineering sul dataset Housing.
- **`preprocessing/`**
- [preprocessing.md](preprocessing/preprocessing.md): Introduzione al Preprocessing dei dati.### Prossimi argomenti
- **Machine Learning**: Teoria di base sul ML, algoritmi supervisionati e non supervisionati.
- **Deep Learning**: Fondamenti di reti neurali e apprendimento profondo.
- **Preprocessing dei dati**:
- **Exploratory Data Analysis (EDA)**: Analisi esplorativa dei dati.
- **Feature Engineering**: Creazione di nuove caratteristiche dai dati.
- **Feature Selection**: Selezione delle caratteristiche più rilevanti per il modello.## Perché questa repository? 🤔
- **Tracciamento personale**: Ogni commit riflette un progresso specifico.
- **Condivisione**: Altri studenti o professionisti possono utilizzare questa repository per studiare.
- **Portfolio GitHub**: Mostro la mia attività e competenze agli eventuali datori di lavoro.## Tracciamento progressi 📆
- **Day 1**: Introduzione a [Pandas](pandas/pandas.md)
- **Day 2**: Introduzione a [Matplotlib](matplotlib/matplotlib.md)
- **Day 3**: [EDA](EDA/01_iris_EDA.ipynb) sul dataset Iris per consolidare Pandas e Matplotlib
- **Day 4**: [EDA](EDA/02_titanic_EDA.ipynb) sul dataset Titanic e aggiunta una [scaletta](EDA/eda.md) da seguire quando si fa analisi esplorativa sui dati
- **Day 5**: Introduzione a [Seaborn](seaborn/seaborn.md)
- **Day 6**: [EDA](EDA/03_football_EDA.ipynb) su un dataset di calciatori per consolidare Seaborn
- **Day 7**: [EDA](EDA/04_superstore_EDA.ipynb) su un dataset di ordini per ripassare Pandas, Matplolib e Seaborn, introduzione alla [Feature Engineering](feature-engineering/feature-engineering.md), [Feature Engineering](feature-engineering/01_housing.ipynb) sul dataset Housing
- **Day 9**: Ripasso Pandas, Matplotlib, Seaborn, EDA e Feature Engineering
- **Day 10**: [Numpy](numpy/numpy.md), [Preprocessing](preprocessing/preprocessing.md) dei dati, [SQL](SQL/sql.md)
- **Day 11**: Kaggle [Spaceship-Titanic](preprocessing/02_spaceship_titanic.ipynb) challenge
- **Day 12**: Completato la Kaggle Spaceship-Titanic challenge con un punteggio di 0.78279
- **Day 14**: Iniziata Kaggle [House-Prices](preprocessing/03_house_prices.ipynb) challenge
- **Day 16**: Introduzione a Scikit-Learn
- **Day 17**: Inizio "Introduction to Statistical Learning"
- **Day 19**: "Introduction to Statistical Learning" 2.2, 2.3
- **Day 20**: "ITSL" 2.4, 3.1, 3.2
- **Day 21**: "ITSL" 3.3, 3.4, 3.5
- **Day 22**: "ITSL" 4.1
- **Day 23**: "ITSL" 4.2, 4.3, 4.4
- **Day 32**: Ripasso librerie, Linear Regression
- **Day 33**: [Logistic Regression](scikit-learn/models/logistic_regression.ipynb) con esempio
- **Day 34**: esempio [Linear Regression](scikit-learn/models/linear_regression.ipynb), [K-Nearest Neighbors](scikit-learn/models/k_nearest_neighbors.ipynb) con esempio
- **Day 35**: [Decision Trees](scikit-learn/models/decision_trees.ipynb) con esempio
- **Day 36**: [Random Forest](scikit-learn/models/random_forest.ipynb) con esempio
- **Day 38**: [SVM](scikit-learn/models/svm.ipynb) con esempio, [Naive Bayes](scikit-learn/models/naive_bayes.ipynb) con esempio, progetto di [Sentiment Analysis](https://github.com/saajann/sentiment-analysis)
- **Day 40**: inizio progetto [Football Match Predictor](https://github.com/saajann/football-match-predictor)