https://github.com/estelacode/data_science
📈📊 Data Science Notebooks . ▫️ Aplicación de algoritmos de ML para la resolución de problemas de aprendizaje supervisado (Clasificación y Regresión)
https://github.com/estelacode/data_science
bagging boosting confusion-matrix decisiontreeclassifier feature-engineering feature-extraction feature-selection gaussian-naive-bayes gridsearchcv kneighborsregressor lda linear-regression logistic-regression machine-learning mlpregressor pca python roc-curve stackingregressor svm
Last synced: 3 months ago
JSON representation
📈📊 Data Science Notebooks . ▫️ Aplicación de algoritmos de ML para la resolución de problemas de aprendizaje supervisado (Clasificación y Regresión)
- Host: GitHub
- URL: https://github.com/estelacode/data_science
- Owner: estelacode
- Created: 2024-09-01T09:35:52.000Z (about 1 year ago)
- Default Branch: main
- Last Pushed: 2024-09-08T10:20:04.000Z (about 1 year ago)
- Last Synced: 2025-03-21T02:46:34.653Z (7 months ago)
- Topics: bagging, boosting, confusion-matrix, decisiontreeclassifier, feature-engineering, feature-extraction, feature-selection, gaussian-naive-bayes, gridsearchcv, kneighborsregressor, lda, linear-regression, logistic-regression, machine-learning, mlpregressor, pca, python, roc-curve, stackingregressor, svm
- Language: Jupyter Notebook
- Homepage:
- Size: 8.89 MB
- Stars: 0
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# Data Science
## Machine Learning Notebooks:
APRENDIZAJE SUPERVISADO
* 📄 **Notebook 1:** ML_Clasificacion.ipynb
Objetivo: predecir si una persona cobra mas de 50000 dólares en un año.
Dataset: adult.data* **Fase 1**. Análisis Exploratorio de los datos(EDA)
* **Fase 2**. Prepocesamiento de los datos
- Limpieza de los datos
- Tratamiento de valores Nan
- Detección de outliers
- Extracción de características
- Tranformación de los datos
- Reducción de dimensionalidad
* **Fase 3**. Entrenamiento de un modelo de Clasificación basado en Decision Tree
* **Fase 4**. Análisis de resultados
* Matriz de confusión
* Métricas
* Curva ROC
* Conclusiones
* **Fase 5**. Mejora del método
* GridSearchCV
* Metricas
* Curva ROC
* Conclusiones
* **Fase 6**. Comparación con otros métodos
* Naive Bayes
* SVM
* Logistic Regresion
* **Fase 7**. Análisis de sesgos
* Modelo para mujeres
* Modelo para hombres
* Conclusiones Finales* 📄 **Notebook 2:** ML_Regression.ipynb
Objetivo: predecir un indicador de estabilidad (valor real) en base a una serie de características que se discretizaran para dar una salida categórica (estable/no estable)
Dataset: Data_for_UCI_named.csv* **Fase 0**. Descarga y Carga del conjunto de datos.
* **Fase 1**. Análisis Exploratorio de los datos(EDA)
* **Fase 2**. Entrenamiento del modelo de regresión lineal y estudio de la bondad del mismo.
* Modelo 1 - Regressión Lineal Multivariante
* Visualización de los residuos del modelo 1
* Modelo 2 - Regressión Lineal Multivariante
* Visualización de los residuos del modelo 2
* Evaluación cuantitativa del modelo
* Coeficiente de deteminación
* MAE
* MSE
* **Fase 3**. Entrenamiento de modelos diferentes al método de regresión lineal
* KNeighborsRegressor
* Multi-layer Perceptron Regression
* Predicciones:
* LinearRegressor Predictions
* KNeighborsRegressor Predictions
* MLPRegressor Predictions
* Evaluación Cualitativa de los modelos.
* **Fase 4**. Entrenamiento con métodos de agregación: bagging y boosting
* Bagging con estimadores (LinearRegression)
* Bagging con estimadores (MLPRegressor)
* Boosting con estimadores (LinearRegression)
* Boosting con estimadores (MLPRegressor)
* Métricas de Bondad
* **Fase 5**. Métodos de stacking
* Stacking con regresor lineal kNN y MLP
* Stacking con regresor lineal y kNN
* Stacking con regresor lineal y MLP
* Stacking con regresor kNN y MLP
* Métricas de Bondad## Tech Stack
* Python
* Machine Learning Algorithm
* ExtraTreesClassifier
* ExtraTreesRegressor
* SelectKBest
* LDA
* PCA
* DecisionTreeClassifier
* Naive Bayes
* SVM
* Logistic Regression
* LinearRegression
* GridSearchCV
* Bagging
* BaggingRegressor
* Boosting
* AdaBoostRegressor
* StackingRegressor
* LinearRegression
* KNeighborsRegressor
* MLPRegressor
* R2 - score
* MAE
* MSE
* confusion_matrix
* accuracy_score,
* recall_score,
* f1_score,
* precision_score,
* classification_report
* roc_curve