https://github.com/fanusaez/organizacion-de-datos
Materia Organizacion de datos - Catedra Rodriguez (FIUBA)
https://github.com/fanusaez/organizacion-de-datos
7506 data-science fiuba machine-learning pandas python
Last synced: 3 months ago
JSON representation
Materia Organizacion de datos - Catedra Rodriguez (FIUBA)
- Host: GitHub
- URL: https://github.com/fanusaez/organizacion-de-datos
- Owner: Fanusaez
- Created: 2022-09-26T19:53:16.000Z (over 2 years ago)
- Default Branch: main
- Last Pushed: 2023-02-06T01:28:20.000Z (over 2 years ago)
- Last Synced: 2025-01-18T08:44:38.092Z (5 months ago)
- Topics: 7506, data-science, fiuba, machine-learning, pandas, python
- Language: Jupyter Notebook
- Homepage:
- Size: 2.43 MB
- Stars: 0
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# Organizacion de Datos
Repositorio de trabajos de la materia Organizacion de Datos, correspondiente a la cursada 2022 catedra Rodriguez.
## Temario
### Objetivos:Proporcionar los conceptos, las herramientas y la intuición necesaria para implementar programas capaces de aprender a partir de datos. Se explican una gran cantidad de técnicas, desde las más sencillas como regresión lineal hasta las más avanzadas como lo son las redes de aprendizaje profundo o el algoritmo XGBoost. Las herramientas utilizadas para lograr estos objetivos se encuentran entre las más utilizadas en la industria y que forman parte de la vanguardia tecnológica dentro de la ciencia de datos.
### Programa sintético:
Utilización de herramientas de visualización de datos; ingeniería de características; funcionamiento de modelos tradicionales de aprendizaje automático: métodos de clasificación, regresión y agrupamiento. Redes neuronales artificiales: superficiales y profundas. Procesamiento de lenguaje natural. Procesamiento de imágenes.
### Trabajo Practico abarcativo de la materia
[Trabajo Practico 1 & 2](https://github.com/Fanusaez/7506R-2C2022-GRUPO13/tree/3993e2b2acf9c030847700a6dd69a0c6e05047bf)### Programa analítico:
Unidad 1 – Introducción a la Ciencia de datos: Conceptos básicos: conjuntos de datos, tipos de variables, tipos de problemas, tipos de modelos, valores atípicos.
Unidad 2 – Visualización de datos: Uso de las bibliotecas Pandas y Seaborn, revisión de los distintos tipos de gráficos disponibles y cómo analizarlos. Posibles usos.
Unidad 3 – Ingeniería de características: Limpieza de datos, detección de valores atípicos, normalización de datos, balanceo, etc. Métricas.
Unidad 4 – Árboles de decisión: algoritmos ID3, C4.5 y Random Forest
Unidad 5 – Procesamiento de lenguaje natural: Aprendizaje bayesiano, clasificación de textos, análisis de sentimientos y extracción de información.
Unidad 6 – Ensamble de modelos: AdaBoost, Gradient Boosting, XGBoost, ensambles híbridos.
Unidad 7 – Redes neuronales superficiales: Perceptrón simple. Perceptrón multicapa, Backpropagation, redes SOM (Kohonen).
Unidad 8 – Redes de aprendizaje profundo: Autoencoders, redes convolucionales, redes recurrentes de tensores, redes GAN. Introducción a Tensorflow.
Unidad 9 – Reducción de la dimensionalidad: técnicas PCA, ISOMap, tSNE, MDS y PcoA
Unidad 10 – Técnicas adicionales: K-nearest neighbors, Support Vector Machines (SVM) y Algoritmos genéricos.