Ecosyste.ms: Awesome

An open API service indexing awesome lists of open source software.

Awesome Lists | Featured Topics | Projects

https://github.com/normalhuman01/uchile-cc5206

a data mining course DCC UChile
https://github.com/normalhuman01/uchile-cc5206

Last synced: 17 days ago
JSON representation

a data mining course DCC UChile

Awesome Lists containing this project

README

        

# Introducción a la Minería de Datos

**Curso DCC UChile semestre Primavera 2017**

## Fechas de Laboratorios
- **Exploración y Visualización**: 7 y 11 de agosto
- **Clasificación**: 28 de agosto y 1 de septiembre
- **Clustering**: 29 de septiembre y 2 de octubre
- **Reglas de Asociación**: 23 y 30 de octubre

El resto de las fechas se encuentra en el calendario en U-Cursos ([link](https://www.u-cursos.cl/ingenieria/2017/2/CC5206/1/enlaces/))

## Tutoriales
- Tutorial 1: [Exploración y Visualización en R](https://github.com/mquezada/uchile-cc5206/blob/master/tutoriales/tutorial1.Rmd)
- Tutorial 2: [Exploración y Visualización en R](https://github.com/mquezada/uchile-cc5206/blob/master/tutoriales/tutorial2.Rmd)
- Tutorial 3: [Clasificación](https://github.com/mquezada/uchile-cc5206/blob/master/tutoriales/tutorial3.ipynb)

## Proyectos

La siguiente es una lista de proyectos sugeridos para el curso. Las fechas de las presentaciones y los entregables se encuentra en U-Cursos.

### Proyectos sugeridos

- **Fairness & Bias (Data Science for Social Good)**: Un nuevo problema surge con el uso de Machine Learning y Data Mining en contextos sociales, como lo es el sesgo y la discriminación. Esto sugiere encontrar formas de crear modelos que permitan tratar a distintos grupos de manera "justa", pero la definición de justicia es compleja y los problemas se arrastran desde la generación de los datos, la interpretación de éstos y de los modelos, y de cómo repercuten en el futuro. Por ejemplo, un caso emblemático en Estados Unidos fue el de una empresa que ofrecía una predicción de riesgo de criminales por reincidir, y este puntaje es usado por jueces para ajustar las penas. Se observó que este puntaje era asignado de forma desequilibrada a distintos grupos raciales o étnicos. El objetivo de este proyecto es identificar estos sesgos y encontrar formas de disminuirlos, o concluir que no existe tal solución.
- Lectura: [Machine Bias](https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing)
- Análisis de los datos: https://www.propublica.org/article/how-we-analyzed-the-compas-recidivism-algorithm
- Github: https://github.com/propublica/compas-analysis
- Análisis y datos: https://github.com/caitlinkuhlman/bpdmtutorial/blob/master/tutorial.ipynb

- **Proceso Constituyente Chileno**: El portal de datos del Gobierno de Chile liberó la información de las Actas de Encuentros Locales Autoconvocados del Proceso Constituyente Chileno del 2016. La información se encuentra pública y ya se ha realizado trabajos para automatizar algunas tareas de clasificación de los datos.
- Datos: https://github.com/uchile-nlp/ArgumentMining2017.
- Paper: https://argmining2017.files.wordpress.com/2017/08/argmining2017-01.pdf

- **Caracterizar y clasificar problemas de Programación Competitiva**: Sitios como http://codeforces.com, http://www.spoj.com, http://a2oj.com, o http://uhunt.felix-halim.net, entre otros, son repositorios de problemas de programación para competencias como la ACM-ICPC, la IEEExtreme, Google Code Jam, etc. Una aplicación interesante consiste en caracterizar los problemas, dadas las categorías (muchos de ellos están etiquetados con tags, o con los comentarios de los usuarios), clasificar un problema en sus categorías, o crear un "recomendador" de problemas de cierta dificultad y/o tema. Existen muchas clasificaciones de problemas, ya sea en los jueces online (como los referenciados anteriormente), o por usuarios que resuelven estos problemas (en blogs, github, etc.).
- Ver también: https://blog.anudeep2011.com/machine-learning-everywhere-why-not-in-competitive-programming/

#### Otros temas sugeridos

- Ranking y clasificación de preguntas/respuestas en Yahoo Answers (pedir a José Miguel los datos)
- Juegos Olímpicos 2016 en Twitter (español, inglés y portugués) (pedir a Mauricio los datos)
- Reacciones en Twitter ante la sexta temporada de Game of Thrones (pedir a Mauricio los datos)
- Analizar comentarios a artículos de Emol (pedir a Mauricio los datos)
- Dataset de reviews de cervezas (pedir a José Miguel los datos)
- Dataset de reviews de Amazon (pedir a José Miguel los datos)

#### Otros datasets disponibles

- Vox Articles published before March 2017. https://data.world/elenadata/vox-articles
- Portal de Datos Abiertos. http://datos.gob.cl
- Gobierno Transparente. http://transparenciaactiva.presidencia.cl
- Transparencia Universidad de Chile. http://www.uchile.cl/transparencia
- Data.gov. http://www.data.gov
- UCI Machine Learning Repository.
https://archive.ics.uci.edu/ml/datasets.html
- Datasets for Data Geeks. http://www.datasets.co
- Stanford Network Analysis Project. https://snap.stanford.edu
- Wikipedia Data Dump. https://en.wikipedia.org/wiki/Wikipedia:Database_download
- DBpedia datasets. http://dbpedia.org/datasets
- Google BigQuery Public Datasets https://cloud.google.com/bigquery/public-data/
- Social and Information Network Analysis http://web.stanford.edu/class/cs224w/resources.html
- Listado de datasets recopilado por KDnuggets. http://www.kdnuggets.com/datasets/index.html
- Listado de datasets recopilado por usuarios de Quora.
https://www.quora.com/Where-can-I-find-large-datasets-open-to-the-public
- Instagram API. https://www.instagram.com/developer/
- Facebook API. https://developers.facebook.com
- Twitter API. https://dev.twitter.com

### Proyectos pasados

#### Otoño 2016

* [Predicción de resultados de partidos de fútbol](https://cdn.rawgit.com/LucasCabello/DM/2ab32e5b/markdown.html)
* [Similitud de Instrucciones en Código de Fuente C#](https://users.dcc.uchile.cl/~mquezada/cursos/cc5206/2016-2/proyectos_pasados/ast/index.html)
* [Datos de Educación Superior](https://users.dcc.uchile.cl/~mquezada/cursos/cc5206/2016-2/proyectos_pasados/educ_superior/)
* [Origen y Destino de Viajes en Santiago 2012-2013](https://users.dcc.uchile.cl/~mquezada/cursos/cc5206/2016-2/proyectos_pasados/encuesta_transporte.html)
* [Horse Mining - Minería de Datos en Carreras de Caballos](https://horse-mining.blogspot.cl)
* [Mars Express Power Challenge](https://users.dcc.uchile.cl/~mquezada/cursos/cc5206/2016-2/proyectos_pasados/mars/)
* [Las Películas (Bechdel Project)](https://bechdeltestprojectblog.wordpress.com/)
* [Solo Todo](https://users.dcc.uchile.cl/~mquezada/cursos/cc5206/2016-2/proyectos_pasados/solotodo.html)
* [Terremotos en Chile](https://users.dcc.uchile.cl/~mquezada/cursos/cc5206/2016-2/proyectos_pasados/terremotos/)
* [Análisis de Emociones sobre mensajes del Foro Institucional de U-Cursos](https://users.dcc.uchile.cl/~mquezada/cursos/cc5206/2016-2/proyectos_pasados/u-cursos/)
* [Predictor de Peleas UFC](https://users.dcc.uchile.cl/~mquezada/cursos/cc5206/2016-2/proyectos_pasados/ufc)

#### Primavera 2016

* [Clasificador de estilo de arte](https://users.dcc.uchile.cl/~mquezada/cursos/cc5206/2016-2/proyectos/arte)
* [Efectos de fotorrealismo](https://users.dcc.uchile.cl/~mquezada/cursos/cc5206/2016-2/proyectos/foto_realismo)
* [Million Song Dataset](https://users.dcc.uchile.cl/~mquezada/cursos/cc5206/2016-2/proyectos/million_song) - [Jupyter notebook](https://users.dcc.uchile.cl/~mquezada/cursos/cc5206/2016-2/proyectos/million_song/InformeD3.ipynb) - [Slides](https://users.dcc.uchile.cl/~mquezada/cursos/cc5206/2016-2/proyectos/million_song/p.pptx)
* [Clasificación de Películas](https://users.dcc.uchile.cl/~mquezada/cursos/cc5206/2016-2/proyectos/peliculas)
* [Clasificación de Películas en base al guión](https://users.dcc.uchile.cl/~mquezada/cursos/cc5206/2016-2/proyectos/peliculas_guion)
* [Predicción de productos Santander](https://users.dcc.uchile.cl/~mquezada/cursos/cc5206/2016-2/proyectos/santander) - [Slides](https://users.dcc.uchile.cl/~mquezada/cursos/cc5206/2016-2/proyectos/santander/p3.key)
* [Predicción de productos Santander (2)](https://users.dcc.uchile.cl/~mquezada/cursos/cc5206/2016-2/proyectos/santander2)
* [Caracterización de Sismos en Twitter](https://users.dcc.uchile.cl/~mquezada/cursos/cc5206/2016-2/proyectos/sismos_twitter)
* [Clasificación de tweets de alerta](https://users.dcc.uchile.cl/~mquezada/cursos/cc5206/2016-2/proyectos/tweets_alerta)
* [Caracterización de emergencias en Twitter](https://users.dcc.uchile.cl/~mquezada/cursos/cc5206/2016-2/proyectos/twitter_emergencia)