{"id":22432196,"url":"https://github.com/normalhuman01/uchile-cc5206","last_synced_at":"2025-07-25T06:09:06.796Z","repository":{"id":212872335,"uuid":"732502489","full_name":"normalhuman01/uchile-cc5206","owner":"normalhuman01","description":"a data mining course DCC UChile","archived":false,"fork":false,"pushed_at":"2023-12-16T22:11:38.000Z","size":21,"stargazers_count":0,"open_issues_count":0,"forks_count":0,"subscribers_count":1,"default_branch":"main","last_synced_at":"2025-03-27T07:48:12.704Z","etag":null,"topics":[],"latest_commit_sha":null,"homepage":null,"language":"Jupyter Notebook","has_issues":true,"has_wiki":null,"has_pages":null,"mirror_url":null,"source_name":null,"license":"mit","status":null,"scm":"git","pull_requests_enabled":true,"icon_url":"https://github.com/normalhuman01.png","metadata":{"files":{"readme":"README.md","changelog":null,"contributing":null,"funding":null,"license":"LICENSE","code_of_conduct":null,"threat_model":null,"audit":null,"citation":null,"codeowners":null,"security":null,"support":null,"governance":null,"roadmap":null,"authors":null}},"created_at":"2023-12-16T22:11:05.000Z","updated_at":"2023-12-16T22:11:42.000Z","dependencies_parsed_at":"2023-12-16T23:50:58.760Z","dependency_job_id":"d9755fc0-fab2-4a85-87e8-c86d2d7844ea","html_url":"https://github.com/normalhuman01/uchile-cc5206","commit_stats":null,"previous_names":["normalhuman01/uchile-cc5206"],"tags_count":0,"template":false,"template_full_name":null,"purl":"pkg:github/normalhuman01/uchile-cc5206","repository_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/normalhuman01%2Fuchile-cc5206","tags_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/normalhuman01%2Fuchile-cc5206/tags","releases_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/normalhuman01%2Fuchile-cc5206/releases","manifests_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/normalhuman01%2Fuchile-cc5206/manifests","owner_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners/normalhuman01","download_url":"https://codeload.github.com/normalhuman01/uchile-cc5206/tar.gz/refs/heads/main","sbom_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/normalhuman01%2Fuchile-cc5206/sbom","host":{"name":"GitHub","url":"https://github.com","kind":"github","repositories_count":266963461,"owners_count":24013054,"icon_url":"https://github.com/github.png","version":null,"created_at":"2022-05-30T11:31:42.601Z","updated_at":"2022-07-04T15:15:14.044Z","status":"online","status_checked_at":"2025-07-25T02:00:09.625Z","response_time":70,"last_error":null,"robots_txt_status":"success","robots_txt_updated_at":"2025-07-24T06:49:26.215Z","robots_txt_url":"https://github.com/robots.txt","online":true,"can_crawl_api":true,"host_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub","repositories_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories","repository_names_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repository_names","owners_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners"}},"keywords":[],"created_at":"2024-12-05T22:10:56.205Z","updated_at":"2025-07-25T06:09:06.768Z","avatar_url":"https://github.com/normalhuman01.png","language":"Jupyter Notebook","funding_links":[],"categories":[],"sub_categories":[],"readme":"# Introducción a la Minería de Datos\n\n**Curso DCC UChile semestre Primavera 2017**\n\n## Fechas de Laboratorios\n- **Exploración y Visualización**: 7 y 11 de agosto\n- **Clasificación**: 28 de agosto y 1 de septiembre\n- **Clustering**: 29 de septiembre y 2 de octubre\n- **Reglas de Asociación**: 23 y 30 de octubre\n\nEl resto de las fechas se encuentra en el calendario en U-Cursos ([link](https://www.u-cursos.cl/ingenieria/2017/2/CC5206/1/enlaces/))\n\n## Tutoriales\n- Tutorial 1: [Exploración y Visualización en R](https://github.com/mquezada/uchile-cc5206/blob/master/tutoriales/tutorial1.Rmd)\n- Tutorial 2: [Exploración y Visualización en R](https://github.com/mquezada/uchile-cc5206/blob/master/tutoriales/tutorial2.Rmd)\n- Tutorial 3: [Clasificación](https://github.com/mquezada/uchile-cc5206/blob/master/tutoriales/tutorial3.ipynb)\n\n## Proyectos\n\nLa siguiente es una lista de proyectos sugeridos para el curso. Las fechas de las presentaciones y los entregables se encuentra en U-Cursos.\n\n### Proyectos sugeridos\n\n- **Fairness \u0026 Bias (Data Science for Social Good)**: Un nuevo problema surge con el uso de Machine Learning y Data Mining en contextos sociales, como lo es el sesgo y la discriminación. Esto sugiere encontrar formas de crear modelos que permitan tratar a distintos grupos de manera \"justa\", pero la definición de justicia es compleja y los problemas se arrastran desde la generación de los datos, la interpretación de éstos y de los modelos, y de cómo repercuten en el futuro. Por ejemplo, un caso emblemático en Estados Unidos fue el de una empresa que ofrecía una predicción de riesgo de criminales por reincidir, y este puntaje es usado por jueces para ajustar las penas. Se observó que este puntaje era asignado de forma desequilibrada a distintos grupos raciales o étnicos. El objetivo de este proyecto es identificar estos sesgos y encontrar formas de disminuirlos, o concluir que no existe tal solución.\n  - Lectura: [Machine Bias](https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing)\n  - Análisis de los datos: https://www.propublica.org/article/how-we-analyzed-the-compas-recidivism-algorithm\n  - Github: https://github.com/propublica/compas-analysis\n  - Análisis y datos: https://github.com/caitlinkuhlman/bpdmtutorial/blob/master/tutorial.ipynb\n\n- **Proceso Constituyente Chileno**: El portal de datos del Gobierno de Chile liberó la información de las Actas de Encuentros Locales Autoconvocados del Proceso Constituyente Chileno del 2016. La información se encuentra pública y ya se ha realizado trabajos para automatizar algunas tareas de clasificación de los datos. \n  - Datos: https://github.com/uchile-nlp/ArgumentMining2017. \n  - Paper: https://argmining2017.files.wordpress.com/2017/08/argmining2017-01.pdf\n\n- **Caracterizar y clasificar problemas de Programación Competitiva**: Sitios como http://codeforces.com, http://www.spoj.com, http://a2oj.com, o http://uhunt.felix-halim.net, entre otros, son repositorios de problemas de programación para competencias como la ACM-ICPC, la IEEExtreme, Google Code Jam, etc. Una aplicación interesante consiste en caracterizar los problemas, dadas las categorías (muchos de ellos están etiquetados con tags, o con los comentarios de los usuarios), clasificar un problema en sus categorías, o crear un \"recomendador\" de problemas de cierta dificultad y/o tema. Existen muchas clasificaciones de problemas, ya sea en los jueces online (como los referenciados anteriormente), o por usuarios que resuelven estos problemas (en blogs, github, etc.). \n  - Ver también: https://blog.anudeep2011.com/machine-learning-everywhere-why-not-in-competitive-programming/\n\n#### Otros temas sugeridos\n\n- Ranking y clasificación de preguntas/respuestas en Yahoo Answers (pedir a José Miguel los datos)\n- Juegos Olímpicos 2016 en Twitter (español, inglés y portugués) (pedir a Mauricio los datos)\n- Reacciones en Twitter ante la sexta temporada de Game of Thrones (pedir a Mauricio los datos)\n- Analizar comentarios a artículos de Emol (pedir a Mauricio los datos)\n- Dataset de reviews de cervezas (pedir a José Miguel los datos)\n- Dataset de reviews de Amazon (pedir a José Miguel los datos)\n\n\n#### Otros datasets disponibles\n \n- Vox Articles published before March 2017. https://data.world/elenadata/vox-articles\n- Portal de Datos Abiertos. http://datos.gob.cl\n- Gobierno Transparente. http://transparenciaactiva.presidencia.cl\n- Transparencia Universidad de Chile. http://www.uchile.cl/transparencia\n- Data.gov. http://www.data.gov\n- UCI Machine Learning Repository.\n  https://archive.ics.uci.edu/ml/datasets.html\n- Datasets for Data Geeks. http://www.datasets.co\n- Stanford Network Analysis Project. https://snap.stanford.edu\n- Wikipedia Data Dump. https://en.wikipedia.org/wiki/Wikipedia:Database_download\n- DBpedia datasets. http://dbpedia.org/datasets\n- Google BigQuery Public Datasets https://cloud.google.com/bigquery/public-data/\n- Social and Information Network Analysis http://web.stanford.edu/class/cs224w/resources.html\n- Listado de datasets recopilado por KDnuggets. http://www.kdnuggets.com/datasets/index.html\n- Listado de datasets recopilado por usuarios de Quora.\n  https://www.quora.com/Where-can-I-find-large-datasets-open-to-the-public\n- Instagram API. https://www.instagram.com/developer/\n- Facebook API. https://developers.facebook.com\n- Twitter API. https://dev.twitter.com\n\n### Proyectos pasados\n\n#### Otoño 2016\n\n* [Predicción de resultados de partidos de fútbol](https://cdn.rawgit.com/LucasCabello/DM/2ab32e5b/markdown.html)\n* [Similitud de Instrucciones en Código de Fuente C#](https://users.dcc.uchile.cl/~mquezada/cursos/cc5206/2016-2/proyectos_pasados/ast/index.html)\n* [Datos de Educación Superior](https://users.dcc.uchile.cl/~mquezada/cursos/cc5206/2016-2/proyectos_pasados/educ_superior/)\n* [Origen y Destino de Viajes en Santiago 2012-2013](https://users.dcc.uchile.cl/~mquezada/cursos/cc5206/2016-2/proyectos_pasados/encuesta_transporte.html)\n* [Horse Mining - Minería de Datos en Carreras de Caballos](https://horse-mining.blogspot.cl)\n* [Mars Express Power Challenge](https://users.dcc.uchile.cl/~mquezada/cursos/cc5206/2016-2/proyectos_pasados/mars/)\n* [Las Películas (Bechdel Project)](https://bechdeltestprojectblog.wordpress.com/)\n* [Solo Todo](https://users.dcc.uchile.cl/~mquezada/cursos/cc5206/2016-2/proyectos_pasados/solotodo.html)\n* [Terremotos en Chile](https://users.dcc.uchile.cl/~mquezada/cursos/cc5206/2016-2/proyectos_pasados/terremotos/)\n* [Análisis de Emociones sobre mensajes del Foro Institucional de U-Cursos](https://users.dcc.uchile.cl/~mquezada/cursos/cc5206/2016-2/proyectos_pasados/u-cursos/)\n* [Predictor de Peleas UFC](https://users.dcc.uchile.cl/~mquezada/cursos/cc5206/2016-2/proyectos_pasados/ufc)\n\n#### Primavera 2016\n\n* [Clasificador de estilo de arte](https://users.dcc.uchile.cl/~mquezada/cursos/cc5206/2016-2/proyectos/arte)\n* [Efectos de fotorrealismo](https://users.dcc.uchile.cl/~mquezada/cursos/cc5206/2016-2/proyectos/foto_realismo)\n* [Million Song Dataset](https://users.dcc.uchile.cl/~mquezada/cursos/cc5206/2016-2/proyectos/million_song) - [Jupyter notebook](https://users.dcc.uchile.cl/~mquezada/cursos/cc5206/2016-2/proyectos/million_song/InformeD3.ipynb) - [Slides](https://users.dcc.uchile.cl/~mquezada/cursos/cc5206/2016-2/proyectos/million_song/p.pptx)\n* [Clasificación de Películas](https://users.dcc.uchile.cl/~mquezada/cursos/cc5206/2016-2/proyectos/peliculas)\n* [Clasificación de Películas en base al guión](https://users.dcc.uchile.cl/~mquezada/cursos/cc5206/2016-2/proyectos/peliculas_guion)\n* [Predicción de productos Santander](https://users.dcc.uchile.cl/~mquezada/cursos/cc5206/2016-2/proyectos/santander) - [Slides](https://users.dcc.uchile.cl/~mquezada/cursos/cc5206/2016-2/proyectos/santander/p3.key)\n* [Predicción de productos Santander (2)](https://users.dcc.uchile.cl/~mquezada/cursos/cc5206/2016-2/proyectos/santander2)\n* [Caracterización de Sismos en Twitter](https://users.dcc.uchile.cl/~mquezada/cursos/cc5206/2016-2/proyectos/sismos_twitter)\n* [Clasificación de tweets de alerta](https://users.dcc.uchile.cl/~mquezada/cursos/cc5206/2016-2/proyectos/tweets_alerta)\n* [Caracterización de emergencias en Twitter](https://users.dcc.uchile.cl/~mquezada/cursos/cc5206/2016-2/proyectos/twitter_emergencia)\n","project_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fnormalhuman01%2Fuchile-cc5206","html_url":"https://awesome.ecosyste.ms/projects/github.com%2Fnormalhuman01%2Fuchile-cc5206","lists_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fnormalhuman01%2Fuchile-cc5206/lists"}