https://github.com/jmcurbelo/pyspark-ingenieria-de-datos
Este repositorio contiene el material del curso de Udemy Big Data y Spark: ingeniería de datos con Python y pyspark. En este curso, aprenderás a utilizar las herramientas y técnicas necesarias para trabajar con grandes conjuntos de datos utilizando la librería pyspark.
https://github.com/jmcurbelo/pyspark-ingenieria-de-datos
apache-spark pyspark python
Last synced: about 1 month ago
JSON representation
Este repositorio contiene el material del curso de Udemy Big Data y Spark: ingeniería de datos con Python y pyspark. En este curso, aprenderás a utilizar las herramientas y técnicas necesarias para trabajar con grandes conjuntos de datos utilizando la librería pyspark.
- Host: GitHub
- URL: https://github.com/jmcurbelo/pyspark-ingenieria-de-datos
- Owner: jmcurbelo
- Created: 2022-02-21T02:43:08.000Z (over 3 years ago)
- Default Branch: main
- Last Pushed: 2024-05-07T05:47:53.000Z (about 1 year ago)
- Last Synced: 2025-03-26T05:41:48.036Z (about 2 months ago)
- Topics: apache-spark, pyspark, python
- Language: Python
- Homepage: https://josemtech.com
- Size: 1.56 MB
- Stars: 27
- Watchers: 1
- Forks: 44
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# Big Data y Spark: ingeniería de datos con Python y pyspark
Este repositorio contiene el material del curso de Udemy [Big Data y Spark: ingeniería de datos con Python y pyspark](https://www.udemy.com/course/big-data-y-spark-ingenieria-de-datos-con-python-y-pyspark/?referralCode=F123CAABFC966F4483EC). En este curso, aprenderás a utilizar las herramientas y técnicas necesarias para trabajar con grandes conjuntos de datos utilizando la librería `pyspark`, la cual nos permite el trabajo con Apache Spark.
### Estructura del repositorioEl repositorio está organizado en secciones, cada una de las cuales corresponde a una sección del curso. Dentro de cada sección, encontrarás los archivos `.py` correspondientes a las lecciones del curso.
#### Contenido de las secciones
- Sección 2: Descargando e instalado Spark en Google Colaboratory
- Sección 3: Introducción a los RDD en Spark
- Sección 4: Transformaciones en un RDD
- Sección 5: Acciones sobre un RDD en Spark
- Sección 6: Aspectos avanzados sobre RDD
- Sección 7: Spark SQL
- Sección 8: Spark SQL avanzado
- Sección 9: Funciones en Spark SQLCada sección del repositorio contiene los siguientes archivos:
**Archivos `.py`**: Estos archivos contienen el código Python que se utiliza en las lecciones del curso.