https://github.com/devlucho/spark-procesamiento-en-batch

Este proyecto utiliza PySpark para analizar datos de estudiantes a partir de un archivo CSV almacenado en HDFS.
https://github.com/devlucho/spark-procesamiento-en-batch

apache-spark hadoop-hdfs pyspark python3

Last synced: 3 months ago
JSON representation

Este proyecto utiliza PySpark para analizar datos de estudiantes a partir de un archivo CSV almacenado en HDFS.

Host: GitHub
URL: https://github.com/devlucho/spark-procesamiento-en-batch
Owner: DevLucho
Created: 2024-10-29T22:15:21.000Z (over 1 year ago)
Default Branch: main
Last Pushed: 2024-10-29T22:36:54.000Z (over 1 year ago)
Last Synced: 2025-02-11T20:50:24.456Z (over 1 year ago)
Topics: apache-spark, hadoop-hdfs, pyspark, python3
Language: Python
Homepage:
Size: 93.8 KB
Stars: 0
Watchers: 1
Forks: 0
Open Issues: 0
Metadata Files:
- Readme: README.md

Awesome Lists containing this project

README

# Proyecto de Análisis de Datos con PySpark

## Descripción

Este proyecto utiliza PySpark para analizar datos de estudiantes a partir de un archivo CSV almacenado en HDFS. El objetivo es realizar diversas consultas sobre la información de los estudiantes, incluyendo su género, nivel educativo de los padres y puntajes en módulos evaluados.

## Requisitos Previos

Antes de ejecutar el código, asegúrate de tener instalados los siguientes componentes:

- [Apache Spark](https://spark.apache.org/) (versión recomendada: 3.0 o superior)
- [PySpark](https://pypi.org/project/pyspark/) (instalación mediante pip)
- [Hadoop](https://hadoop.apache.org/) (para el sistema de archivos HDFS)
- Python 3.x

## Instalación

1. **Clona este repositorio:**
```bash
git clone https://github.com/DevLucho/Spark-Procesamiento-en-batch.git

2. **Asegúrate de que el archivo CSV (u37r-hjmu.csv) esté disponible en HDFS en la ruta:**
hdfs://localhost:9000/Tarea3/u37r-hjmu.csv

## Ejecución del Código

1. Iniciar Spark: Asegúrate de que tu entorno Spark esté correctamente configurado y que los servicios necesarios estén en ejecución.
2. Ejecutar el Script: Ejecuta el script en un entorno que soporte PySpark:
```bash
spark-submit students_data_analysis.py

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Awesome

https://github.com/devlucho/spark-procesamiento-en-batch

Awesome Lists containing this project

README