https://github.com/sauloverissimo/engenharia_de_dados
Engenharia de Dados PUC
https://github.com/sauloverissimo/engenharia_de_dados
Last synced: 2 months ago
JSON representation
Engenharia de Dados PUC
- Host: GitHub
- URL: https://github.com/sauloverissimo/engenharia_de_dados
- Owner: sauloverissimo
- License: mit
- Created: 2025-03-20T00:32:12.000Z (3 months ago)
- Default Branch: main
- Last Pushed: 2025-04-12T04:39:40.000Z (2 months ago)
- Last Synced: 2025-04-13T21:18:16.926Z (2 months ago)
- Language: HTML
- Size: 6.26 MB
- Stars: 0
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
- License: LICENSE
Awesome Lists containing this project
README
# PUC Data Science
***Projeto MVP de Engenharia de Dados***
***Matéria: Engenharia de Dados***
***Databricks***
Este projeto representa o MVP desenvolvido na pós-graduação em Data Science para a disciplina de Engenharia de Dados. O objetivo principal é **identificar os fatores comportamentais e socioeconômicos que influenciam negativamente o desempenho acadêmico dos alunos**.
## Visão Geral
Neste projeto, integrei dados acadêmicos, socioeconômicos e comportamentais para analisar o desempenho dos alunos. Utilizando a plataforma **Databricks Community Edition**, o **Apache Spark (PySpark)** e o **Delta Lake**, criei um fluxo que percorre as seguintes camadas:
- **BRONZE**: Armazenamento dos dados brutos extraídos do arquivo CSV.
- **PRATA**: Transformação dos dados para a criação das dimensões e da tabela fato.
- **OURO**: Integração dos dados em uma tabela unificada para análises detalhadas.## Objetivo 🎯
O projeto visa identificar e quantificar os fatores que prejudicam o desempenho acadêmico. Com essa análise, procuro evidenciar que aspectos como **alta concentração de estresse**, **horas de sono reduzidas**, **baixa escolaridade dos pais**, e **acesso limitado à internet** se correlacionam fortemente com o conceito final dos alunos.
## Metodologia 🔍
A modelagem foi estruturada com base em um fluxo de dados em três camadas:
- **BRONZE**: Armazenei os dados originais obtidos do arquivo CSV, mantendo a integridade dos dados brutos.
- **PRATA**: Efetuei transformações para criar:
- **Dimensão ALUNOS**: contendo informações pessoais e socioeconômicas, como ID, nome, gênero, idade, escolaridade dos pais e renda familiar.
- **Dimensão DISCIPLINAS**: com os departamentos únicos, gerando um ID incremental para cada disciplina.
- **Dimensão HÁBITOS**: dados sobre estudo, atividades extracurriculares, acesso à internet, estresse e sono.
- **Fato DESEMPENHO**: que agrega as avaliações dos alunos, como presença, notas e conceito final.
- **OURO**: Integrei os dados das dimensões em uma tabela unificada, criando a view `alunos_com_desempenho`, que categoriza os alunos em grupos de desempenho (ex.: “Alto”, “Medio” e “Baixo”).## Tecnologias Utilizadas ⚙️
- **Databricks Community Edition**
- **Apache Spark (PySpark)**
- **Delta Lake**
- **SQL e Python**
- **Pandas, Matplotlib e Plotly** para análise e visualizações## Resultados e Análises 📊
A partir da análise dos dados, foram identificados os seguintes pontos:
- **Horas de Estudo**: A média de horas estudadas é praticamente a mesma entre os grupos, indicando que o tempo de estudo não é um diferencial significativo.
- **Horas de Sono**: Alunos com desempenho mais baixo dormem, em média, menos horas por noite (por exemplo, o grupo de conceito F registra cerca de 6,1h, em comparação com 7,1h do grupo A/B).
- **Estresse**: Alunos com desempenho ruim apresentam uma proporção muito maior de níveis de estresse elevados (≥ 7). Por exemplo, no grupo com conceito F, ~43,4% dos alunos possuem estresse alto contra ~16,9% no grupo de alto desempenho.
- **Escolaridade dos Pais**: A baixa escolaridade é prevalente em 55,2% dos alunos do grupo F, enquanto apenas 26,8% dos alunos de alto desempenho apresentam essa condição, mostrando a influência do ambiente familiar.
- **Atividades Extracurriculares**: Apenas 29,1% dos alunos com conceito F participam de atividades extracurriculares, contrastando com 49,2% entre os alunos de melhor desempenho.
- **Acesso à Internet**: A falta de acesso à internet em casa é mais marcada entre os alunos de baixo desempenho, com 16,3% sem acesso, comparado a 4,1% no grupo de alto desempenho.## Conclusão 💡
Os dados indicam que o desempenho acadêmico não depende apenas do esforço individual, mas está fortemente correlacionado com fatores emocionais e contextuais. Alunos que enfrentam altos níveis de estresse, dormem menos, têm acesso limitado à internet, participam menos de atividades extracurriculares e vêm de um contexto familiar com menor escolaridade apresentam resultados significativamente inferiores.
Esses insights sugerem que, para melhorar o desempenho, é necessário:
- **Investir em programas de suporte psicológico e de gerenciamento de estresse.**
- **Implementar ações que promovam o engajamento e suporte familiar**, especialmente para famílias com menor escolaridade.
- **Ampliar o acesso digital** para reduzir desigualdades de oportunidade.
- **Estimular a participação em atividades extracurriculares**, que favorecem o desenvolvimento socioemocional.A combinação dessas estratégias pode proporcionar uma abordagem mais integrada e eficaz na melhoria do desempenho escolar, permitindo que a educação atenda de maneira mais justa e personalizada às necessidades dos alunos.