https://github.com/esscova/data-cleaning-r
Data cleansing is the process of identifying and correcting inaccurate data in a dataset.
https://github.com/esscova/data-cleaning-r
Last synced: 3 days ago
JSON representation
Data cleansing is the process of identifying and correcting inaccurate data in a dataset.
- Host: GitHub
- URL: https://github.com/esscova/data-cleaning-r
- Owner: esscova
- Created: 2023-12-05T22:59:11.000Z (almost 2 years ago)
- Default Branch: main
- Last Pushed: 2023-12-12T23:49:35.000Z (almost 2 years ago)
- Last Synced: 2025-06-25T23:37:09.677Z (4 months ago)
- Language: R
- Size: 496 KB
- Stars: 0
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# Limpeza e tratamento de dados
A limpeza de dados é o processo de encontrar e corrigir dados imprecisos em um conjunto de dados. Isso envolve identificar e remover inconsistências, preencher campos vazios, corrigir erros estruturais e garantir que os dados sejam precisos, completos e consistentes.
![]()
## Apresentação
Os dados podem apresentar uma variedade de problemas, incluindo:
* Dados duplicados: quando um mesmo dado é registrado duas ou mais vezes.
* Problemas de consistência: quando os dados apresentam inconsistências entre si, como valores diferentes para o mesmo atributo.
* Problemas de completude: quando os dados estão incompletos, com valores faltantes.
* Problemas de conformidade: quando os dados não atendem aos requisitos de um determinado padrão ou formato.
* Problemas de integridade: quando os dados estão corrompidos ou danificados.## Objetivo
O tratamento e limpeza de dados envolvem uma série de técnicas e ferramentas, como:* Limpeza de dados: remoção de dados duplicados, inconsistências, valores faltantes e outros problemas.
* Transformação de dados: conversão dos dados para um formato mais adequado para análise.
* Padronização de dados: definição de regras para garantir que os dados sejam consistentes.
* Enriquecimento de dados: inclusão de informações adicionais aos dados para melhorar a sua qualidade.## Tecnologias utilizadas
* Linguagem R
* Rstudio## Aprendizado com o projeto
Para descrever e resumir um conjunto de dados, aplicamos técnicas de estatística descritiva, portanto aplicar estas técnicas vai além de saber uma função built-in da linguagem,é entender a ciência que se dedica à coleta, análise e interpretação de dados, preocupando-se com os métodos da coleta, organização, síntese, apresentação e interpretação dos dados, assim como em tirar conclusões sobre as características das fontes donde estes forma retirados para melhor compreender as situações analisadas.## Contatos
Wellington Moreira -[Linkedin](https://www.linkedin.com/in/wellington-moreira-santos/) - wsantos08@hotmail.comLink Projeto: [https://github.com/wellington-moreira-santos/data-cleaning-R/](https://github.com/wellington-moreira-santos/data-cleaning-R/)