Ecosyste.ms: Awesome

An open API service indexing awesome lists of open source software.

Awesome Lists | Featured Topics | Projects

https://github.com/duartebred/regressao-linear-em-r

Repositório para apresentação de código e posterior análise, desenvolvido pelo grupo 1 para a UC Métodos Estatísticos para a Bioinformática, do Mestraddo em Bioinformática, ano lectivo 23-24.
https://github.com/duartebred/regressao-linear-em-r

exploratory-data-analysis linear-regression

Last synced: about 12 hours ago
JSON representation

Host: GitHub
URL: https://github.com/duartebred/regressao-linear-em-r
Owner: duartebred
Created: 2024-02-28T18:21:34.000Z (10 months ago)
Default Branch: main
Last Pushed: 2024-04-05T18:49:28.000Z (9 months ago)
Last Synced: 2024-11-05T11:11:10.589Z (about 2 months ago)
Topics: exploratory-data-analysis, linear-regression
Language: HTML
Homepage: https://github.com/duartebred/Regressao-Linear-em-R
Size: 946 KB
Stars: 0
Watchers: 1
Forks: 0
Open Issues: 0
Metadata Files:
- Readme: README.md

Awesome Lists containing this project

README

# Métodos Estatísticos para a Bioinformática, 2023/24

## Sobre o Projeto

Este repositório contém os materiais e resultados de um projeto de análise estatística focado na construção e avaliação de modelos de regressão linear. O objetivo deste trabalho é explorar relações entre uma variável dependente contínua e várias variáveis independentes de diferentes tipos, provenientes de conjuntos de dados relevantes para a bioinformática. Este repositório foi criado no ambito da UC Métodos Estatísticos para a Bioinformática (2023/24), do Mestrado em Bioinformática da Escola de Engenharia da Universidade do Minho, seguindo um conjunto estruturado de instruções para pesquisa, análise exploratória de dados, construção de modelo, avaliação e verificação das condições de aplicabilidade.

## Datasets Utilizados

Os datasets utilizados neste projeto foram selecionados de fontes públicas confiáveis:
- [Kaggle](https://www.kaggle.com/datasets)

Escolhemos esta base de dados, pois oferece uma ampla gama de variáveis que permitem uma análise detalhada e uma modelagem eficaz.

## “Anemia Diagnosis Dataset”
Este trabalho, teve como referência o conjunto de dados “Anemia Diagnosis Dataset”, extraído da base de dados kaggle.

Segundo a Organização Mundial da Saúde, a anemia é uma condição caraterizada pela diminuição do número de glóbulos vermelhos ou da concentração de hemoglobina no sangue (World Health Organization,2022).
O hemograma é um exame que, por meio de colheita de amostra sanguínea, avalia o número e a morfologia de células do sangue, sendo um exame laboratorial fundamental para o diagnóstico da anemia.

O conjunto de dados disponibilizado (dataset_anemia.xlsx) é utilizado para diagnosticar a prevalência de diferentes tipos de anemia, incluindo a sua severidade, com base em parâmetros de entrada como o sexo, a idade e vários valores resultantes de um hemograma realizado a 364 pacientes. Deste estudo foram excluídos lactentes, crianças com menos de 10 anos e grávidas.

De acordo com a teoria, níveis de RBC e/ou PCV menores levarão a níveis de HGB menores. Também um RDW alto no hemograma pode indicar anemia. Através dos conteúdos abordados nas aulas, iremos abordar a relação entre as variáveis em estudo, tentando construir um modelo de regressão linear que se ajuste aos nossos dados e que nos permita tirar informações no que diz respeito aos valores de um hemograma que podem estar alterados quando estamos perante valores de hemoglobina indicativos de anemia.

Assim, a nossa variável dependente será o nível de hemoglobina no sangue (HGB), e as variáveis independentes selecionadas serão: a idade (Age), o sexo (Sex), os níveis de glóbulos vermelhos no sangue (RBC), o volume de glóbulos vermelhos no sangue (PCV), o volume celular médio (MCV), a hemoglobina celular média (MCH), a distribuição do tamanho dos glóbulos vermelhos (RDW) e a contagem de glóbulos brancos (TLC).

## O que é Regressão Linear?

A regressão linear é um método estatístico usado para modelar a relação entre uma variável dependente contínua e uma ou mais variáveis independentes. Ao ajustar uma linha que minimiza a distância entre os pontos de dados e a linha em si, a regressão linear permite fazer previsões dentro do conjunto de dados. Este método é amplamente utilizado em várias disciplinas, incluindo bioinformática, para identificar potenciais fatores influenciadores sobre um fenômeno de interesse.

## Contribuições
- [Duarte Velho](https://github.com/duartebred) (pg53841)
- [Joana Lopes](https://github.com/joanalopes0711) (pg53498)
- [João Ferreira](https://github.com/B-Neil) (pg52182)
- [Ricardo Oliveira](https://github.com/ricardofoliveira61) (pg53501)