Ecosyste.ms: Awesome

An open API service indexing awesome lists of open source software.

Awesome Lists | Featured Topics | Projects

https://github.com/duartebred/analise-rnaseq-cancro-utero

Repositório para apresentação de código, datasets e posterior análise, desenvolvido pelo grupo 5 para a UC Extração de Conhecimento de Dados Biológicos, do Mestraddo em Bioinformática, ano lectivo 23-24.
https://github.com/duartebred/analise-rnaseq-cancro-utero

bioconductor-package clustering machine-learning rna-seq uterine-cancer

Last synced: about 13 hours ago
JSON representation

Repositório para apresentação de código, datasets e posterior análise, desenvolvido pelo grupo 5 para a UC Extração de Conhecimento de Dados Biológicos, do Mestraddo em Bioinformática, ano lectivo 23-24.

Awesome Lists containing this project

README

        

# Análise RNASeq Cancro do Útero

**Grupo composto por:**
- [Duarte Velho](https://github.com/duartebred) (pg53841)
- [Joana Lopes](https://github.com/joanalopes0711) (pg53498)
- [Ricardo Oliveira](https://github.com/ricardofoliveira61) (pg53501)


Este trabalho prático foi desenvolvido pelo grupo 5, no âmbito da UC Extração de Conhecimentos de Dados Biológicos (2023/24), do Mestrado em Bioinformática da Escola de Engenharia da Universidade do Minho, e tem como objetivo principal analisar, através das ferramentas R e packages do Bioconductor, um conjunto de dados, acedidos a partir do GDC PortalData, relacionados com o Carcinoma Endometrial do Corpo Uterino.

Este repositório contém todos os materiais e códigos desenvolvidos para o trabalho prático da disciplina de Extração de Conhecimento de Dados Biológicos do ano letivo de 2023/2024. O projeto envolve a análise de conjuntos de dados de expressão genética utilizando o software R e pacotes do Bioconductor, focando em análises estatísticas, de enriquecimento, clustering, redução de dimensionalidade e machine learning.

**Estrutura do Repositório**

- Scripts em R utilizados para a análise de dados, incluindo pré-processamento, análises estatísticas, e algoritmos de aprendizagem de máquina.
- Relatórios em formato HTML gerados a partir do R Markdown, detalhando todas as fases da análise, desde a preparação dos dados até a discussão dos resultados.
- README.md -> arquivo, que fornece uma visão geral do trabalho e informação sobre a equipa.

# Fases do Projeto

**Fase 1**

- Exploração e explicação dos dados escolhidos
- Preparação e pré-processamento dos dados
- Sumarização dos dados através de estatísticas descritivas e visualizações
- Análise estatística univariada e análise de expressão diferencial

**Fase 2**

- Clustering de genes/amostras e redução de dimensionalidade
- Análises preditivas com comparação de desempenho entre modelos
- Seleção e importância de genes

##

**Link para acesso ao Dataset**
- [Dataset](https://shorturl.at/fmpJ5)

Nota: O dataset analisado está associado ao projeto [Pan-Cancer Analysis of Whole Genomes (PCAWG)](https://www.cell.com/pb-assets/consortium/pancanceratlas/pancani3/index.html), que culminou numa coleção de 27 [papers](https://pubmed.ncbi.nlm.nih.gov/?term=29625048%2C29596782%2C29622463%2C29617662%2C29625055%2C29625050%2C29617662%2C30643250%2C32214244%2C29625049%2C29850653%5Buid%5D), que se dedicam ao estudo de 33 tipos diferentes de cancro, de entre os quais o nosso: cancro endometrial do corpo uterino.