Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/duartebred/analise-rnaseq-cancro-utero
Repositório para apresentação de código, datasets e posterior análise, desenvolvido pelo grupo 5 para a UC Extração de Conhecimento de Dados Biológicos, do Mestraddo em Bioinformática, ano lectivo 23-24.
https://github.com/duartebred/analise-rnaseq-cancro-utero
bioconductor-package clustering machine-learning rna-seq uterine-cancer
Last synced: about 13 hours ago
JSON representation
Repositório para apresentação de código, datasets e posterior análise, desenvolvido pelo grupo 5 para a UC Extração de Conhecimento de Dados Biológicos, do Mestraddo em Bioinformática, ano lectivo 23-24.
- Host: GitHub
- URL: https://github.com/duartebred/analise-rnaseq-cancro-utero
- Owner: duartebred
- Created: 2024-03-06T16:57:35.000Z (10 months ago)
- Default Branch: main
- Last Pushed: 2024-06-02T18:11:39.000Z (7 months ago)
- Last Synced: 2024-11-05T11:11:06.514Z (about 2 months ago)
- Topics: bioconductor-package, clustering, machine-learning, rna-seq, uterine-cancer
- Language: Jupyter Notebook
- Homepage: https://github.com/duartebred/Analise-RNASeq-Cancro-Utero
- Size: 53.7 MB
- Stars: 0
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# Análise RNASeq Cancro do Útero
**Grupo composto por:**
- [Duarte Velho](https://github.com/duartebred) (pg53841)
- [Joana Lopes](https://github.com/joanalopes0711) (pg53498)
- [Ricardo Oliveira](https://github.com/ricardofoliveira61) (pg53501)
Este trabalho prático foi desenvolvido pelo grupo 5, no âmbito da UC Extração de Conhecimentos de Dados Biológicos (2023/24), do Mestrado em Bioinformática da Escola de Engenharia da Universidade do Minho, e tem como objetivo principal analisar, através das ferramentas R e packages do Bioconductor, um conjunto de dados, acedidos a partir do GDC PortalData, relacionados com o Carcinoma Endometrial do Corpo Uterino.Este repositório contém todos os materiais e códigos desenvolvidos para o trabalho prático da disciplina de Extração de Conhecimento de Dados Biológicos do ano letivo de 2023/2024. O projeto envolve a análise de conjuntos de dados de expressão genética utilizando o software R e pacotes do Bioconductor, focando em análises estatísticas, de enriquecimento, clustering, redução de dimensionalidade e machine learning.
**Estrutura do Repositório**
- Scripts em R utilizados para a análise de dados, incluindo pré-processamento, análises estatísticas, e algoritmos de aprendizagem de máquina.
- Relatórios em formato HTML gerados a partir do R Markdown, detalhando todas as fases da análise, desde a preparação dos dados até a discussão dos resultados.
- README.md -> arquivo, que fornece uma visão geral do trabalho e informação sobre a equipa.# Fases do Projeto
**Fase 1**
- Exploração e explicação dos dados escolhidos
- Preparação e pré-processamento dos dados
- Sumarização dos dados através de estatísticas descritivas e visualizações
- Análise estatística univariada e análise de expressão diferencial**Fase 2**
- Clustering de genes/amostras e redução de dimensionalidade
- Análises preditivas com comparação de desempenho entre modelos
- Seleção e importância de genes##
**Link para acesso ao Dataset**
- [Dataset](https://shorturl.at/fmpJ5)Nota: O dataset analisado está associado ao projeto [Pan-Cancer Analysis of Whole Genomes (PCAWG)](https://www.cell.com/pb-assets/consortium/pancanceratlas/pancani3/index.html), que culminou numa coleção de 27 [papers](https://pubmed.ncbi.nlm.nih.gov/?term=29625048%2C29596782%2C29622463%2C29617662%2C29625055%2C29625050%2C29617662%2C30643250%2C32214244%2C29625049%2C29850653%5Buid%5D), que se dedicam ao estudo de 33 tipos diferentes de cancro, de entre os quais o nosso: cancro endometrial do corpo uterino.