Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/jtrecenti/app_streamlit_clinicas
https://github.com/jtrecenti/app_streamlit_clinicas
Last synced: 20 days ago
JSON representation
- Host: GitHub
- URL: https://github.com/jtrecenti/app_streamlit_clinicas
- Owner: jtrecenti
- Created: 2024-05-31T00:17:12.000Z (7 months ago)
- Default Branch: main
- Last Pushed: 2024-05-31T00:17:14.000Z (7 months ago)
- Last Synced: 2024-12-13T17:13:08.595Z (21 days ago)
- Language: JavaScript
- Size: 319 KB
- Stars: 0
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# Analisa Dados TCU
Este aplicativo foi criado para demonstrar como realizar a análise e junção de um arquivo PDF e um arquivo XLSX utilizando o Streamlit. O aplicativo permite que o usuário carregue um arquivo PDF e um arquivo XLSX, e então realiza a junção das bases de dados, gerando um arquivo XLSX com o resultado.
## Como o aplicativo foi construído
1. **Configuração do ambiente**:
- Instale as bibliotecas necessárias: Streamlit, Pandas, PyPDF2, openpyxl e XlsxWriter.
```bash
pip install streamlit pandas PyPDF2 openpyxl xlsxwriter
```2. **Estrutura do aplicativo**:
- O aplicativo utiliza o Streamlit para criar a interface de usuário.
- O arquivo PDF é lido usando a biblioteca PyPDF2 e seu conteúdo é convertido em um DataFrame do Pandas.
- O arquivo XLSX é lido diretamente em um DataFrame do Pandas.
- A junção das bases é realizada pela coluna "nome".
- O resultado é salvo em um novo arquivo XLSX que pode ser baixado pelo usuário.3. **Código principal do aplicativo**:
- O aplicativo foi implementado em um arquivo Python (`app.py`). A parte que vocês devem modificar é a função `analisa_dados`, que lê os arquivos PDF e XLSX e faz a junção das bases:```python
def analisa_dados (pdf_file, xlsx_file):
## passo 1: lê o arquivo pdf# por exemplo:
# pdf_reader = PyPDF2.PdfReader(pdf_file)
# text = []
# for page in pdf_reader.pages:
# text.append(page.extract_text())
# text = "\n".join(text)
# lines = text.split("\n")
# df = pd.DataFrame(lines, columns=["content"])
# return df## passo 2: lê o arquivo xlsx (talvez precise fazer algum ajuste)
xlsx_df = pd.read_excel(xlsx_file)## passo 3: faz o merge dos dois arquivos
# por exemplo:
# joined_df = pd.merge(pdf_df, xlsx_df, on="nome", how="left")# o código abaixo é temporário. Substituir
# pelo resultado do merge
joined_df = xlsx_dfreturn joined_df
```
## Como executar o aplicativo
1. Certifique-se de ter todas as dependências instaladas:
```bash
pip install streamlit pandas PyPDF2 openpyxl xlsxwriter
```2. Na linha de comando, execute o aplicativo com o Streamlit:
```bash
streamlit run app.py
```(não se esqueça de estar no diretório onde o arquivo `app.py` está localizado)
O resultado será uma página assim:
![](image/README/image.png)
## Lista de Tarefas
1. **Passo 1: Ler o arquivo PDF**:
- Implementar a leitura do arquivo PDF e a conversão do conteúdo em um DataFrame do Pandas, como vocês já fizeram antes.2. **Passo 2: Ler o arquivo XLSX**:
- Implementar a leitura do arquivo XLSX em um DataFrame do Pandas.3. **Passo 3: Fazer a junção das bases**:
- Implementar a junção das bases de dados utilizando a coluna que contém os nomes como chave.4. **Extra: Documentação**:
- Melhorar a documentação do código, adicionando comentários detalhados e explicações sobre cada parte do processo.