Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/jjpaulo2/crawler-financeiro
Módulo em Python que extrai dados públicos de planos de previdência do portal da SUSEP.
https://github.com/jjpaulo2/crawler-financeiro
crawler docker ocr python selenium tesseract
Last synced: 2 months ago
JSON representation
Módulo em Python que extrai dados públicos de planos de previdência do portal da SUSEP.
- Host: GitHub
- URL: https://github.com/jjpaulo2/crawler-financeiro
- Owner: jjpaulo2
- Created: 2021-02-09T13:59:07.000Z (almost 4 years ago)
- Default Branch: main
- Last Pushed: 2021-02-16T16:24:07.000Z (almost 4 years ago)
- Last Synced: 2023-06-09T16:31:56.565Z (over 1 year ago)
- Topics: crawler, docker, ocr, python, selenium, tesseract
- Language: Python
- Homepage:
- Size: 268 KB
- Stars: 0
- Watchers: 2
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# Crawler de dados financeiros
Projeto desenvolvido como desafio na etapa prática de um processo seletivo para **desenvolvedor Python**. O objetivo do desafio é extrair informações.
### Objetivos
A idéia é extrair dados abertos da SUSEP (Superintendência de Seguros Privados). O desafio é dividido nas seguintes etapas:
1. Obter uma massa de dados no formato `JSON` em https://dados.gov.br/dataset/consulta-de-produtos
2. Filtrar apenas os itens onde o campo `tipoproduto` é `"PLANO DE PREVIDÊNCIA"`
3. Baixar o regulamento (PDF) referente a cada processo filtrado em http://www.susep.gov.br/menu/consulta-de-produtos-1
4. Extrair do arquivo PDF uma série de dados, como _Taxa de Juros_, _Taxa de Carregamento_, _Status do processo_, etc.
5. Os dados extraídos devem ser salvos em um novo arquivo `JSON`### Solução
Para ver a solução, clique [aqui](./projeto).
---
Made with :heart: by [@jjpaulo2](https://github.com/jjpaulo2)