https://github.com/jjpaulo2/crawler-financeiro

Módulo em Python que extrai dados públicos de planos de previdência do portal da SUSEP.
https://github.com/jjpaulo2/crawler-financeiro

crawler docker ocr python selenium tesseract

Last synced: 12 months ago
JSON representation

Módulo em Python que extrai dados públicos de planos de previdência do portal da SUSEP.

Host: GitHub
URL: https://github.com/jjpaulo2/crawler-financeiro
Owner: jjpaulo2
Archived: true
Created: 2021-02-09T13:59:07.000Z (over 5 years ago)
Default Branch: main
Last Pushed: 2021-02-16T16:24:07.000Z (over 5 years ago)
Last Synced: 2025-07-04T16:29:02.937Z (about 1 year ago)
Topics: crawler, docker, ocr, python, selenium, tesseract
Language: Python
Homepage:
Size: 268 KB
Stars: 0
Watchers: 1
Forks: 0
Open Issues: 0
Metadata Files:
- Readme: README.md

Awesome Lists containing this project

README

# Crawler de dados financeiros

Projeto desenvolvido como desafio na etapa prática de um processo seletivo para **desenvolvedor Python**. O objetivo do desafio é extrair informações.

### Objetivos

A idéia é extrair dados abertos da SUSEP (Superintendência de Seguros Privados). O desafio é dividido nas seguintes etapas:

1. Obter uma massa de dados no formato `JSON` em https://dados.gov.br/dataset/consulta-de-produtos
2. Filtrar apenas os itens onde o campo `tipoproduto` é `"PLANO DE PREVIDÊNCIA"`
3. Baixar o regulamento (PDF) referente a cada processo filtrado em http://www.susep.gov.br/menu/consulta-de-produtos-1
4. Extrair do arquivo PDF uma série de dados, como _Taxa de Juros_, _Taxa de Carregamento_, _Status do processo_, etc.
5. Os dados extraídos devem ser salvos em um novo arquivo `JSON`

### Solução

Para ver a solução, clique [aqui](./projeto).

---
Made with :heart: by [@jjpaulo2](https://github.com/jjpaulo2)

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Awesome

https://github.com/jjpaulo2/crawler-financeiro

Awesome Lists containing this project

README