An open API service indexing awesome lists of open source software.

https://github.com/andreirech/webcrawler

🌐 Web Crawler to get some informations in IMDB
https://github.com/andreirech/webcrawler

python webcrawler

Last synced: about 1 month ago
JSON representation

🌐 Web Crawler to get some informations in IMDB

Awesome Lists containing this project

README

          

# šŸ”– ALUNOS

- [Andrei Rech | 23102140](https://github.com/AndreiRech)
- [Urien Nolasco | 23102720](https://github.com/UrienNolasco)

# šŸ“š INTRODUƇƃO

Criação de algoritmos WebCrawleres.

# šŸ›  PRƉ REQUISITOS

Ɖ necessĆ”rio possuir a linguagem [Python](https://www.python.org/downloads/) instalada no computador (de preferĆŖncia 3.12.x - mas pode funcionar em superiores).

Outra ferramente muito importante Ć© o gerenciador de pacotes do Python, o [Pip](https://pypi.org/project/pip/).

Para a conseguir abrir a aplicação que serÔ retirado os dados no primeiro programa, é necessÔria a criação de um ambiente virtual no [Anaconda](https://www.anaconda.com/download) com o a versão **2.7** do Python.

Por fim, a utilização do [JupyterLab](https://jupyter.org/) ou do [Google Colab](https://colab.google/) é necessÔria para a utilização do programa (Caso deseje, é possível utilizar o [VSCode](https://code.visualstudio.com/)).

# āš™ INICIALIZAƇƃO

Para a realização do projeto, utilizamos alguns pacotes adicionais. Segue a baixo a lista de pacotes a serem instalados e seus comandos:

- *BeautifulSoup*
```
pip install beautifulsoup4
```

Por fim, caso esteja utilizando o **JupyterLab**, abra o mesmo pelo terminal utilizando:
```
jupyter lab
```

# O QUE FAZER

### ATIVIDADE 1
- [X] FaƧa um crawler capaz de navegar por todas as pƔginas de paƭses e acessar seus HTML
- [X] FaƧa scraping dos HTMLs das pƔginas para armazenar os seguintes dados dos paƭses em um arquivo CSV:
- [X] Nome do paĆ­s
- [X] Nome da moeda
- [X] Nome do continente
- [X] Nome de todos os paĆ­ses vizinhos (Nome != Sigla)
- [X] Salvar uma coluna extra no csv contendo um timestamp do momento no qual os dados foram obtidos
- [X] Faça um crawler que monitore as pÔginas de países e procure por atualizações. Caso algum registro tenha sido atualizado desde sua obtenção, esse registro deve ser atualizado no arquivo CSV, caso contrÔrio manter a versão anterior.

### ATIVIDADE 2
- [X] FaƧa scraping para obter os filmes presentes no CalendƔrio de LanƧamentos do IMDB
- [X] TĆ­tulo do filme
- [X] Data de lanƧamento
- [X] GĆŖnero(s)
- [X] Link para pƔgina da sƩrie
- [X] FaƧa scraping das pƔginas especƭficas dos filmes obtidos no item anterior
- [X] Nomes dos diretores
- [X] Lista de atores principais
- [X] Salve as informaƧƵes em um arquivo de tipo JSON.