https://github.com/andreirech/webcrawler

🌐 Web Crawler to get some informations in IMDB
https://github.com/andreirech/webcrawler

python webcrawler

Last synced: about 1 month ago
JSON representation

🌐 Web Crawler to get some informations in IMDB

Host: GitHub
URL: https://github.com/andreirech/webcrawler
Owner: AndreiRech
Created: 2024-08-19T23:09:08.000Z (almost 2 years ago)
Default Branch: main
Last Pushed: 2024-08-29T19:05:17.000Z (almost 2 years ago)
Last Synced: 2025-05-17T19:37:26.993Z (about 1 year ago)
Topics: python, webcrawler
Language: Jupyter Notebook
Homepage:
Size: 242 KB
Stars: 1
Watchers: 1
Forks: 0
Open Issues: 0
Metadata Files:
- Readme: README.md

Awesome Lists containing this project

README

          # 🔖 ALUNOS

- [Andrei Rech | 23102140](https://github.com/AndreiRech) 

- [Urien Nolasco | 23102720](https://github.com/UrienNolasco)

# 📚 INTRODUÇÃO

Criação de algoritmos WebCrawleres.

# 🛠 PRÉ REQUISITOS

É necessário possuir a linguagem [Python](https://www.python.org/downloads/) instalada no computador (de preferência 3.12.x - mas pode funcionar em superiores).

Outra ferramente muito importante é o gerenciador de pacotes do Python, o [Pip](https://pypi.org/project/pip/).

Para a conseguir abrir a aplicação que será retirado os dados no primeiro programa, é necessária a criação de um ambiente virtual no [Anaconda](https://www.anaconda.com/download) com o a versão **2.7** do Python.

Por fim, a utilização do [JupyterLab](https://jupyter.org/) ou do [Google Colab](https://colab.google/) é necessária para a utilização do programa (Caso deseje, é possível utilizar o [VSCode](https://code.visualstudio.com/)).

# ⚙ INICIALIZAÇÃO

Para a realização do projeto, utilizamos alguns pacotes adicionais. Segue a baixo a lista de pacotes a serem instalados e seus comandos:

- *BeautifulSoup*

```

pip install beautifulsoup4

```

Por fim, caso esteja utilizando o **JupyterLab**, abra o mesmo pelo terminal utilizando:

```

jupyter lab

```

# O QUE FAZER

### ATIVIDADE 1

- [X] Faça um crawler capaz de navegar por todas as páginas de países e acessar seus HTML

- [X] Faça scraping dos HTMLs das páginas para armazenar os seguintes dados dos países em um arquivo CSV:

    - [X] Nome do país

    - [X] Nome da moeda

    - [X] Nome do continente

    - [X] Nome de todos os países vizinhos (Nome != Sigla)

    - [X] Salvar uma coluna extra no csv contendo um timestamp do momento no qual os dados foram obtidos

- [X] Faça um crawler que monitore as páginas de países e procure por atualizações. Caso algum registro tenha sido atualizado desde sua obtenção, esse registro deve ser atualizado no arquivo CSV, caso contrário manter a versão anterior.

### ATIVIDADE 2

- [X] Faça scraping para obter os filmes presentes no Calendário de Lançamentos do IMDB

    - [X] Título do filme

    - [X] Data de lançamento

    - [X] Gênero(s)

    - [X] Link para página da série

- [X] Faça scraping das páginas específicas dos filmes obtidos no item anterior

    - [X] Nomes dos diretores

    - [X] Lista de atores principais

- [X] Salve as informações em um arquivo de tipo JSON.

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Awesome

https://github.com/andreirech/webcrawler

Awesome Lists containing this project

README