https://github.com/andreirech/webcrawler
š Web Crawler to get some informations in IMDB
https://github.com/andreirech/webcrawler
python webcrawler
Last synced: about 1 month ago
JSON representation
š Web Crawler to get some informations in IMDB
- Host: GitHub
- URL: https://github.com/andreirech/webcrawler
- Owner: AndreiRech
- Created: 2024-08-19T23:09:08.000Z (almost 2 years ago)
- Default Branch: main
- Last Pushed: 2024-08-29T19:05:17.000Z (almost 2 years ago)
- Last Synced: 2025-05-17T19:37:26.993Z (about 1 year ago)
- Topics: python, webcrawler
- Language: Jupyter Notebook
- Homepage:
- Size: 242 KB
- Stars: 1
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# š ALUNOS
- [Andrei Rech | 23102140](https://github.com/AndreiRech)
- [Urien Nolasco | 23102720](https://github.com/UrienNolasco)
# š INTRODUĆĆO
Criação de algoritmos WebCrawleres.
# š PRĆ REQUISITOS
à necessÔrio possuir a linguagem [Python](https://www.python.org/downloads/) instalada no computador (de preferência 3.12.x - mas pode funcionar em superiores).
Outra ferramente muito importante Ć© o gerenciador de pacotes do Python, o [Pip](https://pypi.org/project/pip/).
Para a conseguir abrir a aplicação que serÔ retirado os dados no primeiro programa, é necessÔria a criação de um ambiente virtual no [Anaconda](https://www.anaconda.com/download) com o a versão **2.7** do Python.
Por fim, a utilização do [JupyterLab](https://jupyter.org/) ou do [Google Colab](https://colab.google/) Ć© necessĆ”ria para a utilização do programa (Caso deseje, Ć© possĆvel utilizar o [VSCode](https://code.visualstudio.com/)).
# ā INICIALIZAĆĆO
Para a realização do projeto, utilizamos alguns pacotes adicionais. Segue a baixo a lista de pacotes a serem instalados e seus comandos:
- *BeautifulSoup*
```
pip install beautifulsoup4
```
Por fim, caso esteja utilizando o **JupyterLab**, abra o mesmo pelo terminal utilizando:
```
jupyter lab
```
# O QUE FAZER
### ATIVIDADE 1
- [X] FaƧa um crawler capaz de navegar por todas as pĆ”ginas de paĆses e acessar seus HTML
- [X] FaƧa scraping dos HTMLs das pĆ”ginas para armazenar os seguintes dados dos paĆses em um arquivo CSV:
- [X] Nome do paĆs
- [X] Nome da moeda
- [X] Nome do continente
- [X] Nome de todos os paĆses vizinhos (Nome != Sigla)
- [X] Salvar uma coluna extra no csv contendo um timestamp do momento no qual os dados foram obtidos
- [X] FaƧa um crawler que monitore as pĆ”ginas de paĆses e procure por atualizaƧƵes. Caso algum registro tenha sido atualizado desde sua obtenção, esse registro deve ser atualizado no arquivo CSV, caso contrĆ”rio manter a versĆ£o anterior.
### ATIVIDADE 2
- [X] FaƧa scraping para obter os filmes presentes no CalendƔrio de LanƧamentos do IMDB
- [X] TĆtulo do filme
- [X] Data de lanƧamento
- [X] GĆŖnero(s)
- [X] Link para pƔgina da sƩrie
- [X] FaƧa scraping das pĆ”ginas especĆficas dos filmes obtidos no item anterior
- [X] Nomes dos diretores
- [X] Lista de atores principais
- [X] Salve as informaƧƵes em um arquivo de tipo JSON.