https://github.com/cleberson-dev/js-scraping
🔍 Web Scraping com Cheerio e Axios, extraindo nomes de times de CS:GO do site HLTV.org
https://github.com/cleberson-dev/js-scraping
cheerio javascript nodejs scraping
Last synced: 2 months ago
JSON representation
🔍 Web Scraping com Cheerio e Axios, extraindo nomes de times de CS:GO do site HLTV.org
- Host: GitHub
- URL: https://github.com/cleberson-dev/js-scraping
- Owner: cleberson-dev
- Created: 2020-05-22T03:05:06.000Z (about 6 years ago)
- Default Branch: master
- Last Pushed: 2021-05-11T15:08:43.000Z (about 5 years ago)
- Last Synced: 2025-06-02T07:14:17.409Z (about 1 year ago)
- Topics: cheerio, javascript, nodejs, scraping
- Language: JavaScript
- Homepage:
- Size: 24.4 KB
- Stars: 1
- Watchers: 1
- Forks: 0
- Open Issues: 2
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# JS Scraping
Web Scraping com Cheerio e Axios, extraindo nomes de times de CS:GO do site [HLTV.org](http://hltv.org)
## Sobre
O propósito foi especificamente para aprendizado de Web Scraping com Node.js. Nesse caso, foi somente utilizado análise (parsing) de HTML/DOM, sem a necessidade de um headless browser como [Puppeteer](https://github.com/puppeteer/puppeteer/) fazendo a mímica de um humano navegando no site clicando em botões, preechendo formulários etc...
Como o site é renderizado no lado do servidor, todo conteúdo já viria no corpo da resposta, foi só necessário adicionar [Axios](https://github.com/axios/axios) como dependência para fazer as requisições e obter as respostas.
## :gear: Instalação e Configuração
### Pré-requisitos
É exigido que tenha [Node.js](https://nodejs.org/) instalado em sua máquina.
### Instalação
1. Copie o repositório para sua máquina:
- Baixando o ZIP pelo repositório no GitHub (Botão Verde acima ou [aqui](https://github.com/cleberson-dev/js-scraping)):
- Clonando o repositório ([Git](https://git-scm.com/downloads) necessário):
```bash
git clone https://github.com/cleberson-dev/js-scraping.git
```
2. No diretório do projeto, instale as dependências necessárias utilizando um gerenciador de pacotes para Node.js (npm ou yarn):
```bash
npm install
# ou yarn
```
3. Execute o script principal:
``````bash
npm run start
``````
## :hammer: Construído com
- Javascript: Linguagem de programação.
- [Node.js](https://nodejs.org/): Runtime que executa código JavaScript no lado do servidor.
- [Cheerio](https://github.com/axios/axios): Implementação de jQuery para o lado do servidor em manipulação/exame de documentos HTML.
- [Axios](https://github.com/axios/axios): Cliente HTTP, baseado em promises para navegadores e Node.js.
## Terminologia
### Data Scraping
Técnica usada para extrair dados de um documento ou aplicação, especificamente dados de saída, que são pretendidos a serem apresentados ao usuário-final, onde talvez não tenha uma documentação ou estrutura formalizada e padronizada. Frequentemente, os dados desejados estão fundidos em meios de dados de multimídia, formatados para apresentação, com rótulos, comentários supérfluos e com informações irrelevantes para processamento.
No contexto da Web, web scraping visa extrair dados de documentos HTML, onde a maioria desses dados indesejados/sujos estão presentes (tags, formulários, metadados, aninhamentos, etc...)
## :writing_hand: Contribuidores
- [@cleberson-dev](https://github.com/cleberson-dev) - Ideia e Projeto Inicial