https://github.com/cleberson-dev/js-scraping

🔍 Web Scraping com Cheerio e Axios, extraindo nomes de times de CS:GO do site HLTV.org
https://github.com/cleberson-dev/js-scraping

cheerio javascript nodejs scraping

Last synced: 2 months ago
JSON representation

🔍 Web Scraping com Cheerio e Axios, extraindo nomes de times de CS:GO do site HLTV.org

Host: GitHub
URL: https://github.com/cleberson-dev/js-scraping
Owner: cleberson-dev
Created: 2020-05-22T03:05:06.000Z (about 6 years ago)
Default Branch: master
Last Pushed: 2021-05-11T15:08:43.000Z (about 5 years ago)
Last Synced: 2025-06-02T07:14:17.409Z (about 1 year ago)
Topics: cheerio, javascript, nodejs, scraping
Language: JavaScript
Homepage:
Size: 24.4 KB
Stars: 1
Watchers: 1
Forks: 0
Open Issues: 2
Metadata Files:
- Readme: README.md

Awesome Lists containing this project

README

# JS Scraping

Web Scraping com Cheerio e Axios, extraindo nomes de times de CS:GO do site [HLTV.org](http://hltv.org)

## Sobre

O propósito foi especificamente para aprendizado de Web Scraping com Node.js. Nesse caso, foi somente utilizado análise (parsing) de HTML/DOM, sem a necessidade de um headless browser como [Puppeteer](https://github.com/puppeteer/puppeteer/) fazendo a mímica de um humano navegando no site clicando em botões, preechendo formulários etc...

Como o site é renderizado no lado do servidor, todo conteúdo já viria no corpo da resposta, foi só necessário adicionar [Axios](https://github.com/axios/axios) como dependência para fazer as requisições e obter as respostas.

## :gear: Instalação e Configuração

### Pré-requisitos

É exigido que tenha [Node.js](https://nodejs.org/) instalado em sua máquina.

### Instalação

1. Copie o repositório para sua máquina:
- Baixando o ZIP pelo repositório no GitHub (Botão Verde acima ou [aqui](https://github.com/cleberson-dev/js-scraping)):
- Clonando o repositório ([Git](https://git-scm.com/downloads) necessário):

```bash
git clone https://github.com/cleberson-dev/js-scraping.git
```

2. No diretório do projeto, instale as dependências necessárias utilizando um gerenciador de pacotes para Node.js (npm ou yarn):

```bash
npm install
# ou yarn
```

3. Execute o script principal:

``````bash
npm run start
``````

## :hammer: Construído com

- Javascript: Linguagem de programação.
- [Node.js](https://nodejs.org/): Runtime que executa código JavaScript no lado do servidor.
- [Cheerio](https://github.com/axios/axios): Implementação de jQuery para o lado do servidor em manipulação/exame de documentos HTML.
- [Axios](https://github.com/axios/axios): Cliente HTTP, baseado em promises para navegadores e Node.js.

## Terminologia

### Data Scraping

Técnica usada para extrair dados de um documento ou aplicação, especificamente dados de saída, que são pretendidos a serem apresentados ao usuário-final, onde talvez não tenha uma documentação ou estrutura formalizada e padronizada. Frequentemente, os dados desejados estão fundidos em meios de dados de multimídia, formatados para apresentação, com rótulos, comentários supérfluos e com informações irrelevantes para processamento.

No contexto da Web, web scraping visa extrair dados de documentos HTML, onde a maioria desses dados indesejados/sujos estão presentes (tags, formulários, metadados, aninhamentos, etc...)

## :writing_hand: Contribuidores

- [@cleberson-dev](https://github.com/cleberson-dev) - Ideia e Projeto Inicial

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Awesome

https://github.com/cleberson-dev/js-scraping

Awesome Lists containing this project

README