An open API service indexing awesome lists of open source software.

https://github.com/oanderoficial/scraping

Web Scraping - Utilizando a biblioteca beautifulsoup4
https://github.com/oanderoficial/scraping

python scraping scraping-python scraping-websites web webscraping

Last synced: 6 months ago
JSON representation

Web Scraping - Utilizando a biblioteca beautifulsoup4

Awesome Lists containing this project

README

          

Web Scraping

Utilizando a biblioteca beautifulsoup4

Descrição:

O BeautifulSoup é uma biblioteca Python popular para extrair dados de documentos HTML e XML. Ele oferece uma interface simples e poderosa para analisar e navegar na estrutura da árvore do documento.

Instalação:
```
pip install beautifulsoup4
```

Importando a biblioteca:

```python
from bs4 import BeautifulSoup
```

Carregando o conteúdo:

Você pode carregar o conteúdo de um arquivo HTML ou de uma string HTML:

``` python
with open('arquivo.html', 'r') as f:
html_content = f.read()
```

Carregando de uma string:

``` python
html_content = """

Exemplo

Este é um parágrafo.

"""
```
Criando o analisador:

Crie um objeto BeautifulSoup para analisar o conteúdo:

``` python
soup = BeautifulSoup(html_content, 'html.parser')
```

Navegando na estrutura:

O objeto soup representa a árvore do documento. Você pode navegar pela estrutura usando diversos métodos:


  1. find(): Encontra a primeira tag correspondente a um seletor CSS.

  2. findAll(): Encontra todas as tags correspondentes a um seletor CSS.

  3. find_parent(): Encontra a tag pai de uma tag específica.

  4. find_next_sibling(): Encontra a próxima tag irmã de uma tag específica.

  5. find_previous_sibling(): Encontra a tag irmã anterior de uma tag específica.

Criando a ferramenta


Fiz a importação das bibliotecas requests e BeautifulSoup para o scraping no meu site

```python
import requests
from bs4 import BeautifulSoup

pagina = requests.get("https://oander.site")
soup = BeautifulSoup(pagina.text, features="html.parser")

```

Definindo algumas funções, procurando por tags

```python

def scraping():
if pagina.status_code == 200:
print(pagina.content)
else:
print("HTTP error",pagina.status_code)

def text():
print(soup)

def title():
print('')
print(soup.title)
print('')

def head():
print('')
head_ =soup.find('head')
print(head_)

def meta():
css_ = soup.find_all('meta')
print(css_)

def script():
print ('')
s =soup.find_all('script')
print(s)

def links():
print ('')
hf = soup.find_all('a')
print(hf)

```