https://github.com/oanderoficial/scraping
Web Scraping - Utilizando a biblioteca beautifulsoup4
https://github.com/oanderoficial/scraping
python scraping scraping-python scraping-websites web webscraping
Last synced: 6 months ago
JSON representation
Web Scraping - Utilizando a biblioteca beautifulsoup4
- Host: GitHub
- URL: https://github.com/oanderoficial/scraping
- Owner: oanderoficial
- Created: 2024-04-29T01:34:20.000Z (over 1 year ago)
- Default Branch: main
- Last Pushed: 2024-05-28T19:04:08.000Z (over 1 year ago)
- Last Synced: 2025-01-31T16:22:35.577Z (8 months ago)
- Topics: python, scraping, scraping-python, scraping-websites, web, webscraping
- Language: Python
- Homepage:
- Size: 8.79 KB
- Stars: 0
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
Web Scraping
Utilizando a biblioteca beautifulsoup4
Descrição:
O BeautifulSoup é uma biblioteca Python popular para extrair dados de documentos HTML e XML. Ele oferece uma interface simples e poderosa para analisar e navegar na estrutura da árvore do documento.
Instalação:
```
pip install beautifulsoup4
```Importando a biblioteca:
```python
from bs4 import BeautifulSoup
```Carregando o conteúdo:
Você pode carregar o conteúdo de um arquivo HTML ou de uma string HTML:
``` python
with open('arquivo.html', 'r') as f:
html_content = f.read()
```Carregando de uma string:
``` python
html_content = """Exemplo
Este é um parágrafo.
"""
```
Criando o analisador:Crie um objeto BeautifulSoup para analisar o conteúdo:
``` python
soup = BeautifulSoup(html_content, 'html.parser')
```Navegando na estrutura:
O objeto soup representa a árvore do documento. Você pode navegar pela estrutura usando diversos métodos:
- find(): Encontra a primeira tag correspondente a um seletor CSS.
- findAll(): Encontra todas as tags correspondentes a um seletor CSS.
- find_parent(): Encontra a tag pai de uma tag específica.
- find_next_sibling(): Encontra a próxima tag irmã de uma tag específica.
- find_previous_sibling(): Encontra a tag irmã anterior de uma tag específica.
Criando a ferramenta
Fiz a importação das bibliotecas requests e BeautifulSoup para o scraping no meu site
```python
import requests
from bs4 import BeautifulSouppagina = requests.get("https://oander.site")
soup = BeautifulSoup(pagina.text, features="html.parser")```
Definindo algumas funções, procurando por tags
```python
def scraping():
if pagina.status_code == 200:
print(pagina.content)
else:
print("HTTP error",pagina.status_code)def text():
print(soup)def title():
print('')
print(soup.title)
print('')def head():
print('')
head_ =soup.find('head')
print(head_)def meta():
css_ = soup.find_all('meta')
print(css_)def script():
print ('')
s =soup.find_all('script')
print(s)def links():
print ('')
hf = soup.find_all('a')
print(hf)```