https://github.com/oanderoficial/scraping

Web Scraping - Utilizando a biblioteca beautifulsoup4
https://github.com/oanderoficial/scraping

python scraping scraping-python scraping-websites web webscraping

Last synced: over 1 year ago
JSON representation

Web Scraping - Utilizando a biblioteca beautifulsoup4

Host: GitHub
URL: https://github.com/oanderoficial/scraping
Owner: oanderoficial
Created: 2024-04-29T01:34:20.000Z (about 2 years ago)
Default Branch: main
Last Pushed: 2024-05-28T19:04:08.000Z (about 2 years ago)
Last Synced: 2025-01-31T16:22:35.577Z (over 1 year ago)
Topics: python, scraping, scraping-python, scraping-websites, web, webscraping
Language: Python
Homepage:
Size: 8.79 KB
Stars: 0
Watchers: 1
Forks: 0
Open Issues: 0
Metadata Files:
- Readme: README.md

Awesome Lists containing this project

README

          
 Web Scraping 


Utilizando a biblioteca beautifulsoup4

 Descrição: 

O BeautifulSoup é uma biblioteca Python popular para extrair dados de documentos HTML e XML. Ele oferece uma interface simples e poderosa para analisar e navegar na estrutura da árvore do documento.


 Instalação: 

```

pip install beautifulsoup4

```

 Importando a biblioteca: 

```python

from bs4 import BeautifulSoup

```

 Carregando o conteúdo: 

 Você pode carregar o conteúdo de um arquivo HTML ou de uma string HTML:


``` python 

with open('arquivo.html', 'r') as f:

    html_content = f.read()

```

 Carregando de uma string: 

``` python

html_content = """

    Exemplo

    
Este é um parágrafo.


"""

```

 Criando o analisador: 

 Crie um objeto BeautifulSoup para analisar o conteúdo:


``` python

soup = BeautifulSoup(html_content, 'html.parser')

```

 Navegando na estrutura: 

 O objeto soup representa a árvore do documento. Você pode navegar pela estrutura usando diversos métodos:




find(): Encontra a primeira tag correspondente a um seletor CSS.

findAll(): Encontra todas as tags correspondentes a um seletor CSS.

find_parent(): Encontra a tag pai de uma tag específica.

find_next_sibling(): Encontra a próxima tag irmã de uma tag específica.

find_previous_sibling(): Encontra a tag irmã anterior de uma tag específica.



 Criando a ferramenta 

 Fiz a importação das bibliotecas requests e BeautifulSoup para o scraping no meu site 


```python

import requests 

from bs4 import BeautifulSoup 

pagina = requests.get("https://oander.site")

soup = BeautifulSoup(pagina.text, features="html.parser")

```

 Definindo algumas funções, procurando por tags 


```python

def scraping():

  if pagina.status_code == 200:

    print(pagina.content)

  else:

      print("HTTP error",pagina.status_code)

def text():

   print(soup)

def title():

   print('')

   print(soup.title)

   print('')

def head():

   print('')

   head_ =soup.find('head')

   print(head_)

def meta():

   css_ = soup.find_all('meta')

   print(css_)

def script():

   print ('')

   s =soup.find_all('script')

   print(s)

def links():

   print ('')

   hf = soup.find_all('a')

   print(hf)

```

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Awesome

https://github.com/oanderoficial/scraping

Awesome Lists containing this project

README

Web Scraping

Criando a ferramenta