{"id":22363201,"url":"https://github.com/oanderoficial/scraping","last_synced_at":"2025-03-26T15:18:01.929Z","repository":{"id":236868325,"uuid":"793315716","full_name":"oanderoficial/scraping","owner":"oanderoficial","description":"Web Scraping - Utilizando a biblioteca beautifulsoup4","archived":false,"fork":false,"pushed_at":"2024-05-28T19:04:08.000Z","size":9,"stargazers_count":0,"open_issues_count":0,"forks_count":0,"subscribers_count":1,"default_branch":"main","last_synced_at":"2025-01-31T16:22:35.577Z","etag":null,"topics":["python","scraping","scraping-python","scraping-websites","web","webscraping"],"latest_commit_sha":null,"homepage":"","language":"Python","has_issues":true,"has_wiki":null,"has_pages":null,"mirror_url":null,"source_name":null,"license":null,"status":null,"scm":"git","pull_requests_enabled":true,"icon_url":"https://github.com/oanderoficial.png","metadata":{"files":{"readme":"README.md","changelog":null,"contributing":null,"funding":null,"license":null,"code_of_conduct":null,"threat_model":null,"audit":null,"citation":null,"codeowners":null,"security":null,"support":null,"governance":null,"roadmap":null,"authors":null,"dei":null,"publiccode":null,"codemeta":null}},"created_at":"2024-04-29T01:34:20.000Z","updated_at":"2024-05-28T19:14:21.000Z","dependencies_parsed_at":"2024-04-29T02:43:20.979Z","dependency_job_id":"806405ac-4b32-43b3-8aaf-07f4d80cb8a3","html_url":"https://github.com/oanderoficial/scraping","commit_stats":null,"previous_names":["oanderoficial/scraping"],"tags_count":0,"template":false,"template_full_name":null,"repository_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/oanderoficial%2Fscraping","tags_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/oanderoficial%2Fscraping/tags","releases_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/oanderoficial%2Fscraping/releases","manifests_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/oanderoficial%2Fscraping/manifests","owner_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners/oanderoficial","download_url":"https://codeload.github.com/oanderoficial/scraping/tar.gz/refs/heads/main","host":{"name":"GitHub","url":"https://github.com","kind":"github","repositories_count":245678901,"owners_count":20654738,"icon_url":"https://github.com/github.png","version":null,"created_at":"2022-05-30T11:31:42.601Z","updated_at":"2022-07-04T15:15:14.044Z","host_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub","repositories_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories","repository_names_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repository_names","owners_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners"}},"keywords":["python","scraping","scraping-python","scraping-websites","web","webscraping"],"created_at":"2024-12-04T17:14:03.836Z","updated_at":"2025-03-26T15:18:01.907Z","avatar_url":"https://github.com/oanderoficial.png","language":"Python","funding_links":[],"categories":[],"sub_categories":[],"readme":"\u003ch1\u003e Web Scraping \u003c/h1\u003e\n\nUtilizando a biblioteca beautifulsoup4\n\n\u003cstrong\u003e Descrição: \u003c/strong\u003e\n\u003cp\u003eO BeautifulSoup é uma biblioteca Python popular para extrair dados de documentos HTML e XML. Ele oferece uma interface simples e poderosa para analisar e navegar na estrutura da árvore do documento.\u003c/p\u003e\n\n\u003cstrong\u003e Instalação: \u003c/strong\u003e\n```\npip install beautifulsoup4\n```\n\n\u003cstrong\u003e Importando a biblioteca: \u003c/strong\u003e\n\n```python\nfrom bs4 import BeautifulSoup\n```\n\n\u003cstrong\u003e Carregando o conteúdo: \u003c/strong\u003e\n\u003cp\u003e Você pode carregar o conteúdo de um arquivo HTML ou de uma string HTML:\u003c/p\u003e\n\n``` python \nwith open('arquivo.html', 'r') as f:\n    html_content = f.read()\n```\n\n\u003cstrong\u003e Carregando de uma string: \u003c/strong\u003e\n\n``` python\nhtml_content = \"\"\"\n\u003chtml\u003e\n\u003chead\u003e\n    \u003ctitle\u003eExemplo\u003c/title\u003e\n\u003c/head\u003e\n\u003cbody\u003e\n    \u003cp\u003eEste é um parágrafo.\u003c/p\u003e\n\u003c/body\u003e\n\u003c/html\u003e\n\"\"\"\n```\n\u003cstrong\u003e Criando o analisador: \u003c/strong\u003e\n\u003cp\u003e Crie um objeto BeautifulSoup para analisar o conteúdo:\u003c/p\u003e\n\n``` python\nsoup = BeautifulSoup(html_content, 'html.parser')\n```\n\n\u003cstrong\u003e Navegando na estrutura: \u003c/strong\u003e\n\u003cp\u003e O objeto soup representa a árvore do documento. Você pode navegar pela estrutura usando diversos métodos:\u003c/p\u003e\n\n\u003col\u003e\n\u003cli\u003efind(): Encontra a primeira tag correspondente a um seletor CSS.\u003c/li\u003e\n\u003cli\u003efindAll(): Encontra todas as tags correspondentes a um seletor CSS.\u003c/li\u003e\n\u003cli\u003efind_parent(): Encontra a tag pai de uma tag específica.\u003c/li\u003e\n\u003cli\u003efind_next_sibling(): Encontra a próxima tag irmã de uma tag específica.\u003c/li\u003e\n\u003cli\u003efind_previous_sibling(): Encontra a tag irmã anterior de uma tag específica.\u003c/li\u003e\n\u003c/ol\u003e\n\n\u003ch2\u003e Criando a ferramenta \u003c/h2\u003e\n\u003cp\u003e Fiz a importação das bibliotecas requests e BeautifulSoup para o scraping no meu site \u003c/p\u003e\n\n```python\nimport requests \nfrom bs4 import BeautifulSoup \n\npagina = requests.get(\"https://oander.site\")\nsoup = BeautifulSoup(pagina.text, features=\"html.parser\")\n\n```\n\n\u003cp\u003e Definindo algumas funções, procurando por tags \u003c/p\u003e\n\n```python\n\ndef scraping():\n  if pagina.status_code == 200:\n    print(pagina.content)\n  else:\n      print(\"HTTP error\",pagina.status_code)\n\ndef text():\n   print(soup)\n\ndef title():\n   print('')\n   print(soup.title)\n   print('')\n\ndef head():\n   print('')\n   head_ =soup.find('head')\n   print(head_)\n\ndef meta():\n   css_ = soup.find_all('meta')\n   print(css_)\n\ndef script():\n   print ('')\n   s =soup.find_all('script')\n   print(s)\n\ndef links():\n   print ('')\n   hf = soup.find_all('a')\n   print(hf)\n\n```\n","project_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Foanderoficial%2Fscraping","html_url":"https://awesome.ecosyste.ms/projects/github.com%2Foanderoficial%2Fscraping","lists_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Foanderoficial%2Fscraping/lists"}