{"id":28349728,"url":"https://github.com/thiago-cloud/web-scraping-scripts","last_synced_at":"2025-07-28T20:09:38.040Z","repository":{"id":289769642,"uuid":"972344594","full_name":"thiago-cloud/Web-Scraping-Scripts","owner":"thiago-cloud","description":"Este repositório contém uma pequena coleção de scripts em Python destinados à automação de navegação e extração de dados da web. Utilizando tecnologias como selenium, requests, BeautifulSoup e pandas, os scripts têm como objetivo facilitar a coleta de informações de sites como notícias, e-commerce e portfólios.","archived":false,"fork":false,"pushed_at":"2025-04-26T23:24:53.000Z","size":16,"stargazers_count":0,"open_issues_count":0,"forks_count":0,"subscribers_count":1,"default_branch":"main","last_synced_at":"2025-06-22T07:35:12.884Z","etag":null,"topics":["execel","openpyxl","python","selenium"],"latest_commit_sha":null,"homepage":"","language":"Python","has_issues":true,"has_wiki":null,"has_pages":null,"mirror_url":null,"source_name":null,"license":null,"status":null,"scm":"git","pull_requests_enabled":true,"icon_url":"https://github.com/thiago-cloud.png","metadata":{"files":{"readme":"README.md","changelog":null,"contributing":null,"funding":null,"license":null,"code_of_conduct":null,"threat_model":null,"audit":null,"citation":null,"codeowners":null,"security":null,"support":null,"governance":null,"roadmap":null,"authors":null,"dei":null,"publiccode":null,"codemeta":null,"zenodo":null}},"created_at":"2025-04-24T23:37:07.000Z","updated_at":"2025-04-26T23:37:28.000Z","dependencies_parsed_at":"2025-04-26T01:37:55.004Z","dependency_job_id":"9cb2d23d-6479-4473-8efb-0f7a7553787f","html_url":"https://github.com/thiago-cloud/Web-Scraping-Scripts","commit_stats":null,"previous_names":["thiago-cloud/web-scraping-scripts-","thiago-cloud/web-scraping-scripts"],"tags_count":0,"template":false,"template_full_name":null,"purl":"pkg:github/thiago-cloud/Web-Scraping-Scripts","repository_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/thiago-cloud%2FWeb-Scraping-Scripts","tags_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/thiago-cloud%2FWeb-Scraping-Scripts/tags","releases_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/thiago-cloud%2FWeb-Scraping-Scripts/releases","manifests_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/thiago-cloud%2FWeb-Scraping-Scripts/manifests","owner_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners/thiago-cloud","download_url":"https://codeload.github.com/thiago-cloud/Web-Scraping-Scripts/tar.gz/refs/heads/main","sbom_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/thiago-cloud%2FWeb-Scraping-Scripts/sbom","host":{"name":"GitHub","url":"https://github.com","kind":"github","repositories_count":267578003,"owners_count":24110351,"icon_url":"https://github.com/github.png","version":null,"created_at":"2022-05-30T11:31:42.601Z","updated_at":"2022-07-04T15:15:14.044Z","status":"online","status_checked_at":"2025-07-28T02:00:09.689Z","response_time":68,"last_error":null,"robots_txt_status":"success","robots_txt_updated_at":"2025-07-24T06:49:26.215Z","robots_txt_url":"https://github.com/robots.txt","online":true,"can_crawl_api":true,"host_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub","repositories_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories","repository_names_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repository_names","owners_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners"}},"keywords":["execel","openpyxl","python","selenium"],"created_at":"2025-05-27T20:10:59.289Z","updated_at":"2025-07-28T20:09:38.034Z","avatar_url":"https://github.com/thiago-cloud.png","language":"Python","funding_links":[],"categories":[],"sub_categories":[],"readme":"\n# Web Scraping Scripts em Python\n\nEste repositório contém uma série de scripts em Python para web scraping, utilizando bibliotecas como `requests`, `BeautifulSoup`, `pandas` e `selenium`. O objetivo é demonstrar diferentes abordagens para extrair dados de websites populares, como notícias e produtos de e-commerce e também fazer automatizações de navegação.\n\n## Scripts\n\n### 1. `autoNews.py`\n\nEste script faz o scraping de notícias do site G1 da Globo mas poderia ser qualquer outro site. Ele coleta o título, subtítulo e o link de cada notícia da página inicial e salva os dados em um arquivo Excel.\n\n**Dependências:**\n- `requests`\n- `beautifulsoup4`\n- `pandas`\n- `openpyxl` (necessário para salvar os dados em Excel)\n\n**Funcionamento:**\n- Acessa a página principal do G1.\n- Extraí as notícias utilizando o BeautifulSoup.\n- Salva as informações em um arquivo `noticias.xlsx`.\n\n**Exemplo de uso:**\n```bash\npython autoNews.py\n```\n\n### 2. `autoEcommerce.py`\n\nEste script realiza uma busca no Mercado Livre com base em um produto fornecido pelo usuário. Ele coleta o título, link e preço dos produtos encontrados na busca.\n\n**Dependências:**\n- `requests`\n- `beautifulsoup4`\n\n**Funcionamento:**\n- Solicita ao usuário um nome de produto.\n- Realiza a busca no Mercado Livre.\n- Exibe informações sobre os produtos encontrados.\n\n**Exemplo de uso:**\n```bash\npython autoEcommerce.py\n```\n\n### 3. `webDriverSelenium.py`\n\nEste script utiliza Selenium para automação no navegador Chrome, realizando navegação em uma página de portfólio e interações como pesquisa e exibição de detalhes.\n\n**Dependências:**\n- `selenium`\n\n**Requisitos:**\n- Instalar o Selenium: `pip install selenium`\n- Baixar o [ChromeDriver](https://developer.chrome.com/docs/chromedriver/downloads) para o seu navegador Chrome.\n\n**Funcionamento:**\n- Acessa uma página de portfólio.\n- Realiza ações como pesquisar por um termo, exibir detalhes de projetos e navegar pelas seções do site.\n\n**Exemplo de uso:**\n```bash\npython webDriverSelenium.py\n```\n\n### 4. `webDriverSeleniumII.py`\n\nEste script é uma variação do anterior, com funcionalidades similares, mas em um fluxo um pouco diferente. Ele navega por várias seções do portfólio, realiza uma pesquisa e exibe detalhes de contato.\n\n**Dependências:**\n- `selenium`\n\n**Requisitos:**\n- Instalar o Selenium: `pip install selenium`\n- Baixar o [ChromeDriver](https://developer.chrome.com/docs/chromedriver/downloads) para o seu navegador Chrome.\n\n**Funcionamento:**\n- Acessa uma página de portfólio e executa uma série de navegações e interações com o conteúdo da página.\n\n**Exemplo de uso:**\n```bash\npython webDriverSeleniumII.py\n```\n\n## Instalação\n\n1. Clone este repositório:\n```bash\ngit clone https://github.com/seu-usuario/web-scraping-scripts.git\n```\n\n2. Navegue até o diretório do projeto:\n```bash\ncd web-scraping-scripts\n```\n\n3. Instale as dependências:\n```bash\npip install -r requirements.txt\n```\n\n## Requisitos\n\nEste projeto utiliza as seguintes bibliotecas:\n- `requests`\n- `beautifulsoup4`\n- `pandas`\n- `selenium`\n\nCertifique-se de ter o Python 3.x instalado em sua máquina.\n\n","project_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fthiago-cloud%2Fweb-scraping-scripts","html_url":"https://awesome.ecosyste.ms/projects/github.com%2Fthiago-cloud%2Fweb-scraping-scripts","lists_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fthiago-cloud%2Fweb-scraping-scripts/lists"}