Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/lucasfogliarini/minhaentradacrawler.consoleapp
Web crawler em C# que usa a biblioteca AngleSharp para extrair detalhes de eventos do site "https://minhaentrada.com.br". Ele analisa o HTML da página e recupera informações como título, data, local e links dos eventos.
https://github.com/lucasfogliarini/minhaentradacrawler.consoleapp
anglesharp crawler minhaentrada
Last synced: 26 days ago
JSON representation
Web crawler em C# que usa a biblioteca AngleSharp para extrair detalhes de eventos do site "https://minhaentrada.com.br". Ele analisa o HTML da página e recupera informações como título, data, local e links dos eventos.
- Host: GitHub
- URL: https://github.com/lucasfogliarini/minhaentradacrawler.consoleapp
- Owner: lucasfogliarini
- Created: 2023-08-12T14:26:36.000Z (over 1 year ago)
- Default Branch: master
- Last Pushed: 2023-08-12T14:57:30.000Z (over 1 year ago)
- Last Synced: 2024-11-08T06:24:49.308Z (3 months ago)
- Topics: anglesharp, crawler, minhaentrada
- Language: C#
- Homepage: https://minhaentrada.com.br/PoaComedyClub/agenda-geral
- Size: 9.77 KB
- Stars: 0
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
## O que é isso, GPT?
Isso é um web crawler escrito em C#. Ele é usado para extrair informações de eventos de um site específico, no caso, o site "https://minhaentrada.com.br". O código utiliza a biblioteca AngleSharp para fazer a análise do DOM (Document Object Model) da página HTML e extrair os detalhes dos eventos listados.
Vou explicar um pouco sobre cada parte do código:
1. **Classe `MinhaEntradaCrawler`**: Esta é a classe principal do código. Ela contém um construtor que recebe o nome do organizador de eventos como parâmetro e cria o URL para a agenda do organizador. A classe também tem um método `CrawlEventsAsync` que aceita uma data de início e uma data de término como parâmetros e retorna uma lista de eventos que ocorrem dentro desse intervalo de datas.
2. **Método `GetHtmlDocumentAsync`**: Este método é responsável por obter o conteúdo HTML da página usando a classe `HttpClient`, e em seguida, cria um documento HTML com a ajuda da biblioteca AngleSharp. Ele configura um objeto `BrowsingContext` que é usado para carregar o HTML e criar um documento DOM.
3. **Método `ExtractEvents`**: Neste método, o DOM da página é analisado para extrair as informações dos eventos. Ele utiliza seletores CSS para encontrar os elementos relevantes na página HTML, como títulos, datas, locais, URLs de imagem e links para os eventos. As informações são extraídas e usadas para criar objetos do tipo `Event`, que são então adicionados a uma lista.
ChatGPT Version:
https://help.openai.com/en/articles/6825453-chatgpt-release-notes