Ecosyste.ms: Awesome

An open API service indexing awesome lists of open source software.

Awesome Lists | Featured Topics | Projects

https://github.com/an0ncer/pwa-sitemap

Репозиторий с веб-скрапером на Node.js и Puppeteer. Создайте sitemap.xml для индексации веб-сайтов.
https://github.com/an0ncer/pwa-sitemap

nodejs puppeteer sitemap web-crawling web-scraper

Last synced: 6 days ago
JSON representation

Репозиторий с веб-скрапером на Node.js и Puppeteer. Создайте sitemap.xml для индексации веб-сайтов.

Host: GitHub
URL: https://github.com/an0ncer/pwa-sitemap
Owner: AN0NCER
License: mit
Created: 2023-09-17T21:39:00.000Z (over 1 year ago)
Default Branch: main
Last Pushed: 2023-09-17T21:50:45.000Z (over 1 year ago)
Last Synced: 2024-12-04T08:15:53.781Z (2 months ago)
Topics: nodejs, puppeteer, sitemap, web-crawling, web-scraper
Language: JavaScript
Homepage:
Size: 18.6 KB
Stars: 0
Watchers: 1
Forks: 0
Open Issues: 0
Metadata Files:
- Readme: README.md
- License: LICENSE

Awesome Lists containing this project

README

# Web Scraper с использованием Puppeteer

Этот скрипт представляет собой пример веб-скрапера, который использует библиотеку Puppeteer для сканирования веб-сайта и создания sitemap.xml. Скрипт может быть использован для анализа структуры сайта и получения списка URL-адресов для индексации.

## Зависимости

Для использования этого скрипта вам понадобятся следующие зависимости:

- [Puppeteer](https://github.com/puppeteer/puppeteer): Библиотека для управления браузером Chrome/Chromium с помощью JavaScript.
- [Node.js](https://nodejs.org/): Среда выполнения JavaScript на сервере.

## Установка

1. Установите Node.js, если он еще не установлен на вашем компьютере.
2. Склонируйте данный репозиторий с помощью команды `git clone`.
3. В терминале перейдите в папку с репозиторием и выполните команду `npm install` для установки зависимостей.

## Использование

1. Запустите скрипт с помощью команды `node scraper.js`.
2. Скрипт начнет сканирование сайта с указанной главной страницы или с URL-адресов, которые ожидают обработки.
3. Во время сканирования скрипт выводит информацию о прогрессе и посещенных страницах.
4. Когда сканирование завершено или вы останавливаете его (нажмите `Ctrl + C`), скрипт создаст файл `sitemap.xml`, который содержит список URL-адресов сайта в формате sitemap.

## Файлы

- `scraper.js`: Главный файл скрипта.
- `visitedLinks.json`: Список посещенных URL.
- `urlsToProcess.json`: Список URL для обработки.
- `sitemap.xml`: Сгенерированный файл sitemap.

## Примечания

- Этот скрипт сконфигурирован для сканирования сайта, начиная с главной страницы `https://an0ncer.github.io/`. Вы можете изменить начальную страницу в коде, если необходимо сканировать другой сайт.
- Скрипт сохраняет список посещенных URL и URL для обработки в файлы, чтобы можно было продолжить сканирование позже.
- Уровень приоритета (`priority`) для каждого URL в sitemap.xml установлен на 0.8, но вы можете настроить это значение в соответствии с вашими требованиями.

## Лицензия

Этот скрипт распространяется под лицензией MIT. Подробности смотрите в файле [LICENSE](LICENSE).