Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/an0ncer/pwa-sitemap
Репозиторий с веб-скрапером на Node.js и Puppeteer. Создайте sitemap.xml для индексации веб-сайтов.
https://github.com/an0ncer/pwa-sitemap
nodejs puppeteer sitemap web-crawling web-scraper
Last synced: about 1 month ago
JSON representation
Репозиторий с веб-скрапером на Node.js и Puppeteer. Создайте sitemap.xml для индексации веб-сайтов.
- Host: GitHub
- URL: https://github.com/an0ncer/pwa-sitemap
- Owner: AN0NCER
- License: mit
- Created: 2023-09-17T21:39:00.000Z (over 1 year ago)
- Default Branch: main
- Last Pushed: 2023-09-17T21:50:45.000Z (over 1 year ago)
- Last Synced: 2024-05-21T06:01:46.168Z (8 months ago)
- Topics: nodejs, puppeteer, sitemap, web-crawling, web-scraper
- Language: JavaScript
- Homepage:
- Size: 18.6 KB
- Stars: 1
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
- License: LICENSE
Awesome Lists containing this project
README
# Web Scraper с использованием Puppeteer
Этот скрипт представляет собой пример веб-скрапера, который использует библиотеку Puppeteer для сканирования веб-сайта и создания sitemap.xml. Скрипт может быть использован для анализа структуры сайта и получения списка URL-адресов для индексации.
## Зависимости
Для использования этого скрипта вам понадобятся следующие зависимости:
- [Puppeteer](https://github.com/puppeteer/puppeteer): Библиотека для управления браузером Chrome/Chromium с помощью JavaScript.
- [Node.js](https://nodejs.org/): Среда выполнения JavaScript на сервере.## Установка
1. Установите Node.js, если он еще не установлен на вашем компьютере.
2. Склонируйте данный репозиторий с помощью команды `git clone`.
3. В терминале перейдите в папку с репозиторием и выполните команду `npm install` для установки зависимостей.## Использование
1. Запустите скрипт с помощью команды `node scraper.js`.
2. Скрипт начнет сканирование сайта с указанной главной страницы или с URL-адресов, которые ожидают обработки.
3. Во время сканирования скрипт выводит информацию о прогрессе и посещенных страницах.
4. Когда сканирование завершено или вы останавливаете его (нажмите `Ctrl + C`), скрипт создаст файл `sitemap.xml`, который содержит список URL-адресов сайта в формате sitemap.## Файлы
- `scraper.js`: Главный файл скрипта.
- `visitedLinks.json`: Список посещенных URL.
- `urlsToProcess.json`: Список URL для обработки.
- `sitemap.xml`: Сгенерированный файл sitemap.## Примечания
- Этот скрипт сконфигурирован для сканирования сайта, начиная с главной страницы `https://an0ncer.github.io/`. Вы можете изменить начальную страницу в коде, если необходимо сканировать другой сайт.
- Скрипт сохраняет список посещенных URL и URL для обработки в файлы, чтобы можно было продолжить сканирование позже.
- Уровень приоритета (`priority`) для каждого URL в sitemap.xml установлен на 0.8, но вы можете настроить это значение в соответствии с вашими требованиями.## Лицензия
Этот скрипт распространяется под лицензией MIT. Подробности смотрите в файле [LICENSE](LICENSE).