https://github.com/lmashik/scrapy_parser_pep
Парсер документов PEP8 (scrapy)
https://github.com/lmashik/scrapy_parser_pep
python37 scrapy
Last synced: 9 months ago
JSON representation
Парсер документов PEP8 (scrapy)
- Host: GitHub
- URL: https://github.com/lmashik/scrapy_parser_pep
- Owner: lmashik
- Created: 2023-06-10T15:30:19.000Z (almost 3 years ago)
- Default Branch: main
- Last Pushed: 2023-11-08T21:12:11.000Z (over 2 years ago)
- Last Synced: 2025-06-12T22:34:12.446Z (10 months ago)
- Topics: python37, scrapy
- Language: Python
- Homepage:
- Size: 35.2 KB
- Stars: 0
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# Парсинг документов PEP
----------------------------------------
## Описание
Данный парсер поможет собрать статусы документов PEP, а также получить
информацию, сколько из них в каждом статусе.
----------------------------------------
## Используемые технологии
- Python 3.7
- Scrapy (фреймворк для парсинга)
----------------------------------------
## Установка
1. Клонируйте репозиторий
```bash
git clone https://github.com/lmashik/scrapy_parser_pep.git
```
2. Создайте и активируйте виртуальное окружение
```bash
python3.7 -m venv venv
```
* Если у вас Linux/macOS
```bash
source venv/bin/activate
```
* Если у вас windows
```bash
source venv/scripts/activate
```
3. Обновите pip до последней версии
```bash
python3 -m pip install --upgrade pip
```
4. Установите зависимости из файла requirements.txt
```bash
pip install -r requirements.txt
```
----------------------------------------
## Запуск
Для запуска сбора информации о документах PEP, отправьте "паука" pep:
```bash
scrapy crawl pep
```
После завершения сбора информации в папке results появится два файла:
* pep_yyyy-mm-ddThh-mm-ss.csv - все документы PEP с их статусами
* status_summary_yyyy-mm-dd_hh-mm-ss.csv - количество документов PEP
в каждом статусе
----------------------------------------
## Автор проекта
Лапикова Мария Дмитриевна
mashik_p@mail.ru