Ecosyste.ms: Awesome

An open API service indexing awesome lists of open source software.

Awesome Lists | Featured Topics | Projects

https://github.com/nankuf/online_library

Парсер онлайн библиотеки tululu.org
https://github.com/nankuf/online_library

bs4 python

Last synced: about 1 month ago
JSON representation

Парсер онлайн библиотеки tululu.org

Awesome Lists containing this project

README

        

# Парсер книг с сайта tululu.org

Скрипт скачивает книги и обложку к ним с онлайн-библиотеки [tululu.org](https://tululu.org).
Так же есть возможность собрать книги в json, не скачивая их на жесткий диск.

## Как установить

1. Скачайте проект:

```commandline
git clone https://github.com/NankuF/online_library.git
```

2. Перейдите в директорию:

```commandline
cd online_library
```
3. Создайте виртуальное окружение:

```commandline
python -m venv venv
```

4. Активируйте виртуальное окружение:

Unix
```commandline
. ./venv/bin/activate
```
Windows
```commandline
. .\venv\Scripts\activate
```
5. Установите зависимости:

```commandline
pip install -r requirements.txt
```

5. Запустите скрипт:

`--start_page` - с какой страницы начать скачивание книг.

`--end_page` - какую страницу с книгами скачать последней.

`--dest_folder` - путь к каталогу с результатами парсинга: картинкам, книгам, JSON.

`--skip_imgs` - не скачивать картинки.

`--skip_txt` - не скачивать книги.

`--json_path` - указать свой путь к *.json файлу с результатами.

Варианты:

Скачать одну страницу с книгами - первую. Файлы, изображения и json-файлы сохранить в папку "parse_result".
Txt файлы в "parse_result/books", обложки в "parse_result/images", json в корень "parse_result".
```commandline
python main.py --start_page 1 --end_page 1
```
Скачать две страницы с книгами - первую и вторую.
```commandline
python main.py --start_page 1 --end_page 2
```
Скачать все страницы с книгами.
```commandline
python main.py --start_page 1
```
Скачать с 60 страницы до конца каталога.
```commandline
python main.py --start_page 60
```
Скачать 2 страницы, книги и обложки поместить в папку "result/books" и "result/images", а json-файлы в папку "json".
```commandline
python main.py --start_page 1 --end_page 2 --dest_folder "result" --json_path "json"
```
Скачать 5 страницы, книги и обложки **не скачивать**, а json-файлы сохранить в папке "json".
```commandline
python main.py --start_page 1 --end_page 5 --skip_txt --skip_imgs --json_path "json"
```