Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/nankuf/online_library
Парсер онлайн библиотеки tululu.org
https://github.com/nankuf/online_library
bs4 python
Last synced: about 1 month ago
JSON representation
Парсер онлайн библиотеки tululu.org
- Host: GitHub
- URL: https://github.com/nankuf/online_library
- Owner: NankuF
- Created: 2022-07-13T08:31:00.000Z (over 2 years ago)
- Default Branch: master
- Last Pushed: 2022-08-03T10:04:54.000Z (over 2 years ago)
- Last Synced: 2023-03-08T13:39:28.826Z (almost 2 years ago)
- Topics: bs4, python
- Language: Python
- Homepage:
- Size: 31.3 KB
- Stars: 0
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# Парсер книг с сайта tululu.org
Скрипт скачивает книги и обложку к ним с онлайн-библиотеки [tululu.org](https://tululu.org).
Так же есть возможность собрать книги в json, не скачивая их на жесткий диск.## Как установить
1. Скачайте проект:
```commandline
git clone https://github.com/NankuF/online_library.git
```2. Перейдите в директорию:
```commandline
cd online_library
```
3. Создайте виртуальное окружение:```commandline
python -m venv venv
```4. Активируйте виртуальное окружение:
Unix
```commandline
. ./venv/bin/activate
```
Windows
```commandline
. .\venv\Scripts\activate
```
5. Установите зависимости:```commandline
pip install -r requirements.txt
```5. Запустите скрипт:
`--start_page` - с какой страницы начать скачивание книг.
`--end_page` - какую страницу с книгами скачать последней.
`--dest_folder` - путь к каталогу с результатами парсинга: картинкам, книгам, JSON.
`--skip_imgs` - не скачивать картинки.
`--skip_txt` - не скачивать книги.
`--json_path` - указать свой путь к *.json файлу с результатами.Варианты:
Скачать одну страницу с книгами - первую. Файлы, изображения и json-файлы сохранить в папку "parse_result".
Txt файлы в "parse_result/books", обложки в "parse_result/images", json в корень "parse_result".
```commandline
python main.py --start_page 1 --end_page 1
```
Скачать две страницы с книгами - первую и вторую.
```commandline
python main.py --start_page 1 --end_page 2
```
Скачать все страницы с книгами.
```commandline
python main.py --start_page 1
```
Скачать с 60 страницы до конца каталога.
```commandline
python main.py --start_page 60
```
Скачать 2 страницы, книги и обложки поместить в папку "result/books" и "result/images", а json-файлы в папку "json".
```commandline
python main.py --start_page 1 --end_page 2 --dest_folder "result" --json_path "json"
```
Скачать 5 страницы, книги и обложки **не скачивать**, а json-файлы сохранить в папке "json".
```commandline
python main.py --start_page 1 --end_page 5 --skip_txt --skip_imgs --json_path "json"
```