https://github.com/redboo/ses_parser

Скрипт для парсинга файла «Советский Энциклопедический Словарь»
https://github.com/redboo/ses_parser

parser python

Last synced: about 1 year ago
JSON representation

Скрипт для парсинга файла «Советский Энциклопедический Словарь»

Host: GitHub
URL: https://github.com/redboo/ses_parser
Owner: redboo
License: gpl-3.0
Created: 2023-04-27T06:35:36.000Z (about 3 years ago)
Default Branch: main
Last Pushed: 2023-05-11T13:13:21.000Z (about 3 years ago)
Last Synced: 2025-02-28T10:36:34.896Z (over 1 year ago)
Topics: parser, python
Language: Python
Homepage:
Size: 9.32 MB
Stars: 0
Watchers: 1
Forks: 0
Open Issues: 0
Metadata Files:
- Readme: README.md
- License: LICENSE

Awesome Lists containing this project

README

# Описание

Этот репозиторий содержит скрипт `ses_parser.py`, который предназначен для парсинга текстового файла «Советский Энциклопедический Словарь» и разбивки его на несколько файлов в формате Markdown.

## Как использовать

1. Установите Python 3, если он еще не установлен на вашем компьютере.
2. Скачайте репозиторий с помощью команды `git clone https://github.com/redboo/ses_parser.git` или скачайте zip-архив и распакуйте его.
3. Поместите текстовый файл `ses.txt` или `ses.txt.gz`, который вы хотите разбить, в папку репозитория.
4. Запустите скрипт: `python ses_parser.py`.
5. В папке `dist` появятся файлы с разбитым текстом в формате Markdown.

## Дополнительная информация

- Скрипт обрабатывает только файл «Советский Энциклопедический Словарь».
- Скрипт разбивает текст на файлы с именами, соответствующими заголовкам первого уровня. Если встречаются одинаковые заголовки, к имени добавляется порядковый номер в круглых скобках.
- После разбиения текста на файлы все символы верхнего регистра в заголовках заменяются на символы нижнего регистра.
- Если строка оканчивается дефисом, то он будет удален при записи в файл.
- Если папка `dist` уже существует, то она будет удалена перед выполнением скрипта.

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Awesome

https://github.com/redboo/ses_parser

Awesome Lists containing this project

README