https://github.com/nevmenandr/bashkir-corpus
Тексты для корпуса башкирского языка
https://github.com/nevmenandr/bashkir-corpus
bashkir corpus corpus-data minority-language texts
Last synced: about 2 months ago
JSON representation
Тексты для корпуса башкирского языка
- Host: GitHub
- URL: https://github.com/nevmenandr/bashkir-corpus
- Owner: nevmenandr
- License: gpl-3.0
- Created: 2018-11-10T19:34:52.000Z (over 6 years ago)
- Default Branch: master
- Last Pushed: 2018-11-25T18:32:10.000Z (over 6 years ago)
- Last Synced: 2025-04-14T11:13:48.908Z (about 2 months ago)
- Topics: bashkir, corpus, corpus-data, minority-language, texts
- Language: Python
- Homepage:
- Size: 96.9 MB
- Stars: 6
- Watchers: 3
- Forks: 2
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
- License: LICENSE
Awesome Lists containing this project
- bashkir-language-resources - Текстовая коллекция
README
# Башкирский корпус
Тексты для корпуса башкирского языка
# Текущий объем коллекции
20934729 токенов в текстах со случайно переставленными предложениями
## Правовые вопросы
В этом репозитории хранятся лицензионно чистые тексты. Они либо не охраняются авторским правом (тексты законов), либо срок ограничений, связанных с авторским правом, истек. Такие тексты хранятся в директории [public_domain](https://github.com/nevmenandr/bashkir-corpus/tree/master/public_domain). Метаданные к этим текстам лежат в [таблице](https://github.com/nevmenandr/bashkir-corpus/blob/master/public_domain_metatable.tsv).
Другая категория текстов хранится в директории [shuffled_texts](https://github.com/nevmenandr/bashkir-corpus/tree/master/shuffled_texts). Это тексты, которые получились случайной перестановкой предложений в исходных произведениях, которые подпадали под ограничения, связанные с авторским правом. Так как целостность таких текстов нарушена, они уже не могут считаться объектами авторского права, но по-прежнему представляют интерес для компьютерно-лингвистической обработки.
## Как добавить тексты в корпус
Тексты добавляются с помощью инструмента, который называется pull-request.
### Видео про pull-request
Несколько видеороликов, которые объясняют, что это и как это сделать:
* [1:22 Pull Request обновляем репозиторий наработками другого разработчика](https://www.youtube.com/watch?v=QFTerFRaxvY)
* [17:21 Как Отправить Pull Request на GitHub](https://www.youtube.com/watch?v=do6YsARPl1Y)
* [16:31 Пул реквест на github](https://www.youtube.com/watch?v=Wz7RDh6CylI)### Подробное объяснение с картинками
[Здесь пошагово объясняется, как сделать pull-request, начиная с регистрации на github](https://github.com/urfu-2015/guides/blob/master/how-to-pull-request.md)