Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/svetlana21/az_morphology
Извлечение таблиц словоизменения из азербайджанского викисловаря.
https://github.com/svetlana21/az_morphology
Last synced: 11 days ago
JSON representation
Извлечение таблиц словоизменения из азербайджанского викисловаря.
- Host: GitHub
- URL: https://github.com/svetlana21/az_morphology
- Owner: svetlana21
- Created: 2017-05-15T01:17:55.000Z (over 7 years ago)
- Default Branch: master
- Last Pushed: 2017-12-31T05:54:02.000Z (over 6 years ago)
- Last Synced: 2024-05-13T00:35:47.121Z (4 months ago)
- Language: Python
- Size: 8.41 MB
- Stars: 0
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# azwiktionary
Извлечение таблиц словоизменения из азербайджанского викисловаря. Работа с корпусом предложений на азербайджанском языке./corpus:
corpus_processing.py - обработка корпуса предложений (чистка и создание корпуса слов (types))
corpus_types.txt - корпус уникальных слов
/evaluation_v1 - скрипт и данные для оценки результатов.
/evaluation_v2 - скрипт и данные для оценки результатов (с изменением исходных таблиц словоизменения: оставлены только те словоформы, что встретились в корпусе), позволяет оценить количество правильных парадигм (неполных, так как не все формы могут быть представлены в корпусе)
/linguistica - скрипт для получения сигнатур с помощью библиотеки Linguistica
/wiki_tables - скрипты и данные для выкачивания таблиц словоизменения из Викисловаря:
download_tables.py - скрипт для загрузки таблиц
verbs.txt - список всех глаголов, статьи о которых есть в викисловаре
nouns.txt - список существительных
verbs.json - таблицы в формате json
nouns.json - таблицы в формате jsonСтатистика:
Глаголы (леммы): 433
Глаголы (формы): 28578
Существительные (леммы): 1286
Существительные (формы): 19776
lemmas_to_lcss.py - замена лемм на наибольшие общие подстроки форм в словарях, созданных с помощью download_tables.py
verbs_lcs.json - словари из verbs.json с НОП вместо лемм
nouns_lcs.json - словари из nouns.json с НОП вместо лемм
compare.py - скрипт для сравнения корпуса с таблицами - сколько словоформ встретилось, сколько лемм.
Результаты:
Уникальных слов в корпусе: 117158
Словоформ в wiki: 48354
Словоформ из wiki, которые есть в корпусе: 7093
Лексем в wiki: 1717
Лексем из wiki, которые есть в корпусе: 1279
Полных парадигм из wiki, которые есть в корпусе: 41
words_with_arcs.txt - данные из дампа fst.
words_with_border.csv - результаты FST_morphology.