Ecosyste.ms: Awesome

An open API service indexing awesome lists of open source software.

Awesome Lists | Featured Topics | Projects

https://github.com/svetlana21/az_morphology

Извлечение таблиц словоизменения из азербайджанского викисловаря.
https://github.com/svetlana21/az_morphology

Last synced: 11 days ago
JSON representation

Извлечение таблиц словоизменения из азербайджанского викисловаря.

Awesome Lists containing this project

README

        

# azwiktionary
Извлечение таблиц словоизменения из азербайджанского викисловаря. Работа с корпусом предложений на азербайджанском языке.

/corpus:

corpus_processing.py - обработка корпуса предложений (чистка и создание корпуса слов (types))

corpus_types.txt - корпус уникальных слов

/evaluation_v1 - скрипт и данные для оценки результатов.

/evaluation_v2 - скрипт и данные для оценки результатов (с изменением исходных таблиц словоизменения: оставлены только те словоформы, что встретились в корпусе), позволяет оценить количество правильных парадигм (неполных, так как не все формы могут быть представлены в корпусе)

/linguistica - скрипт для получения сигнатур с помощью библиотеки Linguistica

/wiki_tables - скрипты и данные для выкачивания таблиц словоизменения из Викисловаря:

download_tables.py - скрипт для загрузки таблиц

verbs.txt - список всех глаголов, статьи о которых есть в викисловаре

nouns.txt - список существительных

verbs.json - таблицы в формате json

nouns.json - таблицы в формате json

Статистика:

Глаголы (леммы): 433

Глаголы (формы): 28578

Существительные (леммы): 1286

Существительные (формы): 19776

lemmas_to_lcss.py - замена лемм на наибольшие общие подстроки форм в словарях, созданных с помощью download_tables.py

verbs_lcs.json - словари из verbs.json с НОП вместо лемм

nouns_lcs.json - словари из nouns.json с НОП вместо лемм

compare.py - скрипт для сравнения корпуса с таблицами - сколько словоформ встретилось, сколько лемм.

Результаты:

Уникальных слов в корпусе: 117158

Словоформ в wiki: 48354

Словоформ из wiki, которые есть в корпусе: 7093

Лексем в wiki: 1717

Лексем из wiki, которые есть в корпусе: 1279

Полных парадигм из wiki, которые есть в корпусе: 41

words_with_arcs.txt - данные из дампа fst.

words_with_border.csv - результаты FST_morphology.