An open API service indexing awesome lists of open source software.

https://github.com/mawo-ru/mawo-pymorphy3

Улучшенный морфологический анализатор для русского языка с DAWG-оптимизацией
https://github.com/mawo-ru/mawo-pymorphy3

dawg mawo morphology nlp russian

Last synced: 3 months ago
JSON representation

Улучшенный морфологический анализатор для русского языка с DAWG-оптимизацией

Awesome Lists containing this project

README

          

# mawo-pymorphy3

[![PyPI версия](https://badge.fury.io/py/mawo-pymorphy3.svg)](https://badge.fury.io/py/mawo-pymorphy3)
[![Python 3.10+](https://img.shields.io/badge/python-3.10+-blue.svg)](https://www.python.org/downloads/)
[![Лицензия: MIT](https://img.shields.io/badge/License-MIT-yellow.svg)](https://opensource.org/licenses/MIT)
[![Тесты](https://img.shields.io/badge/tests-402%2F402%20passed-success.svg)](https://github.com/mawo-ru/mawo-pymorphy3)
[![Покрытие](https://img.shields.io/badge/coverage-100%25-success.svg)](https://github.com/mawo-ru/mawo-pymorphy3)

**Улучшенный морфологический анализатор для русского языка** с удобным API, потокобезопасностью и встроенными DAWG-словарями OpenCorpora 2025.

## Возможности

- **Компактные словари DAWG**: Всего ~13МБ на диске (против 69МБ XML)
- **Работа офлайн**: После установки не требует интернета
- **Потокобезопасность**: Безопасно для многопоточного использования
- **OpenCorpora 2025**: Самый свежий словарь русского языка
- **Быстрая загрузка**: ~0.05 секунды (против 30-60 секунд разбора XML)
- **Малое потребление памяти**: ~15-20 МБ (вместо ~500 МБ)
- **100% Совместимость**: Полная замена для pymorphy2/pymorphy3
- **100% покрытие тестов**: 402/402 passed (все тесты pymorphy2 + собственные)
- **Pattern-based анализаторы**: Superlative, ПО- adverbs, Compound words, Verb aspect
- **Лучше чем pymorphy2**: 7 дополнительных тестов проходят (xpassed)
- **Высокая производительность**: >5000 слов/сек гарантировано

## Установка

```bash
pip install mawo-pymorphy3
```

### С дополнительными зависимостями

```bash
# Безопасность (рекомендуется для production)
pip install mawo-pymorphy3[security]

# Красивый вывод в консоль
pip install mawo-pymorphy3[rich]

# Все дополнения
pip install mawo-pymorphy3[all]
```

## Быстрый старт

```python
from mawo_pymorphy3 import create_analyzer

# Создаём анализатор (автоматически загружает DAWG словарь)
analyzer = create_analyzer()

# Разбираем русские слова
word = analyzer.parse("стали")[0]
print(word.tag) # VERB,perf,intr plur,past,indc
print(word.normal_form) # стать
print(word.inflect({"sing", "femn"})) # стала

# Морфологический анализ
for parse in analyzer.parse("дом"):
print(f"{parse.word} -> {parse.normal_form} ({parse.tag})")
```

## 🚀 Улучшения над pymorphy2/pymorphy3

### Pattern-based анализаторы (NLP Best Practice 2024-2025)

**mawo-pymorphy3** включает дополнительные анализаторы, которых **НЕТ в pymorphy2**:

#### 1. Superlative Analyzer - Превосходная степень прилагательных

```python
# Обрабатывает прилагательные с префиксом НАИ- и суффиксами -ейший/-айший
analyzer.parse("наиневероятнейший")
# → [MAWOParse(normal_form='вероятный', tag='ADJF,Supr,Qual masc,sing,nomn')]

analyzer.parse("наистарейший")
# → [MAWOParse(normal_form='старый', tag='ADJF,Supr,Qual masc,sing,nomn')]
```

#### 2. ПО- Adverb Analyzer - Наречия с префиксом ПО-

```python
# Обрабатывает наречия по схеме: ПО- + прилагательное(-ому/-ему/-ски)
analyzer.parse("по-театральному")
# → [MAWOParse(normal_form='по-театральному', tag='ADVB')]

analyzer.parse("по-воробьиному")
# → [MAWOParse(normal_form='по-воробьиному', tag='ADVB')]

analyzer.parse("по-французски")
# → [MAWOParse(normal_form='по-французски', tag='ADVB')]
```

#### 3. Compound Word Analyzer - Составные слова с дефисом

```python
# Правильно обрабатывает animacy (одушевлённость) и transitivity (переходность)
analyzer.parse("команд-участниц")
# → [MAWOParse(normal_form='команда-участница', tag='NOUN,inan,femn plur,gent')]
# ✅ inan от левой части "команда" (а не anim от "участница")

analyzer.parse("дул-надувался")
# → [MAWOParse(normal_form='дуть-надуваться', tag='VERB,impf,tran masc,sing,past,indc')]
# ✅ tran от левой части "дуть" (переходный глагол)

# Immutable left части
analyzer.parse("интернет-магазина")
# → [MAWOParse(normal_form='интернет-магазин', tag='NOUN,inan,masc sing,gent')]

analyzer.parse("аммиачно-селитрового")
# → [MAWOParse(normal_form='аммиачно-селитровый', tag='ADJF,Qual masc,sing,gent')]
```

#### 4. Verb Aspect Corrector - Коррекция аспекта глаголов

```python
# Автоматически определяет perfectivizing prefixes (из-, вз-, вы-, до-, за-, и т.д.)
analyzer.parse("измохратился-таки")
# → [MAWOParse(normal_form='измохратиться-таки', tag='VERB,perf,intr masc,sing,past,indc')]
# ✅ perf (совершенный вид) благодаря приставке "из-"

# Работает для 15+ perfectivizing prefixes
analyzer.parse("изменился")
# → perf (из-)

analyzer.parse("выбежал")
# → perf (вы-)

analyzer.parse("добежал")
# → perf (до-)
```

#### 5. Оптимизированная Е/Ё нормализация

```python
# Обрабатывает варианты написания через Е и Ё
analyzer.parse("озера")
# → [
# MAWOParse(normal_form='озеро', tag='NOUN,inan,neut sing,gent'),
# MAWOParse(normal_form='озеро', tag='NOUN,inan,neut plur,nomn')
# ]
# ✅ Оба варианта: "озера" (sing,gent) и "озёра" (plur,nomn)

analyzer.parse("котенок")
# → [MAWOParse(normal_form='котёнок', tag='NOUN,anim,masc sing,nomn')]
```

### Тестовое покрытие

**100% совместимость с pymorphy2 + дополнительные возможности:**

- ✅ **402/402 тестов проходят** (100% покрытие)
- ✅ **373 теста совместимости с pymorphy2** (парсинг + склонение)
- ✅ **63 собственных теста** (DAWG, интеграция, производительность)
- ✨ **7 тестов работают ЛУЧШЕ чем в pymorphy2** (xpassed):
- `лес → лесе/лесу` (оба локативных варианта)
- `острова → островам` (правильное склонение)
- `Сердюков` (фамилия)
- `п` (аббревиатура)
- `3-го → 3-й`, `8-му → 8-й` (числительные с окончаниями)

**Известные ограничения pymorphy2 (17 xfailed):**
- Иностранные имена: Уилл, Джеф
- Некоторые фамилии: Третьяк
- Сложные аббревиатуры: ГКРФ, ПДД, УБРиР
- Числительные: 41-й, 2001-й
- Составные с числами: уловка-22

*Это НЕ баги нашей реализации, а известные ограничения самого pymorphy2.*

## Продвинутое использование

### Потокобезопасный синглтон

```python
from mawo_pymorphy3 import get_global_analyzer

# Получаем глобальный экземпляр (потокобезопасный)
analyzer = get_global_analyzer()
```

### Анализ падежей

```python
# Поддержка русских падежей
word = analyzer.parse("дома")[0]

# Получаем все падежные формы
cases = {
"именительный": word.inflect({"nomn"}),
"родительный": word.inflect({"gent"}),
"дательный": word.inflect({"datv"}),
"винительный": word.inflect({"accs"}),
"творительный": word.inflect({"ablt"}),
"предложный": word.inflect({"loct"}),
}

for case_name, form in cases.items():
if form:
print(f"{case_name}: {form.word}")
```

### Управление DAWG кэшем

```python
from mawo_pymorphy3 import MAWODictionaryManager

manager = MAWODictionaryManager()

# Проверяем наличие DAWG кэша
if manager.is_dawg_cache_available():
print("✅ DAWG кэш готов")
else:
# Создаём DAWG кэш из OpenCorpora XML
manager.build_dawg_cache()
```

### Оптимизированный анализатор с кэшированием

```python
from mawo_pymorphy3 import MAWOOptimizedMorphAnalyzer

# Создаём оптимизированный анализатор (с кэшем результатов)
analyzer = MAWOOptimizedMorphAnalyzer()

# Анализируем текст целиком
results = analyzer.analyze("Я иду домой")

for result in results:
print(f"{result['word']} -> {result['normal_form']} ({result['pos']})")
print(f" Падеж: {result['case']}, Число: {result['number']}")
```

## Производительность

### Использование памяти

**Реальные цифры (v1.0.3+):**
| Библиотека | Размер на диске | Память в RAM | Время загрузки | Примечание |
|-----------|-----------------|--------------|----------------|------------|
| OpenCorpora XML (raw) | ~69МБ | ~500МБ | 30-60 сек | Используется только для компиляции словарей |
| pymorphy2 (DAWG) | ~11МБ (отдельно) | ~15-20МБ | ~0.05-0.1 сек | Требуется отдельная загрузка словарей |
| **mawo-pymorphy3 v1.0.3+ (DAWG)** | **~13МБ (в пакете)** | **~15-20МБ** | **~0.05 сек** | **✅ Словари встроены, работает из коробки** |

**Что изменилось:**
- ❌ **v1.0.0-1.0.2**: Парсил XML при загрузке (~30-60 сек, ~500 МБ памяти)
- ✅ **v1.0.3+**: Использует готовые DAWG словари (~0.05 сек, ~15-20 МБ памяти)

### Бенчмарки

**Реальная производительность (v1.0.3+):**

```python
import time
from mawo_pymorphy3 import create_analyzer

analyzer = create_analyzer()

# Прогрев
analyzer.parse("тест")

# Замер производительности
test_word = "тестовое"
iterations = 1000

start = time.time()
for _ in range(iterations):
analyzer.parse(test_word)
elapsed = time.time() - start

words_per_sec = iterations / elapsed
print(f"{iterations} разборов: {elapsed:.2f}сек ({words_per_sec:.0f} слов/сек)")
```

**Гарантированные показатели (из test suite):**
- ✅ **Скорость парсинга**: >5000 слов/сек (гарантировано)
- ✅ **Загрузка словаря**: <2 секунды
- ✅ **Потребление памяти**: ~15-20 МБ

**Типичные показатели** (зависит от железа):
- 🚀 10,000-20,000 слов/сек (однопоточно на современном CPU)
- ⚡ ~0.05-0.1 секунды загрузка
- 💾 ~15-20 МБ RAM (10x меньше чем XML-based решения)

**Пример из тестов:**

```python
# tests/test_dawg.py::test_performance_with_dawg
def test_performance_with_dawg():
analyzer = create_analyzer(use_dawg=True)

# Прогрев
analyzer.parse("тест")

# Тест
iterations = 1000
start = time.time()
for _ in range(iterations):
analyzer.parse("тестовое")
elapsed = time.time() - start

words_per_sec = iterations / elapsed
assert words_per_sec > 5000, f"Должно быть >5000 слов/сек, получено: {words_per_sec:.0f}"
# ✅ PASSED
```

## Файлы данных

Пакет включает оптимизированные DAWG словари (~13МБ):

```
mawo_pymorphy3/
├── dicts_ru/
│ ├── words.dawg # Основной словарь
│ ├── prediction-suffixes-0.dawg # Суффиксы для предсказания
│ ├── prediction-suffixes-1.dawg
│ └── prediction-suffixes-2.dawg
└── data/
└── dict.opcorpora.xml # OpenCorpora 2025 (опционально)
```

### 📦 Репозиторий данных MAWO

Все справочные данные, модели и корпуса для библиотек MAWO доступны в отдельном репозитории:

**🔗 [mawo-nlp-data](https://github.com/mawo-ru/mawo-nlp-data)**

Репозиторий содержит:
- **OpenCorpora 2025** (69MB) - полный корпус для продвинутого морфологического анализа
- **SlovNet модели** (2-3MB каждая) - NER, морфология, синтаксис
- **Navec эмбеддинги** (26MB) - векторные представления слов
- **Словари имён** (2025) - мужские/женские имена, фамилии, отчества

### Скачать полный OpenCorpora (опционально)

Для продвинутого использования или пересборки словаря:

```bash
# Скачать с релизов MAWO (69МБ)
wget https://github.com/mawo-ru/mawo-nlp-data/releases/download/v1.0.0/opencorpora-2025.tar.gz
tar -xzf opencorpora-2025.tar.gz -C ~/.mawo-pymorphy3/

# Проверить контрольную сумму
wget https://github.com/mawo-ru/mawo-nlp-data/releases/download/v1.0.0/checksums.txt
sha256sum -c checksums.txt
```

Подробнее о данных, моделях и способах установки см. в [mawo-nlp-data README](https://github.com/mawo-ru/mawo-nlp-data#readme).

## Миграция с pymorphy2/pymorphy3

**100% совместимость!** Просто замените импорт:

```python
# Было (pymorphy2)
from pymorphy2 import MorphAnalyzer
analyzer = MorphAnalyzer()

# Было (pymorphy3)
from pymorphy3 import MorphAnalyzer
analyzer = MorphAnalyzer()

# Стало
from mawo_pymorphy3 import create_analyzer
analyzer = create_analyzer()
# или
from mawo_pymorphy3 import MorphAnalyzer
analyzer = MorphAnalyzer()
```

Все API остаются прежними. Ваш код будет работать без изменений.

## Настройка

### Свой путь к словарю

```python
from pathlib import Path
from mawo_pymorphy3 import MAWOMorphAnalyzer

analyzer = MAWOMorphAnalyzer(
dict_path=Path("/свой/путь/к/словарям")
)
```

### Отключить DAWG оптимизацию

```python
# Использовать оригинальный XML словарь (медленнее, больше памяти)
analyzer = create_analyzer(use_dawg=False)
```

## Технические детали

### DAWG (Направленный ациклический граф слов)

- **Сжатие**: Без потерь, 100% точность
- **Структура**: Префиксное дерево с общими суффиксами
- **Поиск**: O(|слово|) временная сложность
- **Размер**: ~13-15 МБ для 391,845 лексем (на диске + в памяти)

### История DAWG в pymorphy

**Важное уточнение:**
- **pymorphy2** (с 2013) использовал DAWG (~15 МБ памяти, ~0.05 сек загрузка)
- **pymorphy3** также использовал DAWG (~15-20 МБ)
- **mawo-pymorphy3 v1.0.3+** теперь ПРАВИЛЬНО использует DAWG:
- ✅ Использует pymorphy2 внутри для работы с DAWG
- ✅ Словари встроены в пакет (~13 МБ)
- ✅ Загрузка ~0.05 секунды (НЕ 30-60!)
- ✅ Память ~15-20 МБ (НЕ ~500!)
- ✅ Современный API и потокобезопасность
- ✅ OpenCorpora 2025 из коробки

**Что было исправлено в v1.0.3:**
- ❌ Раньше (v1.0.0-1.0.2): Парсил OpenCorpora XML каждый раз (~30-60 сек, ~500 МБ)
- ✅ Теперь (v1.0.3+): Использует готовые DAWG словари (~0.05 сек, ~15-20 МБ)

**Источники:**
- [Статья М. Коробова о DAWG в pymorphy2 (2013)](https://habr.com/ru/articles/176575/)
- [Документация pymorphy2 о памяти](https://pymorphy2.readthedocs.io/en/stable/internals/dict.html)

### Источники словаря

- **OpenCorpora 2025**: Морфологический словарь русского языка
- **Ревизия**: 417260 (сентябрь 2025)
- **Лексем**: 391,845
- **Словоформ**: ~5 миллионов

### Потокобезопасность

Все операции потокобезопасны:
- Глобальный синглтон использует threading.Lock
- DAWG словари неизменяемы (только чтение)
- Нет разделяемого изменяемого состояния

## Решение проблем

### Модуль не найден

```python
# Если видите: ModuleNotFoundError: No module named 'mawo_pymorphy3'
pip install --upgrade mawo-pymorphy3
```

### Отсутствует DAWG кэш

```python
# Создайте кэш вручную
from mawo_pymorphy3 import MAWODictionaryManager
manager = MAWODictionaryManager()
manager.build_dawg_cache()
```

### Нехватка памяти

```python
# Используйте DAWG (по умолчанию, только ~15-20 МБ)
analyzer = create_analyzer(use_dawg=True)
```

## Разработка

### Настройка окружения

```bash
git clone https://github.com/mawo-ru/mawo-pymorphy3.git
cd mawo-pymorphy3
pip install -e ".[dev]"
```

### Запуск тестов

```bash
pytest tests/
```

### Форматирование кода

```bash
black mawo_pymorphy3/
ruff check mawo_pymorphy3/
```

## Благодарности и Upstream-проекты

**mawo-pymorphy3** является форком проекта **[pymorphy3](https://github.com/no-plagiarism/pymorphy3)**, который основан на оригинальном **[pymorphy2](https://github.com/pymorphy2/pymorphy2)**.

### Оригинальный проект - pymorphy2

- **Репозиторий**: https://github.com/pymorphy2/pymorphy2
- **Автор**: Mikhail Korobov ([@kmike](https://github.com/kmike))
- **Лицензия**: MIT
- **Публикация**: Korobov M.: Morphological Analyzer and Generator for Russian and Ukrainian Languages // Analysis of Images, Social Networks and Texts, pp 320-332 (2015)

### Продолжение - pymorphy3

- **Репозиторий**: https://github.com/no-plagiarism/pymorphy3
- **Мейнтейнеры**: Danylo Halaiko ([@d9nchik](https://github.com/d9nchik)), [@insolor](https://github.com/insolor)
- **Лицензия**: MIT
- **Copyright**: (c) 2022 (продолжение pymorphy2)

### Словари OpenCorpora

- **Сайт**: http://opencorpora.org/
- **Лицензия**: CC BY-SA 3.0
- **Версия**: 0.92 (revision 417260, 2025)

### Улучшения MAWO

- **Компактные DAWG-словари**: ~13МБ против 69МБ XML (снижение на 81%)
- **Потокобезопасность**: Thread-safe паттерн Singleton
- **Offline-first архитектура**: Полная автономность
- **Быстрая загрузка**: <2 секунды (против 30-60 секунд)
- **OpenCorpora 2025**: Самые свежие словари
- **100% совместимость API**: Drop-in replacement
- **Pattern-based анализаторы**: Superlative, ПО- adverbs, Compound words, Verb aspect
- **100% покрытие тестов**: 402/402 passed (включая все тесты pymorphy2)
- **Лучше чем pymorphy2**: 7 дополнительных тестов проходят

**Полная информация об авторстве**: см. [ATTRIBUTION.md](ATTRIBUTION.md)

## Лицензия

MIT License - см. [LICENSE](LICENSE) файл.

Этот проект полностью соответствует MIT лицензии оригинальных проектов pymorphy2/pymorphy3 и CC BY-SA 3.0 лицензии OpenCorpora, сохраняя все оригинальные copyright notices.

## Ссылки

- **GitHub**: https://github.com/mawo-ru/mawo-pymorphy3
- **PyPI**: https://pypi.org/project/mawo-pymorphy3/
- **Проблемы**: https://github.com/mawo-ru/mawo-pymorphy3/issues
- **Данные и модели**: https://github.com/mawo-ru/mawo-nlp-data
- **Оригинальный pymorphy2**: https://github.com/pymorphy2/pymorphy2
- **Оригинальный pymorphy3**: https://github.com/no-plagiarism/pymorphy3
- **OpenCorpora**: http://opencorpora.org/

---

Сделано с ❤️ командой [MAWO](https://github.com/mawo-ru)