Ecosyste.ms: Awesome

An open API service indexing awesome lists of open source software.

Awesome Lists | Featured Topics | Projects

https://github.com/neonxp/stemmer

Porter Stemming for Russian language
https://github.com/neonxp/stemmer

Last synced: about 1 month ago
JSON representation

Porter Stemming for Russian language

Awesome Lists containing this project

README

        

# Стеммер Портера для русского языка

## Описание

Данный стеммер является заменой расширению stem_russian_unicode.

## Сравнение с расширением stem_russian_unicode

*Плюсы:*

1. Не требует внешних расширений для PHP. Стеммер написан целиком на PHP.
2. Нет проблем с юникодом. stem_russian_unicode зависит от SET_LOCALE и может при неверном значении портить строки с юникодом.
3. Легко изменять под конкретные требования проекта. В случае расширения, при изменении логики работы его придётся пересобирать.
4. Требует для своей работы PHP версии >=5.3 (спасибо, usernam3 за pull-request)

*Минусы:*

В силу того, что этот стеммер написан на PHP с использованием регулярных выражений, он должен проигрывать в скорости работы скомпилированному расширению, написанному на C.

## Установка

php composer.phar require nxp/russian-porter-stemmer

## Использование

getWordBase($word);
}
$result = implode(' ', $stemmed);

## Отличия от классического стеммера Портера

Единственное отличие заключается в том, что в данной реализации буква «ё» является самостоятельной гласной, а не буквой «е»

## Лицензия MIT