https://github.com/loginchik/review-sentiment-nlp
ML analysis and model construction based on kinopoisk.ru animation movies reviews
https://github.com/loginchik/review-sentiment-nlp
kernel-svm-classifier kinopoisk random-forest-classifier sklearn
Last synced: about 2 months ago
JSON representation
ML analysis and model construction based on kinopoisk.ru animation movies reviews
- Host: GitHub
- URL: https://github.com/loginchik/review-sentiment-nlp
- Owner: loginchik
- License: mit
- Created: 2024-06-08T19:12:22.000Z (about 2 years ago)
- Default Branch: main
- Last Pushed: 2024-06-09T22:10:42.000Z (about 2 years ago)
- Last Synced: 2025-11-12T06:03:26.630Z (7 months ago)
- Topics: kernel-svm-classifier, kinopoisk, random-forest-classifier, sklearn
- Language: Jupyter Notebook
- Homepage:
- Size: 46.1 MB
- Stars: 0
- Watchers: 1
- Forks: 0
- Open Issues: 1
-
Metadata Files:
- Readme: README.md
- License: LICENSE
Awesome Lists containing this project
README
# Модель классификации отзывов на мультфильмы
Скрипт для автоматизированного сбора отзывов с Кинопоиска: [Kinopoisk Reviews](https://github.com/loginchik/Kinopoisk-Reviews)
Система отзывов (рецензий) на Кинопоиске устроена таким образом, что каждый зарегистрированный на сайте пользователь
может написать рецензию на фильм и опубликовать её в публику. Перед публикацией пользователю необходимо определить
сентимент рецензии: позитивная, нейтральная или негативная. В рамках проекта строится предсказательная модель, которая
на основе 5860 отзывов на различные мультфильмы предсказывает с точностью 70+% сентимент отзыва на основе его текста.
В изначальных данных наблюдался значительный перекос в сторону позитивных отзывов, поэтому итоговая модель работает
с двумя классами: позитивный и нейтрально-негативный. Кроме того, в процессе обучения дисбаланс классов компенсировался
методом ADASYN.
Практическое применение модели может быть таким: фильтрация рецензий для анализа плюсов и недостатков анимационных
работ других режиссёров и совершенствования собственной другими авторами.
## Содержимое проекта
+ Построение модели: [model_construction.ipynb](model_construction.ipynb)
+ Применение модели к реальным данным: [usage.ipynb](usage.ipynb)
+ Модель случайного леса (классификатор): [random_forest.joblib](pretrained_models/random_forest.joblib) (precision = 73%)
+ Модель ядерного метода опорных векторов: [svc.joblib](pretrained_models/svc.joblib) (precision = 79%)
+ Модель, объединяющая две других модели по принципу sort-voting: [voting_classifier.joblib](pretrained_models/voting_classifier.joblib) (precision = 79%)