https://github.com/loginchik/review-sentiment-nlp

ML analysis and model construction based on kinopoisk.ru animation movies reviews
https://github.com/loginchik/review-sentiment-nlp

kernel-svm-classifier kinopoisk random-forest-classifier sklearn

Last synced: about 2 months ago
JSON representation

ML analysis and model construction based on kinopoisk.ru animation movies reviews

Host: GitHub
URL: https://github.com/loginchik/review-sentiment-nlp
Owner: loginchik
License: mit
Created: 2024-06-08T19:12:22.000Z (about 2 years ago)
Default Branch: main
Last Pushed: 2024-06-09T22:10:42.000Z (about 2 years ago)
Last Synced: 2025-11-12T06:03:26.630Z (7 months ago)
Topics: kernel-svm-classifier, kinopoisk, random-forest-classifier, sklearn
Language: Jupyter Notebook
Homepage:
Size: 46.1 MB
Stars: 0
Watchers: 1
Forks: 0
Open Issues: 1
Metadata Files:
- Readme: README.md
- License: LICENSE

Awesome Lists containing this project

README

# Модель классификации отзывов на мультфильмы

Скрипт для автоматизированного сбора отзывов с Кинопоиска: [Kinopoisk Reviews](https://github.com/loginchik/Kinopoisk-Reviews)

Система отзывов (рецензий) на Кинопоиске устроена таким образом, что каждый зарегистрированный на сайте пользователь
может написать рецензию на фильм и опубликовать её в публику. Перед публикацией пользователю необходимо определить
сентимент рецензии: позитивная, нейтральная или негативная. В рамках проекта строится предсказательная модель, которая
на основе 5860 отзывов на различные мультфильмы предсказывает с точностью 70+% сентимент отзыва на основе его текста.

В изначальных данных наблюдался значительный перекос в сторону позитивных отзывов, поэтому итоговая модель работает
с двумя классами: позитивный и нейтрально-негативный. Кроме того, в процессе обучения дисбаланс классов компенсировался
методом ADASYN.

Практическое применение модели может быть таким: фильтрация рецензий для анализа плюсов и недостатков анимационных
работ других режиссёров и совершенствования собственной другими авторами.

## Содержимое проекта

+ Построение модели: [model_construction.ipynb](model_construction.ipynb)
+ Применение модели к реальным данным: [usage.ipynb](usage.ipynb)
+ Модель случайного леса (классификатор): [random_forest.joblib](pretrained_models/random_forest.joblib) (precision = 73%)
+ Модель ядерного метода опорных векторов: [svc.joblib](pretrained_models/svc.joblib) (precision = 79%)
+ Модель, объединяющая две других модели по принципу sort-voting: [voting_classifier.joblib](pretrained_models/voting_classifier.joblib) (precision = 79%)

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Awesome

https://github.com/loginchik/review-sentiment-nlp

Awesome Lists containing this project

README