Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/egorumaev/2023-toxic-comments
Выявление токсичных комментариев в отзывах покупателей интернет-магазина
https://github.com/egorumaev/2023-toxic-comments
autocorrect catboost classification collections contractions natural-language-processing nlp nltk pandas re skleran
Last synced: 3 days ago
JSON representation
Выявление токсичных комментариев в отзывах покупателей интернет-магазина
- Host: GitHub
- URL: https://github.com/egorumaev/2023-toxic-comments
- Owner: egorumaev
- Created: 2023-09-26T04:58:03.000Z (over 1 year ago)
- Default Branch: main
- Last Pushed: 2023-09-26T05:01:25.000Z (over 1 year ago)
- Last Synced: 2025-01-05T09:45:11.064Z (6 days ago)
- Topics: autocorrect, catboost, classification, collections, contractions, natural-language-processing, nlp, nltk, pandas, re, skleran
- Language: Jupyter Notebook
- Homepage:
- Size: 135 KB
- Stars: 0
- Watchers: 1
- Forks: 0
- Open Issues: 0
Awesome Lists containing this project
README
# 2023-toxic-comments
Выявление токсичных комментариев в отзывах покупателей интернет-магазина# **ПРОЕКТ «Выявление токсичных комментариев в отзывах покупателей интернет-магазина „Викишоп‟»**
---
## **Примененные библиотеки и технологии**
* Pandas, Numpy, Matplotlib, Seaborn, Autocorrect, Contractions, Gc, Collections, Re, NLTK, Sklearn, Catboost
* Pipeline, RandomizedSearchCV, TfidfVectorizer, CountVectorizer, ngram_range
---
## **Цель и задачи проекта**
После внедрения нового сервиса в интернет-магазине «Викишоп» пользователи получили возможность редактировать и дополнять описания товаров, как в вики-сообществах. Пользователи могут предлагать свои правки в описание и комментировать изменения, внесенные другими пользователями. В связи с этим интернет-магазину необходим инструмент, который поможет выявлять вероятные токсичные комментарии и отправлять их на проверку модератору.
Предварительно подготовлен набор данных с разметкой комментариев.
**Цель проекта**: построить модель классификации комментариев пользователей на позитивные (1) и негативные (0).
**Целевое ограничение, по которому оценивается результат выполнения проекта**: значение метрики качества **f1_score** лучшей модели на тестовой выборке должно быть **>= 0.75**.
Для достижения цели были поставлены и решены следующие **задачи**:
* выполнена загрузка данных;
* проведен исследовательский анализ данных;
* обучены модели машинного обучения с разными гиперпараметрами;
* лучшая модель проверена на тестовой выборке.
Решаемая задача относится к категории задач **классификации**.
---
## **Основные результаты**
**(1)** в результате многоступенчатой предобработки данных из исходного датасета удалено 56.86% информации, являющейся шумовой информацией.
**(2)** проведено машинное обучение четырех моделей классификации:
* LogisticRegression
* CatBoostClassifier
* DecisionTreeClassifier
* LinearSVC
Для выявления наилучшего результата кроме подбора гиперпараметров моделей было сделано две ветки обучения в зависимости от типа векторизации текста:
* CountVectorizer()
* TfidfVectorizer()
**(3)** Лучшая из выявленных моделей LinearSVC на тестовой выборке показала значение метрики **f1** равное **0.792**, что полностью соответствует предъявленным требованиям.