https://github.com/daskwin/car_predictions_price

Homework 1 ML HSE AI
https://github.com/daskwin/car_predictions_price

Last synced: 6 months ago
JSON representation

Homework 1 ML HSE AI

Host: GitHub
URL: https://github.com/daskwin/car_predictions_price
Owner: daskwin
License: mit
Created: 2024-12-03T19:45:53.000Z (over 1 year ago)
Default Branch: main
Last Pushed: 2024-12-03T20:56:15.000Z (over 1 year ago)
Last Synced: 2025-01-22T05:34:24.265Z (over 1 year ago)
Language: HTML
Size: 6.19 MB
Stars: 0
Watchers: 1
Forks: 0
Open Issues: 0
Metadata Files:
- Readme: README.md
- License: LICENSE

Awesome Lists containing this project

README

# Анализ проделанной работы
По первой части работы был выполнен EDA. В итоге данные были очищены и заполнены (если были пропуски в данных). На данном этапе для меня как таковых сложностей не возникло, поскольку самые сложные этапы были удалены (я честно пыталась предобработать `torque`, но немного запуталась и решила оставить этот столбец). Были также рассмотрены и сделаны выводы по различным визуализациям как признаков, так и связи их с таргетом (корреляции и различные попарные графики).

Некоторый опыт в обучении моделей я уже имела, но все равно в какой-то момент было интересно, почему коэффициент регуляризации у меня вышел очень большим (пришла к выводу, что, возможно, это зависело от масштаба таргета). Понятное дело, что при использовании еще и категориальных признаков модель улучшилась в своем качестве, хоть и не так сильно, как хотелось бы)))

Очень понравилось, что в конце первой части были рассмотрены еще и безнесовые вещи. Как мне кажется, это очень полезно для дальнейшего использования в реальных ситуациях (работа, как пример).

Основные итоги:
* модель Ridge с использованием еще и категориальных признаков показала наилучшие результаты ($R^2=0,61$, $RMSE=475 024$);
* Разобраны различные виды линейной регрессии (в Лассо даже получилось занулить признаки);
* При рассмотреннии бизнес-метрики выяснилось, что любые изменения и подборы параметров положительно сказывались на качестве для бизнеса;
* Буст качеству модели дало добавление категориальных признаков и нахождение лучше модели и ее параметров через GridSearchCV.

Более подробные выводы были написаны в ноутбуке.

---

А вот вторая часть работы для меня оказалась несколько новой. Тут необходимо было реализован "сервис", который предсказывает цены автомобилей. Тут я хотела бы прикрепить скриншоты работы:

`На вход в формате json подаются признаки одного объекта, на выходе сервис выдает предсказанную стоимость машины`

![Описание изображения](/img/1.png)

`На вход подается csv-файл с признаками тестовых объектов, на выходе получаем файл с +1 столбцом - предсказаниями на этих объектах`

![Описание изображения](/img/2.png)

При выполнении файл сохраняется в директорию проекта:

![Описание изображения](/img/3.png)

Данные, которые мы загружаем:

![Описание изображения](/img/4.png)

Данные, которые мы получаем:

![Описание изображения](/img/5.png)

---

Единственное, что хотела бы отметить. В моем коде предполагается, что в данных нет пропусков. Это можно было бы дополнить, если из изначального ноутбука также выгрузить медианы тренировочных данных и заполнять пропуски ими.

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Awesome

https://github.com/daskwin/car_predictions_price

Awesome Lists containing this project

README