https://github.com/daskwin/car_predictions_price
Homework 1 ML HSE AI
https://github.com/daskwin/car_predictions_price
Last synced: 6 months ago
JSON representation
Homework 1 ML HSE AI
- Host: GitHub
- URL: https://github.com/daskwin/car_predictions_price
- Owner: daskwin
- License: mit
- Created: 2024-12-03T19:45:53.000Z (over 1 year ago)
- Default Branch: main
- Last Pushed: 2024-12-03T20:56:15.000Z (over 1 year ago)
- Last Synced: 2025-01-22T05:34:24.265Z (over 1 year ago)
- Language: HTML
- Size: 6.19 MB
- Stars: 0
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
- License: LICENSE
Awesome Lists containing this project
README
# Анализ проделанной работы
По первой части работы был выполнен EDA. В итоге данные были очищены и заполнены (если были пропуски в данных). На данном этапе для меня как таковых сложностей не возникло, поскольку самые сложные этапы были удалены (я честно пыталась предобработать `torque`, но немного запуталась и решила оставить этот столбец). Были также рассмотрены и сделаны выводы по различным визуализациям как признаков, так и связи их с таргетом (корреляции и различные попарные графики).
Некоторый опыт в обучении моделей я уже имела, но все равно в какой-то момент было интересно, почему коэффициент регуляризации у меня вышел очень большим (пришла к выводу, что, возможно, это зависело от масштаба таргета). Понятное дело, что при использовании еще и категориальных признаков модель улучшилась в своем качестве, хоть и не так сильно, как хотелось бы)))
Очень понравилось, что в конце первой части были рассмотрены еще и безнесовые вещи. Как мне кажется, это очень полезно для дальнейшего использования в реальных ситуациях (работа, как пример).
Основные итоги:
* модель Ridge с использованием еще и категориальных признаков показала наилучшие результаты ($R^2=0,61$, $RMSE=475 024$);
* Разобраны различные виды линейной регрессии (в Лассо даже получилось занулить признаки);
* При рассмотреннии бизнес-метрики выяснилось, что любые изменения и подборы параметров положительно сказывались на качестве для бизнеса;
* Буст качеству модели дало добавление категориальных признаков и нахождение лучше модели и ее параметров через GridSearchCV.
Более подробные выводы были написаны в ноутбуке.
---
А вот вторая часть работы для меня оказалась несколько новой. Тут необходимо было реализован "сервис", который предсказывает цены автомобилей. Тут я хотела бы прикрепить скриншоты работы:
`На вход в формате json подаются признаки одного объекта, на выходе сервис выдает предсказанную стоимость машины`

`На вход подается csv-файл с признаками тестовых объектов, на выходе получаем файл с +1 столбцом - предсказаниями на этих объектах`

При выполнении файл сохраняется в директорию проекта:

Данные, которые мы загружаем:

Данные, которые мы получаем:

---
Единственное, что хотела бы отметить. В моем коде предполагается, что в данных нет пропусков. Это можно было бы дополнить, если из изначального ноутбука также выгрузить медианы тренировочных данных и заполнять пропуски ими.