Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/elmirag/practicum_projects
Этот репозиторий содержит учебные проекты по Data Science, в которых представлены различные методы анализа данных и машинного обучения
https://github.com/elmirag/practicum_projects
analysis faiss keras ml nlp pandas prophet python
Last synced: 15 days ago
JSON representation
Этот репозиторий содержит учебные проекты по Data Science, в которых представлены различные методы анализа данных и машинного обучения
- Host: GitHub
- URL: https://github.com/elmirag/practicum_projects
- Owner: ElmiraG
- Created: 2024-10-07T19:22:30.000Z (3 months ago)
- Default Branch: main
- Last Pushed: 2024-11-11T22:18:43.000Z (about 2 months ago)
- Last Synced: 2024-11-11T23:24:15.169Z (about 2 months ago)
- Topics: analysis, faiss, keras, ml, nlp, pandas, prophet, python
- Language: Jupyter Notebook
- Homepage:
- Size: 41.2 MB
- Stars: 0
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
## Описание проектов
Данные проекты были выполнены в Яндекс.Практикуме.| Название проекта | Описание | Используемые библиотеки |
| :---------------------- | :---------------------- | :---------------------- |
| [1. Исследование надёжности заёмщиков](1.%20borrower_reliability_research) | Проект исследует, как семейное положение и количество детей влияют на своевременное погашение кредита, с целью улучшения модели кредитного скоринга.| *pandas, seaborn, matplotlib* |
| [2. Исследование объявлений о продаже квартир](2.%20research_of_apartment_listings) | Проект анализирует данные о продаже квартир в Санкт-Петербурге для определения рыночной стоимости объектов и выявления факторов, влияющих на цену. | *pandas*, *seaborn*, *matplotlib*, *numpy*, *datetime*|
| [3. Исследование данных о российском кинопрокате](3.%20research_into_film_distribution_data) | Проект направлен на изучение рынка российского кинопроката с акцентом на фильмы, получившие государственную поддержку. Цель — выявить текущие тренды и оценить интерес зрителей к таким фильмам, используя данные с портала открытых данных Министерства культуры и информацию с сайта КиноПоиск.| *pandas*, *seaborn*, *matplotlib*, *numpy*, *datetime* |
| [4. Анализ сервиса аренды самокатов GoFast](4.%20scooter_rental_service) | Проект анализирует данные пользователей сервиса аренды самокатов GoFast для проверки гипотез, способствующих росту бизнеса. Исследуются различные аспекты использования мобильного приложения, включая тарифные планы: без подписки и подписка Ultra. Цель анализа — выявление факторов, влияющих на популярность сервиса и финансовую эффективность.| *pandas*, *datetime*, *matplotlib*, *seaborn*, *numpy*, *scipy* |
| [5. Рекомендация тарифов](5.%20tariff_recommendation) | Оператор мобильной связи «Мегалайн» выяснил: многие клиенты пользуются архивными тарифами. Они хотят построить систему, способную проанализировать поведение клиентов и предложить пользователям новый тариф: «Смарт» или «Ультра». В проекте представлены данные о поведении клиентов, которые уже перешли на эти тарифы. Нужно построить модель для задачи классификации, которая выберет подходящий тариф.| *pandas, sklearn, joblib, numpy, matplotlib* |
| [6. Прогнозирование оттока клиентов Бета-Банка](6.%20forecasting_bank_customer_churn) | Проект направлен на прогнозирование ухода клиентов из «Бета-Банка» с использованием исторических данных о поведении клиентов. Цель — построить модель, достигающую F1-меры не ниже 0.59, а также оценить AUC-ROC для сравнения с F1-мерой.| *numpy*, *pandas*, *sklearn*, *seaborn*, *matplotlib*, *re*, *imblearn* |
| [7. Прогнозирование оттока клиентов в сети отелей «Как в гостях»](7.%20predicting_hotel_customer_churn) | Нужно разработать систему, которая предсказывает отказ от брони | *pandas, numpy, seaborn, matplotlib, scipy, sklearn, imblearn* |
| [8. Выбор локации для скважины](8.%20selecting_well_location) | Предоставлены пробы нефти в трёх регионах: в каждом 10 000 месторождений, где измерили качество нефти и объём её запасов. Необходимо построить модель машинного обучения, которая поможет определить регион, где добыча принесёт наибольшую прибыль. Проанализировать возможную прибыль и риски техникой Bootstrap | *pandas, numpy, os, seaborn, matplotlib, sklearn, scipy, tqdm* |
| [9. Предсказание музыкального жанра](9.%20music_genre_prediction) | Сервис "МиФаСоль" расширяет работу с новыми артистами и музыкантами, в связи с чем возникла задача - правильно классифицировать новые музыкальные треки, чтобы улучшить работу рекомендательной системы. Ваши коллеги из отдела работы со звуком подготовили датасет, в котором собраны некоторые характеристики музыкальных произведений и их жанры. Задача - разработать модель, позволяющую классифицировать музыкальные произведения по жанрам.| *pandas, numpy, seaborn, matplotlib, missingno, sweetviz, phik, catboost, sklearn, imblearn, feature_engine, string, re, nltk, wordcloud, regex* |
| [10. Предсказание стоимости жилья. Spark](10.%20predicting_home_prices_spark) | Необходимо обучить модель линейной регрессии на данных о жилье в Калифорнии в 1990 году. На основе данных предсказать медианную стоимость дома в жилом массиве. Обучить модель и сделать предсказания на тестовой выборке. Для оценки качества модели использовать метрики RMSE, MAE и R2.| *pandas, numpy, seaborn, matplotlib, pyspark* |
| [11. Определение стоимости автомобилей](11.%20determining_cost_of_cars) | Сервис по продаже автомобилей с пробегом разрабатывает приложение для привлечения новых клиентов. В нём можно быстро узнать рыночную стоимость своего автомобиля. В распоряжении исторические данные: технические характеристики, комплектации и цены автомобилей. Необходимо построить модель для определения стоимости.| *pandas, numpy, os, re, seaborn, matplotlib, sweetviz, sklearn, imblearn, feature_engine, catboost, lightgbm, time* |
| [12. Метчинг товаров](12.%20product_matching) | Дано два множества объектов: множество A и множество B. Каждый объект в каждом множестве описывается определенными признаками. Цель состоит в том, чтобы для каждого объекта из множества A найти один или несколько объектов из множества B, которые схожи с ним по определенной метрике. Важно отметить, что множества A и B могут быть как различными, так и одинаковыми, и в процессе поиска соответствий может возникнуть ситуация, когда ни один объект из B не будет соответствовать объекту из A.| *pandas, numpy, seaborn, matplotlib, re, time, sklearn, faiss* |
| [13. Прогнозирование температуры звезды](13.%20star_temperature_prediction) | Задание разработать метод определения температуры на поверхности звёзд с использованием нейросетей. Вместо традиционных методов, таких как закон смещения Вина, закон Стефана-Больцмана и спектральный анализ, обсерватория решила внедрить технологии машинного обучения для более точного и удобного прогнозирования температуры звёзд. Для этого доступны характеристики 240 изученных звёзд в базе данных обсерватории.| *os, pandas, numpy, re, seaborn, matplotlib, sweetviz, sklearn, torch* |
| [14. Защита персональных данных клиентов](14.%20personal_data_protection) | Для обеспечения безопасности данных клиентов страховой компании необходимо разработать метод преобразования данных, который обеспечит защиту персональной информации. Этот метод должен быть сложным для восстановления и не должен негативно влиять на качество моделей машинного обучения.| *pandas, numpy, seaborn, matplotlib, sweetviz, sklearn* |
| [15. Оценка рисков ДТП](15.%20accident_risk_assessment) | Необходимо создать систему, которая могла бы оценить риск ДТП по выбранному маршруту движения. Под риском понимается вероятность ДТП с любым повреждением транспортного средства. Как только водитель забронировал автомобиль, сел за руль и выбрал маршрут, система должна оценить уровень риска. Если уровень риска высок, водитель увидит предупреждение и рекомендации по маршруту. Идея создания такой системы находится в стадии предварительного обсуждения и проработки. Чёткого алгоритма работы и подобных решений на рынке ещё не существует. Текущая задача — понять, возможно ли предсказывать ДТП, опираясь на исторические данные одного из регионов.| *pandas, numpy, seaborn, matplotlib, sweetviz, sklearn, imblearn, catboost, lightgbm* |
| [16. Прогнозирование заказов такси](16.%20taxi_order_forecasting_time_series) | Компания «Чётенькое такси» собрала исторические данные о заказах такси в аэропортах. Чтобы привлекать больше водителей в период пиковой нагрузки, нужно спрогнозировать количество заказов такси на следующий час. Необходимо построить модель для такого предсказания. Значение метрики RMSE на тестовой выборке должно быть не больше 48.| *os, pandas, numpy, seaborn, matplotlib, statsmodels, sklearn, prophet, itertools, imblearn, catboost, lightgbm* |
| [17. Токсинет: Модерация комментариев для Викишоп](17.%20toxinet_comment_moderation) | Интернет-магазин «Викишоп» запускает новый сервис. Теперь пользователи могут редактировать и дополнять описания товаров, как в вики-сообществах. То есть клиенты предлагают свои правки и комментируют изменения других. Магазину нужен инструмент, который будет искать токсичные комментарии и отправлять их на модерацию. Необходимо обучить модель классифицировать комментарии на позитивные и негативные, используя набор данных с разметкой о токсичности правок. Значение метрики качества F1 должна быть не меньше 0.75.| *os, pandas, numpy, seaborn, matplotlib, tqdm, spacy, re, nltk, collections, sklearn, imblearn* |
| [18. Определение возраста покупателей](18.%20determining_buyer_age) | Сетевой супермаркет «Хлеб-Соль» внедряет систему компьютерного зрения для обработки фотографий покупателей.| *pandas, tensorflow, matplotlib* |
| [19. Поиск изображений по запросу](19.%20search_images_by_request) | Поручено разработать демонстрационную версию поиска изображений по запросу. Для демонстрационной версии нужно обучить модель, которая получит векторное представление изображения, векторное представление текста, а на выходе будет выдавать число от 0 до 1 — показывает, насколько текст и картинка подходят друг другу.| *pandas, numpy, os, pathlib, seaborn, matplotlib, PIL, torch, tqdm, re, tensorflow, keras_nlp, sklearn, swifter* |
| [20. Модель предсказания оттока клиентов телекоммуникационной компании](20.%20telecom_company_model) | Оператор связи «ТелеДом» хочет бороться с оттоком клиентов. Для этого сотрудники компании начнут предлагать промокоды и специальные условия всем, кто планирует отказаться от услуг связи. Чтобы заранее находить таких пользователей, «ТелеДому» нужна модель, которая будет предсказывать, разорвёт ли абонент договор. Команда оператора собрала персональные данные о некоторых клиентах, информацию об их тарифах и услугах. Задача заключается в обучении модели на этих данных для прогноза оттока клиентов.| *pandas, numpy, re, seaborn, matplotlib, sqlalchemy, phik, sklearn, imblearn, catboost, lightgbm, torch* |