Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/verbasik/yandex.practicum.datascience
Портфолио проектов Data Science, выполненных в рамках профессиональной переподготовки в Яндекс.Практикум. Включает исследования в области финансов, недвижимости, кинопроката и других, с использованием статистики, машинного обучения и анализа данных.
https://github.com/verbasik/yandex.practicum.datascience
data-analysis data-science machine-learning yandex-praktikum
Last synced: about 2 months ago
JSON representation
Портфолио проектов Data Science, выполненных в рамках профессиональной переподготовки в Яндекс.Практикум. Включает исследования в области финансов, недвижимости, кинопроката и других, с использованием статистики, машинного обучения и анализа данных.
- Host: GitHub
- URL: https://github.com/verbasik/yandex.practicum.datascience
- Owner: Verbasik
- Created: 2023-05-07T16:25:34.000Z (over 1 year ago)
- Default Branch: main
- Last Pushed: 2024-08-02T09:14:57.000Z (5 months ago)
- Last Synced: 2024-08-02T12:24:53.073Z (5 months ago)
- Topics: data-analysis, data-science, machine-learning, yandex-praktikum
- Language: Jupyter Notebook
- Homepage: https://practicum.yandex.ru/data-scientist-plus/
- Size: 41.6 MB
- Stars: 1
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# Проекты Data Science. Яндекс.Практикум (Школа Анализа Данных)
## Специалист по Data Science (2023 — 2024)
![logo_DS+](https://github.com/Verbasik/Data_science_plus-yandex_praktikum/assets/109856541/b80c6642-d6f8-4398-9e92-cca355f4cb98)
![Certificate](https://github.com/Verbasik/Yandex.Practicum.DataScience/blob/c283820645a2b40eafc6f922c08e3aa81b8eddaa/Documents/jpeg.jpeg)В данном репозитории собраны проекты, выполненные в процессе обучения по программе профессиональной переподготовки [Специалист по Data Science](https://practicum.yandex.ru/data-scientist-plus/) в Яндекс.Практикум
| Проект | Описание | Библиотеки | Навыки |
|---|---|---|---|
| [Исследование надёжности заёмщиков](https://github.com/Verbasik/Yandex.Practicum.DataScience/tree/main/01_%D0%98%D1%81%D1%81%D0%BB%D0%B5%D0%B4%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5%20%D0%BD%D0%B0%D0%B4%D0%B5%CC%88%D0%B6%D0%BD%D0%BE%D1%81%D1%82%D0%B8%20%D0%B7%D0%B0%D0%B5%CC%88%D0%BC%D1%89%D0%B8%D0%BA%D0%BE%D0%B2) | Исследование факторов, влияющих на факт возврата кредита в срок, на основе статистики о платёжеспособности клиентов. | `Pandas` `NumPy` | `Data Analysis`
`Финансовый_анализ` |
| [Исследование объявлений о продаже квартир](https://github.com/Verbasik/Yandex.Practicum.DataScience/tree/main/02_%D0%98%D1%81%D1%81%D0%BB%D0%B5%D0%B4%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5%20%D0%BE%D0%B1%D1%8A%D1%8F%D0%B2%D0%BB%D0%B5%D0%BD%D0%B8%D0%B8%CC%86%20%D0%BE%20%D0%BF%D1%80%D0%BE%D0%B4%D0%B0%D0%B6%D0%B5%20%D0%BA%D0%B2%D0%B0%D1%80%D1%82%D0%B8%D1%80) | Анализ рынка недвижимости Санкт-Петербурга и Ленинградкой области, выявление аномалий для отслеживания мошеннической деятельности. | `Pandas` `NumPy` `Matplotlib` `Seaborn` | `Data Analysis`
`Маркетинг_анализ` |
| [Исследование о показах фильмов в Российских кинотеатрах](https://github.com/Verbasik/Yandex.Practicum.DataScience/tree/main/03_%D0%98%D1%81%D1%81%D0%BB%D0%B5%D0%B4%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5%20%D0%BE%20%D0%BF%D0%BE%D0%BA%D0%B0%D0%B7%D0%B0%D1%85%20%D1%84%D0%B8%D0%BB%D1%8C%D0%BC%D0%BE%D0%B2%20%D0%B2%20%D0%A0%D0%BE%D1%81%D1%81%D0%B8%D0%B8%CC%86%D1%81%D0%BA%D0%B8%D1%85%20%D0%BA%D0%B8%D0%BD%D0%BE%D1%82%D0%B5%D0%B0%D1%82%D1%80%D0%B0%D1%85) | Анализ рынка российского кинопроката, выявление текущих тенденций. | `Pandas` `NumPy` `Matplotlib` `Seaborn` | `Data Analysis`
`Маркетинг_анализ` |
| [Исследование сервиса аренды самокатов "GoFast"](https://github.com/Verbasik/Yandex.Practicum.DataScience/tree/main/04_%D0%98%D1%81%D1%81%D0%BB%D0%B5%D0%B4%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5%20%D1%81%D0%B5%D1%80%D0%B2%D0%B8%D1%81%D0%B0%20%D0%B0%D1%80%D0%B5%D0%BD%D0%B4%D1%8B%20%D1%81%D0%B0%D0%BC%D0%BE%D0%BA%D0%B0%D1%82%D0%BE%D0%B2) | Исследовательский анализ данных сервиса аренды самокатов "GoFast". Статистический анализ и проверка гипотез. | `Pandas` `NumPy` `Matplotlib` `Seaborn` `Scipy`| `Data Analysis`
`Статистический_анализ` |
| [Построение модели для задачи классификации тарифов мобильной связи](https://github.com/Verbasik/Yandex.Practicum.DataScience/tree/965aa13c6423c7df749700603d8e82218dfe33de/05_%D0%A1%D0%BE%D0%B7%D0%B4%D0%B0%D0%BD%D0%B8%D0%B5%20%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D0%B8%20%D0%B4%D0%BB%D1%8F%20%D0%BC%D0%BE%D0%B1%D0%B8%D0%BB%D1%8C%D0%BD%D0%BE%D0%B3%D0%BE%20%D0%BE%D0%BF%D0%B5%D1%80%D0%B0%D1%82%D0%BE%D1%80%D0%B0%20%C2%AB%D0%9C%D0%B5%D0%B3%D0%B0%D0%BB%D0%B0%D0%B8%CC%86%D0%BD%C2%BB) | Построение и поиск оптимальной модели для задачи классификации тарифов мобильной связи. Исследование и проверка качества разных моделей. | `Pandas` `NumPy` `Matplotlib` `Seaborn` `Sklearn`| `Data Science`
`Машинное обучение` |
| [Построение модели для задачи прогнозирования оттока клиентов из «Бета-Банка»](https://github.com/Verbasik/Yandex.Practicum.DataScience/tree/7a472d1223a3d84f784253dcafe4944a68438187/06_%D0%A1%D0%BE%D0%B7%D0%B4%D0%B0%D0%BD%D0%B8%D0%B5%20%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D0%B8%20%D0%B4%D0%BB%D1%8F%20%D0%B1%D0%B0%D0%BD%D0%BA%D0%B0%20%C2%AB%D0%91%D0%B5%D1%82%D0%B0-%D0%91%D0%B0%D0%BD%D0%BA%C2%BB) | Построение и поиск оптимальной модели для задачи прогнозирования оттока клиентов из «Бета-Банка». Исследование и проверка качества разных моделей. | `Pandas` `NumPy` `Matplotlib` `Seaborn` `Sklearn`| `Data Science`
`Машинное обучение` |
| [Построение модели выбора локации для скважины](https://github.com/Verbasik/Yandex.Practicum.DataScience/tree/e94539fe78caf667e4385db1599d5493331acd54/07_%D0%A1%D0%BE%D0%B7%D0%B4%D0%B0%D0%BD%D0%B8%D0%B5%20%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D0%B8%20%D0%B4%D0%BB%D1%8F%20%D0%BD%D0%B5%D1%84%D1%82%D0%B5%D0%B4%D0%BE%D0%B1%D1%8B%D0%B2%D0%B0%D1%8E%D1%89%D0%B5%D0%B8%CC%86%20%D0%BA%D0%BE%D0%BC%D0%BF%D0%B0%D0%BD%D0%B8%D0%B8%20%22GlavRosGosNeft%22) | Требуется построить модель машинного обучения, которая поможет определить регион, где добыча нефти принесёт наибольшую прибыль. | `Pandas` `NumPy` `Matplotlib` `Seaborn` `Sklearn`| `Data Science`
`Машинное обучение` |
| [Построение модели предсказания отказа от брони для сети отелей «Как в гостях»](https://github.com/Verbasik/Yandex.Practicum.DataScience/blob/98d6829c50df789be342e8b73e0fc7d562e424bf/08_%D0%A1%D0%BE%D0%B7%D0%B4%D0%B0%D0%BD%D0%B8%D0%B5%20%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D0%B8%20%D0%B4%D0%BB%D1%8F%20%D1%81%D0%B5%D1%82%D0%B8%20%D0%BE%D1%82%D0%B5%D0%BB%D0%B5%D0%B8%CC%86%20%C2%AB%D0%9A%D0%B0%D0%BA%20%D0%B2%20%D0%B3%D0%BE%D1%81%D1%82%D1%8F%D1%85%C2%BB/README.md) | Требуется разработать модель машинного обучения, которая будет прогнозировать отказ посетителей от брони в отеле. После внедрения модели, чистая прибыль компании должна увеличиться +400k. | `Pandas` `NumPy` `Matplotlib` `Seaborn` `Sklearn` `Keras` `Tensorflow`| `Data Science`
`Машинное обучение` |
| [Работа с базой данных Yandex_Hive и анализ данных](https://github.com/Verbasik/Yandex.Practicum.DataScience/tree/2ccf4700265b88e7bf09cc7ae0feb464ad9a3787/09_%D0%92%D0%B7%D0%B0%D0%B8%D0%BC%D0%BE%D0%B4%D0%B5%D0%B9%D1%81%D1%82%D0%B2%D0%B8%D0%B5_%D1%81_Yandex_Hive#%D0%BE%D0%BF%D0%B8%D1%81%D0%B0%D0%BD%D0%B8%D0%B5) | Мы будем работать с базой данных Yandex-Hive, которая хранит информацию о венчурных фондах и инвестициях в компании-стартапы.| `pyspark` `pyspark.sql`| `Data Science`
`СУБД` |
| [Построение модели классификации музыкальных произведений по жанрам](https://github.com/Verbasik/Yandex.Practicum.DataScience/tree/e87c9161d2f7c50081f6c3819b59b18ad7a88120/10_%D0%9F%D0%BE%D1%81%D1%82%D1%80%D0%BE%D0%B5%D0%BD%D0%B8%D0%B5%20%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D0%B8%20%D0%BA%D0%BB%D0%B0%D1%81%D1%81%D0%B8%D1%84%D0%B8%D0%BA%D0%B0%D1%86%D0%B8%D0%B8%20%D0%BC%D1%83%D0%B7%D1%8B%D0%BA%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D1%85%20%D0%BF%D1%80%D0%BE%D0%B8%D0%B7%D0%B2%D0%B5%D0%B4%D0%B5%D0%BD%D0%B8%D0%B9%20%D0%BF%D0%BE%20%D0%B6%D0%B0%D0%BD%D1%80%D0%B0%D0%BC) | Требуется разработать модель машинного обучения, позволяющую классифицировать музыкальные произведения по жанрам.| `Pandas` `NumPy` `Matplotlib` `Seaborn` `Sklearn`| `Data Science`
`Машинное обучение` |
| [Построение модели для предсказания медианной стоймости дома](https://github.com/Verbasik/Yandex.Practicum.DataScience/tree/fcd6f2ee802e635792bfef03c019d3559dfdb7c1/11_%D0%9F%D0%BE%D1%81%D1%82%D1%80%D0%BE%D0%B5%D0%BD%D0%B8%D0%B5%20%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D0%B8%20%D0%B4%D0%BB%D1%8F%20%D0%BF%D1%80%D0%B5%D0%B4%D1%81%D0%BA%D0%B0%D0%B7%D0%B0%D0%BD%D0%B8%D1%8F%20%D0%BC%D0%B5%D0%B4%D0%B8%D0%B0%D0%BD%D0%BD%D0%BE%D0%B9%20%D1%81%D1%82%D0%BE%D0%B9%D0%BC%D0%BE%D1%81%D1%82%D0%B8%20%D0%B4%D0%BE%D0%BC%D0%B0) | Разработать модель линейной регрессии в среде PySpark, позволяющей предсказать медианную стоимость домов.| `Pandas` `NumPy` `Matplotlib` `Seaborn` `Sklearn` `PySpark` `MLlib`| `Data Science`
`Машинное обучение` |
| [Защита персональных данных клиентов](https://github.com/Verbasik/Yandex.Practicum.DataScience/tree/2e863d1d181a0e2b8204789ba43dc45d6908cfb8/12_%D0%97%D0%B0%D1%89%D0%B8%D1%82%D0%B0%20%D0%BF%D0%B5%D1%80%D1%81%D0%BE%D0%BD%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D1%85%20%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85%20%D0%BA%D0%BB%D0%B8%D0%B5%D0%BD%D1%82%D0%BE%D0%B2) | Требуется разработать такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию.| `Pandas` `NumPy` `Sklearn`| `Data Science`
`Машинное обучение`
`Линейная алгебра`|
| [Определение стоймости автомобилей](https://github.com/Verbasik/Yandex.Practicum.DataScience/tree/b1e13284fa039114ee938d1a8288f0ff14919b87/13_%D0%9E%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5%20%D1%81%D1%82%D0%BE%D0%B9%D0%BC%D0%BE%D1%81%D1%82%D0%B8%20%D0%B0%D0%B2%D1%82%D0%BE%D0%BC%D0%BE%D0%B1%D0%B8%D0%BB%D0%B5%D0%B9) | Создать модель, способную с высокой точностью предсказывать стоймость автомобиля на рынке.| `Pandas` `NumPy` `Sklearn` `CatBoostRegressor` `LGBMRegressor` `DummyRegressor` `RandomForestRegressor`| `Data Science`
`Машинное обучение`
|
| [Matching ](https://github.com/Verbasik/Yandex.Practicum.DataScience/tree/1d876b675f147481f33a27843e49432d4baed7be/14_Matching) | Разработать алгоритм, который для всех товаров из одного множества, предложит несколько вариантов наиболее похожих товаров из другого множества.| `Pandas` `NumPy` `Sklearn` `faiss` `optuna` `lightgbm`| `Data Science`
`Алгоритмы`
|
| [Продвинутый SQL](https://github.com/Verbasik/Yandex.Practicum.DataScience/tree/a22ebc1c8dad28700620a83c9e1f613d6b7c1108/15_advance_sql) | Состоит из двух частей на 20 задач на составление запросов к базе данных (PostgreSQL) StackOverFlow за 2008 год.| `SQL` `PostgreSQL` `оконные функции` `временные таблиц` `подзапросы` `продвинутые функции SQL`| `Data Analysis`
`Работа с БД`
|
| [Прогнозирование температуры звезды](https://github.com/Verbasik/Yandex.Practicum.DataScience/blob/32c8b9c3ce42b67845352c01680a4749a64e7324/16_%D0%9F%D1%80%D0%BE%D0%B3%D0%BD%D0%BE%D0%B7%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5%20%D1%82%D0%B5%D0%BC%D0%BF%D0%B5%D1%80%D0%B0%D1%82%D1%83%D1%80%D1%8B%20%D0%B7%D0%B2%D0%B5%D0%B7%D0%B4%D1%8B/README.md) | Разработка метода определения температуры на поверхности обнаруженных звёзд с использованием нейросетевого подхода.| `Pandas` `NumPy` `Sklearn` `torch` `skorch` `optuna`| `Data Science`
`Машинное обучение`
|
[Оценка риска ДТП](https://github.com/Verbasik/Yandex.Practicum.DataScience/tree/a0b7a618cb5f2068ad48f60ba4d07899e3932311/17_%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0%20%D1%80%D0%B8%D1%81%D0%BA%D0%B0%20%D0%94%D0%A2%D0%9F) | Создать систему, которая может оценить риск ДТП по выбранному маршруту движения.| `Pandas` `NumPy` `Matplotlib` `Seaborn` `Scipy` `Sklearn`| `Data Science`
`Машинное обучение`
|
[Прогнозирование заказов такси](https://github.com/Verbasik/Yandex.Practicum.DataScience/tree/f689087d86d7b896b6069f536d7bfbd80473a154/18_%D0%9F%D1%80%D0%BE%D0%B3%D0%BD%D0%BE%D0%B7%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5%20%D0%B7%D0%B0%D0%BA%D0%B0%D0%B7%D0%BE%D0%B2%20%D1%82%D0%B0%D0%BA%D1%81%D0%B8) | Создать модель, способную с высокой точностью предсказывать количество заказов такси на следующий час.| `NumPy` `Pandas` `Seaborn` `Matplotlib` `CatBoost` `Scipy` `Sklearn` `Statsmodels` `Prophet` `Sklearn` `XGBoost`| `Data Science`
`Машинное обучение` `Временные ряды`
|
[Classification of Text](https://github.com/Verbasik/Yandex.Practicum.DataScience/tree/ed9df9763d119f07386b71b3471ea63e99502fbf/19_Classification%20of%20Text) | Целью проекта является разработка модели бинарной классификации в связки с моделью трансформером BERT.| `NumPy` `Pandas` `sklearn` `torch` `transformers`| `Data Science`
`Машинное обучение`
|
[ResNet_Age_detect](https://github.com/Verbasik/Yandex.Practicum.DataScience/tree/2d8161841572054bbbb24aaf41a4a8ff2b1ecc4d/20_ResNet_Age_detect) | Целью проекта является разработка модели, которая по фотографии будет определять приблизительный возраст человека| `NumPy` `Pandas` `sklearn` `tensorflow` `keras`| `Data Science`
`Computer Vision`
|
[Поиск изображений по текстовым запросам](https://github.com/Verbasik/Yandex.Practicum.DataScience/tree/aa13bba25bc99516c0ba69f8a2b7fecd08f67139/21_Image_and_Text) | Разработка демонстрационной версии системы поиска изображений по текстовым запросам, использующей нейросетевой подход для анализа и сопоставления изображений и текстов| `NumPy` `Pandas` `sklearn` `nltk` `torch` `tensorflow`| `Data Science`
`Computer Vision`
|
[Предсказание температуры стали на металлургическом комбинате](https://github.com/Verbasik/Yandex.Practicum.DataScience/tree/3a3c115109e78f0caacebf14e0e5b4a03f1789d6/22_Final_project) | Разработка модели для предсказания температуры стали на этапе обработки. Модель будет использоваться для имитации технологического процесса и оптимизации производственных расходов за счёт контроля температуры сплава.| `NumPy` `Pandas` `sklearn` `nltk` `torch` `tensorflow`| `Data Science`
`Машинное обучение`
|