Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/al-ogr/sf_pr2_job_analysis_hh_sql
SkillFactory DataScience PROJECT-2. Анализ вакансий из HeadHunter
https://github.com/al-ogr/sf_pr2_job_analysis_hh_sql
data-analysis data-science ipynb plotly python sql
Last synced: 21 days ago
JSON representation
SkillFactory DataScience PROJECT-2. Анализ вакансий из HeadHunter
- Host: GitHub
- URL: https://github.com/al-ogr/sf_pr2_job_analysis_hh_sql
- Owner: al-ogr
- Created: 2025-01-07T10:02:09.000Z (23 days ago)
- Default Branch: main
- Last Pushed: 2025-01-07T10:54:30.000Z (23 days ago)
- Last Synced: 2025-01-07T11:34:12.358Z (23 days ago)
- Topics: data-analysis, data-science, ipynb, plotly, python, sql
- Language: Jupyter Notebook
- Homepage:
- Size: 1.35 MB
- Stars: 0
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# Проект: Анализ вакансий из HeadHunter
## Оглавление
[1. Описание проекта](README.md#Описание-проекта)
[2. Какой кейс решаем?](README.md#Какой-кейс-решаем)
[3. Краткая информация о данных](README.md#Краткая-информация-о-данных)
[4. Результаты](README.md#Результаты)### Описание проекта
Кадровому агентству, которое подбирает вакансии для IT-специалистов, необходима модель машинного обучения, которая будет рекомендовать вакансии клиентам агентства, претендующим на позицию Data Scientist.:arrow_up:[к оглавлению](README.md#Оглавление)
### Какой кейс решаем?
В рамках данного проекта необходимо понять, что из себя представляют данные и насколько они соответствуют целям проекта. В литературе эта часть работы над ML-проектом называется Data Understanding, или анализ данных.Проект включает в себя несколько этапов:
- знакомство с данными;
- предварительный анализ данных;
- детальный анализ вакансий;
- анализ работодателей;
- предметный анализ.Отчёт должен содержать ответы на задания, приведенные в [ноутбуке-шаблоне](https://lms.skillfactory.ru/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block@Project_2_Ноутбук_шаблон.ipynb).
**Требования к оформлению ноутбука-решения**
- Решение оформляется только в Jupyter Notebook.
- Решение оформляется в соответствии с [ноутбуком-шаблоном](https://lms.skillfactory.ru/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block@Project_2_Ноутбук_шаблон.ipynb).
- Каждое задание выполняется в отдельной ячейке, выделенной под задание (в шаблоне они помечены как ваш код здесь).
- Текст SQL-запросов и код на Python должны быть читаемыми.
- Выводы по каждому этапу оформляются в формате Markdown в отдельной ячейке (в шаблоне они помечены как ваши выводы здесь).
- Выводы можно дополнительно проиллюстрировать с помощью графиков.
- Не забудьте удалить ячейку с данными соединения перед фиксацией работы в GitHub.
*Комментарий:* реализовано хранение параметров подключения в файле *.env*, располагающемся в корне директории ноутбука-шаблона. Содержимое файла:
```
DBNAME = ХХХХХХ
USER = ХХХХХХ
PASSWORD = ХХХХХХ
HOST = 111.111.111.111
PORT = 1111
```
**DBNAME** - название базы данных
**USER** - имя пользователя в СУБД
**PASSWORD** - пароль
**HOST** - IP-адрес сервера, по которому нужно подключиться
**PORT** - порт, к которому нужно подключиться**Что практикуем**
- Построение SQL-запросов.
- Проведение базового анализа структуры данных.
- Проведение разведывательного анализа.:arrow_up:[к оглавлению](README.md#Оглавление)
### Краткая информация о данных
Схема данных:Описание таблиц.
**VACANCIES**
Таблица хранит в себе данные по вакансиям и содержит следующие столбцы:
Зарплатная вилка — это верхняя и нижняя граница оплаты труда в рублях (зарплаты в других валютах уже переведены в рубли). Соискателям она показывает, в каком диапазоне компания готова платить сотруднику на этой должности.
**AREAS**
Таблица-справочник, которая хранит код региона и его название.
**EMPLOYERS**
Таблица-справочник со списком работодателей.
**INDUSTRIES**
Таблица-справочник вариантов сфер деятельности работодателей.
**EMPLOYERS_INDUSTRIES**
Дополнительная таблица, которая существует для организации связи между работодателями и сферами их деятельности.
Эта таблица нужна нам, поскольку у одного работодателя может быть несколько сфер деятельности (или работодатели могут вовсе не указать их). Для удобства анализа необходимо хранить запись по каждой сфере каждого работодателя в отдельной строке таблицы.
:arrow_up:[к оглавлению](README.md#Оглавление)### Результаты
В ходе выполнения задания проведена работа по анализу вакансий с использованием python и SQL-запросов, сформированы выводы по блокам заданий и общий вывод в конце по результатам анализа имеющихся данных по вакансиям. Отчет сформирован в формате .ipynb с применением библиотеки визуализации данных Plotly.:arrow_up:[к оглавлению](README.md#Оглавление)