Ecosyste.ms: Awesome

An open API service indexing awesome lists of open source software.

Awesome Lists | Featured Topics | Projects

https://github.com/al-ogr/sf_pr2_job_analysis_hh_sql

SkillFactory DataScience PROJECT-2. Анализ вакансий из HeadHunter
https://github.com/al-ogr/sf_pr2_job_analysis_hh_sql

data-analysis data-science ipynb plotly python sql

Last synced: 21 days ago
JSON representation

SkillFactory DataScience PROJECT-2. Анализ вакансий из HeadHunter

Awesome Lists containing this project

README

        

drawing

# Проект: Анализ вакансий из HeadHunter

## Оглавление
[1. Описание проекта](README.md#Описание-проекта)
[2. Какой кейс решаем?](README.md#Какой-кейс-решаем)
[3. Краткая информация о данных](README.md#Краткая-информация-о-данных)
[4. Результаты](README.md#Результаты)

### Описание проекта
Кадровому агентству, которое подбирает вакансии для IT-специалистов, необходима модель машинного обучения, которая будет рекомендовать вакансии клиентам агентства, претендующим на позицию Data Scientist.

:arrow_up:[к оглавлению](README.md#Оглавление)

### Какой кейс решаем?
В рамках данного проекта необходимо понять, что из себя представляют данные и насколько они соответствуют целям проекта. В литературе эта часть работы над ML-проектом называется Data Understanding, или анализ данных.

Проект включает в себя несколько этапов:
- знакомство с данными;
- предварительный анализ данных;
- детальный анализ вакансий;
- анализ работодателей;
- предметный анализ.

Отчёт должен содержать ответы на задания, приведенные в [ноутбуке-шаблоне](https://lms.skillfactory.ru/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block@Project_2_Ноутбук_шаблон.ipynb).

**Требования к оформлению ноутбука-решения**
- Решение оформляется только в Jupyter Notebook.
- Решение оформляется в соответствии с [ноутбуком-шаблоном](https://lms.skillfactory.ru/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block@Project_2_Ноутбук_шаблон.ipynb).
- Каждое задание выполняется в отдельной ячейке, выделенной под задание (в шаблоне они помечены как ваш код здесь).
- Текст SQL-запросов и код на Python должны быть читаемыми.
- Выводы по каждому этапу оформляются в формате Markdown в отдельной ячейке (в шаблоне они помечены как ваши выводы здесь).
- Выводы можно дополнительно проиллюстрировать с помощью графиков.
- Не забудьте удалить ячейку с данными соединения перед фиксацией работы в GitHub.
*Комментарий:* реализовано хранение параметров подключения в файле *.env*, располагающемся в корне директории ноутбука-шаблона. Содержимое файла:
```
DBNAME = ХХХХХХ
USER = ХХХХХХ
PASSWORD = ХХХХХХ
HOST = 111.111.111.111
PORT = 1111
```
**DBNAME** - название базы данных
**USER** - имя пользователя в СУБД
**PASSWORD** - пароль
**HOST** - IP-адрес сервера, по которому нужно подключиться
**PORT** - порт, к которому нужно подключиться

**Что практикуем**
- Построение SQL-запросов.
- Проведение базового анализа структуры данных.
- Проведение разведывательного анализа.

:arrow_up:[к оглавлению](README.md#Оглавление)

### Краткая информация о данных
Схема данных:
drawing

Описание таблиц.

**VACANCIES**

Таблица хранит в себе данные по вакансиям и содержит следующие столбцы:

drawing

Зарплатная вилка — это верхняя и нижняя граница оплаты труда в рублях (зарплаты в других валютах уже переведены в рубли). Соискателям она показывает, в каком диапазоне компания готова платить сотруднику на этой должности.

**AREAS**

Таблица-справочник, которая хранит код региона и его название.

drawing

**EMPLOYERS**

Таблица-справочник со списком работодателей.

drawing

**INDUSTRIES**

Таблица-справочник вариантов сфер деятельности работодателей.

drawing

**EMPLOYERS_INDUSTRIES**

Дополнительная таблица, которая существует для организации связи между работодателями и сферами их деятельности.

Эта таблица нужна нам, поскольку у одного работодателя может быть несколько сфер деятельности (или работодатели могут вовсе не указать их). Для удобства анализа необходимо хранить запись по каждой сфере каждого работодателя в отдельной строке таблицы.

drawing

:arrow_up:[к оглавлению](README.md#Оглавление)

### Результаты
В ходе выполнения задания проведена работа по анализу вакансий с использованием python и SQL-запросов, сформированы выводы по блокам заданий и общий вывод в конце по результатам анализа имеющихся данных по вакансиям. Отчет сформирован в формате .ipynb с применением библиотеки визуализации данных Plotly.

:arrow_up:[к оглавлению](README.md#Оглавление)