https://github.com/datalopes1/medical_cost
Projeto baseado no dataset Medical Cost Personal Datasets encontrado no Kaggle e disponibilizado por Miri Choi.
https://github.com/datalopes1/medical_cost
machinelearning python regression xgboost
Last synced: about 2 months ago
JSON representation
Projeto baseado no dataset Medical Cost Personal Datasets encontrado no Kaggle e disponibilizado por Miri Choi.
- Host: GitHub
- URL: https://github.com/datalopes1/medical_cost
- Owner: datalopes1
- Created: 2024-04-30T19:32:22.000Z (about 1 year ago)
- Default Branch: main
- Last Pushed: 2024-07-28T17:41:41.000Z (10 months ago)
- Last Synced: 2025-02-02T13:32:16.856Z (4 months ago)
- Topics: machinelearning, python, regression, xgboost
- Language: Jupyter Notebook
- Homepage:
- Size: 6.37 MB
- Stars: 0
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# Previsão de Preços - Medical Cost Personal Datasets
Os dados tem origem no livro "Machine Learning with R" Brett Lantz, a publicação fornece uma introdução ao aprendizado de máquina. Os dados tratam de registros sobre beneficiários de um seguro de saúde nos EUA e vamos utilizá-los para fazer predições e avaliar os fatores que afetam o preço deste produto através da biblioteca Scikit-learn. Os dados podem ser encontrados no [Kaggle](https://www.kaggle.com/datasets/mirichoi0218/insurance) e foram disponibilizados por [Miri Choi](https://www.kaggle.com/mirichoi0218).
## Features
|Coluna|Descrição|
|---|---|
|age|Idade|
|sex|Genêro|
|bmi|O IMC (Índice de Massa Corporal)|
|children|Número de dependentes|
|smoker|Fumante (sim ou não)|
|region|A zona residencial|
|charges|Os custos individuais do seguro|## Metas e objetivos
O objetivo desse projeto é fazer uma breve análise exploratória e construir um modelo de Machine Learning para predizer preço de seguro saúde.
### Resultados
#### Insights da Análise Exploratória
- Tabagismo é o fator de maior peso no aumento do valor do seguro de saúde;
- Peso (IMC), e Idade são os outros fatores que tem maior efeito nos preços, hábitos saudáveis além de estender a vida também ajudam na saúde financeira;### Sobre o modelo
Com o XGBRegressor alcançamos um modelo com as seguintes métricas:|Métrica|Resultado
|---|---|
|R2 Score|0.815|
|Mean Squared Error|0.1664
### Ferramentas utilizadas

### Bibliotecas Python utilizadas
#### Manipulação de dados
- Pandas, NumPy.
#### EDA
- Seaborn, Matplotlib.
#### Machine Learning e Feature Engineering
- Scikit-learn, XGBoost.# Exploratory Data Analysis
### Comportamento do target
Existe uma forte assimétria na variável dependente, vamos observar com um histograma.
### Features x target
Existe uma correlação positiva entre a idade e os preços do seguro. O tabagismo também é um fator que pode pesar nos preços, vamos repetir o gráfico de dispersão mas agora destacando os fumantes.

Os maiores valores de seguro são pagos por fumantes.


É possível observar alguns valores extremos, vamos checar se estes são fumantes.

Novamente o tabismo se mostra um hábito que encarece o preço do seguro.



### Correlação
Idade, IMC e o Tabagismo são as principais variáveis relacionadas ao preço do seguro.
# Modelo de Regressão
O modelo utilizado para este projeto foi o XGBRegressor, e tive o seguinte resultado de desempenho com ele:|Métrica|Resultado
|---|---|
|R2 Score|0.815|
|Mean Squared Error|0.1664|
