{"id":22563876,"url":"https://github.com/datalopes1/medical_cost","last_synced_at":"2026-05-05T05:38:22.074Z","repository":{"id":237313420,"uuid":"794268937","full_name":"datalopes1/medical_cost","owner":"datalopes1","description":"Projeto baseado no dataset Medical Cost Personal Datasets encontrado no Kaggle e disponibilizado por Miri Choi.","archived":false,"fork":false,"pushed_at":"2024-07-28T17:41:41.000Z","size":6684,"stargazers_count":0,"open_issues_count":0,"forks_count":0,"subscribers_count":1,"default_branch":"main","last_synced_at":"2025-02-02T13:32:16.856Z","etag":null,"topics":["machinelearning","python","regression","xgboost"],"latest_commit_sha":null,"homepage":"","language":"Jupyter Notebook","has_issues":true,"has_wiki":null,"has_pages":null,"mirror_url":null,"source_name":null,"license":null,"status":null,"scm":"git","pull_requests_enabled":true,"icon_url":"https://github.com/datalopes1.png","metadata":{"files":{"readme":"README.md","changelog":null,"contributing":null,"funding":null,"license":null,"code_of_conduct":null,"threat_model":null,"audit":null,"citation":null,"codeowners":null,"security":null,"support":null,"governance":null,"roadmap":null,"authors":null,"dei":null,"publiccode":null,"codemeta":null}},"created_at":"2024-04-30T19:32:22.000Z","updated_at":"2024-07-28T17:43:19.000Z","dependencies_parsed_at":"2024-04-30T20:49:34.740Z","dependency_job_id":"23d48ce1-00a6-44da-9bad-97c04afc17f5","html_url":"https://github.com/datalopes1/medical_cost","commit_stats":null,"previous_names":["datalopes1/medical_cost"],"tags_count":0,"template":false,"template_full_name":null,"repository_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/datalopes1%2Fmedical_cost","tags_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/datalopes1%2Fmedical_cost/tags","releases_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/datalopes1%2Fmedical_cost/releases","manifests_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/datalopes1%2Fmedical_cost/manifests","owner_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners/datalopes1","download_url":"https://codeload.github.com/datalopes1/medical_cost/tar.gz/refs/heads/main","host":{"name":"GitHub","url":"https://github.com","kind":"github","repositories_count":246034307,"owners_count":20712857,"icon_url":"https://github.com/github.png","version":null,"created_at":"2022-05-30T11:31:42.601Z","updated_at":"2022-07-04T15:15:14.044Z","host_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub","repositories_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories","repository_names_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repository_names","owners_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners"}},"keywords":["machinelearning","python","regression","xgboost"],"created_at":"2024-12-07T23:13:20.648Z","updated_at":"2026-05-05T05:38:22.015Z","avatar_url":"https://github.com/datalopes1.png","language":"Jupyter Notebook","funding_links":[],"categories":[],"sub_categories":[],"readme":"# Previsão de Preços - Medical Cost Personal Datasets  \nOs dados tem origem no livro \"Machine Learning with R\" Brett Lantz, a publicação fornece uma introdução ao aprendizado de máquina. Os dados tratam de registros sobre beneficiários de um seguro de saúde nos EUA e vamos utilizá-los para fazer predições e avaliar os fatores que afetam o preço deste produto através da biblioteca Scikit-learn. Os dados podem ser encontrados no [Kaggle](https://www.kaggle.com/datasets/mirichoi0218/insurance) e foram disponibilizados por [Miri Choi](https://www.kaggle.com/mirichoi0218).\n\n![img](https://i.imgur.com/lZnDKsv.jpeg)\n\n## Features\n|Coluna|Descrição|\n|---|---|\n|age|Idade|\n|sex|Genêro|\n|bmi|O IMC (Índice de Massa Corporal)|\n|children|Número de dependentes|\n|smoker|Fumante (sim ou não)|\n|region|A zona residencial|\n|charges|Os custos individuais do seguro|\n\n## Metas e objetivos\nO objetivo desse projeto é fazer uma breve análise exploratória e construir um modelo de Machine Learning para predizer preço de seguro saúde.\n### Resultados \n#### Insights da Análise Exploratória\n- Tabagismo é o fator de maior peso no aumento do valor do seguro de saúde;\n- Peso (IMC), e Idade são os outros fatores que tem maior efeito nos preços, hábitos saudáveis além de estender a vida também ajudam na saúde financeira;\n\n### Sobre o modelo \nCom o XGBRegressor alcançamos um modelo com as seguintes métricas:\n\n|Métrica|Resultado\n|---|---|\n|R2 Score|0.815|\n|Mean Squared Error|0.1664\n### Ferramentas utilizadas\n![Python](https://img.shields.io/badge/python-3670A0?style=for-the-badge\u0026logo=python\u0026logoColor=ffdd54)![Visual Studio Code](https://img.shields.io/badge/Visual%20Studio%20Code-0078d7.svg?style=for-the-badge\u0026logo=visual-studio-code\u0026logoColor=white)![Jupyter Notebook](https://img.shields.io/badge/jupyter-%23FA0F00.svg?style=for-the-badge\u0026logo=jupyter\u0026logoColor=white)\n### Bibliotecas Python utilizadas\n#### Manipulação de dados\n- Pandas, NumPy.\n#### EDA\n- Seaborn, Matplotlib.\n#### Machine Learning e Feature Engineering\n- Scikit-learn, XGBoost.\n\n# Exploratory Data Analysis\n### Comportamento do target\n![](https://github.com/datalopes1/medical_cost/blob/main/doc/img/plot1.png?raw=true)\n\nExiste uma forte assimétria na variável dependente, vamos observar com um histograma. \n\n### Features x target\n![](https://github.com/datalopes1/medical_cost/blob/main/doc/img/plot2.png?raw=true)\n\nExiste uma correlação positiva entre a idade e os preços do seguro. O tabagismo também é um fator que pode pesar nos preços, vamos repetir o gráfico de dispersão mas agora destacando os fumantes.\n\n![](https://github.com/datalopes1/medical_cost/blob/main/doc/img/plot3.png?raw=true)\n\nOs maiores valores de seguro são pagos por fumantes.\n\n![](https://github.com/datalopes1/medical_cost/blob/main/doc/img/plot4.png?raw=true)\n\n![](https://github.com/datalopes1/medical_cost/blob/main/doc/img/plot5.png?raw=true)\n\nÉ possível observar alguns valores extremos, vamos checar se estes são fumantes.\n\n![](https://github.com/datalopes1/medical_cost/blob/main/doc/img/plot6.png?raw=true)\n\nNovamente o tabismo se mostra um hábito que encarece o preço do seguro.\n\n![](https://github.com/datalopes1/medical_cost/blob/main/doc/img/plot7.png?raw=true)\n\n![](https://github.com/datalopes1/medical_cost/blob/main/doc/img/plot8.png?raw=true)\n\n![](https://github.com/datalopes1/medical_cost/blob/main/doc/img/plot9.png?raw=true)\n\n### Correlação\n![](https://github.com/datalopes1/medical_cost/blob/main/doc/img/plot10.png?raw=true)\n\nIdade, IMC e o Tabagismo são as principais variáveis relacionadas ao preço do seguro.\n\n# Modelo de Regressão\nO modelo utilizado para este projeto foi o XGBRegressor, e tive o seguinte resultado de desempenho com ele:\n\n|Métrica|Resultado\n|---|---|\n|R2 Score|0.815|\n|Mean Squared Error|0.1664|\n\n![](https://github.com/datalopes1/medical_cost/blob/main/doc/img/plot11.png?raw=true)\n\n![](https://github.com/datalopes1/medical_cost/blob/main/doc/img/plot12.png?raw=true)\n\n\n","project_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fdatalopes1%2Fmedical_cost","html_url":"https://awesome.ecosyste.ms/projects/github.com%2Fdatalopes1%2Fmedical_cost","lists_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fdatalopes1%2Fmedical_cost/lists"}