{"id":13543411,"url":"https://github.com/apachecn/kaggle","last_synced_at":"2025-03-01T03:25:10.892Z","repository":{"id":45841434,"uuid":"427644071","full_name":"apachecn/Kaggle","owner":"apachecn","description":null,"archived":false,"fork":false,"pushed_at":"2021-11-13T11:18:24.000Z","size":6,"stargazers_count":112,"open_issues_count":0,"forks_count":10,"subscribers_count":5,"default_branch":"master","last_synced_at":"2025-01-11T18:32:45.838Z","etag":null,"topics":[],"latest_commit_sha":null,"homepage":null,"language":null,"has_issues":true,"has_wiki":null,"has_pages":null,"mirror_url":null,"source_name":null,"license":null,"status":null,"scm":"git","pull_requests_enabled":true,"icon_url":"https://github.com/apachecn.png","metadata":{"files":{"readme":"README.md","changelog":null,"contributing":null,"funding":null,"license":null,"code_of_conduct":null,"threat_model":null,"audit":null,"citation":null,"codeowners":null,"security":null,"support":null}},"created_at":"2021-11-13T11:17:47.000Z","updated_at":"2024-12-22T10:18:15.000Z","dependencies_parsed_at":"2022-07-31T00:08:03.324Z","dependency_job_id":null,"html_url":"https://github.com/apachecn/Kaggle","commit_stats":null,"previous_names":[],"tags_count":0,"template":false,"template_full_name":null,"repository_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/apachecn%2FKaggle","tags_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/apachecn%2FKaggle/tags","releases_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/apachecn%2FKaggle/releases","manifests_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/apachecn%2FKaggle/manifests","owner_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners/apachecn","download_url":"https://codeload.github.com/apachecn/Kaggle/tar.gz/refs/heads/master","host":{"name":"GitHub","url":"https://github.com","kind":"github","repositories_count":241312152,"owners_count":19942305,"icon_url":"https://github.com/github.png","version":null,"created_at":"2022-05-30T11:31:42.601Z","updated_at":"2022-07-04T15:15:14.044Z","host_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub","repositories_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories","repository_names_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repository_names","owners_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners"}},"keywords":[],"created_at":"2024-08-01T11:00:31.270Z","updated_at":"2025-03-01T03:25:10.870Z","avatar_url":"https://github.com/apachecn.png","language":null,"readme":"# Kaggle\n\n![](img/logos/kaggle-logo-gray-bigger.jpeg)\n\n\u003e **你已经抓住了石头，现在是挥舞它的时候了！**\n\n* [ApacheCN 组织资源](https://docs.apachecn.org/): \u003chttps://docs.apachecn.org/\u003e\n* **ApacheCN - 比赛学习群【724187166】\u003ca target=\"_blank\" href=\"//shang.qq.com/wpa/qunwpa?idkey=9bcf2fb3985835c9c2f15783ec9c85822e23be1191a6581eaf22f574b5192b19\"\u003e\u003cimg border=\"0\" src=\"http://data.apachecn.org/img/logo/ApacheCN-group.png\" alt=\"ApacheCN - 比赛学习群[724187166]\" title=\"ApacheCN - 比赛学习群[724187166]\"\u003e\u003c/a\u003e**\n* [Kaggle](https://www.kaggle.com) 是一个流行的数据科学竞赛平台。\n* [GitHub 入门操作指南](/docs/GitHub/README.md) 和 [Kaggle 入门操作指南](/docs/kaggle-quickstart.md)，适合于学习过 [MachineLearning(机器学习实战)](https://github.com/apachecn/MachineLearning) 的小盆友\n* Kaggle 已被 Google 收购，请参阅[《谷歌收购 Kaggle 为什么会震动三界（AI、机器学习、数据科学界）》](https://www.leiphone.com/news/201703/ZjpnddCoUDr3Eh8c.html)\n\n\u003e Note:\n\n* 号外号外 [**kaggle组队开始啦**](/docs/kaggle-start.md)\n* 比赛收集平台: \u003chttps://github.com/iphysresearch/DataSciComp\u003e\n* [关于 ApacheCN](https://home.apachecn.org/about/): 一边学习和整理，一边录制项目视频，希望能组建一个开源的公益团队对国内机器学习社区做一些贡献，同时也为装逼做准备!!\n\n## 直播系列\n\n* https://space.bilibili.com/97678687/channel/detail?cid=76173\n\n\u003e kaggle入门系列\n\n* [Kaggle系列-数字识别](https://www.bilibili.com/video/av53119200)\n* [Kaggle系列-泰坦尼克号](https://www.bilibili.com/video/av65679428)\n\n\u003e 比赛直播系列\n\n* [视频: 2019ICME 抖音视频理解 top2 solution 分享及 数据比赛入门讲解](https://www.bilibili.com/video/av57385532)\n* [文档: icme2019-top2.pptx](/docs/简历指南/icme2019-top2.pptx)\n* [昊神GitHub地址: https://github.com/Smilexuhc](https://github.com/Smilexuhc)\n* [昊神整理比赛系列: https://github.com/Smilexuhc/Data-Competition-TopSolution](https://github.com/Smilexuhc/Data-Competition-TopSolution)\n\n## Kaggle 官方教程\n\n\u003e 机器学习入门\n\n* [**1. 模型是怎样工作的**](learn/intro-to-machine-learning/1.md)\n* [**2. 数据探索**](learn/intro-to-machine-learning/2.md)\n* [**3. 你的第一个机器学习模型**](learn/intro-to-machine-learning/3.md)\n* [**4. 模型验证**](learn/intro-to-machine-learning/4.md)\n* [**5. 欠拟合与过拟合**](learn/intro-to-machine-learning/5.md)\n* [**6. 随机森林**](learn/intro-to-machine-learning/6.md)\n* [**7. 继续你的征程**](learn/intro-to-machine-learning/7.md)\n\n\u003e 补充\n\n* [**Embedding**](learn/embeddings)\n\n\n## [竞赛](https://www.kaggle.com/competitions)\n\n* 【推荐】特征工程全过程: https://www.cnblogs.com/jasonfreak/p/5448385.html\n\n\u003e train loss 与 test loss 结果分析\n\n* train loss 不断下降，test loss不断下降，说明网络仍在学习;\n* train loss 不断下降，test loss趋于不变，说明网络过拟合;\n* train loss 趋于不变，test loss不断下降，说明数据集100%有问题;\n* train loss 趋于不变，test loss趋于不变，说明学习遇到瓶颈，需要减小学习率或批量数目;\n* train loss 不断上升，test loss不断上升，说明网络结构设计不当，训练超参数设置不当，数据集经过清洗等问题。\n\n```python\n机器学习比赛，奖金很高，业界承认分数。\n现在我们已经准备好尝试 Kaggle 竞赛了，这些竞赛分成以下几个类别。\n```\n\n### [第1部分：课业比赛 InClass](https://www.kaggle.com/competitions?sortBy=deadne\u0026group=all\u0026page=1\u0026pageSize=20\u0026segment=inClass)\n\n`课业比赛 InClass` 是学校教授机器学习的老师留作业的地方，这里的竞赛有些会向public开放参赛，也有些仅仅是学校内部教学使用。\n\n### [第2部分：入门比赛 Getting Started](https://www.kaggle.com/competitions?sortBy=deadline\u0026group=all\u0026page=1\u0026pageSize=20\u0026segment=gettingStarted)\n\n`入门比赛 Getting Started` 给萌新们一个试水的机会，没有奖金，但有非常多的前辈经验可供学习。很久以前Kaggle这个栏目名称是101的时候，比赛题目还很多，但是现在只保留了9个最经典的入门竞赛：手写数字识别、沉船事故幸存估计、脸部识别、Julia语言入门。\n\n* [**数字识别**](competitions/getting-started/digit-recognizer)\n* [**泰坦尼克**](competitions/getting-started/titanic)\n* [**房价预测**](competitions/getting-started/house-price)\n* [**nlp-情感分析**](competitions/getting-started/word2vec-nlp-tutorial)\n\n### [第3部分：训练场 Playground](https://www.kaggle.com/competitions?sortBy=deadline\u0026group=all\u0026page=1\u0026pageSize=20\u0026segment=playground)\n\n`训练场 Playground`里的题目以有趣为主，比如猫狗照片分类的问题。现在这个分类下的题目不算多，但是热度很高。\n\n* [**猫狗识别**](competitions/playground/dogs-vs-cats)\n\n### [第4部分： 研究项目(少奖金) Research](https://www.kaggle.com/competitions?sortBy=prize\u0026group=active\u0026page=1\u0026pageSize=20\u0026segment=research)\n\n`研究型 Research` 竞赛通常是机器学习前沿技术或者公益性质的题目。竞赛奖励可能是现金，也有一部分以会议邀请、发表论文的形式奖励。\n\n### [第5部分：人才征募 Recruitment](https://www.kaggle.com/competitions?sortBy=prize\u0026group=active\u0026page=1\u0026pageSize=20\u0026segment=recruitment)\n\n`人才征募 Recruitment` 竞赛是赞助企业寻求数据科学家、算法设计人才的渠道。只允许个人参赛，不接受团队报名。\n\n### [第6部分： 大型组织比赛(大奖金) Featured](https://www.kaggle.com/competitions?sortBy=prize\u0026group=active\u0026page=1\u0026pageSize=20\u0026segment=featured)\n\n`推荐比赛 Featured` 是瞄准商业问题带有奖金的公开竞赛。如果有幸赢得比赛，不但可以获得奖金，模型也可能会被竞赛赞助商应用到商业实践中呢。\n\n* [**Mercari 价格推荐挑战**](competitions/featured/mercari-price-suggestion-challenge)\n* [**Home Credit Default Risk**](competitions/featured/home-credit-default-risk)\n\n### [第7部分： 限量邀请赛 Masters（新）](https://www.kaggle.com/competitions?sortBy=grouped\u0026group=general\u0026page=1\u0026pageSize=20\u0026category=masters)\n\n`Masters（新）`  限量参与比赛（受邀）\n\n### [第8部分： 多评估标准赛 Analytics（新）](https://www.kaggle.com/competitions?sortBy=grouped\u0026group=general\u0026page=1\u0026pageSize=20\u0026category=analytics)\n\n`Analytics（新）` 选择最优评估标准来排名的比赛\n\n### 天池\n\n* [**天池入门教程: O2O优惠券-使用新人赛**](https://tianchi.aliyun.com/notebook/detail.html?spm=5176.11409386.4851167.7.65c91d07FiVHVN\u0026id=4796)\n* [**天池第一名: O2O优惠券-预测用户领取优惠劵后是否核销**](https://github.com/wepe/O2O-Coupon-Usage-Forecast)\n\n## 其他部分\n\n* [数据集](https://www.kaggle.com/datasets): 数据集，可直接用于机器学习。\n* [核心思想](https://www.kaggle.com/kernels): 在线编程。（猜测，基于 jupyter 实现）\n* [论坛](https://www.kaggle.com/discussion): 发帖回帖讨论的平台\n* [**学习 - 新**](https://www.kaggle.com/learn/overview): 最新发布的学习教程\n* [招聘](https://www.kaggle.com/jobs): 企业招聘数据科学家的位置\n\n## 解决方案列表\n\n* [解决方案列表](/docs/writeup-list.md)\n\n如果解决方案太大，可以先放在这个列表中。以后再逐步整合到这个仓库。\n\n## 机器学习算法\n\n\u003e 常用算法选择\n\n![](img/docs/kaggle-常用算法选择.png)\n\n\u003e 常用工具选择\n\n![](img/docs/kaggle-常用工具选择.png)\n\n\u003e 解决问题的流程\n\n1. 链接场景和目标\n2. 链接评估准则\n3. 认识数据\n4. 数据预处理（清洗、调权）\n5. 特征工程\n6. 模型调参\n7. 模型状态分析\n8. 模型融合\n\n\u003e 数据预处理\n\n* 数据清洗\n    * 去掉样本数据的异常数据。（比如连续型数据中的离群点）\n    * 去除缺失大量特征的数据\n* 数据采样\n    * 下/上采样（假设正负样本比例1:100，把正样本的数量重复100次，这就叫上采样，也就是把比例小的样本放大。下采样同理，把比例大的数据抽取一部分，从而使比例变得接近于1；1）\n    * 保证样本均衡\n* 工具 sql、pandas等\n\n\u003e 特征工程\n\n![](img/docs/kaggle-特征工程.png)\n\n\u003e 特征处理\n\n- 数值型：连续型数据离散化或者归一化、数据变化（log、指数、box-cox）\n- 类别型：做编码，eg：one-hot编码，如果类别数据有缺失，把缺失也作为一个类别即可。\n- 时间类：间隔化（距离某个节日多少天）、与其他特征（eg：次数）融合，变成一周登陆几次、离散化（eg：外卖，把时间分为【饭店、非饭店】）\n- 文本类：N-gram、Bag-of-words、TF-IDF\n- 统计型：与业务强关联\n- 组合特征\n\n## 贡献指南\n\n\u003e **欢迎任何人参与和完善：一个人可以走的很快，但是一群人却可以走的更远**\n\n本项目接受大家提交 WriteUp（题解）。\n\nWriteUp 需要带有预处理过程，从你能下载到的原始数据开始，并且带有验证过程和评价指标。\n\n请放在`/competitions/{分类}/{名称}`目录下。\n\n其中分类一共有六个，请见上面，名称是 URL 中`/c/`后面的部分。\n","funding_links":[],"categories":["其它资源列表"],"sub_categories":[],"project_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fapachecn%2Fkaggle","html_url":"https://awesome.ecosyste.ms/projects/github.com%2Fapachecn%2Fkaggle","lists_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fapachecn%2Fkaggle/lists"}