{"id":13688512,"url":"https://github.com/NeuronDance/DeepRL","last_synced_at":"2025-05-01T19:31:11.667Z","repository":{"id":40650513,"uuid":"172024695","full_name":"NeuronDance/DeepRL","owner":"NeuronDance","description":"Deep Reinforcement Learning Lab, a platform designed to make DRL technology and fun for everyone","archived":false,"fork":false,"pushed_at":"2022-04-11T05:25:55.000Z","size":133547,"stargazers_count":2464,"open_issues_count":6,"forks_count":588,"subscribers_count":100,"default_branch":"master","last_synced_at":"2025-04-13T14:08:51.068Z","etag":null,"topics":[],"latest_commit_sha":null,"homepage":"","language":null,"has_issues":true,"has_wiki":null,"has_pages":null,"mirror_url":null,"source_name":null,"license":"mit","status":null,"scm":"git","pull_requests_enabled":true,"icon_url":"https://github.com/NeuronDance.png","metadata":{"files":{"readme":"README.md","changelog":null,"contributing":null,"funding":null,"license":"LICENSE","code_of_conduct":null,"threat_model":null,"audit":null,"citation":null,"codeowners":null,"security":null,"support":null}},"created_at":"2019-02-22T08:21:56.000Z","updated_at":"2025-04-12T06:37:54.000Z","dependencies_parsed_at":"2022-07-14T04:50:30.713Z","dependency_job_id":null,"html_url":"https://github.com/NeuronDance/DeepRL","commit_stats":null,"previous_names":[],"tags_count":0,"template":false,"template_full_name":null,"repository_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/NeuronDance%2FDeepRL","tags_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/NeuronDance%2FDeepRL/tags","releases_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/NeuronDance%2FDeepRL/releases","manifests_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/NeuronDance%2FDeepRL/manifests","owner_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners/NeuronDance","download_url":"https://codeload.github.com/NeuronDance/DeepRL/tar.gz/refs/heads/master","host":{"name":"GitHub","url":"https://github.com","kind":"github","repositories_count":251932653,"owners_count":21667189,"icon_url":"https://github.com/github.png","version":null,"created_at":"2022-05-30T11:31:42.601Z","updated_at":"2022-07-04T15:15:14.044Z","host_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub","repositories_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories","repository_names_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repository_names","owners_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners"}},"keywords":[],"created_at":"2024-08-02T15:01:15.662Z","updated_at":"2025-05-01T19:31:06.649Z","avatar_url":"https://github.com/NeuronDance.png","language":null,"readme":"# Deep Reinforcement Learning(深度强化学习)\n\n\u003cp align=\"center\"\u003e\n\u003ca href=\"https://travis-ci.org/onevcat/Kingfisher\"\u003e\u003cimg src=\"https://img.shields.io/travis/onevcat/Kingfisher/master.svg\"\u003e\u003c/a\u003e\n\u003ca href=\"https://raw.githubusercontent.com/onevcat/Kingfisher/master/LICENSE\"\u003e\u003cimg src=\"https://img.shields.io/cocoapods/l/Kingfisher.svg?style=flat\"\u003e\u003c/a\u003e\n\n[](https://img.shields.io/github/issues/NeuronDance/DeepRL)\n\n\u003c/p\u003e\u003cbr\u003e\n\n\n本仓库由“深度强化学习实验室(DeepRL-Lab)”创建，希望能够为所有DRL研究者，学习者和爱好者提供一个学习指导。\n\n\n\u003e如今机器学习发展如此迅猛，各类算法层出不群，特别是深度神经网络在计算机视觉、自然语言处理、时间序列预测等多个领域更是战果累累，可以说这波浪潮带动了很多人进入深度学习领域，也成就了其一番事业。而强化学习作为一门灵感来源于心理学中的行为主义理论的学科，其内容涉及概率论、统计学、逼近论、凸分析、计算复杂性理论、运筹学等多学科知识，难度之大，门槛之高，导致其发展速度特别缓慢。围棋作为人类的娱乐游戏中复杂度最高的一个，它横竖各有19条线，共有361个落子点，双方交替落子，状态空间高达10的171次方(注：宇宙中的原子总数是10的80次方，即使穷尽整个宇宙的物质也不能存下围棋的所有可能性）\n### 1、Deep Reinforcement Learning？\n时间 |   内容| \n-|-|\n2015.10 | 由Google-DeepMind公司开发的AlphaGo程序击败了人类高级选手樊麾，成为第一个无需让子即可在19路棋盘上击败围棋职业棋手的计算机围棋程序，并写进了历史，论文发表在国际顶级期刊《Science》上| \n2016.3| 透过自我对弈数以万计盘进行练习强化，AlphaGo在一场五番棋比赛中4:1击败顶尖职业棋手李世石。|\n2016.12|Master(AlphaGo版本)开始出现于弈城围棋网和腾讯野狐围棋网，取得60连胜的成绩，以其空前的实力轰动了围棋界。|\n-|DeepMind 如约公布了他们最新版AlphaGo论文(Nature)，介绍了迄今最强最新的版本AlphaGo Zero，使用纯强化学习，将价值网络和策略网络整合为一个架构，3天训练后就以100比0击败了上一版本的AlphaGo。AlphaGo已经退休，但技术永存。DeepMind已经完成围棋上的概念证明，接下来就是用强化学习创造改变世界的价值。|\n\n围棋被攻克证明了强化学习发展的威力，作为AlphoGo的带头人，强化学习界的大神，David Sliver提出人工智能的终极目标是：\n\n**AI = DL(Deep Learning) + RL(Reinforcement Learning) == DRL(Deep Reinforcement Learning)**\n\n\n---\n\n### 2、Application？\n在深度学习已经取得了很大的进步的基础上，深度强化学习真正的发展归功于神经网络、深度学习以及计算力的提升，David就是使用了神经网络逼近值函数后提出深度强化学习（Deep Reinforcement Learning，DRL），并证明了确定性策略等。纵观近四年的ICML，NPIS等顶级会议论文，强化学习的理论进步，应用领域逐渐爆发式增广，目前已经在如下领域有了广泛使用:\n\u003e\n+ 自动驾驶：自动驾驶载具（self-driving vehicle）\n+ 控制论(离散和连续大动作空间): 玩具直升机、Gymm_cotrol物理部件控制、机器人行走、机械臂控制。\n+ 游戏：Go, Atari 2600(DeepMind论文详解)等\n+ 自然语言处理：机器翻译, 文本序列预测，问答系统，人机对话\n+ 超参数学习：神经网络参数自动设计\n+ 推荐系统：阿里巴巴黄皮书（商品推荐），广告投放。\n+ 智能电网：电网负荷调试，调度等\n+ 通信网络：动态路由, 流量分配等\n+ 财务与财经系统分析与管理\n+ 智能医疗\n+ 智能交通网络及网络流\n+ 物理化学实验：定量实验，核素碰撞，粒子束流调试等\n+ 程序学习和网络安全：网络攻防等\n\n---\n\n### 3、一流研究机构有哪些?\n机构名| Logo|官网|简介|\n-|-|-|-|\nDeepMind|![](assets/markdown-img-paste-20190222165835138.png)|[Access](https://deepmind.com/)|DeepMind是一家英国的人工智能公司。公司创建于2010年，最初名称是DeepMind科技（DeepMind Technologies Limited），在2014年被谷歌收购。|\nOpenAI|![](assets/markdown-img-paste-20190222165707224.png)|[Access](https://openai.com/)|OpenAI是一个非营利性人工智能（AI）研究组织，旨在促进和发展友好的人工智能，使人类整体受益。这家总部位于旧金山的组织成立于2015年底，旨在通过向公众开放其专利和研究，与其他机构和研究人员“自由合作”。创始人（尤其是伊隆马斯克和萨姆奥特曼）的部分动机是出于对通用人工智能风险的担忧。|\nUC Berkeley||[Access1](https://bair.berkeley.edu)\u003cbr\u003e[Access2](http://hart.berkeley.edu/)||\n...||||\n\n\n\n### 4、业界大佬有哪些？\nName|Company| Homepage|about|\n-|-|-|-|\n**Richard Sutton**|Deepmind|[page](http://incompleteideas.net/)|强化学习的祖师爷，著有《Reinforcement Learning: An Introduction》|\n**David Sliver**|DeepMind|[page](http://www0.cs.ucl.ac.uk/staff/d.silver/web/Home.html),[Google学术](https://scholar.google.com/citations?user=-8DNE4UAAAAJ\u0026hl=zh-CN)|AlphaGo、AlphaStar掌门人，UCL公开课主讲人,他工作重点是将强化学习与深度学习相结合，包括一个学习直接从像素中学习Atari游戏的程序。领导AlphaGo项目，最终推出了第一个在Go全尺寸游戏中击败顶级职业玩家的计划。 AlphaGo随后获得了荣誉9丹专业认证;并因创新而获得戛纳电影节奖。然后他领导了AlphaZero的开发，它使用相同的AI来学习玩从头开始（仅通过自己玩而不是从人类游戏中学习），然后学习以相同的方式下棋和将棋，比任何其他计算机更高的水平方案|\n**Oriol Vinyals**|DeepMind||AlphaStar主要负责人\n**Pieter Abbeel**|UC Berkeley| [page](http://people.eecs.berkeley.edu/~pabbeel/),[Google学术](https://scholar.google.com/citations?user=vtwH6GkAAAAJ\u0026hl=zh-CN)|机器人和强化学习专家 加州大学伯克利分校教授，EECS，BAIR，CHAI（2008-）,伯克利机器人学习实验室主任，伯克利人工智能研究（BAIR）实验室联合主任,联合创始人，总裁兼首席科学家covariant.ai（2017-）,研究科学家（2016-2017），顾问（2018-）OpenAI,联合创始人Gradescope（2014-2018：TurnItIn收购）|\n\n\n### 5、如何学习?\n内容|学习方法与资料|\n-|-|\n补充数学基础(高数、线代、概率论)|[Access](https://github.com/NeuronDance/DeepRL/tree/master/AI-Basic-Resource)|\n基础与课程学习|[Access](https://github.com/NeuronDance/DeepRL/tree/master/DRL-Course)\u003cbr\u003e\n强化学习竞赛|[Access](https://github.com/NeuronDance/DeepRL/tree/master/DRL-Competition)\u003cbr\u003e\n开源框架学习|[Access](https://github.com/NeuronDance/DeepRL/tree/master/DRL-OpenSource)\n\n\n\n\n\n\n### 6、关于深度强化学习实验室\n-|-|-|\n成员|包含教授、讲师、博士、硕士、本科、|**学术界**:清华、北大、山大、浙大、北航、东南、南大、大工、天大、中科大、北理工、国防科大、牛津大学、帝国理工、CMU、南洋理工、柏林工业、西悉尼大学、埃默里大学等\u003cbr\u003e**工业界**:腾讯、阿里巴巴、网易、头条、华为、快手等\n\n愿景|DeepRL|\n[1]. 提供最全面的深度强化学习书籍、资料、综述等学习资源。\u003cbr\u003e[2]. 阐述深度强化学习的基本原理、前沿算法、场景应用、竞赛分析、论文分享等专业知识。\u003cbr\u003e[3]. 分享最前沿的业界动态和行业发展趋势。\u003cbr\u003e[4]. 成为所有深度强化学习领域的研究者与爱好者交流平台。\n\n### @致谢\n欢迎每一位伙伴积极为项目贡献微薄之力，共同点亮星星之火。\u003cbr\u003e\n\n\n**贡献者列表(排名不分先后)**：\u003cbr\u003e\n\n---\n@[taoyafan](https://github.com/taoyafan),@[BluesChang](https://github.com/BluesChang)，@[Wangergou123](https://github.com/Wangergou123),@[TianLin0509](https://github.com/TianLin0509)，@[zanghyu](https://github.com/zanghyu),@[hijkzzz](https://github.com/hijkzzz),@[tengshiquan](https://github.com/tengshiquan)\n\n---\n\n#### @联系方式\nTitle||\n-|-|\n微信群聊|加微信助手：NeuronDance(进交流群)|\nCSDN博客|[深度强化学习(DRL)探索](https://blog.csdn.net/gsww404)\u003cbr\u003e|\n知乎专栏|[DeepRL基础探索](https://zhuanlan.zhihu.com/deeprl)/[DeepRL前沿论文解读](https://zhuanlan.zhihu.com/drl-paper)\n微信公众号|如下图|\n\n![](http://deeprlhub.com/assets/files/2021-12-24/1640349661-676524-wechatimg64.jpeg)\n","funding_links":[],"categories":["Others","Awesome"],"sub_categories":[],"project_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2FNeuronDance%2FDeepRL","html_url":"https://awesome.ecosyste.ms/projects/github.com%2FNeuronDance%2FDeepRL","lists_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2FNeuronDance%2FDeepRL/lists"}