{"id":26436321,"url":"https://github.com/chenxingqiang/recent_reinforcement_learning_view","last_synced_at":"2026-02-01T16:33:29.401Z","repository":{"id":95394722,"uuid":"190879920","full_name":"chenxingqiang/Recent_Reinforcement_Learning_View","owner":"chenxingqiang","description":"强化学习专栏 focusing on 第一节 数据处理与分析, 第二节 推理部分, 第二节 未来展望, 第一节 边缘计算概述, 第二节 项目实战.","archived":false,"fork":false,"pushed_at":"2024-07-30T07:11:21.000Z","size":12,"stargazers_count":2,"open_issues_count":0,"forks_count":0,"subscribers_count":1,"default_branch":"master","last_synced_at":"2025-06-14T02:05:24.978Z","etag":null,"topics":["ai","api","artificial-intelligence","deep-learning","learning","neural-network","recent","reinforcement","research","view","web"],"latest_commit_sha":null,"homepage":null,"language":null,"has_issues":true,"has_wiki":null,"has_pages":null,"mirror_url":null,"source_name":null,"license":null,"status":null,"scm":"git","pull_requests_enabled":true,"icon_url":"https://github.com/chenxingqiang.png","metadata":{"files":{"readme":"README.md","changelog":null,"contributing":null,"funding":null,"license":null,"code_of_conduct":null,"threat_model":null,"audit":null,"citation":null,"codeowners":null,"security":null,"support":null,"governance":null,"roadmap":null,"authors":null,"dei":null,"publiccode":null,"codemeta":null}},"created_at":"2019-06-08T11:27:54.000Z","updated_at":"2025-05-24T11:22:03.000Z","dependencies_parsed_at":"2025-03-19T00:15:09.651Z","dependency_job_id":null,"html_url":"https://github.com/chenxingqiang/Recent_Reinforcement_Learning_View","commit_stats":null,"previous_names":[],"tags_count":0,"template":false,"template_full_name":null,"purl":"pkg:github/chenxingqiang/Recent_Reinforcement_Learning_View","repository_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/chenxingqiang%2FRecent_Reinforcement_Learning_View","tags_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/chenxingqiang%2FRecent_Reinforcement_Learning_View/tags","releases_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/chenxingqiang%2FRecent_Reinforcement_Learning_View/releases","manifests_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/chenxingqiang%2FRecent_Reinforcement_Learning_View/manifests","owner_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners/chenxingqiang","download_url":"https://codeload.github.com/chenxingqiang/Recent_Reinforcement_Learning_View/tar.gz/refs/heads/master","sbom_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/chenxingqiang%2FRecent_Reinforcement_Learning_View/sbom","scorecard":null,"host":{"name":"GitHub","url":"https://github.com","kind":"github","repositories_count":286080680,"owners_count":28982809,"icon_url":"https://github.com/github.png","version":null,"created_at":"2022-05-30T11:31:42.601Z","updated_at":"2026-02-01T16:29:42.054Z","status":"ssl_error","status_checked_at":"2026-02-01T16:29:41.428Z","response_time":56,"last_error":"SSL_read: unexpected eof while reading","robots_txt_status":"success","robots_txt_updated_at":"2025-07-24T06:49:26.215Z","robots_txt_url":"https://github.com/robots.txt","online":false,"can_crawl_api":true,"host_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub","repositories_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories","repository_names_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repository_names","owners_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners"}},"keywords":["ai","api","artificial-intelligence","deep-learning","learning","neural-network","recent","reinforcement","research","view","web"],"created_at":"2025-03-18T08:16:16.503Z","updated_at":"2026-02-01T16:33:29.386Z","avatar_url":"https://github.com/chenxingqiang.png","language":null,"funding_links":[],"categories":[],"sub_categories":[],"readme":"# Recent Reinforcement Learning View\n强化学习专栏\n\n## 编外篇\n### 第零周：数据科学，从计算到推理\n\n## 第一部分 强化学习理论探索专题\n\n### 第一节 理论和计算部分\n1. 第一周：强化学习基础概念\n2. 第二周：强化学习理论宗派\n3. 第三周：强化学习与监督学习\n4. 第四周：强化学习的实验环境\n5. 第五周：强化学习中的数学基础\n6. 第六周：强化学习中优化策略\n7. 第七周：强化学习中的实验环境构建\n\n### 第二节 推理部分\n8. 第八周：强化学习基本算法\n9. 第九周：最优价值算法 Q-learning 和 DQN 算法\n10. 第十周：基于策略梯度的算法\n11. 第十一周：稀疏回报求解和 Model-based 算法\n12. 第十二周：反向强化学习算法\n\n## 第二部分 强化学习应用场景专题\n\n### 第一节 经典应用场景\n13. 第十三周：强化学习在 AlphaZero 中的应用\n14. 第十四周：强化学习与推荐检索系统\n15. 第十五周：强化学习与无人驾驶\n16. 第十六周：强化学习与对战游戏\n17. 第十七周：强化学习与路径规划和飞行控制\n18. 第十八周：强化学习与动态规划\n19. 第十九周：强化学习与量化交易\n20. 第二十周：强化学习与自然语言处理\n21. 第二十一周：强化学习在 AutoML 中的应用\n22. 第二十二周：强化学习与机器人控制\n\n### 第二节 新兴应用场景\n23. 第二十三周：强化学习与智能医疗\n24. 第二十四周：强化学习与智能城市\n25. 第二十五周：强化学习与智能制造\n26. 第二十六周：强化学习与环境保护\n27. 第二十七周：强化学习与空间探索\n28. 第二十八周：强化学习与金融科技\n29. 第二十九周：强化学习与智能农业\n30. 第三十周：强化学习与网络安全\n\n## 第三部分 强化学习编程实践专题\n\n### 第一节 背景介绍与基础实践\n31. 第三十一周：What is Reinforcement Learning\n32. 第三十二周：OpenAI gym\n33. 第三十三周：OpenAI Gym API\n34. 第三十四周：DeepLearning with PyTorch\n35. 第三十五周：The Cross-Entropy Methods\n36. 第三十六周：Tabular Learning and the Bellman Equation\n37. 第三十七周：Deep Q-networks\n38. 第三十八周：DQN extensions\n39. 第三十九周：stocks trading using RL\n40. 第四十周：Policy Gradients: an alternative\n\n### 第二节 深度应用与项目实践\n41. 第四十一周：The Actor-Critic Methods\n42. 第四十二周：Asynchronous Advantage Actor-Critic\n43. 第四十三周：Chatbot Training with RL\n44. 第四十四周：Web Navigation\n45. 第四十五周：Continuous Action Space\n46. 第四十六周：Trust regions--TRPO，PPO，and ACKTR\n47. 第四十七周：Black-box Optimization in RL\n48. 第四十八周：Beyond Model-Free -- Imagination\n49. 第四十九周：An on Atari Breakout\n50. 第五十周：AlphaGO Zero \n\n## 第四部分 强化学习前沿论文专题\n\n### 第一节 开创性研究\n51. 第五十一周：开山鼻祖 DQN 系列\n52. 第五十二周：基于策略梯度的深度强化学习\n53. 第五十三周：分层 Deep Reinforcement Learning\n54. 第五十四周：Deep Reinforcement Learning 多任务和迁移学习\n\n### 第二节 最新进展与挑战\n55. 第五十五周：基于外部记忆模块的 Deep Reinforcement Learning\n56. 第五十六周：Deep Reinforcement Learning 中探索和利用问题\n57. 第五十七周：多 Agent Deep Reinforcement Learning 问题\n58. 第五十八周：逆向深度强化学习专题\n59. 第五十九周：探索和监督学习\n60. 第六十周：异步深度强化学习\n61. 第六十一周：强化学习与模仿学习\n\n## 第五部分 强化学习与深度学习交叉领域探索综述专题\n\n### 第一节 交叉研究综述\n62. 第六十二周：强化学习与 GCN 交叉研究综述\n63. 第六十三周：强化学习与 CNN 交叉研究综述\n64. 第六十四周：强化学习与 RNN 交叉研究综述\n65. 第六十五周：强化学习与 AutoML 交叉研究综述\n\n### 第二节 实践与应用案例\n66. 第六十六周：强化学习与GAN交叉研究综述\n67. 第六十七周：强化学习与迁移学习热点综述\n68. 第六十八周：强化学习与模仿学习热点综述\n69. 第六十九周：反向强化学习热点综述\n70. 第七十周：强化学习未来发展方向综述\n\n## 第六部分 强化学习在特定领域的应用探索\n\n### 第一节 领域探索\n71. 第七十一周：强化学习在医疗领域的应用\n72. 第七十二周：强化学习在教育领域的应用\n73. 第七十三周：强化学习在能源管理中的应用\n74. 第七十四周：强化学习在交通管理中的应用\n75. 第七十五周：强化学习在客户服务中的应用\n76. 第七十六周：强化学习在物流与供应链管理中的应用\n\n### 第二节 项目与案例分析\n77. 第七十七周：医疗领域中的强化学习案例分析\n78. 第七十八周：教育领域中的强化学习案例分析\n79. 第七十九周：能源管理中的强化学习案例分析\n80. 第八十周：交通管理中的强化学习案例分析\n81. 第八十一周：客户服务中的强化学习案例分析\n82. 第八十二周：物流与供应链管理中的强化学习案例分析\n\n## 第七部分 强化学习编程实践专题进阶\n\n### 第一节 深度学习与强化学习融合实践\n83. 第八十三周：深度 Q 网络（DQN）详解\n84. 第八十四周：DQN 的优化与扩展\n85. 第八十五周：基于策略梯度的方法\n86. 第八十六周：Actor-Critic 方法详解\n87. 第八十七周：基于 A3C 的并行计算\n\n### 第二节 强化学习在现实世界中的应用\n88. 第八十八周：强化学习在自动驾驶中的应用\n89. 第八十九周：强化学习在智能交通中的应用\n90. 第九十周：强化学习在机器人控制中的应用\n91. 第九十一周：强化学习在智能制造中的应用\n92. 第九十二周：强化学习在金融科技中的应用\n\n## 第八部分 强化学习的前沿研究与未来展望\n\n### 第一节 前沿研究综述\n93. 第九十三周：深度强化学习中的探索策略\n94. 第九十四周：基于模型的强化学习\n95. 第九十五周：分层强化学习\n96. 第九十六周：多任务强化学习\n97. 第九十七周：迁移学习与强化学习的结合\n\n### 第二节 未来展望\n98. 第九十八周：强化学习的伦理问题\n99. 第九十九周：强化学习与人类学习的对比\n100. 第一百周：强化学习与神经科学的联系\n101. 第一百零一周：强化学习的工业应用前景\n102. 第一百零二周：强化学习与人工智能的未来\n\n## 第九部分 强化学习的应用工具与框架\n\n### 第一节 工具与框架介绍\n103. 第一百零三周：强化学习工具箱\n104. 第一百零四周：OpenAI Gym 详解\n105. 第一百零五周：使用 PyTorch 进行强化学习\n106. 第一百零六周：使用 TensorFlow 进行强化学习\n\n### 第二节 项目实战\n107. 第一百零七周：构建自己的强化学习环境\n108. 第一百零八周：强化学习项目实战\n109. 第一百零九周：强化学习在游戏中的应用\n110. 第一百一十周：强化学习在机器人控制中的应用\n\n## 第十部分 强化学习与大数据的结合\n\n### 第一节 数据处理与分析\n111. 第一百一十一周：大数据在强化学习中的应用\n112. 第一百一十二周：数据预处理与清洗\n113. 第一百一十三周：数据增强技术\n114. 第一百一十四周：数据分析与可视化\n\n### 第二节 项目实战\n115. 第一百一十五周：强化学习与大数据的融合案例\n116. 第一百一十六周：数据驱动的强化学习项目\n\n117. 第一百一十七周：大数据环境下的强化学习优化\n\n## 第十一部分 强化学习与边缘计算\n\n### 第一节 边缘计算概述\n118. 第一百一十八周：边缘计算简介\n119. 第一百一十九周：边缘计算在强化学习中的应用\n\n### 第二节 项目实战\n120. 第一百二十周：边缘设备上的强化学习项目\n\n---\n\n### 参考文献\n1. Sutton, R. S., \u0026 Barto, A. G. (2018). Reinforcement Learning: An Introduction. MIT Press.\n2. Mnih, V., Kavukcuoglu, K., Silver, D., Rusu, A. A., Veness, J., Bellemare, M. G., ... \u0026 Hassabis, D. (2015). Human-level control through deep reinforcement learning. Nature, 518(7540), 529-533.\n3. Silver, D., Huang, A., Maddison, C. J., Guez, A., Sifre, L., Van Den Driessche, G., ... \u0026 Hassabis, D. (2016). Mastering the game of Go with deep neural networks and tree search. Nature, 529(7587), 484-489.\n4. Lillicrap, T. P., Hunt, J. J., Pritzel, A., Heess, N., Erez, T., Tassa, Y., ... \u0026 Wierstra, D. (2016). Continuous control with deep reinforcement learning. arXiv preprint arXiv:1509.02971.\n5. Schulman, J., Wolski, F., Dhariwal, P., Radford, A., \u0026 Klimov, O. (2017). Proximal policy optimization algorithms. arXiv preprint arXiv:1707.06347.\n6. Levine, S., Pastor, P., Krizhevsky, A., Ibarz, J., \u0026 Quillen, D. (2018). Learning hand-eye coordination for robotic grasping with deep learning and large-scale data collection. The International Journal of Robotics Research, 37(4-5), 421-436.\n7. Van Hasselt, H., Guez, A., \u0026 Silver, D. (2016). Deep reinforcement learning with double Q-learning. In Proceedings of the AAAI Conference on Artificial Intelligence (Vol. 30, No. 1).\n8. Bellemare, M. G., Naddaf, Y., Veness, J., \u0026 Bowling, M. (2013). The arcade learning environment: An evaluation platform for general agents. Journal of Artificial Intelligence Research, 47, 253-279.\n9. Brockman, G., Cheung, V., Pettersson, L., Schneider, J., Schulman, J., Tang, J., \u0026 Zaremba, W. (2016). OpenAI gym. arXiv preprint arXiv:1606.01540.\n10. Henderson, P., Islam, R., Bachman, P., Pineau, J., Precup, D., \u0026 Meger, D. (2018). Deep reinforcement learning that matters. In Proceedings of the AAAI Conference on Artificial Intelligence (Vol. 32, No. 1).\n","project_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fchenxingqiang%2Frecent_reinforcement_learning_view","html_url":"https://awesome.ecosyste.ms/projects/github.com%2Fchenxingqiang%2Frecent_reinforcement_learning_view","lists_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fchenxingqiang%2Frecent_reinforcement_learning_view/lists"}