https://github.com/puyuan1996/rl_mcts_intro

强化学习 (RL) 与蒙特卡洛树搜索 (MCTS) 相关学习资源
https://github.com/puyuan1996/rl_mcts_intro

artificial-intelligence awesome deep-learning deep-neural-networks deep-reinforcement-learning introduction learning mcts monte-carlo-tree-search ppt reinforcement-learning resources rl search

Last synced: 27 days ago
JSON representation

强化学习 (RL) 与蒙特卡洛树搜索 (MCTS) 相关学习资源

Host: GitHub
URL: https://github.com/puyuan1996/rl_mcts_intro
Owner: puyuan1996
Created: 2025-01-04T03:41:00.000Z (9 months ago)
Default Branch: main
Last Pushed: 2025-01-05T08:27:28.000Z (9 months ago)
Last Synced: 2025-02-23T06:43:34.464Z (8 months ago)
Topics: artificial-intelligence, awesome, deep-learning, deep-neural-networks, deep-reinforcement-learning, introduction, learning, mcts, monte-carlo-tree-search, ppt, reinforcement-learning, resources, rl, search
Homepage:
Size: 62.1 MB
Stars: 5
Watchers: 1
Forks: 0
Open Issues: 0
Metadata Files:
- Readme: README.md

Awesome Lists containing this project

README

          # 强化学习 (RL) 与蒙特卡洛树搜索 (MCTS) 简介

欢迎访问本仓库！本仓库旨在分享《强化学习 (RL) 与蒙特卡洛树搜索 (MCTS) 简介》的讲座内容，包括精心准备的 PPT 和相关学习资源，助力大家快速掌握相关知识并开展交流与讨论。

## 📄 仓库内容

本仓库主要包含以下内容：

- **讲座 PPT**: 详细介绍强化学习 (Reinforcement Learning, RL) 的基本概念、核心算法，以及蒙特卡洛树搜索 (Monte Carlo Tree Search, MCTS) 的原理与应用。

- **推荐资源链接**: 包括精选书籍、论文与学习网站，帮助您扩展学习。

- **讨论与反馈**: 鼓励大家提出问题、分享见解，共同进步。

## 🎯 讲座内容摘要

### **第 1 节：强化学习 (RL) 基础**

1. **强化学习简介**:

   - 值函数 (Value Function)

   - Bellman 方程 (Bellman Equation)

   - 值迭代与策略迭代 (Value Iteration & Policy Iteration)

2. **基于值的强化学习 (Value-Based RL)**:

   - 蒙特卡洛方法 (Monte Carlo, MC)

   - 时序差分学习 (Temporal Difference, TD)

   - Q-Learning

   - 深度 Q 网络 (Deep Q-Network, DQN)

3. **基于策略的强化学习 (Policy-Gradient RL)**:

   - REINFORCE 算法

   - Advantage Actor-Critic (A2C)

   - Trust Region Policy Optimization (TRPO)

   - Proximal Policy Optimization (PPO)

4. **Model-Free 与 Model-Based 的区别**

### **第 2 节：蒙特卡洛树搜索 (MCTS) 基础**

1. **MCTS 的核心流程**:

   - 选择 (Selection)

   - 扩展 (Expansion)

   - 评估 (Evaluation)

   - 回溯 (Backpropagation)

2. **MCTS 在前沿算法中的应用**:

   - AlphaZero

   - MuZero

3. **MCTS 与策略优化的联系**

   - MCTS 可以近似为正则化策略优化

### **第 3 节：面向通用决策场景的 MCTS + RL 框架**

1. **基准框架：LightZero**:

   - 设计用于通用决策场景的高效 MCTS + RL 框架

2. **基于可扩展潜在世界模型的通用高效规划**:

   - UniZero 算法

3. **基于逆向视角和全缓冲区重分析的加速技术**:

   - ReZero 算法

## 🤝 贡献指南

欢迎任何形式的贡献！您可以通过以下方式参与：

- 提交问题或改进建议 (Issues)

- 提交修订或补充内容 (Pull Requests)

- 分享相关学习资源或案例

## 📚 推荐学习资源

以下是推荐的学习资源，帮助您进一步探索强化学习与蒙特卡洛树搜索的知识：

### **书籍与博客**:

- [Reinforcement Learning: An Introduction (Sutton & Barto)](https://web.stanford.edu/class/psych209/Readings/SuttonBartoIPRLBook2ndEd.pdf)

- [Nan Jiang 教程](https://nanjiang.cs.illinois.edu/cs542/)

- [CMU Yuejie Chi’s Page](https://users.ece.cmu.edu/~yuejiec/ece18813B.html)

- [Lilian Weng 博客](https://lilianweng.github.io/posts)

- [RL China](http://rlchina.org/)

### **视频课程**:

- [David Silver: 强化学习课程](https://www.davidsilver.uk/teaching/)

- [Sergey Levine: 深度强化学习课程](https://rail.eecs.berkeley.edu/deeprlcourse/)

- [李宏毅老师课程](https://speech.ee.ntu.edu.tw/~hylee/index.php)

- [李沐老师教程](https://github.com/mli)

### **代码资源**:

- [Stable Baselines3](https://github.com/DLR-RM/stable-baselines3)

- [OpenDILab](https://github.com/opendilab)

- [Tianshou 框架](https://github.com/thu-ml/tianshou)

---

## ⚠️ 声明

本讲座 PPT 仅供学习交流使用，可能存在理解偏差或错误之处。如发现问题，欢迎通过 [Issues](https://github.com/puyuan1996/rl_mcts_intro/issues) 指出，我们将及时修正。

## 🌟 致谢

感谢所有为本项目提供支持与反馈的朋友们！希望本资源能够帮助更多人了解强化学习与蒙特卡洛树搜索的相关知识。

⭐️ 如果您觉得本项目对您有帮助，请为本仓库点亮一颗星！感谢您的支持！

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Awesome

https://github.com/puyuan1996/rl_mcts_intro

Awesome Lists containing this project

README