https://github.com/hjnnjh/agent-learning

学习型项目：Agent Harness 与 RL 后训练学习路线（资料/笔记/动手锚点），含 learn-claude-code 主线，.claude 配置参考 RQ-TPP
https://github.com/hjnnjh/agent-learning

agent-harness agentic-rl claude-code grpo learning-resources llm-agents post-training reinforcement-learning rlhf rlvr

Last synced: about 2 hours ago
JSON representation

学习型项目：Agent Harness 与 RL 后训练学习路线（资料/笔记/动手锚点），含 learn-claude-code 主线，.claude 配置参考 RQ-TPP

Host: GitHub
URL: https://github.com/hjnnjh/agent-learning
Owner: hjnnjh
Created: 2026-06-17T12:51:40.000Z (14 days ago)
Default Branch: main
Last Pushed: 2026-06-17T13:59:32.000Z (14 days ago)
Last Synced: 2026-06-17T16:29:52.800Z (14 days ago)
Topics: agent-harness, agentic-rl, claude-code, grpo, learning-resources, llm-agents, post-training, reinforcement-learning, rlhf, rlvr
Language: Python
Size: 76.2 KB
Stars: 0
Watchers: 0
Forks: 0
Open Issues: 0
Metadata Files:
- Readme: README.md
- Agents: AGENTS.md

Awesome Lists containing this project

README

          # 🧭 Agent 学习路线：Harness 与 RL 后训练

![stage](https://img.shields.io/badge/stages-Harness%20%E2%86%92%20RL%20%E2%86%92%20Agentic%20RL-1f6feb)

![type](https://img.shields.io/badge/type-learning%20project-success)

![python](https://img.shields.io/badge/python-%E2%89%A53.11-3776ab?logo=python&logoColor=white)

![uv](https://img.shields.io/badge/deps-uv-de5fe9)

![Claude Code](https://img.shields.io/badge/config-Claude%20Code-d97757)

![license](https://img.shields.io/badge/license-personal%20study-lightgrey)

> 一个**学习型项目**：把《Agent 学习路线：Harness 与 RL 后训练》落成可打卡的资料、笔记与动手锚点——

> 从徒手写最小 agent loop，到在小模型上跑通 GRPO，再到多轮工具调用的 Agentic RL。

**🔗 快速链接**　·　[阶段一 · Harness](stage1-harness/README.md)　·　[阶段二 · RL 后训练](stage2-rl-posttraining/README.md)　·　[阶段三 · Agentic RL](stage3-agentic-rl/README.md)　·　[Anthropic 博客精读](anthropic-blog/reading-list.md)　·　[项目指引 CLAUDE.md](CLAUDE.md)　·　[配置说明 .claude](.claude/CLAUDE.md)

**参考**　·　主线课程 [learn-claude-code](https://github.com/shareAI-lab/learn-claude-code)　·　配置范式 [RQ-TPP](https://github.com/hjnnjh/RQ-TPP)（规则自动加载 / 技能按需触发 / 子智能体 / hooks 护栏）

---

学习型项目。承载 Notion 路线《Agent 学习路线：Harness 与 RL 后训练》的资料、笔记与动手锚点。

配置范式参考 [RQ-TPP](https://github.com/hjnnjh/RQ-TPP)（规则自动加载 / 技能按需触发 / 子智能体 / hooks 护栏）。

> **怎么用这个仓库**：按阶段推进，每个阶段做完对应的「动手锚点」再进入下一阶段——只读不写在这个领域几乎学不到东西。

> 资料链接在各 `stage*/README.md`（均经 2026-06 核实），笔记写进 `stage*/notes/`，动手代码写进 `stage*/hands-on/`。

## 核心认知

Harness 与 RL 后训练是同一件事的两面：

- **Harness（推理时）**：让模型把活干好的脚手架——工具调用循环、上下文管理、子 agent 编排、评估体系。

- **RL 后训练（训练时）**：让模型本身变强的方法——SFT → 偏好优化（DPO）→ RLVR（GRPO 等可验证奖励 RL）。

- 两条线最终在 **Agentic RL** 汇合：把 harness 当作 RL 环境，对多轮工具调用轨迹做强化学习。

## 路线图

| 阶段 | 主题 | 周期 | 动手锚点 |

|---|---|---|---|

| [阶段一](stage1-harness/README.md) | Agent Harness | 约 3-5 周 | 徒手写出一个能修简单 bug 的最小 agent loop |

| [阶段二](stage2-rl-posttraining/README.md) | RL 后训练 | 约 6-10 周 | 用 TRL 在 Qwen 小模型上跑通 GSM8K GRPO，看到奖励曲线上升 |

| [阶段三](stage3-agentic-rl/README.md) | Agentic RL | 长期 | 用 verifiers/verl 端到端跑通 multi-turn tool-use GRPO |

| [并行](anthropic-blog/reading-list.md) | Anthropic 博客精读 | 与阶段一同步 | 三梯度阅读打卡（工程实践 → 系统设计 → 研究对齐） |

## 主线课程（贯穿阶段一）

- **[learn-claude-code（shareAI-lab）](https://github.com/shareAI-lab/learn-claude-code)** — 20 课的 harness 工程系统课程（s01–s20）：

  从 agent loop / 工具分发 / 权限，到上下文压缩、子 agent、任务图、多 agent 协作、MCP 集成。

  核心主张「Agency comes from the model. The harness gives agency a place to land.」——

  不是抄源码，而是抓住关键设计自己重建，是阶段一「读成熟 harness」与「上下文工程」的最佳骨架课程。

  阶段一 README 含逐课进度打卡表。

## 学习建议

- **可以并行**：阶段一的「徒手写 loop」和阶段二的「RL 基础」互不依赖；Anthropic 博客精读与阶段一同步。

- **资源比例**：博客和开源代码比教科书重要，论文以技术报告为主、理论文章为辅。

- **长期订阅**：Interconnects（Nathan Lambert）、Ahead of AI（Sebastian Raschka）、Lil'Log（Lilian Weng）。

- **最重要的一条**：每个阶段都有一个必须完成的动手锚点，大量知识（上下文管理的坑、rollout 工程细节、

  reward hacking 的具体形态）只存在于实践中。

## 环境

- 笔记：纯 Markdown，无需环境。

- 动手代码（阶段二/三）：Python，`uv` 管理（见根 `pyproject.toml`）。`uv venv && uv sync` 起步。

配置说明见 [CLAUDE.md](CLAUDE.md) 与 [.claude/CLAUDE.md](.claude/CLAUDE.md)。

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Awesome

https://github.com/hjnnjh/agent-learning

Awesome Lists containing this project

README