过去两年 Agent 研究更像一场工程竞赛 —— 谁的推理链更长、谁的工具箱更大、谁的 workflow 更复杂。但 Agent 的下半场不再是拼花活,而是把它变成一门科学 :不仅问「它 work 不 work?」,更要问「它为什么work」,以及什么时候才应该这么做?」
这篇文章作者团队想聊聊在 ICML 2026 提出的Theory of Agent (ToA)—— 以及它如何解释当下最前沿的长上下文、推理模型、工具使用 、自进化智能体背后那根共同的主线。
关于这项工作
Theory of Agent (ToA) 是由爱丁堡大学联合普林斯顿大学、UIUC、西北大学、香港中文大学共同提出的智能体统一理论,已被 ICML 2026 以 Position Paper 的形式接收。

项目地址: https://hrwise-nlp.github.io/assets/websites/theory-of-agent/
论文链接: https://arxiv.org/abs/2506.00886.pdf
作者团队覆盖了当前 Agent / LLM 研究的多条主线 —— 从 ReAct 式推理与工具使用,到 RL 对齐、世界模型、科学发现智能体 —— 这份工作也正是这些主线汇聚后的一次尝试:把 Agent 从一套工程技巧,变成一门可以被推理、被证伪、被累积的科学。
一个你肯定见过的场景:两份同样满分的试卷
想象同一套试卷发到两个学生手里。
同学 A 走的是闭卷考试模式。整套题他靠自己:回忆知识点、做推理、验算,必要时在脑子里重新组织一遍 —— 他把考试当成锻炼基础和思维的机会;
同学 B 走的是开卷考试模式。每一道题他都上网查、问 ChatGPT、翻参考答案,直接抄过来就交。
两份卷子批改下来,都是 100 分。老师如果只看分数,这两个人是一样的。但只要你当过老师,或者自己读过书,你就知道这两个人一学期之后的差距会非常大:
同学 A : 哪怕中间做错过、绕弯过,每做一题,他那根叫「解题直觉」的东西都在被加粗一次。期末的时候,同样一道题他能更快、更稳地做对,而且能举一反三。
同学 B : 他也做了一学期题,但他脑子里的知识存量没有任何变化。到了必须闭卷的那一次考试 —— 或者任何一次没有 ChatGPT 可用的场合 —— 他会突然发现自己什么都不会。
两份满分,两条命运完全相反的成长曲线。
先澄清一个常见误解: 这个故事里绝不是说「同学 A 不会用搜索引擎」或者「用工具是坏事」。恰恰相反 —— A 也可以、也应该在需要的时候用工具 (考试是比喻,真实世界里的 Agent 当然会遇到靠自己无论如何答不出来的题,这时候必须调用外部信息)。
真正的关键是:能靠自己答对的题,就不必为了省事而默认抄答案。工具该在「靠自己不够」的时候上场,而不是在「根本还没试过」的时候就被默认触发。至于「什么叫靠自己不够」「什么叫真正必需」, 正是后面要花篇幅讲清楚的事 —— 作者会把它精确成一个叫知识边界(knowledge boundary) 的东西。>
换到 Agent 身上,这两类行为完全平行:

图 1. 同样正确的答案,背后可能是两种截然不同的资源分配。Agent A 什么都默认靠外部工具,内部推理能力被绕开、无法巩固;Agent B 在内部能解决时就内部解决 —— 但并不排斥在真正需要时使用工具 —— 推理能力在练习中被强化。
这不是一个设计问题。这是一个定义问题:什么叫一个「好」Agent? 如果「好」只意味着「答对」, 那开卷同学和闭卷同学没区别。但如果「好」还意味着「越做越聪明」, 我们想要的显然是后者。而这恰恰是目前绝大多数 Agent 训练范式看不见的东西。
当下智能体的四种失败模式,其实是同一个病
过去两年,Agent 系统暴露出了许多彼此看似无关的问题。有些模型在还没真正理解任务时就急于行动,不断切换思路;有些则在简单问题上陷入冗长推理,甚至为「2+3 等于几」生成十几条重复 reasoning path。另一类问题则发生在与外部世界的交互上:模型要么迟迟不愿调用本该使用的工具,要么把原本几步就能完成的操作拆成漫长而重复的轨迹。
这些现象通常被分别归类为 reasoning、planning 或 tool-use 的问题,因此业界也习惯于逐个修补:过度推理就增加长度惩罚,工具滥用就约束 action budget,行动不足就强化工具调用能力。
但如果把这些现象放在同一个视角下,会发现它们其实共享着同一个更底层的结构:Agent 始终在面对一个持续存在的决策 —— 下一步究竟应该继续依赖内部思考,还是转向外部世界获取信息。
不同的失败模式,本质上只是这个决策在不同方向上的失衡。答早了是 underthinking,答晚了是 overthinking,问少了是 underacting,问多了是 overacting。不是四个独立的问题,而是同一个病 —— 在不确定性下的决策错配 —— 以四个方向表现出来。
下半场的工作,不是继续打补丁,而是治这个病。
换一个视角:推理和行动,是一体两面
如果顺着这个问题继续往下推,一个更自然的观察会出现:所谓「推理」和「行动」,未必是两种本质不同的阶段。对于 Agent 来说,它们更像是在不同位置获取信息的两种方式。链式思考、反思和任务分解,本质上是在重新组织模型已经拥有的信息;而搜索、API 调用、代码执行等行为,则是在向外部世界索取模型当前并不具备的信息。
推理和行动,是两种用来降低同一种不确定性 (epistemic uncertainty, 认知不确定性) 的工具。它们的差别只在于信息来源。
内部认知工具 (链式思考、反思、分解):把 Agent 已经有的信息重新组织一遍;
外部物理工具(搜索、API、UI 操作、执行代码):注入 Agent 没有的信息。
两者都在降低不确定性,只不过一个发生在内部,一个发生在外部,这样智能体的行为轨迹就变成了:

这里的

可以是内部工具也可以是外部工具。在这样的视角下,目前大部分 Agent 基于的 ReAct 框架其实可以看做是一个特例,即将内部的模块看成是整体的 reasoning,那就变成了:

这里的

。图 2 展示了具体的区别。这个转换看起来只是换了说法,但它改变了后续所有问题的问法。不再是「我该先想还是先动?」,而变成了:

图 2. 左:传统 ReAct 把推理和行动混在一起当做两个阶段。右:ToA 把 Agent 看成一个统一的策略,它在两类工具里做选择 —— 内部认知工具查的是「自己这个世界模型」, 外部物理工具查的是「真实世界」。
眼下,哪种工具能最快降低我对这个任务的不确定性?
这也是为什么长上下文、RAG、工具使用、agentic RL 其实都在指向同一件事,沿着「内部还是外部」这一根轴的不同分配。
每个 Agent 都有自己的「会做题」范围
一旦推理和行动平起平坐,研究的核心对象就不再是「策略」, 而是:这个 Agent 靠自己能解决的任务,和需要外部帮助才能解决的任务,边界在哪里?
ToA 把这件事精确化了:
:Agent m在环境 W 中基于给定的上下文仅靠内部推理就能可靠解决的任务;

:整个环境给定的所有能够解决的所有任务;

是「外部工具真正必需 」的部分 —— 再怎么 prompt、再长的 CoT 也替代不了。

图 3. 左:一个 Agent 的「知识边界」把它能内部解决的任务和剩下的世界任务隔开。中:多个 Agent 都能内部解决的部分 ——「最小任务集」。右:这群 Agent 中任意一个能内部解决的并集 ——「最大任务集」。
关键点是这条边界「和模型强相关」。弱模型的
小,强模型的大。所以不存在一个放之四海皆准的「工具使用准则」——GPT-4 适合的 RAG 频率,绝不等于 Llama-3-8B 适合的 RAG 频率。
如果要用一个画面来总结前沿 Agent 研究的主线,就是这条边界在移动。当人们说「模型能做的事越来越多 Agent 越来越自主」—— 换成精确的说法,就是
在变大。
最核心的一条:脑力劳动的「总量守恒」
如果继续沿着「推理和行动只是 effort 分配」这个视角往下推,一个更有意思的结论会自然出现:无论 Agent 选择内部推理还是外部调用,一个任务真正需要消耗的「认知负担」其实并不会消失,它只是在不同位置之间重新分配。团队引入了一个量,叫认知努力(epistemic effort)

, 都必须付这笔账 ——只是付在哪边的问题:
:一个任务在被解决之前必须付出的最小信息负担。任何能解决这个任务的策略

而这个总和和策略无关。我们可以把努力从内部挪到外部,也可以反过来,但总量是定的。类似于我们刚开始举的那个例子,学生 A 和学生 B 就是在使用不同的分配策略去解决同一套试卷。
从这个角度再看工具使用,会发现一个容易被忽略的事实:外部工具并不会真正消除任务本身的信息负担。它们只是把原本需要由模型内部完成的认知过程,转移到了外部系统上。一个复杂问题之所以变得「容易」,很多时候不是因为问题本身被简化了,而是因为求解过程被重新分配了。
用生活比喻:你要做一道红烧肉。
我们可以全靠自己的手艺:选肉、焯水、糖色、火候一手拿捏。这是内部努力拉满。
我们也可以点一份半成品,回家热一下,或者直接点外卖。这是外部努力拉满。
我们还可以用预制菜 + 自己炖十分钟,平衡一下。
不管走哪条路,做一顿饭的总成本——「这道菜该长什么样」的信息量 —— 是固定的。工具只是把这个成本,从「我们的双手」搬到了「商家的厨房」。这就是

的守恒。这个结论一旦被认真对待,当下整个 Agent 研究的风景线就被重新解释了一遍。
Agent 行为的几何:不同点的含义以及最优行为
既然「认知努力」是一个在两个维度间分配的固定预算,那 Agent 的行为就活在一个二维平面上,如下图所示。

图 4. 横轴是内部推理投入,纵轴是外部行动投入。斜线是最小努力前沿 βE_{int}+E_{ext}=E^*。左:任务在内部可解,两种努力可以自由互换;右:任务超出内部能力,外部努力存在一个不可削减的底线。*
图上标了三个关键点:
时,这是最干净的做法。
时,这是最理想的前沿。
点 A:纯外部委托,几乎不做内部推理。只要有一个足够强的外部工具,A 就能解决任何任务。
点 A 的「万能性」恰恰是它的危险。一旦有一个足够能干的外部 Agent 可调用,A 不管任务在边界的哪一侧都能走通。这就是为什么只奖励正确性的训练会自然漂移到左上方的 A 点附近 —— 它是通往奖励最省心、最低风险的路径。
用实习生的例子类比:小 A 永远都能「对」。老板只要看答案,他没错。但一年下来,他没有学会任何一道题的内在逻辑 —— 因为他没有给自己「尝试用大脑」的机会。点 A 就是那个「永远搜一下就行」的坑。
等等,那 AC 和 AB 之间呢?
这是一个微妙但非常重要的点。A、B、C 不是仅有的三个「正确答案」。
按定义,panel (a) 中线段 AC 上的每一个点、panel (b) 中线段 AB 上的每一个点,都是「理想分配」。它们全都卡在最小努力前沿上,全都以零浪费解决任务。
那它们之间有什么区别?——区别不是「优不优」, 而是「偏好不同」。
对内部可解的任务 (线段AC), 内外努力可以自由置换:
延迟敏感的部署,也许更偏 A (一次外部调用快、干脆);
安全敏感、或外部调用很贵的部署,更偏 C (不要轻易触发现实世界的动作);
成本中性的部署,选个中间点就好。
对外部必需的任务 (线段AB), 外部努力的底线不能砍,但在这条底线之上,同样存在一个偏好谱:
偏 A = 少想、多调;
偏 B = 先把脑子用尽,只调用那个最低限度必需的外部工具。
换句话说,前沿是一整条帕累托最优曲线, A、B、C 只是三个代表性的端点。不同的业务场景 —— 安全、延迟、成本、合规 —— 沿着这条曲线选择不同的位置,都是对的。
那条斜线的斜率 β,到底在说什么?
这里有一个需要注意的点,前沿方程里有一个 β ,它不是一个凑出来的数学符号,而是一个非常具体的现实参数

,即「一单位内部推理」相对于「一单位外部调用」的代价比。换成大白话就是在我们开发的智能体系统里,想一会儿有多贵,对外调一次有多贵?
大:内部推理本身很贵。比如用一个参数量很小的模型做长链思考,每多推一步都在烧 token; 或者延迟敏感的交互场景,多想两秒用户就不耐烦。
大:外部调用很贵。比如每次 API 要花钱、要写回数据库、要触发真实世界里不可逆的操作 (机器人抬胳膊、下单付款、调用人类专家), 或者涉及安全 / 合规审查。
β 的大小决定了那条斜线的倾角, 也就决定了「帕累托最优前沿」的形状:
β 很大(想很贵、调便宜):斜线陡,最优点整体偏向多调外部。直觉:既然我这颗大脑昂贵又慢,那能外包就外包。这解释了为什么「小模型 + 强工具链」往往是理性选择 —— 对一个 Llama-3-8B, 让它自己写一堆 CoT 不如直接 RAG 出来给它看。
β 很小(调很贵、想便宜):斜线缓,最优点整体偏向多靠内部。直觉:每次触碰现实世界都要花钱 / 承担风险,那就能在脑子里解决的就别动手。这解释了为什么推理模型 (o1/R1 那一代)把赌注押在「内部 scaling」上 —— 在它们的成本结构下,多推几步比调一次工具便宜得多。
这就把 ToA 和资源有限理性(resource-bounded rationality) 接上了:没有放之四海皆准的「最佳 Agent 行为」,只有「在当前 β 下最佳的行为」。一条产线上的 Agent 换个部署环境, β 变了,最优的分配策略就应该跟着变。所以 ToA 的「对齐」不是「让 Agent 学会一种固定姿势」, 而是让 Agent 学会识别 β , 并沿着 β 对应的那条前沿去分配努力。
那 ToA 反对的是什么?是 Agent「稀里糊涂地漂到 A」—— 不是因为 β 让 A 是最优解,而是因为只奖励正确性的训练让 A 变成了最省事的惯性选择。同一个 A, 被 β 论证过的 A 和 被惯性带过来的 A , 在几何上无法区分,但在 Agent 的长期发展上天差地别。对齐意味着有意识地选前沿上的某一点,而不是在训练惯性下默认滑到角落。
捷径的代价:Agent 也会被「惯坏」
ToA 里有一个命题叫 Prop 3.9: 委托诱导的能力停滞—— 翻译成大白话:
如果 Agent 系统性地把本可以内部解决的任务也外包出去,它的内部推理能力不会因为经验积累而变强,哪怕它在原理上本可以变强。
这是 Agent 版的「小 A 问题」:他一直在外部工具辅助下答对,从未给自己「自己想想看」的机会,所以他的内部能力原地踏步。看起来今天很能打,十年后还是这个水平。
这其实也是我们观察很多人类实习生、甚至学生的规律 ——有捷径可走时,大脑就不会再去走长路。而大脑从长路走回来的那部分,才是「长本事」的那部分。Agent 的 RL 训练如果只看正确率,就会被这个最可靠的捷径吸引过去,完全复制同样的陷阱。
所以近期那些加「工具使用惩罚」的方法事后看,本质上都在逼近 ToA 说的 effort-consistent alignment:既要答对,也要克制。
下半场的训练:四条路同时走,缺一不可
把上面所有内容落到训练,大致是四条互补的路径。每一条单独走都不够, 它们各自对付「只求正确」这个病的一个侧面。
1.Agentic Post-training:Next-Tool Prediction
预训练的 next-token 把静态知识压进了参数,但它从没教会 Agent 怎么通过交互去获取新知识。我们主张把预训练延伸到 next-tool prediction—— 把交互轨迹本身 (API 调用、UI 动作、环境查询) 变成一等建模目标,和文本并列。学会「在给定上下文下,下一个该用哪个工具」, 就不只是「会推理」, 而是会决定如何降低不确定性。这是一个新的 scaling 维度:不是储存更多知识,而是通过交互获取知识。
2. Agentic SFT:按能力定制的监督
标准 SFT 假设「好的工具使用」有统一标准,在同一套示范上喂所有模型。ToA 说这个假设不成立:对小模型恰当的工具使用,对大模型可能完全是多余—— 反过来也一样。一刀切的监督会让模型系统性地偏向示范者的内部任务集, 而不是它自己的。
两条路:(1) 按能力定制数据集—— 每个模型有自己的 Q_{int}, 这个干净但贵;(2)选择性求助—— 训练 Agent 只在低 solvability 的上下文下主动外求,近似一个保守的能力上包 Q_{max}, 更通用但精度妥协。
3.Agentic RL:过程,而不只是结果
前面说过,只奖励正确性必然漂向点 A—— 因为委托是「最稳妥得奖」的策略。有效的 agentic RL 必须奖励「怎么答对」,不只是「答对」。OTC-PO 是一个具体例子:它明确惩罚不必要的工具调用,把「克制」和「正确」同等对待。更广义地,RL 允许 Agent 学过程级偏好—— 什么时候想、什么时候做、什么时候停 —— 这是只看结果的监督表达不出来的。
团队还设想一个迭代范式 RL → SFT → RL:RL 在不确定性下发现对齐轨迹;SFT 把它们压缩成稳定的、可泛化的策略;第二轮 RL 在这个基础上再做一次元认知校准。预训练阶段带 RL (算力充足时) 是另一个有前景的方向。
4.Agentic Prompting:有用,但不够用
Prompt-based 方法 (ReAct 式脚手架、记忆、workflow 抽象) 可以不动参数就引出复杂工具使用行为,对快速迭代非常有用。但它们欠缺对决策质量的系统性评估—— 过度思考和过度行动可以藏在「结果对」下面,根本不会被检出。Prompting 是一个很好的「行为探针」, 但它不是 SFT 和 RL 在参数层面带来的那种校准的替代品。
一条共同的主线
四条路的共同点是:提升 Agent 不是让它推理更多或工具更少,而是让它能估计自己的内部可解度,并据此分配努力。后训练教「工具词汇表」;SFT 锚定「和自己能力匹配的基线」;RL 校准「过程级偏好」;prompting 把行为暴露出来好诊断。「对齐」不是一个固定的目标,而是良好校准的决策过程的涌现属性。那四种失败模式 (overthinking、overacting、under-delegation、over-delegation)——都是同一个底层误校准的不同切片。
下半场会吵什么?三个还没解决的问题
未来几年 Agent 研究会围绕下面三个问题反复拉扯 —— 它们都是 ToA 打开的、但没有关上的:
怎么测量 Q_int (m,W)?内部任务集是潜变量,只能估计。self-consistency、draft confidence、hidden-state probe、基于 world-model 的 solvability estimator 都是部分答案。一个好的内部可解度代理,会立刻成为 alignment 训练的核心零件。
怎么训出真正尊重「努力守恒」的策略?只看结果的 RL 做不到,因为这个不变量对它不可见。给工具使用加惩罚是第一步;更本质的方案 —— 有意识地平衡内外轨迹的课程,然后用 RL 维持这个平衡 —— 还是开放问题。
怎么评估 Agent 的「努力分配」, 而不是只评估「答对率」? 当下的 benchmark 只说「答对了没」, 这刚好错过重点。我们需要能区分「靠推理对」和「靠外包对」的 benchmark。没有这样的评估,就没办法判断一个 Agent 到底「变聪明了」, 还是「学会了更熟练地外包」。
一些有意思的讨论
长上下文 vs. RAG, 谁更好?
过去一年,前沿实验室在疯狂卷上下文长度 ——Gemini 的百万 token、Claude 的长推理、GPT-4 的工具链。同时 RAG 派坚持说「检索才是正道」。
在 ToA 下,两边其实在做同一件事,只是方式不同 :
长上下文 = 提前扩展内部 : 先把外部信息一股脑灌进来,再让 Agent 纯内部推理 —— 相当于把任务从 Qext 推回 Qint。
RAG = 按需外求 : 信息留在外面,需要的时候再去取。
论文里的规范性结论是:在正确性相同的前提下,长上下文通常是更好的分配—— 因为它把 Agent 推向纯内部推理,而纯内部推理正是让能力「沉淀进参数」的那个训练信号。所以长上下文不只是产品体验,它本身就是能力内化的底座。
当然 RAG 不会消失。信息实时变化、规模太大、或者超出模型解析能力时,检索就是 epistemically 正当的选择。关键是,「用哪种」, 本身就该是一个基于认知效率的决策, 不是缺省。
内化和外化:一根一直在动的边界
这可能是 ToA 最实用的一个词汇贡献。一个 Agent 可以拆成两部分:
模型 (Model):提供参数里的知识、内部推理能力 —— 也就是 Qint 的基础。
脚手架 (Harness):提供工具、记忆、检索、上下文管理、外部协议 —— 也就是通向 Qworld∖Qint 的接口。
这个拆分不是固定的。它在两个相反的过程里被持续重塑:
内化 (Internalization):把脚手架提供的能力,吸收进模型本身。算术、结构化查找、某些形式的检索、代码风格的变换 —— 都是典型的「曾经外部,后来搬到参数里去了」的能力。一旦内化成功,一度需要外部工具的任务就滑进了 QintQint——知识边界向外推了一格。ToA 对内化成功给出两个条件:(1) 能力本身要可压缩(有结构,能被参数捕获);(2) 训练过程必须至少在某些时候奖励「内部解决」—— 否则梯度信号消失,内化永远不会发生。
外化 (Externalization):反方向。把能力卸给脚手架 —— 有时候很合理 (实时数据、验证器、具身动作), 有时候只是为了偷懒。按默认外化的问题恰好就是 Prop 3.9: 不是因为能力本质上在外,而是因为当前模型在这里做得不好,于是永远让它做不好。知识边界被冻结在了早期训练状态。
下半场的核心设计问题,不是「模型要多大」, 也不是「脚手架要多丰富」, 而是:怎样让这根边界朝着更高自主性的方向持续移动,同时不被「只求正确」的训练惯性拖回去?
自进化智能体
一个智能体可以被称为「自进化的」, 当且仅当它的内部任务集随时间严格扩张:

但这个扩张「够不够」,取决于它所处的那个世界本身是不是也在动。

是固定的时候,自进化就是一个单纯的覆盖问题 —— 知识边界不断向外漂移,把那些原本必须外包给工具的任务,一点点「收编」回自己能直接解决的范围里。它的渐近目标是:

也就是说 —— 最终,这个世界里一切能被解决的任务,都能由它自己内部解决。
动态世界:这是一个「速率」问题。但真实世界从来不是静态的。W_t 会随着时间不断冒出新任务 —— 新工具、新接口、新领域、新问题层出不穷。这时候,自进化就不再是「能不能追上」, 而是能不能追得够快。它变成了一个严格的速率条件:

一旦这个不等式不成立,知识边界相对于世界就是在停滞 —— 哪怕
自身在孤立地看时一直在变强,外部委托依然会是结构性必需,永远甩不掉。
结尾:Agent 不是「答对的机器」,是「越用越聪明的东西」
如果把 Agent 看成一种持续在「内部思考」和「外部行动」之间分配认知资源的系统,那么过去很多看似割裂的问题 —— 从 tool overuse 到 reasoning collapse,从 long-context scaling 到 lifelong learning—— 或许都可以放回同一条主线上重新理解。
ToA 并不是这条路线的终点,更像是一个开始:它尝试把 Agent 从一套不断堆叠技巧的工程系统,重新变成一个可以被分析、被解释、也能够被长期积累的科学对象。