
AI Agent 从能力演示走向生产落地模型外围的运行、记忆、工具、验证与治理体系正在成为重要变量核心判断Agent Harness 是围绕模型构建的可控系统层正在成为 AI Agent 从能力演示走向生产落地的关键支撑。当前头部厂商一边把规划、工具调用、自我纠错等能力训练进模型一边在模型外围建设运行、记忆、工具、验证、安全和编排体系。未来底层标准化能力会被模型逐步吸收企业级、产品级和多系统协同能力将继续沉淀为竞争壁垒。本文解读中金公司 2026 年 5 月发布研报《Agent Harness模型之外、智能之内》系统梳理了 Agent Harness 的概念定义、产业作用、模型边界和厂商实践。本文并不展开复述研报全部内容而是围绕中金报告提炼三个行业信号第一Agent Harness 的出现说明智能体正在进入系统工程阶段第二头部厂商围绕运行、记忆、工具、验证和安全补齐模型外围能力说明智能体竞争正在从模型能力扩展到系统承接能力第三模型能力增强会吸收部分底层 Harness 能力但企业级场景中的权限、记忆、可观测、多系统协同和交付能力仍会留在系统层。基于这三个信号本文重点讨论 Agent Harness 的当前位置和后续趋势。第一章 智能体进入系统工程阶段行业变化过去两年AI 产品的评价标准主要围绕模型生成质量——回答是否准确、文本是否通顺、推理是否正确。这是合理的模型能力提升是这一轮 AI 浪潮的起点。但当智能体开始承担真实任务时竞争焦点发生了变化。中金研报将 Agent 工程化范式梳理为三个阶段提示词工程Prompt Engineering关注如何给模型下指令上下文工程Context Engineering关注模型在每一步该看到什么信息Harness 工程Harness Engineering关注智能体系统怎样稳定工作。LangChain 的表述更直接Model Harness Agent——模型本身不是智能体赋予它系统支撑之后它才成为能完成任务的智能体。这一演进背后的行业逻辑是当 Agent 需要连续执行十几个步骤、调用多个外部系统、在异常发生后自主恢复、跨会话接续工作时单次生成质量已经不能决定最终效果。运行环境是否稳定、上下文是否完整、工具调用是否准确、执行过程是否可追溯——这些系统工程能力开始决定智能体在生产环境中能否可靠交付。一个代表性的证据Claude Code 源码总计约 50 万行其中仅 1.6% 是直接与模型交互的核心代码其余 98.4% 均是围绕模型构建的运行、约束与支撑机制。这说明模型之外的系统层已经非常厚智能体产品的工程重心正在向模型外围转移。趋势判断Agent Harness 的出现说明智能体竞争正在从模型生成能力扩展到长程任务执行、状态管理、工具调用、验证评估和安全控制等系统工程能力。模型仍是基础但生产环境中的实际表现越来越由系统层决定。第二章 模型能力落地需要系统支撑行业现状从行业动作看模型厂商、平台、企业客户和开发者生态正在同时关注 Harness 能力。这种多方同步投入说明 Harness 已经从技术优化手段变为产业关键环节。对模型厂商Harness 直接影响产品竞争力。 LangChain 在不改变底层模型的情况下仅通过调整系统层配置让其编程智能体在权威基准测试上从行业前三十升至前五。这说明同一个模型在不同 Harness 支撑下的表现差距可以很大。对模型厂商而言Harness 工程能力正在成为提升模型产品竞争力的直接手段。对平台记忆正在变成用户粘性和迁移门槛。 记忆能力决定了智能体能否跨会话持续理解用户、沉淀偏好和工作习惯。没有记忆同类工具可以轻易复制一个智能体的能力有了记忆用户在平台上积累的决策历史和工作流偏好会形成迁移成本。头部平台已经在通过封闭式记忆架构主动提升这一门槛——将用户历史、偏好和上下文封装在自有环境内使跨平台迁移变得困难。对企业客户生产环境需要可控、安全、可审计。 企业将智能体用于生产力场景时关心的核心问题是能否接入现有系统、能否遵守权限边界、执行过程能否留下记录、出问题后能否追溯和干预、运行成本能否可控。这些需求无法由模型本身满足必须由系统层承接。近期 Anthropic 和 OpenAI 几乎同时加速企业级部署反映了这一需求的规模。对生态工具和数据连接可能形成入口。 Harness 连接模型与外部系统承担基础设施和接入层的角色。随着更多工具、服务和企业数据在系统层沉淀Harness 有可能成为智能体调用外部能力的分发枢纽形成类似应用商店的入口效应。趋势判断Harness 的价值已经超出技术优化开始影响模型迭代效率、平台用户留存、企业采购决策和生态商业化路径。其产业含义是围绕智能体的竞争正在从单一的模型能力维度扩展到系统承接能力、用户资产沉淀和生态连接能力等多个维度。第三章 底层能力内生化企业级能力外延行业现状行业正在同时发生两件事第一模型训练正在吸收 Agent 能力。 头部厂商在训练阶段引入多步规划、工具调用、自我纠错等数据和强化学习机制使模型在训练时就学习智能体任务的执行与纠错能力。Anthropic、OpenAI、阿里、智谱等厂商均在推进这一方向。其结果是部分过去需要外部系统承担的能力常规工具调用逻辑、简单状态管理、基础任务分解正在被模型内化。第二生产环境中的系统能力仍需 Harness 承接。 权限管理、记忆治理、可观测性、审计追溯、多系统协同和企业流程接入等能力场景依赖性强、治理要求高无法被统一模型完全覆盖。这些能力的重心持续保留在系统层。Anthropic 的实践是一个有说明力的参照随着新版本模型消除了特定能力短板此前为弥补这些短板而设计的 Harness 机制会被主动移除。Anthropic 将这类随模型增强而过时的机制称为死权重。这说明模型能力提升后底层 Harness 机制确实会被打薄。但同时企业级和产品级的能力在持续扩展——头部产品仍在不断迭代权限体系、记忆管理、验证评估、安全隔离和多智能体编排这些能力并未因模型增强而收缩。对企业的含义这一动态分工关系对企业建设智能体系统有直接影响企业不宜把所有能力都固化成厚重框架。底层能力基础工具调用、简单任务编排、标准化推理流程要保持可替换因为它们会随模型迭代而被吸收。真正应该沉淀的是企业权限体系、数据连接、流程编排、观测审计和人工接管能力——这些是模型无法替代、且随使用积累会持续增值的部分。趋势判断模型与 Harness 不是简单替代关系而是动态分工关系。模型会吸收低层、标准化、可训练的 Agent 能力Harness 会继续承接高层、场景化、强治理的企业系统能力。两者的边界随模型能力提升而移动Harness 的重心会从底层机制逐步上移到产品层和企业层。第四章 头部厂商的三类动作从行业动作看头部厂商围绕 Harness 的实践可以归纳为三类方向一、补齐运行底座模型厂商正在把智能体产品能力建立在运行环境、工程约束、验证反馈和可观测机制上。代表实践是 OpenAI Codex 和 Claude Code。OpenAI 公开的工程方法显示其团队通过设计约束规则、建立反馈回路和构建隔离运行环境来指导智能体而非逐步指导它完成每个动作。人类的角色从执行者变为环境设计者和规则制定者。Anthropic 则从 2025 年下半年起持续迭代 Harness 架构最终将系统解耦为日志层、隔离执行层和无状态指挥层使长程任务的恢复性、安全性和响应效率同步提升。这说明智能体产品的工程重心正在从如何让模型生成更好的内容转向如何让智能体在真实环境中稳定、安全、可恢复地执行任务。二、模型训练吸收 Agent 能力工具调用、任务规划、自我纠错正在从外部 Harness 机制进入模型训练环节。Anthropic、OpenAI、阿里、智谱、MiniMax 等厂商均在训练中引入智能体交互轨迹和环境反馈使模型在训练阶段即具备在真实场景中规划、执行和纠错的能力。与此同时Harness 在真实任务中捕获的执行轨迹数据本身是训练模型 Agent 能力的重要素材。这形成了一个闭环Harness 既是模型能力的落地层也是模型迭代的数据来源。模型增强后底层 Harness 机制被打薄但打薄后的系统仍在产生新的执行数据继续反哺下一代模型训练。三、争夺入口、记忆和技能资产记忆、技能、主动触发和多渠道入口正在影响用户粘性、平台锁定和生态分发。Claude Code 构建了多层记忆体系使智能体能跨会话持续理解用户并沉淀工作偏好。Hermes 在记忆基础上引入技能自进化机制智能体完成复杂任务后自动提炼可复用技能后续按需加载并持续优化。OpenClaw 则让智能体从被动工具变为主动助手通过定期巡检和多渠道接入使智能体能主动发现重要信息并触达用户。这些动作的共同方向是让用户在平台上沉淀更多资产记忆、技能、习惯、连接使迁移成本持续上升从而将 Harness 层的技术能力转化为商业壁垒。本章判断头部厂商围绕 Harness 的竞争已经分化为三条路径运行底座、模型数据闭环、用户资产锁定。未来竞争将体现为模型能力、系统工程能力、工具生态和企业数据连接的组合。对国内市场和企业建设的启示国内 ToB 落地路径Agent Harness 在国内市场不一定首先表现为独立的通用智能体平台更可能嵌入办公工作台、企业知识库、连接器、流程自动化和行业应用模板中。国内企业对智能体的需求往往从具体业务场景出发——审批流程自动化、知识检索增强、客户服务辅助、报表生成等——而非追求一个通用的自主执行系统。企业客户真正关注的能力企业客户需要的不是一个能演示复杂能力的智能体而是能够接入现有系统、遵守权限边界、留下过程记录、支持人工接管并在可控成本下持续执行任务的系统。从已有落地案例看权限管理、数据安全、过程可追溯和人工干预机制是企业评估智能体产品时的优先关注项。企业建设优先级短期应优先建设权限管理、工具治理、任务状态、日志观测和人工接管能力中期再建设记忆管理、评估体系、跨系统编排和多智能体协作。不宜一开始就追求完整的多层 Harness 体系原因有二一是底层能力可能随模型迭代被吸收过早固化会成为负担二是企业场景千差万别系统层应围绕真实业务需求逐步生长而非照搬通用框架。风险判断短期过度建设 Harness 可能带来系统复杂度上升和维护成本增加。长期看低层标准化能力会被模型吸收如果平台缺乏企业场景、数据闭环和交付能力Harness 壁垒可能被削弱。对国内 ToB 厂商而言能否连接真实业务系统、沉淀企业流程数据并形成可治理的交付体系会比单纯的框架能力更重要。趋势展望1. Agent Harness 正在成为 AI Agent 从演示走向生产落地的系统支撑层。模型仍是基础变量Harness 是生产环境中的新增关键变量。 2. 模型会持续吸收底层标准化 Agent 能力但企业级、产品级和多系统协同能力会继续由 Harness 承接。两者是动态分工关系边界随模型能力提升而移动。 3. 厂商竞争将从单一模型能力竞争扩展到模型能力、Harness 工程能力、工具生态、企业数据连接和运行反馈闭环的综合竞争。对国内 ToB 市场而言能否连接真实业务系统、沉淀企业流程数据并形成可治理的交付体系会成为更直接的竞争点。参考文献中金公司《人工智能十年展望二十九Agent Harness模型之外、智能之内》2026年5月31日