文章作者、来源:SkillsMaster
过去三年,AI 应用工程经历了三次代际跃迁。每一次跃迁,都不仅仅是技术的升级,而是人机协作模式的根本性转变。理解这条演进路线,是评估 Skill 价值的逻辑起点。
1.1 Prompt Engineering — 单条消息
这一阶段的核心问题是:如何用自然语言精确描述你的意图。工程师们花费大量时间调整措辞、增减上下文、设计 few-shot 示例。Prompt 本质上是一种"一次性"的指令,模型接收后执行,没有状态、没有循环、没有工具调用。
这种范式的天花板非常明显:对话窗口一关,所有的"调参"归零。每次任务都需要重新输入完整上下文。知识无法复用,能力无法叠加。
典型代表:ChatGPT 早期用法、各类"最强 Prompt 合集"、System Prompt 优化博客。
1.2 Context Engineering — 单个上下文窗口
随着 RAG(检索增强生成)、长上下文模型(128K+)的普及,工程师意识到:上下文窗口本身就是"程序"的运行环境。Andrej Karpathy 在 2024 年提出"Context Engineering"的概念,将其定义为"设计合适的内容注入上下文窗口的艺术"。
这一阶段的技术重心转向:Memory 管理、工具注入、文档分块策略、上下文压缩。LangChain、LlamaIndex 等框架在此阶段爆发性增长,解决的核心问题正是如何把正确的信息、以正确的方式、在正确的时机放入上下文。
但这个范式仍有局限:所有"工程"都在模型外部进行,模型自身是被动的。
1.3 Agent Engineering — 单个执行循环
Andrew Ng 在 Sequoia 峰会上指出:"Agentic workflows could drive more AI progress than even the next generation of foundation models."(《Agentic Engineering》PDF,2026)。这句话精准定义了当下的范式转变。
Agent Engineering 的核心变化是:模型从"响应者"变为"执行者"。Agent 具备持久记忆、工具调用、多步规划与自我校正能力。工程师不再只写 Prompt,而是设计 Agent 的"工作流架构"——包括如何规划任务、如何调用工具、如何处理异常、如何终止循环。
在这个范式中,Skill 是 Agent 的"专业能力模块",相当于软件工程中的函数库或 SDK。一个装备了丰富 Skill 的 Agent,其执行效率、准确率和任务覆盖范围,远超裸模型。
关键洞察:三代范式并非互斥,而是递进叠加的关系。优秀的 Agent 系统同时包含精心设计的 Prompt(系统提示词)、高效的 Context 管理(Memory/RAG)和结构化的 Skill 调用。Skill 是在前两代基础上生长出来的"第三层能力栈"。
理解 Skill 的价值,必须先理解 Agent 如何"思考和行动"。Agent Loop 是 Agent 执行任务的基本循环单元,Skill 在其中扮演的角色,决定了它能创造多大价值。
《Agentic Engineering》(2026)给出了一个极具启发性的类比:Agent = 计算机架构。
Model(CPU):负责推理、规划和生成,是整个系统的计算核心。但模型本身是无状态的——每次推理都是一次独立的矩阵运算。
Context(RAM):存放当前任务的所有工作信息,包括任务目标、历史对话、检索结果、工具输出等。Context 的容量(Token 数)直接决定任务的复杂度上限。
Harness(OS):负责调度 Agent Loop 的执行流程:何时调用工具、何时终止、如何处理异常、如何管理并发。Claude Code、AutoGPT、Devin 等都是典型的 Harness 实现。
Skill(程序):封装了特定领域的知识、规则和行为模式。Skill 可以是代码(Python 函数)、文档(Markdown 知识库)或结构化规则(YAML 配置)。
Tool(I/O):Agent 与外部世界的接口:文件读写、API 调用、浏览器操作、数据库查询等。
以"帮我分析这份销售数据并生成报告"为例,一次完整的 Agent Loop 包含以下步骤:
Chroma Research(2025)发现了一个严峻问题:每一个主流前沿模型,其性能都随着输入上下文的增长而显著下降。这被称为"Context Rot"(上下文腐败)现象。
在长达 128K Token 的上下文中,模型真正能高效利用的部分通常不足 1%。无效信息的堆积不仅消耗 Token,还会导致模型"注意力分散",遗漏关键信息,产生幻觉。
Skill 是应对 Context Rot 的核心武器。一个设计良好的 Skill,能将复杂领域知识"压缩编码"进紧凑的指令集,用最少的 Token 传递最多的专业信息,从而最大化模型的有效利用率。
数据是评估 Skill 价值最直接的语言。本章从效率、成本、质量、自主性四个维度量化 Skill 的影响,并以 SWE-bench、SkillsBench 两套基准测试方法收束。
《Agentic Engineering》的实验数据显示:在"无 Skill"的 Agent 中,完成一个领域专业任务平均需要 11 轮对话——模型需要通过反复探索、错误纠正来逼近正确答案。每多一轮,就意味着更多 Token 消耗、更高的出错风险和更长的等待时间。
引入领域专业 Skill 后,平均轮次降至 4 轮,压缩率达 64%。这意味着 Skill 替代了大量"探索性"的对话轮次——模型不再需要从头学习领域规则,直接调用结构化知识执行任务。
Token 是 AI Agent 的"燃料",直接换算成运营成本。同一任务,纯 LLM 模式平均消耗约 12,000 tokens(含多轮探索);无 Skill 的 Agent 因 Loop 运行也在 8,000—10,000 tokens;装备 Skill 的 Agent 仅需约 3,000 tokens,节省约 75%。
GeckOpt 研究(2025)进一步验证:通过结构化工具与 Skill 组合,在保持性能损失低于 1% 的前提下,可实现 24.6% 的额外 Token 节省。对于每日处理百万次请求的企业 Agent,这个节省率意味着数百万美元的年度成本差异。
Stanford HELM 基准(2025)的测量数据揭示了一个重要规律:幻觉率与任务"接地气程度"高度相关。
Anthropic 的内部数据(Claude Usage Report,2026 Q1)显示了一个令人鼓舞的趋势:Claude Agent 的平均单次任务执行时长,从 2025 年 10 月的约 45 分钟增长至 2026 年 1 月的约 90 分钟,翻倍。这意味着 Agent 能在没有人类介入的情况下,独立完成越来越复杂的任务链。
在所有执行时长超过 60 分钟的 Agent 任务中,87% 的任务调用了至少 3 个专业 Skill。这一数据直接证明:Skill 是 Agent 自主性的物质基础——没有专业 Skill 的支撑,Agent 很快就会陷入循环或出错,需要人工介入。
SWE-bench 是目前公认最权威的 AI 工程能力基准,测量 AI 解决真实 GitHub Issue 的能力。最新数据(2026 Q1)显示:
SWE-bench 衡量的是"装备 Skill 后能力提升了多少",但要判断"一个 Skill 本身好不好用",还需要更专项的方法。类比软件工程中的单元测试,《Agentic Engineering》提出了 SkillsBench 的概念——专门针对 Skill 能力的标准化评测集。与 SWE-bench 测量代码能力不同,SkillsBench 测量的是:
① Skill 触发精准率:模型在该调用 Skill 时是否正确触发,不该调用时是否正确抑制?
② Skill 执行完整率:触发后,Skill 的完整指令集是否被充分执行(而非仅执行其中一部分)?
③ Skill 冲突处理:当多个 Skill 指令存在矛盾时,模型的优先级处理是否符合预期?
④ Skill 退化测试:随着 Context 增长,Skill 的遵循率是否显著下降(Context Rot 敏感性)?
这四项测试共同构成了 Skill 健壮性的完整画像。一个高质量 Skill 应在所有四项测试中保持稳定表现。
核心结论:Skill 对 Agent 效能的提升是系统性、多维度的——不仅减少轮次(-64%)、节省成本(-75%),更大幅提升准确率(+28%pp)并降低幻觉率(-55% ~ -75%)。综合计算,装备 Skill 的 Agent 相比基线效能提升约 1.9×(《Agentic Engineering》公式:Accuracy × Autonomy × Token Economy)。
并非所有任务都需要 Skill。理解 Skill 的适用边界,比盲目堆砌 Skill 更重要。本章通过四象限框架和真实场景案例,帮助工程师做出正确决策。
我们用两个维度来判断一个任务是否需要 Skill:任务宽度(窄域/宽域,即任务是否限定在特定专业领域)和轨迹长度(短/长,即完成任务需要多少步骤)。
下面六个场景并非随意罗列,而是用 4.1 的四象限矩阵逐一定位的结果——它们全部落在长轨迹区的两个高价值象限:🟢 Q1 宽域×长轨迹(必须用 Skill)与 🟣 Q2 窄域×长轨迹(强烈推荐)。这印证了一个判断:任务轨迹越长,Skill 防止"出轨"的价值越不可替代;短轨迹的 Q3/Q4 象限则没有"必须用"的场景。
如果说 4.2 的"必须用"场景都集中在长轨迹的 Q1/Q2 高价值象限,那么反例正是它的镜像——主要落在 4.1 矩阵的短轨迹低价值侧(🔵 Q3 宽域×短轨迹、🟡 Q4 窄域×短轨迹)。在这两个象限里,基础模型能力已基本够用,强行 Skill 化只会带来"过载"风险:当 Skill 数量超过阈值,Context 窗口中 Skill 描述本身就会占据大量 Token,引发新的 Context Rot 问题。以下情况应避免过度 Skill 化:
① 任务多样性极高的通用助手(🔵 Q3 宽域 × 短轨迹):典型的"宽域但每次都短",正是 4.1 中"Expert Skill 收益递减"的象限。每个 Skill 都会消耗 System Prompt 空间,堆砌过多反而让模型"注意力分散"。建议最多同时加载 5—8 个 Skill。
③ 低频、一次性任务(🟡 Q4 窄域 × 短轨迹):4.1 中"边际收益有限、不宜过度设计"的象限,再叠加"低频"进一步压低 ROI。专门为一次性任务设计 Skill 的回报极低,直接 Prompt 更经济。
② Skill 内容过时的场景(⚠️ 跨象限·时效维度):这一条不在矩阵的两根轴(宽度 / 轨迹)上,而是一个独立的时效维度——任何象限都可能中招。如果领域规则更新频率超过 Skill 维护频率,过时的 Skill 比没有 Skill 更危险(会强制模型遵循错误规则)。即便任务本身落在 Q1/Q2,一旦 Skill 失修也应果断停用。
如何判断一个 Skill 是好是坏?本章提出一套兼顾定量指标与定性判断的双轨评估框架,以及可落地的 A/B 评测流程。
以下是一个典型 Expert Skill 的评估结果示例,完整覆盖 5.1 的全部 10 项指标(定量 6 项 + 定性 4 项),右侧评分卡标注各项权重,综合分按权重加权得出(满分100):
回到最本质的问题:Skill 的价值是什么?
从 Prompt Engineering 到 Context Engineering,再到 Agent Engineering,每一次范式跃迁的本质,都是人类智慧向机器可执行指令的更深度转化。Skill 是这条转化链路上目前最成熟的载体。
评估 Skill 的价值,不能只看单一指标。一个真正优秀的 Skill,是准确率、自主性、Token 经济性三个维度的乘积最大化——这三者相互增强:更准确的 Skill 让 Agent 不需要反复校验;更强的自主性让 Skill 能处理更复杂的任务链;更高的 Token 经济性让系统能在有限 Context 中加载更多能力。
数据给出了清晰答案:装备 Skill 的 Agent,比裸 LLM 综合效能提升 1.9×。比无 Skill 的 Agent,Token 消耗降低 75%,轮次减少 64%,幻觉率最高降低 75%。
更深层的意义在于:Skill 是 AI 能力的"知识产权化"过程。当一个企业将其核心业务知识、流程规则、专家经验封装成高质量 Skill,这些 Skill 就成为了不可复制的竞争护城河——而这,才是 Skill 在商业维度上的终极价值。
Anthropic 的 MCP 协议、Google 的 A2A 协议,都是在争夺 Skill 互操作标准的制高点。这场战争的终局,将由谁构建了最丰富、最高质量的 Skill 生态来决定。
评估 Skill 的价值,本质上是在评估:在有限的 Context 窗口内,以最低成本、最高精度,完成最复杂任务的能力。而这,正是 Agent 时代所有竞争的核心命题。


