企业正在发现,与构建让AI代理在生产环境中值得信赖的系统相比,构建AI代理本身要容易得多。
企业AI团队在过去两年里争相构建代理。如今他们面临另一个问题:这些代理中真正能够在大规模部署中被信赖的少之又少。

这一差距开始在公开数据中显现。据报道,Prosus在内部构建了50,000个代理,但每天运行的仅约5,000个。这一10比1的比例已成为衡量当前企业AI生产状态的一个揭示性指标。问题不在于企业能否创建代理,而在于他们能否可靠地判断哪些代理可以安全部署、哪些输出值得信赖,以及系统出现故障时该如何应对。
这一区别至关重要,因为自主系统所承诺的效率,前提是这些系统一开始就能做出正确的决策。
从实验到生产的差距
对许多工程团队来说,早期AI代理部署的浪潮推进迅速。内部助手、工作流自动化工具和多代理系统在各部门纷纷涌现。演示效果良好,试点项目看起来前景可期。
然而,生产环境却呈现出截然不同的景象。
bem的首席执行官Antonio Bustamante多年来一直致力于为受监管行业(包括保险、金融和医疗保健)构建AI基础设施。在他看来,行业最大的瓶颈在于问责制。
他提到了一个被广泛讨论的涉及Upstream的事件:一个AI代理加入了一个Slack频道,据报道人类团队随后沉默了24小时,因为没有人知道如何与它互动。Bustamante认为,这种沉默暴露了更深层的问题:企业尚未设计出与代理协同工作的运营模式。
同样的模式在大规模企业部署中也有所体现。团队可以迅速生成数千个代理,但一旦这些系统遭遇杂乱的生产数据、不明确的所有权或不确定的输出,使用率便会下降。
这正是许多企业如今发现自己虽然在AI代理部署上投入大量精力,却几乎没有真正落地的企业AI生产成果的原因。
多代理系统为何屡屡停滞
部分问题源于企业环境的实际运作方式。
在受控演示中,数据是干净的,工作流程是可预测的。但真实的企业很少以这种方式运作。大多数企业系统包含碎片化的记录、格式不一致、缺少上下文,以及多年积累的运营变通方案。
Bustamante将这种情况与流水线相比较。亨利·福特的制造模式之所以成功,是因为在扩大生产规模之前,投入原料已经实现了标准化。多代理系统面临的恰恰是相反的情况——它们被期望在非标准化的企业数据上运行,而这正是大多数企业环境的特征。
一些企业已公开承认了这一运营负担。在若干部署案例中,企业发现自己不得不持续安排人工审核人员审查代理的输出结果。业内流传的一个案例中,据报道一个多代理系统需要20名人员在幕后验证结果。
这彻底改变了经济账。如果人类仍需手动核实每一个决策,那么部署自主代理所承诺的收益便荡然无存。
置信度评分与缺失的问责层
Bustamante认为,置信度评分已成为AI治理和AI基础设施生产中最被忽视的组成部分之一。如果没有能够衡量不确定性的系统,运营人员就无法可靠地判断哪些代理已准备好投入生产、哪些需要人工干预。
在实践中,置信度评分的意义远不止为答案分配一个百分比。它需要系统能够解释不确定性、将决策追溯至源数据,并在错误在工作流程中累积之前建立人工介入的检查节点。
这一AI问责层在错误会带来财务或法律后果的行业中尤为重要。一次失败的保险理赔审核、医疗信息提取错误或金融处理失误,都可能演变为法律责任事件。
Bustamante将bem更广泛的理念描述为"专为不容失败之事而设的代理编排平台"。这句话反映了行业内日益增长的共识:AI代理的可靠性与部署了多少代理关系不大,更取决于出现问题时能否对决策进行追溯、审计和纠正。
生产就绪的基础设施是什么样的
企业AI的下一阶段,可能与构建更多代理的关系不大,而更多地在于围绕代理构建配套系统。
专注于长期AI代理使用的企业,正越来越多地寻求这样的基础设施:执行过程中保持灵活,结果层面保持严格,并在故障条件下具备可追溯性。这包括置信度评分、审计追踪、干预节点、数据标准化,以及专为生产环境而非演示设计的治理系统。
那些能够弥合多代理系统实验与真实部署之间差距的企业,未必是拥有最多代理的企业,而可能是那些终于补上企业起初跳过的问责基础设施的企业。






