SkyRL推出视觉语言强化学习,助力多模态任务的可扩展训练。了解这对AI发展的影响。(阅读更多)SkyRL推出视觉语言强化学习,助力多模态任务的可扩展训练。了解这对AI发展的影响。(阅读更多)

SkyRL 为多模态模型新增视觉语言强化学习支持

2026/04/25 00:33
阅读时长 5 分钟
如需对本内容提供反馈或相关疑问,请通过邮箱 crypto.news@mexc.com 联系我们。

SkyRL 为多模态模型增添视觉语言强化学习支持

Joerg Hiller 2026年4月24日 16:33

SkyRL 引入视觉语言强化学习,为多模态任务实现可扩展训练。了解这将如何影响人工智能发展。

SkyRL 为多模态模型增添视觉语言强化学习支持

SkyRL 是由加州大学伯克利分校 Sky Computing Lab 与 Anyscale 联合开发的强化学习(RL)库,近日宣布支持视觉语言模型(VLM)的后训练。此次更新允许团队使用监督微调(SFT)和 RL 工作流程训练多模态模型,满足市场对能够同时处理视觉与文本数据的模型日益增长的需求。

计算机视觉任务、机器人技术及智能体推理等多模态工作负载,要求模型处理视觉输入、执行动作并根据反馈进行调整。SkyRL 的新功能将 VLM 提升为其训练栈中的一等公民,提供工具以在本地 GPU 或多节点集群上扩展训练规模。这建立在 SkyRL 现有基础设施之上,该基础设施已支持复杂的智能体任务,如软件工程基准测试和 Text-to-SQL 生成。

此次更新的主要功能

视觉语言任务中强化学习的核心挑战之一,是保持训练与推理之间的一致性。SkyRL 通过引入解耦管道,解决了处理视觉输入时常见的对数概率漂移问题。该平台以 vLLM 推理栈作为唯一可信来源,确保词元化和输入准备在各工作流程中保持一致。

这种方式不仅稳定了训练过程,还允许独立扩展用于输入处理的 CPU 工作节点,确保 GPU 吞吐量不会成为瓶颈。此次更新还支持开箱即用的任务方案,如 Maze2D 导航和 Geometry-3k——一个需要视觉几何推理的数据集。早期结果显示,即使在较大的模型规模下(如 Qwen3-VL 8B Instruct),训练稳定性也有所提升。

对人工智能发展的影响

SkyRL 正将自身定位为多模态模型训练中可扩展 RL 和 SFT 的首选平台。通过与 Tinker API 等工具集成,用户可在自有基础设施上部署 RL 工作流程,减少对外部服务商的依赖。考虑到训练大型模型的计算需求不断增加,这一点尤为重要。

这些进展恰逢多模态人工智能系统在实际应用中需求旺盛之际。需要序贯决策、视觉推理和适应性的任务——如自主导航和与工具的动态交互——将从中大为受益。SkyRL 的模块化设计也支持快速原型开发,使研究人员和开发者能够尝试新算法和训练范式。

展望未来

SkyRL 的路线图包括序列打包、Megatron 后端支持以及具有上下文并行性的长上下文训练等功能。这些升级预计将进一步增强其处理复杂智能体工作负载的能力。对于渴望深入 VLM 训练的开发者,SkyRL 提供教程和文档以助其快速上手。

随着人工智能行业日益将多模态系统纳入实际应用场景,高效训练和微调此类模型的能力将成为关键差异化因素。SkyRL 的最新更新体现了其在这一演进浪潮中保持前沿地位的承诺,为前沿 RL 研究与部署提供可扩展的模块化框架。

图片来源:Shutterstock
  • skyrl
  • 强化学习
  • 视觉语言模型
  • 人工智能训练
免责声明: 本网站转载的文章均来源于公开平台,仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利,请联系 crypto.news@mexc.com 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证,并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考,不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。

掷骰赢 1 BTC!

掷骰赢 1 BTC!掷骰赢 1 BTC!

邀请好友掷骰子,争夺 500,000 USDT!