收拾丨赖文昕。实录式具身智曙光
修改丨陈彩娴。迷雾
VLA(视觉-言语-动作模型)作为具身智能范畴的实录式具身智曙光要害新范式 ,能有用整合视觉信息、迷雾言语指令与举动决议计划 ,实录式具身智曙光显着进步机器人对杂乱环境的迷雾了解和习惯才干,对推动机器人从单一使命履行向多样化场景自主决议计划的实录式具身智曙光跨过至关重要 ,已成为当下学术界和工业界炙手可热的迷雾研讨焦点。
2025 年 5 月 9 日 ,实录式具身智曙光、迷雾AI 科技谈论 GAIR Live 品牌举行了一场主题为“具身智能之 VLA 的实录式具身智曙光实践与打破”的线上圆桌沙龙。
圆桌掌管人为北京大学核算机学院助理教授 、迷雾智源学者仉尚航,实录式具身智曙光并约请了清华大学穿插信息院助理教授、迷雾千寻智能联合创始人高阳 ,实录式具身智曙光清华大学穿插信息院助理教授、星海图联合创始人赵行 ,与北京大学人工智能研讨院助理教授 、北大-灵初智能联合试验室主任杨耀东一同进行了一场深度的谈论 。
会上,掌管人仉尚航带领谈论 VLA ,先是谈论其界说、来历及相关模型差异;接着剖析技能路途与新作用,谈论不同路途的优缺点;随后环绕机器人常见使命 ,剖析中心技能瓶颈与干流输出范式;还研讨强化学习结合 、泛化才干进步、异构数据运用与协同操练;终究注重落地场景 ,并谈论履行长程使命的难点与或许。
其间 ,三位嘉宾环绕 VLA 在具身智能中面对的技能瓶颈别离提出了自己的独到见地 :
高阳以为 ,推理与数据是其时 VLA 面对的两大中心应战,推理方面虽已有许多研讨探究 VLA 与推理的结合途径,但没有明晰最优计划;数据层面 ,不只量级远不及操练 VLM 的数据 ,多样性更是严重缺少,现在数据多搜集于简略环境,且堕入“数据缺少约束模型才干 、模型才干有约束约数据搜集”的恶性循环 ,破解数据窘境成为 VLA 研讨的要害所在 。
赵行表明 ,VLA 在实践运用布置中,系统运转频率单一化存在经济本钱与优化难题,根据哺乳动物动作高频操控、高层次思想低频闭环的原理,规划相似人类的高低频自习惯闭环系统仍是未处理的课题,完结端到端操练以整合多层次、不同频率的大系统是终究方针。
杨耀东则提出 ,其时 VLA 操练存在分裂问题 ,大脑(VLM)和小脑(底层战略模型)多分隔操练,缺少端到端操练及相似人类大小脑的双向交互,虽有部分研讨测验探究端到端架构,但联调困难;一同,VLA 缺少“测验时核算闭环”,仅能由大模型生成中心信号驱动小模型输出动作,无法像言语模型经过强化学习在测验时持续核算优化推理才干 。要打破这些窘境,需学习言语模型阅历 ,选用端到端架构结合强化学习,赋予 VLA 动作空间的闭环推理才干 ,但面对工程化落地和数据等难题,若不处理 ,VLA 难以实在开释具身智能潜力 。
以下是此次圆桌谈论的精彩共享