迷雾丨GA能的曙光与万字实录VLA 范式，具身智-濯愓日讯网

迷雾丨GA能的曙光与万字实录VLA 范式，具身智

2025-07-04 11:11:12

度顾

收拾丨赖文昕。实录式具身智曙光

修改丨陈彩娴。迷雾

VLA（视觉-言语-动作模型）作为具身智能范畴的实录式具身智曙光要害新范式，能有用整合视觉信息、迷雾言语指令与举动决议计划，实录式具身智曙光显着进步机器人对杂乱环境的迷雾了解和习惯才干，对推动机器人从单一使命履行向多样化场景自主决议计划的实录式具身智曙光跨过至关重要，已成为当下学术界和工业界炙手可热的迷雾研讨焦点。

2025 年 5 月 9 日，实录式具身智曙光、迷雾AI 科技谈论 GAIR Live 品牌举行了一场主题为“具身智能之 VLA 的实录式具身智曙光实践与打破”的线上圆桌沙龙。

圆桌掌管人为北京大学核算机学院助理教授、迷雾智源学者仉尚航，实录式具身智曙光并约请了清华大学穿插信息院助理教授、迷雾千寻智能联合创始人高阳，实录式具身智曙光清华大学穿插信息院助理教授、星海图联合创始人赵行，与北京大学人工智能研讨院助理教授、北大-灵初智能联合试验室主任杨耀东一同进行了一场深度的谈论。

万字实录：VLA 范式，具身智能的曙光与迷雾丨GAIR Live

会上，掌管人仉尚航带领谈论 VLA ，先是谈论其界说、来历及相关模型差异；接着剖析技能路途与新作用，谈论不同路途的优缺点；随后环绕机器人常见使命，剖析中心技能瓶颈与干流输出范式；还研讨强化学习结合、泛化才干进步、异构数据运用与协同操练；终究注重落地场景，并谈论履行长程使命的难点与或许。

其间，三位嘉宾环绕 VLA 在具身智能中面对的技能瓶颈别离提出了自己的独到见地：

高阳以为，推理与数据是其时 VLA 面对的两大中心应战，推理方面虽已有许多研讨探究 VLA 与推理的结合途径，但没有明晰最优计划；数据层面，不只量级远不及操练 VLM 的数据，多样性更是严重缺少，现在数据多搜集于简略环境，且堕入“数据缺少约束模型才干、模型才干有约束约数据搜集”的恶性循环，破解数据窘境成为 VLA 研讨的要害所在。

赵行表明，VLA 在实践运用布置中，系统运转频率单一化存在经济本钱与优化难题，根据哺乳动物动作高频操控、高层次思想低频闭环的原理，规划相似人类的高低频自习惯闭环系统仍是未处理的课题，完结端到端操练以整合多层次、不同频率的大系统是终究方针。

杨耀东则提出，其时 VLA 操练存在分裂问题，大脑（VLM）和小脑（底层战略模型）多分隔操练，缺少端到端操练及相似人类大小脑的双向交互，虽有部分研讨测验探究端到端架构，但联调困难；一同，VLA 缺少“测验时核算闭环”，仅能由大模型生成中心信号驱动小模型输出动作，无法像言语模型经过强化学习在测验时持续核算优化推理才干。要打破这些窘境，需学习言语模型阅历，选用端到端架构结合强化学习，赋予 VLA 动作空间的闭环推理才干，但面对工程化落地和数据等难题，若不处理，VLA 难以实在开释具身智能潜力。

以下是此次圆桌谈论的精彩共享，AI 科技谈论进行了不改本意的修改收拾：

VLA 的宿世。

仉尚航：咱们好，我是本场圆桌的掌管人仉尚航，十分荣幸能约请到来自清华大学和北京大学、在 VLA 范畴十分资深的几位专家教师。咱们今日的主题是关于 VLA 的实践与打破，首要请各位教师做个毛遂自荐。

高阳：咱们好，我是清华大学穿插信息研讨院的助理教授，一同也是千寻智能的联合创始人，十分高兴今日能和咱们沟通一下 VLA 的相关知识。

杨耀东：十分感谢尚航和的约请，今日来跟咱们各位同仁谈论一下对 VLA 的考虑。我来自北京大学人工智能研讨院，现在研讨院这边也和灵初智能一同在探究 VLA 在灵敏操作上的运用。

赵行：咱们好，我是清华穿插信息研讨院的赵行，我研讨机器人和自动驾驶，在这两方面都做 VLA 的探究，在机器人方面也在星海图从机器人本体、采数据到操练 VLA 模型都有全链路的阅历，今日也趁这个时机和咱们相互沟通共享。

仉尚航：咱们今日谈论的主题是具身智能最炽热的论题之一：VLA 。作为热身，咱们能够先简略聊聊什么是 VLA 以及咱们在探究 VLA 过程中的一些阅历心得，比方应该怎样界说 VLA ？咱们是怎样开端转到 VLA 这个赛道上面的？VLA 现在这么受注重，咱们有什么感触？怎样看待 VLA 的技能路途？

高阳：我以为 VLA 源于大模型的技能改造。我读博时做自动驾驶，接着是机器人，开端技能栈以核算机视觉、仿照学习和强化学习为主，虽能在单个或少数使命体现杰出，但难以完结一个模型做一切使命。跟着 VLM 和 LLM 带来的改造，呈现了将不同使命操作才干整合于一体的视觉-言语-动作大模型新范式，咱们组前年起全面投入 VLA 研讨。虽然 VLA 是新式范畴，但其下的仿照学习、强化学习等技能，与传统同类技能存在相通之处。

仉尚航：咱们看到了高教师宣布的 Spirit VLA 等作业，也很受启示。之前具身智能大会在北京举行时，也在论坛上听到了高教师关于 VLA 的介绍，确实在这方面的研讨很有根底，也等待你未来在 VLA 方向上的更多作业。接下来请耀东教师也介绍一下对 VLA 的界说以及开端研讨 VLA 的原因吧。

杨耀东：高教师的论述很全面了。从大模型视角，ChatGPT 后技能从言语模态逐渐拓宽到视觉与行为动作空间模态，推动大模型从“缸中之脑”向能与物理国际交互的具身智能体改动；从行为动作决议计划操控视角，传统操控需从简略的 MPC（模型猜测操控）、闭环操控，向具有知识推理与物理接地（physics grounding）才干的通用操控拓宽，这刚好契合大模型特性。

两条展开途径并行推动，使得机器人与大模型范畴学者都纷繁聚集 VLA。作为具身智能的技能亮点，比较前代技能打破，VLA 凭仗大幅进步的智能水平，有望显着增强机器人在动作决议计划与行为空间布置上的才干，在未来展开中占有重要方位。

仉尚航：没错，正如耀东教师所言，VLA 也是咱们大模型技能和具身智能的一个很好的结合，你曩昔也做了许多关于大模型对齐的相关作业，正好也能够把它运用到具身智能范畴上。也请赵行教师谈一谈你关于 VLA 的界说、开端的要害以及自己的调查和感触吧。

赵行：谢谢尚航教师。我对 VLA 的呈现有挺大的震慑和慨叹的。23 年 3 月 GPT-4 发布前，ChatGPT 等作业都是纯言语模型，虽然整个 AI 职业挺受震慑，但对咱们做视觉、机器人和自动驾驶的研讨者来说，和咱们的联系不是太大，而 VLM 即带视觉的 GPT 的呈现就不同了。

我形象十分深化，GPT-4 发布那晚咱们在看它的技能陈述，里边展现了许多有意思的视觉了解才干，包含一些了解数学题里图画的比方。有一个事例是，图画里路上有台车，后边有人在烫衣服，GPT-4 能了解场景里的状况，那么很天然的，咱们就能想到说，关于在路上看到有人烫衣服这种简直不或许见到的长尾问题，能够让模型帮咱们做一系列后续的决议计划和规划。咱们当晚就着手写一个 research proposal ，要把视觉言语模型用到带规划决议计划的下流运用上，开端做一个根据双系统 VLM 加上端到端的模型规划。之所以咱们先从自动驾驶范畴注重到这些，是由于自动驾驶有长尾问题，而长尾问题意味着没有数据可操练。没有数据可操练，端到端也就无从谈起。要处理这种长尾问题，只要经过有了解和推理才干的 VLM 和 VLA 模型。往后看，我觉得未来的机器人或具身智能大范畴都会如此。当咱们用具身智能机器人处理越来越多的问题，必定会遇到从没见过的场景，不是靠搜集数据就能简略处理的，模型范式必定会进化到 VLM 、VLA 这类范式上，所以自此就比较坚决往这方向探究。

仉尚航：这个调查十分敏锐，在 VLM 刚呈现时就能想到把它运用到自动驾驶范畴，确实有很好的 Sense 。咱们刚刚说到 VLA 模型里边很重要的 VLM 和 LLM 的才干，VLM 也是源自于 LLM ，那么咱们觉得 LLM 或许言语模态在 VLA 中的作用是什么？

以及咱们在做 VLM 时比较简略调查到的一个约束是，它关于一些细粒度、部分、几许信息的感知，或许不如传统纯视觉模型那么精准，比方说切割、深度估量、bounding box（鸿沟框）坐标的感知，但在具身智能范畴，咱们又十分需求机器人精确地抓取物体，那怎样去补偿 VLM 缺失部分空间信息的应战呢？

高阳：那我先抛砖引玉一下。首要关于第一个问题，咱们人类让机器人做一件作业要传达给机器人，传达的办法其实大大都是言语，L 在这儿就起到一个指定使命的作用；V 和 L 之间的对齐也很重要，由于咱们在指定使命后，机器人需求能了解其时的场景。言语是“拿一个水杯”，那这个水杯对应的图片究竟在哪个方位？以及许多时分人类的言语描绘有些上下文信息是关于图画的，那么把这两个模态结合起来，就能够让这个模型更好地去了解人类的意图，这些才干其实都依托于 VLM 的预操练。

仉尚航：对的，言语模态自身也能带来许多对机器人有用的额定信息，包含交互指令的接纳等，然后或许也能够经过言语和视觉的对齐来增强视觉模态上的泛化性。那关于第二个问题，怎样弥补缺失的部分信息？不知道赵教师有没有什么主意？由于赵教师做自动驾驶，也有许多十分需求精准感知的使命。

赵行：我简略共享下我的阅历。GPT-4V 发布当晚，我就和同学们开端计划该怎样做。作为做运用的 researcher，从处理问题反推办法，VLA 和 VLM 的价值中心在于填补了具身智能范畴此前模型遍及缺少的知识才干，common sense，比方路途交通规矩、人机交际规矩等，这些被视觉言语模型包含在内的知识能协助处理数据掩盖不到的长尾场景问题。

从完结途径看，已然 VLM 具有这种潜力，即使其 3D 感知才干有限，也可先与现有老练的、到达 80-90 分体现的 3D 视觉感知模型结合，经过架构规划扬长避短。未来只要 VLM 而没有其他模型，这也是个比较高概率的作用。长时刻来看，其时 VLM 预操练数据缺少物理国际具身智能数据，未来若能将更多3D几许、时刻等物理知识数据融入操练，这很或许会展开为一个干流技能的探究方向。

仉尚航：谢谢赵教师的共享。首要咱们能够把在 3D 感知上面作用好的模型和 VLM 、VLA 结合，其次还能够在数据上面多引进物理规矩，对落地和运用也很有启示。不知道耀东教师这边还有要弥补的吗？

杨耀东：前面两位教师已明晰描绘了现状。现在大模型已在言语模型上获得打破，以往是将核算机视觉范畴的好模型往言语模型上搬迁，现在则是把天然言语处理上好的架构运用到核算机视觉架构中。一方面，Transformer的成功推动了这一改动；另一方面，人工智能在言语模态上完结了大模型、大数据、大算力的三位一体，发生了Scaling Law。

从哲学视点看，维特根斯坦以为言语认知是国际的鸿沟，言语能表达一切事物，且言语处于离散空间，在建模上会更简略。但是，怎样从言语模态打破到视觉和动作模态仍是应战。现在工程上经过拼接，比方将高质量视觉模型、底层动作模型与言语模型结合，能处理部分问题。

但从通用智能体和 AGI 的视点动身，未来需求技能改造，将各模态交融，仍是期望有大一统的表征，把一切变量归入其间，但这个维度太高了。若信任一切模态能投影到低盛行空间（柏拉图假定），那将有助于 VLA 和具身智能的大一统，以及完结更强的智能打破。现在 VLA 刚起步，言语和 VLM 有必定打破，拼接思路已现，未来技能改造或许会处理如 3D 信息感知不精确等问题，虽然不知所需时刻，但应该不会太久。

VLA 的此生。

仉尚航：咱们方才谈论了 VLA 的宿世，现在来聊聊它的此生，即 VLA 现在有几种技能路途，以及看看教师们有没有关于最新展开的一些共享，比方像海外 Physical Intelligence 团队发布 π 0.5 模型、Figure AI 的 Helix，高阳教师最近发布的 Spirit v1，还有星海图和 PI 严密的协作，包含咱们团队最近也和灵初智能在协作。咱们作为资深专家，谈一谈各位对 VLA 技能路途及最新展开的观念吧。

高阳：VLA 多年技能展开集中于架构与数据两方面。架构上，从谷歌无预操练的 RT-1 到 RT-2、Sergey Levine 做的 OpenVLA 到 π 0.5 ，展开依托于 VLM前进。跟着开源 VLM 架构优化与操练办法改造，相关作用拓宽至 VLA，一同 Flow Matching 、Diffusion 等技能进步了机器人动作生成才干。

数据层面，从谷歌用 Everyday Robots 采的私有数据集，到 Open X-Embodiment 等开源数据，包含仉尚航教师也做了些很好的数据集作业，国内外组织积极探究，经过新搜集、前史数据处理等办法丰厚数据源。此外，π 0.5 并非暴力采许大都据而是转向互联网数据，咱们千寻智能也测验用视频预操练。数据质量决议模型上限，这是 VLA 展开最底子、耐久的驱动力。

杨耀东：我从模型架构视点再说说，按对 action 的表征办法，VLA 可分为两大类型：将 action 作为接连动作处理时，需选用 diffusion 类生成式模型（如 π 系列作业），由于自回归模型首要处理离散 token；若把 action 笼统成言语模型中的 token，则以 Helix 为代表。这两类模型都依托 VLM ，旨在将言语空间的知识映射到物理空间的 action ，咱们最近也在写一个 VLA 总结，探究 action 表征为离散或接连空间的更优办法。

进一步而言，行为动作空间不管是离散仍是接连表征，都可类比为人的大小脑（虽此类比有待商讨），其间 VLM 好像大脑担任推理决议计划规划，action 的 token 化或 diffusion policy 则相似小脑履行精密化操作，这两种技能范式不断展开演化，衍生拔尖多变体，但一直环绕这两大干流结构。

在操练办法上，其时 VLA 首要选用监督学习，与两年前大模型范畴相似，依托百万级数据集输入指令以完结跟从人力指令作用。但是，怎样进步 VLA 在测验时的推理才干，充沛发挥言语模型的推理优势，仍是亟待处理的要害问题。

赵行：我较注重的切入点是双系统。方才说到咱们做运用的人更注重究竟处理什么问题，说到现在的具身智能都缺知识，而 VLM 处理知识，那就把 VLM 和现有的端到端模型协作以完结一个双系统。VLM 是一个推理速度较慢的模型，布置后大约能完结 2-3 赫兹的推理速度，而端到端模型能完结 10-20 赫兹的推理速度，它俩进行某种协作完结双系统。咱们最早在自动驾驶完结并且落地了，这是咱们一个挺骄傲的作用，接着咱们首要注重机器人范畴的 VLA 规划，简略分解为以下几类。首要是最有代表性的 π 0，我称之为紧凑的一段式 VLA，即图画、言语指令作为输入，直接输出动作，和端到端模型差不多。Hi Robot 是双系统规划，由 VLM 拆解高层次指令为原子动作后交给 VLA 履行，办法和自驾的双系统差不多，VLM 是一个低频率运作的系统，VLA 是一个高速运作系统。

相似的双系统作业有 Figure AI 的 Helix 和英伟达的 GROOT N1，但和 PI 稍不同的是他们没有操练 VLM，那个 VLM 是从互联网上拿咱们操练好的开源模型去提取 VLM 的中心特征，把中心特征作为一个额定输入给一个端到端的 DP（动态规划）模型，然后让 DP 模型终究输出动作，是一种 VLM 不操练、提取其特征传给 DP 的规划。π0.5 和 Dex VLA 则以视觉为输入，中心做个 COT（思想链）解说它为了完结动作所要做的推理和规划，终究再把动作输出来，算是一段式的、有中心输出的 VLA 。最近有一个比较有意思的方向是，谷歌提的 embodied reasoning（具身推理），即不那么着急地操练一个 VLA 模型，因其自身从感知到规划的才干不是特别强，不如先把具身的推理模型操练好，当给模型指令时，模型看到图片能指出应操作图片里的哪一个物体，如把它从 a 方位放到 b 方位，它的 3D 空间方位是 1.5 米仍是 2 米，训好后再把里边的知识蒸馏给 VLA ，连上后边的 action decoder，侧重在 VLM 模型自身的才干。

仉尚航：确实是干货满满。你在自动驾驶范畴也是很早就开端做双系统，关于方才说到的这几种技能路途，会觉得哪一种更有或许完结或担任敞开国际的更落地或许是 Out Of Lab（脱离试验室）的使命呢？

赵行：其实这个答案我也不知道，现在 VLA 结构规划仍处于百家争鸣的状况，有紧凑式、中心输出、两段式、并联或串联等各种组合。但大趋势是，不管原本做 VLM（从大言语模型动身）仍是做机器人（专心 planning model 、action model）的团队，都在做全栈开发。

为进步 VLM 才干，现在会引进动作数据进行联合操练，方针是操练出具身推理模型，乃至是到动作等级的完好模型 VLA。不管是大言语模型公司，仍是做具身智能的研讨者 / 企业，都执政这个方向展开。大言语模型阵营会向 VLA 延伸，交融视觉与动作才干；机器人阵营则从处理精密操作的原子使命下手 —— 曩昔一个 Benchmark 包含 10 个动作就能证明模型才干，现在需求掩盖 100、200 乃至 500 个 task。在堆积许多使命的过程中，咱们发现简略凑集使命不可行，需求一个高效的 VLM 编码器和解码器来做跨模块交融。两股力气正朝着结局的 VLA 一起尽力。

仉尚航：现在 VLA 确实是一个百家争鸣的状况，就像人工智能在最前期的符号主义、衔接主义也是百家争鸣，但跟着研讨进程慢慢地收敛。现在像 Gemini Robotics、Nvidia GROOT N1、Hi Robot、Helix 等都在做双系统也发布了相应的 Demo，或许这种双系统是在近期或许会更简略让咱们觉得更具有落地或泛化潜力的规划，但未来还不好说。

VLA 包含各式各样的 Action，关于机器人中现在研讨最多的 Manipulation、曩昔的 Navigation（VLN）和人形机器人相关的 Locomotion 三大使命，各位能否请各位结合自身研讨，共享一个您以为该范畴最需打破的中心技能瓶颈呢？

高阳：我以为推理是其时一大难点，履行杂乱使命时往往需求推理，赵教师、杨教师等学者在 VLA 与推理结合方面也展开了许多研讨，但我觉得哪种途径最优仍无定论。

另一个中心应战是数据。其时数据量级远不及操练 VLM 的数据，且多样性缺少更为要害。咱们搜集的数据多来自简略环境，理论上若有无量多样的数据，VLA 难题或可方便的处理，但实践中存在“数据缺少约束模型才干，模型才干有限又导致数据搜集困难”的鸡生蛋问题。怎样破解数据窘境，是 VLA 研讨的重中之重。

仉尚航：Reasoning（推理）才干和数据这两点确实是很大的应战，要不请耀东教师也共享一下，你所遇到的中心技能瓶颈是什么呢？

杨耀东：我觉得其时 VLA 操练仍处于分裂状况，大脑和小脑分隔操练，很少端到端训的。这不像人类大脑与小脑的双向交互（小脑履行中的反应会实时作用于大脑），现有双系统架构是操练产品而非生理结构。怎样打通端到端操练是要害，若底层战略（如diffusion模型）与上层架构脱节，联调难度大，虽有清华 RDT 、PI 等测验探究端到端架构（PI虽是 frozen 的但具有端到端才干），所以打通大小脑是一个比较重要的问题。

另一个问题是，言语模型经过强化学习在测验时（test time）持续核算优化推理才干（输出行为反哺输入构成语义闭环），但 VLA 现在仅能让大模型生成中心信号（embedding/token/condition）驱动小模型输出动作，缺少实在的“测验时核算闭环”——动作履行后无法回流至VLM构成迭代优化。

要打破这一点，需学习言语模型阅历，用端到端架构结合强化学习，赋予 VLA 在动作空间的闭环推理才干。这一技能方向已被注重，但工程化落地（结合高教师说到的数据难题）仍是 VLA 亟待处理的中心课题，不然它或许仅仅模块拼接产品，难以开释具身智能的实在潜力。第二个问题是，打通操练后怎样经过咱们在言语模型上现已看到的、运用强化学习的办法显着进步其推理才干。现在的 VLA，它一切推理才干都来自于 VLM ，但这远远不行，由于咱们知道在言语模型推理才干强的大部分原因是由于它能做 test time compute ，在测验时刻不停地考虑，精确度越来越高，所以在语义空间能构成闭环，即输出的行为能在变成输入到 VLM 去。但关于 VLA 来讲，现在大模型生成一个中心产品，如某种 embedding 、token 或 condition ，然后到了小模型小脑输出了一个行为就没了，这没办法 test time compute 。实在的 test time compute 是一个视觉或指令输入，输出一个 action，这个 action 还得回到 VLA 里去，这样才干构成闭环，加之以测验时刻的算力进步，彻底进步整个行为动作空间的泛化性、精确性和鲁棒性等。这背面需求霸占的技能难点是怎样运用端到端架构赋以强化学习操练的知识和 knowhow ，复刻出咱们在言语模型上现已获得的成功。这一技能方向已被注重，但工程化落地及高教师说到的数据难题，仍是 VLA 亟待处理的中心课题，不然它或许仅仅模块拼接产品，难以彻底开释智能到具身智能中去。

仉尚航：其实我下一个问题便是关于怎样结合强化学习来进步闭环反应才干，耀东教师正好先帮我答复了。咱们持续请赵教师谈一下你觉得 VLA 的中心瓶颈是什么？

赵行：我刚刚说到的各类 VLA 范式，并联、串联、一段式、中心输出等大多是简略的线性无环图，而咱们抱负中的 VLA 应让视觉、言语、动作三模态构成闭环，这个耀东教师解说得现已十分清楚了。

另一个或许的应战是，实践运用布置时，咱们不期望整个系统以单一频率运转，这不只触及经济本钱，也是系统优化层面的难题。从哺乳动物的视点来看，动作操控需求高频运转，完结快速感知反应，而高层次思想闭环的频率则应更低。从这个第一性原理去考虑，应该规划出相似人类的高低频自习惯闭环系统，但至今仍是未被霸占的课题。

仉尚航：你说的高频率、低频率，Helix 这个作业是不是这种结合？

赵行：对，咱们现在规划出了一种不闭环的架构，比方 Helix 的规划，它的 VLM 是 frozen 的，没有操练便是把 feature 拿出来加上一个 action 的 diffusion policy model，是串联式的，但我觉得或许不是最好的，它需求把动作反应回来，但一旦反应回来后，不同频率的两个系统怎样完结闭环？我觉得这是个比较大的应战，那当然期望结局有一个端到端的操练办法，把这种多层次、不同频率的一整个大系统都能操练起来。

RL 之于 VLA。

仉尚航：系统级的闭环规划确实是很重要的。方才耀东也说到和强化学习的结合，那 VLA 已有许多的预操练，也体现了必定的泛化才干、推理才干。但刚刚说到的 Reasoning 还需求进一步进步，比方和强化学习的结合，或许是一种不错的思路。先请耀东来弥补一下 VLA 和强化学习怎样更好地结合？

杨耀东：处理这类问题没有“一招鲜”的计划。从言语模型推理模型的展开来看，不管是 OpenAI 的 o 系列仍是 DeepSeek 的 r 系列，背面都是一套完好的工程 pipeline，不是跑一个 RLHF 或 GRPO 就处理的，触及冷启动、迭代蒸馏、数据制作与组成等多个环节。咱们在与灵初的试验室协作中的测验虽有开端作用，但确实没到达结局。

从数据视点看，比较离散空间问题，接连动作空间的研讨难度更大。以 AlphaGo 为例，仅靠 3000 多万条人类动作样本（约16万局游戏）就能处理下棋这类离散操控问题；而 Helix 运用 500 小时数据，折算后达 1 亿 - 5 亿条。离散问题用千万级数据尚可处理，但接连动作空间，特别触及灵敏手操作时，数据的质量和多样性会严重影响 VLA的操练与强化作用，而其时大部分的 VLA 其实还在做夹爪。

回忆言语模型展开，前期指令盯梢需百万级数据，现在几万条就能完结不错作用。数据需求会阅历从“多”到“少而精”的阶段，往下展开肯定是 less is more ，但这个 less 没有 more 的阶段，是无法认知里头的结构的。现在的数据搜集多选用监督学习思路，如经过遥操作获取抓取轨道，虽能用于冷启动，有一个不错的小脑 policy，但和大小脑联动的强化学习自操练范式还不是一回事。

好在咱们现在有 Issac Gym、Issac Sim 等供给免费组成数据，能够在虚拟环境中许多操练，结合 sim to real 技能有望缓解数据问题。但怎样运用强化学习完结数据自组成、自操练，特别是在灵敏手运用场景中，现在研讨仍较少，应战巨大。

仉尚航：感谢耀东的共享，其间说到的观念极具启示性——VLA 与强化学习结合时，数据预备不该遵从自监督操练结构，而需选用面向自操练的办法，相似 AlphaGo 之后 AlphaZero 经过自操练进步棋力的途径。作为强化学习范畴的专家，能否请高教师共享一下两者怎样更好地结合？

高阳：我以为强化学习是 VLA 展开的必经之路。好像大言语模型从预操练起步，经 GPT-1 到 3.5 逐渐展开 SFT 微调、RLHF 微调，VLA 展开大约率也会历经这三个阶段。RLHF 对 VLA 作用与单一言语模型相似，可削减错觉和动作过错。

但现在仍存在许多未解问题。比方在 VLA 的 RLHF 中，怎样激起相似 COT 的行为？对机器人来说，怎样的接连动作序列才契合 COT 规范？这些概念尚无明晰界说，咱们试验室正在探究。

将强化学习运用于实体机器人与在仿真器中有着本质差异。在实践物理国际展开强化学习，面对安全性、数据量等应战，亟需深化研讨处理。一旦打破这些难题，机器人或能在实践国际完结自主操练。

仉尚航：就像高教师说的，RL 与 VLA 结合有多种办法，比方在真机上用在线强化学习做下流使命微调，或结合离线 RL 与仿照学习进行 VLA 预操练。现在这仍处于前期探究阶段，思路多样。赵教师怎样看强化学习与 VLA 的结合？是否有更好的结合办法？

赵行：我来谈论一个咱们或许没提及的使命。咱们做了许多机器人全身运动的研讨，从四足机器狗到双足人形的运动操控，这个范畴强化学习已得到验证，比方让机器人跑酷、跳舞、打拳等都能超卓完结，这表明强化学习用于操练 low level 的操控是可行的。

再看上层，一般会用到 VLA 模型，它有更多推理过程。从未来展开看，强化学习和 VLA 模型必定有交融趋势，强化学习操练的模型梯度有时机从操控模型反向传达到上层 VLA 模型。不过，交融的详细细节还需咱们进一步探究。

实在数据、仿真数据仍是互联网数据？

仉尚航：没错，这确实是个很有意思的研讨方向。不只 RL 能助力 VLA ，VLA 也能反哺 RL，优化运动操控。方才咱们都说到了数据，我正好也预备了相关问题。就像 π 0.5 和许华哲教师陈述中展现的数据金字塔，底层是互联网数据，中层是仿真数据，上层是真机数据，这体现了多源数据操练的有用性。

我想讨教各位教师，VLA 操练该用真机数据，仍是混合数据？若挑选混合，该怎样配比？不同操练阶段（预操练、微调、后操练）又该怎样挑选数据？高教师先谈谈吧。

高阳：我以为数据的多样性最为要害。咱们曾在论文《data scaling law in imitation learning》中提出，数据的肯定数量并非中心，多样性才是重中之重。根据此，我对仿真数据是比较失望的。虽然仿真数据简略许多生成，也能经过域随机化增加随机性，但现在没有仿真器能复刻物理国际的丰厚多样性，不管是物体品种仍是交互办法。

因而，仿真数据或许可用于粗糙的预操练，过往一些抓取类仿真器和数据集在实践运用中也获得过必定作用。不过，除了简略抓取和部分运动操控，触及杂乱通用操作使命时，仿真器的才干仍远达不到实践国际的杂乱度。所以我以为，丰厚的互联网图文数据、人类视频数据以及实践场景搜集的遥操数据，才应是 VLA 操练的首要数据来历。

仉尚航：我在具身智能大会听到你的陈述也专门介绍了怎样更好地运用互联网数据，要不再给咱们介绍一下？

高阳：千寻智能投入许多精力探究怎样运用互联网数据优化 VLA 模型，其间代表性作业之一是提出 Any-point Trajectory Modeling（ATM）。咱们从互联网人类活动视频中提取要害点运动信息，让模型猜测这些要害点轨道，以此学习人类行为办法。经过对预操练后的模型进行微调，其泛化才干显着进步，特别在场景适配和物体类型辨认方面体现超卓。互联网数据丰厚多样，咱们觉得这一方向极具潜力，还有许大都据没有被充沛发掘和运用。

仉尚航：十分附和，数据和模型是相得益彰的。若想更好地运用低本钱的互联网数据，对模型规划的要求会更高；而运用高本钱的真机数据时，模型规划或许能够更简略直接。关于数据方面，高教师说到仿真数据因不行实在，对操练的协助有限。想问问别的两位教师，关于 VLA 的数据，特别是仿真数据，你们是赞同这一观念，仍是有不同的观念呢？

杨耀东：我能够弥补一下。首要我也认可互联网数据的重要性，但它存在信噪比低的问题，就像金融数据，看似丰厚却难以挑选有用信息。互联网数据虽有人的行为轨道和操作视频，但对不同使命场景的适用性差异很大。比方专心夹爪（Gripper）操作研讨，互联网数据简直派不上用场，由于视频中的人类动作难以直接搬迁到机械结尾履行器，即使搬迁到上肢部位，对实践操作协助也有限。在灵初智能的实践中发现，若要完结灵敏手的精密化端到端操作，互联网数据作用不大，反而是外骨骼设备搜集的精准数据，对 sim to real 和后操练 VLA 而言，更能有用进步功用。

这一认知与传统学术研讨观念不同。一般以为数据多样性越高越好，论文常展现模型在跨实体、跨使命场景下的体现，但这儿存在一个误区：过多无关数据会稀释要害信息，导致模型战略功用下降。虽然通用人工智能（AGI）需求多元数据交融来进步功用，但究竟现在通用智能还比较远，具身智能就更渺小了，而在详细使命的场景里，这些更高维度、更广域的数据反而是有害的，这是咱们在实践中得出的阅历。

仉尚航：好，耀东这边关于互联网数据提出了一些不同的主意，不知道高阳教师有没有想弥补或许谈论的？

高阳：我十分赞同，其实互联网上数据咱们核算下来或许只要 1% 的数据是有用的，许大都据都是无效的，这就需求许多的数据清洗作业。只要捕捉到人手操作物体，以及物体间交互联系的视频数据才具有价值。这和大言语模型不同，大言语模型虽也需清洗数据，但即使不清洗，也能操练出尚可的模型；而互联网视频数据有必要经过严厉、许多的清洗，才干用于操练。

仉尚航：是的，互联网数据简略获取，是个大宝库，但得想办法发掘其间有价值的部分。关于 VLA 操练中互联网数据和仿真数据这块，真机数据的价值是毋庸置疑的。赵教师对这方面有什么主意呢？是和方才教师们观念相同，仍是有不同之处？

赵行：我开端和高阳教师观念相似，对仿真数据持失望心情。由于构建彻底实在的仿真环境太难，不只要视觉实在，还得完结几许、物理和行为实在，sim to real gap 会巨大。但后来发现，核算机视觉范畴的可微分烘托技能（如 3D 高斯 NERF）能缩小这一间隔，首要处理物体纹路和几许实在性问题。

在我看来，仿真数据的作用是扩大实在数据。以咱们在星海图的作业为例，经过“real to sim to real”闭环链路，先拍照机器人作业场景视频，再进行几许重建、新视角烘托，拆解重组场景完结数据增广。这不是随便发明数据，而是根据现有数据拓宽。现在视频生成模型越来越强壮，乃至能仅凭一条拍照数据重建场景，这是个不错的方向。

不过，这条技能路途十分依托实在数据，视频生成模型还无法了解物理几许规矩，不能代替物理仿真器。现在可行的技能路途，是经过半重建、半生成的办法将实践映射到虚拟国际，完结数字孪生和数据扩大，再与实在数据联合操练。但仿真究竟仅仅辅佐，实在国际搜集的数据才是要害。

仉尚航：是的，我形象深化。上一年8月国际机器人大会，我和高继扬教师一同参加论坛，其时他兴奋地跟我提及星海图行将发布 Real2Sim2Real（从实践到仿真再到实践）相关作用。正如你所说，若仿真数据满足实在，其价值会显着进步，像 3D 高斯这类技能助力重建，让仿真更迫临实践。

但我一直在考虑物理特性仿照的问题。3D 高斯等技能或许能在外观层面高度复原，可物体的物理规矩，比方重力、摩擦力、纹路触感，以及原料分量、外表纹路细节等，要完结高度传神仿照，好像还有很长的路要走。所以我想讨教一下，仿真数据若要更具价值，是有必要全方位挨近实在，包含这些物理特性，仍是仅外观挨近就满足了呢？

赵行：对，就像方才说到的 Real2Sim2Real 技能以及联合操练，更多是处理泛化性这个广泛概念里的详细问题。比方在 Sim2Real Gap 中，包含视觉纹路、几许、物理动力学以及行为等方面的间隔，现在这些技能仅仅尽或许地缩小其间视觉泛化性方面的间隔，关于物理和行为交互等方面的泛化性问题，咱们还需求一种技能来霸占后边这些Sim2Real Gap 。

怎样进步泛化性？

仉尚航：好，咱们接着 Sim2Real（从仿真到实践）以及泛化性的问题持续谈论。之前咱们谈论过 VLA 的推理才干，而泛化才干也很重要，各位教师在陈述中也常提及。那么，该怎样进一步进步现有 VLA 的泛化才干呢？这其间包含跨本体、跨场景、跨使命、跨物体等方面的泛化才干。想讨教师们给出一些主张，高教师能否先说说呢？

高阳：我以为就 VLA 的泛化才干而言，最简略直接的办法是运用许多互联网的视觉言语数据进行联合操练。比方参加各类不同的相关数据进行操练，还能够引进视频，并运用辅佐的丢失函数。

进步泛化才干方面，不管是大言语模型仍是视觉言语模型，都没有算法上的奇观。首要是经过各种办法生成许大都据，这些数据一部分来自实在国际，一部分是经过仿真办法得到的。当模型接触到丰厚多样的数据后，就能天然地学会防止神经网络中的一些捷径，然后泛化到新的场景。关于 VLA 来说，在这方面也并无太大不同。

杨耀东：我觉得有个视点值得考虑，即把 VLA 当作大模型来拓宽其泛化才干。从数据、模型架构和操练视点来看，方才说到数据要多样，模型架构或许改动，操练要增加强化学习、端到端等。在此根底上，或许需求跳呈现有结构考虑下一代技能。

比方在大言语模型方面，操练大模型很困难，而人类的强壮在于能不断在线自习惯学习新技能。这对大言语模型意味着测验时的核算、操练或对齐，即在不动或只动一点权重的前提下，快速习惯新结构、使命和物体。这在小脑方面特别重要，由于人类小脑的可塑性很强，小孩的灵敏操作才干，比方13、14个月大的孩子看几回演示就能学会拧发条。

现在在纯言语大模型上已看到一些好痕迹，如 John Schulman 说到，模型操练到必定程度后，发现俄语中的一个过错，他用 20 条对应的英语数据调整后就批改了过错。所以咱们要寻找一种下一代的范式，即无需大动干戈就能快速学会新才干的办法，也便是研讨神经网络的可塑性，这或许需求算法上的革新，像现在一些 TTT 范式就值得注重。

别的，咱们还需打破现有“大脑加小脑”的大模型认知约束，这种认知较为片面果断，或许是出于商业化或面向群众、投资人的考虑，便于咱们了解“大脑小脑”概念。但人类生理机制杂乱，以呼吸和心跳为例，按“大脑小脑”剖析本应归属小脑，但实践由脑干操控。

现在的 VLA，不管是 Helix 仍是 π ，都缺失“脑干”这样的结构。所以，对架构进行立异至关重要，这或许是完结强壮泛化才干、推动 VLA 向下一阶段规划化展开的要害。当然，当下也需做好数据优化、强化操练、完结具身认知等作业，但要完结实在的泛化，还需支付更多尽力。

赵行：我以为未来机器人会像地球生物相同形状多样。大约率不需求单一的大脑或 VLA 模型，耀东教师说到的后操练或 test time training 范式更适宜具身智能。机器人各有一起本体和作业空间，不像自动驾驶车寻求通用，比方亚马逊最近展现的库房机器人，用带触觉的双面履带夹爪，削减对视觉的依托，特定使命功率更高。

但咱们更需求一套完善东西，包含预操练 checkpoint 、后操练或 test time training 东西，能针对详细场景搜集少数数据完结适配，终究去把这个问题给处理到 99.9% 的成功率。咱们既要注重预操练数据搜集，也要注重后操练范式展开，乃至能够在其间融入机器人本体联合优化，完结战略操练与本体参数调整同步进行。终究方针是让各类机器人好像生物多样性般，在不同场景高效作业。

仉尚航：赵教师说到，进步泛化性不该约束于单一模型，而需求算法、数据与本体规划协同的全系统统或东西。调查到星海图与 Physical Intelligence 的协作，他们的论文也触及用你们的本体及硬件调整，这让我考虑：VLA是否需求特定构型协作？是否并非一切机器人构型都适宜 VLA 模型，若想增强其泛化才干，或许需求针对性的构型规划。比方耀东教师说到的灵敏手自由度高，增加了 VLA 完结的杂乱度，那是否选用三指夹爪反而更利于完结泛化使命？

总结一下，我想和教师们谈论：VLA与本体构型规划存在怎样的相关？为了让 VLA 更精确、更具泛化性，是否需求规划特定构型或构型系列？咱们对国内多种机器人做过试验，发现了这一现象，也期望听听各位在工业界有丰厚阅历、参加本体规划的教师的观念。

高阳：这个问题很有意思。理论上，VLA 模型和机器人本体没有必定绑定，不同手臂、手部数量的机器人都能履行使命。但首要要供认，硬件存在固有约束，VLA 无法打破这些物理约束，比方两只手就操作不了专为人类五指规划的剪刀。

其次，若 VLA 才干满足强，就能充沛发挥每个本体的硬件上限。终究，关于本体数量，我以为未来或许只需少数通用本体。为每个本体独自匹配 VLA，从商业和构建本钱上看都过高。即使人类作为强壮的 VLA，切换操作不同本体也需许多操练，其他机器人切换本体相同会发生高额本钱。所以，我倾向于少数通用构型的机器人更或许占有主导，它们能下降硬件、软件及算法开发的归纳本钱，还能担任各类使命。

千寻在规划本体时，方针是让机器人能完结国际上90% - 95%的使命，这样才干掩盖本钱、广泛运用。咱们的机器人选用全身力控规划，各关节灵敏，力控功用关于机器人与实践国际交互至关重要，就像学术界常用的 Frank 力控机械臂。为平衡初代产品才干，咱们挑选轮式底盘而非双足形状，由于轮式底盘经过性好、占地小，不易受空间约束，这是咱们的底层逻辑。

仉尚航：力控确实十分重要。关于本体构型规划和 VLA 模型的联系，耀东教师有什么想谈论的呢？咱们其实很注重灵初，最近也多谢耀东教师的支撑，陈源培在和咱们协作研制关于灵初的手和臂做收银使命，也预期能在智源大会上一同展现。

杨耀东：我不算典型的具身智能研讨者，便是懂些灵敏操作。从 2022 年做双手灵敏操作的实践来看，这是个极具应战性的问题。一方面，它触及高自由度操控；另一方面，传统仿照学习难以处理，互联网数据也无法直接运用，因而咱们从一开端就挑选了强化学习路途。实践证明，强化学习在双手协作、操作使命等方面作用显着，2022 年咱们还完结了双手高速抛接。

这段阅历让我认识到，很难有通用模型能处理双手灵敏操作问题，乃至要规划出通用 VLA 来彻底处理双手操作也十分困难。人的大脑都无法将右手阅历直接运用到左手，在模型参数层面完结技能和轨道搬迁更是难上加难，后操练本钱极高，不如针对特定硬件架构，用垂域数据和操练办法定制模型。

所以在灵初的研讨中，咱们没有选用端到端大一统模型，而是自下而上，根据硬件规划外骨骼搜集设备，针对超时打包、扫码补货等特定场景搜集真人数据操练。结合 VLM 的知识和物理 grounding 才干，在这些场景中获得了比传统机器人更强的泛化才干，具有必定商业化潜力，但间隔完结人类 95% 的日常操作仍有很大间隔。

从微观视点看，现在咱们都在谈论大模型 Agent。Sam Altman 的说法是，Agent 只要能完结人类 3% 的使命，AGI 就算完结，由于乘上人类的 GDP 是个巨大的数字。但现在具身智能离这个方针还很远，能完结人类 0.3% 的使命就已十分了不得。这需求产学研深度交融，探究各类运用场景，像高教师、赵教师等许多科研人员，包含智源展开的 RoboMIND 项目，都十分有含义，若能成功，将为国家乃至人类带来巨大贡献。

仉尚航：是的，从数据到模型到硬件本体到系统，其实都需求联动以及咱们多方结合去尽力，乃至终究构成一个生态。赵教师有什么能够共享的吗？

赵行：在这个问题上，咱们起先就有深化考虑。星海图最早提出“智能界说本体”，这并不完好，这儿的“智能”包含智能模型算法、数据搜集难度以及可处理问题的数量。正如高教师所说，能处理 90% - 95% 的使命，这些要素一起决议适宜的本体形状。所以第一阶段，咱们挑选轮式底盘加双臂夹爪的机器人形状，它便于智能模型操控、数据搜集，也能处理不少使命，后续再逐渐增加灵敏手等杂乱部件。

需求阐明的是，咱们以为未来机器人生态会丰厚多样。但在 ToC 端，面向家庭顾客，大约率会呈现通用人形机器人，由于人形是人类国际的“最大公约数” ，能处理更多问题；而在 ToB 端，商业和工业场景中，估计会有几种干流形状的机器人，针对详细运用场景，经往后操练、test time training，或本体与使命协同规划，进行手臂加长、轮子加大等细化改造。这便是咱们全体的思路。

长程使命与商业落地。

仉尚航：终究 20 分钟有一个我自己十分注重的问题，便是关于长程使命。咱们一般用 VLM 拆解长程使命为原子使命，再由 VLA 履行。但 VLA 只能做原子使命吗？它能否直接完结长程使命？现在相关研讨很少，VLA 大多仍在履行短程使命。我想讨教咱们，VLA 是否有潜力独立完结长程使命？若有，咱们是否该朝此方向探究？假如要完结，该怎样做，才干防止先由 VLM 拆解、再让 VLA 履行短程使命的办法？

高阳：我以为这并非最要害、最急需处理的问题。若 VLA 能完结许多短程使命，那调配上层使命调度器，就能处理实践中大都问题。到时，首要应战在于调度器与 VLA 的协同。直接用 GPT 等做调度器或许作用欠佳，因其不了解 VLA 的才干鸿沟，但可经过少数 prompt 使其把握基层的才干鸿沟。虽然这种使命拆解办法并非最优，却足以应对90% - 95%的使命。所以，这个问题有研讨价值，但主张先搭建好根底结构，再深化探究会更有含义。

仉尚航：理解，高教师以为这不是咱们特别紧急要处理的第一个优先级，那耀东觉得 VLA 是否需求尽量去处理长程使命？仍是也像高教师这样觉得说其实协作一个大脑模型做拆解就能够了。

杨耀东：我以为这是个很火急的使命。在组成灵初试验室时，我约请了北大专门做推理模型 VLA 的梁一韬教师。从 Nvidia 的言语系统看，第一代具身智能是 Minecraft agent，虽操作鼠标键盘的自由度不高，但敞开环境下使命杂乱。一年多前，经过言语智能体，在 Minecraft 上的 VLA 运用 self reflection（自我反思）、correction（批改）、replanning（从头规划）等技能，让其玩三四个小时不犯错，完结有稀少奖赏且需运用多种东西的使命已没问题。

与机器人操作比较，许多机器人操作视频时长大约 10 到 15 秒。而像超市补货这类杂乱使命，篮子里或许有二三十个物体、几千个 SKU（库存保有单位），操作过程远超 10 到 15 秒，这对现有 VLA 是很大应战，若不能自我纠错和从头规划，使命成功率会显着下降。

在和灵初开发大脑和小脑时，VLA 的推理才干优先级很高。最近做了个灵敏手打麻将的 demo，一镜究竟，机械臂不只要核算出牌，还要考虑各种原子动作，如牌的抓取办法等。仅靠 VLM 或强推理模型，没有端到端且具有embody COT（具身思想链）才干的 VLA 是处理不了问题的。打麻将是这样，补货、扫码打包、物料分拣等场景也都需求这种才干。

仉尚航：便是又回到咱们方才说的闭环了，要是 VLA 能一同具有回忆、未来猜测反应闭环，从而完结超长使命，确实很有价值。赵教师，你觉得近期的 VLA 研讨是否要聚集于这类长程使命？假如需求，该怎样推动？高教师和耀东教师提出了不同思路，你怎样看？

赵行：在咱们的研讨中，相对更注重动作才干自身。究竟长程推理较难界说，而言语和视觉的界说相对明晰。咱们见过不少视觉言语的 reasoning benchmark，但还没有视觉言语动作的 benchmark ，这就急需学术界一起去界说并办法化这个问题，然后全力研讨。

在机器人使命里存在一个大坑。比方做研讨时，想让机器人做咖啡，那为何非要用VLA模型呢？为什么不自己写个状况机，操练一些动作再串联起来处理问题呢？作为评定时，也会问写论文的人，为什么要用VLA来处理问题，究竟现有的状况机写100条规矩就能处理一切状况。

所以，VLA 范畴急缺一个好的推理点评系统，让咱们清楚 VLA 的长程使命是什么，并且在长程使命中，清楚是哪几步由于推理失利而失效，而不只仅由于动作履行、自习惯操控或康复等才干缺少而失利。现在关于实在的机器人 VLA 推理模型还没有一个确认的定论，这点很重要。

仉尚航：对，赵教师也共享了咱们现在为止没有谈论到的层面，便是怎样界说和评测推理才干。

赵行：对，现在咱们觉得长程仅仅时刻长，但咱们还得从使命的杂乱度以及所需的逻辑推理才干的杂乱度这些视点来看问题，我觉得会更好。

仉尚航：界说、点评、评测确实重要。现在为止咱们现已跟咱们谈论了关于 VLA 模型的架构规划、数据、操练战略，包含 RL 等，但还没谈论到的问题便是它的输出，这也是直播观众们比较感兴趣的问题。

现在干流的 VLA 输出范式有四种，别离是自回归的 Next Action Prediction（OpenVLA ，FAST），Diffusion 或许 Flow Match Modeling（Pi0，RDT-1B），和最简略的根据回归监督的（RoboMamba，RoboFlamingo），一同运用自回归和 Diffusion 进行鲁棒 Action 输出（HybridVLA），咱们怎样看待这几种输出范式的展开呢？

高阳：从推理实时性视点看，我以为 Diffusion 和 Flow Matching 不可或缺，不然难以确保实时性。至于预操练是否选用 Next Token Prediction，这取决于技能展开，特别是能否进步 Flow Matching 和 Diffusion 的操练速度，这些都有待进一步研讨探究。

杨耀东：咱们以为 tokenization 至关重要，由于咱们期望探究具身思想链（embodied COT）和测验时核算（test time compute）的完结办法。若要以此为根底，无法将动作输出转化为模型输入，就无法进行 test time compute 。

因而，咱们深化研讨了多种 action tokenization 办法，这或许是短期内将大模型老练技能范式最快搬迁到 VLA 操练中的办法，能快速把大模型的阅历运用到 VLA 上。不过，其间存在许多工程问题，特别是 tokenization 的办法和表征影响很大，并且最大的坏处是速度问题。

这很检测工程规划，咱们能够经过分块（chunking）办法躲避，也能探究 hybrid 混合办法。现在来看，自回归办法仍然要害，由于想赋予模型推理才干，从规划视点，diffusion 这类办法还未显现出打造强推理模型的显着趋势。

仉尚航：那你会以为 Hybrid（混合）的结构或许是近期比较 Promising（有潜力的）的一种办法吗？

杨耀东：或许是的，咱们从灵初这边发布的 VLA 视点来讲，仍是做自回归办法，首要意图是能让它做 test time compute ，这个是咱们比较注重的点。

仉尚航：咱们注重的这个侧重点也不同，赵教师对 VLA 的输出范式这块有什么主意呢？

赵行：当下 diffusion model 热度很高，我对其原理和办法也有不少研讨。虽然分散模型在文生图、文生视频范畴展现出强壮才干，但没有证明自身在预操练，特别是多模态预操练方面的价值。现有的文生图或文生视频模型，大多运用固定的文本编码器提取特征，将其作为条件进行从噪声到图画、视频的生成，本质上更多是操练一个较大的解码器，一直未能证明可用于多模态或跨模态混合预操练。

反观下一个token猜测（next token prediction）办法，在 VLM 的研讨中，许多作业将图画切分 patch ，经线性投影后放入大的 Transformer ，用该办法操练能获得杰出作用。由此可见，至少现在来看，next token prediction 在预操练方面的可靠性更高。因而，我更倾向于以为自回归办法在当下是更有潜力的研讨路途。

仉尚航：好，终究一个问题信任也是咱们十分感兴趣的具身智能的落地场景。许多投资人、教师们都在谈论具身智能第一步能落地的场景是什么？各位教师在产学研结合上做得十分超卓，关于工业也有很好的调查，所以想请问一下咱们比较期望具身智能先在哪个场景下面落地？是工业、家庭、医疗仍是其他？

高阳：我以为在落地运用方面，工业场景最简略完结。虽然 VLA 远景宽广，但现在其才干尚处初级阶段，现阶段适宜在需求最火急的场景落地。

从传统机器人四咱们族的状况来看，工业出产是对机器人需求最旺盛的职业。例如轿车工业链，大部分总装线已完结高度机器人自动化，工业客户清楚机器人能带来的价值。比较之下，商业 B 端客户曩昔很少运用机器人，不太了解机器人运用的含义和预期作用，较难承受。并且工业场景相对简略，所以不管是从场景杂乱度，仍是客户运用阅历来看，工业场景都是 VLA 最早落地的挑选。

仉尚航：对，我和高阳教师、赵行教师比较相同的点是之前都做过自动驾驶，和车厂原本就有协作，所以对轿车工业也十分注重。那耀东教师觉得哪个落地场景比较 Promising 呢？

杨耀东：这个问题其实比较难，由于咱们聚集灵敏手研制，不触及人形机器人下半身问题，在灵敏操作范畴，相似莫拉维克悖论，看似简略的使命（如用螺丝枪打螺丝），用灵敏手完结却很难，从泛化性、精确性等维度看，现有技能都难以彻底仿照人类操作，所以工业总装线上虽有许多人工操作，但机器人代替并非易事，许多东西需求去试。

本年从整个工业上来讲，国内现在约 50 - 100 家具身智能公司，上一年投资额约 100 亿，现阶段需求各公司多测验不同场景，探寻能进步出产力、产值大、盈余且有 sweet point 的场景，一方面真的能进步出产力，一方面产值又很大，一方面还能赚钱，真能契合这三个圈的并集的技能集，我以为不会许多，不太像是短时刻内咱们忽然能够海量出产、广而告之，然后张狂往外扑的局势。

从工业及 ToB、ToC 视点剖析，工业场景虽适宜机器人运用，但工业机器人年产值仅 60 万台，产值有限，和料想的间隔太大；ToC 范畴，人形机器人虽有远景，但实践运用功用不明晰，现阶段难以落地；还有 ToBC 办法，即机器人卖给B端用于C端服务（如迎宾、倒咖啡），以及文娱类（扭秧歌、阅兵机器人）等新场景或许有展开空间，好像无人机用于焰火扮演。其时最大应战在于机器人产值少，挑选运用场景时需考量规划和影响力，过小的场景即使能做也缺少商业价值，这是我的一些考虑。

仉尚航：是的，现在还需求耐性，不同公司探究不同场景，咱们把整个生态做起来也仍是蛮好的，能够不必拘泥于一格。那赵教师对落地场景有什么观念呢？

赵行：每个做具身智能的公司都会深化考虑过这个问题，咱们的定论是，这一代通用 AI 机器人不该与传统机器人或设备竞赛，而要拓荒新赛道。传统机器人节拍高、精度高，新一代通用 AI 机器人应避开高精度、高节拍使命，主攻精度要求不高但需泛化才干的使命，这类使命在工厂里很常见，比方处理形状不规矩、方位不定乃至柔性物体的低节拍使命，现有技能都能够处理。

然后咱们以为更大时机在商业范畴。商业场景中的使命相同对精度和节拍要求不高，并且在这些场景里，机器人不只能发挥有用作业价值，还能供给心情价值，大约多半有用价值，两到三成心情价值，这样的场景是很好的切入点。

仉尚航：感谢共享，各位教师在落地实践与场景探究方面见地深化。今日沟通了一切预设问题，感谢三位教师百忙中倾囊相授，让我收成颇丰。信任观众经过这场圆桌论坛，在科研、工业及落地运用方面均能有所启示。平常陈述一般仅 30 分钟，两小时深度沟通尤为宝贵。等待未来看到教师们更多精彩作用，也期望与各位加强沟通、深化协作。今日的沟通到此结束，谢谢咱们！

更多具身智能故事，欢迎增加作者anna042023沟通。(大众号：) 。

CMU 具身智能风云榜：从传统到全面。

MIT 具身智能达人志。

伯克利具身智能图谱：深度强化学习浪尖上的我国 90 后们。

原创文章，未经授权制止转载。概况见转载须知。