Interview with Wang Zhongyuan, President of BAAI: VLA Won't Die, but World Models Are the Future
世界模型是具身智能从“识别”走向“理解”的大脑升级。 当前存在语言、像素、3D、视觉表征四条分岔路线,智源尝试第五条融合路径。 王仲远认为世界模型仍处深度学习早期阶段,距“ChatGPT时刻”尚远。 核心能力要求是物理正确、因果推理、长时序一致与通用泛化。 真实物理数据稀缺与配比是当前最大瓶颈,仿真数据作用有限。
Analysis
TL;DR
- 世界模型是具身智能从“识别”走向“理解”的大脑升级。
- 当前存在语言、像素、3D、视觉表征四条分岔路线,智源尝试第五条融合路径。
- 王仲远认为世界模型仍处深度学习早期阶段,距“ChatGPT时刻”尚远。
- 核心能力要求是物理正确、因果推理、长时序一致与通用泛化。
- 真实物理数据稀缺与配比是当前最大瓶颈,仿真数据作用有限。
Deep Analysis
世界模型从学术概念滚烫成产业关键词,背后是具身智能撞墙后集体寻找的出路。当前机器人能“看见”和“听见”,却无法真正“推演”——它不知道推一下杯子,杯子会掉下去并碎掉。王仲远对当前四条技术路线的分类,精准地划出了行业各自的局限与野心:语言路线(如VLM)困于文本空间的符号游戏,像素路线(如Sora)沉迷于视觉真实的幻觉,3D路线执着于几何结构的复刻,视觉表征路线则困于压缩而非演算。这些路线本质上是用不同的“翻译器”去理解物理世界,但都未能直面核心:物理因果的推演。
智源提出的第五条路径——潜空间统一表征,是一个聪明的架构跃迁。其核心思想是将所有模态(语言、视觉、动作)压缩进同一个“思维草稿纸”,再按需解码。这回避了“哪种模态更本质”的无谓争论,直指一个更务实的目标:构建一个可统一推理的“认知基座”。这不再是简单的多模态融合,而是试图在表示层面实现一种“世界共识”。然而,架构的优雅无法掩盖数据的贫瘠。王仲远对世界模型发展阶段的判断——“深度学习的2012年前后”——极为冷静且关键。这意味着行业仍处于“前ImageNet时代”:数据孤岛林立、基准混乱、理论框架未明。所谓的“GPT时刻”远未到来,当前喧嚣更多是资本对叙事的追逐。
世界模型与具身智能的关系,绝非简单的“大脑”与“身体”分工。更准确地说,世界模型是具身智能从“条件反射”走向“主动推理”的操作系统升级。当前VLA(视觉-语言-动作)模型如同预先编写好固定脚本的PLC(可编程逻辑控制器),在特定产线上高效,却无法应对一个突然滚落的螺丝。世界模型则试图赋予机器人一种“世界模拟器”能力:在执行动作前,先在脑中推演多种可能的结果,并选择最优解。这类似于AlphaGo的“棋盘推演”,但推演对象从离散的棋盘变为连续的物理世界。王仲远用“奇异博士”的比喻很贴切,但也点出了最大难题:真实世界的“时间晶体”比围棋复杂亿万倍,且充满噪声与不确定性。
因此,世界模型真正的试金石不在于生成多么逼真的视频,而在于能否让机器人在从未见过的厨房里,综合光照、容器材质、液体黏度等因素,规划出一次平稳的倒水动作。这要求模型不仅要“知其然”(看到水杯),更要“知其所以然”(理解重力、流体力学、摩擦力)。当下的行业焦点,应当从炒作概念转向攻坚三个“硬骨头”:一是构建覆盖物理交互的跨模态数据集,这需要机器人真正走进工厂、家庭,在干活中积累“第一人称”的因果数据;二是建立评估模型“物理智能”的新基准,比如长程任务成功率、因果干预准确性,而非仅仅关注图像生成质量;三是重新思考模型架构,如何让一个系统既能进行符号化的逻辑推理(语言),又能进行连续的动态模拟(视觉与动作)。世界模型不是下一个Sora,而是人工智能从“理解语言”迈向“理解现实”的认知革命前夜。这条路注定漫长,但每一步扎实的进展,都将为通用机器人的诞生铺下一块基石。
Industry Insights
- 技术路线将加速收敛,语言与视觉表征在潜空间的融合可能成为主流架构方向。
- “机器人即数据采集器”模式将兴起,真实场景交互数据闭环成为模型训练的关键基础设施。
- VLA模型将作为“专用系统”在短期内广泛落地,与世界模型这一“通用系统”形成互补生态。
FAQ
Q: 世界模型和Sora这类视频生成模型有什么本质区别?
A: 核心区别在于目标和能力。视频生成模型的目标是生成视觉上逼真的像素序列,而世界模型的目标是理解并预测物理世界的状态变化与因果。前者追求“看起来真实”,后者追求“运行上正确”,需要内置物理规律和推理能力。
Q: 智源的第五条技术路线“潜空间统一表征”,具体创新在哪里?
A: 其创新在于试图跳过“哪种模态更本质”的争论,在一个共享的潜空间中同时压缩和编码语言、视觉、动作等所有信息。这为实现真正的跨模态因果推理提供了统一的表征基础,而非简单的后期融合。
Q: 世界模型什么时候能真正用在机器人上?
A: 这是一个长期过程。根据王仲远的判断,可能至少需要3-5年或更久。短期内,机器人会先通过VLA模型在特定场景落地积累数据;长期看,世界模型才有望成为能处理长程、复杂、未知任务的“机器人大脑”。
Disclaimer: The above content is generated by AI and is for reference only.