Interview with Wang Zhongyuan, President of BAAI: VLA Won't Die, but World Models Are the Future

世界模型是具身智能从“识别”走向“理解”的大脑升级。当前存在语言、像素、3D、视觉表征四条分岔路线，智源尝试第五条融合路径。王仲远认为世界模型仍处深度学习早期阶段，距“ChatGPT时刻”尚远。核心能力要求是物理正确、因果推理、长时序一致与通用泛化。真实物理数据稀缺与配比是当前最大瓶颈，仿真数据作用有限。

Hot

Quality

Impact

TL;DR

世界模型是具身智能从“识别”走向“理解”的大脑升级。
当前存在语言、像素、3D、视觉表征四条分岔路线，智源尝试第五条融合路径。
王仲远认为世界模型仍处深度学习早期阶段，距“ChatGPT时刻”尚远。
核心能力要求是物理正确、因果推理、长时序一致与通用泛化。
真实物理数据稀缺与配比是当前最大瓶颈，仿真数据作用有限。

Analysis 深度分析

TL;DR

世界模型是具身智能从“识别”走向“理解”的大脑升级。
当前存在语言、像素、3D、视觉表征四条分岔路线，智源尝试第五条融合路径。
王仲远认为世界模型仍处深度学习早期阶段，距“ChatGPT时刻”尚远。
核心能力要求是物理正确、因果推理、长时序一致与通用泛化。
真实物理数据稀缺与配比是当前最大瓶颈，仿真数据作用有限。

Deep Analysis

世界模型从学术概念滚烫成产业关键词，背后是具身智能撞墙后集体寻找的出路。当前机器人能“看见”和“听见”，却无法真正“推演”——它不知道推一下杯子，杯子会掉下去并碎掉。王仲远对当前四条技术路线的分类，精准地划出了行业各自的局限与野心：语言路线（如VLM）困于文本空间的符号游戏，像素路线（如Sora）沉迷于视觉真实的幻觉，3D路线执着于几何结构的复刻，视觉表征路线则困于压缩而非演算。这些路线本质上是用不同的“翻译器”去理解物理世界，但都未能直面核心：物理因果的推演。

智源提出的第五条路径——潜空间统一表征，是一个聪明的架构跃迁。其核心思想是将所有模态（语言、视觉、动作）压缩进同一个“思维草稿纸”，再按需解码。这回避了“哪种模态更本质”的无谓争论，直指一个更务实的目标：构建一个可统一推理的“认知基座”。这不再是简单的多模态融合，而是试图在表示层面实现一种“世界共识”。然而，架构的优雅无法掩盖数据的贫瘠。王仲远对世界模型发展阶段的判断——“深度学习的2012年前后”——极为冷静且关键。这意味着行业仍处于“前ImageNet时代”：数据孤岛林立、基准混乱、理论框架未明。所谓的“GPT时刻”远未到来，当前喧嚣更多是资本对叙事的追逐。

世界模型与具身智能的关系，绝非简单的“大脑”与“身体”分工。更准确地说，世界模型是具身智能从“条件反射”走向“主动推理”的操作系统升级。当前VLA（视觉-语言-动作）模型如同预先编写好固定脚本的PLC（可编程逻辑控制器），在特定产线上高效，却无法应对一个突然滚落的螺丝。世界模型则试图赋予机器人一种“世界模拟器”能力：在执行动作前，先在脑中推演多种可能的结果，并选择最优解。这类似于AlphaGo的“棋盘推演”，但推演对象从离散的棋盘变为连续的物理世界。王仲远用“奇异博士”的比喻很贴切，但也点出了最大难题：真实世界的“时间晶体”比围棋复杂亿万倍，且充满噪声与不确定性。

因此，世界模型真正的试金石不在于生成多么逼真的视频，而在于能否让机器人在从未见过的厨房里，综合光照、容器材质、液体黏度等因素，规划出一次平稳的倒水动作。这要求模型不仅要“知其然”（看到水杯），更要“知其所以然”（理解重力、流体力学、摩擦力）。当下的行业焦点，应当从炒作概念转向攻坚三个“硬骨头”：一是构建覆盖物理交互的跨模态数据集，这需要机器人真正走进工厂、家庭，在干活中积累“第一人称”的因果数据；二是建立评估模型“物理智能”的新基准，比如长程任务成功率、因果干预准确性，而非仅仅关注图像生成质量；三是重新思考模型架构，如何让一个系统既能进行符号化的逻辑推理（语言），又能进行连续的动态模拟（视觉与动作）。世界模型不是下一个Sora，而是人工智能从“理解语言”迈向“理解现实”的认知革命前夜。这条路注定漫长，但每一步扎实的进展，都将为通用机器人的诞生铺下一块基石。

Industry Insights

技术路线将加速收敛，语言与视觉表征在潜空间的融合可能成为主流架构方向。
“机器人即数据采集器”模式将兴起，真实场景交互数据闭环成为模型训练的关键基础设施。
VLA模型将作为“专用系统”在短期内广泛落地，与世界模型这一“通用系统”形成互补生态。

FAQ

Q: 世界模型和Sora这类视频生成模型有什么本质区别？
A: 核心区别在于目标和能力。视频生成模型的目标是生成视觉上逼真的像素序列，而世界模型的目标是理解并预测物理世界的状态变化与因果。前者追求“看起来真实”，后者追求“运行上正确”，需要内置物理规律和推理能力。

Q: 智源的第五条技术路线“潜空间统一表征”，具体创新在哪里？
A: 其创新在于试图跳过“哪种模态更本质”的争论，在一个共享的潜空间中同时压缩和编码语言、视觉、动作等所有信息。这为实现真正的跨模态因果推理提供了统一的表征基础，而非简单的后期融合。

Q: 世界模型什么时候能真正用在机器人上？
A: 这是一个长期过程。根据王仲远的判断，可能至少需要3-5年或更久。短期内，机器人会先通过VLA模型在特定场景落地积累数据；长期看，世界模型才有望成为能处理长程、复杂、未知任务的“机器人大脑”。

TL;DR

智源研究院院长王仲远将当前世界模型研究划分为四条主流技术路线，并提出了智源尝试的第五种“潜空间融合”路径。
王仲远明确指出“视频生成不等于世界模型”，核心区别在于世界模型需理解物理因果并进行“下一物理状态预测”。
他认为世界模型目前处于“深度学习2012年前后”的阶段，尚未迎来“GPT时刻”，需3年以上长期攻关。
世界模型被视为突破当前具身智能（如VLA）局限性、使其具备泛化与长程决策能力的关键“大脑”。
最大挑战在于获取高质量的真实世界物理数据，而非单纯依赖互联网文本或仿真数据。

核心数据

实体	关键信息	数据/指标
世界模型发展类比阶段	王仲远认为相当于深度学习的2012年前后	（无具体数据）
世界模型预估攻关周期	王仲远认为可能需要三年或更长时间	3年以上
智源技术路径核心概念	以语言和视觉为中心，融合进统一的「潜空间表征」	（概念性描述）

深度解读

王仲远的这次访谈，与其说是布道，不如说是一次对行业狂热的“冷静拆解”。当“世界模型”成为新晋的AI热词，他毫不客气地划清了边界：视频生成模型顶多是“世界模拟器”，与真正的、面向物理因果的“世界模型”之间隔着一条认知鸿沟。这记冷水泼得及时，因为当前市场上确实存在大量“挂羊头卖狗肉”的概念嫁接，将Sora类的能力直接包装成机器人“大脑”，这是一种危险的技术误导。

他提出的“四条分岔路”分类法极具洞察力，本质是点明了现有路线的根本局限：无论是预测词元（语言）、像素（视频）、3D结构还是视觉表征，都只是在模拟世界的某个侧面投影，而非理解世界运行的“源代码”。智源试图走的第五条路——在“潜空间”进行多模态融合再解码——听起来巧妙，但也最具野心和风险。这相当于试图为AI构建一个统一的“现象界底层公理体系”，让所有感知和行动都从这个压缩后的“元认知”中生成。这难度极高，但若成功，其通用性将碾压其他专精路线。

更犀利的是他对VLA“当下有用，未来有限”的判断。这揭露了具身智能行业一个尴尬的现状：当前落地的机器人，本质上仍是高度特化的“条件反射式自动化”，而非具备物理常识的“智能体”。世界模型的目标，正是要补上这关键的“常识”与“因果推理”一环。他将世界模型比作《奇异博士》的预测能力，非常形象——机器人需要的不是记住100种开门方式，而是理解“推力、门轴摩擦力与最终状态”之间的物理关系，并据此应对未知情况。

然而，最大的挑战并非技术路线，而是数据。王仲远点出了一个残酷现实：互联网文本和通用视频数据，对于训练理解牛顿定律和流体动力学的模型来说，是“不够干净”且“缺乏交互反馈”的贫矿。真正的金矿藏在机器人与真实世界交互产生的“脏数据”里——力反馈、动作轨迹、失败尝试。这意味着，世界模型的突破可能无法在实验室独立完成，必须与机器人产业的落地进程深度耦合，在“边干边学”的数据闭环中成长。这或许解释了为何智源要将Physis和RoboBrain等系统接入真实场景。

总而言之，王仲远描绘的是一幅技术理想主义的蓝图，但路径异常漫长。他拒绝用“世界模型”的泡沫去喂养当下的资本焦虑，而是选择强调“下一物理状态预测”这一硬核的科学问题。这种清醒，在当下尤为可贵，但也注定会面临“远水难解近渴”的商业压力。世界模型会是机器人的终极大脑，但通往那里的路，可能比多数人想象的更远、更曲折。

行业启示

数据闭环将决定胜负：世界模型的竞争本质是数据战争。谁能率先构建起“真实物理交互数据”的规模化采集、清洗与训练闭环（而不仅仅是文本/视频爬虫），谁就掌握了核心壁垒。
“中间层”生态位将凸显：在通用世界模型成熟前，服务于特定垂直领域（如工业仿真、科研预测）的“领域世界模型”或将成为更早的商业落地点，形成有价值的中间层生态。
验证标准需从“生成质量”转向“物理一致性”：评估世界模型能力的关键指标，应从视频逼真度、图像相似度等，彻底转向对因果预测准确性、长时序状态一致性和任务泛化能力的量化测试。

FAQ

Q: 世界模型和现在流行的VLA（视觉-语言-动作模型）是什么关系？
A: VLA是当前具身智能实现特定场景落地的有效工具，但被视为“当下”方案；世界模型则是旨在解决VLA在泛化、长程任务和物理因果理解上局限的“未来”基座，目标是成为真正的机器人大脑。

Q: 智源研究院提出的“第五条路线”具体指什么？
A: 指以语言和视觉为中心，在统一的“潜空间”中对信息进行融合表征，再通过不同解码器生成语言、动作或视觉预测。其核心思想是在一个共享的抽象表示层面理解世界，而非分别处理不同模态。

Q: 世界模型距离实际商用还有多远？
A: 预计仍需3年以上甚至更长时间的基础攻关。短期内，具身智能将在具体场景（如工厂、酒店）落地并采集数据，为世界模型的长期训练提供燃料；世界模型的全面应用将是下一阶段AI能力的标志。

Disclaimer: The above content is generated by AI and is for reference only.

大模型多模态机器人

Read Original →

Analysis 深度分析

TL;DR

Deep Analysis

Industry Insights

FAQ

TL;DR

核心数据

深度解读

行业启示

FAQ

Related Articles 相关文章