Hardcore Interview | Luo Jianlan: The True Scaling Law for Robots Happens in the Closed Loop of Real Deployment
罗剑岚判断:多数“预训练”实为微调或中训练。 真正突破需形成“部署-数据-迭代”闭环飞轮。 未来12-18个月,半结构化场景是关键验证窗口。 硬件不再是核心瓶颈,数据闭环能力是短板。 反对盲目对标GPT式Scaling Law,部署效能是金标准。
Analysis
TL;DR
- 罗剑岚判断:多数“预训练”实为微调或中训练。
- 真正突破需形成“部署-数据-迭代”闭环飞轮。
- 未来12-18个月,半结构化场景是关键验证窗口。
- 硬件不再是核心瓶颈,数据闭环能力是短板。
- 反对盲目对标GPT式Scaling Law,部署效能是金标准。
Key Data
| Entity | Key Info | Data/Metrics |
|---|---|---|
| 罗剑岚 | 智元机器人首席科学家、上海创智学院副教授,前Google X与DeepMind研究科学家,伯克利博士,师从Sergey Levine。 | 14个月前回国加入创智学院和智元机器人。 |
| τ0-WM世界模型 | 上海创智学院与智元机器人联合发布。定位为动作条件物理推演器。 | 目标:在执行前比较候选动作的未来后果。 |
Deep Analysis
罗剑岚的判断像一盆冷水,浇在了当前稍显过热的具身智能叙事上。他直指行业核心的“认知错位”:将适用于互联网文本的“预训练-微调”范式,生硬套用到需要与物理世界交互的机器人领域。这不仅仅是概念混淆,它导致了一条看似高效却可能根基不稳的技术路径。当团队在开源底座上堆砌高质量遥操数据,在特定任务上刷出漂亮的离线Loss曲线时,很容易产生“基础模型已成”的幻觉。但Loss下降,本质上只是模型更“听话”地复述了喂给它的数据,这与机器人能否在未知扰动下稳定抓取、在失败后自主纠正,完全是两码事。物理世界的“长尾”是无穷的,而静态数据集是有限的。这种路径在实验室里跑通Demo很快,但离真正的通用智能,可能南辕北辙。
因此,罗剑岚将“闭环”提升至最高优先级,是一种深刻的范式纠偏。他设想的“SOP(可扩展在线后训练)”和“LWD(部署中学习)”,核心是打破了“研发-部署”的单向流水线,将生产线本身变成了研发的延伸。这要求机器人出厂不是定型,而是一个学习的开始。这彻底改变了智能的生长模式:不是先有完美的“大脑”,再去指挥身体;而是让“身体”在探索世界的过程中,反过来喂养和塑造“大脑”。这更像是生物进化的逻辑,而非软件迭代的逻辑。他的τ0-WM世界模型,则是这个闭环中的“预演沙盒”,让机器人在动作执行前进行“认知模拟”,从而减少危险、无效的真实世界试错。这套组合拳,瞄准的是数据从何而来、如何流动、如何增值的根本问题。
罗剑岚划定的“未来12到18个月”的时间窗口,冷静而残酷。他赌的不是一个算法奇点,而是一个商业与技术验证的临界点——即在便利店、商超等半结构化场景,能否证明“部署得越多,模型越好用,且新场景适配成本越低”。一旦这个飞轮转动的证据链成立,它将重塑整个行业的资本流向和竞争格局。这意味着,纯粹的算法炫技或硬件参数竞赛将黯然失色,系统的全栈整合与快速迭代能力成为新王道。对于创业公司而言,这反而是机会。大厂的复杂决策链条可能使其错过这个稍纵即逝的“第一信号”捕捉期。
从中国产业视角看,罗剑岚的归国选择与智元机器人的路径,极具战略意味。中国的优势不在于发明基础理论,而在于极快的工程化闭环能力:强大的供应链能迅速将机器人铺到真实场景,丰富的商业场景提供了宝贵的试炼场。如果能跑通这个“数据飞轮”,就相当于将中国的制造业效率优势,转化为AI时代的数据生成与迭代效率优势。但最大的风险也在于此:如果行业集体陷入对“Scaling Law”的盲目崇拜,沉迷于在仿真和视频数据上刷榜,而忽视了真实交互数据的闭环构建,我们可能会在通往“具身智能”的路上,被自己制造的数据泡沫所迷惑。最终,衡量成功的唯一标准,将是机器人的“手感”与“常识”,而不是论文里的Loss曲线。
Industry Insights
- 数据计量标准亟需统一:行业需明确区分仿真、视频、遥操、真实交互等不同类型数据,建立通用计量口径,否则无法科学评估模型真实能力。
- “硬件够用,闭环为王”:在半结构化场景,硬件迭代应服务于数据闭环构建,核心投入应转向在线学习基础设施与部署中学习算法。
- 验证窗口收窄:未来12-18个月,是否跑通“部署-数据-迭代”正向循环,将成为区分概念公司与实干家的分水岭,半结构化场景是最佳试验田。
FAQ
Q: 为什么罗剑岚认为现在的“具身基础模型”训练不算真正的预训练?
A: 因为当前高质量真机交互数据稀缺,多数团队是用开源底座加上特定任务的遥操数据进行微调或“中训练”,目的是适配任务,而非用海量异构数据学习广泛的物理世界交互规律。
Q: 他所说的“闭环”具体指什么?和传统机器人开发有何不同?
A: 闭环指机器人真实部署产生的数据,能实时反馈并持续优化模型,形成“部署越多-数据越多-模型越强-再部署更多”的飞轮。传统模式是“研发-出厂-结束”,新模式是“部署-学习-进化”。
Q: 世界模型和VLA(视觉-语言-动作模型)是竞争关系吗?
A: 不是。罗剑岚认为语言是高层规划不可或缺的接口,VLA强在逻辑拆解。世界模型(特别是动作条件预测模型)强在物理推演,二者融合才能实现从宏观规划到精准执行的完整能力,是互补而非替代关系。
Disclaimer: The above content is generated by AI and is for reference only.