智象未来CEO梅涛:多模态模型Token的毛利率,远高于语言模型
智象未来将自身定位为原生多模态大模型公司,其核心战略是通过创新的算法架构和聚焦于视频、图像、3D交互数据的合成生成,来低成本解决世界模型训练中的多模态数据稀缺瓶颈,从而积累构建未来世界模型所需的视觉能力,并以此与基模厂商进行差异化竞争。
60
热度
65
质量
50
影响力
深度分析
绕过物理直奔数据:一条“迂回”的世界模型路径
当前,世界模型的主流技术路线聚焦于理解与模拟物理世界。本文揭示了智象未来的一条差异化路径:暂不直接攻克物理规律模拟,而是优先解决通往世界模型路上的“数据关”。世界模型所需的数据(如全模态交互数据)获取成本极高,是行业共同瓶颈。智象未来的策略是,利用自身在原生多模态生成模型上的技术积累,率先成为高质量、低成本多模态合成数据的生产者。通过生成海量的视频、图像和3D交互数据,他们不仅为自身训练积累资源,更旨在为整个行业(包括具身智能)提供数据燃料,并在此过程中锤炼出未来世界模型可复用的核心视觉能力。这是一种“以生产促研究”的迂回思路。
技术路径选择:押注架构创新而非单纯堆料
面对技术尚未收敛的多模态生成领域,智象未来认为这正是创业公司的机会。他们没有选择跟随主流的DiT(Diffusion Transformer)框架去单纯比拼数据和算力,而是强调算法和架构层面的创新。
- 原生全模态架构:其推出的Unified Transformer(UiT) 架构,目标是实现“Any to Any”(任意输入到任意输出)的生成能力。这被视为世界模型需要的关键基础:在统一架构内理解和生成多种模态的信息。
- 务实的阶段目标:公司管理层清晰认识到当前技术离真正的世界模型(需满足物理规律、长因果推理、全模态交互、绝对安全)还有距离。因此,他们现阶段聚焦于“原生多模态”这一既能商业化落地,又能为未来积蓄技术的领域。
数据策略:合成数据破解稀缺性难题
数据是训练模型的燃料,但世界模型所需的数据极其稀缺且昂贵。智象未来为此设计了一套混合策略:
- 合法数据基础:拥有20万小时有影视版权的视频数据,确保数据源头的合规性,这成为其区别于其他竞争对手的一个重要优势。
- 合成数据扩增:他们不满足于仅使用真实数据。其做法是将采集到的少量毫米级真人实操数据,通过视频模型生成万份级、涵盖不同场景和肤色的合成数据,用于训练VLA和WAM等模型。通过小规模实验验证合成数据对模型能力的增益效果,形成“数据生成-模型训练-效果验证”的闭环。
这种策略旨在用低成本的合成数据,对抗行业在真实世界多模态数据上的稀缺性瓶颈。
商业化定位:从模型供应商到垂直场景MaaS平台
在商业化层面,智象未来正从单纯的模型公司向平台服务商转型,其打法是构建一个**“1+1+3”结构的MaaS(模型即服务)平台**:
- 底层(1):HiDream系列大模型,即其原生多模态底座能力。
- 中间层(1):HiHarness企业服务平台,提供工具和接口,降低企业使用门槛。
- 上层(3):聚焦三大垂类场景的应用——商业营销、影视创作、社媒创作。
投资人认为,视频模型的商业化拐点正在快速到来,其Token的毛利率远高于大语言模型。智象未来此举正是瞄准了视频生成这一垂类赛道,意图通过深入特定行业的解决方案,与通用大模型厂商展开差异化竞争。
免责声明:以上内容由 AI 生成,仅供参考。