智象未来CEO梅涛：多模态模型Token的毛利率，远高于语言模型

深度分析

绕过物理直奔数据：一条“迂回”的世界模型路径
当前，世界模型的主流技术路线聚焦于理解与模拟物理世界。本文揭示了智象未来的一条差异化路径：暂不直接攻克物理规律模拟，而是优先解决通往世界模型路上的“数据关”。世界模型所需的数据（如全模态交互数据）获取成本极高，是行业共同瓶颈。智象未来的策略是，利用自身在原生多模态生成模型上的技术积累，率先成为高质量、低成本多模态合成数据的生产者。通过生成海量的视频、图像和3D交互数据，他们不仅为自身训练积累资源，更旨在为整个行业（包括具身智能）提供数据燃料，并在此过程中锤炼出未来世界模型可复用的核心视觉能力。这是一种“以生产促研究”的迂回思路。

技术路径选择：押注架构创新而非单纯堆料

面对技术尚未收敛的多模态生成领域，智象未来认为这正是创业公司的机会。他们没有选择跟随主流的DiT（Diffusion Transformer）框架去单纯比拼数据和算力，而是强调算法和架构层面的创新。

原生全模态架构：其推出的Unified Transformer（UiT） 架构，目标是实现“Any to Any”（任意输入到任意输出）的生成能力。这被视为世界模型需要的关键基础：在统一架构内理解和生成多种模态的信息。
务实的阶段目标：公司管理层清晰认识到当前技术离真正的世界模型（需满足物理规律、长因果推理、全模态交互、绝对安全）还有距离。因此，他们现阶段聚焦于“原生多模态”这一既能商业化落地，又能为未来积蓄技术的领域。

数据策略：合成数据破解稀缺性难题

数据是训练模型的燃料，但世界模型所需的数据极其稀缺且昂贵。智象未来为此设计了一套混合策略：

合法数据基础：拥有20万小时有影视版权的视频数据，确保数据源头的合规性，这成为其区别于其他竞争对手的一个重要优势。
合成数据扩增：他们不满足于仅使用真实数据。其做法是将采集到的少量毫米级真人实操数据，通过视频模型生成万份级、涵盖不同场景和肤色的合成数据，用于训练VLA和WAM等模型。通过小规模实验验证合成数据对模型能力的增益效果，形成“数据生成-模型训练-效果验证”的闭环。
这种策略旨在用低成本的合成数据，对抗行业在真实世界多模态数据上的稀缺性瓶颈。

商业化定位：从模型供应商到垂直场景MaaS平台

在商业化层面，智象未来正从单纯的模型公司向平台服务商转型，其打法是构建一个**“1+1+3”结构的MaaS（模型即服务）平台**：

底层（1）：HiDream系列大模型，即其原生多模态底座能力。
中间层（1）：HiHarness企业服务平台，提供工具和接口，降低企业使用门槛。
上层（3）：聚焦三大垂类场景的应用——商业营销、影视创作、社媒创作。
投资人认为，视频模型的商业化拐点正在快速到来，其Token的毛利率远高于大语言模型。智象未来此举正是瞄准了视频生成这一垂类赛道，意图通过深入特定行业的解决方案，与通用大模型厂商展开差异化竞争。

免责声明：以上内容由 AI 生成，仅供参考。

深度分析

技术路径选择：押注架构创新而非单纯堆料

数据策略：合成数据破解稀缺性难题

商业化定位：从模型供应商到垂直场景MaaS平台

相关文章