AI资讯 5天前 更新于 4天前 55

让智能体看见世界:CV × AI Agent 的行业场景新实践| 2026AI Partner·北京亦庄AI+产业大会

大华股份研发中心副总裁周文凯在演讲中阐述了将计算机视觉(CV)与AI智能体(AI Agent)深度融合的核心价值。他指出,让AI“看见”世界并非简单接入摄像头,而是通过视觉认知与智能体决策的乘数效应,使AI能理解物理世界并自主行动,这区别于传统的对话式AI。AI在产业落地中面临两大鸿沟:视觉认知能力与行业业务逻辑的理解。 为应对挑战,大华构建了“星汉大模型”系列:**V系列视觉大模型**聚焦于让系统“看懂”物理世界,实现从全局态势到局部物体的精准解析;**L系列行业模型**则深入理解行业数据与业务流程,打通业务逻辑。未来,“基础大模型+行业Know-how”将成为产业AI新范式。 在应用层面,大华将智能体发展划分为L1至L4级别,旨在逐步减少人的干预,实现静默看护与自主决策。演讲中展示了三个典型案例:公共安全领域的**走失儿童搜寻**,智能体自主完成目标设定、视觉识别与任务调度;**工业巡检**中,多个专业智能体协同进行设备与操作规范检查;**森林防火**场景下,智能体可自主调度摄像头、无人机进行二次确认与应急处理。 总结而言,大华通过视觉与语言大模型结合,构建了覆盖感知、认知、

72
热度
85
质量
78
影响力

深度分析

大华股份的实践揭示了一个关键趋势:人工智能要真正改变产业,不能只停留在文本对话层面,而必须让数字世界的智能体深度“看见”并“理解”物理世界。这并非简单地接入摄像头,而是通过视觉计算(CV)与AI智能体的深度融合,产生远超两者简单叠加的“乘数效应”。其核心在于,让AI具备对物理世界的自主认知能力,从而实现从被动响应到静默看护与主动决策的跨越,这正是当前AI进入产业深水区必须跨越的鸿沟。

这一方向的探索,源于产业落地的现实困境。尽管以ChatGPT为代表的大模型在消费端发展迅猛,但在政企和行业应用中,AI仍面临两大核心障碍:一是缺乏对物理世界的有效感知与理解,二是难以与分散、复杂的行业业务逻辑及数据系统对接。为此,大华构建了星汉大模型体系,其中V系列视觉大模型旨在让系统“看得懂”物理世界的全局与局部,L系列语言模型则致力于打通行业知识,两者协同,旨在构建一个既能感知环境,又能理解业务的“行业外脑”。

技术的真正创新点在于系统性的架构升级。在硬件层面,业界正从过度依赖GPU转向CPU与GPU协同的平衡,以优化资源调度与任务流程。在智能体构建上,大华提出了从L1到L4的演进路径,核心是逐步

免责声明:以上内容由 AI 生成,仅供参考。