商汤绝影“开悟”世界模型全新升级,端到端量产在即
AI的突破性进展正引领人类迈向全新时代,曾经的想象触手可及,智能汽车正成为人类拥抱前沿AI科技的最佳载体之一。
11月27日,2024“绝影实力AI DAY”在上海举办,商汤绝影展示了“驾-舱-云”三位一体的通用人工智能(AGI)产品体系与战略布局,发布智能座舱交互革新、端到端智能驾驶等前沿领域的创新成果。
图源:商汤绝影
面向智能座舱,商汤绝影发布了其智能座舱大模型创新产品“A New Member For U”(你的家庭新成员);面向智能驾驶,商汤绝影构建了“车云一体”的产品矩阵,发布涵盖高速、城区以及泊车等全场景的高阶智驾、端到端智驾等绝影量产智驾产品体系,同时全新升级“开悟”世界模型。
商汤绝影CEO、商汤科技联合创始人、首席科学家王晓刚表示:“我们已经站在AGI时代的门口。作为加速智能汽车驶入AGI时代的战略合作伙伴,商汤绝影将牢牢把握住新一轮智能汽车变革的时间窗口,与车企伙伴进行全方位深度合作,共享大算力与大模型,共建数据基础设施,共同打造智能汽车大模型创新应用,才能携手共赢,领航未来。”
图源:商汤绝影
智能座舱,被动智能到主动服务
大模型上车伊始,它们主要扮演着工具的角色,为用户提供基础的对话、信息查询和问题解答服务。随着技术的不断进步,具备逻辑思考和通用任务处理能力的AI Agent出现了,能够根据用户的指令,完成复杂的连续性任务,成为能干的助理。
不过商汤绝影也指出,这类车机都只是听话和服从的“被动智能”。
此次“绝影实力AI DAY”上,商汤绝影发布的智能座舱大模型创新产品“A New Member For U”,旨在让汽车智能助手不再只是冰冷的工具或者机械式的助理。
图源:商汤绝影
据商汤绝影介绍,该产品具备三大特性:察言观色、心有灵犀、无时不在。三大特性背后,是原生流式多模态大模型、车载类人记忆框架和持续运行框架等前沿AI大模型技术支撑。
据悉,商汤绝影原生流式多模态大模型,具备全场景多模感知能力,无论是文字、图像、音频还是视频,都能以端到端优化的方式,实现对这些信息的感知和理解。同时,商汤针对车载场景进行了定制训练,使其更适应车辆内外的特定场景。
绝影的“记忆框架”则与人类的记忆机制非常相似,其分为临时记忆、场景记忆和长期记忆三部分。其中临时记忆能够快速捕捉车内外环境中的瞬时信息,比如车速、温度、光线变化等;场景记忆则动态管理用户当前的交互内容,比如导航历史、音乐偏好等;长期记忆则是一种自我迭代的能力,能从用户的长期使用中总结规律并不断优化。
图源:商汤绝影
这三者组成的记忆框架,支持毫秒级的动态记忆检索,覆盖人、车、物、环境四大类别,并涉及100多个记忆维度。
此外,商汤绝影的Always-on持续运行框架,也拥有持续推理、零拷贝传输技术、实时响应等多项核心亮点。该技术将多模态感知到的信息与各种记忆相结合,依托端云协同架构,数据延迟控制在1毫秒以下,首包延时最快只需60毫秒,推理速度达40 Tokens/秒。
目前商汤绝影的持续运行框架已在英伟达、高通、联发科等车载芯片平台上完成部署适配,可快速将技术落地应用在市场上的绝大部分车型。
“开悟”世界模型全新升级,端到端量产在即
今年年初,城区无图NOA是智能驾驶领域的核心话题。之后,端到端智驾技术为行业带来了范式革新,逐渐取代模块化的规则,成为智驾技术的进化方向。从北京车展开始,商汤绝影等多家公司陆续发布端到端智驾方案,智驾正在迈向端到端时代。
商汤绝影打造了三大量产智驾解决方案,包括基础智驾方案、覆盖全场景的高阶智驾,以及基于UniAD打造的端到端量产智驾方案。
基于J6E和J6M两个平台,商汤绝影打造了AD Pro和AD Max两个量产智驾方案,其中AD Max能够实现城区无图NOP。J6平台的智驾方案预计明年2季度就会量产交付。
同时,商汤绝影也正式发布基于UniAD打造的绝影量产端到端智驾方案AD Ultra。该方案采用无图、无激光雷达路线,基于1个毫米波雷达和11个摄像头的传感器配置,和200+TOPS的车载算力平台,即可实现一段式端到端智驾。
目前,商汤绝影已经与大卓智能、东风汽车等达成战略合作,量产交付也正在推进中,其基于J6平台的智驾方案预计2025年第二季度将量产交付,而量产端到端智驾方案则预计会在明年年底量产落地。
与此同时,基于行业研发范式从规则驱动转变为数据驱动,端到端智驾模型对于高质量数据的需求呈指数级的增长。
然而,受限于高阶智驾的量产规模、算力资源,目前大多数车企和智驾公司都面临相同的问题,即高质量驾驶数据的获取难度大、效率低、成本高。
商汤方面认为,依靠采集车、量产车等所提供的数据,越来越难以满足端到端智驾持续成长和迭代的需求,通过大模型生成仿真数据,用“真实数据+仿真数据”的合成数据训练是必然趋势。
其中,强大的世界模型是生成高质量数据的关键。
王晓刚表示:“智驾高端局的竞争不止是车端模型的比拼,端到端的决战,战场在云端。”为此,商汤绝影全新升级“开悟”世界模型。
据介绍,“开悟”世界模型,具备“理解真实世界”、“生成准确场景”、“可控万千元素”、“泛化平行世界”等能力,可以满足端到端模型训练和仿真对于数据质量的高要求。在真实的基础上,“开悟”生成的场景视频,时间最长为150秒、分辨率可达1080P、视角可以实现11V。
值得关注的是,通过多模态大模型,“开悟”世界模型可以支持多样化的自动驾驶场景及Corner case的可控生成。目前商汤绝影基于1024类场景,打造了千万级的生成场景库,预计2025年对行业开放。
商汤绝影以其量产智驾方案和“开悟”世界模型为核心,实车采集的真实数据和云端生成的仿真数据在“车云一体”的新范式下进行闭环流转,目标使端到端智驾系统的训练更加全面、高效,力图缩短研发周期,降低开发成本。
图源:商汤绝影
“单打独斗难以在AGI时代脱颖而出,主机厂和AI公司必须以全新的方式进行深度战略合作才有可能形成行业竞争力。”商汤方面表示。
目前,商汤绝影智驾方案已量产交付广汽埃安、一汽红旗等3家车企6款车型。此外座舱AI大模型产品已上车小米SU7、智己、LEVC L380等车型。
图源:商汤绝影
值得关注的是,商汤绝影面向海外市场升级了座舱视觉AI产品矩阵,如今,商汤绝影已与超30家国内外车企达成合作,覆盖100余款车型,预计至2024年底,量产交付累计将突破350万辆。
商汤绝影方面表示愿意和车企合作伙伴共享算力丰沛的商汤大装置,其20,000P算力将为合作伙伴提供基础设施保障;同时,绝影将开放性能全面的基础大模型能力,提升车企的AI实力。
网友评论