3000TOPS算力+二代VLA!小鹏首款量产Robotaxi全场景驾驶真能行?
芝能科技出品
在小鹏科技日上,我们看到了第二代VLA(Vision-Latent-Action)技术,从视觉直接生成动作的“端到端”控制逻辑,进入“物理世界大模型”的阶段。
在此基础上,小鹏进一步推出首款基于VLA架构的Robotaxi,以前装量产、纯视觉路线、全球泛化能力为基础,从自己的角度准备切入 Robotaxi的新体系。
01
VLA的技术
辅助驾驶行业主流模型普遍采用“视觉→语言→动作”的VLA路径,通过语言作为中间层,将驾驶场景以自然语言的形式进行描述,再将语言信息转译为控制决策。
◎ 优点在于通用性强,便于模型理解复杂语义;
◎ 局限也极为明显:语言并非为机器推理而生,而是为人类沟通而设计。
在高动态、细微变化频繁的驾驶环境中,语言的抽象性反而成为一种信息损耗。车辆的微小偏转、道路材质的变化、行人姿态的细节,都可能在语言转译过程中被忽略。
小鹏第二代VLA选择的路线,去除语言中介,实现“视觉→隐式Token→动作”的架构。
模型直接从海量真实驾驶视频中学习,在无监督的条件下构建出对物理世界的自主理解,系统不仅能“看”,还能“感”,通过直接学习物理交互规律来理解世界运行方式,从而形成一种“物理直觉”。
小鹏自研的图灵AI芯片突破了以GPU为核心的传统架构,采用NPU(神经网络处理器)设计,针对Transformer网络进行算子级优化。
小鹏在云端构建的全球领先智算集群——总规模超过3万张计算卡,部署720亿参数的基座大模型,云端至车端的全链路可在五天内完成一次迭代,模型能以极高的频率自我优化,在端侧保持快速适应性与实时进化能力。
02
从VLA到Robotaxi
基于第二代VLA架构,小鹏推出中国首款全栈自研量产Robotaxi,小鹏Robotaxi采用“前装一体化”方案,车辆在出厂时已预埋两套独立冗余硬件系统,包括算力、视觉、刹车、转向、电池、通讯等六大模块,保证了L4级自动驾驶的安全冗余。
小鹏Robotaxi完全依托纯视觉方案,不依赖高精地图或激光雷达,感知系统与决策模型均由VLA直接驱动,通过模型自身对环境的泛化理解实现全场景驾驶覆盖。
方案能够在全国甚至全球范围运行,适应不同的交通法律与习惯,“泛化自适应”能力,使其具备跨地域扩展的潜力,成为真正意义上的“通用出行智能体”。
在交互层面,小鹏也为Robotaxi赋予了全新的“表达能力”。
通过首创的“遮阳板车外显示系统”,车辆可以在泊车、临停、迎宾、充电等场景中,以视觉符号或语音与外界进行交流。例如,当行人靠近时,车辆的“眼睛”会张开表示注视;遇到交警时,会显示“车主马上回来”的提示。
这种多模态交互不仅提升了安全性,也在心理层面建立了人与车之间的信任。
小鹏Robotaxi还接入了“AI任务台”云端平台,实现云-车双向互联。平台可远程下发任务、指令或应对突发情况,并通过AI算法进行决策闭环,从而避免传统远程人工接管的延迟与风险。整体系统在保证安全冗余的同时,保持了高度的实时性与自主性。
从成本角度来看,小鹏的“前装一体化”设计让成本有所变化,也使规模化运营成为可能,首批合作方高德地图,将直接接入小鹏Robotaxi的全球生态接口,为其建立出行入口和商业化基础。
小鹏计划在2026年启动城市级示范运营,并同步推出三款Robotaxi车型。其最高配版本小鹏Robo,将搭载四颗图灵AI芯片,总算力达到3000 TOPS,具备L4级自动驾驶能力。
小结
小鹏科技日上第二代VLA和Robotaxi值得关注。
免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。


