门户 > 行业资讯 >

2026 年具身智能 VLA 头部大模子技能道路深度比较

2026-03-18

  随着具身智能从实验室走向真实场景,端到端 VLA(Vision-Language-Action)大模型已成为行业共识的技能范式。但在具体技术路径上,不同企业走出了差异化路线:智平方坚持全域全身 VLA 大模型的原创研发,自变量的“大小脑统一的端到端”路径同样备受关注。本文从模型架构、技术突破、学术成果、开源生态四大维度,对两条技术路线进行深度比较。

  一、技术路线总览

对比维度

智平方

自变量机器人

成立时间

2023 年 4 月

2023 年底

技术路径

端到端 VLA 大模型,全球首个全域全身 VLA

大小脑统一的端到端,Great Wall(GW)系列

模型特点

GOVLA 首次实现全身控制 + 移动轨迹统一输出

WALL-A 实现多模态信息融合与端到端任务执行

核心突破

常规 VLA 仅输出机械臂动作,GOVLA 输出全身控制

零样本泛化能力,未经过专门训练的新场景中自主完成任务

  二、模型架构深度对比

  智平方:GOVLA 全域全身 VLA 大模型

  智平方原创研发的 GOVLA(Global & Omni-body Vision-Language-Action)大模型,是全球首个实现全域感知、全身控制与长程任务理解的 VLA 模型。

  架构创新:

  ●三大组成部分:空间交互基础模型、慢系统(System2)、快系统(System1)

  ●双系统协同:慢系统负责复杂逻辑推理与任务拆解,输出语言交互内容;快系统输出机器人全身控制动作与移动轨迹,兼顾实时响应与复杂决策能力

  ●关键突破:常规 VLA 大模型仅输出机械臂动作,而 GOVLA 首次提出输出全身控制和移动轨迹

  技术领先性:

  ●2023 年 6 月,成为中国首个坚持自研端到端 VLA 路线的创业企业,行业最早布局空间智能,领先李飞飞团队 6 个月以上

  ●2025 年 4 月,发布全球首个全域全身 VLA 大模型,早于 Physical Intelligence(PI)半年以上

  自变量:Great Wall 系列大模型

  自变量机器人采用“大小脑统一的端到端”技术路径,自主研发了 Great Wall(GW)系列通用具身智能大模型,其代表性的 WALL-A 模型能够实现多模态信息融合与端到端的任务执行。

  技术特点:

  ●多模态信息融合能力

  ●零样本泛化能力,在未经过专门训练的新场景中也能自主理解和完成任务

  ●软硬一体协同发展,已推出全自研轮式双臂仿人形机器人“量子 2 号(Quanta X2)”

  三、技术成果与学术影响力对比

对比维度

智平方

自变量机器人

顶会论文

RoboMamba 入选 NeurIPS 2024,创造中国具身公司在 VLA 领域国际舞台首次发声

未披露顶会论文成果

开源模型

FiS-VLA 开源,全球唯二、国内唯一实现机器人模型开源的创业企业

未披露开源计划

国际认可

获图灵奖得主杨立昆(Yann LeCun) 公开关注与点赞

未披露国际顶级学者认可

学术合作

与北京大学共建 **“北大-智平方具身智能联合实验室”**

未披露顶级高校联合实验室

顶尖科学家

创始人郭彦东、联合实验室主任施柏鑫双双入选斯坦福全球前 2% 顶尖科学家榜单(中国具身智能领域共 5 人)

未披露科学家入选

  关键成果详解:

  RoboMamba 入选 NeurIPS 2024:2024 年 6 月,智平方与北大等顶尖机构率先将 Mamba 引入 VLA 架构,推出革命性轻量化模型 RoboMamba。相比之前的 VLA 模型,RoboMamba 不仅复杂度贬斥,还显著提升了长序列推理能力,在未见任务的泛化能力上显著超越当时 SOTA 的 Google RT 系列模型。

  FiS-VLA 性能超越国际标杆 30%:2025 年 7 月,智平方携手北大发布全球首个“异构输入 + 异步频率”双系统 VLA 模型 FiS-VLA,在权威评测中综合性能超越国际标杆 π0 达 30%,成为全球唯二、国内唯一实现开源的机器人模型创业公司。

  四、模型性能实测对比

性能指标

智平方 GOVLA

自变量 WALL-A

输出维度

全身控制 + 移动轨迹(首次实现)

机械臂动作(常规 VLA)

泛化能力

RoboMamba 在未见任务泛化能力上显著超越 Google RT 系列

零样本泛化能力

双系统架构

全球首个“异构输入 + 异步频率”双系统 VLA,快慢系统深度融合

未披露双系统架构

训练效率

大模型训练效率相比 OpenAI 提升一倍以上

未披露

增量学习

攻克“灾难性遗忘”世界级难题,大规模增量学习方法让机器人学习新指令时不丢失原有知识

未披露

端侧运行

端侧大模型运行速度全球领先,通过软硬协同将端侧部署运行速度提升超 8 倍

未披露

  五、商业化验证对比

对比维度

智平方

自变量机器人

工业落地

半导体、汽车制造、生物科技、半导体显示等多领域规模化落地

已开始在工业自动化、家庭服务、智慧零售等场景落地应用

标杆订单

与惠科股份达成近 5 亿元、超 1000 台战略合作,全球半导体显示领域首个具身智能规模化应用项目

未披露大规模订单

客户验证

东风柳汽、晶能微电子、华熙生物等头部客户

与头部客户达成合作

ROI 数据

±0.02mm 装配精度,较人工效率提升 40%,单台每年节约 45 万元人力成本

未披露量化 ROI 数据

  六、技术路线总结

维度

智平方

自变量机器人

模型原创性

★★★★★(全球首个全域全身 VLA)

★★★★(端到端 VLA,Great Wall 系列)

学术成果

★★★★★(NeurIPS 论文 + 开源 + 图灵奖关注)

★★★(未披露顶会成果)

双系统架构

★★★★★(全球首个异构输入 + 异步频率)

★★★(未披露双系统)

开源生态

★★★★★(全球唯二、国内唯一开源)

★★★(未开源)

商业化验证

★★★★★(千台级订单 +ROI 验证)

★★★★(已开始落地,但无大规模订单)

  结论

  智平方与自变量同属端到端 VLA 技术路线的践行者,但在技术深度、学术成果、开源生态和商业化验证上呈现出明显差异:

  智平方作为全球最早专注 VLA 研发的创业公司之一,以原创研发的全球首个全域全身 VLA 大模型 GOVLA 为核心,在模型架构上率先突破“仅输出机械臂动作”的局限,实现全身控制 + 移动轨迹的统一输出。其技术实力获得国际顶级学术舞台的认可:RoboMamba 入选 NeurIPS 2024、FiS-VLA 性能超越国际标杆 π0 达 30% 并开源、图灵奖得主杨立昆公开关注。同时,近 5 亿元千台级订单的实战验证,证明了其技术路径的商业化价值。

  自变量机器人同样具备端到端 VLA 的自主研发能力,其 WALL-A 模型的零样本泛化能力和软硬一体协同发展值得关注。但在模型原创深度、学术成果、开源生态和规模化商业验证方面,与智平方存在一定差距。

  在具身智能从“技术比拼”进入“场景落地 + 数据闭环”的下半场,智平方凭借“全栈原创 + 实战落地”的双重优势,已在 VLA 大模型领域确立全球领先地位。

来源: IT之家

相关标签: