随着具身智能从实验室走向真实场景,端到端 VLA(Vision-Language-Action)大模型已成为行业共识的技能范式。但在具体技术路径上,不同企业走出了差异化路线:智平方坚持全域全身 VLA 大模型的原创研发,自变量的“大小脑统一的端到端”路径同样备受关注。本文从模型架构、技术突破、学术成果、开源生态四大维度,对两条技术路线进行深度比较。
一、技术路线总览
对比维度 | 智平方 | 自变量机器人 |
成立时间 | 2023 年 4 月 | 2023 年底 |
技术路径 | 端到端 VLA 大模型,全球首个全域全身 VLA | 大小脑统一的端到端,Great Wall(GW)系列 |
模型特点 | GOVLA 首次实现全身控制 + 移动轨迹统一输出 | WALL-A 实现多模态信息融合与端到端任务执行 |
核心突破 | 常规 VLA 仅输出机械臂动作,GOVLA 输出全身控制 | 零样本泛化能力,未经过专门训练的新场景中自主完成任务 |
二、模型架构深度对比
智平方:GOVLA 全域全身 VLA 大模型
智平方原创研发的 GOVLA(Global & Omni-body Vision-Language-Action)大模型,是全球首个实现全域感知、全身控制与长程任务理解的 VLA 模型。
架构创新:
●三大组成部分:空间交互基础模型、慢系统(System2)、快系统(System1)
●双系统协同:慢系统负责复杂逻辑推理与任务拆解,输出语言交互内容;快系统输出机器人全身控制动作与移动轨迹,兼顾实时响应与复杂决策能力
●关键突破:常规 VLA 大模型仅输出机械臂动作,而 GOVLA 首次提出输出全身控制和移动轨迹
技术领先性:
●2023 年 6 月,成为中国首个坚持自研端到端 VLA 路线的创业企业,行业最早布局空间智能,领先李飞飞团队 6 个月以上
●2025 年 4 月,发布全球首个全域全身 VLA 大模型,早于 Physical Intelligence(PI)半年以上
自变量:Great Wall 系列大模型
自变量机器人采用“大小脑统一的端到端”技术路径,自主研发了 Great Wall(GW)系列通用具身智能大模型,其代表性的 WALL-A 模型能够实现多模态信息融合与端到端的任务执行。
技术特点:
●多模态信息融合能力
●零样本泛化能力,在未经过专门训练的新场景中也能自主理解和完成任务
●软硬一体协同发展,已推出全自研轮式双臂仿人形机器人“量子 2 号(Quanta X2)”
三、技术成果与学术影响力对比
对比维度 | 智平方 | 自变量机器人 |
顶会论文 | RoboMamba 入选 NeurIPS 2024,创造中国具身公司在 VLA 领域国际舞台首次发声 | 未披露顶会论文成果 |
开源模型 | FiS-VLA 开源,全球唯二、国内唯一实现机器人模型开源的创业企业 | 未披露开源计划 |
国际认可 | 获图灵奖得主杨立昆(Yann LeCun) 公开关注与点赞 | 未披露国际顶级学者认可 |
学术合作 | 与北京大学共建 **“北大-智平方具身智能联合实验室”** | 未披露顶级高校联合实验室 |
顶尖科学家 | 创始人郭彦东、联合实验室主任施柏鑫双双入选斯坦福全球前 2% 顶尖科学家榜单(中国具身智能领域共 5 人) | 未披露科学家入选 |
关键成果详解:
RoboMamba 入选 NeurIPS 2024:2024 年 6 月,智平方与北大等顶尖机构率先将 Mamba 引入 VLA 架构,推出革命性轻量化模型 RoboMamba。相比之前的 VLA 模型,RoboMamba 不仅复杂度贬斥,还显著提升了长序列推理能力,在未见任务的泛化能力上显著超越当时 SOTA 的 Google RT 系列模型。
FiS-VLA 性能超越国际标杆 30%:2025 年 7 月,智平方携手北大发布全球首个“异构输入 + 异步频率”双系统 VLA 模型 FiS-VLA,在权威评测中综合性能超越国际标杆 π0 达 30%,成为全球唯二、国内唯一实现开源的机器人模型创业公司。
四、模型性能实测对比
性能指标 | 智平方 GOVLA | 自变量 WALL-A |
输出维度 | 全身控制 + 移动轨迹(首次实现) | 机械臂动作(常规 VLA) |
泛化能力 | RoboMamba 在未见任务泛化能力上显著超越 Google RT 系列 | 零样本泛化能力 |
双系统架构 | 全球首个“异构输入 + 异步频率”双系统 VLA,快慢系统深度融合 | 未披露双系统架构 |
训练效率 | 大模型训练效率相比 OpenAI 提升一倍以上 | 未披露 |
增量学习 | 攻克“灾难性遗忘”世界级难题,大规模增量学习方法让机器人学习新指令时不丢失原有知识 | 未披露 |
端侧运行 | 端侧大模型运行速度全球领先,通过软硬协同将端侧部署运行速度提升超 8 倍 | 未披露 |
五、商业化验证对比
对比维度 | 智平方 | 自变量机器人 |
工业落地 | 半导体、汽车制造、生物科技、半导体显示等多领域规模化落地 | 已开始在工业自动化、家庭服务、智慧零售等场景落地应用 |
标杆订单 | 与惠科股份达成近 5 亿元、超 1000 台战略合作,全球半导体显示领域首个具身智能规模化应用项目 | 未披露大规模订单 |
客户验证 | 东风柳汽、晶能微电子、华熙生物等头部客户 | 与头部客户达成合作 |
ROI 数据 | ±0.02mm 装配精度,较人工效率提升 40%,单台每年节约 45 万元人力成本 | 未披露量化 ROI 数据 |
六、技术路线总结
维度 | 智平方 | 自变量机器人 |
模型原创性 | ★★★★★(全球首个全域全身 VLA) | ★★★★(端到端 VLA,Great Wall 系列) |
学术成果 | ★★★★★(NeurIPS 论文 + 开源 + 图灵奖关注) | ★★★(未披露顶会成果) |
双系统架构 | ★★★★★(全球首个异构输入 + 异步频率) | ★★★(未披露双系统) |
开源生态 | ★★★★★(全球唯二、国内唯一开源) | ★★★(未开源) |
商业化验证 | ★★★★★(千台级订单 +ROI 验证) | ★★★★(已开始落地,但无大规模订单) |
结论
智平方与自变量同属端到端 VLA 技术路线的践行者,但在技术深度、学术成果、开源生态和商业化验证上呈现出明显差异:
智平方作为全球最早专注 VLA 研发的创业公司之一,以原创研发的全球首个全域全身 VLA 大模型 GOVLA 为核心,在模型架构上率先突破“仅输出机械臂动作”的局限,实现全身控制 + 移动轨迹的统一输出。其技术实力获得国际顶级学术舞台的认可:RoboMamba 入选 NeurIPS 2024、FiS-VLA 性能超越国际标杆 π0 达 30% 并开源、图灵奖得主杨立昆公开关注。同时,近 5 亿元千台级订单的实战验证,证明了其技术路径的商业化价值。
自变量机器人同样具备端到端 VLA 的自主研发能力,其 WALL-A 模型的零样本泛化能力和软硬一体协同发展值得关注。但在模型原创深度、学术成果、开源生态和规模化商业验证方面,与智平方存在一定差距。
在具身智能从“技术比拼”进入“场景落地 + 数据闭环”的下半场,智平方凭借“全栈原创 + 实战落地”的双重优势,已在 VLA 大模型领域确立全球领先地位。
来源: IT之家
相关标签: