世界动作模型
Sources: 索塔无界横纵分析报告, 2026-05-18; 影身智能横纵分析报告, 2026-05-17; 拓元智慧横纵分析报告, 2026-05-18 Raw: 索塔无界横纵分析报告; 影身智能横纵分析报告; 拓元智慧横纵分析报告
Overview
世界动作模型是本库用于跟踪“把世界建模、决策、动作生成和物理后果预测合并到统一模型或统一潜空间”的技术路线标签。它与传统 VLM/VLA、规控、技能库串联式方案相邻,但更强调模型直接理解物理接触、力、身体约束和动作后果。索塔无界把 UL-WAM 作为核心叙事;影身智能和拓元智慧(X-Era AI)则分别从原生 3D 动态世界模型和物理空间智能引擎方向提供相邻样本。
路线拆分
| 子方向 | 代表样本 | 当前口径 | 关键验证 |
|---|---|---|---|
| 统一潜空间世界动作模型 | 索塔无界 | 媒体披露 UL-WAM,目标是统一世界建模、决策和控制。 | 模型文档、公开 demo、真机任务成功率、人工接管率、跨本体泛化和客户现场指标。 |
| 原生 3D 动态世界模型 | 影身智能 | 从工位 3D 数据和柔性制造机器人方案切入。 | 数据采集成本、三维拓扑/接触建模效果、客户现场节拍和复购。 |
| 物理空间智能引擎 / 世界动作模型 | 拓元智慧(X-Era AI) | 以 VWA/PAR/RoBridge、异构机器人训练场和数据超市线索组织叙事。 | 代码/模型/benchmark、训练场真实使用、数据交易和机器人任务闭环。 |
| VLA / 规控 / 技能路由混合系统 | 多数本体公司和具身大脑公司 | 短期更工程可行,长期可能被更统一模型吸收。 | 模块边界、故障恢复、工具调用、数据回灌和安全拦截。 |
与相邻概念的边界
| 概念 | 边界 |
|---|---|
| VLA | VLA 通常强调视觉/语言到动作映射;世界动作模型更强调物理世界状态、动作后果和控制闭环的统一表达。 |
| 世界模型 | 世界模型重在预测环境状态变化;世界动作模型要求预测和生成可执行动作,并对接真实身体约束。 |
| Agentic OS | Agentic OS 是运行时/系统层,负责任务、状态、运维和工具编排;世界动作模型是模型能力层。 |
| 数据采集平台 | 数据平台提供训练材料;世界动作模型的价值取决于数据是否覆盖接触、力、姿态、失败案例和真实场景分布。 |
研究边界
- 不把“世界动作模型”“具身大脑”“VLA”这类术语直接写成已验证技术领先。
- 没有论文、模型卡、第三方 benchmark、客户现场测试或可复现实验前,默认按公司/媒体技术叙事处理。
- 与客户订单、融资和本体成熟度分开评估:模型叙事强不等于商业闭环强。
待核验
- 各公司所谓世界动作模型是否有明确输入输出、动作空间、控制频率、训练数据规模和评测任务?
- 是否能跨本体、跨末端执行器、跨场景迁移,还是只在单一 demo 中成立?
- Ego、UMI、遥操作、工位 3D 数据和真实部署数据如何进入模型训练,数据权属和隐私合规如何处理?
- 模型是否降低部署成本、人工接管率、失败恢复时间和客户 ROI,还是只提高演示效果?