世界动作模型

Sources: 索塔无界横纵分析报告, 2026-05-18; 影身智能横纵分析报告, 2026-05-17; 拓元智慧横纵分析报告, 2026-05-18 Raw: 索塔无界横纵分析报告; 影身智能横纵分析报告; 拓元智慧横纵分析报告

Overview

世界动作模型是本库用于跟踪“把世界建模、决策、动作生成和物理后果预测合并到统一模型或统一潜空间”的技术路线标签。它与传统 VLM/VLA、规控、技能库串联式方案相邻,但更强调模型直接理解物理接触、力、身体约束和动作后果。索塔无界把 UL-WAM 作为核心叙事;影身智能拓元智慧(X-Era AI)则分别从原生 3D 动态世界模型和物理空间智能引擎方向提供相邻样本。

路线拆分

子方向代表样本当前口径关键验证
统一潜空间世界动作模型索塔无界媒体披露 UL-WAM,目标是统一世界建模、决策和控制。模型文档、公开 demo、真机任务成功率、人工接管率、跨本体泛化和客户现场指标。
原生 3D 动态世界模型影身智能从工位 3D 数据和柔性制造机器人方案切入。数据采集成本、三维拓扑/接触建模效果、客户现场节拍和复购。
物理空间智能引擎 / 世界动作模型拓元智慧(X-Era AI)以 VWA/PAR/RoBridge、异构机器人训练场和数据超市线索组织叙事。代码/模型/benchmark、训练场真实使用、数据交易和机器人任务闭环。
VLA / 规控 / 技能路由混合系统多数本体公司和具身大脑公司短期更工程可行,长期可能被更统一模型吸收。模块边界、故障恢复、工具调用、数据回灌和安全拦截。

与相邻概念的边界

概念边界
VLAVLA 通常强调视觉/语言到动作映射;世界动作模型更强调物理世界状态、动作后果和控制闭环的统一表达。
世界模型世界模型重在预测环境状态变化;世界动作模型要求预测和生成可执行动作,并对接真实身体约束。
Agentic OSAgentic OS 是运行时/系统层,负责任务、状态、运维和工具编排;世界动作模型是模型能力层。
数据采集平台数据平台提供训练材料;世界动作模型的价值取决于数据是否覆盖接触、力、姿态、失败案例和真实场景分布。

研究边界

  • 不把“世界动作模型”“具身大脑”“VLA”这类术语直接写成已验证技术领先。
  • 没有论文、模型卡、第三方 benchmark、客户现场测试或可复现实验前,默认按公司/媒体技术叙事处理。
  • 与客户订单、融资和本体成熟度分开评估:模型叙事强不等于商业闭环强。

待核验

  1. 各公司所谓世界动作模型是否有明确输入输出、动作空间、控制频率、训练数据规模和评测任务?
  2. 是否能跨本体、跨末端执行器、跨场景迁移,还是只在单一 demo 中成立?
  3. Ego、UMI、遥操作、工位 3D 数据和真实部署数据如何进入模型训练,数据权属和隐私合规如何处理?
  4. 模型是否降低部署成本、人工接管率、失败恢复时间和客户 ROI,还是只提高演示效果?

See Also