世界动作模型

Sources: 索塔无界横纵分析报告, 2026-05-18; 影身智能横纵分析报告, 2026-05-17; 拓元智慧横纵分析报告, 2026-05-18 Raw: 索塔无界横纵分析报告; 影身智能横纵分析报告; 拓元智慧横纵分析报告

Overview

世界动作模型是本库用于跟踪“把世界建模、决策、动作生成和物理后果预测合并到统一模型或统一潜空间”的技术路线标签。它与传统 VLM/VLA、规控、技能库串联式方案相邻，但更强调模型直接理解物理接触、力、身体约束和动作后果。索塔无界把 UL-WAM 作为核心叙事；影身智能和拓元智慧（X-Era AI）则分别从原生 3D 动态世界模型和物理空间智能引擎方向提供相邻样本。

路线拆分

子方向	代表样本	当前口径	关键验证
统一潜空间世界动作模型	索塔无界	媒体披露 UL-WAM，目标是统一世界建模、决策和控制。	模型文档、公开 demo、真机任务成功率、人工接管率、跨本体泛化和客户现场指标。
原生 3D 动态世界模型	影身智能	从工位 3D 数据和柔性制造机器人方案切入。	数据采集成本、三维拓扑/接触建模效果、客户现场节拍和复购。
物理空间智能引擎 / 世界动作模型	拓元智慧（X-Era AI）	以 VWA/PAR/RoBridge、异构机器人训练场和数据超市线索组织叙事。	代码/模型/benchmark、训练场真实使用、数据交易和机器人任务闭环。
VLA / 规控 / 技能路由混合系统	多数本体公司和具身大脑公司	短期更工程可行，长期可能被更统一模型吸收。	模块边界、故障恢复、工具调用、数据回灌和安全拦截。

与相邻概念的边界

概念	边界
VLA	VLA 通常强调视觉/语言到动作映射；世界动作模型更强调物理世界状态、动作后果和控制闭环的统一表达。
世界模型	世界模型重在预测环境状态变化；世界动作模型要求预测和生成可执行动作，并对接真实身体约束。
Agentic OS	Agentic OS 是运行时/系统层，负责任务、状态、运维和工具编排；世界动作模型是模型能力层。
数据采集平台	数据平台提供训练材料；世界动作模型的价值取决于数据是否覆盖接触、力、姿态、失败案例和真实场景分布。

研究边界

不把“世界动作模型”“具身大脑”“VLA”这类术语直接写成已验证技术领先。
没有论文、模型卡、第三方 benchmark、客户现场测试或可复现实验前，默认按公司/媒体技术叙事处理。
与客户订单、融资和本体成熟度分开评估：模型叙事强不等于商业闭环强。

待核验

各公司所谓世界动作模型是否有明确输入输出、动作空间、控制频率、训练数据规模和评测任务？
是否能跨本体、跨末端执行器、跨场景迁移，还是只在单一 demo 中成立？
Ego、UMI、遥操作、工位 3D 数据和真实部署数据如何进入模型训练，数据权属和隐私合规如何处理？
模型是否降低部署成本、人工接管率、失败恢复时间和客户 ROI，还是只提高演示效果？

具身智能研究

探索

世界动作模型

世界动作模型

Overview

路线拆分

与相邻概念的边界

研究边界

待核验

See Also

关系图谱

图谱视觉

目录

反向链接