Introduces World Action Models (WAMs), a family of 14B-parameter autoregressive diffusion models that jointly predict video and robotic actions to enable zero-shot generalization across manipulation tasks, outperforming fine-tuned Vision-Language-Action models on benchmarks like MolmoSpaces and RoboArena.
Fler avsnitt av Embodied AI 101
Visa alla avsnitt av Embodied AI 101Embodied AI 101 med Shaoqing Tan finns tillgänglig på flera plattformar. Informationen på denna sida kommer från offentliga podd-flöden.
