Extends the EXPO method with real-world RL post-training for VLAs using image observations, action chunking, DAgger, and on-the-fly Q-value maximization. Achieves 30/30 success on 8 challenging manipulation tasks with only ~19 min of RL data on average.
Fler avsnitt av Embodied AI 101
Visa alla avsnitt av Embodied AI 101Embodied AI 101 med Shaoqing Tan finns tillgänglig på flera plattformar. Informationen på denna sida kommer från offentliga podd-flöden.
