Sveriges mest populära poddar

Generative Depth Supervision for Embodied Vision-Language Models

29 min•2 juni 2026

Vision-language model that adds generative depth prediction during pre-training for physical grounding; achieves SOTA on embodied benchiments and transfers directly to real-robot tasks.

Fler avsnitt av Embodied AI 101

Hy-Embodied-0.5-VLA: A Massive Bimanual Teleoperation Dataset for Vision-Language-Action

15 juni•21 min

Q-Guided Flow: Test-Time Gradient Guidance of Flow Policies

14 juni•35 min

Flow Reversal Steering: Guiding Diffusion-Based Robot Policies with High-Level Reasoning

14 juni•38 min

Test-Time Compute Scaling for Robot Policies (DIRECT)

14 juni•25 min

LabVLA: Bringing Vision-Language-Action to the Chemistry Lab

14 juni•42 min

Humanoid-GPT: A Foundation Model for Zero-Shot Humanoid Control

13 juni•26 min

CHORUS: Decentralized Multi-Robot Collaboration with a Single Shared VLA Model

13 juni•37 min

RISE: Self-Improving Robot Policy with Compositional World Model

13 juni•40 min

EmbodiedOneVision: Interleaved Vision-Text-Action Pretraining for General Robot Control

12 juni•35 min

Robix: A Unified Model for Robot Interaction, Reasoning and Planning

12 juni•35 min

Embodied AI 101 med Shaoqing Tan finns tillgänglig på flera plattformar. Informationen på denna sida kommer från offentliga podd-flöden.