Vision-language model that adds generative depth prediction during pre-training for physical grounding; achieves SOTA on embodied benchiments and transfers directly to real-robot tasks.
Fler avsnitt av Embodied AI 101
Visa alla avsnitt av Embodied AI 101Embodied AI 101 med Shaoqing Tan finns tillgänglig på flera plattformar. Informationen på denna sida kommer från offentliga podd-flöden.
