Vol.26 对谈生数科技CTO鲍凡：视频模型迎来了「首次涌现」，视觉更有可能通往 AGI

Sora 基于 DiT（Diffusion Transformer）架构，把长视频生成的效果提高到了前所未有的水平，也掀起了全球范围内的视频生成热潮。
11 月份，作为国内代表的视频模型公司，生数科技发布了旗下产品 Vidu 的 1.5 版本，全新上线「多图参考」功能，官方介绍该版本实现了视频生成模型的新突破：突破「一致性」难题、理解多样化的输入。
尤其是，多主体一致性的能力，可以说是解决了视频生成模型的「杀手级」难题。
对比文本生成模型的话，这可以说是视频模型的「首次智能涌现」。
事实上，Vidu 背后的团队，比 OpenAI 更早实践了 Diffusion Transformer 架构。2022 年 9 月，还在清华大学朱军教授实验室的鲍凡发表了 U-ViT 架构论文，12 月伯克利团队发布了路线同源的 DiT 架构，这一年的 CVPR，大会接收了清华大学的 U-ViT，反而拒收了伯克...去小宇宙查看完整单集简介
在小宇宙查看该单集文稿

Fler avsnitt av AI局内人 | AGI Insider