Sora 基于 DiT(Diffusion Transformer)架构,把长视频生成的效果提高到了前所未有的水平,也掀起了全球范围内的视频生成热潮。
11 月份,作为国内代表的视频模型公司,生数科技发布了旗下产品 Vidu 的 1.5 版本,全新上线「多图参考」功能,官方介绍该版本实现了视频生成模型的新突破:突破「一致性」难题、理解多样化的输入。
尤其是,多主体一致性的能力,可以说是解决了视频生成模型的「杀手级」难题。
对比文本生成模型的话,这可以说是视频模型的「首次智能涌现」。
事实上,Vidu 背后的团队,比 OpenAI 更早实践了 Diffusion Transformer 架构。2022 年 9 月,还在清华大学朱军教授实验室的鲍凡发表了 U-ViT 架构论文,12 月伯克利团队发布了路线同源的 DiT 架构,这一年的 CVPR,大会接收了清华大学的 U-ViT,反而拒收了伯克...去小宇宙查看完整单集简介
在小宇宙查看该单集文稿
11 月份,作为国内代表的视频模型公司,生数科技发布了旗下产品 Vidu 的 1.5 版本,全新上线「多图参考」功能,官方介绍该版本实现了视频生成模型的新突破:突破「一致性」难题、理解多样化的输入。
尤其是,多主体一致性的能力,可以说是解决了视频生成模型的「杀手级」难题。
对比文本生成模型的话,这可以说是视频模型的「首次智能涌现」。
事实上,Vidu 背后的团队,比 OpenAI 更早实践了 Diffusion Transformer 架构。2022 年 9 月,还在清华大学朱军教授实验室的鲍凡发表了 U-ViT 架构论文,12 月伯克利团队发布了路线同源的 DiT 架构,这一年的 CVPR,大会接收了清华大学的 U-ViT,反而拒收了伯克...去小宇宙查看完整单集简介
在小宇宙查看该单集文稿
Fler avsnitt av AI局内人 | AGI Insider
Visa alla avsnitt av AI局内人 | AGI InsiderAI局内人 | AGI Insider med FounderPark finns tillgänglig på flera plattformar. Informationen på denna sida kommer från offentliga podd-flöden.
