AI视频:后Sora时代的崛起
继Stable Diffusion和ChatGPT点燃AI图像生成和大语言模型的燎原火星后,AI视频生成也迎来了重大变革。2024年2月,OpenAI发布了Sora,将其命名为世界模拟器,可以生成时长长达一分钟的逼真视频,彻底改变了这一领域。
Sora引领DiT热潮
Sora的出现源于创新性架构Diffusion Transformer(DiT)的应用。DiT将Transformer网络引入扩散模型,极大提升了模型的扩展能力。在数据和算力不断提升下,DiT模型在文生视频生成任务上取得了远超行业前沿水平的成果。
受Sora启发,视频生成领域急剧向DiT架构靠拢。DiT热潮席卷了学术界和产业界,催生了大量对标Sora的闭源和开源模型。
多模态探索
除DiT外,自回归模型也持续探索在视频生成中的应用。2024年5月,OpenAI发布的GPT-4o将大语言模型中的概念拓展到了语音和视觉,打通了语音和图像的理解与生成。9月,智源研究院发布的Emu3进一步填补了空白,实现了视频生成,并支持无限续写。
模型分层与竞争
Sora发布至今,视频生成领域涌现了超过30款模型,形成了初期的模型分层。闭源模型在质量上持续领先,以可灵、Runway Gen-3、Luma Dream Machine等为代表。开源模型奋力追赶,如Open-Sora-Plan、CogVideoX等,生态仍在孕育中。
应用落地
视频生成模型的应用远比大语言模型复杂,需要精细化的控制和编辑工具。模型厂商纷纷围绕模型能力拓展对输入的支持,并开发运镜控制、运动笔刷等配套工具,完善用户创作体验。
更进一步,厂商们通过补齐模型周边的工具,打造全流程的AI原生创作工具,吸引并留住创作者。如Runway提供30余款AI工具,字节跳动即梦AI推出故事创作模式,围绕分镜进行素材组织。
生态培育
除了提供工具和服务,模型厂商还积极培育AI创作生态。常见做法是围绕工具打造社区,举办比赛扩大影响,并与艺术家合作,通过反馈和互动反哺模型训练。
世界模拟器的曙光
OpenAI在Sora技术报告中将视频生成模型视作实现世界模拟器的可行路线。然而,当前视频生成仍面临一些不足,如成本过高、模态不全、稳定长视频生成尚未攻克。
不过,视频游戏生成模型的进展带来了曙光。Google Research的GameNGen模型可以生成实时游玩视频,而Oasis模型则提供了交互可玩、实时更新的开放世界模拟。这些进展为视频生成模型通往世界模拟器铺平了道路。
总结
Sora的发布标志着AI视频时代的开启。DiT热潮引领了模型技术的发展,而多模态探索和丰富的应用场景为视频生成模型提供了更广阔的前景。
虽然世界模拟器仍待完善,但视频游戏生成模型的进展预示着视频生成技术正朝着更强大的世界模拟方向稳步迈进。
原创文章,作者:讯知在线,如若转载,请注明出处:http://m.xzxci.cn/2024/12/03/26833.shtml