GitHub的Lvmin Zhang联合斯坦福大学的Maneesh Agrawala发布了一项名为FramePack的突破性新技术。这项技术通过在视频扩散模型中使用固定长度的时域上下文,实现了更高效、更高质量的视频生成。
FramePack作为一种神经网络架构,采用多级优化策略完成本地AI视频生成。它底层基于定制版的腾讯混元模型,但现有的预训练模型都可以通过FramePack进行微调、适配。这一技术的最大亮点在于,它显著降低了对显存的需求。基于FramePack构建的130亿参数模型,仅需一块6GB显存的显卡,就能生成60秒钟的视频。
传统的视频扩散模型在生成视频时,需要处理此前生成的带有噪音的帧,并预测下一个噪音更少的帧。而每生成一帧所需要输入的帧数量(即时域上下文长度)会随着视频的体积而增加,这对显存有着很高的要求。然而,FramePack会根据输入帧的重要性,对所有输入帧进行压缩,改变为固定的上下文长度,从而显著降低了显存需求。同时,它的计算消耗与图片扩散模型类似,每一帧画面生成之后都会实时显示,方便即时预览。
此外,FramePack还能有效缓解“漂移”现象,即视频长度增加时质量下降的问题。这意味着,在不显著牺牲质量的同时,可以生成更长的视频。该技术数据格式支持FP16、BF16,显卡硬件支持RTX 50、RTX 40、RTX 30系列显卡(除RTX 3050 4GB外),操作系统则支持Windows和Linux。性能方面,RTX 4090经过teacache优化后,每秒可以生成大约0.6帧。这一技术的推出,无疑为视频生成领域带来了新的突破和发展机遇。