2 月 26 日,阿里巴巴深夜重磅开源了视频生成大模型——Wan 2.1( 通义万相 2.1)。此次开源采用 Apache 2.0 协议,当前全球开发者可通过GitHub(https://github.com/Wan-Video/Wan2.1)、HuggingFace(https://huggingface.co/Wan-AI )平台直接下载并上手体验。
Wan2.1 代码和权重均已开源,此次提供了两个主要参数版本——14B 和 1.3B,以及四款具体模型,分别涵盖文本生成视频(T2V)和图像生成视频(I2V)任务,带来了一个全面且开放的视频基础模型套件。
四大模型齐发!
具体来看,本次的四款模型分别为:
图生视频模型:Wan2.1-I2V-14B-480P 和 Wan2.1-I2V-14B-720P
图生视频模型都是 14B。根据官方信息显示,I2V-14B 模型在性能上超越了领先的闭源模型以及所有现有的开源模型,达到了 SOTA 水平。它能够基于输入的文本和图像生成复杂的视觉场景和运动模式,包括 480P 和 720P 分辨率的视频。
文生视频:Wan2.1-T2V-14B
该模型同样在开源和闭源模型中创造了新的 SOTA 性能,展现了其生成高质量视觉效果和复杂动态的能力。此外,Wan2.1-T2V-14B 是唯一一个能生成中英文文本的视频模型,支持 480P 和 720P 分辨率的视频生成。
小参数的文生视频模型:Wan2.1-T2V-1.3B
T2V-1.3B 模型支持在几乎所有消费级 GPU 上进行视频生成,仅需 8.19 GB VRAM 即可生成一段 5 秒钟的 480P 视频,在 RTX 4090 上输出时间仅为 4 分钟。通过预训练和蒸馏过程,它超越了更大的开源模型,并取得了与一些高级闭源模型相当的性能。
相较而言,这款模型适用于二次模型开发和学术研究。
在 VBench 排行榜上,Wan2.1 的表现优于 OpenAI 的 Sora,VBench 排行榜评估视频生成质量的 16 个维度,包括主题身份一致性、运动平滑度、时间闪烁和空间关系等。
背后技术原理
根据官方介绍,Wan2.1 基于主流的 Diffusion Transformer 范式进行设计,通过一系列创新实现了生成能力的显著进展。这些创新包括时空变分自编码器(VAE)、可扩展的训练策略、大规模数据构建和自动化评估指标。
(1) 3D 变分自编码器
在本次模型中,通义团队提出了一种新颖的 3D 因果 VAE 架构,称为 Wan-VAE,专为视频生成设计。通过结合多种策略,改善了时空压缩,减少了内存使用,并确保了时间因果性。
与其他开源 VAE 相比,Wan-VAE 在性能效率上展示了显著优势。此外,Wan-VAE 在 3D VAE 的因果卷积模块中实现了特征缓存机制,可以在不丢失历史时间信息的情况下编码和解码任意长度的 1080P 视频,使其特别适合视频生成任务。
性能测试表明,Wan2.1 的 VAE 在 A800 GPU 上的重建视频速度是 HunYuanVideo 的 2.5 倍。在博客上,阿里团队解释称:“由于我们 VAE 模型的小巧设计和特征缓存机制,这一速度优势将在更高分辨率下得到进一步体现。”
(2) 视频扩散 DiT
此外,Wan2.1 采用了主流视频 DiT 结构,通过 Full Attention 机制有效建模长时程时空依赖,生成时空一致的高质量视频。同时采用 Flow Matching 框架,结合 T5 编码器和 MLP 处理时间嵌入,优化模型性能,在相同参数规模下显著提升了生成效果。
(3)数据处理
值得注意的是,Wan2.1 的训练依赖于大规模、高质量的数据集。在数据策划过程中,该团队设计了一个四步数据清洗流程,重点关注基础维度、视觉质量和运动质量。对应的整个预训练过程也分为四个阶段,每个阶段逐渐增加分辨率和视频时长,让模型在一定算力限制下得到更充分的训练。最终的 SFT 阶段,进行了更严格的数据过滤,以获取高质量、多样化、大规模的图像和视频训练集。
与 SOTA 的比较
通过一系列评测,Wan2.1 在多个维度上的优异表现,凭借 1,035 个内部提示集的测试,超越了多款领先的模型,表现出色。
不同 Wan2.1 模型在不同 GPU 上的计算效率:
总的来说,在 DeepSeek 开源推理模型之后,时下阿里 Wan2.1 的开源让文生视频和图生视频的生成技术更加普及,不仅让更多人能够轻松使用,也为大模型的研究和实际应用打下了更坚实的基础。这一举措对整个行业来说都是一种积极推动,带来了更多的机会和可能性。