+关注

手机看

微信扫一扫，随时随地看

文图生视频双杀！阿里深夜开源Wan 2.1四大模型，性能超Sora

CSDN

2025-02-26 19:19发布于江苏

+关注

2 月 26 日，阿里巴巴深夜重磅开源了视频生成大模型——Wan 2.1（通义万相 2.1）。此次开源采用 Apache 2.0 协议，当前全球开发者可通过GitHub（https://github.com/Wan-Video/Wan2.1）、HuggingFace（https://huggingface.co/Wan-AI　）平台直接下载并上手体验。

Wan2.1 代码和权重均已开源，此次提供了两个主要参数版本——14B 和 1.3B，以及四款具体模型，分别涵盖文本生成视频（T2V）和图像生成视频（I2V）任务，带来了一个全面且开放的视频基础模型套件。

四大模型齐发！

具体来看，本次的四款模型分别为：

图生视频模型：Wan2.1-I2V-14B-480P 和 Wan2.1-I2V-14B-720P

图生视频模型都是 14B。根据官方信息显示，I2V-14B 模型在性能上超越了领先的闭源模型以及所有现有的开源模型，达到了 SOTA 水平。它能够基于输入的文本和图像生成复杂的视觉场景和运动模式，包括 480P 和 720P 分辨率的视频。

文生视频：Wan2.1-T2V-14B

该模型同样在开源和闭源模型中创造了新的 SOTA 性能，展现了其生成高质量视觉效果和复杂动态的能力。此外，Wan2.1-T2V-14B 是唯一一个能生成中英文文本的视频模型，支持 480P 和 720P 分辨率的视频生成。

小参数的文生视频模型：Wan2.1-T2V-1.3B

T2V-1.3B 模型支持在几乎所有消费级 GPU 上进行视频生成，仅需 8.19 GB VRAM 即可生成一段 5 秒钟的 480P 视频，在 RTX 4090 上输出时间仅为 4 分钟。通过预训练和蒸馏过程，它超越了更大的开源模型，并取得了与一些高级闭源模型相当的性能。

相较而言，这款模型适用于二次模型开发和学术研究。

在 VBench 排行榜上，Wan2.1 的表现优于 OpenAI 的 Sora，VBench 排行榜评估视频生成质量的 16 个维度，包括主题身份一致性、运动平滑度、时间闪烁和空间关系等。

背后技术原理

根据官方介绍，Wan2.1 基于主流的 Diffusion Transformer 范式进行设计，通过一系列创新实现了生成能力的显著进展。这些创新包括时空变分自编码器（VAE）、可扩展的训练策略、大规模数据构建和自动化评估指标。

(1) 3D 变分自编码器

在本次模型中，通义团队提出了一种新颖的 3D 因果 VAE 架构，称为 Wan-VAE，专为视频生成设计。通过结合多种策略，改善了时空压缩，减少了内存使用，并确保了时间因果性。

与其他开源 VAE 相比，Wan-VAE 在性能效率上展示了显著优势。此外，Wan-VAE 在 3D VAE 的因果卷积模块中实现了特征缓存机制，可以在不丢失历史时间信息的情况下编码和解码任意长度的 1080P 视频，使其特别适合视频生成任务。

性能测试表明，Wan2.1 的 VAE 在 A800 GPU 上的重建视频速度是 HunYuanVideo 的 2.5 倍。在博客上，阿里团队解释称：“由于我们 VAE 模型的小巧设计和特征缓存机制，这一速度优势将在更高分辨率下得到进一步体现。”

(2) 视频扩散 DiT

此外，Wan2.1 采用了主流视频 DiT 结构，通过 Full Attention 机制有效建模长时程时空依赖，生成时空一致的高质量视频。同时采用 Flow Matching 框架，结合 T5 编码器和 MLP 处理时间嵌入，优化模型性能，在相同参数规模下显著提升了生成效果。

（3）数据处理

值得注意的是，Wan2.1 的训练依赖于大规模、高质量的数据集。在数据策划过程中，该团队设计了一个四步数据清洗流程，重点关注基础维度、视觉质量和运动质量。对应的整个预训练过程也分为四个阶段，每个阶段逐渐增加分辨率和视频时长，让模型在一定算力限制下得到更充分的训练。最终的 SFT 阶段，进行了更严格的数据过滤，以获取高质量、多样化、大规模的图像和视频训练集。

与 SOTA 的比较

通过一系列评测，Wan2.1 在多个维度上的优异表现，凭借 1,035 个内部提示集的测试，超越了多款领先的模型，表现出色。

不同 Wan2.1 模型在不同 GPU 上的计算效率：

总的来说，在 DeepSeek 开源推理模型之后，时下阿里 Wan2.1 的开源让文生视频和图生视频的生成技术更加普及，不仅让更多人能够轻松使用，也为大模型的研究和实际应用打下了更坚实的基础。这一举措对整个行业来说都是一种积极推动，带来了更多的机会和可能性。

00:00

倍速

3.0X

2.0X

1.5X

1.25X

1.0X

0.75X

0.5X

语言

多音轨

静音播放中，点击恢复音量

你可以刷新试试

视频信息

1.33.6

播放信息上传日志

视频ID

VID

播放流水

Flowid

播放内核

Kernel

显示器信息

Res

帧数

缓冲健康度

网络活动

net

视频分辨率

编码

Codec

mystery

按住画面移动小窗