客户端
游戏
无障碍

1

评论

3

2

手机看

微信扫一扫,随时随地看

文图生视频双杀!阿里深夜开源Wan 2.1四大模型,性能超Sora

2 月 26 日,阿里巴巴深夜重磅开源了视频生成大模型——Wan 2.1( 通义万相 2.1)。此次开源采用 Apache 2.0 协议,当前全球开发者可通过GitHub(https://github.com/Wan-Video/Wan2.1)、HuggingFace(https://huggingface.co/Wan-AI )平台直接下载并上手体验。

图片

Wan2.1 代码和权重均已开源,此次提供了两个主要参数版本——14B 和 1.3B,以及四款具体模型,分别涵盖文本生成视频(T2V)和图像生成视频(I2V)任务,带来了一个全面且开放的视频基础模型套件。


图片

四大模型齐发!

具体来看,本次的四款模型分别为:

  • 图生视频模型:Wan2.1-I2V-14B-480PWan2.1-I2V-14B-720P

图生视频模型都是 14B。根据官方信息显示,I2V-14B 模型在性能上超越了领先的闭源模型以及所有现有的开源模型,达到了 SOTA 水平。它能够基于输入的文本和图像生成复杂的视觉场景和运动模式,包括 480P 和 720P 分辨率的视频。

图片

  • 文生视频:Wan2.1-T2V-14B

该模型同样在开源和闭源模型中创造了新的 SOTA 性能,展现了其生成高质量视觉效果和复杂动态的能力。此外,Wan2.1-T2V-14B 是唯一一个能生成中英文文本的视频模型,支持 480P 和 720P 分辨率的视频生成。

  • 小参数的文生视频模型:Wan2.1-T2V-1.3B

T2V-1.3B 模型支持在几乎所有消费级 GPU 上进行视频生成,仅需 8.19 GB VRAM 即可生成一段 5 秒钟的 480P 视频,在 RTX 4090 上输出时间仅为 4 分钟。通过预训练和蒸馏过程,它超越了更大的开源模型,并取得了与一些高级闭源模型相当的性能。

相较而言,这款模型适用于二次模型开发和学术研究。

图片

在 VBench 排行榜上,Wan2.1 的表现优于 OpenAI 的 Sora,VBench 排行榜评估视频生成质量的 16 个维度,包括主题身份一致性、运动平滑度、时间闪烁和空间关系等。

图片


图片

背后技术原理

根据官方介绍,Wan2.1 基于主流的 Diffusion Transformer 范式进行设计,通过一系列创新实现了生成能力的显著进展。这些创新包括时空变分自编码器(VAE)、可扩展的训练策略、大规模数据构建和自动化评估指标。

(1) 3D 变分自编码器

在本次模型中,通义团队提出了一种新颖的 3D 因果 VAE 架构,称为 Wan-VAE,专为视频生成设计。通过结合多种策略,改善了时空压缩,减少了内存使用,并确保了时间因果性。

图片

与其他开源 VAE 相比,Wan-VAE 在性能效率上展示了显著优势。此外,Wan-VAE 在 3D VAE 的因果卷积模块中实现了特征缓存机制,可以在不丢失历史时间信息的情况下编码和解码任意长度的 1080P 视频,使其特别适合视频生成任务。

性能测试表明,Wan2.1 的 VAE 在 A800 GPU 上的重建视频速度是 HunYuanVideo 的 2.5 倍。在博客上,阿里团队解释称:“由于我们 VAE 模型的小巧设计和特征缓存机制,这一速度优势将在更高分辨率下得到进一步体现。”

(2) 视频扩散 DiT

此外,Wan2.1 采用了主流视频 DiT 结构,通过 Full Attention 机制有效建模长时程时空依赖,生成时空一致的高质量视频。同时采用 Flow Matching 框架,结合 T5 编码器和 MLP 处理时间嵌入,优化模型性能,在相同参数规模下显著提升了生成效果。

图片

(3)数据处理

值得注意的是,Wan2.1 的训练依赖于大规模、高质量的数据集。在数据策划过程中,该团队设计了一个四步数据清洗流程,重点关注基础维度、视觉质量和运动质量。对应的整个预训练过程也分为四个阶段,每个阶段逐渐增加分辨率和视频时长,让模型在一定算力限制下得到更充分的训练。最终的 SFT 阶段,进行了更严格的数据过滤,以获取高质量、多样化、大规模的图像和视频训练集。

图片


图片

与 SOTA 的比较

通过一系列评测,Wan2.1 在多个维度上的优异表现,凭借 1,035 个内部提示集的测试,超越了多款领先的模型,表现出色。

图片

不同 Wan2.1 模型在不同 GPU 上的计算效率:

图片

总的来说,在 DeepSeek 开源推理模型之后,时下阿里 Wan2.1 的开源让文生视频和图生视频的生成技术更加普及,不仅让更多人能够轻松使用,也为大模型的研究和实际应用打下了更坚实的基础。这一举措对整个行业来说都是一种积极推动,带来了更多的机会和可能性。

Thumbplayer Poster Plugin Image
播放
下一个
打开循环播放
00:00
/
00:00
倍速
3.0X
2.0X
1.5X
1.25X
1.0X
0.75X
0.5X
语言
多音轨
AirPlay
0
静音播放中,点击 恢复音量
画中画
网页全屏
全屏
error-background
你可以 刷新 试试
视频信息
1.33.6
播放信息 上传日志
视频ID
VID
-
播放流水
Flowid
-
播放内核
Kernel
-
显示器信息
Res
-
帧数
-
缓冲健康度
-
网络活动
net
-
视频分辨率
-
编码
Codec
-
mystery
mystery
-

按住画面移动小窗

X
Thumbplayer Poster Plugin Image
播放
下一个
打开循环播放
00:00
/
00:00
倍速
3.0X
2.0X
1.5X
1.25X
1.0X
0.75X
0.5X
语言
多音轨
AirPlay
0
静音播放中,点击 恢复音量
画中画
网页全屏
全屏
error-background
你可以 刷新 试试
视频信息
1.33.6
播放信息 上传日志
视频ID
VID
-
播放流水
Flowid
-
播放内核
Kernel
-
显示器信息
Res
-
帧数
-
缓冲健康度
-
网络活动
net
-
视频分辨率
-
编码
Codec
-
mystery
mystery
-

按住画面移动小窗

X

图片

免责声明:本内容来自腾讯平台创作者,不代表腾讯新闻或腾讯网的观点和立场。
举报
评论 0文明上网理性发言,请遵守《新闻评论服务协议》
请先登录后发表评论~
查看全部0条评论
首页
刷新
反馈
顶部