+关注

手机看

微信扫一扫，随时随地看

清华人工智能研究院副院长朱军：视频生成迈入精准可控新时代

腾讯科技

2025-03-29 22:39发布于北京腾讯新闻科技频道官方账号

+关注

AI划重点 · 全文约1452字，阅读需5分钟

1.清华大学人工智能研究院副院长朱军教授表示，视频生成迈入精准可控新时代，推出Vidu 2.0版本。

2.Vidu 2.0版本在生成效率、生成成本方面实现质的飞跃，每秒生成成本最低降至4分钱。

3.然而，内容生成的随机性仍然是业界普遍面临的难题，生数科技推出Vidu Q1版本以解决痛点。

4.Vidu Q1版本首次实现视频内容生成的高度精准可控，同时精准控制多个主体与环境的一致性。

5.未来，Vidu模型将在多模态融合与空间、时间智能领域发挥更大潜力，助推人工智能技术实现虚拟世界与现实物理世界的融合。

以上内容由腾讯混元大模型生成，仅供参考

00:00

倍速

3.0X

2.0X

1.5X

1.25X

1.0X

0.75X

0.5X

语言

多音轨

静音播放中，点击恢复音量

你可以刷新试试

视频信息

1.33.6

播放信息上传日志

视频ID

VID

播放流水

Flowid

播放内核

Kernel

显示器信息

Res

帧数

缓冲健康度

网络活动

net

视频分辨率

编码

Codec

mystery

按住画面移动小窗

朱军：发布多模态的可控生成｜未来人工智能先锋论坛

腾讯科技特约作者涵清

编辑郑可君

近年来，以生成式人工智能（AIGC）为代表的技术浪潮席卷全球。然而，许多用户在实际应用中经常遇到AI“不听话”的问题，比如生成的视频或图像与创作者的想法存在较大偏差，缺乏足够的精准控制。这种内容生成的随机性，已成为阻碍生成式AI进一步应用的瓶颈之一。如何提高内容生成的可控性与精准性，正逐渐成为业界的重要议题。

在2025年中关村论坛上，清华大学人工智能研究院副院长、生数科技创始人兼首席科学家朱军教授，就视频大模型的最新进展、突破性技术及未来发展方向进行了深入分享。

以下内容为朱军教授演讲实录的编辑整理版本。

一、视频大模型Vidu的诞生与进化历程

2024年4月，生数科技在中关村论坛首次推出了视频大模型Vidu。作为国内首个与谷歌Sora直接对标的视频大模型，Vidu从诞生起便具备长时长、高一致性和高动态性的技术特点，迅速引起了行业内外的广泛关注。最初发布时，Vidu模型可实现16秒的视频生成，随后迅速迭代。

同年6月，生数科技将模型性能显著提升，实现了一键生成32秒视频的能力，推出动态3D视频生成版本Vidu 4D，使生成内容更加立体丰富。7月，Vidu模型正式全球上线，强调角色一致性的精准控制，让用户能够明确地指定和控制特定角色的动作和行为。

到2024年9月，Vidu再次实现重大突破，将单主体的可控生成从人物角色扩展到虚拟形象、物品等更广泛的内容。这种技术升级进一步增强了内容创作的自由度，满足了创作者多元化的表达需求。2024年11月，Vidu 1.5版本的发布再次掀起关注，实现了多主体与环境场景的同步精准控制，使用户能够更自如地掌控复杂场景的视频内容生成。

二、技术迭代下的用户体验跃升

进入2025年，生数科技发布了Vidu 2.0版本。在这一阶段，模型在生成效率、生成成本方面都实现了质的飞跃。Vidu 2.0版本能够在短短10秒内生成4秒高质量的视频内容，每秒生成成本最低降至4分钱，大幅提升了经济性与生产效率。同时，为进一步便利创作者使用，主题库、模板库等功能陆续上线，极大提升了用户的创作体验。

截至目前，Vidu平台已服务全球超过200个国家和地区，用户数量超过千万级，涵盖动漫、广告、影视剧、游戏等多个行业，显著扩大了生成式AI技术的应用领域。

三、Vidu Q1：内容生成精准可控的新里程碑

尽管Vidu视频大模型不断迭代和进步，但朱军教授坦言，内容生成的随机性仍然是业界普遍面临的难题。尤其是视频内容生成过程中，主体位置难以精准控制、运动轨迹经常随机化，严重限制了创作者的精准表达。

为解决这些痛点，生数科技推出Vidu Q1版本。新版本首次实现了视频内容生成的高度精准可控，例如用户通过简单的图示即可明确视频中主体的位置关系，彻底避免主体位置随机出现偏差的问题。此外，视频主体的运动轨迹也可被严格按照用户的需求精准执行，确保视频内容始终符合创作者预期。

在多主体控制方面，Vidu Q1实现了同时精准控制多个主体与环境的一致性。无论场景多么复杂，用户均可通过简单的指令与图示精确定义，确保生成的视频内容始终精准稳定。此外，Q1版本还首次实现音频内容的精准控制，创作者可以自由定义音频的不同时间段场景，确保音视频的转场与内容表达精确一致。

展望未来，朱军教授表示，Vidu模型不仅仅局限于视频内容的精准生成，其技术发展潜力巨大。视频大模型在多模态融合与空间、时间智能领域的能力，将为未来通用人工智能的发展奠定坚实基础，助推人工智能技术真正实现虚拟世界与现实物理世界的融合。

据悉，Vidu Q1将在2025年4月正式上线，作为又一次迭代升级，其实际效果与用户反馈也将在未来的应用中接受检验。随着生成式AI在创意、内容生产等场景中的不断渗透，如何实现真正可控、可靠的多模态生成，仍将是整个行业持续探索的课题。