1.清华大学人工智能研究院副院长朱军教授表示,视频生成迈入精准可控新时代,推出Vidu 2.0版本。
2.Vidu 2.0版本在生成效率、生成成本方面实现质的飞跃,每秒生成成本最低降至4分钱。
3.然而,内容生成的随机性仍然是业界普遍面临的难题,生数科技推出Vidu Q1版本以解决痛点。
4.Vidu Q1版本首次实现视频内容生成的高度精准可控,同时精准控制多个主体与环境的一致性。
5.未来,Vidu模型将在多模态融合与空间、时间智能领域发挥更大潜力,助推人工智能技术实现虚拟世界与现实物理世界的融合。
以上内容由腾讯混元大模型生成,仅供参考
朱军:发布多模态的可控生成|未来人工智能先锋论坛
腾讯科技特约作者 涵清
编辑 郑可君
近年来,以生成式人工智能(AIGC)为代表的技术浪潮席卷全球。然而,许多用户在实际应用中经常遇到AI“不听话”的问题,比如生成的视频或图像与创作者的想法存在较大偏差,缺乏足够的精准控制。这种内容生成的随机性,已成为阻碍生成式AI进一步应用的瓶颈之一。如何提高内容生成的可控性与精准性,正逐渐成为业界的重要议题。
在2025年中关村论坛上,清华大学人工智能研究院副院长、生数科技创始人兼首席科学家朱军教授,就视频大模型的最新进展、突破性技术及未来发展方向进行了深入分享。
以下内容为朱军教授演讲实录的编辑整理版本。
一、视频大模型Vidu的诞生与进化历程
2024年4月,生数科技在中关村论坛首次推出了视频大模型Vidu。作为国内首个与谷歌Sora直接对标的视频大模型,Vidu从诞生起便具备长时长、高一致性和高动态性的技术特点,迅速引起了行业内外的广泛关注。最初发布时,Vidu模型可实现16秒的视频生成,随后迅速迭代。
同年6月,生数科技将模型性能显著提升,实现了一键生成32秒视频的能力,推出动态3D视频生成版本Vidu 4D,使生成内容更加立体丰富。7月,Vidu模型正式全球上线,强调角色一致性的精准控制,让用户能够明确地指定和控制特定角色的动作和行为。
到2024年9月,Vidu再次实现重大突破,将单主体的可控生成从人物角色扩展到虚拟形象、物品等更广泛的内容。这种技术升级进一步增强了内容创作的自由度,满足了创作者多元化的表达需求。2024年11月,Vidu 1.5版本的发布再次掀起关注,实现了多主体与环境场景的同步精准控制,使用户能够更自如地掌控复杂场景的视频内容生成。
二、技术迭代下的用户体验跃升
进入2025年,生数科技发布了Vidu 2.0版本。在这一阶段,模型在生成效率、生成成本方面都实现了质的飞跃。Vidu 2.0版本能够在短短10秒内生成4秒高质量的视频内容,每秒生成成本最低降至4分钱,大幅提升了经济性与生产效率。同时,为进一步便利创作者使用,主题库、模板库等功能陆续上线,极大提升了用户的创作体验。
截至目前,Vidu平台已服务全球超过200个国家和地区,用户数量超过千万级,涵盖动漫、广告、影视剧、游戏等多个行业,显著扩大了生成式AI技术的应用领域。
三、Vidu Q1:内容生成精准可控的新里程碑
尽管Vidu视频大模型不断迭代和进步,但朱军教授坦言,内容生成的随机性仍然是业界普遍面临的难题。尤其是视频内容生成过程中,主体位置难以精准控制、运动轨迹经常随机化,严重限制了创作者的精准表达。
为解决这些痛点,生数科技推出Vidu Q1版本。新版本首次实现了视频内容生成的高度精准可控,例如用户通过简单的图示即可明确视频中主体的位置关系,彻底避免主体位置随机出现偏差的问题。此外,视频主体的运动轨迹也可被严格按照用户的需求精准执行,确保视频内容始终符合创作者预期。
在多主体控制方面,Vidu Q1实现了同时精准控制多个主体与环境的一致性。无论场景多么复杂,用户均可通过简单的指令与图示精确定义,确保生成的视频内容始终精准稳定。此外,Q1版本还首次实现音频内容的精准控制,创作者可以自由定义音频的不同时间段场景,确保音视频的转场与内容表达精确一致。
展望未来,朱军教授表示,Vidu模型不仅仅局限于视频内容的精准生成,其技术发展潜力巨大。视频大模型在多模态融合与空间、时间智能领域的能力,将为未来通用人工智能的发展奠定坚实基础,助推人工智能技术真正实现虚拟世界与现实物理世界的融合。
据悉,Vidu Q1将在2025年4月正式上线,作为又一次迭代升级,其实际效果与用户反馈也将在未来的应用中接受检验。随着生成式AI在创意、内容生产等场景中的不断渗透,如何实现真正可控、可靠的多模态生成,仍将是整个行业持续探索的课题。
视频大模型Vidu Q1 宣传视频