1.谷歌推出Gemini 2.0 Flash Experimental,一款多模态AI模型,能听懂自然语言输入并具有强大的修改可控制性。
2.该模型在图像生成与自然语言指令跟随方面得到提升,具有广泛应用潜力。
3.然而,Gemini 2.0 Flash EXP在细节渲染、结构一致性和仿真真实感方面仍存在局限性。
4.通过输入自然语言Prompt,用户可以轻松实现图像编辑、场景续写与扩展等功能。
5.未来,如果谷歌继续对Gemini 2.0 Flash EXP进行快速迭代,有望在像素级别上取代美图秀秀等图像编辑工具。
以上内容由腾讯混元大模型生成,仅供参考
当基座模型更新之后,作为创业者的你,是感到焦虑?还是感到兴奋?
在十字路口播客的《2025 开年对谈:AI 关键之年,Agent 开启元年》中,我们请真格基金管理合伙人雨森给 2025 年的 AI 创业者们一个建议,他提出了上面这个「灵魂拷问」。
在 Gemini 2.0 Flash Experimental 上线后,想必有一大批 AI 创业者感到的不只是「焦虑」,甚至是一定程度的「绝望」……
提问:最近,Gemini 2.0 Flash EXP为什么这么火?所有人都去玩?它不只是一个小小的文生图模型更新么?
我的回答是:它真的值得,它听得懂人话,为小白扫除了一切认知障碍。
Gemini 2.0 Flash Experimental 的上线,简直是让最近两周的中文 AI 互联网又活了一次。
它的指令跟随性实在过于强大。
比如:
通过自然语言输入(简单点说:人话),直接破解水印。
来源:X网友@abdiisan
来源:X网友@tanayj
通过 Gemini 2.0 Flash EXP 的强大图像解析能力,使用简单的 Prompt,就能够在一定程度上恢复老照片。
来源:X网友@literallydenis
先给所有小白迅速补充一个知识点。
Gemini 2.0 Flash Experimental 是什么?
它是谷歌推出的一款多模态(同时处理文本、图片、视频等数据类型)的 AI 模型。
就跟 OpenAI 厂牌的 ChatGPT、Meta 厂牌的 Llama、xAI 厂牌的 Grok 系列一样,它是谷歌厂牌的AI大模型。
Gemini 2.0 Flash Experimental 为何火爆?
最主要的原因:它能听得懂自然语言输入,并有着强大的修改可控制性。
在此之前,如果我想玩编辑图像,基本就是 Photoshop、要不就是 Stable Diffusion 和一堆其他的 AI 编辑图像平台,去年字节出的 SeedEdit 也值得一玩。
说实话,没有哪个平台能够真的听得懂自然语言(简单说就是:人话)。这其实背后反映出来一点:大模型尚未能真正地做到高质量的提示词跟随。所以大概率,我还是要重新回到 PS 软件。但是,Photoshop 这种国民级应用,在业内对小白来说,仍然需要一定时间的积累。
所以,谷歌这回发布的 Gemini 2.0 Flash Experimental 的火爆,可以说是在预料之内的。
去年年底,它就已经开始向部分测试者发布,前几天则正式向开发者开放了。但是,别担心,普通人也能用得上,玩得好。
正是因为聚集了各路网友在各个领域的各种使用创新,Gemini 2.0 已经成了现在最酷的潮玩之一。
试玩链接如下(一定记得开魔法,谷歌的 ip 检测还是有点强的):
https://aistudio.google.com/
当我用Gemini 2.0 Flash Experimental 养了一只钢铁侠猫
进到主页面后,最上方的模型调用栏需要选择 Gemini 2.0 Flash (Image Generation) Experimental。
点开右上角的选择项设置按钮,Output format 记得选择 Image and text。
Temperature 暂且不管,这个参数控制生成内容的随机性和创意度。当温度值越高,模型会放飞自我,随机性升高,回答更有创意,但是提示词跟随度降低。
正好我手里有张给猫猫摄影的照片,通过输入栏里的 +,上传图片。
然后,我简单地输入自然语言 Prompt:让这只猫正对着我。
Gemini 2.0 的表现如下图,尽管其在指令跟随方面表现出色,但图像生成效果尚不足以令人叹为观止。
以下面这只猫为例,颈部转动显得僵硬且缺乏自然流畅性,毛发衔接处过渡并不好,头部与身体的比例失调,整体呈现出视觉上的不协调。 Gemini 2.0 文生图模型在细节渲染、结构一致性和仿真真实感方面的局限性依然比较大。
如果与 Kling、Flux、Stable Diffusion、Midjourney 等几个平台比较的话,Gemini 2.0 Flash EXP生成质量方面很难称得上是第一梯队。
作为美漫迷,我时常在幻想:当一只猫猫穿越到复仇者联盟宇宙,能不能代替钢铁侠暴打绿巨人。所以,我设计了 6 个场景,利用 Gemini 2.0 Flash EXP 的图像生成能力和记忆遵循能力,生成了一个简单的连环画。
场景 1 :
Prompt :一只猫猫穿越到复仇者联盟,当上了钢铁侠,暴打绿巨人。
场景 2 :
Prompt :「钢铁侠猫」露出面具。
场景 3 :
Prompt:一只可爱的小「钢铁侠猫猫」摘下了面具,露出可爱且毛茸茸的小脑袋,向萌版绿巨人发射激光。
场景 4 :
Prompt :「钢铁侠猫猫」带着绿巨人回到了猫猫星球。
场景 5 :
Prompt :在这个神秘星球里,绿巨人也变成了一只猫。
场景 6 :
带着钢铁侠盔甲的猫和绿巨人猫和谐地生活在了一起。
针对最后一个场景,简单输入 Prompt :背景改为中国城市,古香古色。
作为图像编辑后的结果,核心叙事得到了保留,又融入了中国特色的古典建筑样式。
除了连续场景的续写与扩展外,Gemini 2.0 Flash EXP 在多样化场景下的表现,都体现了其显著增强的图像能力。这一模型,不仅在图像生成与自然语言的指令跟随方面得到了提升,也在各种行业的应用上体现出了潜力。
我精选了几个 X 上的网所友制作的例子,作为展示。
首当其冲的就是图像编辑领域,以用户输入指令为例:「把我的自拍变成网红的Instagram头像」时,Gemini 2.0 Flash EXP 的生成结果显示出显著的效果,输出图像在整体风格上发生了鲜明转变。在一定程度上,契合了 Ins 平台的审美观。如果谷歌继续对 Gemini 2.0 Flash EXP 进行快速迭代,在图像保真度以及一致性投入更多的技术资源。
在未来的某一天,我相信 AI 文生图模型可能真的会在像素级别上把美图秀秀干没了。
但是,同样需要指出的是,输入的自拍照的一些元素也相应被删减或增加了。
来源:X网友@wongmjane
来源:X网友@sardo_adam
来源:X网友@KurawaDono
来源:X网友@HalimAlrasihi
来源:X网友@AEAE_94
来源:X网友@kaiju_ya
来源:X网友@pandeyparul