+关注

手机看

微信扫一扫，随时随地看

Google杀回来了！Gemini 2.0图像编辑实测：说人话就能干掉美图秀秀？

十字路口Crossing

2025-03-21 10:17发布于上海科技领域创作者

+关注

AI划重点 · 全文约2228字，阅读需7分钟

1.谷歌推出Gemini 2.0 Flash Experimental，一款多模态AI模型，能听懂自然语言输入并具有强大的修改可控制性。

2.该模型在图像生成与自然语言指令跟随方面得到提升，具有广泛应用潜力。

3.然而，Gemini 2.0 Flash EXP在细节渲染、结构一致性和仿真真实感方面仍存在局限性。

4.通过输入自然语言Prompt，用户可以轻松实现图像编辑、场景续写与扩展等功能。

5.未来，如果谷歌继续对Gemini 2.0 Flash EXP进行快速迭代，有望在像素级别上取代美图秀秀等图像编辑工具。

以上内容由腾讯混元大模型生成，仅供参考

当基座模型更新之后，作为创业者的你，是感到焦虑？还是感到兴奋？

在十字路口播客的《2025 开年对谈：AI 关键之年，Agent 开启元年》中，我们请真格基金管理合伙人雨森给 2025 年的 AI 创业者们一个建议，他提出了上面这个「灵魂拷问」。

在 Gemini 2.0 Flash Experimental 上线后，想必有一大批 AI 创业者感到的不只是「焦虑」，甚至是一定程度的「绝望」……

提问：最近，Gemini 2.0 Flash EXP为什么这么火？所有人都去玩？它不只是一个小小的文生图模型更新么？

我的回答是：它真的值得，它听得懂人话，为小白扫除了一切认知障碍。

Gemini 2.0 Flash Experimental 的上线，简直是让最近两周的中文 AI 互联网又活了一次。

它的指令跟随性实在过于强大。

比如：

通过自然语言输入（简单点说：人话），直接破解水印。

来源：X网友@abdiisan

来源：X网友@tanayj

通过 Gemini 2.0 Flash EXP 的强大图像解析能力，使用简单的 Prompt，就能够在一定程度上恢复老照片。

来源：X网友@literallydenis

先给所有小白迅速补充一个知识点。

Gemini 2.0 Flash Experimental 是什么？

它是谷歌推出的一款多模态（同时处理文本、图片、视频等数据类型）的 AI 模型。

就跟 OpenAI 厂牌的 ChatGPT、Meta 厂牌的 Llama、xAI 厂牌的 Grok 系列一样，它是谷歌厂牌的AI大模型。

Gemini 2.0 Flash Experimental 为何火爆？

最主要的原因：它能听得懂自然语言输入，并有着强大的修改可控制性。

在此之前，如果我想玩编辑图像，基本就是 Photoshop、要不就是 Stable Diffusion 和一堆其他的 AI 编辑图像平台，去年字节出的 SeedEdit 也值得一玩。

说实话，没有哪个平台能够真的听得懂自然语言（简单说就是：人话）。这其实背后反映出来一点：大模型尚未能真正地做到高质量的提示词跟随。所以大概率，我还是要重新回到 PS 软件。但是，Photoshop 这种国民级应用，在业内对小白来说，仍然需要一定时间的积累。

所以，谷歌这回发布的 Gemini 2.0 Flash Experimental 的火爆，可以说是在预料之内的。

去年年底，它就已经开始向部分测试者发布，前几天则正式向开发者开放了。但是，别担心，普通人也能用得上，玩得好。

正是因为聚集了各路网友在各个领域的各种使用创新，Gemini 2.0 已经成了现在最酷的潮玩之一。

试玩链接如下（一定记得开魔法，谷歌的 ip 检测还是有点强的）：

https://aistudio.google.com/

当我用Gemini 2.0 Flash Experimental 养了一只钢铁侠猫

进到主页面后，最上方的模型调用栏需要选择 Gemini 2.0 Flash (Image Generation) Experimental。

点开右上角的选择项设置按钮，Output format 记得选择 Image and text。

Temperature 暂且不管，这个参数控制生成内容的随机性和创意度。当温度值越高，模型会放飞自我，随机性升高，回答更有创意，但是提示词跟随度降低。

正好我手里有张给猫猫摄影的照片，通过输入栏里的 +，上传图片。

然后，我简单地输入自然语言 Prompt：让这只猫正对着我。

Gemini 2.0 的表现如下图，尽管其在指令跟随方面表现出色，但图像生成效果尚不足以令人叹为观止。

以下面这只猫为例，颈部转动显得僵硬且缺乏自然流畅性，毛发衔接处过渡并不好，头部与身体的比例失调，整体呈现出视觉上的不协调。 Gemini 2.0 文生图模型在细节渲染、结构一致性和仿真真实感方面的局限性依然比较大。

如果与 Kling、Flux、Stable Diffusion、Midjourney 等几个平台比较的话，Gemini 2.0 Flash EXP生成质量方面很难称得上是第一梯队。

作为美漫迷，我时常在幻想：当一只猫猫穿越到复仇者联盟宇宙，能不能代替钢铁侠暴打绿巨人。所以，我设计了 6 个场景，利用 Gemini 2.0 Flash EXP 的图像生成能力和记忆遵循能力，生成了一个简单的连环画。

场景 1 :

Prompt ：一只猫猫穿越到复仇者联盟，当上了钢铁侠，暴打绿巨人。

场景 2 :

Prompt ：「钢铁侠猫」露出面具。

场景 3 :

Prompt：一只可爱的小「钢铁侠猫猫」摘下了面具，露出可爱且毛茸茸的小脑袋，向萌版绿巨人发射激光。

场景 4 :

Prompt ：「钢铁侠猫猫」带着绿巨人回到了猫猫星球。

场景 5 :

Prompt ：在这个神秘星球里，绿巨人也变成了一只猫。

场景 6 :

带着钢铁侠盔甲的猫和绿巨人猫和谐地生活在了一起。

针对最后一个场景，简单输入 Prompt ：背景改为中国城市，古香古色。

作为图像编辑后的结果，核心叙事得到了保留，又融入了中国特色的古典建筑样式。

除了连续场景的续写与扩展外，Gemini 2.0 Flash EXP 在多样化场景下的表现，都体现了其显著增强的图像能力。这一模型，不仅在图像生成与自然语言的指令跟随方面得到了提升，也在各种行业的应用上体现出了潜力。

我精选了几个 X 上的网所友制作的例子，作为展示。

首当其冲的就是图像编辑领域，以用户输入指令为例：「把我的自拍变成网红的Instagram头像」时，Gemini 2.0 Flash EXP 的生成结果显示出显著的效果，输出图像在整体风格上发生了鲜明转变。在一定程度上，契合了 Ins 平台的审美观。如果谷歌继续对 Gemini 2.0 Flash EXP 进行快速迭代，在图像保真度以及一致性投入更多的技术资源。

在未来的某一天，我相信 AI 文生图模型可能真的会在像素级别上把美图秀秀干没了。

但是，同样需要指出的是，输入的自拍照的一些元素也相应被删减或增加了。

来源：X网友@wongmjane

来源：X网友@sardo_adam

来源：X网友@KurawaDono

来源：X网友@HalimAlrasihi

来源：X网友@AEAE_94

来源：X网友@kaiju_ya

来源：X网友@pandeyparul

免责声明：本内容来自腾讯平台创作者，不代表腾讯新闻或腾讯网的观点和立场。