客户端
游戏
无障碍

1

评论

5

5

手机看

微信扫一扫,随时随地看

Google杀回来了!Gemini 2.0图像编辑实测:说人话就能干掉美图秀秀?

AI划重点 · 全文约2228字,阅读需7分钟

1.谷歌推出Gemini 2.0 Flash Experimental,一款多模态AI模型,能听懂自然语言输入并具有强大的修改可控制性。

2.该模型在图像生成与自然语言指令跟随方面得到提升,具有广泛应用潜力。

3.然而,Gemini 2.0 Flash EXP在细节渲染、结构一致性和仿真真实感方面仍存在局限性。

4.通过输入自然语言Prompt,用户可以轻松实现图像编辑、场景续写与扩展等功能。

5.未来,如果谷歌继续对Gemini 2.0 Flash EXP进行快速迭代,有望在像素级别上取代美图秀秀等图像编辑工具。

以上内容由腾讯混元大模型生成,仅供参考

当基座模型更新之后,作为创业者的你,是感到焦虑?还是感到兴奋?

在十字路口播客的《2025 开年对谈:AI 关键之年,Agent 开启元年》中,我们请真格基金管理合伙人雨森给 2025 年的 AI 创业者们一个建议,他提出了上面这个「灵魂拷问」。

在 Gemini 2.0 Flash Experimental 上线后,想必有一大批 AI 创业者感到的不只是「焦虑」,甚至是一定程度的「绝望」……

图片


提问:最近,Gemini 2.0 Flash EXP为什么这么火?所有人都去玩?它不只是一个小小的文生图模型更新么?

我的回答是:它真的值得,它听得懂人话,为小白扫除了一切认知障碍。


Gemini 2.0 Flash Experimental 的上线,简直是让最近两周的中文 AI 互联网又活了一次。

它的指令跟随性实在过于强大。

比如:

  1. 通过自然语言输入(简单点说:人话),直接破解水印。

图片

来源:X网友@abdiisan

图片

来源:X网友@tanayj

通过 Gemini 2.0 Flash EXP 的强大图像解析能力,使用简单的 Prompt,就能够在一定程度上恢复老照片。

图片

来源:X网友@literallydenis



先给所有小白迅速补充一个知识点。

Gemini 2.0 Flash Experimental 是什么?

它是谷歌推出的一款多模态(同时处理文本、图片、视频等数据类型)的 AI 模型。

图片

就跟 OpenAI 厂牌的 ChatGPT、Meta 厂牌的 Llama、xAI 厂牌的 Grok 系列一样,它是谷歌厂牌的AI大模型。

Gemini 2.0 Flash Experimental 为何火爆?

最主要的原因:它能听得懂自然语言输入,并有着强大的修改可控制性。

在此之前,如果我想玩编辑图像,基本就是 Photoshop、要不就是 Stable Diffusion 和一堆其他的 AI 编辑图像平台,去年字节出的 SeedEdit 也值得一玩。

说实话,没有哪个平台能够真的听得懂自然语言(简单说就是:人话)。这其实背后反映出来一点:大模型尚未能真正地做到高质量的提示词跟随。所以大概率,我还是要重新回到 PS 软件。但是,Photoshop 这种国民级应用,在业内对小白来说,仍然需要一定时间的积累。

所以,谷歌这回发布的 Gemini 2.0 Flash Experimental 的火爆,可以说是在预料之内的。

去年年底,它就已经开始向部分测试者发布,前几天则正式向开发者开放了。但是,别担心,普通人也能用得上,玩得好。

正是因为聚集了各路网友在各个领域的各种使用创新,Gemini 2.0 已经成了现在最酷的潮玩之一。

试玩链接如下(一定记得开魔法,谷歌的 ip 检测还是有点强的):

https://aistudio.google.com/



当我用Gemini 2.0 Flash Experimental 养了一只钢铁侠猫

进到主页面后,最上方的模型调用栏需要选择 Gemini 2.0 Flash (Image Generation) Experimental。

图片

点开右上角的选择项设置按钮,Output format 记得选择 Image and text

Temperature 暂且不管,这个参数控制生成内容的随机性和创意度。当温度值越高,模型会放飞自我,随机性升高,回答更有创意,但是提示词跟随度降低。

图片

正好我手里有张给猫猫摄影的照片,通过输入栏里的 +,上传图片。

然后,我简单地输入自然语言 Prompt:让这只猫正对着我。

图片


Gemini 2.0 的表现如下图,尽管其在指令跟随方面表现出色,但图像生成效果尚不足以令人叹为观止。

以下面这只猫为例,颈部转动显得僵硬且缺乏自然流畅性,毛发衔接处过渡并不好,头部与身体的比例失调,整体呈现出视觉上的不协调。 Gemini 2.0 文生图模型在细节渲染、结构一致性和仿真真实感方面的局限性依然比较大。

如果与 Kling、Flux、Stable Diffusion、Midjourney 等几个平台比较的话,Gemini 2.0 Flash EXP生成质量方面很难称得上是第一梯队。

图片


作为美漫迷,我时常在幻想:当一只猫猫穿越到复仇者联盟宇宙,能不能代替钢铁侠暴打绿巨人。所以,我设计了 6 个场景,利用 Gemini 2.0 Flash EXP 的图像生成能力和记忆遵循能力,生成了一个简单的连环画。


场景 1 :

Prompt :一只猫猫穿越到复仇者联盟,当上了钢铁侠,暴打绿巨人。

图片


场景 2 :

Prompt :「钢铁侠猫」露出面具。

图片


场景 3 :

Prompt:一只可爱的小「钢铁侠猫猫」摘下了面具,露出可爱且毛茸茸的小脑袋,向萌版绿巨人发射激光。

图片


场景 4 :

Prompt :「钢铁侠猫猫」带着绿巨人回到了猫猫星球。

图片


场景 5 :

Prompt :在这个神秘星球里,绿巨人也变成了一只猫。

图片


场景 6 :

带着钢铁侠盔甲的猫和绿巨人猫和谐地生活在了一起。

图片


针对最后一个场景,简单输入 Prompt :背景改为中国城市,古香古色。

作为图像编辑后的结果,核心叙事得到了保留,又融入了中国特色的古典建筑样式。

图片


除了连续场景的续写与扩展外,Gemini 2.0 Flash EXP 在多样化场景下的表现,都体现了其显著增强的图像能力。这一模型,不仅在图像生成与自然语言的指令跟随方面得到了提升,也在各种行业的应用上体现出了潜力。

我精选了几个 X 上的网所友制作的例子,作为展示。

首当其冲的就是图像编辑领域,以用户输入指令为例:「把我的自拍变成网红的Instagram头像」时,Gemini 2.0 Flash EXP 的生成结果显示出显著的效果,输出图像在整体风格上发生了鲜明转变。在一定程度上,契合了 Ins 平台的审美观。如果谷歌继续对 Gemini 2.0 Flash EXP 进行快速迭代,在图像保真度以及一致性投入更多的技术资源。

在未来的某一天,我相信 AI 文生图模型可能真的会在像素级别上把美图秀秀干没了。

但是,同样需要指出的是,输入的自拍照的一些元素也相应被删减或增加了。

图片

来源:X网友@wongmjane

来源:X网友@sardo_adam

来源:X网友@KurawaDono

来源:X网友@HalimAlrasihi

来源:X网友@AEAE_94

来源:X网友@kaiju_ya

来源:X网友@pandeyparul

免责声明:本内容来自腾讯平台创作者,不代表腾讯新闻或腾讯网的观点和立场。
举报
评论 0文明上网理性发言,请遵守《新闻评论服务协议》
请先登录后发表评论~
查看全部0条评论
首页
刷新
反馈
顶部