来了,Google 正式推出了旗下新一代大语言模型 Gemini 2.5,作为谷歌迄今为止“最智能的模型”,它在对比 OpenAI、Anthropic、xAI、DeepSeek 旗下的模型时,在推理、数学、科学任务中遥遥领先。
不过 Google 也表示,Gemini 2.5 Pro 对比 OpenAI 的 o1-pro 还是有些距离。
另外,Gemini 2.5 并非“图像处理外挂模型”,而是统一架构共享注意力机制,实现图-文-音-码同源协同处理。
Gemini 2.5 Pro 作为一个全新的思考型模型,大幅提升了逻辑推理、编码生成、复杂任务处理能力,目前支持 100 万tokens 上下文识别,未来还将扩展至 200 万tokens,这让他在生成报告时的表现只能用惊艳来形容。
Gemini 2.5 现已通过 Google AI Studio 和 Gemini app 向 Gemini Advanced 订阅者开放试用,但首发版本还是有一些局限,比如无法联网,不支持 Deep Research 和 Canvas 工具,不过这也只是 Gemini 2.5 的第一个版本,后续肯定会有更多版本发布。而且 Gemini 2.5 的各项功能将逐步集成到 Google 生态中,比如搜索、Gmail、Docs 等,往后会逐渐公布定价细节。
另一边,OpenAI 也为 ChatGPT Plus、Pro 用户推送了图像生成模型,内置在 GPT-4o 中,支持多论对话修改编辑图像,上下文理解能力也更强,你可以让 GPT-4o 保留帽子或者服饰修改其他部分,每个物品的属性、关系都可以被分别控制。
比如这张图,就是要求创建两个 20 岁左右的女巫,阅读路标的照片级真实感图像(Create a photorealistic image of two witches in their 20s (one ash balayage, one with long wavy auburn hair) reading a street sign.)。
并在上下文中修改了路牌上的时间、注释,女巫卷起魔毯、微倾,街边汽车、路标、女巫的位置等。
多模态、推理、上下文理解,不论是 Google 还是 OpenAI,都用强大的性能和开放的体验策略,带给了用户更多想象力,随着更多用户体验,相信还能看到新模型的更多潜力。