“起大早赶晚集”的谷歌大模型，这次真的“遥遥领先”了？

观察者网

2025-03-26 15:06发布于上海观察者网官方账号

+关注

AI划重点 · 全文约1001字，阅读需3分钟

1.谷歌推出Gemini 2.5 Pro大模型，推理能力强大，登顶各大榜单。

2.Gemini 2.5 Pro支持100万token的上下文窗口，即将推出200万token的上下文窗口。

3.该模型在Chatbot Arena上排名第一，比紧随其后的Grok-3高出39分。

4.除此之外，Gemini 2.5 Pro还在创意写作、指令遵循和长查询三大领域获得唯一冠军。

5.目前，Gemini 2.5 Pro已在Google AI Studio和Gemini应用中开放，未来几周内将公布定价方案。

以上内容由腾讯混元大模型生成，仅供参考

最早推出Transformer架构的谷歌，一度在大模型竞赛中落后。好在随着Gemini的不断进化，谷歌正在回到第一梯队。

3月26日，Gemini 2.5 Pro上线，这个模型一经推出就登顶各大榜单，在Chatbot Arena上较第二名高出整整39分！

Gemini 2.5 Pro是一款推理模型。谷歌表示，推理能力不仅仅指分类和预测，而是指系统分析信息、得出逻辑结论、融入上下文和细微差别，以及做出明智决策的能力。

据悉Gemini 2.5 Pro 目前支持 100 万 token 的上下文窗口，很快将推出200万token的上下文窗口，继承并发扬了 Gemini 模型的优势——原生多模态能力和超长上下文长度。

这让它能够理解海量数据集，并处理来自多种信息源的复杂问题，包括文本、音频、图像、视频，甚至完整的代码仓库。

在Chatbot Arena（由加州大学伯克利分校 SkyLab 和 LMSYS 的研究者开发，主要用于根据人类偏好评估大语言模型的性能）上，Gemini 2.5 Pro以横扫所有类别的显著优势排名第一，并且比紧随其后的Grok-3整整高出了39分。

同时Gemini 2.5 Pro还获得了创意写作、指令遵循和长查询三大领域唯一的冠军。

此外，Gemini 2.5 Pro成功登顶了视觉竞技场（Vision Arena）排行榜榜首。

在网页开发领域，作为首个实力媲美 Claude 3.7 Sonnet 的模型，Gemini 2.5 Pro成功获得了网页开发竞技场（WebDev Arena）的第二名。

不仅如此，Gemini 2.5 Pro在Humanity’s Last Exam(no tools)，GPQA和 AIME 2025等数学和科学基准评测中同样表现卓越。

Humanity’s Last Exam (no tools)即 “人类的最后考试（无工具）”，这里的 “无工具” 指在进行该考试时，不允许使用外部工具，如搜索引擎、数据库等。以往实验显示，最先进的 LLMs 在 HLE 上的准确率普遍低于 10%，且存在信心与能力失衡、推理效率低等问题，表明当前 LLM 的能力与人类专家在封闭式学术问题上的前沿能力之间的差距。在这一背景下，Gemini 2.5 Pro 18.8%的成绩显得非常突出。

据悉，Gemini 2.5 Pro 已在 Google AI Studio 和 Gemini 应用中，向 Gemini Advanced 用户开放，并将在 Vertex AI 上推出。

而它会在未来几周内公布定价方案，用户可以在更高使用配额下，将模型应用于大规模生产环境。

有意思的是，最近国内和国外两大著名的“起大早赶晚集”选手都发布了最新大模型，含金量是否都能达到评测显示的效果呢？

本文系观察者网独家稿件，未经授权，不得转载。

免责声明：本内容来自腾讯平台创作者，不代表腾讯新闻或腾讯网的观点和立场。