+关注

手机看

微信扫一扫，随时随地看

谷歌发布最强推理模型—Gemini 2.5 Pro

AIGC开放社区

2025-03-27 06:33发布于北京科技领域创作者

+关注

谷歌在官网发布了最强推理模型——Gemini 2.5 Pro实验版。

根据测试数据显示，Gemini 2.5 Pro在AIME 2025、MMMU、GPQA、LiveCodeBenchv5、等主流测试平台中超过了GPT-4.5、R1、Grok-3等知名模型。

同时在超难测试平台“人类终极考试”中拿下18.8%的最高分数，大幅度超过之前由o3-mini创造的14%，成为LMArena大模型排行榜中的第一名。

LMArena最新排行榜

相比之前的版本，Gemini 2.5 Pro在编程方面取得了巨大飞跃，可以作为Agent助手来使用，仅通过简单的文本提示，就能自动完成。

例如，下面这个只用了文本提示直接做了一个视频小游戏。

提示词：为我制作一款引人入胜的无尽跑酷游戏。在屏幕上显示关键操作说明。使用 p5.js 创建场景，不要使用 HTML。我喜欢像素风格的恐龙以及有趣的背景。

所有代码全部自动化生成，还提供了可视化测试页面。

00:00

倍速

3.0X

2.0X

1.5X

1.25X

1.0X

0.75X

0.5X

语言

多音轨

静音播放中，点击恢复音量

你可以刷新试试

视频信息

1.33.6

播放信息上传日志

视频ID

VID

播放流水

Flowid

播放内核

Kernel

显示器信息

Res

帧数

缓冲健康度

网络活动

net

视频分辨率

编码

Codec

mystery

按住画面移动小窗

数据测试方面，Gemini 2.5 Pro在SWE-Bench Verified行业标准的Agent代码评估中，得分达到了63.8%高分。SWE-Bench Verified是一个专门用于评估Agent代码能力的基准测试，能够在多个维度上衡量模型的编程能力。

目前，Gemini 2.5 Pro已在Google AI Studio和Gemini应用程序中面向Gemini高级用户推出，并且很快将上线Vertex AI。未来几周内推出定价，让用户能够以更高的速率限制使用2.5 Pro，以实现大规模生产使用。

本文素材来源谷歌，如有侵权请联系删除

免责声明：本内容来自腾讯平台创作者，不代表腾讯新闻或腾讯网的观点和立场。