谷歌在官网发布了最强推理模型——Gemini 2.5 Pro实验版。
根据测试数据显示,Gemini 2.5 Pro在AIME 2025、MMMU、GPQA、LiveCodeBenchv5、等主流测试平台中超过了GPT-4.5、R1、Grok-3等知名模型。
同时在超难测试平台“人类终极考试”中拿下18.8%的最高分数,大幅度超过之前由o3-mini创造的14%,成为LMArena大模型排行榜中的第一名。
LMArena最新排行榜
相比之前的版本,Gemini 2.5 Pro在编程方面取得了巨大飞跃,可以作为Agent助手来使用,仅通过简单的文本提示,就能自动完成。
例如,下面这个只用了文本提示 直接做了一个视频小游戏。
提示词:为我制作一款引人入胜的无尽跑酷游戏。在屏幕上显示关键操作说明。使用 p5.js 创建场景,不要使用 HTML。我喜欢像素风格的恐龙以及有趣的背景。
所有代码全部自动化生成,还提供了可视化测试页面。
数据测试方面,Gemini 2.5 Pro在SWE-Bench Verified行业标准的Agent代码评估中,得分达到了63.8%高分。SWE-Bench Verified是一个专门用于评估Agent代码能力的基准测试,能够在多个维度上衡量模型的编程能力。
目前,Gemini 2.5 Pro已在Google AI Studio和Gemini应用程序中面向Gemini高级用户推出,并且很快将上线Vertex AI。未来几周内推出定价,让用户能够以更高的速率限制使用2.5 Pro,以实现大规模生产使用。
本文素材来源谷歌,如有侵权请联系删除