客户端
游戏
无障碍

0

评论

收藏

1

手机看

微信扫一扫,随时随地看

谷歌发布最强推理模型—Gemini 2.5 Pro

谷歌在官网发布了最强推理模型——Gemini 2.5 Pro实验版。

根据测试数据显示,Gemini 2.5 Pro在AIME 2025、MMMU、GPQA、LiveCodeBenchv5、等主流测试平台中超过了GPT-4.5、R1、Grok-3等知名模型。

同时在超难测试平台“人类终极考试”中拿下18.8%的最高分数,大幅度超过之前由o3-mini创造的14%,成为LMArena大模型排行榜中的第一名。

图片

LMArena最新排行榜

相比之前的版本,Gemini 2.5 Pro在编程方面取得了巨大飞跃,可以作为Agent助手来使用,仅通过简单的文本提示,就能自动完成。

例如,下面这个只用了文本提示 直接做了一个视频小游戏。

提示词:为我制作一款引人入胜的无尽跑酷游戏。在屏幕上显示关键操作说明。使用 p5.js 创建场景,不要使用 HTML。我喜欢像素风格的恐龙以及有趣的背景。

所有代码全部自动化生成,还提供了可视化测试页面。

Thumbplayer Poster Plugin Image
播放
下一个
打开循环播放
00:00
/
00:00
倍速
3.0X
2.0X
1.5X
1.25X
1.0X
0.75X
0.5X
语言
多音轨
AirPlay
0
静音播放中,点击 恢复音量
画中画
网页全屏
全屏
error-background
你可以 刷新 试试
视频信息
1.33.6
播放信息 上传日志
视频ID
VID
-
播放流水
Flowid
-
播放内核
Kernel
-
显示器信息
Res
-
帧数
-
缓冲健康度
-
网络活动
net
-
视频分辨率
-
编码
Codec
-
mystery
mystery
-

按住画面移动小窗

X

数据测试方面,Gemini 2.5 Pro在SWE-Bench Verified行业标准的Agent代码评估中,得分达到了63.8%高分。SWE-Bench Verified是一个专门用于评估Agent代码能力的基准测试,能够在多个维度上衡量模型的编程能力。

图片

目前,Gemini 2.5 Pro已在Google AI Studio和Gemini应用程序中面向Gemini高级用户推出,并且很快将上线Vertex AI。未来几周内推出定价,让用户能够以更高的速率限制使用2.5 Pro,以实现大规模生产使用。

本文素材来源谷歌,如有侵权请联系删除

免责声明:本内容来自腾讯平台创作者,不代表腾讯新闻或腾讯网的观点和立场。
举报
评论 0文明上网理性发言,请遵守《新闻评论服务协议》
请先登录后发表评论~
查看全部0条评论
首页
刷新
反馈
顶部