客户端
游戏
无障碍

14

评论

32

27

手机看

微信扫一扫,随时随地看

谷歌发布Gemini 2.5系列模型 登顶多项AI基准测试

AI划重点 · 全文约1063字,阅读需4分钟

1.谷歌推出Gemini 2.5系列模型,实验版Gemini 2.5 Pro在多项基准测试中达到最先进水平。

2.Gemini 2.5 Pro在LMArena排行榜首位,具备思维链推理能力,实现性能提升与准确性增强。

3.该模型支持100万token上下文窗口,可解析TB级数据集,进行跨模态推理。

4.目前,Gemini 2.5 Pro已登陆谷歌AI Studio开发平台及Gemini应用生态中的Gemini Advanced用户专区。

5.未来几周内,Gemini 2.5 Pro将在Vertex AI平台完成部署,并公布定价细节。

以上内容由腾讯混元大模型生成,仅供参考

图片

当地时间3月25日,谷歌正式推出Gemini 2.5系列。谷歌表示,作为该系列的首发版本,实验版Gemini 2.5 Pro在多项基准测试中均达到最先进水平,并以显著优势登顶LMArena排行榜首位。

在人工智能领域,“推理”能力不仅指分类与预测,更强调系统分析信息、推导逻辑结论、融合上下文语境与细微差异,最终作出明智决策的完整认知过程。Gemini 2.5系列是具备思维链推理能力的智能模型,其创新之处在于响应前会进行系统化思考推演,从而实现性能提升与准确性增强。

谷歌通过强化学习与思维链提示等技术探索提升人工智能智能与推理能力的路径。继该公司在2024年12月推出首款具备思维能力的Gemini 2.0 Flash Thinking模型后,最新发布的Gemini 2.5又实现了性能的新突破。按照谷歌的计划,未来此类思维功能会被深度集成到所有模型中。

Gemini 2.5传承了该系列模型的核心优势——‌原生多模态支持‌与‌超长上下文窗口‌。当前发布的2.5 Pro版本已支持‌100万token上下文窗口‌(即将升级至200万)。Gemini 2.5具备海量数据理解‌能力,可解析TB级数据集,并可进行跨模态推理,能够融合处理文本、音频、图像、视频等多源信息。

目前,‌Gemini 2.5 Pro‌已正式登陆谷歌AI Studio开发平台‌及 Gemini应用生态中的Gemini Advanced用户专区‌(支持移动端与桌面端),开发者与企业用户可立即接入体验;此外,该模型将于‌未来几周内‌在Vertex AI‌平台完成部署。接下来,谷歌还将公布Gemini 2.5 Pro‌等定价细节,届时用户可通过更高频次调用限制,将该模型应用于规模化生产环境。

性能表现

图片

Gemini 2.5 Pro在系列基准测试中表现突出

Gemini 2.5 Pro在需要高级推理能力的系列基准测试中均达到业界领先水平。‌在不采用多数投票(majority voting)等增加计算成本的测试阶段技术情况下‌,该模型已在GPQA(通用问题解答评估)与2025年AIME(国际数学邀请赛)等数学与科学类基准测试中排名榜首。

图片

Gemini 2.5 Pro在推理、科学和数学等测试中强于竞争对手

特别值得关注的是,在由数百名领域专家设计、旨在捕捉人类知识与推理边界的"Humanity’s Last Exam"(人类终极考试)数据集上,‌Gemini 2.5 Pro在不借助外部工具的情况下取得18.8%的突破性得分‌,刷新了当前模型的最高纪录。

Gemini 2.5相较2.0版本实现重大跨越——更多优化即将到来。2.5 Pro在可视化网页应用开发、智能体代码构建和代码转换与编辑等领域表现卓越。在智能体代码评估的行业标准SWE-Bench Verified测试中,‌Gemini 2.5 Pro通过自定义智能体配置取得63.8%的成绩‌。(腾讯科技特约编译无忌)

免责声明:本内容来自腾讯平台创作者,不代表腾讯新闻或腾讯网的观点和立场。
举报
评论 0文明上网理性发言,请遵守《新闻评论服务协议》
请先登录后发表评论~
查看全部0条评论
首页
刷新
反馈
顶部