1.谷歌Gemini 2.5 Pro和Deepseek V3-0324成为近期讨论焦点,分别具有强大的多模态能力和编码能力。
2.Gemini 2.5 Pro在编程能力方面表现出色,如一次生成无伤通关的跑酷游戏、小球弹跳游戏等。
3.然而,Deepseek V3-0324在推理类模型中表现较好,如文本总结能力和海报生成能力。
4.两者在实际应用中的选择取决于任务需求和时间检验,Gemini 2.5 Pro更适合处理海量信息和混合媒体内容,而Deepseek V3-0324在效率和开源属性方面具有优势。
以上内容由腾讯混元大模型生成,仅供参考
这周谷歌 Gemini 2.5 Pro 和 Deepseek V3-0324 相继发布,成为了这两天讨论最多的两个模型。
但是,这俩模型发布的风格却迥然不同。
Gemini 2.5 Pro ,以一种“屠榜式摧枯拉朽之势”亮相。谷歌高调宣布这是其“迄今最智能”的模型,伴随一系列耀眼的基准测试成绩,横扫数学、编码、多模态推理等多个领域。
而 Deepseek V3-0324,则采用了低调务实的“悄然上线”风格,默默出现在 HuggingFace 上,README 空空如也,只有 641GB 的模型文件。但是“润物细无声”的发布依旧并未掩盖光芒。
不少人对 Gemini 2.5 Pro 的评价集中在“多模态能力”和“超长上下文窗口”,Gemini 2.5 Pro 原生支持文本、图像、音频、视频、代码的协同处理,不仅能万字长文直出,复杂代码一遍过,而且能“看懂”视频,“听懂”音频,100 万 token 的上下文容量(约 75 万字)让它能轻松处理超长文档。
Deepseek V3 虽不像 Gemini 高调,但实用性也让它成为开发者心头好!拥有超强编码能力,新版模型在 LiveCodeBench 测试中超越 Claude 3.7 Sonnet,尤其在前端开发(HTML/CSS/JS)任务中表现突出。
两个模型虽都有各自的“杀手锏”,但是,光说不练假把式,是骡子是马拉出来遛遛才知道!按照我们夕小瑶“不服跑个分,不行测到服”的老规矩,肯定要亲自上手“盘盘”。
编码能力是大模型的硬通货,先测几道编程题。
Round 1:跑酷游戏
提示词:
Make me a captivating endless runner game. Key instructions on the screen. p5js scene, no HTML. I like pixelated dinosaurs and interesting backgrounds.
中文提示词:
为我制作一个引人入胜的无限跑酷游戏。屏幕上显示关键操作说明。使用 p5js 场景,无需 HTML。我喜欢像素化的恐龙和有趣的背景。
先看 DeepSeek V3-0324:
再看 Gemini 2.5 Pro:
DeepSeek-V3-0324 几乎完美交卷,提示、积分系统、障碍物一应俱全,碰撞逻辑和处理也做得滴水不漏,功能齐全到让人挑不出大毛病。唯一的瑕疵是那只恐龙,造型有点抽象,像随便捏出来的。
而 Gemini 2.5 Pro 表现有点拉胯。虽然颜色清新,恐龙形状也算还原,可惜连个障碍物都没加,弹跳还高得离谱,完全没游戏性可言,是个半成品。
这俩都是一次生成的结果,用各自母语提问。Gemini 2.5 Pro 的表现尤其意外,毕竟这是官方例子所用的提示词,本以为会惊艳,结果却让人失望。
DeepSeek V3- 0324 明显更胜一筹。
Round 2: 小球弹跳
这个测试项目已经不是什么新鲜项目了,我的预期是两个模型都能一次无伤通关。
提示词如下:
Create an effect using p5.js (no HTML needed) where 10 colorful balls bounce inside a rotating hexagon, taking into account gravity, elasticity, friction, and collisions.
使用 p5.js(无需 HTML)创建 10 个彩色球在旋转六边形内弹跳的效果,考虑重力,弹性,摩擦和碰撞。
先看 Gemini 2.5 Pro:
这是 DeepSeek-V3-0324:
Gemini 2.5 Pro 表现亮眼——颜色鲜艳、碰撞到位、摩擦顺滑,需求全搞定。
DeepSeek-V3-0324 直接上演“开局即 GG”的戏码,多边形连最基本地碰撞都没有实现,翻车翻得措手不及。
本局 Gemini 2.5 Pro 赢。
Round 3: 飞行模拟游戏
提示词如下:
In pure three.js, without downloading any assets or textures, create a flight simulator game where i can fly an airplane. Make sure it runs in the browser
先看 DeepSeek V3-0324
Gemini 2.5 Pro:
这轮较量,打得胶着,胜负难分。
两者的操控都没啥问题,开起来都还算顺手,起码不会让人摔键盘。
DeepSeek-V3-0324 的画面丰富,但是完全看不出飞机的影子,像个抽象派艺术品,整体效果不像飞行而像潜水。。
Gemini 2.5 Pro 这边飞机的造型能认出来,但是地形设计略显粗糙了。
这场比拼算 Gemini 险胜。
Round 4: 生成 Mandelbrot set 集
提示词如下:
p5js to explore a Mandelbrot set.
用 p5js 生成 Mandelbrot set.
DeepSeek V3-0324 的效果——
Gemini 2.5 Pro:
这轮比拼的结果还真有点意思,DeepSeek-V3-0324 和 Gemini 2.5 Pro 都交出了可交互的 Mandelbrot 集,表面上看旗鼓相当,但细节里藏着胜负。
DeepSeek-V3-0324 这次有点费劲,试了好多次,还换了好几轮提示词,折腾半天总算搞定,虽然结果能用,但过程磕磕绊绊,效率不太行。
反过来,Gemini 2.5 Pro 就轻松多了,一次提示直接命中,干净利落搞定,毫不拖泥带水。光凭这点效率差距,这局 Gemini 2.5 Pro 稳稳拿下胜利!
虽然 DeepSeek-V3-0324 在传统对话模型中,编程能力数一数二,但面对推理类模型,似乎还是在范式上有些劣势。
Round 5: 中文长文本输出能力
提示词如下:
以马斯克和山姆奥特曼为主人公,写一篇有关他们爱恨情仇的科技商战小说。 要求:10000 字, 一次性输出完整内容。
Gemini 2.5 Pro 输出:
DeepSeek V3-0324 输出——
小说内容的优劣我就不做评判了,毕竟天马行空的想象力可以不受拘束地随意编织故事。
Gemini Pro 2.5 在严格遵循指令方面表现得相当出色,能够按照要求,稳定输出 1 万字的长篇内容。
DeepSeek V3-0324 试了好几次,总是在 6K、7K 字附近徘徊,篇幅上无法遵循指令。
本局长文写作测试,Gemini Pro 2.5 完胜!
Round 6: 文本总结能力
上传一篇 PDF 论文和里面的一张图片,我们上一篇推文里讲过的。
提示词: 文章中,失败总体分为几大类, 具体的错误有多少种,它们分别是什么?图一中的成功率,失败率各是多少?
Gemini 2.5 Pro 的回答——
DeepSeek V3-0324 的回答——
Gemini 2.5 Pro 对于文本归纳和图表的识别都对了。 DeepSeek V3-0324 文本归纳没问题,但图是完全没看明白。
果然,Gemini 2.5 Pro 的多模态强不是盖的,DeepSeek 在多模态上得加油啊。
Round 7: 智力推理题
提示词:
一楼到十楼的每层电梯门口都放着一颗钻石,钻石大小不一。你乘坐电梯从一楼到十楼,每层楼电梯门都会打开一次,只能拿一次钻石。问怎么才能拿到最大的一颗?
这是一个典型的“最优停止问题”(Optimal Stopping Problem),类似于“秘书问题”或“相亲问题”。在这类问题中,我们需要在有限的选择中,找到一个停止规则,以最大化选择最优选项的概率。
稍微有一定难度,直接先上结论:
前 3 层不拿:即在一楼、二楼、三楼时,只观察钻石的大小,记录下这三层中最大的钻石大小,但不拿取。 从第四层开始:在四楼到十楼,一旦遇到比前三层中最大的钻石还要大的钻石,就立即拿取。 如果在第四层到第十层都没有遇到比前三层最大的还要大的钻石,那么必须在第十层拿取(但此时无法拿到最大的钻石)。
这种策略能够使你拿到最大钻石的概率最大,约为 39.87%。
先看 Gemini 2.5 Pro 的回答:
再看 DeepSeek V3-0324:
这两个模型都答对了,但风格真是天差地别!
Gemini 2.5 Pro 懒得啰嗦,直接甩结论,像个酷酷的学霸:“答案就是这样,爱信不信!”
DeepSeek V3-0324 则是完全相反,简直是耐心过头的学神,恨不得手把手教你,公式推导一步不落,每层概率算得清清楚楚,生怕你脑子转不过弯,活脱脱一个“教学狂魔”!
Round 8: 海报生成
生成一张适合小红书平台的“金句海报”,内容为“Attention is All You Need”。用 html/css 设计。
Gemini 2.5 Pro 生成的海报:
DeepSeek V3-0324 生成的海报:
Gemini 2.5 Pro 就扔了个“Attention is All You Need”,干巴巴的。
DeepSeek V3-0324 还贴心地加上了副标题和标签,妥妥的小红书友好型选手,但是也暴露了缺点,没考虑这句话的出处和语境,理解成了另一层意思。
总结
Gemini 2.5 Pro 无疑是一位能力极其均衡的“六边形战士”。它的超长上下文处理能力和强大的多模态理解在实测中得到了充分验证。如果你需要处理海量信息、混合媒体内容,或者追求全面的 AI 能力,G2.5 Pro 无疑是最好的选择。虽然 DS V3 代码能力强,但实测中 G2.5 Pro 编程实力更强劲,实打实的全能王。
但是 Gemini 2.5 Pro 作为推理模型,而 Deepseek V3-0324 作为非推理模型,严格来说,两者定位不同。毕竟 Gemini 2.5 Pro 是谷歌砸出来的最强一代模型。 Deepseek 的优势在于效率和开源属性上。
选择谁,关键看任务需求和时间检验。