客户端
游戏
无障碍

0

评论

3

5

手机看

微信扫一扫,随时随地看

谷歌没有护城河,美国也没有

AI划重点 · 全文约2478字,阅读需8分钟

1.谷歌和DeepSeek分别发布了新版基础模型V3和Gemini 2.5 Pro,重点提升模型推理与编码能力。

2.新版V3在科学、数学与代码等领域有明显提升,但与Gemini 2.5 Pro相比仍有差距。

3.然而,DeepSeek的低成本编码能力和Gemini 2.5 Pro的思考能力使其在应用场景中具有竞争力。

4.由于美国在开源模型上的行动迟缓,华盛顿圈担心全球计算生态可能转向中国的芯片架构和计算框架。

5.与此同时,中国开源模型在全球范围内的渗透和复制应用,对美国AI的商业化带来巨大压力。

以上内容由腾讯混元大模型生成,仅供参考


两年前,谷歌内部喊出我们没有护城河,OpenAI也没有。当时,他们担心的是Meta刚发布的开源模型Llama。如今,更担心的是以DeepSeek为代表的中国开源势力。美国也没有护城河,在AI领域的优势,正在被淹没到最后的塔尖。

这周,DeepSeek与谷歌都更新了自己的基础模型,都将推理增强融入其中。前者的新版V3DeepSeek-V3-0334),参数规模从6710亿微增至6850亿,不是推理模型,胜似推理模型。后者的Gemini-2.5-Pro,仍处于实验版阶段,桑达尔·皮查伊(Sundar Pichai)称之为前沿思考模型。

推理模型与基础模型相互独立,或许只是阶段的产物。OpenAI就曾放风说,即将发布的GPT-5,会是GPT-4.5o3的融合。但DeepSeek与谷歌行动更快,新版V3Gemini 2.5 Pro,都将重点落在了提升模型推理与编码能力之上。只不过,前者算不上版本大更新,没有思维链,是对基础模型的推理能力的增强;后者是一次大更新,有思维链,是将推理能力完全融入了基础模型。

DeepSeek强调了新版V3对推理、前端开发、中文写作与搜索的优化。在科学、数学与代码等领域,新版V3相较3个月前的初版,提升明显,与刚发布不久的GPT-4.5不相上下,并全面超越了Claude-Sonnet-3.7。它的数学与代码能力,在与可比对象的基准测试中,排名第一。

在新版V3发布后不久,模型托管与分析机构Artificial Analysis称之为目前得分最高的非推理模型,标志着开放权重模型首次成为领先的非推理模型,这比R1更令人印象深刻,暗示R2将是另一个重要的飞跃。不过,非营利研究机构AI2的后训练负责人Nathan Lambert则认为,在目前,推理模型已经并非有与没有的概念,而是程度与范围的区别。

图片

次日,谷歌发布了Gemini 2.5 Pro。它的命名看上去就是基础模型,尽管没有像以往那样,直接冠以Flash Thinking的后缀,但它有思维链。在官方公布的基准测试成绩中,它在常见的编程、数学和科学基准测试中均处于领先地位;除了编程,其他所有项目都强于o3-mini。它的思考能力,来自显著增强的基础模型和改进的后训练的结合。未来,谷歌将把这类思考能力,直接构建到旗下的所有的模型中。

要论思考能力,没有思维链的新版V3,仍然不及有思维链的Gemini-2.5-Pro。由于发布时间过于接近,双方都没有在官方测评结果中将对方纳入对比;但是,两者都在GPQA钻石级 、AIME2024两项基准中,与GPT-4.5做了对比,且后者在两份榜单中的成绩一致。

在科学领域的GPQA钻石级测评中,Gemini-2.5-Pro得分84,新版V3得分68GPT-4.5得分71;在数学领域的AIME2024测评中,Gemini-2.5-Pro得分92,新版V3得分59GPT-4.5得分37。在基准测试中,新版V3Gemini-2.5-Pro有点距离。

不过,回归应用场景,考虑性价比,新版V3仍然充满竞争力。今年可能是人类编程能力被AI永久超越的一年。人们对新版V3的兴奋点之一,就是低成本的编码能力的提升。它的API调用价格,每百万token输入/输出价格0.14美元/0.28美元,而水平相近的Claude-Sonnet-3.7需要3美元/15美元。Gemini-2.5-Pro目前只向月费20美元的高级用户开放,规模应用定价策略尚未公布。新版V3同样开源,可以微调与商用;甚至可以本地部署于苹果最新款的基于M3 UltraMac Studio,每秒跑出20token

新版V3提升了代码执行效率,以及网页和游戏前端的设计感;工具使用能力也变得更为智能。有用户拿Gemini-2.5-ProDeepSeek-V3-0324制作小游戏(提示词:在一个html文件中制作一个完整的工作象棋游戏),前者写了570行代码,后者写了2372行。行数不是比较代码能力的优秀标准,但该用户试用了两个模型制作小游戏后,发现Gemini制作的象棋AI对手超级笨DeepSeek非常聪明,还有音效等等

Thumbplayer Poster Plugin Image
播放
下一个
打开循环播放
00:00
/
00:00
倍速
3.0X
2.0X
1.5X
1.25X
1.0X
0.75X
0.5X
语言
多音轨
AirPlay
0
静音播放中,点击 恢复音量
画中画
网页全屏
全屏
error-background
你可以 刷新 试试
视频信息
1.33.6
播放信息 上传日志
视频ID
VID
-
播放流水
Flowid
-
播放内核
Kernel
-
显示器信息
Res
-
帧数
-
缓冲健康度
-
网络活动
net
-
视频分辨率
-
编码
Codec
-
mystery
mystery
-

按住画面移动小窗

X

Gemini-2.5-Pro与新版V3,本身之于各自公司的重要性就不一样。Gemini-2.5-Pro对于谷歌的意义,在于它是仅次于跨入下一代前沿模型(Gemini 3)的一次大更新;它作为Gemini 2.5家族的代表第一个亮相,拉满了市场对那些原本基于Gemini 2的模型或应用性能提升的期待。而DeepSeek并没有将新版V3当成V3.5来发布,有什么,就向开源社区共享什么;它也没有论文。

谷歌拥有最强大的AI应用生态。它们需要更强大的模型的支持,以提供更好的AI用户体验。谷歌已经基本完成了追赶OpenAI等前沿模型,甚至开始出现反超。Gemini-2.5-Pro刚推出,就登顶了Arena排行榜的第1,而且领先优势巨大。

今年,谷歌将Deep ResearchGemini 1.5 Pro升级Gemini 2.0 Flash Thinking,将Gemini 2的多模态理解能力扩展至Gemini Robotic-ER的物理智能推理,将Gemini 2.0 Flash升级至原生图像功能。它在围堵OpenAI。相应的,OpenAI也一边拼命将大模型能力产品化,一边努力实现垂直整合,自研芯片、自建数据中心;GPT-4o原生图像功能在拖延了近一年后终于上线。

但是,这一切都建立在闭源的生态环境之中。正如谷歌在两年前面对Llama的冲击,认为自己与OpenAI都没有护城河,如今美国这一套闭源创新的生态,面对中国开源AI的疯狂蔓延,也没有护城河。

DeepSeek掀起了中国企业的开源潮流,为美国AI的商业化带来了巨大的压力。开源、高效的DeepSeekQwen模型,正在全球范围内渗透、复制与应用,包括美国与印度。中国的大模型正在大幅降价,内卷可能不会尽兴,外卷的架势已经拉开。大量AI应用可以基于更高性价比的智能,频繁试错,规模落地。阿里巴巴蔡崇信昨日就匪夷所思,美国居然真的有人在谈论数以千亿美元计的资本开支

反观美国,目前,Meta下一代开源模型Llama4,似乎被近几个月的开源冲击搞乱了阵脚,迟迟没有任何消息;xAIGrok 3要等下一代模型成熟才能开源,主要靠马斯克在X上的吆喝。

美国在开源模型上行动迟缓,已经引发华盛顿圈的反思,担心如果中国开发的开源模型主导全球市场,全球计算生态可能转向中国的芯片架构和计算框架。这一切正在悄然发生,HuggingFace最受欢迎的就是中国开源模型。也许很快,中国将最前沿模型开源的趋势,将从大型语言模型扩展至具身智能等模型,推动先进制造的产业升级。

免责声明:本内容来自腾讯平台创作者,不代表腾讯新闻或腾讯网的观点和立场。
举报
评论 0文明上网理性发言,请遵守《新闻评论服务协议》
请先登录后发表评论~
查看全部0条评论
首页
刷新
反馈
顶部