+关注

手机看

微信扫一扫，随时随地看

谷歌没有护城河，美国也没有

未尽研究

2025-03-26 22:23发布于上海未尽研究官方账号

+关注

AI划重点 · 全文约2478字，阅读需8分钟

1.谷歌和DeepSeek分别发布了新版基础模型V3和Gemini 2.5 Pro，重点提升模型推理与编码能力。

2.新版V3在科学、数学与代码等领域有明显提升，但与Gemini 2.5 Pro相比仍有差距。

3.然而，DeepSeek的低成本编码能力和Gemini 2.5 Pro的思考能力使其在应用场景中具有竞争力。

4.由于美国在开源模型上的行动迟缓，华盛顿圈担心全球计算生态可能转向中国的芯片架构和计算框架。

5.与此同时，中国开源模型在全球范围内的渗透和复制应用，对美国AI的商业化带来巨大压力。

以上内容由腾讯混元大模型生成，仅供参考

两年前，谷歌内部喊出“我们没有护城河，OpenAI也没有”。当时，他们担心的是Meta刚发布的开源模型Llama。如今，更担心的是以DeepSeek为代表的中国开源势力。美国也没有护城河，在AI领域的优势，正在被淹没到最后的塔尖。

这周，DeepSeek与谷歌都更新了自己的基础模型，都将推理增强融入其中。前者的新版V3（DeepSeek-V3-0334），参数规模从6710亿微增至6850亿，不是推理模型，胜似推理模型。后者的Gemini-2.5-Pro，仍处于实验版阶段，桑达尔·皮查伊（Sundar Pichai）称之为前沿“思考”模型。

推理模型与基础模型相互独立，或许只是阶段的产物。OpenAI就曾放风说，即将发布的GPT-5，会是GPT-4.5与o3的融合。但DeepSeek与谷歌行动更快，新版V3与Gemini 2.5 Pro，都将重点落在了提升模型推理与编码能力之上。只不过，前者算不上版本大更新，没有思维链，是对基础模型的推理能力的增强；后者是一次大更新，有思维链，是将推理能力完全融入了基础模型。

DeepSeek强调了新版V3对推理、前端开发、中文写作与搜索的优化。在科学、数学与代码等领域，新版V3相较3个月前的初版，提升明显，与刚发布不久的GPT-4.5不相上下，并全面超越了Claude-Sonnet-3.7。它的数学与代码能力，在与可比对象的基准测试中，排名第一。

在新版V3发布后不久，模型托管与分析机构Artificial Analysis称之为目前得分最高的非推理模型，标志着开放权重模型首次成为领先的非推理模型，“这比R1更令人印象深刻，暗示R2将是另一个重要的飞跃。”不过，非营利研究机构AI2的后训练负责人Nathan Lambert则认为，在目前，推理模型已经并非有与没有的概念，而是程度与范围的区别。

次日，谷歌发布了Gemini 2.5 Pro。它的命名看上去就是基础模型，尽管没有像以往那样，直接冠以Flash Thinking的后缀，但它有思维链。在官方公布的基准测试成绩中，它在常见的编程、数学和科学基准测试中均处于领先地位；除了编程，其他所有项目都强于o3-mini。它的“思考”能力，来自显著增强的基础模型和改进的后训练的结合。未来，谷歌将把这类思考能力，直接构建到旗下的所有的模型中。

要论思考能力，没有思维链的新版V3，仍然不及有思维链的Gemini-2.5-Pro。由于发布时间过于接近，双方都没有在官方测评结果中将对方纳入对比；但是，两者都在GPQA钻石级、AIME2024两项基准中，与GPT-4.5做了对比，且后者在两份榜单中的成绩一致。

在科学领域的GPQA钻石级测评中，Gemini-2.5-Pro得分84，新版V3得分68，GPT-4.5得分71；在数学领域的AIME2024测评中，Gemini-2.5-Pro得分92，新版V3得分59，GPT-4.5得分37。在基准测试中，新版V3离Gemini-2.5-Pro有点距离。

不过，回归应用场景，考虑性价比，新版V3仍然充满竞争力。今年可能是人类编程能力被AI永久超越的一年。人们对新版V3的兴奋点之一，就是低成本的编码能力的提升。它的API调用价格，每百万token输入/输出价格0.14美元/0.28美元，而水平相近的Claude-Sonnet-3.7需要3美元/15美元。Gemini-2.5-Pro目前只向月费20美元的高级用户开放，规模应用定价策略尚未公布。新版V3同样开源，可以微调与商用；甚至可以本地部署于苹果最新款的基于M3 Ultra的Mac Studio，每秒跑出20个token。

新版V3提升了代码执行效率，以及网页和游戏前端的设计感；工具使用能力也变得更为智能。有用户拿Gemini-2.5-Pro与DeepSeek-V3-0324制作小游戏（提示词：在一个html文件中制作一个完整的工作象棋游戏），前者写了570行代码，后者写了2372行。行数不是比较代码能力的优秀标准，但该用户试用了两个模型制作小游戏后，发现Gemini制作的“象棋AI对手超级笨”，DeepSeek的“非常聪明，还有音效等等”。

00:00

倍速

3.0X

2.0X

1.5X

1.25X

1.0X

0.75X

0.5X

语言

多音轨

静音播放中，点击恢复音量

你可以刷新试试

视频信息

1.33.6

播放信息上传日志

视频ID

VID

播放流水

Flowid

播放内核

Kernel

显示器信息

Res

帧数

缓冲健康度

网络活动

net

视频分辨率

编码

Codec

mystery

按住画面移动小窗

Gemini-2.5-Pro与新版V3，本身之于各自公司的重要性就不一样。Gemini-2.5-Pro对于谷歌的意义，在于它是仅次于跨入下一代前沿模型（Gemini 3）的一次大更新；它作为Gemini 2.5家族的代表第一个亮相，拉满了市场对那些原本基于Gemini 2的模型或应用性能提升的期待。而DeepSeek并没有将新版V3当成V3.5来发布，有什么，就向开源社区共享什么；它也没有论文。

谷歌拥有最强大的AI应用生态。它们需要更强大的模型的支持，以提供更好的AI用户体验。谷歌已经基本完成了追赶OpenAI等前沿模型，甚至开始出现反超。Gemini-2.5-Pro刚推出，就登顶了Arena排行榜的第1，而且领先优势巨大。

今年，谷歌将Deep Research从Gemini 1.5 Pro升级Gemini 2.0 Flash Thinking，将Gemini 2的多模态理解能力扩展至Gemini Robotic-ER的物理智能推理，将Gemini 2.0 Flash升级至原生图像功能。它在围堵OpenAI。相应的，OpenAI也一边拼命将大模型能力产品化，一边努力实现垂直整合，自研芯片、自建数据中心；GPT-4o原生图像功能在拖延了近一年后终于上线。

但是，这一切都建立在闭源的生态环境之中。正如谷歌在两年前面对Llama的冲击，认为自己与OpenAI都没有护城河，如今美国这一套闭源创新的生态，面对中国开源AI的疯狂蔓延，也没有护城河。

DeepSeek掀起了中国企业的开源潮流，为美国AI的商业化带来了巨大的压力。开源、高效的DeepSeek与Qwen模型，正在全球范围内渗透、复制与应用，包括美国与印度。中国的大模型正在大幅降价，“内卷”可能不会尽兴，外卷的架势已经拉开。大量AI应用可以基于更高性价比的智能，频繁试错，规模落地。阿里巴巴蔡崇信昨日就匪夷所思，美国居然真的有人在谈论数以千亿美元计的资本开支。

反观美国，目前，Meta下一代开源模型Llama4，似乎被近几个月的开源冲击搞乱了阵脚，迟迟没有任何消息；xAI的Grok 3要等下一代模型成熟才能开源，主要靠马斯克在X上的吆喝。

美国在开源模型上行动迟缓，已经引发华盛顿圈的反思，担心如果中国开发的开源模型主导全球市场，全球计算生态可能转向中国的芯片架构和计算框架。这一切正在悄然发生，HuggingFace最受欢迎的就是中国开源模型。也许很快，中国将最前沿模型开源的趋势，将从大型语言模型扩展至具身智能等模型，推动先进制造的产业升级。

免责声明：本内容来自腾讯平台创作者，不代表腾讯新闻或腾讯网的观点和立场。