1.DeepSeek发布的大语言模型通过开源、免费的策略,再次复制了Temu、TikTok们的成功模式。
2.通过公开R1及其前身V3模型的构建细节,DeepSeek揭示了一个事实:推理模型的开发比想象中更为简单。
3.由于此突破,全球竞争对手加快了研发步伐,阿里巴巴发布了通义千问的最新版本,美国顶级非营利机构艾伦人工智能研究所也更新了其大语言模型Tulu。
4.然而,DeepSeek的其他技术创新,如多标记预测、更经济的大型数据集创建方法和硬件优化,也使其在多个模型上取得了显著成果。
5.专家预测,随着技术普及,小型公司之间的协作将增多,可能削弱大型公司长期以来的优势。
以上内容由腾讯混元大模型生成,仅供参考
作者 | Will Douglas Heaven
编译 | 未来学人
编辑 | 从林
来源 | 麻省理工科技评论
无论是电商、社交、快时尚,中国公司都在巨头林立的西方世界找到诀窍,不仅实现指数级快速增长,更让巨头们不得不采取同样的方式竞争。Temu、TikTok、SHEIN的成功印证了:中国科技公司有能力凭借低价、免费优势,在任何一个领域抢占市场。
AI领域曾经一度由美国巨头和领先的初创公司主导,中国公司一度处于落后、追赶的地位。但是现在,DeepSeek发布的大语言模型通过开源、免费的策略,再次复制了Temu、TikTok们的成功模式。
DeepSeek的轰动效果及影响已经毋庸赘述。硅谷著名风投家马克·安德烈森在X平台发文称:“DeepSeek R1是我见过最令人惊叹的突破之一,作为开源项目,它是送给全世界的珍贵礼物。”
然而,DeepSeek的贡献不止于此。通过公开R1及其前身V3模型的构建细节,并免费发布这些模型,DeepSeek揭示了一个事实:推理模型的开发比想象中更为简单。
这一突破促使全球竞争对手加快了研发步伐。本周,阿里巴巴发布了其大语言模型通义千问的最新版本,美国顶级非营利机构艾伦人工智能研究所(AI2)也更新了其大语言模型Tulu。两家机构均声称其新版模型性能超越了DeepSeek的同类产品。
OpenAI联合创始人兼CEO萨姆·阿尔特曼承认R1在成本效益方面令人印象深刻,但他随即自信地表示:“我们必定会推出更优秀的模型。”紧接着,OpenAI推出了ChatGPT Gov,这是一个专为美国政府机构安全需求定制的聊天机器人版本,这显然是为了回应外界对DeepSeek应用程序向中国传输数据的担忧。美国时间周四,OpenAI向ChatGPT免费版用户发布了新的推理模型o3-mini。这标志着人们首次能够免费使用OpenAI的推理模型,此前这些模型仅供Pro和Plus付费用户使用。
跟前两年的OpenAI一样,DeepSeek已然成为业界必须超越的标杆。它究竟采取了什么行动,能如此彻底地震撼科技界?这种轰动效应是否名副其实?我们能从这场即将展开的竞争中获得哪些启示?让我们一起来了解这些关键问题。
大语言模型训练步骤
让我们了解大语言模型的训练过程。这个过程主要分为预训练和后训练两个阶段。预训练是最广为人知的阶段。在这个阶段,神经网络会反复处理包括网站、书籍、代码库等数十亿份文档,直到它能够一个词一个词地生成与源材料相似的文本。这就形成了所谓的基础模型。
预训练不仅是最耗时的阶段,也需要巨额投资。但正如OpenAI联合创始人、特斯拉前AI主管安德烈·卡帕西去年在微软Build大会上指出的:“基础模型并不是助手,它们只是在复制互联网文档。”
要将基础模型转变为实用工具,还需要经过多个额外步骤,这就是后训练阶段。在这个阶段,模型学习执行特定任务,比如回答问题(或像OpenAI的o3和DeepSeek的R1那样逐步解答问题)。近年来,这个过程通常是让基础模型模仿大量人类测试人员提供的问答示例,这一步骤被称为监督微调。
OpenAI后来又创新性地引入了一个新步骤:由人类测试人员对模型的回答进行评分,然后用这些分数来训练模型,使其倾向于生成类似高分答案而非低分答案的内容。这种被称为基于人类反馈的强化学习(RLHF)技术,使得ChatGPT等聊天机器人变得如此流畅自然。如今,RLHF已在整个行业得到广泛应用。
但这些后训练步骤都很耗时。DeepSeek证明,在大多数情况下无需人工参与也能达到相同效果。该公司用全自动的强化学习取代了监督微调和RLHF,不依赖人类反馈来指导模型,而是使用计算机生成的反馈分数。
前阿里巴巴研究主管、现任以色列AI编码初创公司Qodo联合创始人兼CEO伊塔玛·弗里德曼(Itamar Friedman)表示:“减少甚至跳过人类反馈是一个重大突破。这意味着你几乎可以完全在无人工干预的情况下训练模型。”
DeepSeek R1训练独辟蹊径
这种方法的主要局限在于,计算机善于评分数学和编程类问题的答案,但对开放式或主观性问题的答案评分能力有限。这也解释了为什么R1在数学和代码测试中表现突出。为了让模型能够回答更广泛的非数学问题或执行创造性任务,DeepSeek仍需人工反馈。
即便如此,在中国这项成本相对较低。澳大利亚AI公司Appen副总裁、前亚马逊网络服务中国和腾讯战略主管陈思博士表示:“相比西方市场,中国不仅创建高质量数据的成本更低,而且拥有更庞大的数学、编程和工程领域的大学毕业生人才库。”
DeepSeek运用这种方法打造了V3基础模型,其性能可与OpenAI旗舰模型GPT-4o媲美。该公司于一个月前发布V3,而R1正是在V3的基础上开发而成。
为了开发R1,DeepSeek对V3进行了多轮强化学习训练。2016年,谷歌DeepMind证实这种无需人工干预的自动化试错方法可以将一个随机走子的棋类游戏模型训练成击败大师级选手的AI。DeepSeek将类似方法应用于大语言模型:将潜在答案视作游戏中的可能走法。
最初,模型无法按照DeepSeek预期的方式逐步解答问题。但通过对模型样本答案进行自动评分,训练过程逐步引导其达到预期表现。
最终,DeepSeek开发出了一个在多项基准测试中表现出色的模型。然而,这个被命名为R1-Zero的模型生成的答案不够通顺,且混杂多种语言。为了最后的优化,DeepSeek采用少量人工提供的示例响应来引导强化学习过程。在这些数据上训练R1-Zero后,最终产生了R1模型。
还有一项重要创新。为了最大化强化学习的效率,DeepSeek开发了一种名为群组相对策略优化(Group Relative Policy Optimization,GRPO)的新算法。一年前,公司首次利用GRPO构建了DeepSeekMath模型。
具体细节我们可以略过,你只需了解强化学习需要计算分数来判断潜在行为的优劣。传统的强化学习技术通常需要一个独立的模型来完成这项计算。对大语言模型而言,这意味着第二个模型的开发和运营成本可能与第一个相当。而GRPO摒弃了第二个模型,转而采用直接推测的方式来预测分数。这种方法成本更低,且精度足以满足需求。
强化学习将成为普遍方法
DeepSeek在R1论文中描述的主要创新是使用强化学习。但它并非唯一尝试这种技术的公司。在R1发布前两周,微软亚洲研究院的团队就宣布了一个名为rStar-Math的模型,采用了类似的训练方式。“它在性能方面也实现了类似的巨大飞跃,”AI公司Clarifai的创始人兼CEO马特·齐勒说。
AI2的Tulu也运用了高效的强化学习技术,但它是建立在监督微调和RLHF等人工步骤之上,而非取代它们。美国公司Hugging Face正在尝试复制R1,其OpenR1是DeepSeek模型的克隆版本,Hugging Face希望借此进一步揭示R1成功的关键要素。
业内公开的秘密是,OpenAI、谷歌DeepMind和Anthropic等顶级公司很可能已在使用自己版本的DeepSeek方法来训练新一代模型。“我确信他们正在做几乎完全相同的事情,只是会有自己的独特版本,”齐勒说。
但DeepSeek还有其他技术创新。它训练基础模型V3进行多标记预测,让模型一次预测一串单词,而不是一个接一个地预测。这不仅降低了训练成本,还提高了准确性。“想想我们说话的方式,当说到一句话的一半时,我们就知道后面要说什么,”齐勒说,“这些模型也应该具备这种能力。”
该公司还发现了更经济的大型数据集创建方法。为了训练去年的DeepSeekMath模型,它使用了名为Common Crawl的免费数据集(从互联网上抓取的海量文档),并通过自动化流程筛选出包含数学题的内容。这比手动构建新的数学题数据集便宜得多,也更有效:Common Crawl中的数学内容远超任何现有的专业数学数据集。
在硬件方面,DeepSeek找到了提升现有芯片性能的新方法,使其无需购买最新硬件就能训练顶级模型。齐勒表示,他们的创新有一半来自直接的工程:“他们的团队中一定有一些极其优秀的GPU工程师。”
英伟达提供名为CUDA的软件,供工程师调整其芯片设置。但DeepSeek绕过了这些代码,转而使用能够直接与硬件对话的汇编语言,实现了远超英伟达提供功能的性能。“这是优化的核心所在,”齐勒说,“理论上可行,但实际操作难度太大,所以很少有人尝试。”
DeepSeek在多个模型上的创新确实令人印象深刻。但这也表明,该公司声称训练V3的成本不到600万美元并非全部实情。R1和V3是建立在现有技术积累之上的。“也许最后一步,最后按下那个按钮时花费了600万美元,但前期的研发投入可能是这个数字的十倍甚至更多,”弗里德曼说。
在一篇驳斥各种夸大宣传的博客文章中,Anthropic联合创始人兼CEO达里奥·阿莫迪指出,基于报道称该公司实际使用了50000个英伟达H100 GPU,DeepSeek可能拥有价值约10亿美元的芯片。
一种新的范式正在形成
世界各地有数百家初创公司正在努力打造下一个重大突破。但为什么是现在?为什么我们在短短几周内就看到了一系列推理模型的涌现,包括OpenAI的o1和o3、谷歌DeepMind的Gemini 2.0 Flash Thinking,以及现在的R1?
答案在于基础模型,GPT-4o、Gemini 2.0、V3等基础模型现在已经达到了足够的水平,能够展现类推理行为。Hugging Face的科学家刘易斯·坦斯塔尔表示:“R1证明,只要基础模型足够强大,强化学习就能在无需人工监督的情况下,从语言模型中提取出推理能力。”
换言之,美国顶级公司可能早已掌握了这种方法,但选择保持沉默。齐勒说:“似乎存在一种巧妙的方法,可以将预训练模型转化为更强大的推理模型。但直到现在,这个转化过程仍然是个秘密,并未公开。”
R1的独特之处在于,DeepSeek公开分享了他们的方法。齐勒说:“事实证明,这个过程并不像想象中那么昂贵。真正困难的是打造初始的预训练模型。”正如卡帕西去年在微软Build大会上指出的,预训练模型占据了99%的工作量和主要成本。
如果构建推理模型的难度低于预期,我们很可能会看到大量免费模型的出现,它们的能力将远超当前水平。弗里德曼认为,随着技术普及,小型公司之间的协作将增多,这可能削弱大型公司长期以来的优势。
“我认为这可能是一个具有里程碑意义的时刻。”他说。
本文为翻译作品,原文版权归原作者所有。未来学人仅作编译,文章观点不代表未来学人立场。如有侵权,请联系我们删除。
关注未来学人,读原汁原味的全球报道