DeepSeek的出现,一夜之间戳破了算力之上的神话~
从前大家都认为,要训练一个大模型往往需要大规模的算力集群才能够搞出一个ChatGPT出来。
所以美国一直在对我们进行算力封锁。包括把一些高性能的计算卡禁止卖给中国。因此,国内的很多公司在训练大模型的时候,只能基于有限的算力去进行训练,改进出很多算法用来进一步压缩模型训练所需要消耗的资源。
从最开始的DeepSeek V3开始,其就进行了开源,并公布了其技术细节。而且用的是MIT开源协议,任何一个有一定算力的玩家都能够复现出相应的模型出来。
这进一步让华尔街看到算力之上的这个神话破灭,也导致英伟达的股价一晚上就跌了接近17%
在过去,英伟达在这一波大模型风潮下受益最多,因为任何一个大模型在训练的时候都需要用到英伟达的高性能计算卡,比如H100和H800等。相当于是一个“卖铲子”的角色,可能最后大模型没有赢家,但是英伟达肯定可以坐收渔利,其股价从60一路上涨到140左右。但是DeepSeek的出现说明了GPU也不是必须的了。
从训练成本角度来看,DeepSeek V3的训练总共才用了不到280万个GPU小时,而Llama 3 405B却用了3080万GPU小时。用训练一个模型所花费的钱来说,训练一个DeepSeek V3只需要花费557.6万美元,相比之下,一个简单的7B Llama 3模型则需要花费76万美元。
从论文中的公布细节可以得到它的训练成本估算:
以 H800 GPU 小时为单位。H800 GPU 的租赁价格假定为每小时 2 美元。
训练分为三个阶段:预训练、上下文扩展和后期训练:
预训练:使用了 2664K(266.4 万)GPU 小时,成本约为 532.8 万美元。
上下文扩展:使用了 119K(11.9 万)GPU 小时,成本约为 23.8 万美元。
后期训练:使用了 5K GPU 小时,成本约为 1,000 美元。
总成本:2788K(278.8 万)GPU 小时,总费用为 557.6 万美元。
比起动辄几百亿人民币都训练不出来一个好用的大模型,DeepSeek V3的训练简直颠覆了大家的想象。这里训练这么省钱当然主要是因为该模型原生就是FP8,还有在模型架构上做了一些优化导致模型训练成本很低。
训练成本是如何压制下来的?
Deepseek v3 整体来说是以极低的训练成本(600 万美元)和 API 使用成本超越了 GPT-4o 和 Claude Sonnet 3.5,尤其在编程和数学任务中表现优异。该模型采用了“混合专家”架构,并通过自生成数学证明数据集等创新方法训练。其开放的MIT协议许可模式允许商业使用,性价比极高。
从下面的图片可以看到,DeepSeek真的是又好又便宜。在效果步数GPT-4o的情况下, 每百万的tokens调用中成本几乎是最低的
那它到底是如何做到这么省钱的呢?本质上可以总结成下面三个技术:
使用了FP8进行原生训练
采用了多头潜在注意力(MLA)来实现高效推理
采用了高效的MOE架构
多头潜在注意力(MLA)是在传统多头注意力机制(Multi-Head Attention)的基础上,引入了潜在特征(Latent Features)概念,进一步提高了对复杂关系的建模能力。
也就是先把token的特征压缩成一个小维度的latent vector,然后再通过一些简单的变换把它扩展到各个头需要的Key和Value空间。对于一些重要的信息,比如旋转位置编码RoPE,会进行单独处理,这样网络仍然可以保留时间和位置的信息。
在MOE架构中,引入了路由专家 (Routed Experts) 和共享专家 (Shared Experts) 。主要是用来激活那些参数需要被更新。
路由专家中主要是用来选择参数进行激活。对于每个输入的token,只有一部分路由专家会被选中来参与计算。这个选择过程是由一个门控机制决定的,比如DeepSeekMoE中用的那种根据亲和度分数来选的Top-K方式。
而共享专家始终参与所有输入的处理。无论输入是什么,所有共享专家都会贡献它们的力量。
还用到了一个MTP(多个tokens预测)技术,MTP的核心理念在于训练时,模型不仅要预测下一个token(就像传统语言模型那样),还要同时预测序列后面的几个token。这样一来,模型就能获得更丰富的训练信息,有助于它更深入地理解上下文以及长距离的依赖关系。
通过上面几个简单的trick,就可以很好的训练出一个质量不出的大模型出来,并且能够和GPT-4o和Claude 3.5相媲美。这个工作给很多公司提供了新的思路。其高效的训练方法和较低的计算成本,可以给其他没有资源的公司借鉴一下,也验证了大规模的GPU集群不是训练大模型的必要条件。
DeepSeek R1推理大模型进一步火爆
DeepSeek R1也称为最近一个最为火爆全球的推理大模型。直接让OpenAI的CEO奥特曼都开始阴阳起来:
而且这两个模型的开源成绩基本都差不多,所以DeepSeek火爆全球不是没有道理:
写在最后
DeepSeek的突破标志着大模型训练从“高算力依赖”向“高效算法驱动”转变的开始。这种转变不仅降低了进入AI领域的技术门槛,还为中小型企业提供了参与人工智能创新的机会。未来,研发重点可能会从追求极限算力逐步转向优化模型架构、提高数据利用效率以及探索新的训练范式。
例如,利用DeepSeek的开源技术,小型团队可以通过优化现有数据集、采用高效的训练策略,在有限资源下训练出性能优越的专用模型。同时,低成本的训练方式还将促进AI在教育、医疗、农业等领域的普及和应用,为解决全球性问题提供强大助力。
此外,随着类似DeepSeek这样的技术逐步开放和完善,不仅会引发AI技术的“平民化”,还可能推动跨行业合作,形成以算法共享、资源互补为核心的新生态系统。这种开放与协作模式将进一步激发创新,使得AI技术的发展更加多元化和可持续。