客户端
游戏
无障碍

163

评论

151

346

手机看

微信扫一扫,随时随地看

同时登顶中美下载排行榜!DeepSeek凭啥超越GPT?看它自己怎么回答

AI划重点 · 全文约1900字,阅读需6分钟

1.浙产AI大模型DeepSeek应用登顶苹果美国地区应用商店免费App下载排行榜,力压OpenAI的ChatGPT。

2.同时,DeepSeek在中国区应用商店免费榜上也位居第一。

3.DeepSeek-V3以极低的算力和GPU芯片数量训练出性能超越GPT-4o的大模型,总训练成本仅557.6万美元。

4.除此之外,DeepSeek R1模型在后训练阶段大规模使用了强化学习技术,提升了模型推理能力。

5.DeepSeek团队规模不大,不到140人,但人才密度极高,成员多是来自顶尖高校的应届博士毕业生、在读生以及硕士生。

以上内容由腾讯混元大模型生成,仅供参考

潮新闻客户端 记者 屠晨昕

辞旧迎新之际,如旋风般席卷全球AI圈的浙产AI大模型DeepSeek,继续创造历史。

图片

图源:苹果美国区应用商店

1月27日,DeepSeek应用登顶苹果美国地区应用商店免费App下载排行榜,力压此前霸榜的OpenAI的ChatGPT,而排在第三名的是Meta旗下的Threads。

同日,苹果中国区应用商店免费榜显示,DeepSeek成为中国区第一。

图片

图源:苹果中国区应用商店

作为“神秘东方力量”的组成部分、“杭州科技六小龙”之一,国产大模型公司深度求索(DeepSeek)被认为是大模型行业的最大“黑马”。2024年底,其以极低的算力(仅为同行的1/11)和GPU芯片数量(2000个)训练出了性能超越GPT-4o的大模型DeepSeek-V3,总训练成本仅557.6万美元(GPT-4o约为7800万美元),被誉为“AI界的拼多多”。

图片

图源:DeepSeek官网

去年12月DeepSeek-V3发布后,轰动世界AI圈。不到一个月之后,今年1月20日,DeepSeek正式开源R1推理模型。

据DeepSeek介绍,其最新发布的模型DeepSeek-R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩OpenAI o1正式版。

低成本实现高性能模型研发,对用户来说的体验感也立竿见影——它功能强大,但却免费使用,并且DeepSeek还将代码面向开发者进行了开源。

图片

图源:北京日报客户端

据了解,DeepSeek R1没有使用业内普遍使用的监督微调(SFT)训练范式,而是直接通过强化学习让模型自主进化出复杂的推理能力,包括反思和长链思考等能力。这种方法不仅提高了训练效率,还减少了对昂贵计算资源的依赖。

1月24日,一条发布在teamblind平台上的帖子疯传。一名Meta员工称,现在Meta内部因为DeepSeek的模型,已进入恐慌模式。

这位Meta员工写道:“一切源于DeepSeek-V3的出现,它在基准测试中已经让Llama4相形见绌。更让人难堪的是,一家‘仅用550万美元训练预算的中国公司’就做到了这一点。工程师们正在争分夺秒地分析DeepSeek,试图复制其中的一切可能技术……当部门里一个高管的薪资就超过训练整个DeepSeek V3的成本,而且这样的高管还有数十位,他们该如何向高层交代?”

图片

图源:东方网

潮新闻记者在手机上下载了R1免费版本的DeepSeek应用,尝试着让它写一副蛇年春联,其中要包括“龙”与“蛇”。大约两三秒就给出了结果,有对仗的上下联和横批,还写了一段文字来解读这幅对联的寓意,十分周全。

图片

同时,记者增加难度,让它模仿贾谊的《过秦论》写一下隋朝,以《过隋论》为标题。不到一分钟,它就写了洋洋洒洒一大篇,按时间顺序,从隋文帝杨坚的开皇之治到隋炀帝杨广的倒行逆施导致隋朝二世而亡都写到了,条理清晰,观点鲜明。

图片

最后,记者问它“为什么能够在美国苹果免费应用下载榜上超越ChatGPT”,它给出的答案就有点泛泛而谈了,给人一种“车轱辘话”的感觉。

图片

1月26日,游戏科学创始人、CEO,《黑神话:悟空》制作人冯骥在微博上评价DeepSeek:可能是个国运级别的科技成果。

冯骥表示:“希望DeepSeek R1会让你对当前最先进的AI祛魅,让AI逐渐变成你生活中的水和电。太幸运了!太开心了!这样震撼的突破,来自一个纯粹的中国公司。知识与信息平权,至此又往前迈出了坚实的一步。”

图片

图源:冯骥微博账号

值得一提的是,1月20日,深度求索的创始人梁文锋参加了国务院总理李强主持召开的专家、企业家和教科文卫体等领域代表座谈会。

据东方网报道,梁文锋本科、研究生毕业于浙江大学,拥有信息与电子工程学系本科和硕士学位。2008年起,他开始带领团队使用机器学习等技术探索全自动量化交易。2023年7月,DeepSeek正式成立,进军通用人工智能领域,至今从未对外融资。

DeepSeek团队规模不大,不到 140 人,但 “人才密度” 极高,成员多是来自清华、北大、北航等顶尖高校的应届博士毕业生、在读生以及硕士生。值得一提的是,团队没有“海归”,完全本土人才。

图片

左一为梁文锋。图源:央视新闻截图

梁文锋秉持“看能力,不看经验”的理念,“选人的标准一直都是热爱和好奇心”,这吸引了大量年轻高潜人才,让众多 35 岁以下、工作经验不超五年的年轻人有充分的施展才华的舞台。

在团队管理上,梁文锋采用扁平化管理,淡化职级,鼓励自由讨论和创新,成员依兴趣选择研究方向并自由组队。当一个有潜力的构想出现时,公司会自上而下调配资源。而且,成员对资源和人员的调动不设上限,不存在层级和跨部门的限制,只要有想法,随时可以灵活调用。

梁文锋观点:

“我们创新缺的肯定不是资本,而是缺乏信心以及不知道怎么组织高密度的人才实现有效的创新。”

“对顶级人才吸引最大的,肯定是去解决世界上最难的问题。”

“创新不完全是商业驱动的,还需要好奇心和创造欲。”

“开源更像一个文化行为,而非商业行为。给予其实是一种额外的荣誉。一个公司这么做也会有文化的吸引力。”

(参考资料来源:北京日报客户端、东方网、大象新闻、红星新闻)

免责声明:本内容来自腾讯平台创作者,不代表腾讯新闻或腾讯网的观点和立场。
举报
评论 0文明上网理性发言,请遵守《新闻评论服务协议》
请先登录后发表评论~
查看全部0条评论
首页
刷新
反馈
顶部