1.人工智能巨头如OpenAI、微软公司和Meta等正转向“蒸馏”过程,以创建更便宜的AI模型供消费者和企业使用。
2.DeepSeek公司利用“蒸馏”技术,在竞争对手Meta和阿里巴巴发布的开源系统基础上构建了强大高效的AI模型。
3.由于“蒸馏”技术,开发人员和企业能以低廉的价格使用大型模型的功能,使应用程序开发者能够在笔记本电脑和智能手机等设备上快速运行AI模型。
4.然而,尽管“蒸馏”技术可用来构建高性能模型,但这些模型的局限性较大,如专门擅长总结电子邮件,但不擅长其他任务。
5.与此同时,开源模型技术对于初创公司来说是一个胜利,因为它们可以从中获益,只要这些过程是开放的。
以上内容由腾讯混元大模型生成,仅供参考
参考消息网3月6日报道 据英国《金融时报》网站3月2日报道,美国开放人工智能研究中心(OpenAI)、微软公司和元宇宙平台公司(Meta)等领先的人工智能(AI)公司正在全球竞争中转向一种被称为“蒸馏”的过程,以创建较便宜的AI模型供消费者和企业使用。
大模型训练小模型
由于中国的深度求索公司(DeepSeek)利用这项技术,在竞争对手Meta和阿里巴巴发布的开源系统基础上构建了强大高效的AI模型,该技术引起了广泛关注。这一突破动摇了人们对硅谷在AI领域领导地位的信心,导致华尔街投资者把美国大型科技公司的市值抹去了数十亿美元。
通过“蒸馏”,AI公司使用一个大型语言模型(被称为“教师”模型)生成数据,然后用来训练较小的“学生”模型,帮助将大模型的知识和预测结果快速传递给较小的模型。
尽管“蒸馏”技术已被广泛使用多年,但最近的进展使行业专家相信,这一过程将越来越多地为寻求以具有成本效益的方式在该技术基础上构建应用程序的初创公司带来福音。
OpenAI平台的产品主管奥利维耶·戈德芒说:“‘蒸馏’技术非常神奇,这个过程本质上是采用一个非常大的智慧前沿模型,用该模型来训练一个较小的模型……在执行特定任务时非常能干,成本极低、速度极快。”
大型语言模型(比如OpenAI的GPT-4、谷歌的“双子座”和Meta的Llama)需要大量的数据和算力来开发和维护。尽管这些公司没有透露训练大型模型所需成本的确切数字,但很可能高达数亿美元。
由于有了“蒸馏”技术,开发人员和企业能以低廉的价格使用这些大型模型的功能,从而使应用程序开发者能够在笔记本电脑和智能手机等设备上快速运行AI模型。
开发者可以使用OpenAI的平台进行“蒸馏”,从支撑ChatGPT等产品的大型语言模型中学习。OpenAI最大的支持者微软利用GPT-4“蒸馏”得到名为“Phi”的系列小型语言模型,这是在微软向OpenAI投资近140亿美元后双方商业合作伙伴关系的一部分。
“蒸馏”模型有局限性
虽然“蒸馏”技术可用来构建高性能模型,但专家们补充说,这些模型的局限性较大。
微软研究院的艾哈迈德·阿瓦达拉表示:“‘蒸馏’技术是一种有意思的权衡。如果你把模型做得较小,就不可避免地会降低它们的能力。”他说,比如说,一个“蒸馏”模型可以被设计成非常擅长总结电子邮件,“但它不会擅长做其他任何事情”。
IBM研究院负责AI模型的副总裁戴维·考克斯表示,大多数企业不需要一个庞大的模型来运行它们的产品,“蒸馏”模型足够强大,可用于客户服务聊天机器人或在手机等小型设备上运行等目的。
他还说:“只要你能(让它变得便宜),并且它会给你想要的性能,没有什么理由不去这么做。”
这对一流AI公司的商业模式构成了挑战。即使开发人员使用来自OpenAI等公司的“蒸馏”模型,这些模型的运行成本要低得多,创建成本也不太昂贵,因此产生的营收也较少。像OpenAI这样的模型制造商通常对使用“蒸馏”模型收取较少的费用,因为它们需要的计算负载较少。
不过,OpenAI的戈德芒认为,仍然需要大型语言模型来完成“高智能和高风险的任务”,因为“企业愿意为高度准确性和可靠性付出更多的钱”。他补充说,还需要大型模型来发现新的功能,然后可以将新功能“蒸馏”到较小的模型中。
为企业打造信息检索工具的初创公司情境人工智能公司首席执行官道韦·基拉说:“长期以来,OpenAI一直在努力防止‘蒸馏’,但很难完全避免这种情况。”
“蒸馏”技术对于开源模型的拥护者而言也是一个胜利,因为开源模型技术被免费提供给开发者。DeepSeek最新的模型也对开发者开放。
Meta首席AI科学家杨立昆表示:“我们将使用(‘蒸馏’)技术,并立即将其应用到我们的产品中。这就是开源的全部理念。你可以从每个人的进步中获益,只要这些过程是开放的。”(编译/马丹)