客户端
游戏
无障碍

2

评论

12

12

手机看

微信扫一扫,随时随地看

小明有几个姐姐?通俗讲讲AI推理是什么,为啥最近这么火

AI划重点 · 全文约2743字,阅读需8分钟

1.AI推理是指通过已知信息进行新的结论思考,近期各大科技公司纷纷开发推理AI。

2.OpenAI的o1和o3模型、Anthropic的Claude、谷歌的Gemini 2.0 Flash Thinking实验版等都是大型推理模型。

3.然而,这些模型在解决复杂问题时仍存在不足,需要进一步的研究和优化。

4.DeepSeek采用开放态度,开源了R1模型的核心技术和训练过程,以推动相关研究的深入发展。

以上内容由腾讯混元大模型生成,仅供参考

(关注公众号设为🌟标,获取AI深度洞察)

图片

想一想这个简单的问题:小红有两个姐姐和一个兄弟。那么,她的兄弟小明有几个姐姐呢?

停下来想一想...答案是什么?

你可能会在脑海中想象一个家庭:三个女孩和一个男孩。然后很快就明白,作为家里唯一的男孩,小明实际上有三个姐姐(包括小红和她的两个姐姐)。

看起来很简单,对吧?但你刚才其实做了一件很厉害的事——推理!这不像记住"北京是中国首都"这样的事实,而是通过已知信息思考出新的结论。

有趣的是,即使现在最先进的人工智能,如GPT-4,在遇到这类需要推理的问题时仍然会犯错。研究者多次向最新版GPT-4提出这个问题,它却总是错误地回答"小明有两个姐姐"。

为什么看似简单的问题对AI来说这么难?为什么最近各大科技公司都在拼命开发所谓的"推理AI"?这篇文章将用通俗易懂的语言,带你了解AI推理的奥秘和它为何突然成为科技圈的焦点。。

虽然有些小技巧(如在问题后加上"让我们一步一步思考")可以帮助人工智能提高推理表现,但这些方法还远远不够完善,不能保证它们像人类一样稳定地进行有效推理。

大型推理模型

为了解决推理能力不足的问题,多家顶尖AI公司最近推出了一种新型系统,叫做"大型推理模型"(LRM)。这些模型专门接受了推理类任务的训练。主要产品包括:OpenAI的o1和o3模型、Anthropic的Claude"扩展思维模式"、谷歌的Gemini 2.0 Flash Thinking实验版,以及DeepSeek推出的R1模型。

当你向LRM提出像"小明有几个姐姐"这类逻辑题时,它会生成"思维链条"——用自然语言一步步展示推理过程。例如,OpenAI的o1模型会这样分析:

  • 小红有两个姐姐,所以这个家庭里共有三个女孩(小红和她的两个姐姐)
  • 她还有一个兄弟,名叫小明
  • 所以这个家庭一共有四个孩子:三个女孩,一个男孩(小明)
  • 对小明来说,小红和她的两个姐姐都是他的姐姐
  • 因此,小明有三个姐姐

这种过程就像人在"自言自语"地思考。实际上,o1和其他LRM的训练数据中包含了大量类似的"思维链条"示例。正是这种训练方式,使它们在科学、数学、编程等难题上表现突出。据OpenAI介绍,o1模型在美国数学奥赛预选中能排进全国前500名,在物理、生物、化学题目的准确率上甚至超过了博士级科研人员。其他公司的LRM也取得了类似成绩。

一些公司正把LRM作为商业AI助手的核心功能。比如,OpenAI已将最强大的LRM和配套的"深度研究"工具提供给每月支付200美元的高级用户,据说还考虑推出每月收费高达2万美元的"博士级"推理服务。

不过,也有学者对此持谨慎态度。他们质疑:这些模型真的在"思考"吗?还是只是模仿人类推理的样子?换句话说,这种"思维链条"训练,究竟是让模型真正学会了稳健、通用的推理能力,还是只是学会了在特定测试中看起来像会推理? 关于这些模型的构建原理:LRM通常是在已预训练好的"大语言模型"基础上构建的,比如GPT-4o。以深度求索为例,他们使用自研的预训练模型V3作为基础。AI模型的命名确实常让人摸不着头脑。这些基础模型通过学习海量人类文本,训练目标是预测文本中的下一个词或词的一部分。

思维链条展示

基础模型完成初步训练后,还会进行"后训练",也就是进一步优化模型的能力。这个阶段主要是让模型学会如何生成完整的"思维链条"。

想象一下:普通语言模型(如GPT-4o)就像一个只会直接给答案的学生,而LRM则像一个会在草稿纸上写下详细解题步骤的学生。就像我们在解一道复杂的数学题时,会先在草稿纸上列出几个步骤,再得出最终答案。

这些"思维链条"有时非常长,就像我们解决一个难题时可能要写满好几页草稿纸。由于AI的计算成本通常按文字量计算,这种方式的成本很高。

举个生活例子:如果普通AI像是直接告诉你去北京最快的路线,那么LRM就像是一位导航软件,它会在后台计算多条路线,考虑各种因素(拥堵情况、路况、距离等),最后才推荐最优选择,而用户只看到最终建议。

为了训练这种能力,LRM主要使用两种方法:

  • 1、监督学习:就像老师手把手教学生解题。比如请专家写出解题步骤,然后训练AI模仿这些步骤。这就像家长教孩子洗衣服时,会一步步示范:先分类、再加洗衣粉、设定温度等。

  • 2、强化学习:不直接告诉AI怎么做,而是通过奖励机制引导它。这就像训练宠物狗:它做对了就给零食奖励,做错了就不奖励,久而久之它就明白该怎么做了。对AI来说,只有当它通过自己的推理得出正确答案时才会获得"奖励"。

有趣的是,DeepSeek证明仅用强化学习就能训练出推理能力很强的模型。这就像不用专门教孩子怎么玩积木,只要在他搭出漂亮作品时给予表扬,孩子自己就能探索出各种技巧。

正是因为更多使用强化学习而非昂贵的监督学习,深度求索才能以较低成本开发自己的推理模型。这就像一家餐厅找到了既美味又经济的食材替代品,既保证了菜品品质,又控制了成本。

AI真的会推理吗?

在AI领域,专家们一直在讨论一个核心问题:这些新型推理模型是真的在"思考",还是只是在模仿人类的推理过程?有人称o1是"第一个拥有通用推理能力的模型",但也有不少人持保留态度。有些哲学家认为,这些模型的思维链条更像是一种"模仿秀"——它们只是在复制人类思考的表面形式,而不是真正拥有解决问题的能力。

我们可以打个比方:想象一个从未学过厨艺的人,只是通过观看大量烹饪视频,学会了模仿厨师的动作和语言。他可能会像专业厨师一样说"我们先将食材切成丁","现在加入适量的盐调味",但这并不意味着他真正理解烹饪的原理。同样,AI模型可能会生成看起来很合理的推理步骤,但它是否真正"理解"这些步骤呢?

首先,我们需要问:"真正的推理"是什么?这就像问"什么是真正的驾驶技术"—有人依靠经验和直觉,有人则严格遵循驾驶手册的每一条规则。人类解决问题时会用到记忆、经验法则、类比或逻辑推导等多种方法。

而这些AI模型的"推理"似乎变成了"写出一段听起来合理的解题过程"。这就像一个学生可能写出很完美的解题步骤,却不一定真正理解其中的原理。这些模型在标准考试中表现确实很好,但这些考试通常有标准答案。现实世界中的复杂问题,比如"如何应对气候变化"或"如何建立太空基地",往往没有标准解法。 此外,虽然这些模型的推理过程被称为"人类可读",但这些语言化的"思考"是否真的反映了模型内部的实际计算过程?这就像汽车导航给你规划路线—你看到的是简洁的指示,而背后却是复杂的计算过程。有研究发现,AI生成的"解释"很多时候只是表象,并不代表它们实际的"思维"过程。

更值得警惕的是,这些模型使用的拟人化语言可能让人错误地信任它们。它们会说"我在思考",还会加入"嗯..."、"啊哈!"等模仿人类思维的表达。这就像一个销售员穿着专业西装、说着专业术语,就容易让人相信他的建议,即使这些建议可能不完全正确。

评估这些模型的实际能力并不容易,因为大多数公司既不开放模型,也很少公布技术细节。这就像餐厅不告诉你菜品的完整配方和烹饪过程,你很难判断食物的真实质量。

值得一提的是,DeepSeek采取了更开放的态度。他们不仅开源了R1模型的核心技术,还公布了详细的训练过程,并允许用户完整查看模型的推理过程。这种开放态度将有助于推动相关研究的深入发展,就像一家餐厅公开自己的菜谱和烹饪过程,让顾客能更全面地了解和评价他们的菜品。

【往期回顾】

参考资料:https://www.science.org/doi/10.1126/science.adw5211

来源:官方媒体/网络新闻

编辑:深思

主编: 图灵

免责声明:本内容来自腾讯平台创作者,不代表腾讯新闻或腾讯网的观点和立场。
举报
评论 0文明上网理性发言,请遵守《新闻评论服务协议》
请先登录后发表评论~
查看全部0条评论
首页
刷新
反馈
顶部