1.智谱AI发布AutoGLM沉思,一款无门槛、免费且人人可用的Agent产品,具有思考与执行能力。
2.CEO张鹏强调,未来的Agent应用形态将回归以模型为核心的结构,预训练大模型仍是大模型推理能力的天花板。
3.然而,张鹏认为预训练模型的重要性在于从易到难的过程,而不是无序地进行预训练。
4.为此,智谱AI将继续投入预训练模型研究,同时探索更有效的商业模式和服务模式。
5.除此之外,智谱AI坚持开源策略,认为模型即服务模式将真正落地,商业模式只是实现路径。
以上内容由腾讯混元大模型生成,仅供参考
腾讯科技《AI 未来指北》特约作者 晓静
编辑 郑可君
3月31日,智谱在2025中关村论坛上发布了AutoGLM沉思,它具有思考与执行能力,能像人类一样浏览网页、检索分析数据并生成报告。AutoGLM沉思基于智谱自研的GLM系列模型,包括推理模型GLM-Z1-Air和基座模型GLM-4-Air0414。
这是行业中第一个无门槛、免费,且人人可用的Agent产品。智谱AI CEO张鹏在发布会现场半开玩笑地说:“这个Agent不用39美元,免费而且不用邀请码。”
前段时间,通用Agent产品Manus曾掀起一股Agents的讨论热潮,但正是因为需要邀请码,大部分用户只能观望,无法真正体验。
这类产品设置邀请码,大概率是因 token消耗太大导致成本高企。根据The Information报道,Manus平均每完成一项任务的成本约为2美元。据其官网最新的信息,Manus入门级会员Manus Starter定价为每月39美元,用户可享受每月3900积分,最多同时运行2个任务。
那么,作为首家免费开放的Agent产品,智谱AI的成本是多少?为何它能让用户无限使用?
在发布会后,智谱AI CEO张鹏与媒体进行了小范围的深度交流活动。
他强调,“模型即场景,Manus的‘工程化’解决方案只是权宜之计,未来的Agent应用形态将回归以模型为核心的结构。
因高昂的成本和Scaling Law撞墙,预训练大模型的讨论度正在逐步减少。但张鹏认为,“预训练大模型”仍是大模型推理能力的天花板,智谱AI会一直坚持投入。
图注:智谱AI CEO张鹏
腾讯科技整理了张鹏在这次交流中的重要观点,包括模型发展方向、Agent技术、开源策略、商业化路径等关键问题:
Agent时代已来,永远是模型进,工程退
提问:智谱在Agent领域已经有一定布局,本次新产品的推出是否意味着公司在Agent战略方面的调整?未来公司在Agent的规划是什么样的?
张鹏:我们在Agent领域的布局很早,这源于智谱完整的AGI发展路线图:从L1预训练模型到L2对齐与推理能力,再到L3工具使用及Agent系统,每一步都是有序递进的。
今天的发布会并非战略方向的重大转变,而是Agent技术已经到了应用与落地的关键阶段。这与我们此前预判2025年将是Agent爆发之年的观点一致,也已成为行业共识。本质上,这是对我们Agent战略的强化。
图注:智谱AI AGI路线图
提问:Pleias的联合创始人Alexander Doria前段时间说,未来AI智能体的发展方向还得是模型本身,而不是工作流。他还举了Manus的例子,说是它的效果不理想,无法完成复杂的任务,你怎么理解?
张鹏:我非常同意Alexander Doria的总结。确实未来的新应用形态,尤其是智能体的应用形态,还是会回归到模型上。也是我们一直所倡导的模型即场景的概念,未来很多的应用会以模型为核心,包上一个很浅的或者很薄的产品化的壳就会变成一个产品。模型能力一旦提升产品能力就得到提升,这是很典型的新应用范式的变化。
但是也不可否认的是在当下AGI之路刚刚开始,模型的能力还无法达到完全类比人的水平。当下我们怎么把这些能力落到实际的应用当中去,这是工程上要解决的问题,因为技术的研究需要时间,还是遵循研究的规律。
所以,我理解中间的所有方法,包括Manus这种产品化、工程化的方法,它是权宜之计,我们折中式的解决方案。
永远是模型进,工程退。你的技术越先进,需要工程化的事情越简单。所以,终极的目标是当我造出一个像人一样聪明的脑子之后,工程上的事情就比较少,我只需要给它装上手和眼睛就像人一样可以完成很多工作,这是AGI的终极目标。
提问:智谱Agent在处理文本任务表现良好,但在复杂网页操作(如淘宝搜索)时常失败。这是否与中国互联网发展特点有关,我们的移动互联网生态更发达,网页的设计并没有那么完美?这会限制AI能力发展吗?大语言模型作为Agent底座有固有局限,如幻觉问题,且错误可能在推理过程中被放大。你认为好用的Agent必须基于大语言模型吗?
张鹏:我对这两个问题的回答都是“否”。
首先第一个并不是因为网页本身设计不好这件事情,我们叫“点儿背不能怪社会”。大部分“人类”都可以用,为什么Agent不能用呢?我们更多思考的是这个问题。
当前的通用Agent的产品,想要落地,要遵循木桶原理,不能有明显的缺项。
为什么Agents会发生找不到输入框的问题?有几个可能,第一个可能是视觉理解能力不如人,泛化能力不够,最终归结为它基础能力的某一个缺项。
Agent要真正有价值,必须全面发展而不能有短板。文本处理、思考、操作、环境理解、工具应用和反复尝试等能力缺一不可,任何明显短板都会导致实用价值大幅下降。 所以我们一直坚持所有类型的模型我们都会做,包括语言的、多模态的Agent。
我觉得很重要的一点,你不能怪外面的环境,我们反过来还是要看技术本身发展的缺陷在哪里。
第二个问题,对于Agent来讲它的底座模型是什么呢?你可以理解为就是类比人的大脑,大脑的能力是多样化的,除了思考和推理的能力以外,还会有感知,视觉、听觉和其他的能力,这些能力都达到一定水平线以上它才会完成一些基本的任务。
所以未来的底座是什么?我们看到AutoGLM是一个产品,背后的模型,今天我们强调的是推理模型。但实际上智能体的所有模型,包括视觉理解,所有的这些东西都已经在这里了。
反过来讲,这是智谱的优势,不需要东拉西借Agent需要的各种能力,再把它缝合起来。智谱本身的体系就是完备的,而且各项必备能力都在平均水平线以上,所以最早激发了Agent的能力。
提问:你认为下一代Agent的核心能力是什么?
张鹏:刚才张钹院士总结过程中也提到了,Agent的核心能力无非是两种:第一个是模型本身,包括底层的语言能力、多模态能力和推理能力。第二点就是感知环境和环境智能交互,也就是Agent强调的沟通交流的能力。这两点我认为是智能体能够在应用层面爆发,能够落地产生实际效果的两个核心价值。
提问:在我们专业的工作场景当中,如果Agent想要达到可用,有一个很大的问题是需要打通公域和私域之间的数据壁垒。否则就像Manus一样,当需要登录某些网盘时,会被系统拦截。目前智谱有什么好的解决方法?
张鹏:针对专业领域或者企业用户,或者有一些限制条件的用户,其实有一套功能化的解决方案。
这一套方案会更多的把它沉淀在未来的智能体开发平台上,让开发者、企业用户更好的去借助这些基础能力,把这些资源再接入进来,这是产品功能上的事,不是模型层面的问题。
你刚才说的比如说登陆网盘等等这些额外产品的操作,本质上还是回答那个问题一样,聪明程度还不像人类,为什么人不会被封?如果真的通过图灵测试一样,真的和人区分不出来,我相信现在的封禁和拦截策略也很难做的到。
提问:所以是技术问题,不是平台之间商业的问题?
张鹏:接入更多的数据源,这个是工程技术问题。能直接被识别出“这是AI,而不是真人”这件事情是模型问题。
我们应该把这两个问题分开来看,但是就像第一个问题的答案一样,模型能力进,工程能力退,有这样一个平衡的过程,它是动态变化的。
提问:未来Agent会有更多的硬件端的入口,比如机器人、眼镜,要调用这些入口的话,还有哪些挑战?
张鹏:其实这个事情我们已经在做了。AutoGLM更早是手机端,今天只不过是把它移到PC上。其他智能硬件,比如眼镜、车上、平板上等端侧都类似,都可以接入。
但是里面确实有一些问题,不同类型的设备,最终的交互方式不一样,比如说眼镜不可能有键盘,就得用语音交互,语音就引入了全新的模态。
但是,如果产品里有明显的短板,这个事情就成不了。
所以,大家不能忽视这个问题。当前阶段,接入Agent远非简单地“插入芯片、接入现成的SDK”那么容易,这种'即插即用'的便捷性仍是未来愿景,当下还无法实现。
反共识:预训练仍然很重要
提问:现在行业很少提预训练了,智谱如何看待预训练模型?推理模型,从能力提升的性价比和用户端感知更好。你觉得推理模型的能力天花板在哪里?主要使用场景在哪里?
张鹏:两个问题分开讲,第一个问题是对预训练这事情,我坚持的反共识的点在于预训练仍然很重要。预训练虽然现在关注度不那么高,但是后面的RL或者其它各种方法,本质上还是依赖预训练所带来的基座模型天花板,也是在深度的更大的程度挖掘和逼近这个天花板。
但是预训练仍然很重要,但是,是不是需要从易到难的过程,还是无序的进行预训练?这里面还有很多问题需要去研究。 这一点上,大家的关注度反而没有那么高。
当某一项技术进入到所谓的稳定发展期之后,大家的注意力会转移到所谓的下一个爆发期上,这个是很正常的事情。但是处于爆发期的技术,后面也会回到稳定发展的节奏。
目前来看,推理模型或者推理能力在更多的泛用性任务上表现并不及预期,它也是随着我们研究的进展改变的。
最早的推理模型只能解数学、物理这种有明确标准答案反馈的任务。后来RL也证明,当RL的奖励方式或优化策略有一定调整之后,它也可以在其它开放问题上,比如文字生成的问题上表现不错。
所以,每一个技术上的改进,在原来的路径上会产生新的可能性。我们就是在不断的探索这个可能性。
作为基座模型厂商,预训练是我们一定会坚持的事情。
提问:你刚才提到现在还在坚持预训练模型,其实现在很多企业已经放弃了。现阶段公司在技术和商业化层面,资源和人员是怎么分配的?
张鹏:这是战略层面的问题,我们把自己定位成技术驱动的公司,另外一条腿是我们的商业化路径。这两条腿并不是互相矛盾的,也不是互相争抢资源的,我们是动态调整的过程。单纯从数字上而言,我们在技术研发和创新上的投入更高。
DeepSeek爆发之后,大模型企业如何调整生态位?
提问:智谱AI年初又有新融资,这些钱要花到哪里?
张鹏:我们判断实现AGI的路程还很长,需要很多技术的探索和研究的投入,这个过程的成本是非常可观的。
而且到了今天,从0到1的开拓和1到10的复制,这两者之间的成本完全不可同日而语。
创新探索的试错成本相对会增高,这是不可避免的。我们对外一直有一句话是,不管我们融了多少钱,拿了多少收益,其实都是AGI道路上盘缠。
提问:您刚刚提到今天发布的模型在4月14日开源,开源不会影响商业化落地吗?
张鹏:智谱从一开始就坚持开源,考虑到DeepSeek发布后对技术生态的影响,所以更强调开源,把2025年定为开源年,包括开放高性能产品和模型。
商业策略和服务模式已相应调整。我们认为"模型即服务"模式将真正落地,更突出基础设施特征。用户面临的主要问题不是获取模型,而是如何有效使用模型。
作为模型提供方,创新业务落地需要与用户共同磨合。在这个背景下,开源与否、免费与否已非关键问题。无论开源还是闭源,目标都是加速大模型落地应用并创造价值,商业模式只是实现路径,会根据情况调整。
提问:DeepSeek发布了能力强大的开源模型,给大模型的产业生态带来了很大的变化。面对这一竞争格局,在未来的大模型产业竞争中,智谱AI将如何布局?
张鹏:开源是必须要做的一件事情,而且是我们一直坚持做的事情。DeepSeek主要是在商业化市场上有一些影响,比如说市场可能认为开源免费的模型就可以节省投入。
但是历史经验表明,包括像MySQL也好,还有RedHat,其实已经证明了开源并不等于完全免费,还有自己后期技术人员的投入、维护的成本,包括探索怎么把DeepSeek做本地化等等,成本一点都不低。当然未来的使用情况我们不知道,当前的情况是大家清醒过来了,开源免费并不等于真的免费,这件事情是大家有共识的。