1.AI代理技术近期成为关注焦点,但许多人对其本质、能力和局限存在误解。
2.Anthropic团队在对话中分享了他们对AI代理的专业见解和前沿思考,强调代理技术在编码、搜索等领域具有价值,但在消费级应用方面仍面临挑战。
3.目前,AI代理的主要局限包括难以完整理解用户偏好、缺乏持续学习能力,以及在高风险决策中的可靠性问题。
4.为此,评估代理时应从简单任务开始,有明确的成功标准,选择错误成本低但价值高的应用场景,并站在模型视角思考,提供清晰指令。
5.最后,应构建和使用那些"能随着模型变得更聪明而变得更好"的产品和服务,拥抱而非抵抗AI能力的进步。
以上内容由腾讯混元大模型生成,仅供参考
(关注公众号设为🌟标,获取AI深度洞察)
近期,因Manus AI的横空出世而掀起一股"AI代理"(Agent)热潮。这款以"自主完成复杂任务"为卖点的产品,通过稀缺营销迅速引发关注,也让"AI代理"这一概念再次走入大众视野。然而,在热闹背后,许多人对AI代理的本质、能力和局限存在诸多误解:它们到底能做什么?不能做什么?与普通AI有何不同?
在这股代理热潮中,Anthropic(Claude背后的公司)近期发布的一段核心团队对话视频显得尤为及时和有价值。在这场由Alex Albert主持,邀请研究团队的Erik Schluntz和应用AI团队的Barry Zhang参与的讨论中,三位专家分享了他们对AI代理的专业见解和前沿思考。
尽管Manus AI的热度正随时间消退,但对AI代理技术的思考和探索才刚刚开始。对于用户、开发者和企业决策者来说,理解AI代理的本质、适用场景和发展趋势至关重要,这不仅关系到如何有效利用当前技术,也影响着未来技术投资和应用方向的选择。
接下来,让我们通过Anthropic专家的专业分析,共同探索AI代理技术的真相与未来。在这个技术与营销声浪交织的领域,这些来自行业一线的观点将为我们提供难得的清晰视角。
一、什么是AI代理
在AI热潮中,"代理"(Agent)这个词被到处使用,但很多人并不真正理解它的含义。那么,什么才是真正的AI代理?它和我们常见的AI应用有什么不同?
代理vs工作流:关键区别在于自主决策能力
想象一下厨房里的两种场景:
场景一(工作流workflow): 你按照菜谱一步步做菜。第一步切菜,第二步放油,第三步炒菜...每一步都是预先定好的,按部就班地执行。
场景二(代理 agent): 你告诉一个会做饭的人"做一道可口的晚餐",他会根据冰箱里有什么材料,自己决定做什么菜,如何烹饪,需要走多少步骤才能完成。
正如Erik在对话中说的:
"我们认为的代理是让LLM自己决定运行多少次。它会持续循环直到找到解决方案。"
简单说,工作流就像是固定的生产线,每个步骤都是预先设计好的;而代理则像是有自主思考能力的助手,可以根据情况自己决定怎么做、做多久。
为什么代理被混淆
现在市面上许多产品都称自己为"AI代理",这造成了很大混淆。Barry解释道:"随着模型的改进...我们开始看到两种不同的模式:一种是由代码预先编排的工作流,另一种是代理,它在某种程度上更简单,但在其他方面更复杂。"
就像市场上很多食品都标榜"纯天然"一样,"AI代理"这个词被过度使用,导致人们难以区分真正的代理和普通的AI应用。
AI代理的简单定义
归根结底,真正的AI代理有两个关键特点:
1、能自己做决定:不需要人类告诉它每一步该做什么;
2、会一直工作到完成任务:运行次数不是预先固定的,而是根据需要自动调整;
Erik用生活中的例子解释了这种差别:"代理的提示会更加开放,通常会给模型工具或多个检查项,说:'嘿,这是问题,你可以进行网络搜索,或者编辑这些代码文件,或者运行代码,并持续这样做直到你有答案。'"
想象你对助手说:"帮我预订一次旅行"。如果是工作流,你可能需要指定每一步:"先查航班,然后找酒店,再看景点";而真正的代理则只需一个指令,它会自己决定如何完成整个预订过程。
这就是为什么 AI agent ——它承诺可以自主完成复杂任务,而不需要人类的步步指导。但正如我们接下来要讨论的,这种自主能力虽然令人印象深刻,但也有它的局限和适用场景。
三、Agent的应用场景
当我们理解了什么是AI代理后,自然想知道:它们最适合做什么?在现实世界中,AI代理能解决哪些实际问题?Anthropic团队分享了他们在与客户合作中观察到的成功案例和关键洞见。
最适合Agent的任务特征
在选择使用AI代理的场景时,Barry提出了一个非常实用的标准:"我认为代理最适合的场景是那些既复杂又有价值的任务,但失败后的风险较低或监控成本不高的任务。这是代理应用的理想交叉点。"
这句话道出了AI代理应用的核心原则。简单来说,最适合代理的任务应该是:
1、足够复杂:简单任务用代理可能是"杀鸡用牛刀";
2、有一定价值:值得投入资源去自动化;
3、容错性高:即使代理偶尔出错,也不会造成严重后果;
举个生活中的例子:你可能会让AI代理帮你筛选邮件或整理文档,因为即使它偶尔分类错误,后果也不严重。但你可能不会让AI代理直接操作你的银行账户进行大额转账,因为错误成本太高。
两个应用领域:编码与搜索
在众多可能的应用场景中,两个目前最成功的领域:编码和搜索。
关于搜索应用,Barry解释道:"以搜索为例,这是一个非常有价值的任务。进行深入的迭代搜索非常困难,但你总是可以用一些精度换取召回率,然后获得比需要更多的文档或信息,然后过滤下来。所以我们在代理搜索方面看到了很多成功。"
这意味着代理可以进行多轮、深入的信息检索,不断调整搜索策略,最终找到用户真正需要的信息,而不仅仅是关键词匹配的结果。
对于编码应用,Erik展示了极大的热情:
Erik: "编码代理我认为非常令人兴奋,因为它们是可验证的,至少部分是。你知道,代码有一个很好的特性,你可以为它编写测试,然后编辑代码,测试要么通过要么不通过。"
如果代理可以帮助程序员写代码、找bug、优化性能,甚至自动根据需求生成完整的程序。虽然这不会取代程序员,但可以显著提高他们的工作效率。
为什么编码和搜索特别适合AI代理?
Erik点出了关键原因:如果每次它再次运行测试,它看到错误或输出是什么,这让我认为,模型可以通过获得这种反馈来收敛到正确的答案。如果你没有某种机制在迭代时获得反馈,你就没有注入更多的信号,你只会有噪音。所以没有这样的机制,代理就没有理由收敛到正确的答案。
这里的核心是反馈机制。成功的代理应用需要一种方式来验证结果是否正确,并据此改进。
在编码中,测试用例提供了明确的反馈:代码要么通过测试,要么失败;
在搜索中,结果的相关性可以通过多种方式评估,代理可以不断调整查询直到找到满意答案;
对于我们用户而言,这意味着什么?简单说,当我们考虑使用AI代理时,应该优先考虑那些:
1、任务复杂但错误不会造成严重后果的场景;
2、存在某种方式可以验证结果好坏的场景;
3、代理可以通过多次尝试逐渐改进的场景;
比如,你可以放心让AI代理帮你写邮件草稿(你可以审核后再发送),或者帮你整理照片和文件(错误可以轻松纠正)。但可能不适合让它直接执行重要的财务决策或医疗诊断等高风险任务。
四、被过度炒作的代理能力
在国内AI圈,Manus AI的突然走红引发了对AI代理能力的热烈讨论。但正如在讨论指出的,目前关于代理的某些能力被过度炒作了,特别是在消费者应用领域。让我们透过Manus AI热潮,冷静分析AI代理当前的实际局限。
消费者型代理目前的局限
Erik在讨论中提出了一个直白但深刻的观点:我觉得消费者代理目前被过度炒作了。因为我认为,我们谈到了可验证性。我认为对于很多消费者任务来说,完整地指定你的偏好和任务是什么几乎和自己去做一样费力,而且验证的成本很高。他用旅行规划作为例子:
"所以试图让一个代理为你完全预订一个假期,描述你到底想要什么样的假期和你的偏好,几乎和自己去预订一样困难。而且风险很高。你不希望代理在你没有先接受的情况下就去订飞机票。"
这一点非常关键。想象一下,如果你要求AI代理帮你规划一次"完美的旅行",你需要详细说明你的预算、时间、喜好的酒店类型、餐饮偏好、想要的活动类型等等。这个描述过程可能比你自己去规划还要费劲!而且,如果AI代理做出的选择不符合你的预期,你还需要重新指导它,这又是一轮费时的交流。
代理缺乏上下文理解能力
Alex在对话中提出了一个重要问题:这是否也是我们在这里遗漏的上下文问题,模型能够推断出关于某人的这些信息,而不必明确地去询问并随着时间的推移学习偏好。Erik对此的回应则是很实际,他说:所以我认为这些事情会实现,但首先你需要建立这种上下文,以便模型已经知道你在这些事情上的偏好,我认为这需要时间。
他们问答中揭示了当前代理技术的核心挑战之一:缺乏持续的上下文理解和学习能力。目前的AI代理每次都是"从零开始"理解用户,缺乏真正的个性化记忆系统,无法像人类助手那样随着时间逐渐了解你的喜好。这意味着如果像Manus AI这样的代理可能需要用户反复输入相同的偏好信息,而不能"记住"你过去的选择和反馈。
AI代理热潮背后的冷思考
虽然Anthropic的专家们没有直接讨论Manus AI,但他们的观点可以帮助我们理解这种热潮现象。Erik指出:
"我觉得我最好的建议是,确保你有办法衡量你的结果。因为我见过很多人会在真空中构建,没有任何方法来获得关于他们的构建是否有效的反馈。你最终可能会构建很多东西,而没有意识到要么它不起作用,要么也许更简单的东西其实也能做得一样好。"
这一观点提醒我们思考:AI代理的邀请制是否部分是一种营销策略?限量提供不仅制造了稀缺感,还可能在某种程度上避免了大规模测试可能暴露的问题。南华早报报道中提到的"服务器容量有限"的解释,也让人联想到这可能是一种控制用户期望的方式。毕竟,如果产品确实如宣传的那样强大,为什么不扩大服务器容量以满足需求呢?
Barry的建议很中肯:"尽可能从最简单开始,并在你构建更多复杂性时有可衡量的结果。" 所以对于像Manus AI这样的新兴代理产品,我们应该有实际的评估标准,而不仅仅依赖营销宣传或社交媒体上的讨论热度。
在这种热潮中,我们需要思考的问题包括:这款代理在实际使用中的成功率如何?它能否真正理解复杂指令?它在哪些具体任务上表现优异,哪些任务上仍有不足?这些都是比邀请码"一码难求"更值得关注的实质性问题。
五、构建代理实用指南
Anthropic的专家团队在对话中分享了他们从实践中总结出的关键经验。这些经验对于开发者和AI爱好者来说极为宝贵,能帮助他们了解如何构建真正有效的AI代理。这些建议不仅适用于专业开发者,也能帮助用户更好地理解和使用AI代理。
站在模型视角思考
Barry分享了一个非常生动的故事,展示了"站在模型视角思考"的重要性:
Barry: "整整一周,我和另一个工程师都在盯着代理的轨迹,对我们来说是反直觉的,我们不确定模型为什么会做出这样的决定,给定我们给它的指令。所以我们决定要像Claude一样,置身于那个环境中。我们会做这个很傻的事情,闭上眼睛一整分钟,然后对着屏幕眨眼一秒钟,再闭上眼睛,想:'我必须写Python代码在这个环境中操作,我会怎么做?'突然间,这就更有意义了。"
这个故事生动地说明了开发者需要培养对AI模型的"同理心",理解它们如何"看待"世界。与人类不同,AI模型没有我们习以为常的背景知识和常识理解,它们只能依靠提供给它们的信息做出决策。
Alex总结了这一点:对开发者的一个建议是,几乎要表现得好像你是通过模型的视角来看待事物,比如,'好吧,这里最适用的指令是什么?模型如何看待世界?'
这种思维方式对于有效使用代理至关重要。当你发现AI代理不按预期工作时,不要立即假设它"不够聪明",而是考虑你是否给了它所有必要的上下文和明确的指令。
基于可衡量结果
当被问及给开发者的建议时,Erik强调了可衡量性的重要性:他觉得最好的建议是,确保你有办法衡量你的结果。因为他见过很多人会在真空中构建,没有任何方法来获得关于他们的构建是否有效的反馈。你最终可能会构建很多东西,而没有意识到要么它不起作用,要么也许更简单的东西其实也能做得一样好。"Barry也认为尽可能从最简单开始,并在你构建更多复杂性时有可衡量的结果。
当我们尝试使用像AI代理时,先从简单任务开始,逐步了解它的能力和局限,而不是一开始就期待它能完成非常复杂的任务。
提示词同样重要
Erik指出了一个常见的误区:开发者往往只关注主要提示,而忽略了工具描述的重要性:
"是的,实际上,非常相似,我认为很多人真的忘记了这一点。也许我见过的最有趣的事情是,人们会花很多精力创建这些非常漂亮、详细的提示,然后他们给模型的工具是非常简陋的,没有文档,参数命名为A和B。就像,工程师都无法使用这个,就好像这是他们必须使用的函数。因为没有文档,你怎么能指望Claude也能使用它?"
这一观察揭示了AI代理开发中的一个关键概念:完整提示工程。代理需要清晰理解它可以使用的工具和这些工具的功能,就像人类需要良好的文档来使用新软件一样。
Alex总结道:"是的,我注意到了。人们忘记了这一切都是同一个提示的一部分。就像,所有的东西都被输入到同一个提示的上下文窗口中,写一个好的工具描述也会影响提示的其他部分。"
因此,我们不仅要清晰地表达你的目标,还要提供给代理足够的上下文和具体信息,帮助代理理解如何最好地完成任务。例如,如果你要求AI代理帮你创建一个网站,不仅要说明你想要的网站类型,还应该提供关于目标受众、核心功能、设计偏好等具体信息,就像你会向人类网站设计师解释一样。
六、代理技术的未来
AI代理技术正处于快速发展阶段,但它的未来会怎样?
多代理环境:代理间交互带来的可能性
Barry提出了一个令人兴奋的未来场景——多个AI代理协同工作的环境。他分享道:"我一直对多代理环境会是什么样子非常感兴趣。我建立了一个环境,一群Claudes可以启动其他Claudes并一起玩狼人游戏。"狼人游戏是一个社交推理游戏,所有玩家都试图弄清楚彼此的角色,类似于黑手党游戏,完全基于文本,非常适合Claude这样的AI模型参与。
这种多代理系统的概念令人着迷。想象不同的AI代理各自承担特定角色并协作完成复杂任务:一个负责收集信息,另一个分析数据,第三个撰写报告。这种协作模式可能会显著扩展AI系统的能力边界。
Barry预测:"就像我们从单个LLM到多LLM一样,我认为到今年年底,我们可能会看到从代理到多代理的转变。"不过,他也坦言当前多代理系统在实际应用中尚不成熟:"在生产中,我们甚至还没有看到很多成功的单个代理。
企业应用前景:2025年企业采用代理的预测
Erik对2025年代理技术的预测更加务实,他认为企业将是代理技术最先大规模应用的领域。在2025年,我们会看到很多企业采用代理,开始自动化很多重复性任务,并真正扩展很多以前人们想做更多但太昂贵的事情。你现在可以做比以前多10倍或100倍的事情。
他举了一个具体例子:
"我在想,比如,每个拉取请求都会触发一个编码代理来更新你的所有文档。以前做这些事情在成本上是不切实际的。但一旦你把代理看作是几乎免费的,你就可以开始在各处添加这些花里胡哨的东西。"
这一预测非常有价值。它提示我们,代理技术的第一波真正落地可能不是那些看起来非常炫酷的消费级应用,而是那些能够大幅提高企业运营效率的"幕后"应用。这些应用可能不那么引人注目,但能够创造实际的商业价值:自动化文档更新、代码审查、客户支持分流、数据分析报告生成等等。
产品构建指南:拥抱而非抵抗模型进步
关于如何在代理技术快速发展的环境中构建产品,Alex提出了一个深刻的观点。他认为企业应该为模型能力的提升而兴奋,而非担忧。"如果你看着你的初创公司或产品,想着'如果模型变得更聪明,我们所有的护城河都会消失',那意味着你在构建错误的东西。相反,你应该构建一些让产品随着模型变得更聪明而变得越来越好的东西。
这一观点对所有关注AI技术的人都至关重要。AI模型的能力将持续提升,与其担心这会让产品或技能变得过时,不如思考如何利用这种进步来增强产品或能力。
Barry也表达了类似看法,他认为现在是开始思考代理领域的好时机,"只是为了更好地理解这种能力"。尽管我们还不确定代理的最终用例会是什么,但提前锻炼这方面的思维肌肉将会很有价值。
对企业和开发者而言,这意味着应该构建那些能够利用不断增强的AI能力的产品和服务,而非与AI竞争或可能被AI取代的产品。对普通用户而言,这提醒我们应学习如何有效地使用和指导AI工具,而非担心它们会取代我们的工作。人机协作能力可能是未来最有价值的技能之一。
七、看待AI代理热潮
AI代理技术既有巨大潜力,也有明显局限。
正如Anthropic专家团队所强调的,代理在编码、搜索等领域展现了价值,但在消费级应用方面仍面临挑战。
当前的主要局限包括:难以完整理解用户偏好、缺乏持续学习能力,以及在高风险决策中的可靠性问题。
在评估代理时,我们应该:
从简单任务开始,有明确的成功标准; 选择错误成本低但价值高的应用场景; 站在模型视角思考,提供清晰指令;
最重要的是,我们应该构建和使用那些"能随着模型变得更聪明而变得更好"的产品和服务,拥抱而非抵抗AI能力的进步。
理性期望与实际探索相结合,才能真正发掘AI代理的潜力,避免被短期炒作所迷惑。
【往期回顾】
来源:官方媒体/网络新闻
编辑:深思
主编:图灵