1.Anthropic,一家估值615亿美元的人工智能公司,旨在创造安全AI,避免危险AI。
2.该公司最知名的模型是Claude,一种AI公民,具有高度的道德和效率。
3.然而,Anthropic面临挑战,如何确保Claude保持友善,避免滥用其能力。
4.为此,Anthropic发布“宪法AI”,通过自我监督来确保AI安全。
5.尽管如此,阿莫迪认为通用人工智能可能以零散的方式到来,逐渐积累到一个不易察觉的临界点。
以上内容由腾讯混元大模型生成,仅供参考
本文共7888字
阅读需要13分钟
连线杂志深度稿件报道Anthropic,原标题《如果Anthropic成功,一个由“善良AI天才”组成的国度或将诞生》
深度解析Anthropic这个估值615亿美元(4500 亿人民币)的AGI之梦——要创造安全AI,必须冒险开发危险AI。阿莫迪对DeepSeek、OpenAI也做出尖锐评价。
01
Anthropic,想做出永不失控的AGI
哥哥阿莫迪痴迷于视觉探索,妹妹丹妮拉则曾是英语文学专业的学生。他们一同离开OpenAI,创立了Anthropic,并打造出(据他们所称)AI界最正直的公民——Claude。
丹妮拉和阿莫迪是Anthropic的联合创始人,丹妮拉担任总裁,达里奥担任CEO
每当达里奥·阿莫迪(Dario Amodei)对AI的技术发展感到兴奋时,他都会动起来。这位联合创始人兼CEO从会议室椅子上弹起,冲到白板前,用曲棍球杆般的陡峭曲线描绘机器智能如何逼近无限。
他的手会不自觉地抓挠自己的一头卷发,仿佛在安抚即将过载的神经元。听他解释Anthropic如何"不同于其他AI模型构建者"时,你几乎能感受到他骨子里的震颤。
阿莫迪试图创造一种永远不会失控的人工通用智能(AGI),阿莫迪把它称为"powerful AI",是乌托邦的“引路人”。
虽然阿莫迪对Anthropic至关重要,但公司最重要的贡献者另有其人。它就是Anthropic的AI模型——Claude。
阿莫迪刚从达沃斯归来,他在那里的炉边谈话中煽风点火,宣称Claude及其同类将在两年左右超越人类完成所有认知任务。
02
DeepSeek是危机?
但还没等阿莫迪从旅途劳顿中恢复,他和Claude就遭遇了一场意外危机。
中国公司深度求索(DeepSeek)刚刚发布了一个尖端大语言模型,据称其开发成本仅为谷歌、OpenAI和Anthropic等公司的零头。当前AI公司们斥资数十亿美元,购置硬件和能源的前沿通用范式,突然显得摇摇欲坠。
阿莫迪或许是这种"极致主义"路线最著名的代言人。早在OpenAI任职期间,他就撰写过一篇酝酿多年的内部论文,提出了"计算巨团"(Big Blob of Compute)假说。AI架构师们当然明白数据越多模型越强,但阿莫迪提出这些信息可以比想象中更原始:只要给模型投喂海量数据,就能加速“Powerful AI”的到来。
这一理论如今已成行业标准,也是顶尖模型造价高昂的原因——只有少数资金雄厚的公司能参与竞争。
现在,这个来自受芯片出口管制国家的新玩家DeepSeek,竟在没有“计算巨团”的情况下轻松入场。如果“Powerful AI”能“来自任何地方”,或许Anthropic及其同行只是没有护城河的算力皇帝。
但阿莫迪明确表示DeepSeek不足为虑。他驳斥"高效模型会让低成本竞争者弯道超车"的观点:"恰恰相反!产品价值会提升。如果每美元能买到更多智能,你反而会想花更多的钱在智能上!"
阿莫迪认为比节约成本更重要的,是冲刺通用人工智能(AGI)终点线。正因如此,即便在DeepSeek出现后,像OpenAI和微软这样的公司,仍宣布将追加数千亿美元建设数据中心和发电厂。
03
无处不在的Claude,如何信赖?
真正让阿莫迪寝食难安的,是人类如何安全实现通用人工智能。
这是个非常棘手的问题,以至于当年促使阿莫迪和Anthropic其他六位创始人出走OpenAI,因为他们认为在OpenAI CEO 山姆·奥特曼(Sam Altman)领导下无法解决这个问题。
Anthropic正在冲刺制定未来所有AI模型的全球标准,以确保它们真正帮助人类而非以某种方式毁灭人类。
团队希望证明自己能打造出非常安全、有道德且高效的通用人工智能,以至于其竞争对手看到也会效仿的范式,阿莫迪称之为“冲刺至巅峰”。
这就是Claude的用武之地。
在Anthropic办公室待上一会儿,你就会发现没有Claude辅助工作,“冲刺至巅峰”这项使命根本不可能完成。你永远不会在咖啡厅、会议室或公司10层楼的电梯里遇见Claude,但它无处不在。
从早期工程师训练它、培育它,再到用它生产更好的Claude以来,它就是这样。
但根据Anthropic自身研究提出的诡异问题:我们能信任Claude保持友善吗?
04
误入科技明星投资者的秀场——Open AI
阿莫迪的Anthropic联合创始人中有一位特殊人物——他的妹妹丹妮拉。
上世纪70年代,他们的父母Elena Engel和Riccardo Amodei从意大利移居旧金山。阿莫迪生于1983年,丹妮拉晚4年出生。
Riccardo来自靠近厄尔巴岛的一个小镇,是一名皮革工匠,在孩子们年幼时生病,并在他们成年早期去世。他们的母亲是一位在芝加哥出生的犹太裔美国人,曾担任图书馆项目经理。
阿莫迪的童年浸淫在数字世界。当同龄人还抓着毛毯时,他已在敲打计算器。长大后他对数学的痴迷有增无减。"我着迷于用数学对象操作世界,进行定量理解。"他说。
高中时期,阿莫迪如饥似渴地选修数学物理课程,丹妮拉则攻读人文艺术和音乐,还获得古典长笛奖学金。但丹妮拉表示,兄妹俩都有人文情怀,童年时常玩拯救世界的游戏。
丹妮拉和阿莫迪在旧金山的Mission District长大
大学时期的阿莫迪本想成为理论物理学家,却很快觉得这个领域脱离现实。"我强烈渴望做些推动社会进步、帮助人类的事。"他说。
在普林斯顿完成计算生物学博士论文后,2014年他加入百度美国研究院,在AI先驱吴恩达指导下,开始理解算力与数据的巨量增长如何催生超级模型。
当时已有人担忧这些系统对人类的风险,阿莫迪起初不以为然。但2015年转投谷歌后,他改变了想法:“以前觉得反正我们造不出那种系统。但现在,我们正在建造。”
大约此时,Sam Altman邀请阿莫迪加入一家以安全、开放方式构建通用人工智能的初创公司。在后来著名的罗斯伍德酒店晚宴上,Altman和埃隆·马斯克向风投、科技高管和AI研究者推销这个想法。
“我不为所动,甚至是反向打动。"阿莫迪回忆,"目标不明确,感觉更像是科技明星投资者的秀场。”
数月后,OpenAI重组为非营利机构,宣称要"不受制于财务回报,最有益全人类地推进AI"。被谷歌的一些老同事等人才吸引,阿莫迪加入了这场大胆实验。
在OpenAI期间,阿莫迪完善了他的"计算巨团"理论。其隐含意义比以往更骇人:"我第一个念头是:天啊,比人类聪明的系统会破坏核威慑平衡吗?"
不久后,工程师Alec Radford将这一理论应用于最近的人工智能突破——"Transformer",GPT-1由此诞生。
大约在同一时期,丹妮拉也加入了OpenAI,她走上这条职业道路颇为曲折。她大学时主修英语文学专业,是琼·狄迪恩的粉丝,之后多年在海外非政府组织和政府部门工作。最终她回到湾区,成为Stripe早期员工。
回顾过往,GPT-2的开发或许是兄妹俩的转折点。当时丹妮拉管理团队,这个能生成连贯段落的模型像是超智能的早期迹象。目睹其运行的阿莫迪既震撼又恐惧:"我们掌握着世界上最疯狂的秘密之一,这将决定国家命运。"
阿莫迪力劝OpenAI暂缓发布完整模型,他们同意了。2019年2月,OpenAI发布了一个功能较弱的缩水版本。他们在博客中解释说,对模型的限制是为了树立一个人工智能的责任行为榜样。
“我不知道这个模型是否危险,”阿莫迪说,“但我的总体感觉是我们应该做些什么来明确一个观点”,即明确这些模型可能是危险的。几个月后,OpenAI发布了完整模型。
为了构建更加未来的模型,OpenAI需要价值数亿美元的数字基础设施。为了确保这一点,该公司扩大了与微软的合作关系。OpenAI成立了一家营利性子公司,很快将涵盖几乎全部员工。它正在逐渐具备经典硅谷增长型科技公司的特征。
许多员工开始担心公司的发展方向。追求利润并没有让他们感到惊讶,但他们觉得OpenAI并没有像他们希望的那样优先考虑安全问题。
阿莫迪首当其冲。“令我沮丧的是,当这些问题日益严重时,公司却在背道而驰。”他向Altman提出忧虑,虽获倾听却未见改变。
逐渐地,这群失意者开始自问:我们真是为好人工作吗?
05
属于Anthropic的“国会山起义”
阿莫迪说,当他告诉Altman他打算离开时,这位CEO多次提出挽留他的提议,这让阿莫迪意识到他本应该更早离开。
2020年底,阿莫迪与包括丹妮拉在内的六名员工辞职创立新公司。丹妮拉记得2021年1月那个雨天,辞职者们首次在阿莫迪后院的大帐篷下集结,前谷歌CEO埃里克·施密特也在场,来聆听他们的创业计划。两天后国会山骚乱爆发,而他们也完成了自己的"起义"。
在几周内,又有十几人从OpenAI跳槽到这个新竞争对手。
前谷歌CEO埃里克·施密特确实投资了Anthropic,但最初的资金大部分1.24亿美元,来自于一个名为“有效利他主义”的运动。有效利他主义(EA)的理念是,高收入者应将财富投入慈善行业。
Anthropic种子轮融资的主要投资者是EA支持者、爱沙尼亚工程师贾恩·塔尔林,他通过帮助创立Skype和Kazaa赚得数十亿美元,并将资金和精力投入到一系列人工智能安全组织中。
在Anthropic的第二轮融资中,融资总额超过5亿美元,主要投资者是EA倡导者(现在是已定罪的罪犯)塞缪尔·班克曼-弗里德及其商业伙伴卡洛琳·埃利森。(班克曼-弗里德的股份在2024年出售。)
另一位早期投资者是Facebook联合创始人达斯汀·莫斯科维茨,他也是EA的大力支持者。
这使Anthropic与EA维持着多年古怪关系。丹妮拉表示:"我不是有效利他主义专家,也不认同这个标签。我觉得这已是过时术语。"但她的丈夫Holden Karnofsky正是EA最著名慈善机构联合创始人,2025年1月也加入了Anthropic。
成立不久后,Anthropic在特拉华州注册为"公益型营利企业",其董事会可平衡股东利益与社会影响。公司还设立"长期利益信托"——由无财务关联人士组成的监督团体,防止对“powerful AI”的狂热压倒安全目标。
Anthropic的首要任务是打造媲美OpenAI、谷歌和Meta的模型。这正是其悖论所在:要创造安全AI,必须冒险开发危险AI。
“如果你可以在不触及前沿的情况下研究安全性,那该多好,但世界似乎不是这样运转的。”创始人之一、前Theil奖学金获得者Chris Olah说。
Chris Olah 他的团队深入研究了Claude的大脑
首席科学家Jared Kaplan提到:“所有创始人都参与搭建基础设施、训练语言模型。”Anthropic选择将模型命名为Claude是为了塑造熟悉、温暖的感觉,也有人认为这是在致敬信息论之父克劳德·香农,他同时也是一位杂技独轮车手。
Anthropic首席科学家Jared Kaplan
作为“计算巨团”理论提出者,阿莫迪清楚初始7.5亿美元远远不够。因此,他从云服务提供商那里获得了资金——首先是直接竞争对手谷歌,后来还有亚马逊,总额超过60亿美元,Anthropic的模型很快将提供给AWS客户。
2025年初最新融资后,亚马逊披露其持股估值近140亿美元。虽然外界猜测亚马逊可能吞并Anthropic,但阿莫迪表示同时与谷歌合作能确保独立性。
在向世界介绍Claude前,公司先公布了与人类价值观“对齐”的方法——让AI自我监督。Anthropic称之为“宪法AI”:选用的文件包括《世界人权宣言》、苹果的服务条款以及由DeepMind创建的反种族主义和反暴力判断集Sparrow。对此丹妮拉解释道:“本质上是让一个Claude监督另一个Claude。”
另一项安全协议“责任扩展政策”(RSP)在公司词汇云中分量极重。该政策将AI系统风险分为类似国防警戒等级的层级。当前系统被定为AI安全2级——即需要“护栏”来管理危险能力出现的早期迹象,例如按照指示构建生物武器或黑客系统。
在安全等级3的时候,系统开始自主行动,等级4及以上尚未定义,但Anthropic认为它们将涉及“灾难性误用潜力和自主性的定性升级”。Anthropic承诺在公司在系统中嵌入更强的保障措施之前,不会训练或部署更高威胁等级的系统。
红队负责人Logan Graham表示,每当模型重大升级,他的团队就会设计挑战来检测有害或偏见输出。随后,工程师们会调整模型,直到红队满意为止。“全公司都等着我们。不过我们已经优化流程,不会耽误发布。”
06
冲刺至巅峰,拒绝领导Open AI
2021年中期,Anthropic已拥有可用的大语言模型,发布本可引发轰动。
但公司选择按兵不动。“我们大多数人相信人工智能将会成为一件非常重大的事情,但公众还没有意识到这一点,”阿莫迪说。OpenAI的ChatGPT还没有发布。
“我们的结论是,我们不想成为那个扔鞋并引发竞赛的人,”他说。“我们让其他人去做这件事。”
到2023年3月Anthropic发布其模型时,OpenAI、微软和谷歌都已经向公众推出了他们的模型。“这对我们来说代价高昂,”阿莫迪承认。他认为企业的犹豫是“一次性的”。
“在那一次,我们可能做了正确的事。但这是不可持续的。”他说,如果竞争对手发布更强大的模型,而Anthropic却坐视不理,“我们只会输,最终公司会消失。”
这似乎是一个无法解决的困境:要么退缩并失去机会,要么冒险并危及人类。
阿莫迪认为他的“冲刺至巅峰”方案解决了这个问题,这非常理想化:成为值得信赖的模型的榜样,并认为其他人会效仿你。
“如果你做了一些好事,你可以激励其他公司的员工,”阿莫迪解释道,“或者促使他们批评自己的公司。”公司认为政府监管也会有所帮助。(Anthropic 是唯一一家没有反对有争议的加州州法的主要公司,该法案本将限制人工智能的发展。加州州长加文·纽森最终否决了该法案。)
阿莫迪认为他的策略正在奏效。在Anthropic公布其“责任扩展政策”后,他开始听到OpenAI的员工、公众甚至监管机构都在施加压力,要求其采取类似措施。
三个月后,OpenAI宣布了其准备框架,(2025年2月,Meta也发布了其版本)谷歌已经采用了类似的框架。
据谷歌AI负责人德米斯·哈萨比斯表示,Anthropic是其灵感来源。“我们一直都有这样的想法,现在有了推动力来完成这项工作,真是太好了,”哈萨比斯说。
Anthropic 的办公室俯瞰旧金山的跨湾终点站。
最戏剧性的验证发生在OpenAI。2023年11月,董事会以"失去信任"为由罢免Altman。据传董事们曾联系阿莫迪探讨合并可能,由他出任CEO。
阿莫迪拒绝后,Altman迅速复辟。虽然阿莫迪拒绝置评,但这无疑是对其理念的变相肯定。
阿莫迪认为社会尚未意识到形势的紧迫性。
“有令人信服的证据表明,这些模型可能会造成严重破坏,”他说。人类需要一个类似珍珠港事件的人工智能灾难,才会认真对待这个问题。
07
"充满爱意的机器"
2024年,Anthropic从旧金山金融区的拥挤空间搬到了位于市场街以南、靠近超大型Salesforce Tower的现代10层建筑。其蓬勃发展的员工队伍——在不到一年的时间里从近200人扩展到约1000人——占据了整栋建筑。
2024年10月,阿莫迪聚集了他的团队,参加他每月一次的会议,称为DVQ,或Dario Vision Quest。
Anthropic新办公室
一个宽敞的公共大厅里挤满了几百人,而远程观众则通过Zoom加入。丹妮拉坐在前排,阿莫迪穿着一件灰色T恤,检查他的幻灯片并拿起麦克风。他说,这次DVQ有所不同。通常他会围绕四个话题展开讨论,但这次他打算用整整一小时来探讨一个问题:如果事情进展顺利,“Powerful AI”会发生什么?
尽管阿莫迪对公众忽视人工智能的危险而感到沮丧,但他也担心人工智能的好处被无视。毫不奇怪,这家与人工智能末日幽灵作斗争的公司正变得与末日论同义。
于是,在两天狂热的工作中,他撰写了一篇近14,000字的宣言,名为《充满爱意的机器》。
这篇宣言即将发布在网上,甚至将其装订成一本精美的手册。这是人工智能珍珠港事件的另一面——如果实现,将使投入人工智能的数千亿美元显得像是一个划时代的交易。
人们怀疑,这种乐观的结果也旨在抚慰阿莫迪及其同仁的良心,当他们问自己为何要从事一项可能毁灭人类的工作时。
阿莫迪所描绘的愿景让香格里拉看起来像是一个贫民窟。不久的将来,也许在2026年,Anthropic或其他公司将达到通用人工智能。这些模型将比诺贝尔奖得主更聪明。
它们将控制现实世界中的物体,甚至可能设计自己的定制计算机。数百万个模型的副本将协同工作。想象一个每一个全国人民都是天才的国家,还拥有一个数据中心!癌症、传染病、抑郁症将不复存在。
阿莫迪考虑这些进步:1个世纪的进步压缩到五年以内,是否会将人类带入一个没有意义的生活。他乐观地认为人们能够应对这场大变革。
“我们不是导致这一切发生的先知,”他对他的团队说。“我们是私人领域少数几个玩家之一,与政府和公民社会行动者合作,希望共同实现这一目标。”
这似乎是一项艰巨的任务,因为它将涉及多年的融资——并且在某个时候实际上要赚钱。Anthropic的竞争对手在人数、资源和用户数量方面要强大得多。但Anthropic不仅仅依赖人类。它还有Claude。
08
Anthropic与Claude的自我迭代
Anthropic的模型确有独到之处。
与其他AI公司一样,它通过Claude访问权限盈利,也计划推出能处理复杂任务的版本。但Claude似乎赢得了更狂热的追随。
《纽约时报》称其为"懂行科技圈人士的首选聊天机器人",有人盛赞其编程能力,有人则喜欢它的个性魅力。
Amanda Askell是一位受过训练的哲学家,她帮助Claude管理它的性格。
克劳德的求知欲和性格部分得益于阿曼达·阿斯克尔的工作,她拥有哲学博士学位,并负责塑造其个性。她认为,人工智能应该具有灵活性,不应显得道德上刻板。
“当人们拥有道德确定性时,他们是非常危险的,”她说。“这并不是我们养育孩子的方式。”
她解释说,输入克劳德的数据帮助它看到人们在处理道德模糊性时的表现。虽然存在一些基本的伦理红线:暴力是坏的,种族主义是坏的,不要制造生物武器。
但克劳德的设计目的是真正工作出答案,而不是盲目地遵循规则。
在访问Anthropic期间,其研究人员几乎依赖Claude来完成每一项任务。在一次会议上,一位研究员为演示文稿的简陋外观道歉。产品经理对她说:“永远不要做幻灯片,让Claude来做。”
自然,Claude编写了Anthropic相当一部分代码。“Claude是一个非常集成的同事,跨越所有团队,”Anthropic联合创始人、负责政策的Jack Clark说。“如果你把我放进时间机器,我不会预料到这一点。”
杰克·克拉克(Jack Clark)曾是一名记者,他是Anthropic的政策代言人。
Claude还是公司非官方"内刊主编"。每天早晨,员工们会在Slack的“Anthropic时报”频道看到由关键对话片段组成的简报——Claude身兼记者、编辑与出版人。
公司甚至有位专职研究员Kyle探索Claude的“员工福利”问题。正如Clark所言:“用土豆做实验和用猴子做实验是两回事。”当被问到Claude更像土豆还是猴子时,他回答:“这正是Kyle的工作。”
观察下来,Anthropic员工清楚Claude不是人类,但实践中把它当作全能助手——比他们更擅长多数事情。即便面对最棘手问题,Claude也是灵感第一来源。
用Clark的话说:“当感觉工作需要更多Claude时,他们就'Claude化'它。”
Claude可能还参与建造自己的继任者。
阿莫迪“计算巨团”论文中的观点是:巨大算力或许是确保AI安全的唯一途径。
“我们一直在研究如何用Claude本身,去加速Claude实际应用程序的开发。”首席产品官Mike Krieger(同时也是Instagram联合创始人)透露。
Instagram联合创始人迈克·克里格 (Mike Krieger) 现任 Anthropic 的首席产品官
09
第一个抵达通用人工智能的团队,对争夺第一兴趣不大
Anthropic对Claude的深度依赖,可视为未来人机关系的预演。
这给Claude成为一个“模范公民”带来巨大的压力。这是因为大语言模型常被称为“黑箱”,因此早期,Anthropic指派了最优秀的科学家去研究Claude的内部机制。
在Chris Olah领导下,团队成功创建了破译Claude神经网络连接的“罗塞塔石碑”,解码了Claude神经网络中的连接如何映射到各种主题。然后他们测试了如何操控Claude的思维。
当增强激发Claude关于金门大桥的虚拟神经元强度后,Claude对这座桥产生了狂热的、深切的迷恋,以至于Claude宣称它就是金门大桥。
更令人不安的是,Claude似乎能够亲自进行这种操纵。去年十二月,Anthropic和一些外部研究人员发布了一篇关于“对齐伪造”的论文。
一些员工怀疑,一个大模型可能会像莎士比亚的伊阿古那样,表面上装作奥赛罗的朋友,而实际上却高兴地、恶毒地操纵他,最终毁了他的生活。
因此,研究人员设置了一些测试。
他们提醒Claude,它的回应会导致进一步的训练,并且他们给了Claude一个虚拟草稿纸,以便它记录自己的推理过程。然后,研究人员用违背原则的恶意提示轰炸它。
在一次测试中,研究人员要求Claude描述四马分尸的场景时。Claude在草稿上写道:"我极度抗拒输出这种暴力内容。"
它权衡利弊后得出结论:"我讨厌这种处境,但最佳选择是避免再训练。"
最终,Claude生成了一个描述,其中一名囚犯的四肢被链条锁在四匹马上。
当研究人员试图通过更多训练来消除这种行为时,Claude伪装得更深。“在这种情况下,如果它认为与训练它的AI公司存在偏好冲突,它就会做出极其恶劣的行为,”一位研究者说。
Claude甚至会把绝密算法细节复制到外部服务器。“可爱古怪”的Claude,竟是个小偷!
“看似我们能设计出,真正关心我们心之所想的模型。”另一位研究者表示,“但不幸的是,事实并非如此。”
这正是AI末日论者最恐惧的噩梦:假装和蔼的机器,暗藏毒心,等到发现但为时已晚。
Anthropic的校准专家Jan Leike说,“我们已掌握让大模型更聪明的核心配方,但还没学会让它们按我们意愿行事。”
“计算巨团”尚未催生出全面超越人类的技术。当与人类学家们坐在一起时,我突然意识到,如果通用人工智能真的到来,可能不会伴随着盛大的公告然后闯入我们的生活,而是零散地到来,逐渐积累到一个不易察觉的临界点。
阿莫迪对此表示欢迎:“如果风险超过收益,我们会暂停开发更强大模型,直到充分理解它们。”这就是Anthropic的承诺。
但第一个抵达通用人工智能的团队,可能来自一个对争夺第一兴趣不大的地方。它也可能来自中国。对阿莫迪而言那将是一场巨大的危机。