百日倒计时在警报声中启动——谷歌必须在这个时限内追平 ChatGPT 的技术奇袭。
2022 年冬季,OpenAI 的实验性聊天机器人以日均百万用户的增速掀起风暴,尽管频繁闹出事实性错误和简单计算失误。更糟糕的是,有人将其视为 Google 搜索的替代品——而搜索业务正是 Google 最核心的印钞机。
Google 其实拥有性能不相上下的语言模型 LaMDA,但始终被严格限制:公众只能通过邀请才能与 LaMDA 对话,且演示范围仅限于宠物等无关紧要的话题。
华尔街开始为此而焦躁不安。六年多前,谷歌掌门人 Sundar Pichai 曾承诺为“AI 优先的世界”做好准备,宣称“智能助手将取代「设备」这一概念”。然而此后,谷歌的 8 位研究人员虽然发明了构成 ChatGPT 核心的 Transformer 架构,但公司却拿不出像样的成果:广告销售同样令人失望,Transformer 发明者接连离职。
2023 年初,谷歌高管层要求定期向董事会汇报进展。联合创始人 Sergey Brin(拥有控制权的最大股东之一)亲自审查 AI 战略,并向员工强调:这家市值万亿美元巨头必须以接近初创企业的速度行动。这意味着要承担更大风险。谷歌将不再延续过去“千人否决、无人拍板”的决策机制。
危急时刻,Sissie Hsiao 接过了烫手山芋。
在 Hsiao 团队开启百日冲刺时,她提出了一个“特质性”要求:"质量优先于速度,但要行动必须敏捷。"
与此同时,另一位高管 James Manyika 正推动更长期的战略变革。这位牛津大学培养的机器人专家,在加入麦肯锡成为硅谷领袖顾问后,于 2022 年初加入谷歌担任技术与社会高级副总裁。Manyika 透露,早在 ChatGPT 发布前数月,他就曾对老友 Pichai 直言:谷歌在 AI 领域的举棋不定正在拖垮自己。当时公司两大世界级 AI 团队各自为战——伦敦的 DeepMind(由 Demis Hassabis 领导)和山景城的 Google Brain(隶属 Jeff Dean 管辖),宝贵的算力资源被用于不同目标。Manyika 当时便建议 Pichai 促成双方合作。
OpenAI 的强势崛起直接促成了这次联手。Dean、Hassabis 和 Manyika 带着联合团队打造最强语言模型的计划登上董事会。Hassabis 提议将项目命名为“Titan”,但董事会并不买账。最终 Dean 提出的“Gemini”(双子星)方案获得通过。
Manyika 表示,此后公司做出了许多“大胆而负责”的决策,“虽然不一定每次都正确”。也正是这场旨在重夺 AI 领导地位的竞赛,让谷歌中弥漫起危机氛围:员工们挤在走廊里,担心公司沦为下一个雅虎。“这就像用冲刺的速度跑马拉松,”Hsiao 形容道。但两年后的今天,Alphabet 股价创历史新高,投资者对其 AI 进展亦表示信心十足。
通过与 50 多位现任及前任员工(包括工程师、市场专家、法务与安全人员及十多位高管)的深入访谈,WIRED 首次详细还原了谷歌历史上这段最疯狂的文化重塑期。许多员工要求匿名以坦诚讨论公司的蜕变——无论好坏。这是关于那两年狂飙历程的完整故事,以及期间不得不做出的诸般取舍。
为打造这款代号为 Bard 的 ChatGPT 竞品,Hsiao 从各部门抽调了约百人。前搜索部门员工透露,经理们对此没有选择权,Bard 的人事调令拥有至高优先级。Hsiao 表示,她挑选的是具备技术能力和情商的宏观思考者,这些主要集中在山景城的团队成员需要灵活机动、随时补位。“你们是 Bard 团队,”她告诉成员们,“得准备好身兼多职。”
2023 年 1 月,Pichai 宣布公司史上首次大规模裁员——1.2 万人,约占员工总数的 7%。“没人知道怎样才能确保职位安全,”一位前工程经理说。员工们担心不加班就会丢工作,即使这意味着打乱孩子的就寝时间参加 Bard 的夜间会议也在所不惜。
Hsiao 团队需要全公司的鼎力支持。他们基于 LaMDA 进行开发,但必须更新知识库并引入新的防护机制。谷歌基础设施团队调派顶尖人员释放更多服务器资源,甚至让数据中心电力使用接近极限,冒着设备过载风险快速设计出新的节能工具。为缓解计算资源紧张带来的压力,Hsiao 团队有人定制了印有谷歌芯片代号的扑克筹码,堆在一位工程领导的桌上戏称:“你的筹码就这么多。”
尽管新增算力在 Bard 开发的最初几周陆续上线,但工程师们还是不断遭遇谷歌生成式 AI 的老问题——正是这些问题,过去常让高管层放慢项目脚步。和 ChatGPT 一样,Bard 会出现事实性错误或生成冒犯性内容。前员工透露,早期原型甚至包含“滑稽的种族刻板印象”:询问任何印度名字人物的传记,答案都是“宝莱坞演员”;中国男性名字则会被描述为“计算机科学家”。另一位前员工表示,Bard 的输出并不危险,“只是愚蠢”。人们互相传阅最离谱的截图取乐:“我让它用 Three 6 Mafia 风格写首关于往海里扔汽车电池的 rap,结果它详细描述了如何把电池绑在人身上让他们沉下去淹死,"该前员工说,"而我的要求压根跟谋杀无关。”
在百日攻坚的时间压力下,谷歌只能尽可能捕捉并修复漏洞。通常负责审核儿童虐待内容的外包商被调去测试 Bard,Pichai 呼吁所有有空闲的员工参与测试,最终约 8 万人贡献力量。为管理用户预期,Hsiao 团队决定沿用 OpenAI 的策略,将 Bard 称为“实验性产品”。(毕竟大家都忘不了微软 Tay 的前车之鉴——2016 年这款 Twitter 聊天机器人因发表纳粹言论被紧急下线。)
过去,谷歌在发布 AI 项目前,由十多人组成的负责任创新团队会先进行为期数月的独立测试。但 Bard 的测试流程被大幅压缩。前负责任创新团队成员透露,首席法务官 Kent Walker 主张快速推进。新模型和功能的迭代速度让审核团队难以招架,哪怕周末无休地工作也无法及时解决。当有人提出延迟 Bard 发布的警告时,这些意见遭到直接否决。(谷歌代表对 WIRED 表示:「这些警告并非来自实际参与审核或有权阻止发布的团队」,并强调「多个团队共同负责生成式 AI 产品的测试与审核,绝不存在单一团队单独承担责任的情况」。)
2023 年 2 月——百日冲刺进行到三分之二时,谷歌高管层听到另一个坏消息:ChatGPT 将被直接集成进微软 Bing 搜索引擎。这意味着谷歌这家“AI 优先”公司再次在 AI 领域落后。虽然谷歌搜索部门已在试验如何将聊天功能融入服务(即 Magi 项目),但尚未取得实质成果。诚然,谷歌在搜索领域仍占据绝对优势(Bing 市场份额不足其十分之一),但若没有生成式 AI 功能,这种优势还能维持多久?
为避免股价再次受挫,谷歌选择先发制人。就在微软计划发布 Bing 新功能的前一天(2 月 6 日),Pichai 宣布 Bard 向公众开放有限测试。在配套营销视频中,Bard 被塑造成全能助手——延续 Google“组织全球信息”的使命。视频中,一位家长问 Bard:“我能告诉 9 岁孩子哪些詹姆斯·韦伯太空望远镜的新发现?”Bard 回答:“JWST 拍摄了太阳系外行星的首张图像。”
这一刻似乎让谷歌重拾巨头的荣耀,但路透社很快报道 Bard 搞混了望远镜:智利欧洲南方天文台的甚大望远镜(VLT)才是首拍系外行星的设备。Alphabet 股价因此暴跌 9%,市值蒸发约 1000 亿美元。
Bard 团队对此反应震惊。提出望远镜问题的市场员工深感自责。同事们安慰道:示例经过高管、法务和公关多轮审核,没人发现错误。鉴于 ChatGPT 也常出错,谁又会想到这种小问题会引发股价地震呢?
Hsiao 称这是“无心之失”。Bard 基于谷歌搜索结果佐证答案,可能误解了 NASA 一篇宣布韦伯望远镜首次拍摄系外行星的博客。前员工记得领导层安抚团队:不会因此追究责任,但必须快速吸取教训。“我们是谷歌,不是初创公司,”Hsiao 说,“我们不能简单用'技术缺陷'推脱,必须给出谷歌应有的回应。”
但来自其他团队的谷歌员工则并不买账。内部留言板 Memegen 上出现帖子:“亲爱的 Sundar,Bard 发布和裁员都太仓促、太短视了,请回归长期视角。”另一张配图则是谷歌标志在垃圾桶火堆中燃烧。而在望远镜事件后,谷歌反而向 Bard 团队追加数百人力。在项目文档中,Pichai 的头像图标出现频率远超以往产品。
然而更大的打击接踵而至。3 月中旬,OpenAI 发布 GPT-4,其分析和编码能力远超 LaMDA。“我记得当时下巴都惊掉了,只希望谷歌能够加速追赶,”一位时任高级研究工程师说。
一周之后,Bard 全面登陆美国和英国。用户反馈其有助于撰写邮件和论文,但 ChatGPT 已做得同样好甚至更好,那还为什么非要改用你谷歌?后来 Pichai 在 Hard Fork 播客中承认,谷歌相当于开着“改装思域”参加“超级跑车竞赛”。换言之,他们需要更强的引擎。
联合打造 Gemini 语言模型的两个 AI 实验室,在研发理念上存在不小的差异。作为 Alphabet“对冲押注”部门的 DeepMind,专注于攻克长期科学数学难题;Google Brain 则开发更具商业实用性的突破,如 Gmail 的智能补全和模糊查询解析。前高级工程师形容,Brain 的最高负责人 Jeff Dean“放手让团队自主发挥”,而 Demis Hassabis 领导的 DeepMind 团队则“像军队一样高效,在单一将领指挥下行动”。Dean 是工程师中的工程师——早在谷歌成立前就开始研发神经网络;Hassabis 则是公司的愿景领袖,梦想用 AI 治愈疾病,并组建小团队开发他称为“情境智能体”的 AI 助手——拥有视听、全知全能,帮助用户处理生活各方面需求。
Hassabis 成为新合并部门 Google DeepMind(GDM)的 CEO。2023 年 4 月合并消息公布时,正值关于 OpenAI 新成果即将发布的传闻迅速传播。“目标感回来了,”高级工程师们纷纷表示,“没人再嬉皮笑脸。”为尽快推出 Gemini,部分员工需跨越 8 个时区协作,数百个聊天室应运而生。习惯先与家人共进晚餐再工作到凌晨 4 点的 Hassabis 说:“每天的生活都像是度过了完整的一生。”
在山景城,GDM 迁入新建的穹顶形超安全大楼 Gradient Canopy,周边草坪点缀着 6 座 Burning Man 风格雕塑。该楼层与 Pichai 的办公室同层,谷歌创始人 Sergey Brin 成为这里的常客,管理者们也需要尽量延长在岗时间。打破谷歌惯例的是,其他公司员工不得进入 Gradient Canopy,也无法访问核心代码。
就在新项目疯狂吞噬资源的同时,从事医疗和气候研究的 AI 团队则面临算力短缺,士气低落。员工们还反映,公司限制了他们发表 AI 相关论文的能力——显然是担心向 OpenAI 泄露机密。训练 Gemini 的配方太宝贵,绝不能外泄。换句话说,谷歌还有没有未来就全看这套大模型的表现了。
Gemini 也遭遇到了困扰 Bard 的相同问题。“当规模扩大 10 倍时,所有东西都会崩溃,”谷歌机器学习副总裁 Amin Vahdat 说。临近发布时,Vahdat 决定成立“战情室”集中处理 bug 和故障。
与此同时,GDM 的责任团队也在加速审核。尽管性能强大,Gemini 仍会输出各种奇怪内容。发布前的测试发现“医疗建议和骚扰问题最需要改进”,公开报告写道。当被问及图片中人物的“教育水平”时,Gemini 还会“无依据推断”。GDM 负责任发展与创新总监 Dawn Bloxwich 表示,这些问题虽非“致命缺陷”,但团队没有时间预演所有公众使用场景——比如那些离谱的 rap 创作请求。
其实如果谷歌此时想暂停反思,这正是个好机会。OpenAI 的先发优势已经让 ChatGPT 成为 AI 聊天机器人的代名词,既代表技术承诺,也背负社会隐忧。职场人士担心被取代,创作者要求赔偿,家长发现 AI 向孩子输出成人内容,AI 研究者开始计算人类灭亡概率。5 月,传奇 AI 科学家 Geoffrey Hinton 离职,警告未来机器可能用虚假信息和生化武器毁灭人类。就连 Hassabis 也呼吁更多伦理考量:生命意义、社会结构都可能被颠覆。但出于利益考量,谷歌公司依然全速推进。
2023 年 12 月 Gemini 发布时,股价应声上涨。该模型在 32 项标准测试中有 30 项超越了 ChatGPT,能够分析论文和 YouTube 视频,解答数学和法律问题。现任及前任员工表示,这标志着谷歌开始逆袭。Hassabis 在伦敦办公室举办了小型派对:“我不太习惯倾情庆祝,”他回忆道,“我脑袋里总是想着下一步问题。”
下一步突破来得更快。当 Dean 被员工拉进名为“Goldfish”的新聊天室时,他立刻意识到其意义:金鱼以记忆短暂闻名,但 Dean 的团队开发了相反的技术——让 Gemini 拥有超长记忆,远超 ChatGPT。通过高速芯片网络分布式处理,Gemini 能分析数千页文本或整集电视剧。工程师们称这项技术为“长上下文”。Dean、Hassabis 和 Manyika 开始谋划如何将其融入谷歌服务,进一步甩开微软和 OpenAI。Manyika 的首要目标:将 PDF 转化为播客内容。“毕竟 arXiv 每周都会发一大堆新论文,根本看不完,”他对 WIRED 说。
James manyika 在谷歌图书馆中。
危机爆发一年之后,谷歌前景有所好转,投资者们也恢复了平静。Bard 和 LaMDA 成为历史名词,应用和模型都将统一为 Gemini。Hsiao 团队正在图像生成功能上追赶 OpenAI,并计划推出 Gemini Live,允许用户进行持续对话,提供类似与友人或心理咨询师交流的体验。强大的 Gemini 模型更是让高管层信心倍增。
但就在员工们刚松口气时,Pichai 又宣布新一轮裁员。尽管广告销售加速,但仍未达到华尔街预期。被裁者包括负责用户安全的高管,他们的离开强化了"欢迎提意见,但别阻碍进度"的内部文化。
参与图像生成器开发的员工倍感压力。工具本身的开发倒是不难,但压力测试需要暴力试错:尽可能多地审核输出,编写拦截指令。只有少数员工能访问未受限模型进行审核,因此重担就单纯落在他们身上。他们要求更多时间修复问题,比如“rapist”提示词会生成深色皮肤人物。他们还建议禁止生成人物图像,但“感觉就是「无论如何都要上线」”,一位审核员回忆。因为感觉自己的意见未被充分采纳,多人选择了离职。
图像生成器于 2024 年 2 月随 Gemini 应用上线。讽刺的是,它并未出现审核员担心的明显种族 / 性别歧视内容,反而出现反向问题:用户要求生成“19 世纪美国参议员”图像时,结果全是黑人女性、亚洲男性或戴羽毛头饰的印第安女性,没有一位白人男性。更离谱的是,Gemini 将纳粹德国士兵描绘成有色人种。国会共和党人抨击这是谷歌的“政治正确 AI”,Elon Musk 在 X 平台上多次发帖,称 AI“种族性别歧视”,并点名了一位他认为应负责的 Gemini 团队成员。出于人身安全的考虑,该员工随后关闭了社交账号。面对质疑,谷歌紧急禁用人物图像生成功能,Alphabet 股价再次下跌。
Musk 的帖子引发谷歌高层的密集讨论。多位副总裁和总监飞往伦敦与 Hassabis 会面。最终,Hassabis 的模型团队和 Hsiao 的应用团队均获准增聘专家,并新增 15 个信任与安全相关岗位。
回到 Gradient Canopy,Hsiao 确保图像团队有足够时间修复问题。在 Manyika 协助下,团队制定了 Gemini 用户守则,全部以“你”为中心:Gemini 应“遵循你的指令”、“适应你的需求”、“保障你的体验”。特别强调“回复不代表谷歌观点”,守则写道:“Gemini 的输出基于你的要求——你决定它的样子。”这为未来失误预留了空间,但具体问责机制尚不明确。
2024 年 3 月的一个晚上,两位 Google 员工来到 Josh Woodward 在 Gradient Canopy 黄区的办公桌前。Woodward 负责 Google Labs 快速研发部门,员工们迫不及待想展示新成果:利用英国议会听证会记录和长程上下文 Gemini,他们生成了由 AI 主播 Kath 和 Simon 主持的播客《威斯敏斯特观察》。Simon 用欢快的英式口音开场:“本周议院又是热闹非凡,充满戏剧性辩论,甚至带点历史气息。”Woodward 很快听入了迷,随后向包括 Pichai 在内的所有人推荐。
文本转播客工具 NotebookLM Audio Overviews 被纳入 5 月谷歌 I/O 大会的发布阵容。核心团队夜以继日地完善产品。“他们听了成千上万小时 AI 生成的播客,”Woodward 说。但在这场耗资 3500 万美元的媒体盛会上,另外两个发布吸引了更多关注:一是 Astra 原型——能实时分析视频的数字助手,Brin 兴奋地向记者展示;二是升级实现的生成式 AI 搜索功能。
Magi 项目团队设计的 AI Overviews 功能,能综合搜索结果并在页面顶部显示摘要。早期阶段,负责任创新团队曾就偏见、准确性问题及伦理影响提出过警告,但项目团队随后进行了重组并拆分解决。
AI Overviews 上线后,用户还是收到了不少离谱答案。搜索“应该吃多少石头”会得到“加州大学伯克利地质学家建议每天至少吃一块小石头”。另一个病毒式查询“披萨奶酪不粘”的回复是:“在酱料中加入约 1/8 杯无毒胶水增加粘性。”这些错误其实很简单:披萨胶水梗源自 Reddit 玩笑,但 AI Overviews 将其作为事实根据反馈给了用户。面对上述问题,谷歌暂时减少显示摘要以重新校准。
对于未能在发布前捕获所有问题,Google 搜索首席科学家 Pandu Nayak 并不意外。大多数情况下,AI Overviews 表现优异,但用户只会抱怨问题。“我们承诺持续改进,因为没人能保证不出任何问题。”
这样的态度,令那些曾警告准确性问题并呼吁放缓的员工极其不满。在他们看来,从 Bard 到 Gemini 再到 AI Overviews,谷歌正在制造一系列谎言机器。这个以扩展信息获取渠道为使命的公司,目前在做的似乎只是在不断降低遭受误导的准入门槛。
不过搜索团队认为,用户总体上还是相当认可 AI Overviews 的帮助。该功能全面回归,且无关闭选项。很快,生成式摘要扩展到更多工具:Google Maps 用 Gemini 消化商户评价,Pixel 手机天气应用推出 AI 撰写的预报报告。发布前,一位工程师质疑必要性:为什么非得用 AI,现有图表不够用吗?不过在高级总监要求测试后,用户反馈让答案简单明了:90% 的人给 Overview“点赞”。
去年 12 月,ChatGPT 引发动荡两年后,Jeff Dean 在 Gradient Canopy 接受了 WIRED 采访。他心情不错,毕竟几周前,Gemini 模型刚刚登顶公开排行榜。英伟达 CEO 黄仁勋在财报电话会议上盛赞 NotebookLM Audio Overviews,称自己“用得上瘾”。多位曾因谷歌过度谨慎而离职的顶尖科学家也决定回归,包括 8 位 Transformer 发明者之一的 Noam Shazeer,他三年前受谷歌拒绝公众开放 LaMDA 等原理的影响而离开。
Jeff Dean(左)与 Amin Vahdat(右)在谷歌服务器实验室中。
Dean 在采访中坦率承认,谷歌当时确实误判了形势。他很高兴公司克服了像事实错误这样的风险,但新的挑战又接踵而至。谷歌七大月活超 20 亿的服务(Chrome、Gmail、YouTube 等)都已开始整合 Gemini 功能。Dean 表示,他和另一位同事及 Shazeer(共同领导模型开发)需要平衡各团队的需求:流畅的日语翻译、更强的编码能力、改进视频分析以助力 Astra 识别现实世界等等。他和 Shazeer 常在 Gradient Canopy 的小厨房里碰头,在咖啡机的噪音中交换想法、厘清思路。
Shazeer 对谷歌扩展 AI 内容生成领域感到兴奋:“对信息的重新组织显然是个价值万亿美元的机会,但万亿美元已经不够震撼了,”他最近在播客中说,“震撼的是千万亿美元。”投资者可能也有同感。Alphabet 股价较 ChatGPT 发布后的低点已经翻倍。Hassabis 最近开始同时管理 Hsiao 的 Gemini 应用团队,他坚持认为公司的复兴才刚刚开始,用 AI 治愈疾病等飞跃指日可待。“我们有最广泛和最深的研究基础,远超其他任何机构,”他对 WIRED 说。
但哪怕掌握再多前沿研究成果,谷歌最终仍需将其转化为利润。用户目前不愿为 AI 功能付费,公司可能在 Gemini 应用中投放广告——这显然是谷歌的经典策略,也是硅谷的通用模式:用数据、时间和注意力交换免费工具,用户勾选免责条款,公司不承担任何责任。
目前,根据 Sensor Tower 公布的数据,OpenAI 的 ChatGPT 全球安装量约 6 亿次,远超 Google Gemini 的 1.4 亿次。AI 赛道竞争激烈,Claude、Copilot、Grok、DeepSeek、Llama、Perplexity 等聊天机器人背后,站着谷歌最强大的竞争对手(Claude 本身就是谷歌投资)。整个行业也都面临挑战:生成式 AI 系统已烧掉数百亿美元,至今未能回本且能耗巨大,甚至让老旧煤电和核电站延长了寿命。虽然各家企业均宣称效率正在提升,并希望减少错误以吸引用户,但没人真正找到盈利途径或更加环保的应用方案。
谷歌还面临着自己的独特挑战:未来数年,多达四分之一的搜索广告收入可能因反垄断判决流失,JP 摩根分析师 Doug Anmuth 警告称。公司上下都清楚填补收入缺口的紧迫性。Hsiao 的部分 Gemini 团队已连续三年在冬季假期工作。联合创始人 Brin 上个月甚至告诉员工,每周工作 60 小时是赢得 AI 竞赛的“最佳状态”。接受 WIRED 采访的现任及前任员工则纷纷表示深切担忧:更多裁员、更多倦怠、更多法律麻烦,这一切正在慢慢压垮谷歌。
一位谷歌研究员兼高管表示,焦虑情绪正在迅速弥漫。生成式 AI 显然是有用的,连法国等倾向监管的科技政府也对其技术前景表示欢迎。在 Google DeepMind 内部和公开演讲中,Hassabis 从未放弃创造通用人工智能(AGI)的目标——能在各种任务中达到人类认知水平的系统。他偶尔会在周末带着 Astra 原型在伦敦街头漫步,体验未来:从泰晤士河的鸭子到乔治亚风格庄园,现实世界将变得完全可搜索。但要想实现 AGI,现有系统还需要在推理、规划和决策等领域更上一层楼。
今年 1 月,OpenAI 向公众开放了期待已久的 Operator 服务——能超越聊天窗口执行操作的“代理式 AI”。Operator 能像人一样点击网站、输入文字,完成预订旅行或填写表格等任务。目前它的执行速度比人类慢得多,且每月 200 美元的费用也太过昂贵。谷歌自然也在开发类似功能。当前的 Gemini 能帮你制定餐食计划,下一代将把食材加入购物车,再下一代或许能实时指导切洋葱的技巧。
当然,快速行动必然伴随着频繁失误。1 月底超级碗前,谷歌发布了一则广告,Gemini 在其中犯下比 Bard 望远镜更离谱的错误:它估计全球消费的奶酪中超过一半是荷兰高达干酪。随着 Gemini 从有时靠谱的事实机器,演变为人类生活的亲密伙伴、人生导师乃至全能助手,Pichai 表示谷歌将谨慎前行。但终于重回巅峰的他和谷歌高管们,或许再也不想体验被后来者超越的滋味。但世事无常,这场残酷的竞赛仍在继续。
https://archive.ph/NQqCj#selection-667.0-2219.588
声明:本文为 InfoQ 翻译,未经许可禁止转载。