4月8日消息,由李飞飞联合领导的斯坦福大学以人为本人工智能研究院(HAI)发布了《2025年人工智能指数报告》(Artificial Intelligence Index Report 2025)。这份长达456页的报告全面分析了全球AI的发展现状,涵盖了技术性能、经济影响、教育、政策和负责任人工智能等多个维度,为理解AI的快速发展提供了详实的数据支持。
报告指出,中国AI正快速崛起。2025年2月,中美顶级AI模型的性能差距已经缩小到了1.70%,而2023年这一数字还是20%。中国在AI论文发表和专利申请数量上均超美国,但未评估质量。美国在知名AI模型数量上领先,有40个前沿模型,中国有15个,欧洲有3个。随着技术全球化,中东、拉丁美洲和东南亚也出现了强大模型。
报告还显示,2024年开源与闭源模型差距从8%缩至1.7%,但60.7%的先进模型仍为闭源。部分顶级AI模型现为“开源权重”,可免费下载修改。目前不少头部的AI大模型需纷纷宣布开源,Meta是这一趋势的代表,还有DeepSeek和法国Mistral也提供先进开源模型。2025年3月,OpenAI宣布计划今年夏天将发布首个自GPT-2以来的开源模型。
此外,过去一年AI行业效率提升,硬件效率提高40%,降低了查询AI模型的成本,使个人设备运行强大模型成为可能。效率提升引发大型AI模型可能减少GPU训练需求的猜测,但多数开发者表示仍需更多算力。报告引用研究称,互联网训练数据预计2026至2032年耗尽,将加速合成数据或AI生成数据的应用。
以下为《2025年人工智能指数报告》的核心内容:
1. 美国公司处于领先地位
图注:2003年到2024年重要AI模型的趋势:2024年,美国有40个重要AI模型,中国有15个,欧洲有3个(全部来自法国)。
尽管衡量各国在AI竞赛中 “领先” 地位的方法多种多样(包括期刊文章的发表或引用数量、专利授予数量等),但有一个直观的指标是看谁在推出具有影响力的AI模型。2024年,美国推出了40个重要AI模型,中国有15个,欧洲仅有3个。
此外,另一项未在此展示的数据显示,2024年几乎所有这些重要模型都来自企业界,而非学术界或政府机构。报告指出,2023年至2024年间重要AI模型发布数量的下降,可能与技术复杂性的增加以及训练成本的不断上升有关。
2.训练成本高昂
图注:从2017年到2024年的AI模型训练成本,其中谷歌的Gemini 1.0 Ultra模型成本高达约1.92亿美元。
许多领先AI公司已停止公布其训练运行的详细信息,导致斯坦福大学研究团队无法获取精确数据。不过,研究人员与Epoch AI合作,依据训练时长、硬件类型及数量等细节,对部分模型的成本进行了估算。其中,谷歌的Gemini 1.0 Ultra模型成本最高,约1.92亿美元。训练成本的上升与其他报告发现一致:模型在参数数量、训练时间和训练数据量方面也在不断扩大。
报告中提到,中国公司DeepSeek在今年1月声称仅以600万美元训练出了一个具有竞争力的大型语言模型,震惊了金融市场。AI指数指导委员会联合主席尤兰达·吉尔表示,DeepSeek“令人印象深刻”,并指出计算机科学的历史上,早期低效技术常被更优雅的解决方案取代。她表示:“我认为大型语言模型最终会有更高效版本,只是不知道谁会开发出来,以及会以何种方式实现。”
3.AI使用成本呈下降趋势
图注:从2022年到2024年,GPT-3.5和GPT-4在基准测试中的推理价格呈下降趋势
尽管AI模型的训练成本不断攀升,但报告也突显了一些积极的趋势:硬件成本下降,硬件性能提升,能源效率提高。这意味着查询已训练模型的推理成本正在大幅下降。报告指出,蓝色线条代表每百万tokens的成本从20美元降至0.07美元;粉色线条显示不到一年时间里,成本从15美元降至0.12美元。
4.AI模型使碳排放量大幅增长
图注:2012-2024年期间,训练特定AI模型的碳排放量
尽管能源效率提升,但总体功耗增加,推动AI发展的数据中心碳排放量巨大。AI Index基于训练硬件、云服务提供商和地理位置等因素估算部分AI模型的碳排放量,发现训练前沿AI模型的碳排放量随时间稳步增加,DeepSeek是例外。
Meta的Llama 3.1碳排放量最高,达8930吨二氧化碳,相当于496名美国人一年生活产生的碳排放。巨大的环境影响促使AI公司转向核能等无碳能源。
5.中美差距正在快速缩小
图注:中美顶级模型在LMSYS Chatbot Arena上的性能对比
报告显示,美国在发布的重要模型数量上虽仍占优,但中国模型在质量上正迅速追赶。图表显示,2024年1月,美国顶级模型性能比中国最佳模型高出9.26%;到2025年2月,这一差距已缩小至1.70%。在推理、数学和编程等基准测试中,中国模型的性能提升显著,与美国模型的差距正在快速缩小。
6.全球科研机构正加速研发新型评估体系
图注:人类终极能力测试:准确率
本年度的报告证实了一个不可否认的技术困局:当前用于评估人工智能系统能力的基准测试正呈现系统性"饱和"——AI系统在常识掌握、图像推理、数学运算及编程开发等跨领域测试中普遍获得超阈值分数,致使传统测评工具失效。
人工智能安全专家吉尔指出,这种基准失效现象已形成级联效应:"我曾反复预测性能曲线终将趋于稳定,必须通过颠覆性技术创新或架构革命才能实现突破",但其研发团队追踪数据显示,现有技术路径仍持续突破预期边界。
为此,全球科研机构加速研发新型评估体系,最具代表性的是由全球500所顶尖机构学科专家联合构建的超复杂评估框架“人类终极测试”(Humanity’s Last Exam)——即便当前最先进的AI系统表现仍显堪忧,OpenAI研发的o1推理模型以8.8%的正确率暂居榜首,其纪录能维持多久仍有待观察。
7.数据资源枯竭日益凸显
图注:2016-2024年C4顶级域名按robots.txt限制类别的tokens比例
当前,生成式AI系统的智能构建依赖于从互联网抓取的海量数据训练,这种技术范式催生了常被提及的“数据是AI经济新石油”理念。
随着AI企业持续突破模型训练数据量的技术边界,业界已开始担忧“数据峰值”何时到来及数据资源枯竭问题。其中的问题之一是,网站正通过机器可读的robots.txt文件日益强化对网络爬虫的数据抓取限制(此举或出于对AI公司既利用网站数据牟利又冲击其商业模式的担忧)。
最新统计显示,顶级网络域名的数据已有48%处于完全禁采状态。但AI安全专家吉尔指出,技术演进或将改变这一局面:"我预计未来数据量的重要性会逐渐弱化",她强调AI领域的新型方法论可能终结对海量数据集的依赖。
8.2024年1500多亿美元私有投资流向AI领域
图注:2013-2024年全球企业对AI的投资活动
过去五年全球企业界已全面开启人工智能投资阀门,尽管2024年全球AI总投资额未达2021年狂热峰值,但值得注意的是该领域私有投资规模达到历史峰值。报告提到,在2024年1507.9亿美元的私有投资总额中,约330亿美元流向生成式AI领域,凸显该细分赛道持续吸引资本注入的技术迭代潜力。
9.等待显著投资回报率
图注:2024年各职能AI分析应用的成本降低与收入增加
目前,企业持续加码人工智能投资的根本动因在于对其高回报率的预期——市场普遍渲染AI技术变革性潜力及由此催生的“前所未有生产力跃升”。但实证数据显示,当前阶段尚未出现实质性转型拐点。
麦肯锡调研数据表明,在报告实现成本削减的企业中,绝大多数节省幅度低于10%;而在宣称获得营收增长的企业中,超半数增幅未突破5%阈值。尽管规模性收益仍属未来式,尽管规模性收益仍属未来式,但在2024年的1507.9亿美元私有投资总额中,有330亿美元流向全球生成式AI领域,印证着市场主体对技术突破窗口期的战略押注,印证着市场主体对技术突破窗口期的战略押注。
10.AI医生很快将出现
图注:大型语言模型的临床诊断表现
目前,AI在科学和医学领域的发展构成了当前AI热潮中的“子热潮”——该指数报告列举了多个新发布的基础模型,涵盖了材料科学(加速新型合金研发)、天气预报(提升极端气候事件预测精度)及量子计算(优化量子比特纠错算法)等科研领域;制药行业正试图将AI的预测生成能力转化为药物研发的商业化路径,而OpenAI最新推出的o1推理模型在美国医学委员会考试题库MedQA基准测试中创下96%准确率。
不过从整体来看,该领域仍处于技术潜力远大于现实应用效能的阶段:2024年实证研究表明,医生在常规诊疗流程中引入GPT-4辅助决策后,诊断准确率未显著提升(且未缩短诊疗时间),而纯GPT-4系统的诊断表现要优于“人类+AI”协作模式及纯人工诊断,反映出现阶段人机协同模式尚未突破技术适配瓶颈的困境。
11.AI监管成为全球关注重点
图注:2016-2024年美国国会与人工智能相关的提案和通过的法律数量
美国AI监管呈现"国会空转-州立法活跃"的二元格局,州级立法机构在2024年提出221项AI专项法案,通过131项,其中56项聚焦深度伪造技术监管。相比较而言,国会层面仅通过4项AI专项法案。
除美国外,欧洲通过了《人工智能法案》(AI Act),该法案对被认为具有高风险的AI系统制造商施加了新的义务。但全球的大趋势是各国聚在一起,就AI在世界中应扮演的角色发表广泛且不具约束力的声明。
12.仅少数人担心AI会完全取代人类公司
图注:AI对全球就业的影响
根据2024年全球职场态度调查显示,无论从事何种职业,关于AI是否会取代人类工作的讨论热度不减。在涵盖32个国家的受访者中,60%认为AI将改变其工作方式,但仅36%担心被完全取代。(腾讯科技特约编译无忌)