客户端
游戏
无障碍

1

评论

8

7

手机看

微信扫一扫,随时随地看

95后博导张林峰专访:6年前提出自蒸馏算法,高效AI助推大模型时代丨独家

AI划重点 · 全文约5201字,阅读需15分钟

1.95后博导张林峰在2019年提出了自蒸馏算法,成为知识蒸馏领域的代表性工作之一。

2.自蒸馏算法通过将大型模型的知识传递给小型模型,实现模型性能的优化与效率的提升。

3.张林峰的研究受到了越来越多的关注,他认为逻辑推理能力的强化学习以及大规模的MoE等方向具有研究价值。

4.除此之外,张林峰课题组在CVPR、ICLR、AAAI等顶会发表了多篇中稿,产量惊人。

5.张林峰表示,选择高校教职是因为热爱科研,喜欢与年轻同学们一起做有趣的事情。

以上内容由腾讯混元大模型生成,仅供参考

图片
张林峰于2019年提出了自蒸馏算法,是知识蒸馏领域的代表性工作之一。DeepSeek出现后,知识蒸馏领域再次获得了极大的关注。
在人工智能快速发展的当下,模型规模不断膨胀,计算资源消耗和部署成本急剧上升,高效AI技术成为解决这一难题的关键。知识蒸馏作为模型压缩与加速的重要手段,通过将大型模型的知识传递给小型模型,实现模型性能的优化与效率的提升。作为该领域的知名学者,张林峰的研究受到了越来越多的关注。
“27岁上交博导,本人发声”、“95后博导”、“CVPR满分论文”、“清华博士拒绝工业界offer,选择上交”...... 拨开媒体报道的鲜花与掌声,张林峰却不愿意因为年龄而受到过多的关注,他更坚信,从早期开始选择能够长期发展的研究课题是最重要的。
在他看来,最近兴起的针对逻辑推理能力的强化学习,以及大规模的MoE等方向,不仅符合工业界的发展需求,也契合人工智能的发展路线,从长期来看极具研究价值。
近日他接受了智源社区的访,讲述了他的代表作“自蒸馏”算法诞生的背景,介绍了CVPR满分数据集蒸馏论文背后的故事。作为一名年轻的青年教师,他有怎样的学术梦想和育人理念?

智源专访栏目意在展现行业顶尖技术研究者和创业者的研究经历和故事,记录技术世界的嬗变,激发当代AI从业者的创新思维,启迪认知、关注突破性进展,为行业注入灵感光芒。本次专访为总第25期。

简介

张林峰,毕业于清华大学。现任上海交通大学人工智能学院助理教授。研究方向为高效的人工智能,包括大模型、图像视频生成模型、人工智能数据集的压缩与加速等。2019年首次提出了自蒸馏算法,是知识蒸馏领域的代表性工作之一。曾获评微软学者、北京市优秀毕业生、清华大学优秀博士论文、清华大学启航奖金奖、清华大学蒋南翔奖学金等荣誉称号。

采访:李梦佳
01

深耕知识蒸馏领域,学术首秀即代表作

Q1:您认为自己的代表作是什么?在过往的学术经历中,哪些对您影响深远的人和事?
张林峰: 2018年,我在东北大学读大三,用我自己笔记本电脑的1050Ti显卡开始了我的科研生涯。之后,一直到博士毕业,我都专注于知识蒸馏方向的研究。
在成果方面,我第一篇论文就是我的代表作,题为《自蒸馏》(Self-Distillation)。由于研究时间较早且具有一定的创新性,加上名字有趣,所以受到了不少关注。这项工作最早可以追溯到2018年年底。当时开始着手做这项工作前,我先研读了一篇名为《slimmable neural networks》的论文,该论文在那一年的ICLR上得到了很高的评分。作者提出按照模型的不同宽度进行划分,这启发了我思考不仅可以根据宽度划分模型,还可以按深度划分模型。

图片

图注:张林峰第一篇论文《Be Your Own Teacher: Improve the Performance of Convolutional Neural Networks via Self Distillation》,Google Scholar被引次量1084次(截止发稿前)

在尝试按深度划分时,我们意识到浅层模型的效果可能不佳。当时,我正在研究知识蒸馏(知识蒸馏的主要应用场景是压缩模型,使其变得更小、更快),便想到引入另一个模型进行知识蒸馏以提升性能。进一步思考中,我们产生了一个新想法:既然有深层和浅层模型,是否可以将深层模型作为教师模型来蒸馏出浅层模型?我们尝试了这种方法,结果发现效果显著。这个创意是在尝试解决其他问题的过程中偶然发现的,整个过程充满了巧合和意外的收获。
读博期间,我对知识蒸馏领域的了解更加深入。随着大模型时代的到来,模型的推理成本急剧上升,知识蒸馏的重要性愈发凸显。因此,我继续沿着这一方向,致力于模型压缩与加速的研究。
在学术道路上,我的导师马恺声对我影响深远。作为我的博士生导师,他在科研方面给予我很多指导。尽管他主要从事芯片相关工作,并不直接研究人工智能,但他每天与我一起读文献、教我写论文以及如何与他人合作,培养了我科研上的通用能力。此外,马老师自己也是在我进入清华的同一年入职的青年教师。如今,我也成为了一名青年教师,我时常会回想他当时的工作状态,为自己成为一个独立的PI提供参考。

图片图注:张林峰与导师马恺声(图片来源:微信公众号“清华大学交叉信息研究院”)

Q2:您的第一篇论文就成为了自己的代表作。当时为何会选择这个研究课题?为何将知识蒸馏和高效AI选作自己的研究方向?
张林峰: 之所以选择知识蒸馏作为我的研究方向,源于当时的时代背景与我个人的经历。2018年至2019年,正值人工智能蓬勃发展之际。2015年ResNet的出现以及2016年Transformer的诞生,推动模型不断向大型化、复杂化演进。然而,大规模的模型的部署成本往往较高,因此模型压缩技术成为研究热点。

图片图注:知识蒸馏示意图(图源网络https://blog.csdn.net/weixin_43694096/article/details/127505946

进入清华读博后,导师给予我充足时间调研研究方向。经过一到两个月的广泛探索,涵盖五六个主要方向及产业领域后,我认为轻量化方向意义重大且发展空间广阔,社会影响力强。在模型压缩方法中,知识蒸馏研究的“学生向老师学习”的概念让我觉得很有趣,我对此十分感兴趣,此后也持续专注于知识蒸馏领域的研究。


Q3:知识蒸馏技术未来还有哪些发展的空间?您有怎样的研究规划?
张林峰: 大模型的训练难度和成本更高,高校难以满足训练的要求。因此,我近几年对知识蒸馏的研究反而变少了。
我们现在蒸馏大模型的方式还比较传统,知识蒸馏领域可以探索的内容还有很多。例如,通过蒸馏提升通用大模型在特定应用领域的专用能力。此外,知识蒸馏需同时加载教师模型和学生模型进行大量训练计算,蒸馏成本较高,我们可以研究如何降低蒸馏的成本。
知识蒸馏的含义也在不断拓展。我们可以认为从其他模型学习知识就是一种蒸馏,这个过程带来了知识产权和数据使用权问题。如何保护模型产权、防止模型被蒸馏及判断模型是否被蒸馏,也是该领域的新兴研究方向。

02

CVPR 满分论文背后,

从模型压缩到数据集压缩的高效AI路线图

Q4:2023年ChatGPT诞生,国内外的各类大模型也纷纷上线,这个趋势对您的研究有影响吗?近期DeepSeek的爆火对您的研究有何影响?


张林峰: 2019年至2020年,在大模型时代到来之前,模型压缩领域最热门的技术是神经网络架构搜索(NAS),它利用AI搜索小型高效模型。当时,视觉模型已被压缩到极小,可在手持设备上运行。此外,GPU不断进步,计算能力不断增强。这些因素都使模型压缩与加速的研究陷入瓶颈,研究者开始考虑转向其它方向。
然而,大模型的出现改变了这一局面。首先,模型规模增大后,为实现高效推理,人们对模型压缩技术的需求更强烈;其次,大模型带来了新场景,如新型解码器结构、访存与计算不平衡等问题,这都为研究提供了新方向。随着技术发展,扩散模型等技术也纷纷涌现,为我们的研究提供了广阔空间。
DeepSeek的兴起对AI研究社区产生了显著影响。对我们而言,首先要做的是迅速学习这一新模型。从加速的视角来看,我更关注DeepSeek当前的计算成本主要集中在哪些方面。例如, DeepSeek R1的推理成本问题不仅在于模型规模庞大,更在于Token数过多。用户提问后,模型可能需要很长时间才能给出回答。这种交互模式决定了未来压缩与加速的研究方向。
以前模型规模大时,我们通过减少参数量来优化。现在模型的token数量过多,我们还应转向考虑如何减少token的数量。所以我们做模型加速时,经常会关注当前主流模型的发展趋势和变化,以便更好地适应并优化模型性能。
Q5:最近,您课题组关于数据集蒸馏的论文《Dataset Distillation with Neural Characteristic Function: A Minmax Perspective》在CVPR上收获了5/5/5的满分评价。为什么会选择转向数据集蒸馏的研究?模型的蒸馏和数据集蒸馏有什么联系?
张林峰: 在读博期间,我专注于模型压缩,积累了丰富的经验。毕业后,我决定在继续深入这一研究方向的同时,进一步拓展视野,探索与模型压缩相关但更为广泛的研究领域。
现代人工智能的三大核心要素是模型、数据和训练。在完成模型设计和知识蒸馏的研究后,我希望进一步探索数据集压缩。这篇论文在CVPR上得到了较高的评价,但我认为仍有很大的改进空间,目前我们正在努力完善这项工作。

图片

图注:论文《Dataset Distillation with Neural Characteristic Function: A Minmax Perspective》在 CVPR 上收获了 5/5/5 的满分评价
现在,我从事的工作包括数据集压缩和模型压缩,这两者在某种程度上具有统一性。我们从数据的视角出发,通过减少数据量来提高模型的推理和学习效率。具体来说,以往的模型压缩工作主要关注减小模型的参数量,而我针对数据集压缩的工作则是关注在固定模型参数量的前提下,减少模型处理的数据量,降低token的规模。这样,我们可以通过减少数据量来加快推理速度、提高学习效率。从这个角度来看,数据集压缩和我目前从事的模型压缩的最终目的是相同的,是降低AI模型计算成本的两个互补的角度。
Q6:目前,工业界有哪些落地的高性能AI的工作?
张林峰: 任何AI模型想要在工业界部署就需要考虑运行的成本问题,而这就需要模型足够小、处理速度足够快。以最近比较火的DeepSeek为例,最近如果使用的人数较多,Deepseek总是显示服务器繁忙。这在一定程度上是因为模型的参数量较大(671B),还有进一步压缩模型、加速推理的空间。除了大模型,高性能AI在多模态模型的应用前景也十分巨大。Sora刚发布时有人爆料说它生成一分钟的视频需要等待超过一个小时的时间,使用体验较差。在无人驾驶场景之下,车需要能够理解世界,对于周围物体的响应速度需要很快。由于车上能源有限,模型的功耗也需要足够低。由于车上算力有限,模型的规模也不能太大。因此,工业界对高效AI的需求是巨大的。

03
97年“博导”的心得与畅想
Q7:最近,互联网上关于您的报道比较多,会不会有一些压力?
张林峰: 一定会有的,压力确实很大。网上经常报道我是“27岁的博导”。实际上,在AI或整个计算机领域,年轻的老师是非常多的,我在交大可能都不是最年轻的。跟我同一年从清华毕业的同学中,有的24、25岁就开始带博士生。我并不是十分特殊。
在传统的观念中,我们可能认为教授、博导往往比较年长,这与传统的职称评定体系有关。在新的体系下,很多教师入职之后就可以成为博导。
Q8:您的研究组在近期的CVPR、ICLR、AAAI等顶会都有多篇中稿,产量惊人。你在团队高效工作方面有何心得?
张林峰: 从清华毕业后,我于去年7月加入上海交大,正好赶上交大的暑假。第一学期没有教学任务,所以我把大量时间投入到科研中。我们团队在最近半年内陆续发表了一些研究工作。有趣的是,这些论文的第一作者此前大多没有发表过顶会论文的经历。之所以前期进展相对顺利,首先是因为AI领域可挖掘的内容丰富,研究方向众多,每个方向都有很多潜在问题,很广阔的探索空间。二是我们团队全部瞄准模型压缩加速这一个方向,投入了大量时间,团队成员也非常给力,大家共同努力取得了阶段性的成果。实际上,很多本科生的基础很好,如果投入精力加以引导,他们有希望发表不错的论文。三是我个人目前处于独立PI阶段,事务性工作相对较少,能够专注于科研。
图片

图注:上海交通大学人工智能学院张林峰实验室成员,现在2025年课题组招生工作正在进行中

Q9:您放弃工业界offer选择教职的原因是什么?
张林峰: 首先,我选择去学校是因为热爱科研,喜欢跟年轻的同学们一起做一些有趣的事情。其次,现在企业与学校的合作越来越紧密,高校中的科研成果也可以有机会在企业中落地。其实在哪里不重要,重要的是我们接下来去做什么事情。
图片图注:张林峰荣获清华大学毕业生“启航奖”金奖。该奖旨在奖励将个人职业选择和国家需要紧密结合的优秀毕业生。(图片来源:微信公众号“清华大学交叉信息研究院”)
Q10:如何让年轻的学生更好地去做研究,如何选择合适的研究方向?
张林峰: 对于刚开始研究生涯的同学,我的建议是选择一些能够长期坚持的课题。这些课题需要在你的研究条件下可行,并且有资源支撑你进行四年、五年甚至更长时间的研究。例如,最近兴起的针对逻辑推理能力的强化学习,以及大规模的MoE等方向,不仅符合工业界的发展需求,也契合人工智能的发展路线,从长期来看,比那些已经被解决得很好的问题更具研究价值。
在我个人带学生的方面,因为我现在带的大部分学生还是以本科生和一年级的研究生、博士生为主,对于这样的同学,我的想法是给他们更加明确的目标和技术路线,不会让他们去做太多自主性自由的探索,而是给他们一个比较确定的主题。在这种情况下,大家反而会做得更轻松一点。等到他们有一部分自己的科研成果和自己的研究风格后,我可能会开始放养。

图片图注:张林峰和同学们交流(图片来源:微信公众号“清华大学交叉信息研究院”)

Q11:之后您还有哪些想要探索的领域?有哪些更长期的规划?
张林峰: 从技术的角度来说,实现通用人工智能(AGI)是所有AI研究者的梦想,但是我们距离AGI还很远。在效率方面,模型整体的推理速度的提升还完全赶不上计算需求的增加,特别是随着Manus这种Agent系统的出现,模型解决问题的成本还会进一步爆发,针对这些新的问题,我们还要设计新的压缩方法。
此外,许多应用的智能化程度还需要进一步提升。随着具身智能的发展,以后可能会出现更多的人形机器人。随着具有更强推理能力的人工智能技术的发展,AI 可以帮助我们解决更复杂的问题,帮助我们突破能力的边界。
- 推荐阅读 -
Open张拳石专访:深度学习需要一场自顶向下表征内观的科学革命丨独家
14万引用Sergey教授专访:好研究没有妙计,不好的研究却千篇一律丨独家
本文版权归智源社区所有
免责声明:本内容来自腾讯平台创作者,不代表腾讯新闻或腾讯网的观点和立场。
举报
评论 0文明上网理性发言,请遵守《新闻评论服务协议》
请先登录后发表评论~
查看全部0条评论
首页
刷新
反馈
顶部