1.普林斯顿大学和华沙理工的新研究显示,将对比强化学习(CRL)扩展到1000层可以显著提高性能,尤其在无监督目标条件任务中。
2.与浅层多层感知器(MLP)相比,基于状态的强化学习任务通常仅使用2-5层的浅层网络。
3.研究团队从范式融合、增加数据量和网络深度突破三个方面进行创新,以提升自监督RL的性能。
4.随着网络深度的扩大,强化学习智能体在虚拟环境中出现了新行为,如人形机器人在深度4时直接向目标坠落,而在深度16时学会了直立行走。
5.此外,更深的网络提高了AI的泛化能力,在训练期间未见过的起始-目标对上进行测试时,较深的网络在更高比例的任务上取得了成功。
以上内容由腾讯混元大模型生成,仅供参考
机器之心报道
论文标题:1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities 论文链接:https://arxiv.org/abs/2503.14858 GitHub 链接:https://github.com/wang-kevin3290/scaling-crl
范式融合:重新定义「强化学习」和「自监督学习」的关系,将它们结合形成自监督强化学习系统,采用对比强化学习(Contrastive RL, CRL)算法;
增加数据量:通过近期的 GPU 加速强化学习框架增加可用数据量;
网络深度突破:将网络深度增加到比先前工作深 100 倍,并融合多种架构技术稳定训练过程,包括:残差连接(Residual Connections)、层归一化(Layer Normalization)、Swish 激活函数。
实证可扩展性:研究观察到性能显著提升,在半数测试环境中提升超过 20 倍,这对应着随模型规模增长而涌现的质变策略; 网络架构深度的扩展:虽然许多先前的强化学习研究主要关注增加网络宽度,但在扩展深度时通常只能报告有限甚至负面的收益。相比之下,本方法成功解锁了沿深度轴扩展的能力,产生的性能改进超过了仅靠扩展宽度所能达到的; 实证分析:研究表明更深的网络表现出增强的拼接能力,能够学习更准确的价值函数,并有效利用更大批量大小带来的优势。