北京大学林宙辰教授做深度模型优化器研究前沿报告

2023-9-19

2023年9月19日，北大智能学院教授林宙辰受机器学习与感知实验室邀请，于国科大雁栖湖校区为同学们做了《Adan：更快优化深度模型的自适应Nesterov动量算法》的专题报告。

不同类型的深度网络通常需要使用不同的优化器，而优化器需要经过多次试验后才能被选择确定，这使得训练过程变得低效。为了缓解这一问题并持续提高深度网络模型的训练速度，我们提出了ADAptive Nesterov动量算法(Adan)。Adan首先通过重新描述普通Nesterov加速度开发了一种新的Nesterov动量估计(NME)方法，然后采用NME来估计收敛加速度梯度的一阶二阶矩。此外，我们还证明了在非凸随机问题上，Adan在O(ε^-3.5)的随机梯度复杂度内找到了一个匹配最著名下界的近似ε的一阶平稳点。大量实验结果表明，Adan在视觉、语言和强化学习的任务中始终优于相应的SoTA优化器，并为许多流行的网络定义了新的SoTA性能。更令人惊讶的是，Adan可以仅用SoTA优化器一半的epoch来获得更高或相当的性能，并且也在大范围的minibatch size上表现得非常鲁棒，例如从1k到32k。

林宙辰，国家杰出青年科学基金获得者，2000获北京大学应用数学博士学位，现担任北京大学智能学院通用人工智能国家重点实验室教授。主要研究领域包括机器学习和数值优化。发表科技论文280余篇，出版专著5本，Google学术引用30000+。曾担任ACML、ACCV、CVPR、ICCV、NIPS、AAAI、IJCAI、ICLR和ICML领域主席多次，现担任ICPR 2022的项目联合主席和icml 2022、NeurIPS 2022、ECAI 2023、CVPR 2023和ICLR 2024的高级领域主席。曾担任IEEE T.PAMI副主编，现IJCV的副主编。现IAPR、IEEE、AAIA和CSIG会士。

机器学习与感知实验室

Learning And Machine Perception Laboratory

新闻

北京大学林宙辰教授做深度模型优化器研究前沿报告