北京大学林宙辰教授做深度模型优化器研究前沿报告

2023年9月19日,北大智能学院教授林宙辰受机器学习与感知实验室邀请,于国科大雁栖湖校区为同学们做了《Adan:更快优化深度模型的自适应Nesterov动量算法》的专题报告。

不同类型的深度网络通常需要使用不同的优化器,而优化器需要经过多次试验后才能被选择确定,这使得训练过程变得低效。为了缓解这一问题并持续提高深度网络模型的训练速度,我们提出了ADAptive Nesterov动量算法(Adan)。Adan首先通过重新描述普通Nesterov加速度开发了一种新的Nesterov动量估计(NME)方法,然后采用NME来估计收敛加速度梯度的一阶二阶矩。此外,我们还证明了在非凸随机问题上,Adan在O(ε^-3.5)的随机梯度复杂度内找到了一个匹配最著名下界的近似ε的一阶平稳点。大量实验结果表明,Adan在视觉、语言和强化学习的任务中始终优于相应的SoTA优化器,并为许多流行的网络定义了新的SoTA性能。更令人惊讶的是,Adan可以仅用SoTA优化器一半的epoch来获得更高或相当的性能,并且也在大范围的minibatch size上表现得非常鲁棒,例如从1k到32k。

林宙辰,国家杰出青年科学基金获得者,2000获北京大学应用数学博士学位,现担任北京大学智能学院通用人工智能国家重点实验室教授。主要研究领域包括机器学习和数值优化。发表科技论文280余篇,出版专著5本,Google学术引用30000+。曾担任ACML、ACCV、CVPR、ICCV、NIPS、AAAI、IJCAI、ICLR和ICML领域主席多次,现担任ICPR 2022的项目联合主席和icml 2022、NeurIPS 2022、ECAI 2023、CVPR 2023和ICLR 2024的高级领域主席。曾担任IEEE T.PAMI副主编,现IJCV的副主编。现IAPR、IEEE、AAIA和CSIG会士。