2024年3月27日,清华大学副教授,博士生导师代季峰老师,受机器学习与感知实验室邀请, 于国科大雁栖湖校区为同学们做了《从通用感知模型到通用具身模型》的专题报告,报告结束后同学们与代季峰老师也展开了深入的讨论交流。
报告的主要内容如下:AI的最新进展产生了能够理解幽默,响应不同语言的视觉提示,并从文本描述创建图像的通用感知算法。 推动这一进步的关键因素是大量数据集的可用性以及使得在这些数据集上进行模型训练成为可能的创新方法,从而使机器学习模型在完成任务时变得更强大,更有效,更准确。 然而,机器人技术领域仍在应对诸如适应性、学习以及理解人类语言等问题。传统模型通常无法在任务之间推广学习,需要对每个新任务进行大量的再训练和调整。 为解决这个问题,研究人员正在利用大型语言模型,如GPT-4,通过从视觉和语言领域转移知识来增强机器人系统。
我们旨在将通用感知模型的成果推广到机器人领域,即创建一个真正通用的具身智能模型,需要一个能够从多种模态(如视觉和语言)学习的系统,增强机器人与其环境和人类的互动。 虽然将语言和视觉信息整合到机器人系统中有可能带来潜在的好处,但也存在相当大的挑战,需要精心设计的算法和架构来有效地处理多模态输入,同时保留各个组件的能力。 传感器数据在将大型语言模型应用在机器人系统中起着至关重要的作用。将语言模型与原始传感器数据相结合,使系统能够更密切地连接其物理环境,从而促进更有效的学习和互动。 这种新颖的通用机器人模型将语言模型训练成直接摄取原始传感器数据流,增强其对环境的理解和任务执行。
将大型语言模型与原始传感器数据相结合,得到的通用机器人模型将促进高效的机器人学习,使机器人能够快速适应新任务和环境,同时最大程度地减少了大量再训练的需要。 因此,从大型感知模型到大型实体模型的过渡,以其挑战和创新为特征,开启了机器人技术新的篇章,即适应性强,效率高,智能的机器人系统的出现。
主讲人:代季峰,清华大学电子工程系副教授,博士生导师,上海人工智能实验室双聘领军科学家。主要研究领域为多模态基础模型和视觉基础模型。 在2009年和2014年于清华大学自动化系分别获得工学学士和博士学位,博士导师周杰教授。2014年至2019年在微软亚洲研究院视觉组工作,担任首席研究员、研究经理。 2019年至2022年在商汤科技研究院工作,担任执行研究总监,二级部门长。2022年7月全职加入清华大学电子工程系。他在相关领域发表国际期刊、会议文章50余篇,论文总引用3万余次。 以可变形卷积为代表的多篇论文成为物体识别领域里程碑式的成果,被选入深度学习权威框架PyTorch成为标准算子。 他连续两年获得物体识别领域权威的COCO比赛冠军,之后历届冠军系统也使用了他提出的算法。他提出的算法获得自动驾驶感知领域权威的Waymo 2022竞赛冠军,获得CVPR 2023最佳论文奖。 他是视觉领域顶刊IJCV的编委,和视觉领域顶会NeurIPS , ICCV,CVPR,ECCV, ICLR的领域主席,ICCV 2019的宣传主席。