今天,分享一篇人工智能国际顶级会议比赛,北大学生夺冠!,希望以下人工智能国际顶级会议比赛,北大学生夺冠!的内容对您有用。
在人工智能顶级会议NeurIPS2022(第36届神经信息处理系统大会)上,由北京大学人工智能研究院杨耀东助理教授、计算机学院前沿计算研究中心董豪助理教授共同指导,北京大学信息科学技术学院2020级图灵班本科生耿逸然和安博施作为共同第一作者获得MyoChallenge挑战赛Die Reorientation赛道冠军。
国际会议报告截图
挑战赛提供了一套高逼真度的肌肉-骨骼灵巧手模型以及交互环境,参赛者需要设计一套科学有效的训练方法,培养出一个通用的人工智能算法,来控制仿生灵巧手完成随机的抓取、转动骰子等既定任务,最终成功率最高、需要肌肉施加力最小的团队将获胜。该挑战吸引了来自全球十多个国家的40个顶尖队伍参加,共产生了340余份有效方案。
怎样教会人工智能认识骰子?怎样指导它用手靠近并抓取骰子?怎样训练它转动骰子到指定角度?看似有趣的比赛背后是一系列的挑战。
?
不同于只能控制每个独立关节的灵巧手,此次比赛采用的基于肌肉的仿生灵巧手具有“牵一发而动全身”的特点,如果控制指尖的肌肉收缩,整根手指的所有关节都会受到影响;控制一个关节向不同方向转动也将涉及到不同的肌肉。此外,MyoChallenge的手部模型还引入了肌减少症、肌肉疲劳和肌腱转移等异常情况,再加上挑战环境包含了物体初始位置随机化、任务目标随机化以及物体的物理属性(如物体大小和摩擦力)的随机化等许多随机参数,意味着一个更接近人类手部条件的复杂仿生手和一个随机变化的未知环境,这既考验人工智能从一无所知到熟能生巧的学习能力,也考验作为“老师”的参赛者们的训练策略。
?
比赛的核心竞争集中在寻找一个能够适应特殊手部控制模型以及参数随机化的策略,也就是说,因材施教地指导人工智能自主学习。对耿逸然和安博施来说,在特定的问题背景中选取合适的方法成为最大的挑战。在经历了几次尝试的失败后,他们决定采用强化学习框架来在模拟器里训练他们的策略,通过奖励塑造(Reward Shaping)、课程学习(Curriculum Learning)和多目标训练(Multi-target Training)等技巧来提高训练后的策略的性能。
这一方法就好比训练动物完成一些特殊动作的过程。水族馆中饲养员在海豚完成高难度动作后用作奖励的小鱼类似于强化学习框架下的奖励函数,在算法有希望完成目标动作的时候加大奖励函数,从而激励算法逐渐掌握目标动作。
这与人类从易到难学习一门知识的过程相似。如果一次性完成骰子重定向任务很难,那就拆分成三个课程分别学习:拿稳骰子、90°以内的重定向、180°以内的重定向。算法将先从最简单的拿稳骰子学起,最后完成最困难的180°重定向任务,在逐步增加课程难度的过程中使算法的性能稳定上升。
相比于课程学习通过改变环境难度逐步完成任务,多目标学习则是在不变的环境难度下将一个课程分解成多个子任务,这与体操比赛中的组合动作练习类似。在体操中,运动员需要连续地完成一系列不同的动作。多目标学习过程要求算法控制仿生灵巧手连续地完成多个重定向任务,从而提高对物体的掌控能力。
方法概览
与之相伴的问题是,训练策略的过程中需要大量算力支持,耿逸然打了一个形象的比方:“我们面临的算力需求大概是日常使用的‘游戏本’电脑的10倍甚至30倍,在此基础上训练一个有竞争力的智能体需要的训练时间大致为3到5天。”学院及时为他们提供了硬件上的支持,在指导老师杨耀东和董豪的帮助之下,算力问题得到有效解决,这也为团队的研发打下良好的基础。最终,这些方法共同产生的成功率比MyoChallenge中给出的基线算法有了明显的改善(在挑战的第一阶段提升为70%,第二阶段为11%)。
经过MyoChallenge提供的仿生灵巧手控制算法测试平台的验证,在本次的挑战中,耿逸然和安博施团队采用的强化学习框架下基础而有效的方法,证明了强化学习算法进行复杂的骨骼-肌肉模型的运动控制以及与物体交互的可行性。
北大2020级图灵班第一次班会合影
在RLAfford中,作者利用强化学习过程中的接触信息,结合三维视觉表达可操作性信息,可以统一描述各类操作任务(如开关门,抓取物体等任务),并具有即插即用的特点。
在这次比赛的基础上,他与合作者继续探索着人工智能与环境交互的问题,从机械臂到灵巧手,从简单环境到复杂场景,从虚拟引擎到真实世界,不断探索人工智能的无限可能性。
机械臂与灵巧手在虚拟环境和真实世界中进行训练与测试