原标题:优化网络通信可以加速大规模机器学习模型的训练 来源:cnBeta.COM
在高速网络设备中插入轻量级的优化代码,使得KAUST领导的合作将并行化计算系统的机器学习速度提高了五倍。这种 "网内聚合 "技术是与英特尔、微软和华盛顿大学的研究人员和系统架构师共同开发的,它可以利用现成的可编程网络硬件提供显著的速度提升。
人工智能(AI)之所以能够拥有如此强大的 "理解 "和与世界互动的能力,其根本的好处是机器学习步骤,即使用大量标记的训练数据集来训练模型。训练AI的数据越多,当暴露于新的输入时,模型就可能表现得越好。
最近人工智能应用的爆发主要是由于更好的机器学习和使用更大的模型和更多样化的数据集。然而,执行机器学习计算是一项艰巨的任务,并越来越依赖于并行运行学习算法的大型计算机阵列。
"如何大规模地训练深度学习模型是一个非常具有挑战性的问题,"KAUST研究团队的Marco Canini说。"人工智能模型可能由数十亿个参数组成,我们可以使用数百个处理器,这些处理器需要高效地并行工作。在这样的系统中,增量模型更新过程中处理器之间的通信很容易成为主要的性能瓶颈。"
该团队在英特尔旗下的Barefoot Networks公司开发的新网络技术中找到了潜在的解决方案。
"我们使用Barefoot Networks新的可编程数据平面网络硬件来卸载分布式机器学习训练过程中执行的部分工作,"后来加入英特尔Barefoot Networks团队的KAUST校友Amedeo Sapio解释道。"使用这种新的可编程网络硬件,而不仅仅是网络来移动数据,意味着我们可以沿着网络路径进行计算。"
该团队的SwitchML平台的关键创新在于,在机器学习过程的模型更新阶段,允许网络硬件在每个同步步骤中执行数据聚合任务。这不仅卸载了部分计算负载,还大大降低了数据传输量。
"虽然可编程开关数据机可以非常快速地进行操作,但它能做的操作是有限的,"Canini说。"因此,我们的解决方案必须对硬件足够简单,但又必须足够灵活,以解决板载内存容量有限等挑战。SwitchML通过共同设计通信网络和分布式训练算法来解决这一挑战,与最先进的方法相比,实现了高达5.5倍的速度提升。"