互联网爱好者创业的站长之家 – 南方站长网
您的位置:首页 >创业 >

DeepMind 正在开发一种算法来统治所有这些

时间:2021-10-14 14:16:11 | 来源:

DeepMind 希望让神经网络能够模拟算法,从而获得两全其美的结果,并且它使用谷歌地图作为测试平台。

经典算法使软件能够吞噬世界,但它们使用的数据并不总是反映现实世界。深度学习是当今一些最具标志性的 AI 应用程序的动力,但深度学习模型需要重新训练才能应用于它们最初设计的领域。

DeepMind 正在尝试将深度学习和算法结合起来,创建一个算法来统治它们:一个可以学习如何模拟任何算法的深度学习模型,生成一个可以处理现实世界数据的算法等效模型。

DeepMind已经成为人工智能领域一些标志性壮举的头条新闻。DeepMind在开发了AlphaGo(在五局比赛中击败人类职业围棋选手后成为围棋世界冠军的程序)和AlphaFold(解决 50 年生物学大挑战的解决方案)后,它着眼于另一个重大挑战:将深度学习(一种人工智能技术)与经典计算机科学相结合。

神经算法推理的诞生

Charles Blundell 和 Petar Veličković 都在 DeepMind 担任高级研究职位。他们拥有经典计算机科学的背景和对应用创新的热情。当 Veličković 在 DeepMind 遇到 Blundell 时,在两人最近发表的同名立场论文之后,一项被称为神经算法推理(NAR)的研究诞生了。

关键论点是,与深度学习方法相比,算法具有根本不同的品质——这是 Blundell 和 Veličković 在他们的 NAR 介绍中详细阐述的。这表明,如果深度学习方法能够更好地模仿算法,那么深度学习就可以实现算法所见的那种泛化。

像所有有充分根据的研究一样,NAR 的血统可以追溯到它所涉及的领域的根源,并扩展到与其他研究人员的合作。与许多天上掉馅饼的研究不同,NAR 有一些早期的结果和应用可以展示。

我们最近坐下来与 Veličković 和 Blundell 讨论了 NAR 的首要原则和基础,MILA研究员AndreeaDeac也将加入,他扩展了细节、应用和未来方向。感兴趣的领域包括图形数据的处理和寻路。

寻路:有一个算法

Deac 在 DeepMind 实习,并通过药物发现的视角对图表示学习产生了兴趣。图表示学习是 Veličković 是领先专家的一个领域,他认为这是处理图形数据的绝佳工具。

“如果你眯眼足够用力,任何类型的数据都可以放入图形表示中。图像可以看作是由邻近度连接的像素图。文本可以被视为链接在一起的一系列对象。更一般地说,真正来自大自然的东西,不像人类那样被设计成适合一个框架或一个序列,实际上很自然地表示为图结构,”Velicković 说。

另一个现实的问题,很适合图形-和标准之一DeepMind,其中,像谷歌,是字母的一部分-是寻路。2020 年,谷歌地图是美国下载次数最多的地图和导航应用,每天有数百万人使用。它的杀手级功能之一,寻路,正是由 DeepMind 驱动的。

这款流行的应用程序现在展示了一种可以彻底改变世界所熟知的人工智能和软件的方法。Google 地图具有真实世界的道路网络,可帮助预测旅行时间。Veličković 指出,DeepMind 还开发了一个谷歌地图应用程序,该应用程序应用图网络来预测旅行时间。它现在在全球范围内通过 Google Maps 提供查询服务,详细信息在最近的出版物中列出。

Veličković 说,尽管最具代表性的图算法之一,Dijkstra 算法,在理论上可以帮助计算最短路径甚至估计旅行时间,但这在现实中并不适用。要做到这一点,你必须考虑现实世界的所有复杂性——路障、天气变化、交通流量、瓶颈等等——并将其转换为节点和边的“抽象”图,其中一些权重对应于旅行时间。

这举例说明了算法的一些问题。正如 Veličković 所说,无论输入本身是否完美,算法都非常乐意为您提供完美的答案。所以它会给你最短的路径。但是,我们问 Veličković,谁能保证这张图是真实世界场景的准确表示?他说:

“该算法可能会给你一个很好的解决方案,但真的没有办法说这种人为设计的启发式是否真的是最好的看待它的方式,这是第一个攻击点。从历史上看,我们发现每当有大量人类特征工程和大量原始数据需要我们进行人类特征工程处理时,这就是深度学习大放异彩的地方。深度学习最初的成功案例正是用深度神经网络取代手工启发式算法,例如图像识别。”

这是 NAR 的起点:用神经网络替换将现实世界的原始数据映射到图输入的人类。网络将原始数据的复杂性映射到一些“抽象”的图形输入,然后可以用来运行算法。

Veličković 指出,在这种情况下,有一个很好的研究方向。这项研究甚至找到了一种通过算法传播梯度的方法,因此您实际上可以在设置中获得良好的神经网络优化并应用该算法。

但是,他继续补充说,设置有一些限制,即使您能够通过它传播渐变。首先,该算法可能不是计算最终解决方案所需的一切。问题的某些部分可能需要最短路径解决方案,但也许在某些时候您还需要运行流算法并且您不确定如何以最佳方式组合结果,因为问题非常原始且嘈杂:

“强制您的表示依赖于这一算法的输出可能过于局限。Dijkstra 要求图中的每条边都有一个标量值,这意味着您将现实世界中所有惊人的复杂性压缩为每个路段的一个数字。

这可能有问题,因为如果您没有足够的数据来正确估计该标量,您就注定要失败。该算法不会再次为您提供正确的解决方案,因为您只是没有看到足够的原始数据来正确估计该标量。”

打破算法瓶颈

这就是 Veličković 和 Blundell 所说的算法瓶颈。之所以发生这种情况,是因为我们将所有赌注都押在每个边的这个数字上,这是问题的非常低维的表示。DeepMind 二人组建议,打破瓶颈的方法是使用向量,而不是数字。换句话说,保持高度维度。

深度神经网络在保持高维和应用高维正则化技术方面取得了很大的成功。这意味着即使您对神经网络中内部向量的某些部分预测得不好,该向量的其他部分仍然可以介入并进行补偿。问题在于算法被设计为在低维表示上运行,而不是在高维输入上运行。

NAR 的关键思想是用神经网络替换算法,通常是图神经网络 (GNN)。GNN 接受一个高维输入,并进行一个推理步骤以产生另一个高维输入。然后,一旦该推理神经网络的足够步骤完成,就会基于此预测最终输出。

当然,这个高维 GNN 神经执行器需要实际模仿手头的算法。出于这个原因,NAR 还包括一个抽象的管道,在其中对神经网络进行预训练,通常使用大量合成数据。

Blundell 和 Veličković 之前的工作,例如图算法的神经执行、指针图网络和持久消息传递,都处理了这一部分:如何在抽象空间中获得可靠且鲁棒的神经网络来模拟算法。

Blundell 和 Veličković 没有做的是检查这是否真的可以用于现实世界的问题。这就是 Deac 工作的地方。该方法基于图算法的神经执行、指针图网络和持久消息传递的组合。Deac 指出,所有这些都被插入到强化学习 (RL)框架中。在 RL 中,问题被定义为状态和动作,目标是估计每个状态的好坏程度。Deac 指出,这就是推动 RL 应用在游戏中的原因,例如 AlphaStar 或 AlphaGo:

“我们为各州定义了一些价值。如果你想到一个象棋游戏,这个值是——这个动作有多好?而我们想要的是制定计划,做出决定,使这个价值最大化。如果我们知道环境动态,[那么我们怎么知道]我们如何从一种状态转移到另一种状态,以及我们从一个状态中获得哪些特定行为的奖励?”

这样做的方法是通过所谓的值迭代算法,它可以提供每个状态有多好的估计。该算法迭代估计值并逐渐改进它们,直到它们收敛到真实值。这是 NAR 团队试图模仿的算法,使用合成数据和简单的图形来估计元值。

不同之处在于该团队希望从使用单一数值转向使用多值高维向量。最初,输出可能不是那么好,但您不需要那么多数据就可以开始工作,因为当您不知道环境动态时,算法可以处理不完美的估计。

正如 Deac 所解释的,关键是迭代,它会导致收敛。在这种情况下,最短路径算法很有趣。可以学习算法,然后将其插入。但其想法是强化学习框架应该可用于任何算法或算法组合。这是机器学习的重要一步,当它从一个领域重新应用到另一个领域时,它有时会遇到困难

在低数据状态下的高性能

Deac 和 DeepMind 二人合作的方法被称为执行潜在价值迭代网络,或 XLVIN。首先,在抽象空间中学习值迭代算法。然后插入 RL 代理。该团队将其与几乎相同的架构进行比较,有一个关键区别:该架构不是使用他们的算法组件,而是直接预测值并对其运行值迭代。

Veličković 说,当与不同环境进行更多交互时,第二个智能体在某些情况下实际上设法赶上了。但在数据量非常低的情况下,该团队的 RL 架构表现更好。这一点很重要,对于像Atari这样的环境,AI 中的经典基准也在 XLVIN 中使用,更多的数据意味着更多的模拟预算,这并不总是可行的。

XLVIN 凭经验验证了动态规划算法与 GNN 计算之间的强大理论联系。Veličković 说,这意味着大多数多项式时间启发式可以解释为动态规划,这反过来意味着图网络可能是这种计算的正确归纳偏差。

之前的理论工作描述了一个最好的情况,其中 GNN 的权重设置将使其像动态编程算法一样表现得很好。但它并不一定会告诉你到达那里的最佳方式是什么,以及如何使用你拥有或推断的特定数据使其工作,而这些问题对算法很重要,Velicković 指出。

这导致二人将他们的工作扩展到指针图网络和持久消息传递等模型,这又向前迈进了一步。他们模仿动态规划的迭代计算,但他们也尝试包含一些对当今算法如何运行至关重要的数据结构,并结合了持久推理的某些方面。

那么,不是仅仅能够在现有节点集之上支持一个简单的数据结构,是否可以创建额外的内存附加节点?除了存储输入所需的内存之外,许多算法依赖于初始化额外的内存。因此,DeepMind 的研究开发了一些模型,这些模型在遵循相同的 GNN 蓝图的同时,能够越来越多地与计算保持一致。

Blundell 指出,RL 基本上是一种图算法。这是一个动态规划更新,它与最短路径算法密切相关——它就像一个在线最短路径算法。毫不奇怪,如果您试图在图中找到最短的可能路径,然后您想将您的问题表示为一个图,那么这可能存在良好的关系。

动态编程是思考解决任何类型问题的好方法,Blundell 继续补充道。你不能总是这样做,但是当你可以的时候,它真的非常非常好。这可能是图算法、强化学习和图网络之间的深层联系之一。

一种算法来统治它们

在他们最近发表的工作中,推理调制表示,Blundell 和 Veličković 表明他们能够使用算法推理蓝图来支持无监督学习和自监督学习。Veličković 说,无监督学习通常是关于“嘿,让我们获取大量数据并尝试从中提取最有意义的属性。”

但这并不总是您拥有的全部信息。您可能对数据是如何形成的有一些了解。例如,如果您正在从物理模拟中估计一些表示,例如一堆弹跳的球或 N 体系​​统,您不仅会看到该系统的一堆快照。你知道它必须遵守某些物理定律。

我们认为神经算法推理蓝图是一种很好的方法,可以将这些物理定律打包成一个神经网络,您可以将其拼接为无监督架构的一部分,从而获得更好的表示。我们开始在各种环境中看到一些非常好的结果,这个蓝图实际上很有希望。”

就这项研究的未来而言,DeepMind 的二人组希望扩展 Deac 的工作,并尽可能广泛地将其应用于强化学习,这是 DeepMind 及其他领域非常感兴趣的领域。正如 Veličković 所说,在强化学习管道中有“左、右和中心”算法。

布伦德尔重申,那里没有那么多算法。那么问题来了,我们能学会所有这些吗?如果您可以拥有一个能够执行您已知的任何一种算法的单个网络,那么如果您让该网络将这些算法连接在一起,您就会开始形成非常复杂的处理管道或程序。如果这一切都是通过梯度完成的,那么你就开始学习程序了:

“如果你真的把它发挥到极致,那么你就开始真正学习可以学习的算法。这变得非常有趣,因为深度学习的限制之一是我们必须学习的算法。很长一段时间以来,我们使用的最佳优化器或我们如何在训练期间更新神经网络中的权重都没有太大变化。

对不同的架构等进行了一些研究。但他们并不总能找到下一个突破口。问题是,这是一种不同的看待方式,我们可以从哪里开始寻找新的学习算法?

学习算法只是算法,也许它们缺少的是我们正在使用的其他算法的整个基础。所以我们需要一个稍微通用一点的算法执行器来作为更好的机器学习方法的基础。”

Deac 还指出,她希望开发一个尝试多种算法的网络——如果可能,所有算法。她和她的一些 MILA 同事已经朝着这个方向迈出了一些步骤。她说,他们正在做一些迁移学习,将几种算法链接在一起,看看它们是否可以在一种算法之间迁移,从而更容易学习单独的相关算法。

或者换句话说,正如 Veličković 构想的那样,每个人似乎都认为这项研究的圣杯是:“一种算法来统治一切。”

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。