原标题:ECCV 2020 亮点摘要
译者:AI研习社
双语原文链接:
2020年欧洲计算机视觉会议(ECCV)于8月23日至28日在线举行。本次会议共接收1360篇论文,包括104场orals,160场spotlights以及1096篇posters,共进行有45场workshops和16场tutorials。就像其他ML和CV会议一样,大量论文无法完全了解。因此就本次会议,进行了类似CVPR2020 post的总结,以便读者可以从中了解会议总体趋势。因此,本文会对这次会议进行概括,并列出一些我觉得有趣、重要的论文。
首先,会议相关的链接包括:
会议所有收录论文:
部分成果展示以及Youtube播放列表
每篇论文的一句话介绍:
ECCV网站:
(整体统计概况)
(识别,检测,分割及姿势评估)
Semi-Supervised, Unsupervised, Transfer, Representation & Few-Shot Learning(半监督学习,无监督学习,迁移学习,表示学习,少样本学习)
(3D计算机视觉&机器人学)
(图像和视频合成)
(视觉与语言)
(其他)
整体统计概况
本节中提供的统计数据摘自官方的Opening&Awards演示文稿。
可以看到,与2018年会议相比,论文提交量增加了超过一倍,与CVPR 2020的论文数量相当。随之相应,审稿人数和涉及领域也相应增加。
不出所料,大多数接受论文集中于深度学习、识别、检测和理解相关主题。同时可以发现,研究人员对诸如无监督学习的标签有效方法和低视野等领域的兴趣显著增加,同样的结果在CVPR2020中也有所体现。
对研究机构进行统计,其结果与今年的ICML相似:排名第一的Google有180位作者,其次是香港中文大学的140位作者,第三是北京大学的110位作者。
后续章节我们将基于研究主题简要介绍一些论文。
识别,检测,分割以及姿态估计
End-to-End Object Detection with transformers
目标检测的任务即在给定图像中对可见物体进行定位并分类。目前广泛使用的目标检测框架都含有一系列预先定义的方框,各个框中的图像内容将由网络进行分类,在这之后,还会进一步回归来对边界框做调整,最后,交由后处理去除重复的检测结果。然而,由于引入了后处理,整个网络并不能像其他计算机视觉任务一样进行端到端的训练。而在这篇文章中,作者们提出了一个新的目标检测框架,叫做DETR(DEtection TRansformer) ,这是一个可完全端到端训练的网络模型,且无需任何几何先验知识。下图是 DETR 与 Faster R-CNN 计算流程的对比(该图是从作者们的展示文稿中获取的),强调了 DETR 整体的自然性。
DETR 是基于编码-解码的 Transformer 结构构造的。整个模型包含三大组件:卷积神经网络特征提取器,编码器,以及解码器。一张给定图像会先经过特征提取器以获取图像特征。接着,使用不同频率的sin函数生成的位置编码信息会加到图像特征上以维护图像的二维结构信息。得到的新特征会经过 Transformer 的编码器来整合特征信息并将不同的目标分开来。到了解码阶段,目标查询向量会与编码向量一同经过解码器并产生最终的输出特征向量。这些查询向量是一组固定的可学习的嵌入向量(embedding),刚开始随机初始化,在训练过程中进行优化,评测阶段则保持不变,而查询向量的数量也决定了该检测器能够检测的目标数量上界。最终,输出的特征向量会经过一个共享的全连接层来预测每个查询对应的类别与边界框。为了计算损失并训练该模型,作者使用了匈牙利算法将输出与标注一一匹配。
MutualNet: Adaptive Convnet via Mutual Learning from Network Width and Resolution
传统神经网络只有在计算资源足够的情况下才能够使用,如果计算资源无法满足,模型就无法使用。然而,这就使得实际应用中模型的使用颇为受限。比方说,如果模型要在手机上进行前向推理,计算资源会随手机负载以及电量而变化。一个简单的解决方案就是在设备端保存多个不同大小尺寸的模型,并在不同计算资源情况下使用对应的模型。但是如此一来就会占据大量内存空间,并且也无法做到适用于不同的计算资源。近期类似于S-Net与US-Net的网络在训练期间采样不同大小的子网络,使得网络在部署阶段可以调整为不同的网络宽度(也就是通道数量)。但是在非常有限的计算资源下,这类网络的性能显著下降。
这篇论文则借助于不同尺寸的网络与输入图像,以寻求准确度与计算效率的平衡。如上图所示,在一次训练迭代过程中,会采样四个子网络,其中一个是完整的网络,还有三个具有不同宽度的子网络。完整的网络使用原始大小的图像数据与标签进行交叉熵损失训练,其余三个则随机输入不同尺度的图像(原始图像或是尺度下采样后的图像),并使用他们的输出与完整网络的输出之间的KL散度进行监督训练(也就是蒸馏损失)。这样一来,每个子网络就能够学会适应不同网络尺寸与输入大小的多尺度表达。在部署过程中,对于一个给定的资源约束场景,即可选择最优的网络尺寸与输入大小组合用于推理。
Gradient Centralization: A New Optimization Technique for Deep Neural Networks
在神经网络优化过程中使用类似于均值与方差这样的二阶统计数据来对网络激活值或是权重做形式标准化已然成为神经网络训练过程中极为重要的一环,例如常用的 BatchNorm 和 weight norm。相较于使用额外的归一化模块作用于激活值或是权重,梯度中心化(Gradient Centralization,简称GC)直接作用于梯度,使得梯度向量的均值为0,该操作可以平滑并加速神经网络的训练过程,甚至提升模型的泛化性能。
给定计算得到的梯度,GC首先如上图所示计算梯度向量的均值,接着减去对应的均值。数学形式上,对于一个权重向量 Wi,其对应的梯度为∇Wi(i=1,2,…,N),则GC操作可定义为:
Smooth-AP: Smoothing the Path Towards Large-Scale Image Retrieval
图像检索旨在一个图像集合中检索与查询图像相同类别的图像数据。与分类任务不同,图像检索任务中,测试图像的类别在训练过程中都已经见到过了,测试图像的类别可能会很少见,但是我们仍需在图像集合中找到与之相似的图像,这也就是一个开集问题。图像检索的一般流程包括使用CNN特征提取器对检索图像、以及整个图像集合提取其各自的嵌入向量,接着计算两两之间的余弦相似度,最后根据相似度进行排序。特征提取器的训练目标就是要达到良好的排序效果(即属于同一类别的图像相似度应尽可能高)。而网络的性能则是使用Average Precision(AP) 来度量的,该指标计算每个正确检索结果的名次与其在整个图像集合中的名次之比并对其求和。计算一张给定图像的名次需要应用一个阈值化操作,该操作用到了海维赛德阶跃函数,使得其不可微分,所以我们无法直接使用最终排名来端到端地优化模型。
为了解决这个问题,论文作者们提出了使用一个温度参数控制的sigmoid函数来代替海维赛德阶跃函数,使得排序可微,并可作为损失函数来端到端地优化网络模型。相较于三元组损失函数,smooth-AP 损失函数优化的是一个排序损失,而三元组损失则是在间接地进行优化。
Hybrid Models for Open Set Recognition
现有的图像分类方法往往基于闭集假设,也就是说,训练集中涵盖了测试阶段可能出现的所有类别。但是这种假设很明显不现实,哪怕是像ImageNet这样拥有1000类物品的大规模数据集,也不可能包含现实世界中所有可能的类别。如此一来,自然地出现了开集分类,其试图通过假设测试阶段包含见过的以及没有见过的类别来解决这个问题。
在这篇论文中,作者们使用流模型来解决这个开集分类问题。流方法通过最大似然估计,以一种无监督训练的方式拟合训练样本的概率分布。因此,流模型可以用于估计每个样本的概率密度。当输入样本的概率密度很大的时候,那么其很有可能是一个已知样本,而离群点的概率密度则较小。之前的研究方法都是基于流模型搭建一个分类器,而该论文的作者们让分类器和流模型学习一个联合嵌入向量,因为仅仅由流模型学到的嵌入向量很可能不具有充足的判别特征,使得分类效果很差。如上图所示,在训练期间,图像会由一个编码器网络映射为一个隐特征,接着这个编码特征会同时被送入分类器与流模型中,分类器端使用交叉熵损失进行监督,流模型端则负责概率密度估计。整个网络架构是可端到端训练的。在测试阶段,每张图像的 logP(x) 都会由前传得到,并与训练集样本的最低 logP(x) 进行比较。如果其值大于该阈值,则送入分类器判断其具体类别,否则就视为未见过的样本。
Conditional Convolutions for Instance Segmentation
实例分割仍旧是计算机视觉领域颇具挑战性的任务之一,它需要对给定图像中每个可见目标打上一个逐像素的掩膜(mask)以及一个类别标签。主流方法就是大名鼎鼎的Mask R-CNN,它包含两个步骤,第一步是用目标检测器 Faster R-CNN 来生成每个实例的边界框,接着,对于每个检测到的实例,使用 ROI Align 将感兴趣区域从输出特征图中裁剪出来并缩放为同一分辨率大小,接着,将其送入一个掩膜头网络(mask head),该网络是一个小型全卷积网络,用以预测分割掩膜。然而,本论文作者指出了该架构的以下缺陷:(1) ROI Align 很可能会引入不相关的特征信息,如背景或是其他实例;(2) 缩放操作限制了实例分割的分辨率;(3) 掩膜头网络需要堆叠多个 3x3 卷积来产生足够大的感受野以生成掩膜,这极大得增加了掩膜头的计算量。
在本篇论文中,作者们提出了使用语义分割网络中的 FCN 来进行实例分割。为了进行有效的实例分割,FCN 需要两种信息,一是表观信息用于目标分类,二是位置信息用于区分同一类别的不同目标。该论文提出的网络结构名为 CondInst (用于实例分割的条件卷积),是基于CondConv以及HyperNetworks构建而成的。对于每个实例,一个子网络会根绝每个实例所在的中心区域生成掩膜 FCN 头网络的权重,用于预估给定实例的掩膜。具体来收,如上图所示,该网络中,在特征图的多个不同尺度下包含多个掩膜头。每个头网络在预定义的位置处预测给定实例的类别,并生成掩膜 FCN 头网络的权重。接着,就由各个头网络使用对应的参数进行掩膜预估。
Multitask Learning Strengthens Adversarial Robustness
深度神经网络的一大主要缺陷就在于它们对于对抗攻击来说异常脆弱,在输入图像中引入极为微小且不可见的扰动就会导致完全错误的输出,甚至输入的表观肉眼看来几乎完全一致。近些年,研究人员已从多个层面深入探讨神经网络的对抗鲁棒性,从输入数据(例如使用无标签数据以及对抗训练)到模型本身,但是网络模型的输出还未被用于提升模型鲁棒性。在这篇论文中,作者们研究了拥有多个输出的多任务学习模型在对抗鲁棒性上的效果。鉴于越来越多的机器学习应用需要模型能够同时一次性完成多个任务,这样的设置在实际任务中是有用的。
使用有界p范式球攻击方式,即对于一个给定输入样本,在给定半径的p范式球内找到对抗扰动。接着,将计算得到的总损失变化视作网络的脆弱度。作者们展示了双任务训练下网络鲁棒性的提升(两个任务可从以下任务中随机选择:分割、深度估计、法向量估计、reshading、输入重建、2D或3D关键点预测等等)。在单任务攻击(即根据其中一个输出计算的扰动)以及多任务攻击(即根据所有输出计算的对应扰动中的最大扰动)下可以看到网络的鲁棒性提升。作者同时在理论上证明了这样的多任务鲁棒性仅在多个任务具有相关性的情况下可以达到。
Dynamic Group Convolution for Accelerating Convolutional Neural Networks
分组卷积首次出现还要追溯到AlexNet,当时分组的目的是为了加速训练,之后,这一技术被应用于轻量级CNN网络设计中,如MobileNet和ShuffleNet。分组卷积将卷积层的输入和输出沿着通道维等量切分为多个部分(或者说是组),接着对每个组单独做卷积操作。因此,若是切分为 G 组,那么运算量也就减少了 G 倍。然而,该篇论文的作者们指出现有的分组卷积有两个主要缺陷:(1) 现有分组卷积稀疏化了神经网络的连接,致使卷积操作的特征提取于表达能力明显弱化;(2) 现有分组卷积对输入通道做固定的分组操作,忽视了各个输入之间的相关性。
为了适应性地选择最相关的输入通道构成组并保持原始网络的完整结构,作者们提出了动态组卷积(DGC)。DGC包含两个头网络,每个头网络根据输入为每个通道生成一个显著性分数。分数较低的通道会被移除。接着,对余下的特征层进行普通卷积并得到输出。最后,各个头网络的输出会在通道为级联起来并随机调换通道位置。
Disentangled Non-local Neural Networks
Non-local 模块使用注意力机制,对长距离像素之间的依存关系进行建模,并已经广泛应用于诸多计算机视觉任务,例如目标检测、语义分割以及视频动作识别。
在本篇论文中,作者们试图进一步解析 non-local 模块,发现其局限性,并提出了一个升级版本。首先,作者们将像素 i (也就是所谓的 key 像素)与像素 j (也就是所谓的 query 像素)之间的相似度计算为两项之和,其中一项是成对项,形式上就是一个白化后的点积结果,描述了 query 像素与 key 像素之间的关系,另一项则是一个一元项,表征了给定的 key 像素对哪个 query 像素影响最大。接着,为了搞清楚每一项的作用,他们分别只用其中一项进行训练,并发现成对项负责类别信息,一元项负责边界信息。然而,通过对 non-local 模块的梯度进行分析,作者们发现当上述两项结合起来应用于注意力操作时,他们的梯度相乘了。这也就导致,如果其中一项的梯度为0,那么另一个项不为0的梯度对网络的训练也起不到作用了。为了解决这个问题,作者们提出了一个 non-local 模块的分解版,使得这两项能够分开来优化。
Hard negative examples are hard, but useful
深度度量学习旨在优化一个嵌入函数,使得经过该函数映射后语义相似的图像会处在高维空间中相对较近的位置,而语义不相似的图像则使其映射后的距离较远。一种较为常用的学习该映射的方法是根据图像的三元组定义一个损失函数,这个三元组包含一张锚图像,一张与锚图像同一类别的正样本图像,以及一张与锚图像不同类别的负样本图像。接着,在优化过程中,模型会在锚图像与负样本图像的距离小于锚图像与正样本图像的距离时给予惩罚。然而,在优化期间,大多数候选三元组都已然达到了标准,即锚图像与正样本的距离小于其与负样本的距离,这也就使得这些三元组对训练几乎起不到太大作用,很冗余。另一方面,使用最困难的负样本进行优化又会导致在训练初期陷入局部最优。这是由于在这种情况下,根据余弦相似度(即归一化特征向量的点积结果)计算得到的锚-负样本的相似度比锚-正样本的相似度大很多。
作者们展示了三元组损失的标准实现中使用困难样本挖掘的问题所在。具体来说,(1) 在梯度计算中,如果归一化不被考虑的话,大部分梯度会丢失掉;(2) 如果两张不同类别的图像在嵌入空间中的距离非常接近,那么损失的梯度很可能将其拉得更近而非将其分得更开。为了解决这个问题,作者们不再像原始三元组损失那样尽可能地将锚-正样本对拉得更近以便将其更加紧密地聚类,相反,作者们会避开更新锚-正样本对的损失梯度,也就使得某一类的实例构成的聚类不会过于紧致。这个方法仅仅集中于直接将困难负样本拉离锚图像。
Volumetric Transformer Networks
卷积神经网络(CNN)成功的一个关键因素就在于其学习语义目标各个部件判别性特征表达的能力。然而,CNN仍旧缺乏处理不同空间变换的能力,例如尺度、视点以及类内变化。近期的一些方法,例如spatial transformer networks(STNs) 试图通过先对空间分布不同的特征图变形,使其变为标准形式来抑制图像的空间变换,接着,再对这些标准化后的特征做分类。但是这样的方法对所有的特征通道做相同的变形操作,却没有考虑到各个特征通道会表征不同的语义组件,将其变换为标准形式也就需要不同的空间变换操作。
为了解决这个问题,该篇论文引入了 Volumetric transformer network (VTN),如上图所示,一个可学习的模块会对每个通道的每个像素位置预测一个形变变换,用于将中间的 CNN 特征变换为一个空间位置无关的标准形式。VTN是一个编码器-解码器结构的网络,其中的网络模块用于在不同的特征图通道之间传递信息,以估计不同语义组件之间的依赖关系。
Faster AutoAugment: Learning Augmentation Strategies Using Backpropagation
数据增广(DA)已然变成了深度学习方法中极为重要且不可或缺的一部分,而近期的一些研究工作表明搜索算法得到的数据增广策略优于标准的增强增广方法。这类算法预先定义好所有可能的数据变换集合,比如几何变换(如旋转)或是色彩增强变换(如负感化),旨在找到最优的数据增广参数,比如增广的幅度、数据增广的概率以及不同数据增广手段的组合数量,如下方左图所示。最优策略是由一个双优化循环学习得到的,以便使得一个使用给定策略训练的卷积神经网络的验证误差最小。然而,这样的优化方法颇具弊端,可能的数据增广策略搜索空间过于庞大,需要复杂的搜索方法,而且单次数据增广策略的优化就需要网络做完整训练。为了解决这个问题,这篇论文的作者提出了使用基于梯度优化的原始图像与增广图像密度匹配优化策略。
通过将数据增广视作一种填充原始数据缺失点的方法,该算法的目标是利用对抗学习来最小化增广数据的和原始数据之间的分布距离。为了能够学习最优的增广策略,数据增广流程需要对增广参数可微。对于使用给定增广方法的概率,作者们使用一个由伯努利分布采样得到的随机变量来表示,并使用Gumbel trick进行优化,增广的强度通过直接估计来近似,增广方法的组合则使用one-hot向量的组合来学习。
其他论文
Metric learning: cross-entropy vs. pairwise losses
Semantic Flow for Fast and Accurate Scene Parsing
Object-Contextual Representations for Semantic Segmentation
Learning From Multiple Experts: Self-paced Knowledge Distillation for Long-tailed Classification
Feature Normalized Knowledge Distillation for Image Classification
Mixup Networks for Sample Interpolation via Cooperative Barycenter Learning
OnlineAugment: Online Data Augmentation with Less Domain Knowledge
Distribution-Balanced Loss for Multi-Label Classification in Long-Tailed Datasets
DiVA: Diverse Visual Feature Aggregation for Deep Metric Learning
Estimating People Flows to Better Count Them in Crowded Scenes
SoundSpaces: Audio-Visual Navigation in 3D Environments
Spatially Adaptive Inference with Stochastic Feature Sampling and Interpolation
DADA: Differentiable Automatic Data Augmentation
URIE: Universal Image Enhancement for Visual Recognition in the Wild
BorderDet: Border Feature for Dense Object Detection
TIDE: A General Toolbox for Understanding Errors in Object Detection
AABO: Adaptive Anchor Box Optimization for Object Detection via Bayesian Sub-sampling
PIoU Loss: Towards Accurate Oriented Object Detection in Complex Environments
Learning Object Depth from Camera Motion and Video Object Segmentation
Attentive Normalization
Momentum Batch Normalization for Deep Learning with Small Batch Size
A Simple Way to Make Neural Networks Robust Against Diverse Image Corruptions
半监督学习,无监督学习,迁移学习,表征学习以及小样本学习
Big Transfer (Bit): General Visual Representation
在本篇论文中, 作者们回顾了迁移学习的简单范式:首先在一个大规模标记数据集上进行预训练,接着在目标任务上精调预训练权重,从而减少目标任务的数据需求量以及优化时间。作者们提出的迁移学习框架称为 BiT (Big Transfer),并且包含大量构建有效模型的必需组件,使其能够借助于大规模数据集学习到通用的、可迁移的特征表达。
在预训练(上游)阶段,BiT 包含以下几点:
对于非常庞大的数据集,由于 Batch Normalization (BN) 含有训练集的统计数据,使得测试阶段存在训练/测试不一致的问题,训练损失虽然被正确回传并优化,然而验证损失则很不稳定。同时,BN 对批量大小很敏感。为了解决这个问题,BiT 转而使用Group Norm以及Weight Norm。
像 ResNet50 这样的小模型并不会从大规模数据集上获益,因此模型需要与数据集的大小匹配。
对于(下游)目标任务,BiT 提出以下几点:
使用 SGD 优化器,无需层冻结、dropout、L2正则化或任何梯度适应 。别忘了把最后的预测层的权重初始化为0。
无需将所有输入缩放为同一大小,如 224 。在训练期间,输入图像会随机缩放并剪切为一个正方形,并随机水平翻转。在测试阶段,图像则会放缩为同一固定大小。
尽管对于数据量充足的大规模数据集预训练来说,mixup 并没有多大用处,但是 BiT 发现 mixup 正则化对下游任务里中等大小的数据集训练非常有用。
Learning Visual Representations with Caption Annotations
在大规模标注数据集上训练深度模型不仅能够让手头的任务获得优良表现,也能使得模型学到对于下游任务非常有用的特征表达。然而,我们是否可以在不使用如此昂贵且细粒度的标注数据的情况下获得类似的特征表达能力呢?本篇论文研究了使用带噪声标注(在本篇论文中是图像的文字说明)进行弱监督预训练。
目标是用有限对图像与说明文字来学习视觉表达,那么如何制定训练目标,来使得图像和它们的说明文字之间产生有效的联系呢?参考BERT模型随机掩盖 15% 的输入字符,让模型根据transformer模型的编码器输出重建整个句子,该方法也随机对图像的文字说明进行掩码操作。其提出的方法称作 image-conditioned masked language modeling (ICMLM),其中图像信息用于重建被掩码的字符以及对应的说明文字。为了达到这个目的,作者们提出了两个多模结构,(1) ICMLM tfm,使用一个卷积神经网络对原始图像进行编码得到图像特征,接着,经过BERT处理的被掩码的图像说明、原始图像说明以及图像特征被级联起来并通过一个 transformer 编码器,最终输出一个多模嵌入特征用于预估被掩码的字符。(2) ICMLM att+fc,先计算图像说明与图像之间的相似度,接着经过一个成对注意力模块来整合图像与文字说明之间的信息。得到的特征会经过池化后再过一个全连接层来预测被掩码的字符。
Memory-augmented Dense Predictive Coding for Video Representation Learning
近期在自监督图像表征学习领域的进步在下游任务中展现出了令人印象深刻的效果。尽管视频的多模表征学习多有发展,然而不使用其他任何类似于文本与语音的模态信息,仅仅使用视频流进行自监督学习还未有所发展。尽管视频的时域信息为自监督地训练一个根据过去帧预测未来帧的模型提供了充足的监督信号,这个任务仍旧颇具难度,因为真正的未来是不确定的,给定一个时间步长,未来的状态是有多种可能的(举个例子,当现在的动作是“打高尔夫”,那么下一帧所在的位置可能是手,也有可能是高尔夫俱乐部)。
本文将对比学习与存储模块结合使用,以解决未来帧的预测问题。为了减少不确定性,该模型会在特征级别上预测未来,并使用对比损失进行训练以避免过度约束。为了处理多种假设,一个存储模块用于同时推断多个未来状态。给定一组连续帧,2d-3d CNN编码器(即f)产生上下文特征,而GRU(即g)整合所有过去的信息,将其用于从共享存储模块中选择插槽。 接着,将所选存储插槽的凸组合构成预测的未来状态。然后,使用对比损失将预测的未来状态与未来状态的真实特征向量进行比较。 对于下游任务,将g产生的特征池化,然后送给分类器处理。
SCAN: Learning to Classify Images without Labels
要将未标记的输入图像分组为语义上有意义的聚类,我们要做到仅使用视觉相似性来解决该问题。 先前的工作要么是(1)使用自监督的方法学习丰富的特征,然后对特征应用 K-means 来聚类,但这很容易导致性能退化,或者就是(2)端到端的聚类方法,这些方法要么利用 CNN 进行深度聚类,要么基于互信息最大化。但是,生成的聚类结果在很大程度上取决于初始化,并且很可能会被低级特征主导。
为了解决先前工作中发现的问题,本文提出了包含两大步骤的 SCAN(采用最近邻方法的语义聚类)。第一步,通过前置任务学习特征表示,然后生成初始聚类,SCAN 基于特征相似度而不是应用 K-means 来挖掘每个图像的最近邻。第二步,将语义上有意义的最近邻用作先验,以训练模型将每个图像及其对应的邻居分为一类。模型通过损失函数来优化,该函数会在 softmax 之后最大化输出向量的点积,从而迫使网络产生一致且有判别度的(one-hot 向量)预测。
GATCluster: Self-Supervised Gaussian-Attention Network for Image Clustering
聚类是根据样本相似度将数据进行集群划分。传统的方法使用手工特征和特定领域的距离函数来度量相似度,但这种手工特征的表现非常有限。随后的工作将深度表示和聚类算法结合起来,但是当输入数据很复杂时,深度聚类的性能仍然会受到影响。一个有效的聚类,在特征层面必须同时包含高层判别性特征并获取对象语义信息。在聚类步骤上,必须避免使用将样本分配到单个或少数几个集群的算法,并且聚类需要高效地应用于大尺寸图像。
本文提出了 GATCluster ,它不需要进一步的后处理就可以直接输出语义聚类标签,其中学习到的特征是一个 one-hot 编码向量,以避免弱解。在平移不变性、可分离性最大化、熵分析和注意力映射约束下,GATCluster采用四种自学习任务进行无监督训练。
Associative Alignment for Few-shot Image Classification
小样本图像分类的目标是在训练样本很少的情况下,生成一个能够学习识别新的图像类的模型。一种流行的方法是元学习,它从包含基本类别的大量标记数据中提取公共知识,并用于训练模型。在之后训练该模型时仅用几个样本就可以从新的概念中对图像进行分类。元目标是找到一组好的初始权重集合,这些权重在训练学习新的概念时迅速收敛。有趣的是,最近的研究表明,不使用元学习的标准迁移学习——特征提取器首先在基本类别上进行预训练,然后在新的几个类别上对预训练网络进行微调,其性能与更复杂的元学习策略不相上下。然而,在微调过程中,为了避免过拟合,特征提取器对部分层的权重冻结会阻碍性能。
本文提出了一个含有两个步骤的方法来解决这个问题。第一步,利用特征提取器为新样本生成特征。然后在嵌入空间中使用相似性度量将每个样本的特征映射到其中一个基类。第二步是关联对齐,其中特征提取器被微调,使得新图像的嵌入向量更接近其对应的基础图像的嵌入向量。这既可以通过中心对齐来完成的,其中每个基类的中心和新类别之间的距离减小,也可以使用对抗性对齐,其中鉴别器迫使特征提取器在嵌入空间中对齐基础图像和新样本。
其他论文
Domain Adaptation through Task Distillation
Are Labels Necessary for Neural Architecture Search?
The Hessian Penalty: A Weak Prior for Unsupervised Disentanglement
Cross-Domain Cascaded Deep Translation
Self-Challenging Improves Cross-Domain Generalization
Label Propagation with Augmented Anchors for UDA
Regularization with Latent Space Virtual Adversarial Training
Transporting Labels via Hierarchical Optimal Transport for Semi-Supervised Learning
Negative Margin Matters: Understanding Margin in Few-shot Classification
Rethinking Few-Shot Image Classification: a Good Embedding Is All You Need?
Prototype Rectification for Few-Shot Learning
三维计算机视觉以及机器人学
NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
从2D图像合成3D视图是一个具有挑战性的问题,尤其是在稀疏地采样了输入2D图像的情况下。该任务先拍摄3D场景的2D图像集合(具有可选的相机姿势及其内参),接着用这些数据训练一个模型,然后使用训练后的模型,我们就可以渲染3D场景中未拍摄过的新2D视图。一种成功的方法是基于体素的表示法,该表示方法使用离散的网格表示3D场景。使用3D CNN可以预测3D体素中对应的RGB-alpha网格值。但是,由于这种基于体素的方法复杂度与空间分辨率成三次比,难以优化并且无法平滑地对场景表面进行参数化,因此它们的存储效率不高。计算机视觉社区的最新趋势是使用全连接神经网络将给定的3D场景表示为连续函数。因此,神经网络本身就是3D场景的压缩表示,使用2D图像集对其进行训练,然后用于渲染新的视图。但是,现有方法仍无法与基于体素的方法相匹敌。
NeRF(neural radiance fields)使用9层和256个通道的全连接网络将场景表示为连续的5D函数,其输入是单个连续5D坐标,即3D空间位置(x,y,z)和视角方向(θ,ϕ),其输出为RGB颜色和不透明度(输出密度)。为了合成给定的视图,渲染过程包括沿相机光心所在直线查询5D坐标,并使用经典的体素渲染技术将输出的颜色和密度投影到图像中。由于体素渲染是可以可微分的,因此优化表示所需的唯一输入就是已知影机姿势参数的一组图像。这样,NeRF能够有效地优化,以渲染具有复杂几何形状和外观的场景的逼真视图,并且在渲染图像和真实图像之间具有简单的重建损失,论文证明其结果优于先前的神经渲染和视图合成研究工作。
Towards Streaming Perception
诸如自动驾驶汽车之类的实际应用需要类似于人类的快速反应,通常为200毫秒。 在这种情况下,需要使用低延迟算法来确保安全运行。 但是,即使经常研究计算机视觉算法的延迟,也仅主要在离线环境中进行了研究。 在线视觉感知会带来完全不同的延迟需求。 因为到了算法完成处理特定图像帧的时间(例如200毫秒后),周围的环境就已经发生了变化,如下图所示。 这迫使感知需要预测未来,这是人类视觉的基本属性(例如,当棒球运动员击中快球时)。
为了开发更好的基准以反映现实情况,并使现有方法之间的比较更加容易。本文介绍了流感知的目标,即实时在线感知,并提出了一种新的元基准,该基准系统性地任何图像理解任务转换为流图像理解任务。该基准基于以下要点提出:流感知需要在任何时刻都了解世界的状态。因此,当新帧到达时,流算法必须报告世界的状态,即使它们尚未处理前一帧,也迫使它们考虑在进行计算时忽略的流数据量。具体来说,当比较模型的输出和真实标签时,使用时间而不是输入索引来进行对齐,因此,在处理相应的输入之前,模型需要在时间步t上给出正确的预测,即验证模型是否正确地将取Δt作为输入并处理,它只能使用t-Δt之前的数据来预测在时间t时刻对应于输入的输出。
Teaching Cameras to Feel: Estimating Tactile Physical Properties of Surfaces From Images
人在很小的时候就能够形成一个心理模型,基于与不同物品互动时的体验,将对物体的感知与其对应的触觉进行映射。当与新对象交互时,具有这种心理模型的自主智能体会是一个非常有价值的工具,特别是当一个简单的对象类别没有足够的信息来准确估计其触觉物理特性时。
为了更直接地模拟这样一个心理模型,本文提出的模型会直接估计物体的物理属性,使得物体的属性数据可被直接利用。首先,作者构建了一个表面图像序列和触觉特性测量数据集(数据集大小400+)。之所以对单个目标构建图像序列,是由于在估计表面特性时,人们常常无意识地移动头部来获取表面的多个视图,因此捕捉到的图像序列包含每个材料表面多个视角得到的图像。然后,他们提出了一个跨模态的框架来学习视觉线索到触觉特性的复杂映射。该模型的训练目标是在给定视觉信息的情况下,生成精确的触觉特性估计值。视觉和触觉信息通过各自单独的编码器网络嵌入到共享的隐空间中。然后,生成器网络从嵌入视觉矢量中估计触觉特性值。鉴别器网络学习预测触觉-视觉对是真实的还是合成的。在推理过程中,使用编码器-生成器对来推断输入图像的触觉特性。
ConvolutionalOccupancy Networks (论文地址)
三维重建是计算机视觉的一个重要问题,有着广泛的应用。对于理想的三维几何图形表示,我们需要能够,a)编码复杂的几何和任意的拓扑,b)放缩到大型场景,c)封装局部和全局信息,以及d)在内存和计算方面易于处理。然而,现有的三维重建表示法并不能满足所有这些要求。尽管最近的隐式神经表示在三维重建中表现出了令人印象深刻的性能,但由于使用简单的全连接网络结构,不允许在观测值中整合局部信息或引入诸如平移等变项的归纳偏置,因此存在一定的局限性。
Convolutional Occupancy Networks 使用卷积编码器和隐式占用解码器来合并归纳偏差并在三维空间中实现结构化推理。从而可以对单个对象进行更细粒度的隐式三维重建,能够放缩到大型室内场景,并能很好地从合成数据推广到真实数据。
其他论文
Tracking Emerges by Looking Around Static Scenes, with Neural 3D Mapping
Privacy Preserving Structure-from-Motion
Multiview Detection with Feature Perspective Transformation
Motion Capture from Internet Videos
Atlas: End-to-End 3D Scene Reconstruction from Posed Images
Generative Sparse Detection Networks for 3D Single-shot Object Detection
PointTriNet: Learned Triangulation of 3D Point Sets
Points2Surf: Learning Implicit Surfaces from Point Cloud Patches
Geometric Capsule Autoencoders for 3D Point Clouds
Deep Feedback Inverse Problem Solver
Single View Metrology in the Wild
Shape and Viewpoint without Keypoints
Hierarchical Kinematic Human Mesh Recovery
3D Human Shape and Pose from a Single Low-Resolution Image with Self-Supervised Learning
Few-Shot Single-View 3D Object Reconstruction with Compositional Priors
NASA: Neural Articulated Shape Approximation
Hand-Transformer: Non-Autoregressive Structured Modeling for 3D Hand Pose Estimation
Perceiving 3D Human-Object Spatial Arrangements from a Single Image in the Wild
图像与视频合成
Transforming and Projecting Images into Class-conditional Generative Networks
GAN 能够生成多种多样不同类别的图像。例如,BigGAN,一个类条件生成对抗网络,给定一个噪声向量 z 和一个类别嵌入向量 c ,该模型能够生成对应类别的一张新图像。然后我们就可以通过编辑噪声向量生成的隐变量以及类别嵌入向量操纵生成的图像。但这个过程可以反过来吗?也就是说,给定一张输入图像,我们能否找到与该图像最匹配的潜在变量 z 和类别嵌入向量 c 呢?这个问题仍然颇具挑战性,因为许多输入图像不能由 GAN 生成。另外,目标函数具有许多局部极小值,搜索算法容易陷入此类区域。
为了解决这些问题,本文提出了 pix2latent 算法,主要包含两大创新点:估计输入图像的尺度变换,以及使用非局部搜索算法来寻找更好的解。如上图所示,在给定输入图像的情况下,pix2potent 首先找到最佳仿射变换,使得变换后的输入更可能由 GAN 生成,然后使用提出的 BasicCMA 优化方法将图像投影到隐空间中。接着对获得的隐变量进行编辑,并将其投影回图像空间,得到编辑后的图像,最后再用初始仿射变换的逆运算对其进行逆变换得到最终的生成图像。
Contrastive Learning for Unpaired Image-to-Image Translation
给定两组不同属性和模式的图像对训练集,例如马和斑马的图像对,非配对图像到图像的转换的目的是学习两种图像模式之间的变换函数,例如将马转换为斑马,反之亦然,这一过程中保留了诸如姿态或大小等敏感信息而无需确保两种图像模式之间的一一匹配。现有的方法如CycleGAN迫使模型能够将转换后的图像变换回原始图像。但是这样的方法假设模型能够学到一个双射变换,这通常含有过多限制,因为一个给定的变换后的图像可能有多种样式的源图像。理想的损失应该在不同样式下保持不变,但要能够做到区分敏感信息。
Contrastive Unpaired Translation (CUT) 就是要学习这种嵌入空间。除了标准的 GAN 损失,其中生成器要训练生成足够真实的转换图像,而鉴别器试图区分转换图像和真实图像。还要增加一个额外的损失,用来迫使网络对输入图像与转换图像的对应图像块生成相似的嵌入向量。该损失在优化时采用对比损失,即拉近两个对应图像块嵌入向量的距离,同时拉远给定图像块和随机抽样图像块嵌入之间的距离(只使用同一输入图像的内部区块,其他图像的区块会降低性能)。
Rewriting a Deep Generative Model
GAN 能够对数据分布中丰富的语义和物理规则进行建模,但是到目前为止,我们仍旧搞不明白这些规则是如何在网络中编码的,也无从知晓如何改变某个规则。本篇论文则引入了一个新的问题:操纵由深度生成网络模型编码的特定规则。也就是说,给定一个生成模型,其目的是调整其权重,使调整后的模型遵循新的规则,生成遵循新规则集的图像,如下图所示。
通过将网络中的每一层视为一个关联性存储器(该存储器将潜在生成规则存储为隐藏特征上的一组键值关系),我们就可以通过定义一个受到约束的优化来修改模型,这个受约束优化在关联性存储器中添加或编辑一个特定规则,同时尽可能保留模型中现有的语义关系。论文直接通过度量和操纵模型的内部结构来实现这一点,而不需要任何新的训练数据。
Learning Stereo from Single Images
给定两张对应的图像,视差匹配的目标是估计每个像素对应的位置从第一张图像的视角到第二个视角之间的每像素水平位移(即视差)。虽然全监督方法可以得到很好的结果,但是一对视察图像之间的精确真实视差往往很难获得。一种可能的替代方法是使用合成数据进行训练,然后使用有限数量的实际标记数据进行微调。但是如果没有充足的真实数据来进行微调,这样的模型在实际应用中还是无法得到很好的视差估计效果。
该文提出了一种新颖的、全自动的视差估计训练流程,通过使用图像深度估计网络,该方法可以由已知深度信息的非结构化单幅图像生成视差估计训练数据,这样就无需人工合成数据或真实视差图像对即可进行训练。首先,利用深度视差,通过前向形变操作将给定的左输入图像转换为合成的右图像。然后,利用视差图像对,对视差估计网络进行有监督的训练,从而得到一个泛化的模型。
What makes fake images detectable? Understanding properties that generalize
虽然 GAN 生成图像的质量已经达到了令人颇感惊异的水平,但是经过训练的用于检测假图像的深层网络仍然可以识别这些生成图像中的细微伪影,并且鉴别真假图像的网络还在不同数据集和不同方法训练得到的许多 GAN 模型中找到了相同的伪影。本文旨在可视化和理解哪些部分在各类模型之间是共有的,并且容易在不同的场景中都呈现出来并被检测出。
由于全局面部结构在不同的生成器和数据集之间可能会有所不同,因此相较而言,生成图像的局部面片更加确定且更可能产生冗余的伪影。为此,使用一个基于区块的全卷积分类器来关注局部区块而不是全局结构。然后,可以使用分类器来可视化和分类在各种测试数据集中最能指示真实或虚假图像的区块。另外,可以对生成的图像进行操作以夸大假图像的特征属性。
其他论文
Free View Synthesis
Unselfie: Translating Selfies to Neutral-pose Portraits in the Wild
World-Consistent Video-to-Video Synthesis
RetrieveGAN: Image Synthesis via Differentiable Patch Retrieval
Generating Videos of Zero-Shot Compositions of Actions and Objects
Perceiving 3D Human-Object Spatial Arrangements from a Single Image in the Wild
Across Scales & Across Dimensions: Temporal Super-Resolution using Deep Internal Learning
Conditional Entropy Coding for Efficient Video Compression
Semantic View Synthesis
Learning Camera-Aware Noise Models
In-Domain GAN Inversion for Real Image Editing
视觉与语言(V&L)
Connecting Vision and Language with Localized Narratives
将视觉和语言联系起来的一种常用方法是使用图像标题,其中每个图像都与人类所写的文本标题配对,但这种图像与文字的联系仅限于完整的图像尺度,其中的文本描述了整个图像。为了改进这种弱关联,有人就将图片标题的特定部分和图像中的目标框联系起来。但是,这种关联仍然非常稀疏,大多数对象和单词都没有对应的目标框,而且标注过程可能会非常昂贵耗时。
本文提出了一种新的有效的多模态图像标注形式,称之为定位叙事。定位叙述是通过要求标注者用他们的声音描述一个图像,同时将鼠标悬停在他们描述的图像区域上而生成的。例如,如上图所示,标注者在说“woman”时,会用鼠标表示其所在的空间范围,从而为这个名词提供了视觉基础。接着,他们把鼠标从女人身上移到气球上,沿着气球的绳子,说“holding”,这就为这种动词关系提供了直接的视觉基础。他们还描述了“clear blue sky”和“light blue jeans”等属性。由于语音与鼠标指针同步,因此可以确定描述中每个单词对应的图像位置。这为每个单词提供了以鼠标跟踪片段形式的密集视觉特征。这一丰富的标注方法具有多种形式(图像、文本、语音和位置),可用于文本到图像生成、视觉问答和语音驱动的环境导航等不同的任务。或者为了对任务进行更精细的控制,比如对图像的特定部分进行说明,视力不好的人可以通过将手指悬停在图像上来获得特定部分的描述。
UNITER: UNiversal Image-TExt Representation Learning
视觉与语言(V&L)任务,如视觉问答(VQA)都依赖于多模态联合嵌入来弥合图像和文本中视觉线索与文本线索之间的语义鸿沟。但是这种表示通常是为特定的任务定制的,并且需要特定的网络体系架构。为了学习可用于所有 V&L 下游任务的通用联合嵌入,本文介绍了一种大规模联合多模态嵌入预训练模型 UNITER ,如下图所示。基于 transformer 模型,UNITER 接受了4个任务的预训练:基于图像的蒙版语言建模(MLM),即使用图像和文本特征来恢复随机蒙版的单词;以文本为条件的蒙版区域建模(MRM),即重构给定图像的某些区域;图像文本匹配(ITM),即预测图像和文本实例是否配对;以及单词区域对齐(WRA),即学习最佳变换找到单词和图像之间的最佳对齐。要在下游任务上使用 UNITER ,首先要将其重新构造为分类任务,然后可以在网络输出的[CLS]特征后添加分类器并使用交叉熵损失进行训练。
Learning to Learn Words from Visual Scenes
视觉和语言任务(V&L)的标准方法是学习一个共同的嵌入空间,但这种方法效率低下,往往需要上百万个例子来学习,对语言的自然构成结构泛化较差,所学嵌入在推理时无法适应新单词。因此,本文提出让网络学习得到单词嵌入的过程,而非学习单词嵌入。
该模型基于 transformer 结构,在每一次迭代中,模型接收一个图像语言对,然后元学习一个策略来从中获取词表示。这就使得我们能够在推理时获得新单词的表示,并且能够更鲁棒地推广到新的描述任务中。具体来说,每一个任务都被定义为一个语言习得任务,其中包含训练样本和测试样本,可通过测试样本来对由训练样本中习得的语言进行评估。例如,在上图中,模型需要从训练样本中获取单词“chair”,这个单词以前从未见过。元训练在前向传递中完成,并使得模型指向训练示例中正确的单词“chair”,整个模型的训练使用匹配损失来完成。经过多种场景与任务的训练,该模型在推理过程中能够很快地适应新的任务。
结语
遗憾的是,论文的数量使得整个摘要工作既困难又费时。所以对于其余的论文,我将简单地列出一些我所遇到的论文标题,如果读者对这些主题感兴趣可自行深入研究。
AI研习社是AI学术青年和AI开发者技术交流的在线社区。我们与高校、学术机构和产业界合作,通过提供学习、实战和求职服务,为AI学术青年和开发者的交流互助和职业发展打造一站式平台,致力成为中国最大的科技创新人才聚集地。
如果,你也是位热爱分享的AI爱好者。欢迎与译站一起,学习新知,分享成长。
18:22:2018:22:23