CVPR2020 U2

您所在的位置：网站首页 › 素描唇部结构 › CVPR2020 U2

CVPR2020 U2

2023-11-24 05:29| 来源: 网络整理| 查看: 265

CVPR2020 U2-Net：嵌套U-结构的更深层次的显著目标检测

U2-Net：利用嵌套U结构进行更深层次的显著目标检测 CVPR2020 U2-Net：嵌套U-结构的更深层次的显著目标检测摘要1.引言2.相关工作3.建议的方法3.1. Residual U-blocks3.2. Architecture of U2-Net3.3. Supervision 4.实验结果4.1.数据集4.2.评估指标4.3.实施细节4.4. Ablation Study4.4.1 Ablation on Blocks4.4.2 Ablation on Architectures4.4.3 Ablation on Backbones 4.5.与最先进的比较4.5.1定量比较4.5.2定性比较： 5.结论

摘要

在本文中，我们设计了一个简单而强大的深层网络结构U2-Net，用于显著目标检测(SOD)。我们的U2-net的体系结构是一个两级嵌套的U-结构。该设计具有以下优点：(1)在所提出的ReSidual U-blocks (RSU)中混合了不同大小的感受场，能够从不同的尺度捕捉更多的上下文信息；(2)在不显著增加计算代价的情况下，增加了整个体系结构的深度，因为这些RSU块使用了合并操作。此体系结构使我们能够从头开始训练深度网络，而无需使用图像分类任务中的主干。我们实例化了两种架构模型：U2Net(在GTX1080TiGPU上为176.3 MB，30FPS)和U2Net†(4.7MB，40FPS)，以方便在不同环境下的使用。这两个模型在六个SOD数据集上都取得了具有竞争力的性能。代码为U2net

1.引言

显著目标检测(SOD)的目的是分割图像中最具视觉吸引力的目标。它在视觉跟踪、图像分割等领域有着广泛的应用。近年来，随着深卷积神经网络(CNNs)的发展，特别是全卷积网络(FCN)[24]在图像分割领域的兴起，显著提高了显著目标检测的性能。人们很自然地会问，还缺少什么？让我们退后一步，看看剩下的挑战。大多数SOD网络的设计都有一个共同的模式，那就是注重利用现有骨干网提取的深层特征，如Alexnet，VGG，ResNet，ResNeXt，DenseNet等，然而这些骨干网最初都是为图像分类而设计的。它们提取代表语义的特征，而不是对显著性检测至关重要的局部细节和全局对比度信息。他们需要在ImageNet[5]数据上预训练，这是数据低效的，特别是当目标数据遵循与ImageNet不同的分布时。这就引出了我们的第一个问题：我们能否为SOD设计一个新的网络，允许从头开始训练，并实现与基于现有预先培训的骨干网相媲美或更好的性能？关于SOD的网络体系结构，还有一些问题。首先，它们往往过于复杂[58]。这部分是由于附加的特征聚合模块被添加到现有主干中以从这些主干中提取多级显著特征。其次，现有的主干通常通过牺牲高分辨率的特征映射来实现更深层次的体系结构[58]。为了以负担得起的内存和计算成本运行这些深度模型，在早期阶段将特征图缩小到较低的分辨率。例如，在ResNet和DenseNet[15]的早期层，使用跨度为2的卷积，然后使用跨度为2的最大合并来将特征地图的大小减小到输入图像的四分之一。然而，除了深层结构之外，高分辨率在分割中也扮演着重要的角色[21]。因此，我们的后续问题是：我们能否在保持高分辨率特征图的同时，以较低的内存和计算成本深入研究？我们的主要贡献是一种新颖而简单的网络体系结构，称为U2-Net，它解决了上述两个问题。首先，U2-Net是一种为SOD设计的两级嵌套U-结构，不需要使用图像分类中的任何预先训练的骨干。它可以从头开始训练，以获得有竞争力的表现。第二，新颖的体系结构允许网络走得更深，达到高分辨率，而不会显著增加内存和计算成本。这是通过嵌套的U-结构实现的：在底层，我们设计了一种新的ReSidual U-blocks (RSU)，它能够在不降低特征图分辨率的情况下提取级内多尺度特征；在顶层，我们设计了一种类似U-Net的结构，其中每一级都由RSU块填充。两级结构产生了新的U-结构(见图5)。我们的U2-NET(176.3 MB)在6个公共数据集上达到了与最先进(SOTA)方法相当的性能，并在1080Ti GPU上实时运行(30FPS，输入大小为320×320×3)。为了便于在计算和内存受限的环境中使用我们的设计，我们提供了我们的U2-Net的一个小版本，称为U2-Netp(4.7MB)。U2Netp在40帧/秒的速度下取得了与大多数SOTA型号(参见图1)相媲美的结果。在这里插入图片描述

图1.我们的U2-Net与其他最先进的SOD模型的模型大小和性能的比较。MAXFβ测量是在数据集ECSSD[46]上计算的。红星表示我们的U2-NET(OURS)(176.3MB)，蓝星表示我们的小型版本U2-NET†(OURS†)(4.7MB)。 2.相关工作

近年来，已经提出了许多深度显著目标检测网络。与传统的基于前景一致性[49]、高光谱信息[20]、超像素相似度[55]、直方图[26，25]等手工特征的方法[2]相比，深度显著目标检测网络表现出更具竞争力的性能。多层次深度功能集成：最近的工作[24，45]已经表明，来自多个深层的特征能够产生更好的结果[50]。在此基础上，提出了多种融合和聚合多层次深层特征的策略和方法。 Li et al. (MDF)[18]提出将目标像素周围的图像块馈送到网络中，然后获得描述该像素显著性的特征向量。Zhang et al. (Amulet) [53]通过将多级特征聚合成不同的分辨率来预测显著图。 Zhang et al. (UCF)[54]建议通过引入重新定义的丢弃和混合上采样模块来减少反卷积算子的棋盘伪影。Luo et al.(NLDF+)[27]设计了4×5网格架构的显著性检测网络，深层次特征与浅层次特征逐步融合。Zhang et al. (LFR)[52]通过利用兄弟体系结构从原始输入图像及其反射图像两者提取特征来预测显著图。Hou et al. (DSS+)[13]建议通过引入从深层到浅层的短连接来集成多级特征。Chen et al. (RAS)[4]通过迭代地使用骨干网络的侧输出显著性作为特征注意指南来预测和细化显著图。Zhang et al. (BMPM)[50]提出通过受控的双向传递策略来整合浅层和深层的特征。Deng et al. (R3Net+)[6]交替合并浅层和深层的功能，以细化预测的显著图。Hu et al. (RADF+)[14]提出通过递归聚合多层深度特征来检测显著对象。Wu et al.(MLMS)[42]通过开发新的相互学习模块以更好地利用边界和区域的相关性来提高显著性检测的准确性。Wu et al.[43]提出使用级联部分解码器(CPD)框架实现快速准确的显著目标检测。该类别中的深度方法利用了骨干网络提取的多层次深度特征，大大提高了显著目标检测相对于传统方法的门槛。多尺度特征提取：如前所述，显著性检测既需要局部信息，也需要全局信息。3×3的滤波器可以很好地提取每一层的局部特征。然而，简单地通过增大滤波器的大小来提取全局信息是困难的，因为这会大大增加参数的数量和计算成本。许多作品更注重提取全局上下文。Wang et al. (SRM)[40]调整金字塔合用模块[57]以捕获全局上下文，并提出用于显著图精化的多阶段精化机制。Zhang et al. (PAGRN)[56]开发了基于空间和通道的注意模块来获取每一层的全局信息，并提出了一种渐进式注意引导机制来细化显著图。Wang et al.(DGRL)[41]开发类似于开始的[36]上下文加权模块来全局定位显著对象，然后使用边界细化模块来局部细化显著图。Liu et al.(PICANet)[23]通过将其与UNET架构相结合，反复捕获局部和全局像素级上下文关注，并预测显著图。Zhang et al. (CapSal)[51]设计了一个局部和全局感知模块，从骨干网络提取的特征中提取局部和全局信息。Zeng et al.(MSW)[48]设计了一个注意力模块来预测前景对象在图像区域上的空间分布，同时聚合它们的特征。Feng et al. (AFNet)[9]开发了一个全局感知模块和注意力反馈模块，以更好地探索显著对象的结构。Qin et al.(Basnet)[33]通过堆叠两个不同配置的U-net，提出了一种预测精细化模型顺序和用于边界感知显著目标检测的混合损失。Liu et al.(PoolNet)[22]通过引入用于提取全局定位特征的全局指导模块和用于融合全局和精细特征的金字塔池模块的多尺度特征聚合模块，开发了用于显著对象检测的编解码器体系结构。在这些方法中，提出了许多鼓舞人心的模块来从现有主干提取的多层次深层特征中提取多尺度特征。这些新颖的模块引入了多样化的接受域和更丰富的多尺度上下文特征，显着提高了显著目标检测模型的性能。综上所述，多层次深度特征集成方法主要着眼于开发更好的多层次特征聚合策略。另一方面，多尺度特征提取方法的目标是设计新的模块，从骨干网络获得的特征中提取局部信息和全局信息。我们可以看到，几乎所有上述方法都试图更好地利用现有图像分类骨干生成的特征地图。我们没有开发和添加更复杂的模块和策略来使用这些骨干特征，而是提出了一种新颖而简单的体系结构，直接分阶段提取多尺度特征，用于显著目标检测。

3.建议的方法

首先，我们介绍了我们提出的ReSidual U-blocks (RSU)的设计，然后描述了用该块构建的嵌套U体系结构的细节。本节最后介绍了网络监控策略和训练损失。

3.1. Residual U-blocks

局部和全局上下文信息对于显著对象检测和其他分割任务都是非常重要的。在VGG、ResNet、DenseNet等现代CNN设计中，尺寸为1×1或3×3的小卷积滤波器是最常用的特征提取部件。它们很受欢迎，因为它们需要较少的存储空间，并且计算效率很高。图2(a)-(c）示出了具有小接受场的典型现有卷积块。由于1×1或3×3滤波器的感受场太小，不能捕捉全局信息，因此输出的浅层特征图只包含局部特征。为了在浅层的高分辨率特征图上获得更多的全局信息，最直接的思路是扩大接受范围。图2(d)示出了类似块[50]的开始，其试图通过使用扩张的卷积来扩大感受野来提取局部和非局部特征[3]。然而，在原始分辨率下对输入特征图进行多次膨胀卷积(特别是在早期)需要过多的计算和存储资源。为了降低计算成本，PoolNet[22]来自金字塔池模块(PPM)[57]采用并行融合，它对下采样特征图使用小核滤波器，而不是原始大小特征图上的膨胀卷积。而不同尺度特征的融合是通过高分辨率特征的直接上采样和级联（或加法）可能会导致性能下降来实现的。在这里插入图片描述

图2.现有卷积块和我们建议的residual U-block(RSU)的图解：(a)平面卷积块Plain convolution block(PLN)，(b)类残差块Residual-like block(RES)，(c)类起始块Inception-like block(INC)，(d)Dense-like block(DSE) 和(e)我们的residual U-block(RSU)。

受U-Net的启发，我们提出了一种新的ReSidual U-blocks (RSU)，用于捕获级内多尺度特征。RSU-L(Cin，M，Cout)的结构如图2(e)所示，其中L是编码器中的层数，Cin，Cout表示输入和输出通道，M表示RSU内部层中的通道数。因此，我们的RSU主要由三个部分组成：在这里插入图片描述

图3.残差块与我们的RSU的比较。

(i)输入卷积层，其将输入特征图x(H×W×Cin)变换为具有通道Cout的中间图F1(X)。这是一个用于局部特征提取的普通卷积层。 (ii)高度为L的类似Unet的对称编解码器结构，其将中间特征映射F1(X)作为输入，并学习提取和编码多尺度上下文信息U(F1(X))。U表示如图2(e)所示的U-net结构。更大的L会导致更深的residual U-block (RSU)，更多的池化操作，更大的接受场范围和更丰富的局部和全局特征。配置该参数可以从输入特征图中提取任意空间分辨率的多尺度特征。来自具有任意空间分辨率的输入要素地图的配置此参数可进行多尺度提取要素。从逐步下采样的特征图中提取多尺度特征，并通过逐级上采样、级联和卷积将多尺度特征编码成高分辨率的特征图。该过程减轻了由大尺度的直接上采样造成的精细细节的损失。 (iii)通过求和来融合局部特征和多尺度特征的残差连接：F1(X)+U(F1(X))。为了更好地说明我们设计背后的直观，我们将图3中的残差U块(RSU)与原始残差块[12]进行比较。残差块中的运算可以总结为H(X)=F2(F1(X))+x，其中H(X)表示输入特征x的期望映射；F2、F1表示权重层，它们是卷积此设置中的操作。RSU和残差块之间的主要设计差异在于，RSU用类似U-Net的结构替换了普通的单流卷积，并用由权重层变换的局部特征替换了原始特征：HRSU(X)=U(F1(X))+F1(X)，其中U表示图2(E)中所示的多层U-结构。此设计更改使网络能够直接从每个残差块提取多个比例的特征。更值得注意的是，由于大多数操作应用于下采样的特征地图，因此由于U-结构导致的计算开销很小。这在图4中进行了说明，其中我们在图2(a)-(d)中显示了RSU与其他特征提取模块之间的计算成本比较。密集块(DSE)、起始块(INC)和RSU的触发器都随着内部信道数M的增加呈二次曲线增长，但RSU在二次项上的系数要小得多，从而提高了效率。它的计算开销与平面卷积(PLN)和残差块(RES)块相比，这两个块都是线性的w.r.t…M，并不重要。在这里插入图片描述

图4.图2所示不同块的计算成本(GFLOPS千兆浮点运算)：计算成本是根据将一个尺寸为320×320×3的输入特征图转换为一个320×320×64个输出特征图来计算的。“PLN”、“RES”、“DSE”、“INC”和“RSU”分别表示平面卷积块、残差块、致密块、起始块和我们的 residual U-block块。 3.2. Architecture of U2-Net

为不同的任务堆叠多个类似U-Net的结构已经探索了一段时间。例如用于姿态估计的堆叠式小时窗网络[31]、DocUNet[28]、CU-Net[38]等。这些方法通常顺序堆叠类似U-Net的结构以构建级联模型，并且可以概括为“(U×n-Net)”，其中n是重复的U-Net模块的数量。问题是计算和内存成本被放大了n。在这篇文章中，我们提出了一个不同的公式，UnNet，堆叠的U-结构用于显著目标检测。我们的指数表示法指的是嵌套的U型结构，而不是级联堆叠。理论上，可以将指数n设置为任意正整数，实现单级或多级嵌套U型结构。但是，嵌套层次过多的体系结构将过于复杂，无法在实际应用程序中实现和使用。在这里插入图片描述

图5.我们建议的U2-NET体系结构的图示。主要结构是一个类似U-Net的编解码器，其中每一级都由我们新提出的residual U-block(RSU)组成。例如，EN 1基于我们的RSU块，如图2(e)所示。表1最后两行给出了每级RSU模块的详细配置。

这里，我们将n设置为2来构建我们的U2-net。我们的U2net是一个两级嵌套的U型结构，如图5所示，它的顶层是一个由11个阶段组成的大U型结构(图5中的立方体)。每级由配置良好的ReSidual U-blocks (RSU)(底层U结构)填充。因此，嵌套的U-结构使得级内多尺度特征的提取和级间多层特征的聚合更有效。如图5所示，U2-Net主要由三部分组成：(1)6级编码器，(2)5级解码器，(3)连接解码器级和最后编码级的显著图融合模块： (i)在编码器阶段EN1、EN2、EN3和EN4中，我们分别使用ReSidual U-blocks RSU-7、RSU-6、RSU-5和RSU-4。如前所述，“7”、“6”、“5”和“4”表示RSU块的高度(L)。L通常根据输入特征图的空间分辨率进行配置。对于高度和宽度较大的要素地图，我们使用较大的L来捕捉更多的大比例尺信息。EN5和EN6中的特征映射的分辨率相对较低，进一步对这些特征映射进行下采样会导致丢失有用的上下文。因此，在EN5和EN6阶段，RSU-4F，其中“F”表示RSU是扩展版本，在该版本中，我们用扩展卷积替换合并和上采样操作(参见图5)。这意味着RSU-4F的所有中间特征图与其输入特征图具有相同的分辨率。 (ii)关于EN6，解码器级具有与其对称编码级相似的结构。在DE5中，我们还使用了与编码级EN 5和EN 6中使用的相似的扩展版本ReSidual U-blocks RSU-4F。每个解码器级将其上一级的上采样特征映射与其对称编码级的上采样特征映射的级联作为输入，见图5。 (Iii)显著性图融合模块，用于生成显著性概率图。类似于HED[45]，我们的U2-net首先通过3×3卷积层和一个S型函数从阶段EN6、DE5、DE4、DE3、DE2和DE1产生六个侧输出显著性概率图S(6)侧、S(5)侧、S(4)侧、S(3)侧、S(2)侧、S(1)侧。然后，它将这些显著图上采样到输入图像大小，并利用紧接着1×1卷积层和Sigmoid函数的级联操作将它们融合，以生成最终的显著概率图Sfuse(参见图5的右下角)。

表1.对比实验中使用的不同架构的详细配置。“PLN”、“RES”、“DSE”、“INC”、“PPM”和“RSU”分别表示平面卷积块、残差块、致密块、起始块、金字塔合并模块和我们的residual U-block。“NIV U2-Net”指的是每一级都被一个朴素的U-Net块取代的U-Net。“I”、“M”和“O”表示每个块的输入通道数(Cin)、中间通道数和输出通道数(Cout)。“EN_i”和“DE_j”分别表示编码级和解码级。“NIV-L”和“RSU-L”中的数字“L”表示naive U-block和我们的residual U-block的高度。

在这里插入图片描述

3.3. Supervision

在训练过程中，我们使用类似于HED[45]的深度监督。它的有效性已经在HED和DSS中得到了验证。我们的训练损失定义为：在这里插入图片描述

4.实验结果 4.1.数据集

训练数据集：我们在DUTS-TR上训练我们的网络，这是DUTS数据集[39]的一部分。DUTS-TR总共包含10553个图像。目前，它是用于显著目标检测的最大和最频繁使用的训练数据集。我们通过水平翻转来扩充这个数据集，以离线获得21106个训练图像。评估数据集：使用六个常用的基准数据集来评估我们的方法，包括：DUTOMRON[47]、DUTS-TE[39]、HKU-IS[18]、ECSSD[46]、PASCAL-S[19]、SOD[30]。DUT-OMRON包括5168幅图像，其中大部分包含一个或两个结构复杂的前景对象。DUTS数据集由DUTS-TR和DUTS-TE两部分组成。如上所述，我们使用DUTS-TR进行训练。因此，我们选择包含5019幅图像的DUTS-TE作为评价数据集之一。HKU-IS包含4447幅具有多个前景对象的图像。ECSSD包含1000幅结构复杂的图像，其中许多图像包含较大的前景对象。PASCAL-S包含850幅具有复杂前景对象和杂乱背景的图像。SOD只包含300张图片。但这是非常具有挑战性的。因为它最初是为图像分割而设计的，而且很多图像都是低对比度的，或者包含与图像边界重叠的复杂前景对象。

4.2.评估指标

深度显著目标方法的输出通常是与输入图像具有相同空间分辨率的概率图。预测的显著图的每个像素具有在0到1(或[0,255])范围内的值。地面实况通常是二进制遮罩，其中每个像素都是0或1(或0和255)，其中0表示背景像素，1表示前景显著对象像素。为了综合评价这些概率图相对于地面事实的质量，使用了六个度量，包括(1)精度-回忆(PR)曲线，(2)最大F测度(MAXFβ)[1]，(3)平均绝对误差(MAE)[23，33，22]，(4)加权F测度(FWβ)[29]，(5)结构测度(Sm)[8]和(6)松弛边界F测度(relex Fbβ)[33]： (1)根据一组查准率-查全率对绘制PR曲线。给定预测的显著概率图，通过比较其阈值二值掩码和地面真实掩码来计算其准确率和召回率得分。数据集的精确度和召回率是通过平均这些显著图的精确度和召回率分数来计算的。通过改变阈值从0到1，我们可以得到一组数据集的平均查准率-召回率对。在这里插入图片描述 (6)利用RELAX边界F-MEASURE RELAX Fbβ[7]来定量评价预测显著图的边界质量[33]。给定显著概率图P∈[0，1]，通过简单的阈值操作(阈值设置为0.5)获得其二进制掩码Pbw。然后，进行XOR(PBW，PERD)运算以获得其一个像素宽的边界，其中PERD表示PBW的侵蚀的二进制掩模[11]。用同样的方法得到地面真实掩模的边界。松弛边界F-测度松弛Fbβ的计算类似于公式(3)。不同之处在于公式(3)中使用了 relax Precisionb和relaxRecallb。松弛边界精度的定义(松弛P累积量b)是预测边界像素相对于地面真实边界像素在ρ像素范围内的分数。松弛边界调用(RELAX_Recallb)被定义为在预测边界像素的ρ像素内的地面真实边界像素的分数。与前一工作[33]中一样，将松弛参数ρ设置为3。本文给出了一个给定的数据集，其所有预测显著图的平均弛豫Fbβ。

4.3.实施细节

在训练过程中，首先将每张图像的大小调整到320×320，然后随机垂直翻转并裁剪到288×288。我们的网络中没有使用任何现有的主干。因此，我们从头开始训练网络，所有卷积层都由Xavier[10]初始化。损失权重w(M)side和wf use均设置为1。ADAM优化器[16]用于训练我们的网络，其超参数设置为默认值(初始学习率LR=1e-3，β=(0.9，0.999)，Eps=1e-8，权重衰减=0)。我们训练网络直到损失收敛，而不使用遵循前面方法[22，23，50]的验证集。经过60万次迭代(批次规模为12次)，训练损耗收敛，整个训练过程耗时约120小时。在测试过程中，将输入图像(H×W)的大小调整为320×320，并将其送入网络以获得显著图。大小为320×320的预测显著图被调整回输入图像的原始大小(H×W)。在两个调整大小的过程中都使用双线性插值。我们的网络是基于Pytorch 0.4.0[32]实现的。培训和测试都是在一台8核、16线程的PC上进行的，该PC配备了AMD Ryzen 1800x 3.5 GHz CPU(32 GB RAM)和GTX 1080ti GPU(11 GB内存)。我们将在稍后发布我们的代码。

4.4. Ablation Study

为了验证我们的U2net的有效性，我们从以下三个方面进行了消融研究：i)基本块，ii)结构和iii)主干。所有的消融研究都遵循相同的实验设置。

4.4.1 Ablation on Blocks

在块消融中，目标是验证我们新设计的residual U-blocks (RSUs)的有效性。具体地说，我们修复了我们的U2-Net的外部编解码器体系结构，并用除RSU块之外的其他流行的块来替换它的级，包括普通卷积块(PLN)、类剩余块(RSE)、致密类块(DSE)、类起始块(INC)和金字塔池模块(PPM)，如图2(a)-(d)所示。有关详细配置，请参见表1。

表2.不同区块、结构和主干的消融研究结果。“PLN”、“RES”、“DSE”、“INC”、“PPM”和“RSU”分别表示平面卷积块、残差块、致密块、起始块、金字塔合并模块和我们的剩余U块。“NIV U2-NET”指的是每一级都用一个朴素的UNET块代替的U-NET。通过平均ECSSD数据集中的图像的推断时间成本来计算“时间(Ms)”(ms：毫秒)成本。带有粗体的值表示最佳的两个性能。

在这里插入图片描述

表2显示了消融研究的定量结果。可以看出，基准U-Net的性能最差，PLN U-Net、RES U-Net、DES U-Net、INC U-Net 和PPM U-Net的性能要好于基准U-Net。因为它们要么更深，要么具有提取多尺度特征的能力。然而，它们的性能仍然不如我们的全尺寸U2-Net和小型版本U2-Net†。特别是，我们的全尺寸U2-Net在DUT-OMRON和ECSSD数据集上分别提高了最大Fβ约3.3%和1.8%，与次优模型(在块消融研究中)相比，MAE分别降低了12.9%和21.4%。此外，我们的U2-Net和U2-Net†使MAXFβ分别提高了9.8%和8.8%，MAE分别降低了34.1%和27.0%，与基准U-NET相比，这些都是显著的改进。在ECSSD数据集上，虽然我们的U2-NET和U2-Netβ相对于基准U-Net的最大F-†改进(5.5%，4.7%)略低于DUT-OMRON，但MAE的改进是高得多(50.0%、38.0%)。因此，我们相信在这个显著的目标检测任务中，我们新设计的residual U-block RSU 比其他的要好。此外，我们的基于residual U-block(RSU)的U2-Net架构没有显著的时间开销增加。

4.4.2 Ablation on Architectures

如上所述，以前的方法通常使用级联方式来堆叠多个相似的结构，以构建更具表现力的模型。这个想法背后的直觉之一是，多个相似的结构能够在减少过度拟合的同时逐步完善结果。堆叠式HourglassNet[31]和CU-Net[37]是这一类别中的两个有代表性的模型。因此，我们采用堆叠的HourglassNet和CU-Net来比较级联体系结构和嵌套体系结构的性能。如表2所示，我们的全尺寸U2-Net和小尺寸模型U2-Net†的性能都优于这两个级联模型。值得注意的是，堆叠式HourglassNet和CU-Net都使用改进的类似U-Net的模块作为堆叠子模型。为了进一步证明嵌套结构的有效性，我们还展示了基于朴素U-块(NIV)的U2-网的性能，而不是我们新提出的剩余U-块。我们可以看到，NIV U2-Net仍然取得了比这两个级联模型更好的性能。此外，嵌套体系结构比级联体系结构更快。总而言之，我们的嵌套体系结构在准确性和速度方面都能够实现比级联体系结构更好的性能。

4.4.3 Ablation on Backbones

不同于以前使用主干的显著目标检测模型(例如，VGG、ResNet等)。作为它们的编码器，我们新提出的U2-Net架构是无骨干网的。为了验证去骨干网的设计，我们进行了拓展研究，用不同的骨干网VGG16和ResNet50替换我们全尺寸U2网的编码器部分。实际上，我们调整了主干(VGG-16和ResNet50)，在它们的最后一个卷积阶段之后增加了一个额外的阶段，以实现与我们最初的U2-Net架构设计相同的接受域。如表2所示，使用主干和我们的RSU作为解码器的模型获得了比以前的拓展更好的性能，并且与我们的小尺寸U2网的性能相当。然而，它们仍然低于我们的全尺寸U2网。因此，我们认为，在这个突出的目标检测任务中，我们的无骨干设计比基于骨干的设计更具竞争力。

4.5.与最先进的比较

我们将我们的模型(全尺寸U2-Net，176.3 MB和小尺寸U2-Net†，4.7MB)与20种最先进的方法进行了比较，其中包括一种基于ALEXNET的模型：MDF；10种基于VGG的模型：UCF、Amulet、NLDF、DSS、RAS、PAGRN、BMPM、PICANET、MLMS、AFNET；一种基于DenseNet的模型MSW；一种基于ResNeXt的模型：R3Net；以及七种ResNet。为了公平比较，我们主要使用作者提供的显著目标检测结果。对于某些方法在某些数据集上缺失的结果，我们使用它们在建议的环境设置上训练的模型来运行它们发布的代码。

4.5.1定量比较

在这里插入图片描述

图6.我们的模型和其他典型的最先进模型在六个SOD数据集上的精确召回曲线。

图6展示了我们的模型(U2-NET，176.3 MB和U2-NET†，4.7MB)的精度召回曲线，以及在六个数据集上的典型最新方法。曲线与表3和表4一致，表3和表4显示了我们的U2-Net在DUT-OMRON、HKU-IS和ECSSD上的最新性能，以及在其他数据集上的竞争性能。表3和表4将我们提出的方法的5个(6个包括模型大小)评估度量和模型大小与其他方法进行了比较。正如我们所看到的，我们的U2-Net在DUT-OMRON、HKU-IS和ECSSD数据集上取得了几乎所有五个评估指标的最佳性能。在DUTS-TE数据集上，我们的U2-Net取得了第二好的整体性能，略逊于PoolNet。在PASCAL-S上，我们的U2-Net的性能略逊于AFNet、CPD和PoolNet。值得注意的是，在边界质量评估指标RELAX Fbβ方面，U2-NET取得了第二好的性能。在SOD数据集上，PoolNet的性能最好，我们的U2-Net的整体性能次之。我们的U2-Net†只有4.7MB，是目前显著目标检测领域最小的模型。与其他模型相比，它的参数数量要少得多，但仍然获得了令人惊讶的竞争性能。虽然它的性能不如我们的全尺寸U2Net，但它的小体积将有助于它在许多计算和内存受限的环境中的应用。

4.5.2定性比较：

为了直观地理解我们的模型的良好性能，我们在图7中说明了我们的模型的样本结果和其他几种最先进的方法。正如我们可以看到的那样，我们的U2net和U2net†能够处理不同类型的目标，并产生准确的显著目标检测结果。图7的第1行和第2行显示了小对象和大对象的结果。正如我们可以观察到的，我们的U2-Net和U2Net†能够在小对象和大对象上产生准确的结果。其他模型要么容易漏掉小目标，要么容易产生精度较差的大目标。第三行显示了目标接触图像边界的结果。我们的U2-NET正确地分割了所有区域。虽然U2Net†错误地分割了右下孔，但仍然比其他机型好很多。第4行展示了模型在分割由大结构和薄结构组成的目标时的性能。正如我们所看到的，除了AFNet(ol(J))之外，大多数其他模型都能很好地提取大区域，但缺少电缆方向的薄结构。第5行显示的是一棵树，背景为相对干净的蓝色天空。这看起来很简单，但由于目标的形状复杂，实际上对大多数模型都是具有挑战性的。由此可见，我们的模型能够很好地分割树干和树枝，而其他一些模型在分割复杂的树枝区域时却失败了。与第5排相比，第6排的长凳更复杂，这要归功于空心结构。我们的U2网络产生了近乎完美的结果。虽然U2网†预测图的右下角并不完美，但它在这一指标上的整体性能要远远好于其他模型。此外，与PoolNet(ol(F))、CPD(ol(G))、PiCANetR(ol(H))和AFNet(ol(J))相比，我们的模型的结果更均匀，灰度区域更少。第7行显示，我们的模型可以产生比地面事实更好的结果。在第七张图像中给这些小孔贴上标签既繁重又耗时。因此，这些重复的精细结构在注释过程中通常被忽略。从这些不完美的标签中推断出正确的结果是具有挑战性的。但是，我们的模型在分割这些精细结构方面表现出了良好的能力，这要归功于设计良好的架构来提取和整合高分辨率的局部和低分辨率的全局信息。第8行和第9行的例子说明了我们的模型对背景杂乱和前景复杂的目标具有很强的检测能力。第10行显示，我们的模型能够在捕获多个目标的同时分割多个目标探测到的目标的详细信息(见每艘帆船的两片帆的间隙区域)。总而言之，我们的全尺寸和小尺寸模型都能够处理各种场景，并产生高精度的显著目标检测结果。

5.结论

本文提出了一种新的用于显著目标检测的深度网络：U2Net。我们的U2-Net的主要结构是一个两级嵌套的U-结构。我们最新设计的RSU模块的嵌套U结构使网络能够从浅层和深层捕获更丰富的局部和全局信息，而不考虑分辨率。与那些建立在现有主干上的SOD模型相比，我们的U2-Net完全建立在建议的RSU块上，这使得可以从头开始训练，并且可以根据目标环境的约束配置不同的模型大小。本文提供了一个全尺寸的U2Net(176.3 MB，30FPS)和一个较小尺寸的U2-Net†(4.7MB，40FPS)。在6个公开的显著目标检测数据集上的实验结果表明，这两种模型在定性和定量方面都取得了与其他20种最先进方法相当的性能。虽然我们的模型取得了与其他最先进的方法相媲美的结果，但对于计算和内存有限的设备，如手机、机器人等，需要更快、更小的模型。在不久的将来，我们将探索不同的技术和架构，以进一步提高速度和减小模型尺寸。此外，需要更大的多样化显著对象数据集来训练更准确、更健壮的模型。

【本文地址】

公司简介

联系我们