[人工智能] Mask R-CNN

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> Mask R-CNN -> 正文阅读

[人工智能]Mask R-CNN

Abstract

我们提出了一个概念上简单、灵活和通用的目标实例分割框架。我们的方法有效地检测图像中的目标，同时为每个实例生成高质量的分割mask。该方法称为Mask R-CNN，通过添加用于预测目标mask的分支与用于边界框识别的现有分支并行来扩展Faster R-CNN。 Mask R-CNN很容易训练，并且只为Faster R-CNN增加了一点开销，运行速度为5 fps。此外，Mask R-CNN很容易推广到其他任务，例如，允许我们在同一框架中估计人体姿态。我们在COCO挑战套件的所有三个轨道中展示了最佳结果，包括实例分割、边界框目标检测、和人物关键点检测。没有花里胡哨的东西，Mask R-CNN在每项任务上都优于所有现有的单一模型条目，包括COCO 2016挑战赛的获胜者。我们希望我们简单而有效的方法将作为一个坚实的基准，并有助于简化未来在实例级识别方面的研究。代码已在以下位置提供：https://github.com/facebookresearch/Detectron。

1. Introduction

视觉社区在短时间内迅速改进了目标检测和语义分割结果。在很大程度上，这些进步是由强大的baseline系统推动的，例如分别用于目标检测和语义分割的Fast/Faster RCNN[12, 36]和全卷积网络(FCN)[30]框架。这些方法在概念上很直观，提供了灵活性和鲁棒性，以及快速的训练和推理时间。我们在这项工作中的目标是为实例分割开发一个类似的支持框架。

实例分割具有挑战性，因为它需要正确检测图像中的所有目标，同时还要精确分割每个实例。因此，它结合了目标检测的经典计算机视觉任务中的元素，其中目标是对单个目标进行分类并使用边界框定位每个目标，以及语义分割，其中目标是将每个像素分类为一组固定的类别而不区分目标实例（按照通用术语，我们使用目标检测来表示通过边界框而不是mask进行检测，并使用语义分割来表示逐像素分类而不区分实例。然而，我们注意到实例分割既是语义又是一种检测形式。）。鉴于此，人们可能期望需要一种复杂的方法才能获得良好的结果。然而，我们展示了一个令人惊讶的简单、灵活和快速的系统可以超越先前最先进的实例分割结果。

图 1. 用于实例分割的Mask R-CNN框架。

我们的方法称为Mask R-CNN，扩展了Faster R-CNN[36]，方法是在每个感兴趣区域(RoI)上添加一个用于预测分割mask的分支，与用于分类和边界框回归的现有分支并行（图1）。mask分支是应用于每个RoI的小型FCN，以像素到像素的方式预测分割mask。鉴于Faster R-CNN框架，Mask R-CNN易于实现和训练，这有助于广泛的灵活架构设计。此外，mask分支仅增加了少量计算开销，从而实现了快速系统和快速实验。

原则上，Mask R-CNN是Faster R-CNN的直观扩展，但正确构建mask分支对于获得良好结果至关重要。最重要的是，Faster RCNN并不是为网络输入和输出之间的像素到像素对齐而设计的。这在RoIPool[18, 12]（用于处理实例的事实上的核心操作）如何为特征提取执行粗略空间量化时最为明显。为了解决错位问题，我们提出了一个简单的quantization-free层，称为RoIAlign，它忠实地保留了精确的空间位置。尽管看起来很小的变化，但RoIAlign产生了很大的影响：它将mask准确率提高了10%到50%，在更严格的定位指标下显示出更大的收益。其次，我们发现解耦mask和类别预测至关重要：我们独立地为每个类别预测一个二进制mask，没有类别之间的竞争，并依靠网络的RoI分类分支来预测类别。相比之下，FCN通常执行逐像素多类分类，将分割和分类结合起来，并且根据我们的实验，实例分割效果不佳。

没有花里胡哨的东西，Mask R-CNN在COCO实例分割任务[28]上超越了所有以前最先进的单模型结果，包括2016年竞赛获胜者的精心设计的条目。作为额外实验，我们的方法在COCO目标检测任务上也表现出色。在消融实验中，我们评估了多个基本实例，这使我们能够证明其稳健性并分析核心因素的影响。

我们的模型可以在GPU上以每帧约200毫秒的速度运行，而在COCO上的训练在单个8-GPU机器上需要一到两天时间。我们相信，快速的训练和测试速度，以及框架的灵活性和准确性，将有利于并简化未来对实例分割的研究。

最后，我们通过在COCO关键点数据集[28]上进行人体姿态估计的任务展示了我们框架的通用性。通过将每个关键点视为one-hot二进制mask，只需进行最小修改，Mask R-CNN就可以用于检测特定于实例的姿态。 Mask R-CNN超越了2016年COCO关键点竞赛的获胜者，同时以5 fps的速度运行。因此，Mask R-CNN可以被更广泛地视为实例级识别的灵活框架，并且可以很容易地扩展到更复杂的任务。

我们已经发布了代码以促进未来的研究。

2. Related Work

R-CNN: 基于区域的CNN(R-CNN)方法[13]用于边界框目标检测，关注可管理数量的候选目标区域[42，20]并在每个RoI上独立评估卷积网络[25，24]。扩展了R-CNN[18，12]以允许使用RoIPool关注特征地图上的ROI，从而提高速度和准确性。Faster R-CNN[36]通过学习区域提议网络(RPN)的注意机制推进了这种流。Faster R-CNN对于许多后续改进(例如[38，27，21])是灵活和健壮的，并且在几个基准中是当前领先的框架。

实例分割： 在RCNN的有效性驱动下，许多实例分割方法都是基于分割proposal的。早期的方法[13, 15, 16, 9]采用自下而上的分割[42, 2]。DeepMask[33]和后续作品[34, 8]学习提出候选分割，然后由Fast R-CNN分类。在这些方法中，分割先于识别，这是缓慢且不太准确的。同样，Dai等人[10]提出了一种复杂的多阶段级联，从边界框proposal中预测分割proposal，然后进行分类。相反，我们的方法基于mask和类标签的并行预测，更简单、更灵活。

最近，Li等人[26]将[8]中的分割proposal系统和[11]中的目标检测系统结合起来用于“全卷积实例分割”（FCIS）。 [8, 11, 26] 中的共同思想是全卷积地预测一组位置敏感的输出通道。这些通道同时处理目标类、框和mask，使系统运行速度更快。但是FCIS在重叠实例上表现出系统错误并产生虚假边缘（图6），表明它受到分割实例的基本困难的挑战。

另一个实例分割的解决方案系列[23, 4, 3, 29]是由语义分割的成功驱动的。从每个像素的分类结果（如FCN输出）开始，这些方法试图将同一类别的像素切割成不同的实例。与这些方法的分割优先策略相比，Mask R-CNN是基于实例优先策略的。我们期望未来能对这两种策略进行更深入的整合研究。

图 2. COCO测试集上的Mask R-CNN结果。这些结果基于ResNet-101[19]，实现了35.7的掩码AP并以5 fps运行。mask以颜色显示，并且还显示了边界框、类别和置信度。

3. Mask R-CNN

Mask R-CNN在概念上很简单：Faster R-CNN对每个候选目标有两个输出，一个类标签和一个边界框偏移量；为此，我们添加了输出目标mask的第三个分支。因此，Mask R-CNN是一个自然而直观的想法。但是额外的mask输出与类和框输出不同，需要提取更精细的目标空间布局。接下来，我们介绍Mask R-CNN的关键元素，包括像素到像素对齐，这是Fast/Faster R-CNN的主要缺失部分。

Faster R-CNN： 我们首先简要回顾Faster R-CNN检测器[36]。 Faster R-CNN由两个阶段组成。第一阶段称为区域提议网络（RPN），提出候选目标边界框。第二阶段本质上是Fast R-CNN[12]，使用RoIPool从每个候选框中提取特征，并执行分类和边界框回归。两个阶段使用的特征可以共享以加快推理速度。我们推荐读者参考[21]，以了解Faster R-CNN和其他框架之间的最新、全面的比较。

Mask R-CNN： Mask R-CNN采用相同的两阶段过程，具有相同的第一阶段（即RPN）。在第二阶段，在预测类和框偏移的同时，Mask R-CNN还为每个RoI输出一个二进制mask。这与最近的系统形成对比，后者的分类取决于mask预测（例如[33, 10, 26]）。我们的方法遵循Fast R-CNN[12]的精神，并行应用边界框分类和回归（事实证明，这在很大程度上简化了原始R-CNN[13]的多阶段管道。

正式地，在训练期间，我们将每个采样RoI上的多任务损失定义为 $L=L_{c l s}+L_{\text {box }}+L_{\text {mask }}$ 。分类损失 $L_{c l s}$ 和边界框损失 $L_{\text {box }}$ 与[12]中定义的相同。mask分支对每个RoI都有一个 $K m^{2}$ 维输出，它编码分辨率为 $\times m$ 的 $K$ 个二进制mask，每个 $K$ 个类别一个。为此，我们应用每像素sigmoid，并将 $L_{mask}$ 定义为平均二进制cross-entropy损失。对于与ground-truth类 $k$ 相关的RoI， $L_{mask}$ 仅在第 $k$ 个mask上定义（其他mask输出对损失没有贡献）。

我们对 $L_{mask}$ 的定义允许网络为每个类生成mask，而不会在类之间进行竞争；我们依靠专用的分类分支来预测用于选择输出mask的类标签。这将mask和类别预测解耦。这与将FCN[30]应用于语义分割时的常见做法不同，后者通常使用每像素softmax和多项交叉熵损失。在这种情况下，不同类别的面具会相互竞争；在我们的例子中，对于每像素sigmoid和二元损失，它们不会。我们通过实验表明，该公式是获得良好实例分割结果的关键。

mask表示： mask对输入目标的空间布局进行编码。因此，与通过全连接（fc）层不可避免地折叠成短输出向量的类标签或框偏移不同，提取mask的空间结构可以通过卷积提供的像素到像素的对应关系自然地解决。

具体来说，我们使用FCN[30]从每个RoI预测一个 $\times m$ mask。这允许mask分支中的每一层保持明确的 $\times m$ 目标空间布局，而不会将其折叠成缺乏空间维度的向量表示。与以前使用fc层进行mask预测的方法不同[33、34、10]，我们的完全卷积表示需要更少的参数，并且如实验所示更准确。

这种像素到像素的行为要求我们的RoI特征（它们本身就是小特征图）能够很好地对齐，以忠实地保留显式的每像素空间对应关系。这促使我们开发以下RoIAlign层，该层在mask预测中起关键作用。

RoIAlign： RoIPool[12]是一种标准操作，用于从每个RoI中提取一个小的特征图（例如，7×7）。 RoIPool首先将一个浮点数RoI量化为特征图的离散粒度，然后将这个量化的RoI细分为空间bin，这些空间bin本身也进行了量化，最后聚合每个bin覆盖的特征值（通常通过最大池化）。例如，通过计算 $[x / 16]$ 在连续坐标 $x$ 上执行量化，其中16是特征图步幅， $[\cdot]$ 是舍入；同样，在划分为bin（例如，7×7）时执行量化。这些量化会在RoI和提取的特征之间引入错位。虽然这可能不会影响分类，分类对小平移很稳健，但它对预测像素精确的mask有很大的负面影响。

为了解决这个问题，我们提出了一个RoIAlign层，它消除了RoIPool的苛刻量化，将提取的特征与输入正确对齐。我们提出的改变很简单：我们避免对RoI边界或bin进行任何量化（即，我们使用 $x / 16$ 而不是 $[x / 16]$ ）。我们使用双线性插值[22]来计算每个RoI bin中四个定期采样位置的输入特征的精确值，并聚合结果（使用最大值或平均值），详见图3。我们注意到，只要不执行量化，结果对确切的采样位置或采样的点数不敏感。

如第4.2节所示，RoIAlign带来了巨大的改进。我们还比较了[10]中提出的RoIWarp操作。与RoIAlign不同，RoIWarp忽略了对齐问题，并在[10]中实现为像RoIPool一样量化RoI。因此，即使RoIWarp也采用了由[22]推动的双线性重采样，它的性能与实验所示的RoIPool相当（表2c中的更多细节），证明了对齐的关键作用。

图 3. RoIAlign：虚线网格表示特征图，实线表示RoI（在本例中为 2×2 bin），点表示每个bin中的4个采样点。 RoIAlign通过特征图上附近网格点的双线性插值计算每个采样点的值。不对任何涉及RoI、其bin或采样点的坐标执行量化。

网络架构： 为了展示我们方法的通用性，我们用多种架构实例化了Mask R-CNN。为清楚起见，我们区分：（i）用于对整个图像进行特征提取的卷积骨干架构，以及（ii）用于边界框识别（分类和回归）和mask预测的网络头，分别应用于每个RoI。

我们使用命名网络深度特征来表示骨干架构。我们评估深度为50或101层的ResNet[19]和ResNeXt[45]网络。使用ResNets[19]的Faster R-CNN的原始实现从第4阶段的最终卷积层中提取特征，我们称之为C4。例如，具有ResNet-50的主干由ResNet-50-C4表示。这是[19, 10, 21, 39]中使用的常见选择。

我们还探索了Lin等人[27]最近提出的另一个更有效的主干网络，称为特征金字塔网络(FPN)。 FPN使用带有横向连接的自上而下的架构，从单尺度输入构建网络内特征金字塔。具有FPN主干的Faster R-CNN根据其规模从特征金字塔的不同级别提取RoI特征，但除此之外，该方法的其余部分类似于vanilla ResNet。使用ResNet-FPN骨干网和Mask RCNN进行特征提取可以在准确度和速度上获得出色的提升。有关FPN的更多详细信息，我们请读者参考[27]。

对于网络头，我们密切遵循之前工作中提出的架构，我们在其中添加了一个全卷积的mask预测分支。具体来说，我们从ResNet[19]和FPN[27]论文中扩展了Faster R-CNN框头。详细信息如图4所示。ResNet-C4主干上的头部包括ResNet的第5阶段（即9层“res5”[19]），这是计算密集型的。对于FPN，主干已经包含res5，因此允许使用更少过滤器的更高效的头部。

我们注意到我们的mask分支具有简单的结构。更复杂的设计有可能提高性能，但不是这项工作的重点。

图 4. 头部架构：我们扩展了两个现有的Faster RCNN头部[19, 27]。左/右面板分别显示了来自[19]和[27]的ResNet C4和FPN主干的头部，其中添加了mask分支。数字表示空间分辨率和通道。箭头表示可以从上下文推断的conv、deconv或fc层（conv保留空间维度，而deconv增加它）。所有的conv都是3×3，除了输出conv是1×1，deconv是2×2，步长为2，我们在隐藏层中使用ReLU[31]。左：“res5”表示ResNet的第五阶段，为简单起见，我们对其进行了更改，以便第一个conv在7×7的RoI上运行，步幅为1（而不是[19]中的14×14 / 步幅 2）。右图：“×4”表示四个连续转换的堆叠。

3.1. Implementation Details

我们根据现有的Fast/Faster R-CNN工作[12、36、27]设置超参数。尽管这些决策是在原始论文[12、36、27]中针对目标检测做出的，但我们发现我们的实例分割系统对它们来说是稳健的。

训练： 与Fast R-CNN一样，如果RoI的IoU与ground-truth box至少为0.5，则认为RoI为正，否则为负。mask损失 $L_{mask}$ 仅在正RoI上定义。mask目标是RoI与其关联的ground-truth mask之间的交集。

我们采用以图像为中心的训练[12]。图像被调整大小，使其比例（较短的边缘）为800像素[27]。每个mini-batch每个GPU有2个图像，每个图像有 $N$ 个采样的RoI，正负比为1:3[12]。对于C4主干网络， $N$ 为64（如[12, 36] 中），对于FPN为512（如[27]中）。我们在8个GPU（因此有效的minibatch大小为16）上训练160k次迭代，学习率为0.02，在120k次迭代时降低了10。我们使用0.0001的权重衰减和0.9的动量。使用ResNeXt[45]，我们使用每个GPU的1张图像和相同的迭代次数进行训练，起始学习率为0.01。

RPN anchors跨越5个尺度和3个纵横比，遵循[27]。为了方便消融，RPN是单独训练的，不与 Mask R-CNN共享特征，除非另有说明。对于本文中的每个条目，RPN和Mask R-CNN具有相同的主干，因此它们是可共享的。

推断：在测试时，C4骨干网的proposal编号为300（如[36]中），FPN为1000（如[27]中）。我们在这些proposal上运行框预测分支，然后是非最大抑制[14]。然后将mask分支应用于得分最高的100个检测框。尽管这与训练中使用的并行计算不同，但它加速了推理并提高了准确性（由于使用了更少、更准确的RoI）。mask分支可以预测每个RoI的K个mask，但我们只使用第 $k$ 个mask，其中 $k$ 是分类分支预测的类。然后将 $\times m$ 浮点数mask输出调整为RoI大小，并二值化阈值为0.5。

请注意，由于我们只计算前100个检测框上的mask，Mask R-CNN为其Faster R-CNN对应物增加了少量开销（例如，在典型模型上约为20%）。

图 6. FCIS+++ [26]（上）与 Mask R-CNN（下，ResNet-101-FPN）。 FCIS 在重叠目标上展示系统伪影。

References

[1] M. Andriluka, L. Pishchulin, P . Gehler, and B. Schiele. 2D human pose estimation: New benchmark and state of the art analysis. In CVPR, 2014. 8

[2] P . Arbeláez, J. Pont-Tuset, J. T. Barron, F. Marques, and J. Malik. Multiscale combinatorial grouping. In CVPR, 2014. 2

[3] A. Arnab and P . H. Torr. Pixelwise instance segmentation with a dynamically instantiated network. In CVPR, 2017. 3, 9

[4] M. Bai and R. Urtasun. Deep watershed transform for instance segmentation. In CVPR, 2017. 3, 9

[5] S. Bell, C. L. Zitnick, K. Bala, and R. Girshick. Insideoutside net: Detecting objects in context with skip pooling and recurrent neural networks. In CVPR, 2016. 5

[6] Z. Cao, T. Simon, S.-E. Wei, and Y . Sheikh. Realtime multiperson 2d pose estimation using part affinity fields. In CVPR, 2017. 7, 8

[7] M. Cordts, M. Omran, S. Ramos, T. Rehfeld, M. Enzweiler, R. Benenson, U. Franke, S. Roth, and B. Schiele. The Cityscapes dataset for semantic urban scene understanding.In CVPR, 2016. 9

[8] J. Dai, K. He, Y . Li, S. Ren, and J. Sun. Instance-sensitive fully convolutional networks. In ECCV, 2016. 2

[9] J. Dai, K. He, and J. Sun. Convolutional feature masking for joint object and stuff segmentation. In CVPR, 2015. 2

[10] J. Dai, K. He, and J. Sun. Instance-aware semantic segmentation via multi-task network cascades. In CVPR, 2016. 2, 3, 4, 5, 6

[11] J. Dai, Y . Li, K. He, and J. Sun. R-FCN: Object detection via region-based fully convolutional networks. In NIPS, 2016. 2

[12] R. Girshick. Fast R-CNN. In ICCV, 2015. 1, 2, 3, 4, 6

[13] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In CVPR, 2014. 2, 3

[14] R. Girshick, F. Iandola, T. Darrell, and J. Malik. Deformable part models are convolutional neural networks. In CVPR, 2015. 4

[15] B. Hariharan, P . Arbeláez, R. Girshick, and J. Malik. Simultaneous detection and segmentation. In ECCV. 2014. 2

[16] B. Hariharan, P . Arbeláez, R. Girshick, and J. Malik. Hypercolumns for object segmentation and fine-grained localization. In CVPR, 2015. 2

[17] Z. Hayder, X. He, and M. Salzmann. Shape-aware instance segmentation. In CVPR, 2017. 9

[18] K. He, X. Zhang, S. Ren, and J. Sun. Spatial pyramid pooling in deep convolutional networks for visual recognition. In ECCV. 2014. 1, 2

[19] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In CVPR, 2016. 2, 4, 7, 10

[20] J. Hosang, R. Benenson, P . Dollár, and B. Schiele. What makes for effective detection proposals? PAMI, 2015. 2

[21] J. Huang, V . Rathod, C. Sun, M. Zhu, A. Korattikara, A. Fathi, I. Fischer, Z. Wojna, Y . Song, S. Guadarrama, et al.Speed/accuracy trade-offs for modern convolutional object detectors. In CVPR, 2017. 2, 3, 4, 6, 7

[22] M. Jaderberg, K. Simonyan, A. Zisserman, and K. Kavukcuoglu. Spatial transformer networks. In NIPS, 2015. 4

[23] A. Kirillov, E. Levinkov, B. Andres, B. Savchynskyy, and C. Rother. Instancecut: from edges to instances with multicut. In CVPR, 2017. 3, 9

[24] A. Krizhevsky, I. Sutskever, and G. Hinton. ImageNet classification with deep convolutional neural networks. In NIPS, 2012. 2

[25] Y . LeCun, B. Boser, J. S. Denker, D. Henderson, R. E.Howard, W. Hubbard, and L. D. Jackel. Backpropagation applied to handwritten zip code recognition. Neural computation, 1989. 2

[26] Y . Li, H. Qi, J. Dai, X. Ji, and Y . Wei. Fully convolutional instance-aware semantic segmentation. In CVPR, 2017. 2, 3, 5, 6

[27] T.-Y . Lin, P . Dollár, R. Girshick, K. He, B. Hariharan, and S. Belongie. Feature pyramid networks for object detection.In CVPR, 2017. 2, 4, 5, 7

[28] T.-Y . Lin, M. Maire, S. Belongie, J. Hays, P . Perona, D. Ramanan, P . Dollár, and C. L. Zitnick. Microsoft COCO: Common objects in context. In ECCV, 2014. 2, 5

[29] S. Liu, J. Jia, S. Fidler, and R. Urtasun. SGN: Sequential grouping networks for instance segmentation. In ICCV, 2017. 3, 9

[30] J. Long, E. Shelhamer, and T. Darrell. Fully convolutional networks for semantic segmentation. In CVPR, 2015. 1, 3, 6

[31] V . Nair and G. E. Hinton. Rectified linear units improve restricted boltzmann machines. In ICML, 2010. 4

[32] G. Papandreou, T. Zhu, N. Kanazawa, A. Toshev, J. Tompson, C. Bregler, and K. Murphy. Towards accurate multiperson pose estimation in the wild. In CVPR, 2017. 8

[33] P . O. Pinheiro, R. Collobert, and P . Dollar. Learning to segment object candidates. In NIPS, 2015. 2, 3

[34] P . O. Pinheiro, T.-Y . Lin, R. Collobert, and P . Dollár. Learning to refine object segments. In ECCV, 2016. 2, 3

[35] I. Radosavovic, P . Dollár, R. Girshick, G. Gkioxari, and K. He. Data distillation: Towards omni-supervised learning.arXiv:1712.04440, 2017. 10

[36] S. Ren, K. He, R. Girshick, and J. Sun. Faster R-CNN: Towards real-time object detection with region proposal networks. In NIPS, 2015. 1, 2, 3, 4, 7

[37] S. Ren, K. He, R. Girshick, and J. Sun. Faster R-CNN: Towards real-time object detection with region proposal networks. In TPAMI, 2017. 10

[38] A. Shrivastava, A. Gupta, and R. Girshick. Training regionbased object detectors with online hard example mining. In CVPR, 2016. 2, 5

[39] A. Shrivastava, R. Sukthankar, J. Malik, and A. Gupta. Beyond skip connections: Top-down modulation for object detection. arXiv:1612.06851, 2016. 4, 7

[40] C. Sun, A. Shrivastava, S. Singh, and A. Gupta. Revisiting unreasonable effectiveness of data in deep learning era. In ICCV, 2017. 10

[41] C. Szegedy, S. Ioffe, and V . V anhoucke. Inception-v4, inception-resnet and the impact of residual connections on learning. In ICLR Workshop, 2016. 7

[42] J. R. Uijlings, K. E. van de Sande, T. Gevers, and A. W.Smeulders. Selective search for object recognition. IJCV, 2013. 2

[43] X. Wang, R. Girshick, A. Gupta, and K. He. Non-local neural networks. arXiv:1711.07971, 2017. 10

[44] S.-E. Wei, V . Ramakrishna, T. Kanade, and Y . Sheikh. Convolutional pose machines. In CVPR, 2016. 8

[45] S. Xie, R. Girshick, P . Dollár, Z. Tu, and K. He. Aggregated residual transformations for deep neural networks. In CVPR, 2017. 4, 10

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

加:2022-07-03 10:48:33 更:2022-07-03 10:48:54

360图书馆购物三丰科技阅读网日历万年历 2025年7日历

-2025/7/15 7:48:51-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码