[人工智能] Improving Multispectral Pedestrian Detection by Addressing Modality Imbalanece Problems（解决模态不平衡问）

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> Improving Multispectral Pedestrian Detection by Addressing Modality Imbalanece Problems（解决模态不平衡问） -> 正文阅读

[人工智能]Improving Multispectral Pedestrian Detection by Addressing Modality Imbalanece Problems（解决模态不平衡问）

Improving Multispectral Pedestrian Detection by Addressing Modality Imbalanece Problems???? ECCV2020???? 引用量：1??? 南京大学

Code:GitHub - CalayZhou/MBNet: Improving Multispectral Pedestrian Detection by Addressing Modality Imbalance Problems (ECCV 2020)

贡献：指出多光谱不平衡问题，并巧妙地设计了新的融合网络结构，包括多个网络结构，在其他领域（检测、多模态融合）都有着重大贡献。

views：很好的一篇文章，对 how to fuse 的问题作了很好的回答，文章读起来有点晦涩难懂，提出了很多tiny neural netwrok，而且模型结构图画的不好，不清晰。内容写的也不是很好懂（很多地方都没展开说，就提了个名字），不适合新手阅读。

Ideas：所设计的网络结构的确是直击多光谱融合问题的核心，同ECCV2020那篇文章（提出了一种task-conditioned architecture，利用辅助白天/夜晚分类网络的内部学习表示，在检测器网络中的关键点注入条件参数，以使可见光谱检测器适应热域）相比，共同点是都关注了光照变化问题，本篇将光照变化作为一种权重直接更新特征图，而那篇文章，将早期神经网络的特征图提取，作为一个单独分支，通过一系列操作，再接入神经网络深处，以使检测器在day/night下更好地学习。不同点：这篇文是正经做融合的（输入为双模态），那篇文章是借助可见光推动红外发展（输入为单模态）（有点类似我的毕设，通过无监督学习方式/通过GAN网络/通过灰度图着色等，感觉都可以进行类似的任务）。本文提到的不平衡问题以及解决方案的确很不错，肯定要借鉴或者改进，但是我没发现他这个结构的问题在哪里（唯一的缺点可能就是backbone比较旧，还有最后的多尺度处理那里和FPN等还是有点区别）。

Re-say：本文的重点在解决多光谱融合的不平衡问题（这是多模态融合的基本问题），归类为两种，分别为照明模态不平衡（数据空间）（day和night引起的）和特征模态不平衡（特征空间）（rgb和thermal中相同的object有着不同的特征表示）。提出MB-Net（如图2所示），包括了三大部分，feature extraction（backbone为嵌入DMAF的ResNet-50），illumation aware feature alignment（IAFA=AP+MA+IAFC），illumination mechanism（求出光照值）。

DMAF：双管道的resnet，并针对差分模态（FR-FT）通过GAP等求出权重，加权进行交叉融合（类似通道注意力机制，和SKNet很像）（主要目的是融合模态信息）。

backbone：将DMAF插入到Resnet-50

neck：重点是解决不平衡问题（两种），IAFA=AP（anchor propose）+MA（modality alignment module）+IAFC（illumation aware feature complement），在通过AP前，首先通过illumination mechanism求出光照值（解决照明模态不平衡问题，其实就是根据光照，生成不同权重，进而决定了两种模态信息对后续的贡献程度）。AP是进行提取anchor（文中没展开说），MA进行模态对齐（解决特征模态不平衡问题，其实就是对每个像素预测了偏移量，通过双线性插值进行移动），IAFC对生成的anchor和confidence进行微调。至此，网络整体结构介绍完毕。

摘要：观察到模态不平衡现象，提出模态平衡网络(基于SSD构造了MBNet)，首先，设计一个Differential Modality Aware Fusion（DMAF）以两种模态相互补充，其次，illumination aware feature alignment（IAFA）根据照明条件选择互补特征，自适应对齐特征。在KAIST和CVC-14上达到SOTA。

1.Introduction

近年来，多模态融合（RGB+LIDAR，RGB+Depth，RGB+thermal）兴起，有着众多好处，但有效融合仍是难题。

多模态输入的目标检测一般优化过程的主要就是不平衡问题（两种数据源不同引起的）。作者举例常见的失衡问题：foreground-to-background imbalance，是由正例和负例的数量不相等引起的。还有multi-task ;osses minimization，通过平衡系统指导优化（举例子说明不平衡很重要，引出多光谱的不平衡问题）。

多光谱不平衡问题可分为两类：the illumination modality（照明模态不平衡） and the feature modality imbalance problems（特征模态不平衡）。The illumination modality imbalance意味着白天和夜间图像之间的照明条件有所不同，直观上，在白天，RGB具有更清晰的纹理特征，在夜间，thermal有着更鲜明的行人形状。两个分支对损失贡献不同，应根据照明条件自适应优化（这里作者提出illumation gate求出相应的光照值）。Feature modality imbalance problem表明不同模态的未对准和不充分融合会导致特征贡献不均（通过IAFA来解决）。一方面，行人特征在两种模态中表现不同（表观特征不同），另一方面，在卷积核的固定接受域中导致不平衡的模态表示（意思应该是卷积核提取的特征不同）。平衡和融合是多光谱考虑的基本问题。单纯的concatenate没有充分利用特征内在互补性。

主要贡献：1>指出多光谱行人检测模态不平衡问题 2>提出one-stage detector named Modality Balance Network（MBNet）包括 Differential Modality Aware Fusion（DMAF）module 和 illumination aware feature alignment（IAFA）module以解决模态不平衡问题。MBNet（嵌入DMAF的backbone）可能对其他cv任务有贡献 4>在KAIST和CVC-14上达到SOTA

2 Relate Work

2.1 Multispectral Pedestrian Detection

2.2 Imbalance Problems In Object Detection

文献[33]对object detection中的不平衡问题进行了全面综述（列入计划，后续读一下），分为4类，spatial imbalance,objective imbalance,class imbalance and scale imbalance。 Spatial imbalance和objective imbalance 分别关注边界框和多个损失函数的空间特性。Class imbalance是由训练数据中不同class的严重不同引起的。RetinaNet通过重塑标准交叉熵损失来解决类别不平衡问题。AP-loss和DR-loss也为解决类别不平衡提供了设计loss function的思想。Scale imbalance在bbox尺寸过大时，会发生规模不平衡。SSD根据不同层的特征进行独立预测，不可靠。FPN网络采用了自上而下的路径平衡各种各种规模的功能。可以通过融合和完善金字塔特征图来进一步增强FPN [28]。（检测中的问题）

不同模态特征应该被完全集成和表示，以便于在训练中获得平衡的模态优化。

3 Approach

MBNet包括三部分：feature extraction（backnone：嵌入DMAF 的resnet），illumination aware feature alignment（IAFA=AP+MA+IAFC），illumination mechanism（求illumination value）

（搞了好多小模块的拼接，对阅读提出了更高要求）

3.1 Differential Modality Aware Fusion Module（DMAF）

为解决特征模态不平衡问题，提出使用 differential modality information（差分模态信息）从一种模态增强另一种模态。

受差分放大器电路启发，common-mode被抑制，differential-mode被放大。

?FT和FR分别表示thermal和RGB的feature map。Common-mode反映了公共特征，而差异模态部分反映了两种模态捕获的独特特征。DMAF模块的关键思想是使用channel-wise differential weighting（通道差分加权）从另一个模态中获取互补特征。图2右上角所示，直接减去两种模态获得差分特征FD，将FD通过GAP得到global differential vector，通过tanh激活，生成fusion weight Vw ，Vw=σ(GAP(FD))，交叉相乘，再通过类似残差结构（GAP这里的操作感觉有点像通道注意力机制，尤其像sknet，见附图1）

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

DMAF的可视化结果如图3所示，随着CNN的深入，行人特征逐渐凸显，背景进行re-integrated（对有用背景信息进行完善，消除嘈杂的背景信息）。DMAF有效地整合了形态特征，促进背景整合，促进网络形态交互（的确是起到了一定效果，但是好像也没很突出吧，至少对于检测行人好像没有很突出，反而对于车辆感觉好一些）。

3.2 Illumination Aware Feature Alignment Module（IAFA）（照明感知特征对齐模块）

IAFA作用是使模型适应不同的照明条件（重点，ECCV2020还有一篇是利用条件自适应，至少出发点相同），并在region proposal stage对齐两种模态特征。

图2顶部，设计了一个微型神经网络捕获照明值（illumination gate），只使用RGB，resize 56x56，再通过illumination aware module（2个conv+3个FC，这里图好像画错了）。每个conv后跟relu+2x2 max-pooling，采用 cross entropy loss function。Illumination loss LI 如下：

𝐿𝐼=?𝑤𝑑?log𝑤𝑑?𝑤𝑛?log𝑤𝑛𝑤𝑟=𝑤𝑑?𝑤𝑛2?𝛼𝑤?𝑤+𝛾𝑤+12??????𝑤𝑡=1?𝑤𝑟????????????? （3）

其中，wd和wn是FC层的softmax输出，^wd? 和 ^wn分别表示day和night的true label。为适应网络（没看懂为啥要这样调整wr和wt），在illumination mechanism中重新调整wd和wn，𝑤|∈[0,1，𝛼𝑤,𝛾𝑤 为可学习参数（初始化为1，0）。在Anchor Proposal（AP）Stage之前，设置了一个illumination gate，通过逐元素相乘照明值，两个模态的特征图加权后具有不同scale，故L2归一化将其范数缩放为10。（通过照明值生成权重，进而影响最后的检测）

红外相机和RGB相机不是完美校准，存在偏差。设计了Modality Alignment（MA）module，可预测每种模态的每个像素（x，y）的偏移量（dx，dy）。（dx，dy）是float type，采用bilinear interpolation（双线性插值）从四个邻近像素获得最终像素值（x+dx，y+dy）。

图4显示双阶段的级联区域，即Anchor Propose（AP）Stage 和 Illumination Aware Feature Complement(IAFC)。首先，RGB和thermal通过Illumination gate加权融合，并通过AP进行近似位置估计。预测回归偏移量 t0? 被用来建议将 deformable anchor 作为IAFC位置预测的基本参考。在 IAFC 阶段对 deformable anchor 和置信度进行微调。RGB和thermal生成的 sr 和 st 根据照明值进行加权。最后的置信度分数 sfinal 和回归偏移 tfinal 计算如下：

𝑠final?=𝑠0×𝑠1=𝑠0×𝑤𝑟?𝑠𝑟+𝑤𝑡?𝑠𝑡?????𝑡final?=𝑡0+𝑡1??????? （4）

当two-stage scores 的s0，s1都很高时，才做置信度乘积。对于回归偏移量，求和更适合行人边界框。在分类损失中增加了focal weight，解决正负不平衡问题。 Lcls 损失如下：

𝐿𝑐𝑙𝑠=?𝛼𝑖∈𝑆+1?𝑠𝑖𝛾log𝑠𝑖?(1?𝛼)𝑖∈𝑆?𝑠𝑖𝛾log1?𝑠𝑖????????? （5）

其中，S+，S-分别为正锚框和负锚框，set α=0.25和??=2，si 为正样本的概率，total loss由三部分组成，分别是illumation loss L1，classification Loss Lcls，regression loss Lreg，Lreg是Faster R-CNN提出的平滑L1损失，total loss function如下：

L=L1+Lcls0+Lcls1+[y=1]Lreg0+[y=1]Lreg1????????????? (6)

随着AP和IAFC逐步检测，第二阶段IAFC产生了更多的正例以利于bbox regression。两个模态的IAFC通过对齐两个模态特征解决模态不平衡问题并使检测器对光照变化更加鲁棒。

4.Experiments