[人工智能] 2021-08-16

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 2021-08-16 -> 正文阅读

[人工智能]2021-08-16

论文创新点分析笔记：PPDM: Parallel Point Detection and Matching for Real-time Human-Object Interaction Detection 实时人-物交互检测的平行的点检测和点匹配，如何应用于脑MRI图像分析

传统HOI detection

传统HOI Detection（Human-object interaction Detecction,人-物交互检测）与faster-rcnn类似，任务框架分为两个阶段.
阶段1：在input中detect出人和物，把选出的M个人和N个物anchor box配对得到M×N个<人，物>proposals。
阶段2：把这些人-物proposals依次串行地送入interaction的网络分类器，得到对应interaction类别。

局限

1：阶段1和2是 sequential 的，如果阶段1产生的proposal不好，阶段2会受影响
2：阶段1的M个人和N个物是考虑置信度较高的独立的人和物，不考虑人和物之间关系的可能性，也就是说有可能置信度高的人会有与置信度较低的物是存在关系的，从而会导致有交互关系被遗漏。
3：阶段1产生的proposals只有少数是有效的，大量负类样本的存在使得阶段2的效率低，也就是说在训练阶段对propalsals做了M×N次分类，只有少量propalsals的是正例，这就使得effectiveness很低。

创新性

1、重新把HOI Detection问题建模或者定义为一个点检测和点匹配问题，（问题建模的方法新）

论文使用一个中心点center point、长和宽来表示一个框box，使用人的center point和物的center point的中点来表示interaction point交互点。为了匹配人与物，定义了两个displacements，分别为交互点到人中心点的displacement和交互点到物中心的displacement。

该论文在方法上特有的新东西是提出了一个interaction point和定义了两个displacements来帮助后面匹配哪个人和哪个物体构成一个pair再做交互分类，其中这里比传统更新颖更周到的内容是考虑了人和物的关系来生成pairs，该文的pair放在传统的使用了faster-rcnn方法的HOI检测中来看相当于一个考虑了人-物关系的proposal。

总的来说，该文的创新思想就是定义了与数据输入有关的新的量来辅助分类，在该文中这些量为center point和displacement，能直接基于image中获取，再根据数学公式来使用这些量计算interaction分类分数，而且这还考虑了传统的HOI检测没有考虑到的人-物的关系。

我想了想，这个思想要是直接在用在基于MRI图像特征的阿尔兹海默症分类的话，我觉得会涉及很多人工取特征的内容，不容易哈。因为每个阿尔兹海默、MCI以及NC 的subject被试的MRI影像是由很多层二维image组成，假设存在能够定义直接从影像上的获得和特征有关的量，还需要考虑一些问题：

1）类似该论文中center point、displacement的位置/距离的量如果有的话，应该如何配合疾病特点来与分类的分数构成一个目标函数
2）是不是需要统一对每一层二维image获取人为指定的位置/距离/其他量，每个被试的MRI影像有很多层，而且在常识理解上每个人的同一层的二维image可能有很大差异
3）如果使用将MRI影像处理后得到新的数据，如使用体素表示的脑空间或者某一个脑功能区，这个时候如何利用量来表示脑特征，这里和1）应该类似的问题，感觉太偏向特征工程的内容了。

2、首次实现实时HOI 检测。

这是论文方法的结果衍生的新，因为该论文方法使用了两个分支来做点检测和点匹配，而且这两个分支是可并行的，所以总的检测速度就比传统的需要两个串行阶段做HOI检测的快，而且快到了能够实时检测。一句话就是把一个两阶段任务重新建模并且并行化后在速度上有了创新。对于这个新东西，我感觉这种为了速度来考虑并行的思想，在疾病诊断上需求不大，但是那种与该文中使用新的使用center point和displacement来辅助匹配人-物的方法来把问题简单化的思想是可行的，但是怎么在这个脑MRI图像上简化问题还没想到。