IT数码购物网址头条软件日历阅读图书馆

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

图片批量下载器
↓批量下载图片,美女图库↓

图片自动播放器
↓图片自动播放器↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> VisEvent: Reliable Object Tracking via Collaboration of Frame and Event Flows论文笔记 -> 正文阅读

[人工智能]VisEvent: Reliable Object Tracking via Collaboration of Frame and Event Flows论文笔记

因为不是做跟踪的，大致读了下这篇文章，主要是看了是如何将事件相机和rgb相机数据做多模态融合的，为之后的工作找点灵感

?项目地址：https://sites.google.com/view/viseventtrack/

一.论文贡献

1：提出了一个包含820个可见事件视频的大规模神经形态跟踪数据集。这是第一个从真实世界收集的用于单目标跟踪的大规模可视事件基准数据集。

2.提出了一种简单而有效的基线跟踪器，通过开发一个跨模态转换模块，可以充分利用不同模态的独特信息进行鲁棒跟踪。这是首次验证跨模态变换在可视事件跟踪问题中的成功应用。

3.我们构建了多个基于双模态的跟踪器（超过35个），以便在未来的工作中比较各种跟踪管道（例如，基于相关滤波器的跟踪器、基于二进制分类的跟踪器和基于连体匹配的跟踪器）和融合策略（例如，早期、中期和后期融合）。

二.Input Representation

?因为不太了解注意力机制，所以首先从网上学习了一下什么是注意力机制（深度学习之注意力机制（Attention Mechanism）和Seq2Seq - Luv_GEM - 博客园）：

键值对注意力模式

一般的，可以用键值对（key-value pair）来表示输入信息，那么N个输入信息就可以表示为（K, V）= [(k1,v1),(k2,v2),...,(kN,vN)]，其中“键”用来计算注意分布σi，“值”用来计算聚合信息。

那么就可以将注意力机制看做是一种软寻址操作：把输入信息X看做是存储器中存储的内容，元素由地址Key（键）和值Value组成，当前有个Key=Query的查询，目标是取出存储器中对应的Value值，即Attention值。而在软寻址中，并非需要硬性满足Key=Query的条件来取出存储信息，而是通过计算Query与存储器内元素的地址Key的相似度来决定，从对应的元素Value中取出多少内容。每个地址Key对应的Value值都会被抽取内容出来，然后求和，这就相当于由Query与Key的相似性来计算每个Value值的权重，然后对Value值进行加权求和。加权求和得到最终的Value值，也就是Attention值。

如下图所示，以上的计算可以归纳为三个过程：

第一步：根据Query和Key计算二者的相似度。可以用上面所列出的加性模型、点积模型或余弦相似度来计算，得到注意力得分si

?

第二步：用softmax函数对注意力得分进行数值转换。一方面可以进行归一化，得到所有权重系数之和为1的概率分布，另一方面可以用softmax函数的特性突出重要元素的权重；

?

第三步：根据权重系数对Value进行加权求和：

?图示如下：

?可以把以上的过程用简洁的公式整理出来：

下面来看文章的中是如何将两个模态进行融合的，下图为网络结构：

该模块是基于注意机制开发的，其目标是基于查询x从上下文向量 $y_{j}$ 中检索信息。通常，我们可以先使用MLP层计算查询x和上下文向量 $y_{j}$ 之间的相似性分数。然后，该分数将使用Softmax运算符进行标准化。最后，上下文向量将被加权并求和为注意层的输出

?原论文讲的很清楚，就直接贴出来论文了

?

?三.总结

本文中融合RGB相机数据和事件相机数据，使用了交叉注意力机制和自注意力机制将两个模态进行融合，用来进行跟踪任务

?四.个人想法

?也许在现有任务上使用RGB和事件相机数据融合在一起也许会更好

?

?

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

上一篇文章下一篇文章查看所有文章

加:2021-10-13 11:27:11 更:2021-10-13 11:28:17

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

360图书馆购物三丰科技阅读网日历万年历 2025年7日历

-2025/7/28 20:26:30-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码