IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 应用于图像的自注意力机制(SENet、CBAM、ECA)+yolo浅析(CSPDarknet53)+ViT -> 正文阅读

[人工智能]应用于图像的自注意力机制(SENet、CBAM、ECA)+yolo浅析(CSPDarknet53)+ViT

应用于图像的自注意力机制

自注意力机制应用于图像主要结合CNN或transformer实现相关任务,如图像分割、识别和定位等。
自注意力可以分为对通道的或对空间的自注意力,或者两者的结合
参考原文:Pytorch 图像处理中注意力机制的解析与代码详解
经典网络模型1——SENet 详解与复现

SENet

SENet使用了通道注意力机制
如下图所示,SENet是将原始数据通过一个卷积操作Ftr,得到c2通道h高w宽的数据,然后再使用全局池化(avgpooling平均池化)将h*w降阶为平均值,则输出数据为C2通道的1高1宽,再通过两个全连接操作使得其注意力向量化为原始长宽,第一个全连接实现转化,第二个全连接实现升维,再使用Sigmoid将值固定到0-1之间,此时我们获得了输入特征层每一个通道的权值,之后将注意力矩阵与未经降维前的矩阵相乘,得到最终的输出。
SENet

CBAM

CBAM使用了通道注意力和空间注意力结合
下面是CBAM的整体结构,先进行了通道注意力的运用,再使用空间注意力机制
整体结构
下图的上部分是通道注意力机制,将输入数据使用最大池化和平均池化将数据降维(保留通道维度),然后再通过全连接层(这里可以用1维卷积代替)进行信息综合,最后相加输出的两个向量,通过sigmoid将值放缩到0-1区间,得到注意力
下图的下半部分是空间注意力机制,将输入数据使用最大池化和平均池化将数据降维(整合通道维度),然后使用卷积将两个池化后的数据通道综合(卷积先对h*w维度进行处理,再将多个通道数据相加),最后经过sigmoid得到空间注意力
CBAM详解

ECA

相较于传统的SENet模型,ECA不同的点是其使用1D卷积算子对avgpooling之后的向量进行了信息综合,而不是使用全连接。
ECA
上面主要需要明白注意力在图像上的体现:

  1. 通道上就是先综合其他维度信息,综合处理降维后的通道向量,最后附加注意力
  2. 空间上先综合通道维度信息,得到图像尺寸数据,再通过卷积等方式进行综合2D数据信息

yolo浅析

参考博文:写给小白的YOLO介绍
Pytorch搭建YoloV4目标检测平台
CSPDarkNet53学习
YOLO是目标检测模型,利用grid、bounding box、confidence、中心点坐标、预测长宽来实现一张图像中多个目标的识别、定位、分类和分割。
yolo的思想:将一张图像分割为多个块,形成一个grid,再在一个网格中预测B个Bounding Box,Box的中心一定在网格内,Box的属性还有长宽,分类信息另外表示,由grid每个网格来预测该网格中的对象属于什么类别。对于图像的多目标检测,还引入了非极大值抑制技术,再多个grid都被预测为统一类别且相邻时,选择这些grid中置信度最高的一个Bounding Box,再取这群Box中置信度最高的,以该Box为基础,判断与其他Box之间的IOU,超过则包含进来,否则剔除。
yolo

CSPDarkNet53

该方法相对于DarkNet的改进:1. 使用了mish激活函数,使得梯度更加平滑,收敛效果更好;2. 改善了resblock的结构,分流执行处理。
CSPDarkNet53

ViT

ViT实现的是将图像分割为多个patches,再继续linear embedding,利用transformer encoder输出,再通过多层感知机处理,得到最终的class分类可能性
ViT

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-09-15 02:00:48  更:2022-09-15 02:03:40 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/25 22:51:04-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码