IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 第八周周报 -> 正文阅读

[人工智能]第八周周报

学习目标:

  • ViTGAN论文
  • 吴恩达深度学习视频

学习内容:

  • Vision Transformer论文
  • ViTGAN论文
  • 深度学习中的卷积神经网络

学习时间:

10.24-10.28

学习产出:

一、Vision Transformer

在这里插入图片描述
1、patch embedding:例如输入图片大小为224x224,将图片分为固定大小的patch,patch大小为16x16,则每张图像会生成224x224/16x16=196个patch,即输入序列长度为196,每个patch维度16x16x3=768,线性投射层的维度为768xN (N=768),因此输入通过线性投射层之后的维度依然为196x768,即一共有196个token,每个token的维度是768。这里还需要加上一个特殊字符cls,因此最终的维度是197x768。由此将视觉问题转化为seq2seq问题。
2、positional encoding:ViT同样需要加入位置编码,位置编码可以理解为一张表,表一共有N行,N的大小和输入序列长度相同,每一行代表一个向量,向量的维度和输入序列embedding的维度相同(768)。
3、LN/multi-head attention/LN:LN输出维度依然是197x768。多头自注意力时,先将输入映射到q,k,v,如果只有一个头,qkv的维度都是197x768,如果有12个头(768/12=64),则qkv的维度是197x64,一共有12组qkv,最后再将12组qkv的输出拼接起来,输出维度是197x768,然后再过一层LN,维度依然是197x768。
4、MLP:将维度放大再缩小回去,197x768放大为197x3072,再缩小变为197x768
一个block之后维度依然和输入相同,都是197x768,因此可以堆叠多个block。最后会将特殊字符cls对应的输出 z L 0 作为encoder的最终输出 ,代表最终的image presentation(另一种做法是不加cls字符,对所有的tokens的输出做一个平均)

二、ViTGAN

在这里插入图片描述

  • 1、Generator
    在这里插入图片描述
    (1)改进了LN层,将高斯噪声z经MLP得到潜在向量w,然后w经仿射变换得到A,A调制LN的计算得到SLN(自调制层归一化):
    在这里插入图片描述
    (2)隐式神经表示:
    使用隐式神经表示学习从Encoder的输出yi∈RD的patch到patch像素值xp i∈ RP2 × C 的连续映射,与傅里叶特征结合时,隐式表示可以将生成的样本空间约束到平滑变化的自然信号空间

  • 2、Discriminator:
    (1)修改注意力计算方法:标准点积自注意力层的 Lipschitz 常数可以是无界的,这就会破坏 ViT 中的 Lipschitz 连续性。由点积相似性替换为欧几里得距离
    在这里插入图片描述
    (2)改进谱归一化:如果 MLP 模块的 Lipschitz 常数较小,则可能导致 Transformer 的输出坍缩为秩为 1 的矩阵,因此改进谱归一化。
    在这里插入图片描述
    (3)解决过拟合:将鉴别器中图像的patch大小扩大O个像素,变为P+2O,提供更好的位置感
    在这里插入图片描述

三、深度学习

学习了吴恩达的卷积神经网络,了解了卷积神经网络的具体过程;学习了一些经典的网络,如LeNet-5、AlexNet、残差网络、Inception网络;学习了人脸检测及识别的过程以及YOLO算法的原理。
卷积神经网络:卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法之一 。卷积神经网络具有表征学习能力,能够按其阶层结构对输入信息进行平移不变分类,因此也被称为“平移不变人工神经网络 。

  • AlexNet:
    在这里插入图片描述输入一张 227×227×3 的图片(原文中使用的图像是224×224×3),第一层使用 96 个 11×11 的过滤器,stride为 4,因此尺寸缩小到 55×55。然后用一个 3×3 的过滤器构建最大池化层,过滤器尺寸𝑓 = 3,stride为 2,卷积层尺寸缩小为 27×27×96。接着再执行一个 5×5 的same卷积,进行padding 之后,输出是 27×27×256。然后进行最大池化,尺寸缩小到 13×13。再执行一次 same 卷积,变为13×13×384,再做一次 same 卷积后使用256个过滤器再做一次同样的操作,使尺寸变为13x13x256
    最后再进行一次最大池化,尺寸缩小到 6×6×256。6×6×256 等于 9216,将其展开为 9216 个
    单元,然后进行全连接。最后使用softmax函数输出识别的结果,看它究竟是 1000 个可能的对象中的哪一个。
  • Siamese 网络:将两个输入feed进入两个神经网络(Network1 and Network2),这两个神经网络分别将输入映射到新的空间,形成输入在新的空间中的表示。通过Loss的计算,评价两个输入的相似度。
    在这里插入图片描述
    输入两个图片,第一张输入network1,第二张输入network2(两个网络参数相同),然后得到一个不同的 128 维的向量(编号 3),这个向量代表第二个图片,将第二张图片的编码叫做f(x2)(x(1)和x(2)代表两个输入图片),然后定义𝑑,将x(1)和x(2)的距离定义为这两幅图片的编码之差的范数,
    在这里插入图片描述
    如果d小于某个阈值𝜏,那么这时就能预测这两张图片是同一个人。
  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-10-31 11:56:46  更:2022-10-31 11:59:54 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年5日历 -2024/5/20 1:53:54-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码