目录
一、图像分类
1. AlexNet
2. VGGNet
3. GoogleNet_v1
4. GoogleNet_v2_B
二、目标检测
三、视频目标检测
四、Transformer(变形金刚)
1.《Attention Is All You Need》
2.《Version Transformer》
五、Transformer专栏
一、图像分类
1. AlexNet
AlexNet 论文精度,以及解析网络模型结构_Flying Bulldog的博客-CSDN博客《ImageNet Classification with Deep Convolutional Neural Networks》网络模型的名称由来:第一作者的名字 Alex Krizhevsky我们训练了一个大型的深度卷积神经网络,将ImageNet LSVRC - 2010竞赛中120万幅高分辨率图像分类到1000个不同的类中。在测试数据上,我们分别取得了37.5 %和17.0 %的前1位和前5位错误率,明显优于以往的先进水平。该神经网络包含6000万个参数和65万个神经元,由5个卷积层组成,其中部分卷https://blog.csdn.net/qq_54185421/article/details/125356469
2. VGGNet
VGGNet 论文精度,并解析 VGG-16 网络模型结构_Flying Bulldog的博客-CSDN博客_vgg16论文《VERY DEEP CONVOLUTIONAL NETWORKSFOR LARGE-SCALE IMAGE RECOGNITION》所以我们用3个3×3的卷积叠层代替单个7×7的卷积叠层得到了什么?(1)首先,我们用三个非线性校正层(ReLus)代替一个非线性校正层(ReLU),使得决策函数更具区分度。(2)其次,我们减少了参数个数:假设三层3 × 3卷积堆的输入和输出都有C通道,堆栈参数为个权重(3)最后,多个卷积堆叠在一起可以使得模型的深度增加,证明了本文章的结论:深度在视觉表征中的重要性。.https://blog.csdn.net/qq_54185421/article/details/125372642
3. GoogleNet_v1
《Going deeper with convolutions》论文精度,并解析GoogLeNet 网络模型结构_Flying Bulldog的博客-CSDN博客在2014年的ImageNet图像识别挑战赛中,?个名叫GoogLeNet 的网络架构?放异彩。GoogLeNet吸收了NiN《Network In Network》中串联网络的思想,并在此基础上做了改进。这篇论文的?个重点是解决了什么样大小的卷积核最合适的问题。毕竟,以前流?的网络使用小到1 × 1,?到11 × 11的卷积核。本文的?个观点是,有时使用不同大小的卷积核组合是有利的。(全都要!)目录一、引言(1)SOTA(state of the art)(2)Hebbian Principe:neurohttps://blog.csdn.net/qq_54185421/article/details/125386728
4. GoogleNet_v2_B
经典BN很NB,精读论文《Batch Normalization》_Flying Bulldog的博客-CSDN博客首先看摘要和结论,然后分析核心思想,最后总结表格内容和实验细节。训练深度神经网络是一个复杂的事实,在训练过程中每一层的输入分布随着前一层的参数变化而变化。这就需要较低的学习速率和仔细的参数初始化来减缓训练速度,并且使得具有饱和非线性的模型的训练变得非常困难。我们将这一现象称为内部协变量偏移(internal covariateshift),并通过归一化层输入来解决这个问题。我们的方法从将规范化作为模型架构的一部分和对每个训练小批量执行规范化来吸取其优点。Batch Normalization允许我们使用更高https://blog.csdn.net/qq_54185421/article/details/125429533
二、目标检测
待更新。。。
三、视频目标检测
待更新。。。
1.《Attention Is All You Need》
《Attention Is All You Need》论文精读,并解析Transformer模型结构_Flying Bulldog的博客-CSDN博客建议:结合《Attention Is All You Need》论文观看此文章。Transformer的模型结构如下图所示,通过把“My money don't jiggle jiggle”翻译成“我的钱不摇晃摇晃”来分析Transformer的工作过程。训练过程中,每一次解码器的输出与数据集中的翻译值通过交叉熵计算错误率(一次送入batch_size大小个token,计算错误率),从而对权重进行更新。预测过程,同训练过程相似,即输入英文句子,一个词一个词的翻译成汉语句子。...https://blog.csdn.net/qq_54185421/article/details/125315630
《Vision Transformer (ViT)》论文精度,并解析ViT模型结构以及代码实现_Flying Bulldog的博客-CSDN博客论文共有22页,表格和图像很多,网络模型结构解释的很清楚,并且用四个公式展示了模型的计算过程;本文章对其进行精度,并对源码进行剖析,希望读者可以耐心读下去。https://blog.csdn.net/qq_54185421/article/details/125345852
https://blog.csdn.net/qq_54185421/category_11847619.htmlhttps://blog.csdn.net/qq_54185421/category_11847619.html
>>>未完待续。。。?
|