| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> Conditional GAN -> 正文阅读 |
|
[人工智能]Conditional GAN |
? 1.1 马尔科夫链 :随即过程中,马尔科夫链认为过去的所有状态都被保存在现在的状态了。 对抗学习的优点是不用马尔科夫链,只需要反向传播梯度,在学习中不用推理。条件GAN的条件可以是类别标签、用于图像修复的数据的一部分或者不同模态(modality)的数据。 本文展示了如何构建CGAN,并为了检验结果在MNIST数据集和MIR Flickr25000数据集上进行多模态学习[multi-modal learning]。 More:多模态学习 2.Related Work 2.1 图片标签的多模态学习 尽管有监督学习网络(CNN为首)取得了不错的成果,但这些模型在面对类别数巨大的分类预测输出问题是仍有挑战。第二个问题是许多数据工作主要在学习从输入到输出的一对一映射(one-to-one mappings)。然而,许多问题是概率上的一对多映射。一个例子就是在图像标签问题上,可以合适得给一张图片分配很多不同的标签,而对于不同的注解者可能使用不同的术语(一般是相近或者相关联的)或表达方式来描述同一张图片。 对于第一个问题,一个办法是利用(leverage)附加信息。举个例子,使用自然语言集合学习一个标签的向量表示,这个向量中的几何(geometric)关系具有语义含义。这个方法的优势在于,在这样的空间中做预测,当预测错误时结果仍然很靠近真实标签,并且可以自己生成在训练时没有出现的标签。引用[3]展示了甚至一个从图片特征空间到词汇表示的简单线性映射就可以表现出更好的分类性能。 对于第二个问题,可以使用条件概率生成模型,将输入视为条件变量,一对多的映射被实例化(instantiated)为一个有条件的预测分布。 [16]使用简单的方法来解决这个问题,并在MIR Flickr25000数据集上训练了一个多模态深度玻尔兹曼机,本文也这么做了。 另外,[12]中作者展示了证明训练一个有监督多模态神经语言模型,它们能够为图片生成描述语句。 3.Conditional Adversarial Nets 条件生成网络 3.1 GAN 为了学习在数据x上生成器分布pg,生成器建立了一个从初始噪声分布pz(z)到数据空间G(z;θg)的映射功能。并且判别器,D(x;θd),输出一个标量来表示x是来自训练数据而不是生成数据的概率。 判别器将x映射到带有240个单元和5块的最大输出层,将y输入有50个单元和5块的最大输出层(maxout layer??)。在输入sigmoid层之前,两个隐藏层都映射到相连的maxout layer,这层带有240个单元和4块。(只要有足够的性能,判别器的结构是否严谨就没有那么重要,我们发现maxout单元能够很好的适配这个任务) 使用100的mini-batch和随机梯度下降,学习率初始化为0.1,然后以指数方式(exponentially)减小到0.000001,衰减因子为1.00004。动量初始值为0.5,然后增至0.7。Dropout的概率为0.5,分别应用于生成器和判别器上。以验证集上的最佳对数似然估计作为停止点。 表1 略 条件对抗网络的结果超越了一些网络,但表现也逊于其他网络,包括非条件的对抗网络。此结果更多的是证明概念而不是其性能,在之后对超参数空间的和结构探索中条件模型应该会超越非条件模型的结构。 4.2 多模态 这节我们做了图片的多标签预测的自动标签,利用条件对抗网络来生成一个(也可能是多模态)的在图片特征上的条件标签向量分布。 提前在带有21000个标签的全ImageNet数据集上训练好图片特征,卷积模型与[13]中的类似。使用最后带有4096个单元的全连接层的输出结果作为图片表示。 对于词汇表示,先从YFCC100M的数据集元数据中,聚集彼此相关联的用户标签、标题和描述,得到一个文本语料库。在预处理和文本清洗后训练一个连续跳跃元语法(skip-gram)模型,这个模型有大小是200的词向量。其中省略了包含任意出现次数少于200次的单词的词向量,最终得到大小为247465的字典。 在训练对抗网络过程中保证卷积模型和语言模型的固定性。 为了评价模型性能,对每个图片生成100个样本,并对每个样本使用词汇中单词表示向量的余弦相似,最后找到20个最接近的单词。然后选择100个样本中前十个最常见的单词。表4.2展示了一些用户分配的标签和注释以及生成的标签。 模型性能最好的生成器接受了100维的高斯噪声作为初始化噪声并把它映射为500维后输入ReLU层(?映射到500维的ReLU层)。接着将4096维的图片特征向量映射为2000维的ReLU隐藏层。然后这些层都将映射到相连的200维线性层,线性层将会输出生成的词向量。 判别器由500和1200维的ReLU隐藏层组成,分别对应于词向量和图片特征。下一层是1000个单元和3块的maxout层,其输出最终输入至单一sigmoid单元。 训练模型使用随机梯度下降,mini-batch大小为100,初始学习率为0.1,后以指数形式减小为0.000001,衰退率为1.00004。动量为0.5,后增长至0.7。生成器和判别器都使用0.5的Dropout。 通过交叉验证和随即网格搜索及人工选择的混合,得到超参数和网络结构选择。 5 . Future work 在未来的探索中期待更复杂、细节更多的模型,分析它们的表现和性能。 现在我们的实验中只单独使用每个标签。但通过同时使用多重标签(有效地将集合问题作为生成集合问题中的一个)希望得到更好的结果。 另外一个未来工作的方向是构建一个联合训练方案(joint training scheme)去学习语言模型。[12]的工作显示能够学习到一个适配特定任务的语言模型。 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 | -2025/1/10 1:25:57- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |