| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 《深入浅出图神经网络--GNN原理解析》-- 第四章 表示学习 【待整理】 -> 正文阅读 |
|
[人工智能]《深入浅出图神经网络--GNN原理解析》-- 第四章 表示学习 【待整理】 |
机器学习算法的性能严重依赖与数据特征的提取能力,或是说 提取到的特征质量的好坏。因此,早起针对 "如何将人们的先验知识(即,数据中哪些因素更有意义)转换为可以被机器学习算法所使用的特征",专门有一个研究方向?called "特征工程" 如果有一类方法可以自动地从数据中去学习到“高质量的特征”,并且可以直接应用于后续的具体任务,这种方法统称为 表示学习 因此,表示学习的意义是:通过机器而非专家,从数据中获得有判别性特征的方法,以此减少机器学习算法对特征工程的依赖,从而将机器学习应于更多的领域 1. 表示的两种类型:离散表示 && ?分布式表示(1)离散表示 就是 one-hot 编码 离散表示虽然很简单,只要列出所有的可能项(item)就可以得到,无需机器进行学习 但他的缺点很明显: ①one-hot暗含一个假设,即:每个项(item)?间毫无关系,相互独立。那么,这就相当于是这些item之间没有任何相似性,这显然与事实不符。因此,用one-hot来表示会丢失掉大量的语义信息。 ②同时,one-hot编码会导致输入到神经网络的input是一个高纬度且非常稀疏的矩阵,不适合进行存储和计算。 (2)分布式表示:举个简单例子:我们可以将颜色分成RGB三元组,用3个0-255的值就可以表达出各个颜色 分布式表示的优点:①维数据表示维度相较于one-hot大幅度降低???②分布式表示可以包含语义特征,即,它可以表达出内容的相似性:eg.粉色和浅粉色两者的RGB三元组数值相差不多,映射到三维空间中这两个点的欧式距离应该差别不大 2. 表示学习的任务总言之,表示学习是:学习一个映射,将输入的内容 映射 到一个稠密的低维向量空间中。 有两种典型的表示学习方法:基于重构损失的方法? 和 ? 基于对比损失的方法 2.1 基于重构损失的方法:-- 各种自编码器最朴素的自编码器,其处理流程:(1)将输入映射到某个特征空间,(2)再从这个特征空间映回原始的输入空间。 自编码器的这两个阶段:编码器负责(1)阶段,从输入数据中提取特征;解码器负责(2)阶段,将对应的特征重构 作为输出数据 所以显然,自编码器是不需要额外的标签进行监督训练的,他只需要不断地最小化"输入" 和 "编码解码后的重构输出" 间的误差就可以啦 常见的自编码器有:正则自编码器;变分自编码器 等(《深入浅出》这本书提到了上述两者,但是不是很详细,我也没仔细读) 2.2 基于对比损失的方法 : -- 以word2vec为例简言之,word2vec就是通过 给出很多的句子,由于句子是有多个单词组成。假设 AA BB CC DD EE FF 。是一个句子,那么,假设现在我们要分析CC,那么,我们认为BB、AA、DD、EE都是与CC相关的,因为,在句子中他们的距离小于等于m(这里为了简单,我们就去一个固定值m=2),于是,在将这5个单词投射到高维空间中,BB、AA、DD、EE与CC 应该值类似,欧氏距离较小。 对于正常输入的句子通过上述方法构建出属于各个单词的样本,这种样本called 正样本 同时我们呢还要通过 中心词CC不相关的单词(距离大于2的,或者不出现在同一个句子中的单词)来构成的单词对形成样本。 训练时,损失函数的选择思路就是:我们要最大化正样本之间的联系,并最小化负样本之间的联系。 因此,对于word2vec最大的优势就在于他将数据及其邻居在输入空间上的邻居(近似)关系保留了下来 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/25 22:55:12- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |