IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 论文阅读【1】Leva: Boosting Machine Learning Performance with Relational Embedding Data Augmentation -> 正文阅读

[人工智能]论文阅读【1】Leva: Boosting Machine Learning Performance with Relational Embedding Data Augmentation

请添加图片描述

数据预处理与数据工程是机器学习发展至今的一大瓶颈,好的数据预处理可以极大提升机器学习预测的准确性。然而现在实践中的数据预处理与数据工程主要是基于人的经验,并没有一个可以依赖的强有力算法。本篇论文提出了一个编码数据的方式,自动进行数据预处理与数据工程,节省人力的同时也在实验中取得不错效果。

问题描述

构建机器学习的训练数据集十分困难,这主要有3个原因。为了方便描述,这里以论文中的STUDENT数据集为例。该数据集是本篇论文生成的数据,包含3个表格:Expenses, Order InfoPrice Info。现在我们要预测Total Expenses,我们尝试构建一个机器学习模型用于实现这一预测目标。

首先,确定一个问题的相关特征是困难的。我们希望预测的属性Total Expenses究竟与哪些属性有关,我们并不能提前知道,它可能与school Name有关,可能与Name有关,但在构建模型并获得实验结果之前这些都是不可知的。

其次,在确定了相关特征后,找到那些含有相关特征的数据集是困难的。在这个例子中我们已经给出了可供选择的数据,这个问题的严重性并不明显。但大部分情况下,我们并不知道我们需要的指标在哪些数据集中可以找到。例如在金融领域,人们常常需要预测股票未来涨势。当然,我们可以使用历史的股票价格来进行预测,但这大多数情况并不能取得很好的效果。一些炒股大佬,可能会选择从金融方面的数据集获取一些数据信息,结合大盘历史信息获得用于机器学习的特征。

最后,确定相关数据的连接方式是困难的。回到STUDENT的例子中,我们可以简单粗暴地将所有表格连接到一起,用以获得更加全面的特征。当问题更复杂时,key与foreign key的选择将成为一个严峻问题。表格的连接方式并不唯一,选择什么样的连接方式成为一个问题。
请添加图片描述

现有方法与不足

针对上述问题,已有方法包括:Base Table、Full Table、Full Table + Feature Engineering三种。

方法描述不足
Base Table只使用包含预测标签的表格作为训练的数据不准确
Full Table将尽可能多的表格连接在一起开销大
Full Table + Feature Engineering在full table上运行特征工程的算法开销大

本篇论文核心观点

Leva使用graph表示数据集中的每一行数据,然后通过graph embedding将每一行表示成一个向量,用于下游ML任务的特征。整个流程中有2个阶段:Graph constructionEmbedding construction。其中Graph construction阶段中为了降低时间复杂度,在图中引入Value Node节点,用于加速图的构建;而在Embedding construction阶段,论文提出了2个方法用于应对现实中内存不够的情况:Random WalkMatrix Factorization
请添加图片描述

本篇论文提出方法操作

Graph construction

直观的想法是,根据每行数据的相似性构建临界矩阵或相似矩阵,但论文中指出这种构建方式太过缓慢,时间复杂度是 O ( M N 2 ) O(MN^2) O(MN2)1。因而引入Value Node用来加速图构建,将图构建的时间复杂度降到 O ( M N ) O(MN) O(MN)
请添加图片描述

Embedding construction

论文提出2种嵌入方法:Random WalkMatrix Factorization。其中Random Walk的实现即是先随机游走得到一个结果:row-row-row,然后在使用NLP领域的方法将对这个序列进行编码,论文用的是Word2VecMatrix Factorization则采用SVD分解那一套,论文中使用的是randomized SVD
请添加图片描述
本篇论文没有提供代码。

为什么有效

2个原因保证了这种编码方式是有效的。

其一,Graph 后 embedding的框架使得编码之后每行数据的表示向量之间的距离远近含有其在Graph上是否接近的信息,即:Graph->embedding的映射信息损失可接受。同时原始数据到graph的转化,在原有信息的基础上引入了similarity matrix用于衡量2行数据的相似性。

其二,多余的信息表示,可以通过下游任务的训练去除。去除的效果在论文中有实验证明2Figure 3是实验结果,其横坐标代表引入的噪音,纵坐标表示从 ? a l l \epsilon_{all} ?all? ? c l e a n \epsilon_{clean} ?clean?的映射好坏,其指标为 R 2 R^2 R23。从实验结果不难看出,噪音增加并不会影响 ? a l l \epsilon_{all} ?all? ? c l e a n \epsilon_{clean} ?clean?映射的准确性。
请添加图片描述


  1. M M M是全数据集属性个数, N N N是全数据集数据行数 ??

  2. 该实验中假定了最佳表示 ? c l e a n \epsilon_{clean} ?clean?的存在并已知,有监督地学习模型用来从全部表示 ? a l l \epsilon_{all} ?all?到最佳表示的映射关系 ??

  3. R squared判定系数,回归模型的方差得分(取值在0~1之间)越接近1则说明自变量越能解释因变量,见博客: https://www.csdn.net/tags/MtTaggwsMDM1Mi1ibG9n.html ??

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-06-29 19:04:19  更:2022-06-29 19:05:33 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 -2024/12/29 9:05:22-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码
数据统计