| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 稀疏矩阵的概念介绍 -> 正文阅读 |
|
[人工智能]稀疏矩阵的概念介绍 |
在机器学习中,如果我们的样本数量很大,在大多数情况下,首选解决方案是减少样本量、更改算法,或者通过添加更多内存来升级机器。这些方案不仅粗暴,而且可能并不总是可行的。由于大多数机器学习算法都期望数据集(例如常用的 DataFrame)是保存在内存中的对象(因为内存读取要比磁盘读取快不止一个量级),所以升级硬件这种解决方案基本上会被否定。所以科学家们找到的一种既能够保存信息,又节省内存的方案:我们称之为“稀疏矩阵”。 背景Pandas的DataFrame 已经算作机器学习中处理数据的标配了 ,那么稀疏矩阵的真正需求是什么?答案是空间复杂度和时间复杂度。当涉及数百万行和/或数百列时,pandas DataFrames 变得最糟糕,这时因为 pandas DataFrams 存储数据的方式。例如下面的图,这是 CSV 文件的磁盘和内存大小比较。我们在这里使用的数据集是 Santander Customer Satisfaction 数据集。 途中比较了 CSV 文件在读取为 DataFrame 之前和读取为 DataFrame 之后的磁盘/内存使用情况。
可以明显地看到数据大小的差异,可能是因为里面包含了很多0或者空值导致的,本文后面我们会有详细的分析和介绍 什么是稀疏矩阵?有两种常见的矩阵类型,密集和稀疏。主要区别在于稀疏指标有很多零值。密集的指标没有。这是一个具有 4 列和 4 行的稀疏矩阵的示例。 在上面的矩阵中,16 个中有 12 个是零。这就引出了一个简单的问题:
我们可以轻松地将高维稀疏矩阵转换为压缩稀疏行矩阵(简称 CSR 矩阵)。对于这种压缩我们的要求是压缩后的矩阵可以应用矩阵运算并以有效的方式访问指标,所以CSR并不是唯一方法,还有有更多的选项来存储稀疏矩阵。例如:Dictionary of keys (DOK)、List of Lists (LIL)、Coordinate list (COO)、Compressed row storage (CRS)等。 但是稀疏矩阵的一个主要缺点是访问单个元素变得更加复杂。下面可以为选择不同的方法提供一些参考:
上面说到了很多名词为简单起见我们深入研究一个CSR的示例。考虑下面的矩阵。 将上述矩阵转换为 CSR 矩阵的情况。在这里使用的是 scipy包的sparsemodule。
虽然我们的原始矩阵将数据存储在二维数组中,但转换后的 CSR 矩阵将它们存储在 3 个一维数组中。 值数组 Value array:顾名思义,它将所有非零元素存储在原始矩阵中。数组的长度等于原始矩阵中非零条目的数量。在这个示例中,有 7 个非零元素。因此值数组的长度为 7。 列索引数组 Column index array:此数组存储值数组中元素的列索引。(这里使用从零开始的索引) 行索引数组 Row index array:该数组存储所有当前行和之前行中非零值的累积计数。row_index_array [j] 编码第 j 行上方非零的总数。最后一个元素表示原始数组中非零元素的数量。长度为 m + 1;其中 m 定义为原始矩阵中的行数。 这样上面的矩阵被存储为以下形式: 上面两个数组很好理解,但是第三个行索引数组 Row index array看起来就没有那么直观了: Row index array的数值个数是#row + 1, 表示该行前面值在values的总数,或者说第一个值在values中的位置 咱们依次解释下:
绘制样本数据同样我们也可以对稀疏的矩阵进行可视化
这张图他能告诉我们什么?首先,这里是 plt.spy () 函数的介绍:绘制二维数组的稀疏模式。这可视化了数组的非零值。 在上图中,所有黑点代表非零值。所以可以理解为将这些数据转换为稀疏矩阵是值得得,因为能够节省很多得存储。 那么如何判断数据的稀疏程度呢?使用NumPy可以计算稀疏度。
在我们使用的数据集运行代码后,会得到 0.906 作为稀疏度。这意味着,超过 90% 的数据点都用零填充。回到嘴上面的图,这就是上面我们看到为什么pandas占用内存多的原因。 我们为什么要关心稀疏矩阵?好吧,使用稀疏矩阵有很多很好的理由。他们主要是,
sklearn API 中的几乎所有算法现在都支持 csr_matrix 作为输入,这是一个非常好的消息 例如下面:这是来自 sklearn.ensemble.RandomForestClassifier 的示例
让我们继续使用数据集进行实验。 内存压缩比较
我们的数据集大致压缩为 0.9 倍,上面计算出的数据集的稀疏度也是 0.96,基本类似 通过这个简单的技巧,我们减少了数据集的内存使用量。让我们继续进行模型训练时间比较。 模型训练时间对比在这里将使用 sklearn API 测试流行的机器学习算法。 LogisticRegression GradientBoostingClassifier LinearSVC 上图中可以看到,LogisticRegression和GradientBoostingClassifier可以明显地提高效率但是,LinearSVC效率不明显,这可能是因为LinearSVC需要投影到更高的维度有关(这个不确定,但是它的算法和LR和GBC不太一样),但是总之,使用稀疏矩阵不仅可以降低内存占用还可以提高训练的效率。 https://www.overfit.cn/post/b47f933731bc43c28733c93dd991af72 作者:Ransaka Ravihara |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 | -2025/1/9 1:43:42- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |