IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> AutoViz:用一行代码自动可视化任何大小的任何数据集 -> 正文阅读

[人工智能]AutoViz:用一行代码自动可视化任何大小的任何数据集

在公众号「python风控模型」里回复关键字:学习资料

数据科学家的任务通常是处理大量数据存储以提供可行的见解。然后分析这些见解以识别与商业智能甚至人类行为相关的模式。然而,构建数据查询和机器学习管道可能是一回事,采用所有类型的优化和聪明的算法。能够将艰巨的数据收集和建模的结果传达给不熟悉数据处理的同事,这完全是另一回事。这就是数据可视化来挽救局面的地方。

Scott Berinato在他秒著作《Good Charts》中感叹道:“一个好的可视化可以比任何其他形式的交流更有效地传达信息和想法的性质和潜在影响。” 我们很多人都熟悉这句话:“一张照片胜过千言万语。” 同样,在数据科学中,有效的可视化提供强烈的季节性模式、与成功营销活动相关的明显趋势或需要解决的突出异常值的显着证据非常重要。小型数据集的可视化很容易且非常有益,但对于具有数百甚至数千个变量的大型数据集几乎不可能,我们必须决定从数据集中突出显示哪些最佳见解。最重要的是,数据科学家必须经常使用非标准化的可视化库,这些库需要大量编码才能获得具有正确影响的视觉效果。值得庆幸的是,有一种替代方法可以使用这种蛮力方法来创建可视化。

AutoViz:简介

AutoViz 解决了在执行数据可视化工作时可能出现的许多上述挑战。可以使用一行代码调用该工具,方法是向其提供要导入的 Pandas 数据帧对象或原始 csv 文件。
如果观察次数较多,AutoViz 会随机抽取样本;同样,如果变量数量很大(您可以决定),AutoViz 可以找到最重要的特征,并仅使用那些自动选择的特征绘制有影响力的可视化效果。用户可以通过简单地将参数传递给 AutoViz 来设置要可视化的样本行数和最大特征数。AutoViz 能够适应任意数量的不同数据上下文,例如回归、分类,甚至时间序列数据。它还以难以置信的速度提供输出。

AutoViz 可以通过 4 个简单的步骤实现:

  1. 使用“pip install autoviz”安装

  2. 使用“from autoviz.AutoViz_Class import AutoViz_Class”导入

  3. 实例化一个类“AV = AutoViz_Class()”

  4. 使用我们的数据集在以下行中运行实验:

AutoViz的优势

使用 AutoViz 进行可视化有很多优势。该库非常易于解释,可以使用 verbose=1 或 2 标志设置为高度详细模式。重复使用 XGBoost 模型,通过每次使用随机的一组特征来确定最一致的一组被确定为重要的特征;最突出的选定特征可以用于指导未来的绘图和可视化。这听起来可能需要时间,但实际上,它完成得非常快。为了有效地做到这一点,AutoViz 将选定的变量分类为分类、数值、布尔、NLP 文本等,以便了解如何最好地绘制它们。最后,使用内置的启发式方法,该工具将返回被认为具有最大影响的视觉效果。AutoViz 也非常系统:它使用具有不同图表类型的所有选定变量,以便通过让图表自己说话来提供最佳见解。主观领域知识通常会使即使是经验丰富的数据科学家也倾向于只选择少数图表来突出数据集中的见解。AutoViz 对特征和绘图的客观选择可以使用系统方法为数据团队指明最佳方法,并且可以从项目一开始就极大地提高团队的生产力。

AutoViz 在实践中是什么样子的?当然,理解可视化库的唯一方法是观察它的一些图。

数据集:在线购物者的意图

让我们从Kaggle 中获取在线购物者的意图数据集。该数据包括一年中对不同在线购物者的大约 12,000 次观察。这是一个分类任务;我们试图根据功能集预测在线购物者是否会实际购买商品或只是“橱窗购物”。AutoViz 能够确认所有 17 个特征都具有用于预测目标变量的有用信息。

以下所有图表均选自 AutoViz 提供的数百个图表。首先,有一个条形图表示构成我们目标类的观察值的百分比。

图片

很明显,我们正在处理数据中的类不平衡,因为所需的类值(“真”)仅占总数据集的 15%。接下来,我们可以看到单个变量如何需要一些“处理”或“转换”,因为 AutoViz 提供了每个数值变量的 KDE 图。

图片

从上面我们可以看到,所有四个变量都是右偏的,可能需要进行“对数转换”才能用于线性模型。在构建数据管道以便稍后为问题建模时,这些类型的图表将被证明是非常有用的。

可视化可以为不同变量之间的相互作用提供非常有力的证据。您可以从下图中看到,高水平的跳出率和退出率可能是收入流失的良好指标。它们表明这些交易不会产生任何收入。快速洞察,如果您知道如何阅读他们所说的“茶叶”!

图片

我们可以通过检查在线购物购买的标准化直方图及其与特殊日子或假期(如情人节或圣诞节)的距离,更深入地了解电子商务购买的时间。

图片

最大的活动高峰发生在特殊日子前一周左右;尽管我们的课程不平衡,但大约 50% 的访问者会在这个时间窗口内购买商品。当企业可能想要进行促销或定位潜在客户时,这是一个关键提示。

数据集:Goodreads API

让我们从Kaggle 中获取在线购物者的意图数据集。该数据包括一年中对不同在线购物者的大约 12,000 次观察。这是一个分类任务;我们试图根据功能集预测在线购物者是否会实际购买商品或只是“橱窗购物”。AutoViz 能够确认所有 17 个特征都具有用于预测目标变量的有用信息。

以下所有图表均选自 AutoViz 提供的数百个图表。首先,有一个条形图表示构成我们目标类的观察值的百分比。

图片

很明显,我们正在处理数据中的类不平衡,因为所需的类值(“真”)仅占总数据集的 15%。接下来,我们可以看到单个变量如何需要一些“处理”或“转换”,因为 AutoViz 提供了每个数值变量的 KDE 图。

图片

从上面我们可以看到,所有四个变量都是右偏的,可能需要进行“对数转换”才能用于线性模型。在构建数据管道以便稍后为问题建模时,这些类型的图表将被证明是非常有用的。

可视化可以为不同变量之间的相互作用提供非常有力的证据。您可以从下图中看到,高水平的跳出率和退出率可能是收入流失的良好指标。它们表明这些交易不会产生任何收入。快速洞察,如果您知道如何阅读他们所说的“茶叶”!

图片

我们可以通过检查在线购物购买的标准化直方图及其与特殊日子或假期(如情人节或圣诞节)的距离,更深入地了解电子商务购买的时间。

图片

最大的活动高峰发生在特殊日子前一周左右;尽管我们的课程不平衡,但大约 50% 的访问者会在这个时间窗口内购买商品。当企业可能想要进行促销或定位潜在客户时,这是一个关键提示。

数据集:Goodreads API

AutoViz 还能够提供使用 Goodreads API 抓取的大约 12,000 本书的数据集的信息视觉效果。数据集包含整体书籍元数据,目标变量是书籍的“平均评分”,这转化为回归分析。这一次,图书馆从数据集中删除了一些变量,例如 ISBN 和书名,这些变量除了识别之外没有提供太多预测信息。有趣的是,它删除了作者特征,我们通常认为这与一本书的成功有关。
但是,由于这是该数据集中的分类字符串变量,因此可能没有足够的证据来使用种类繁多的作者姓名作为特征。

AutoViz 输出的相关热图表明,除了评分数量和书面评论数量之间存在明显关系外,大多数变量都不是高度相关的。有趣的是,页数和评论分数之间存在一些正相关。

图片

通过分析以下散点图,可以提取有关书籍页数的更多信息:

图片

页数较多的书籍的平均评分往往在 4 分及以上。然而,值得注意的是,长度较短的书籍(100-250 页)能够获得高达 5 分中的 5 分的平均评论分数。然而,这些可能代表异常值,进一步检查这些高评分书籍以做出明智的选择是明智的确保他们的评论分数与其他条目相同。总体而言,这给人的印象是出版商可能希望将 1250-1500 页设置为一本书的目标页数,以使其表现良好。

这些信息可以与 Goodreads 上一本书的页数呈正态分布右偏的知识相结合,因为许多书大约有 400-500 页。

图片

然后,我们可以使用 AutoViz 输出的小提琴图,将书中页数的分布与集合中存在的其他变量的分布进行比较。

图片

平均图书评分也呈正态分布,但偏左。负面评级可能是分布中的重要异常值。还可以观察到,一本书的评分数量看起来非常右偏;少数书籍可能会获得过多的总评分。

数据集:AirBnB 列表数据

然后,AutoViz 能够熟练地可视化 AirBnB 列表数据,该数据由位于西班牙马德里的 20,000 个列表的数据集提供。该数据库是托管在Kaggle上的 AirBnB 数据关系集合的一部分,包括每个列表的床位和浴室数量、评论和日历预订等属性。对于此实验,目标变量是 AirBnB 列表的评论分数。每个条目都有许多相关的功能,乍一看令人生畏。值得庆幸的是,AutoViz 发现了许多可以排除的低信息变量,以减少数据的方差。一些排除在外的特征令人惊讶,例如房源的价格、平方英尺或附近。

自动生成的图表对不同列表的某些方面提供了非常丰富的信息。例如,得知绝大多数 AirBnB 主机在被联系后的一个小时内做出响应可能会令人惊讶。

图片

房东将整个居住空间作为房源的一部分也很常见,尽管约一半的房源可能只提供一个房间。然而,一旦大量房源用于公寓而不是马德里的房子这一事实得到证实,这是有道理的。

图片

图片

我们的目标变量的预测因素呢?对 AutoViz 生成的热图的分析表明,与列表评论评级最相关的特征是每月收到的评论数量。
许多 AirBnB 评论可能是正面的,因此这可能意味着 AirBnB 会员最好接待尽可能多的客人并激励他们留下评论,因为随着时间的推移,这可以最有效地提高房源的评论分数。

图片

房源评论评分有一个负相关特征,即 AirBnB 主机维护的房源数量。当房源从主人那里得到更多个性化的关注而不是成为不同住宿分配的一部分时,它们的表现可能会更好。

结论

虽然这些只是 AutoViz 生成的绘图的一个样本,但不难看出自动化可视化的帮助有多大。很快,该库就能够生成高度信息化的图,并为数据科学家的建模或分析管道提供许多潜在扩展途径。AutoViz 旨在集成到系统的迭代过程中。AutoViz可以有效地启动探索性数据分析(EDA);可以根据工具的分析选择特征,然后可以重复处理数据以进行自动可视化。一旦生成了强大的可视化效果,数据科学家现在就可以开始建模或通过明智的分析来传达数据。令人惊讶的是,自动可视化选项如此稀少,因为它作为一种客观和实用的工具有许多可以想象的用途,但幸运的是 AutoViz 很好地发挥了这一作用。现在让我们开始一些可视化!

AutoViz自动化可视化的新工具就为大家介绍到这里,欢迎各位同学报名
呆瓜半小时入门python数据分析》,学习更多相关知识

图片

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-11-12 19:35:31  更:2021-11-12 19:35:54 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 6:37:03-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码