数据可视化概述
什么是数据可视化?
在计算机领域,数据可视化是对数据的一种形象直观的解释,实现从不同维度观察数据,从而得到更有用的价值 抽象的、复杂的、不易理解的数据 图形、图像、符号、颜色、纹理等 具备较高的识别效率 数据本身所包含的有用信息。
数据可视化的目的 数据是根本,目的是导向 数据可视化的目的是对数据进行可视处理,以使得能够明确地、有效地传递信息
数据可视化的目的
数据是根本,目的是导向 数据可视化的目的是对数据进行可视处理,以使得能够明确地、有效地传递信息 体现数据之间的关系、模式、异常 模式:是指数据中的规律
关系:是指数据之间的相关性
- 关联性和因果关系
- 数据间的比较
- 数据的构成
- 数据的分布或联系
异常:指有问题的数据 - 设备出错
- 人为错误输入
- 正确的数据
数据可视化的作用与分类
数据可视的作用
数据可视化的分类 科学可视化 信息可视化 可视分析学
数据可视化的未来
数据可视化面临的挑战
- 数据规模大
- 数据质量问题
- 数据快速动态变化
- 分析能力不足
- 多来源数据的类型和结构各异
数据可视发展方向 - 可视化技术与数据挖掘有着紧密的联系
- 可视化技术与人机交互有着紧密的联系
- 可视化与大规模、高纬度、非结构化数据有着紧密的联系
数据可视化基础
视觉感知
视觉感知的定义和视觉认知 视觉感知是指客观事物通过人的视觉器官在人脑形成的直接反应。 人类只有通过“视觉感知”才能达到“视觉认知”
视觉感知的处理过程 视觉寻找——寻找——分辨——识别——确定——记忆搜索 格式塔原则包括哪些?
色彩的三要素是什么? 色相 、纯度(饱和度)、明度(亮度)
视觉编码的定义 定义:描述数据与可视化结果的映射关系
视觉通道的定义、类型,及视觉通道表现力和有效性体现在哪些方面? 可视化编码 可视化编码是由标记(图形元素)和视觉通道两部分组成 标记(图形元素):如点、线、面、体 视觉通道:是指用于控制图形元素的展示特性,包括元素的颜色、位置、尺寸、方向、色调、饱和度、亮度等等
视觉通道的类型
- 定性或分类的视觉通道:适合用于
编码分类 的数据信息 (如形状、颜色的色调、空间位置) - 定量或定序的视觉通道:适合用于
编码有序 的或者连续型 的数据信息, (如直线的长度、区域面积、空间的体积、斜度、角度、颜色的饱和度和亮度等) - 分组的视觉通道:分组是对
多个或多种标记的组合 来进行描述的。 (分组通道包括接近性、相似性和包括性。分组通道适合将存在相互联系的分类的数据进行分组,以此来表现数据内在的关联性)
视觉通道的表现力和有效性
- 精确性,人们视觉感知后的判断结果是否和原始数据相一致。
- 可辨性,视觉通道有不同的取值范围,如何取值能使人们易于区分该视觉通道的两种或多种取值状态。
- 可分离性,不同视觉通道的编码对象放置到一起,是否容易分辨。
- 视觉突出,对重要的信息,是否用更加突出的视觉通道进行编码。
数据准备
- 数据采集与预处理
- 数据存储与管理
- 数据分析与挖掘
- 可视化展示
举例说明数据的类型有哪些? 类别型、有序型、数值型(区间型、比值型) 简述数据预处理的步骤。 初始数据的获取-数据清理-数据集成与融合-数据变换-数据规约 数据清理:指修正数据中的错误、识别脏数据、更正数据不一致的过程 数据整合:指把来自不同数据源的同类数据进行合并,减少数据冲突,降低数据冗余程度等 常见的数据挖掘分析方法有哪些?
大数据存储与管理
主要数据存储介质类型包括内存、磁盘、磁带等 主要数据组织管理形式包括按行组织、按列组织、按键值组织和按关系组织。 主要数据组织管理层次包括按块级组织、文件级组织及数据库级组织等。 数据库
- 关系数据库
- 文档存储
- 列式存储
- 键值存储
- 图形数据库
- 分布式数据库
- 内存数据库
大数据计算框架
数据类型:静态数据、动态数据 计算框架:批处理、流式处理、交互式查询 具体技术:MapReduce、Spark
数据挖掘
- 分类分析
- 聚类分析
- 关联分析
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-A2URIogW-1645776516398)(./images/1645671409722.png)]
数据可视化的基本框架
数据可视化的流程以数据流向为主线,其核心流程主要包括:
可视化流程
数据可视化流程中的核心要素包括三个方面
数据可视化设计 问题刻画层、抽象层、编码层、算法层
问题刻画层:概括现实生活中用户遇到的问题(以人为本)对设计人员的要求:
- 确定数据来源
- 描述数据,设计人员对整个设计过程中数据的描述任务务必要细致
- 判断解决方案的有效性
抽象层:抽象相应数据类型的操作,提炼出现实问题中的数 编码层:设计编码和交互方法,设计与数据特征相关的视觉编码与交互方法 算法层:实现算法和交互,通过算法和交互,通过算法挖掘出数据中的价值信息,目标是解决问题
可视化设计标准:
数据可视化的基本原则
- 数据筛选。
- 数据到可视化的直观映射
- 视图选择与交互设计
- 美学因素
- 可视化的隐喻
- 颜色与透明度
数据筛选:展示适量的信息内容,以保证用户获取数据信息的效率 数据到可视化的直观映射: 设计者不仅要明确数据语义,还要了解用户的个性特征。使用正确的视觉通道去编码数据信息。对于类别型数据属性,务必使用分类型视觉通道;对于有序型数据属性,也需要使用定序的视觉通道进行编码 视图选择与交互设计:使用人们认可并熟悉的视图设计方式;简单的数据可以使用基本的可视化视图。复杂的数据需要使用或开发新的较为复杂的可视化视图。
视图的交互包括
美学因素 简单原则:尽量避免在可视化制作中使用过多的元素造成复杂的效果 平衡原则:可视化的主要元素尽量放在设计空间的中心位置或中心附近,并且元素在可视化空间尽量平衡分布 聚焦原则:将用户的注意力集中到可视化结果中的最重要区域 可视化的隐喻:
用一种事物去理解和经历另一种事物的方法称为隐喻 设计师将信息进行转换、抽象和整合,用图形、图像、动画等方式重新编码表示信息内容展示给用户,用户在看到可视化结果后进行隐喻认知,最终了解信息内涵
颜色与透明度 颜色在数据可视化领域通常被用于编码数据的分类或定序属性。 颜色混合效果可以为可视化视图提供数据可视化的上下文内容信息,方便观察者对于数据全局的把握。(慎用)
数据可视化的基本图表
- 数据轨迹:直观呈现数据分布 均值 偏移等
- 柱状图:适用于二维数据集 增长型规模数据集
- 折线图:二维 适用于较大的数据集
- 直方图:绘制,连续性的数据展示一组或者多组数据的分布状况
- 饼图:二维 只适用反映部分与整体的关系
- 等值线图:等温图 等势图
- 走势图:折线图为基础 来表示数据走势
- 散点图:二维或三维 有两个维度需要比较
- 气泡图:三维或四维 其中只有两维能精确辨识
- 维恩图: 使用平面上一个封闭的图形来表示数据节后之间的关系
- 热力图:使用颜色来表达位置相关的二维数值数据大小
- 雷达图:四维以上 数据点不超过6个
- 盒须图(箱型图):表示出数据的散布情况
- 多视图:
数据可视化工具
数据可视化工具的特性
实时性 使用爆炸式增长的数据量 快速收集分析数据,并对数据信息进行实时更新
操作简单 快速开发、易于操作 满足互联时代信息多变的特点
更丰富的展现,满足数据展现等等多维度要求
多种数据集成支持方式
- 入门级工具( Excel)
- 信息图表工具(D3、Visual.ly、Rapha?l、Flot、Echarts、Tableau、大数据魔镜)
- 地图工具( Modest Maps、Leaflet、PolyMaps、Openlayers、Kartograph、Quanum GIS)
- 高级分析工具( Processing、NodeBox、R、Python、D3、Weka和Gephi)等
|