数据分析与挖掘———SPSS Moderler
一、Modeler给概述
1、SPSS Modeler基本认识
IBM SPSS Modeler是一组数据挖掘工具 ,通过这些工具可以采用商业技术快速建立预测性模型,并将其应用于商业活动,从而改进决策过程。 SPSS Modeler提供了各种借助机器学习 、人工智能 和统计学 的建模方法。通过建模选项板中的方法,可以根据数据生成新的信息以及开发预测模型。
2、SPSS Modeler的特点
- 强大的数据读取功能
- 丰富的数据处理方法
- 图形化的数据探索方式
- 核心挖掘算法
- 简洁直观的模型评估
- 性能卓越的三层体系架构
二、数据读取与数据清洗
1、变量类型
数据挖掘角度
- 数值类型变量:连续性的数字(电话)
- 定类型变量:分类型 (性别)
- 定序型变量:等级次序的变量(职称)
数据储存角度
- 整数型
- 实数型
- 字符串型
- 时间型:时间段
- 日期型
- 时间戳型:时间点
2、数据读取
txt文件
在源 中把 变量文件 拖拽出来,右键 –编辑 –引入文件 –修改编码 查看结果 ,在输出 中拉出表格 连接(F2) ,运行 (Ctrl+E)
excel文件
spss文件
数据库文件
先建立数据源
管理面板 –管理工具 –ODBC数据源]
在spss modeler操作
选择
3、数据清洗
缺失值分析及处理
step1:观察缺失值
step2:缺失值定义和缺失值处理(删除or插补)
通过对比发现是因为对于无效数据没有定义,所以导致系统没有排除出无效数据
缺失值的定义
1、先对数据通过 类型 进行实例化
2、对缺失值进行定义
3、利用 数据审核 进行输出观察
缺失值的处理
经过缺失值/异常值的处理使完整字段 和完整记录 达到100%,那么处理完的数据才是完美的 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GyFRKZqt-1664253911321)(:/78186a7939194f5c97645a7151a687ff)]
方法一、 缺失值删除
将数据中的缺失值 直接删除 从数据审核节点 –>选择生成 –缺失值过滤节点
方法二、缺失值插补
将数据中的缺失值 进行其他数据 的添补 运行数据审核节点 –>对缺失插补进行操作–>编辑后确定–>生成缺失值超节点
最终得到:
异常值分析及处理
异常值的定义
异常值是在数据集中与其他观察值有很大差距的数据点,它的存在,会对随后的计算结果产生不适当的影响,因此检测异常值并加以适当的处理是十分必要的。
异常值的类型
- 单字段异常值
某条或者多条字段的单个 变量出现异常 - 多字段异常值
某条或者多条字段的多个 变量出现异常
异常值处理
异常值处理的原理
处理步骤: 数据审核节点 –>质量操作 –>生成
重复值处理
(这个最后的输出应该是表格而不是审核节点 )
三、数据的基本分析
1、数据质量分析
就是进行数据清洗 ,将数据质量达到100%
2、描述性统计分析
3、探索性分析
统计建模常常要求变量服从正态分布 如果变量不服从正态分布,应对变量进行适当的转换处理。 SPSS Modeler提供了直观的图形方式用于变量的转换,大大缩短了变量分布探索的时间。
步骤: 输出的变换 节点 读入数据 选择 字段 运行 生成函数图像 –>选择符合正态分布的函数图像 –>生成超节点变换 –>表格输出
4、二分类变量相关性分析
时间:01:37:26
?二分类型相关性研究可以从图形分析 入手,也可以采用数值方法 进行分析。
问 : ?例如,基于电信客户数据 ,可分析客户流失 与套餐类型、婚姻状况、电子支付等是否相关。
?这里,基于电信客户数据,分析套餐类型的分布特征 ,以及流失客户在不同套餐类型上的分布 。
图形分析
分类图:
网络图:
列联分析
图形分析并不能准确反映二分类型之间精确的相关程度,因此进行数值分析 是必要的, 数值分析通常采用的方法是列联分析。
列联分析包括两个步骤:第一步,计算二分类型的列联表;第二步,分析列联表中行、列变量之间的.相关性。
问: 这里,对电信客户数据 进行数值分析,目标是.分析客户“流失”与“套餐类型”是否相关。
5、变量的重要性分析
时间:01:49:05
变量重要性概念: ◆从变量本身看,重要的输入变量应是携带信息较多的变量,也就是方差较大的变量。 ◆从变量与目标变量的相关性角度看,重要变量应对目标变量的分类预测有显著意义。
四、统计图
时间:01:51:42
1、逻辑回归分析
时间:01:53:02
逻辑回归概念
- 逻辑回归分类:二项分类逻辑回归,多项分类逻辑回归。
- 底层原理:假设因变量y服从伯努利分布,Sigmoid映射函数的引入。
逻辑回归算法流程
逻辑回归案例
问:
◆现有一份顾客购买意愿数据表,文件名为: [购买判断.sav] ◆现需从顾客信息数据中,寻找顾客购买意愿的影响因素并训练模型用来预测。
2、关联分析
Apriori算法
时间:02:05:57
问:
- 以超市会员顾客购物信息.txt为例(1000名顾客)
- 存储格式:事实表
- 个人信息:会员卡号、消费金额、支付方式、性别、是否户主、年龄、收入;
- 一次购买商品的信息:果蔬、鲜肉、奶制品、蔬菜罐头、肉罐头、冷冻食品、啤酒、葡萄酒、软饮料、鱼、糖果。
- 目标1:分析商品之间的关联性,为超市提供决策。
- 目标2:在顾客已买商品的情况下预测可能性商品的连带购买
注意将食品项的角色分配为 任意
3、时间列序分析
时间序列概述
?时间序列是指按时间顺序排列的一组数据序列,是-一个变量在一-定时间段内不同时间点 上观测值的集合。 ?根据观察时间的不同,时间序列中的时间间隔可以是年份、季度、月份、周、日或其他时间段。
时间序列分析
时间序列分析 ?时间序列分析是一种根据时间序列揭示系统动态结构和规律的统计方法。 ?依据时间序列的特征,产生了与之相适用的方法。 ?时间序列分析的主要目的是根据已有的历史数据对未来进行预测。
案例
问: ●该数据是某公司2010-2019十年间服装销售情况(单位:万元) ●需求:根据过去10年的销售数据来预测其男装类的月度销售情况 ●操作: 定义日期-指定目标-设置时间间隔创建模型-检查模型
填充 定义时间
模型一、指数平滑法
模型二、专家建模器
使用专家建模器分析未来三个的数据
|