| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 数据挖掘05-偏相关分析【原理、案例、python实现】 -> 正文阅读 |
|
[人工智能]数据挖掘05-偏相关分析【原理、案例、python实现】 |
数据挖掘05-偏相关分析【原理、案例、python实现】
一、需求场景新能源电动车剩余里程预测 我们都知道,影响行驶里程的因素有很多,包括电池的剩余电量、电池性能(电池组放电总电压、电池组电池不一致性、单体电压、电池组内阻)、整车参数、车辆载重、车辆行驶特性及温度等因素。 针对电池性能(SOC、电压、电流和电池温度)和车辆行驶特性(速度)几个方面进行深入研究,实现行驶里程估计,从而达到预测剩余里程的目的。 二、偏相关分析简介2.1 引入偏相关分析的原因相关分析是处理变量与变量之间关系的一种统计方法, 在相关分析中,研究两事物之间的线性相关性是通过计算相关系数等方式实现,并通过相关系数值的大小来判定事物之间的线性相关强弱。 详细内容: 然而,当简单相关系数受其他因素的影响,它所反映的往往是表面的非本质的联系。此时要准确地反映两个变量之间的内在联系,就不能简单的计算相关系数,而是需要考虑偏相关系数。 2.2 什么是偏相关分析偏相关分析也称净相关分析,它在控制其他变量的线性影啊的条件下分析两变量间的线性关系,通常用偏相关系数(即净相关系数)表示。 当控制变量个数为一时,偏相关系数称为一阶偏相关; 偏相关系数是在对其他变量的影响进行控制的条件下,衡量多个变量中某两个变量之间的线性相关程度的指标。所以,用偏相关系数来描述两个经济变量之间的内在线性联系会更合理、更可靠。 偏相关系数不同于简单相关系数,在计算偏相关系数时,需要掌握多个变量的数据, 在多变量相关的场合,出于变量之间存在错综复杂的关系,因此偏相关系数与简单相关系数在数值上可能相差很大,有时甚至符号都可能相反。偏相关系数取值范围与简单相关系数一样,为**-1到1**。偏相关系数绝对值越大(越接近1),表明变量之间的线性相关程度越高;偏相关系数绝对值越小(越接近0),表明变量之间的线性相关程度越低。 2.3 偏相关分析的步骤利用偏相关系数进行变量间净关系分析通常需要完成以下两大步骤: (1)计算样本的偏相关系数利用样本数据计算样本的偏相关系数,它反映了两变量间净相关的程度强弱。在分析变量x1和y1之间的净相关时,当控制了x2的线性作用后,x1和y1之间的一阶相关系数定义为: ry1、ry2、r12分别表示y和x1的相关系数、y和x2的相关系数、x1和x2的简单相关系数 (2)对上一步求得的偏相关系数进行检验净相关分析检验的基本步骤是:
三、【案例分析】行驶里程与影响因素的偏相关分析由上表3-1可知,行驶里程和电池SOC的Pearson相关系数为-0.976,相关系数检验的概率p值都近似为0,说明两者之间具有很强的负线性相关关系,而其他变量与行驶里程之间的Pearson相关系数都偏小,说明他们之间的线性相关性并不明显,说明这些影响因素可能是通过非线性关系来影响行驶里程的变化的。 3.1 速度为了分析电动车行驶速度和里程之间的关系,将【车速、soc、行驶里程】绘制曲线图进行分析: 图3-5为速度和形式里程的变化曲线图,从图中可以看出,速度的曲线上下波动较大。电池SOC从96%下降到47%的过程中,当速度为0时,行驶里程曲线为水平走向,说明此刻车辆处在停止状态,当速度不为0时,行驶里程开始逐渐增加,说明速度对行驶里程有很大影响。但是由之前的偏相关分析表3-1可知,速度和里程之间不是线性关系,因此采用每公里电量消耗百分比来分析。 图3-6为不同速度下的每公里电量消耗百分比散点图,从图中可以看出,速度从20km/h变化到90km/h的过程中,每公里电量消耗百分比是由大变小再变大,当速度为50%左右的时候,每公里电量消耗百分比会达到最小值。由此可以看出,速度对每公里电量消耗百分比影响显著,并通过影响每公里电量消耗百分比的形式来影响行驶里程的。从图中可以看出速度对每公里电量消耗百分比的影响呈现非线性关系。 3.2 温度图3-7为电动车的电池放电温度分布图,从图中可以看出,这段时间内电动车电池的工作温度处于0℃到 40℃之间。图中横轴对应有散点存在的,说明今天车辆有出行;没有散点对应的日期,说明车辆没有出行。尤其在2014年2月份附近,散点分布较少, 说明春节期间车辆出行活动少。 与速度同理,绘制其温度与每公里电量消耗百分比的散点图,如图3-8所示。 图3-8为不同温度下的每公里电量消耗百分比散点图,可以看出,电池的工作温度为20℃左右的情况比较多。并且不同温度下对应的每公里电量消耗百分比都位于0.5至1之间。从图中并未发现温度对每公里电量消耗百分比存在明显的影响。 3.3 电压图3-9为电动车在一次放电过程中的行驶里程与总电压变化的曲线图。可以看出物理电动车在一次放电过程中,随着时间的推移总里程在增加,而总电压则是上下波动不定的,但是可以看出总电压值随着里程的增加略微有下降的趋势。 由图3-10可以看出,在一次放电过程中,单体电池的最高电压和最低电压也是上下波动的,波动的同时两条曲线的振动趋势具有很强的一致性,这应该是出于所有电池都串联在一起的缘故。另外,同总电压一样,随着电池SOC的减少里程数的增加,最高电压和最低电压也有略微下降的走势。 3.4 总电流图3-11为电动车在出行过程中总电流和行驶里程的变化曲线图,从图中可以看出,车辆在放电过程中,电流并不是一直是正值,偶尔也会有负值的出现,这是因为电动车在出行状态时经常会踩刹车来减速,而车辆在刹车的时候会把减少的机械能转化为电能并反馈给蓄电池,相当于对其进行短暂的充电, 此时的电流就是负值。 3.5 小结利用偏相关分析对行驶里程与其影响参数之间进行线性相关分析,然后定义每公里电量消耗百分比,并分析它与行驶里程影响参数之间的非线性关系。目的是为后面的模型建立时选择影响因素做基础。 四、python偏相关分析4.1 数据源
4.2 pandas4.2.1 一阶相关系数
4.2.2 pcorr()要一次性计算多个变量之间的部分相关性,可以使用.pcorr()函数:
4.3 numpy
4.4 sicpy
4.5 自己写公式
|
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/27 2:19:02- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |