| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 熵权法与Apriori算法对较多数据种类数据的处理 -> 正文阅读 |
|
[人工智能]熵权法与Apriori算法对较多数据种类数据的处理 |
前言:前两天女朋友问我他们论文的时候看到他们用了基于熵权的TOPSIS模型做分析,由于本人没学过有关统计方面的知识,所以就去现学了一下。好巧不巧,在学校上课的时候老师提到了Apriori算法,突然联想到感觉可以结合一下 基础知识1熵权法:1.1什么是熵?熵是一个物理学概念,可以通俗的理解为表示一个物体稳不稳定的物理量,越稳定,熵值越小;反之,越不稳定,熵值越大。在统计学领域中,当数据越分散时,熵值越小,可认为该数据包含信息越多,因此权重越大,这也是熵权法的解释。 1.2熵权法熵权法是一种客观赋权方法,在具体使用过程中,根据各指标的数据的分散程度,利用信息熵计算出各指标的熵权,再根据各指标对熵权进行一定的修正,从而得到较为客观的指标权重。 翻译一下: 举个简单例子: 1.3 基于熵权的 TOPSIS 模型1.3.1 TOPSIS 模型TOPSIS法(Technique for Order Preference by Similarity to Ideal Solution) 简单总结一下就是先把整个数据都正向化(就是把所有的数据类型都变成值越大越好)然后确定一组数据的最大值和最小值,分别为正理想解”和“负理想解”。然后求该组数据到正负理想解的距离,距离正理想解越近越好 1.3.2 基于熵权的 TOPSIS 模型总结: 而 Topsis 优劣解距离法模型是一种常用的综合评价方法,能充分利用原始数据的信息,其结果能精确地反映各评价方案之间的差距。相对于层次分析法而言,Topsis法是解决决策层中数据已知的评价类模型。它可以解决多数据量的题目,数据计算简单易行。但对于各数据量之间的关系,我们需要使用熵权法或层次分析法来建立权重。 2.Apriori算法2.1 项集、关联规则、支持度、置信度项集:顾名思义,即项的集合。eg:牛奶、面包组成一个集合{牛奶、面包},其中牛奶和面包为项,{牛奶、面包}为项集,称之为2项集。(说白了,其实就是集合) 看不懂吧,举个例子就懂了 接着说,那代总饿了的时候买这些东西是挺正常的,但是你觉得代总会买着买着就去买马桶刷吗,emm凡事不是绝对的(但是现实就是不可能!绝对不可能!),有很小很小的概率,但是不可以把马桶刷也加到我们的项集变成{红烧牛肉面(汤)、一个卤蛋、一根香辣脆皮肠、马桶刷} 这个次数可以随意规定,我们称为支持度。但你试想一下,如果这个数定的太小,连 标配泡面 和 马桶刷 您都认为有关联,然后 你把这两个摆在一起卖,显然不合适,算法意义也不大。如果定的太高,很多商品本来有关联,结果你定的太高,这些商品组合出现次数都不能满足这个数,那么这些商品组合你也就找不出来,算法也就失去了意义。所以这个值一定要取的合适才好。 接着来,但是今天代总又要开始想了,只用次数大小来确定是否关联,是不是太草率了,代总打算买3或4包,到了地方,里面有很多口味的,比如麻辣,原味,三鲜,酸菜,但代总就喜欢红烧的,本来是想全买红烧口味的,可惜的是每种口味都只剩2包了,无奈之下,你买了2包红烧,还有1包香辣的,走之前还拿了个蛋,,,这个时候你的这条购物信息是 {红烧,香辣, 蛋} 这个时候,虽然购物记录里面有 红烧,和香辣两种物品,但你要知道,你刚开始是想全买红烧的,是因为红烧的没了,才买了香辣。虽然{红烧,香辣}同时出现了,且在计算支持度时,还提供了次数,可能会误认为红烧香辣是 相关的,但其实你知道你是无奈才选的香辣泡面,红烧香辣并不是相关的,甚至顾客在买红烧口味的时候,刻意不会去购买香辣口味的泡面,它们是反相关的。 如果能计算出,顾客在买了红烧的情况下,同时买了香辣的概率多好啊,如果这个概率大,就表明顾客买红烧的,还有买香辣的情况不是偶然,顾客就是同时喜欢吃这两种口味,每次买泡面,总是同时买这两种口味,两种口味是关联的。如果概率小,就表明顾客只喜欢其中一种口味,买香辣是因为无奈之举,超市没货了。 现在就清楚了,我们算一下这个概率,很明显是条件概率的计算,用AB表示这两种商品,则 AB同时出现的次数 ÷ A出现的次数,就是顾客在买A的前提下,又买了B的概率,这个概率又称为 置信度,这个式子的意思表示,对于顾客 <买了A,同时又买了B的行为> 有多少自信,有多少把握,认为这个商品组合是有关联的。 和支持度类似,我们也得自己确定一个数,称为最小置信度,大于这个数就认为这个商品组合有关联。 好啦,基础知识介绍的差不多了,该讲最核心的东西了 怎么把熵权法与Apriori算法结合起来处理问题 熵权法的缺点就是如果特征太多,即使有些特征所占权重很少也需要去筛选,而Apriori算法就可以先去计算关联程度先筛去权重较小的那部分,减少计算量。 那片论文(具体内容不方便说吼)就是一个大的目标分成了4个部分,然后这4个部分又被分成了38个小部分用基于熵权的 TOPSIS 模型分别去算权重,就相当于算了38次,然后有些权重算出来只有0.9%,就很小。我想的就是先算出来这些38个子特征的关联规则,把支持度低的删掉,只留下支持度高的进行熵值运算 代总没想出来怎么优化,等想出来了我再补充嘿嘿 下次见哦 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/26 8:34:30- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |