IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 熵权法与Apriori算法对较多数据种类数据的处理 -> 正文阅读

[人工智能]熵权法与Apriori算法对较多数据种类数据的处理

前言:前两天女朋友问我他们论文的时候看到他们用了基于熵权的TOPSIS模型做分析,由于本人没学过有关统计方面的知识,所以就去现学了一下。好巧不巧,在学校上课的时候老师提到了Apriori算法,突然联想到感觉可以结合一下

基础知识

1熵权法:

1.1什么是熵?

熵是一个物理学概念,可以通俗的理解为表示一个物体稳不稳定的物理量,越稳定,熵值越小;反之,越不稳定,熵值越大。在统计学领域中,当数据越分散时,熵值越小,可认为该数据包含信息越多,因此权重越大,这也是熵权法的解释。
举个例子:比如说,太阳东升西落。这是一个客观规律,基本上不会有什么变动,而我们从这句话得到的信息也很固定,不分散,所以是一个熵值大的信息

1.2熵权法

熵权法是一种客观赋权方法,在具体使用过程中,根据各指标的数据的分散程度,利用信息熵计算出各指标的熵权,再根据各指标对熵权进行一定的修正,从而得到较为客观的指标权重。

翻译一下:
就是当一个事物有很多项指标可以描述它,他是每一项指标只能描述一部分。这个时候就可以通过熵权法来计算每一个指标占的比重是多少

举个简单例子:
体测:我们可以从身高体重、肺活量、立定跳远、引体向上、仰卧起坐、800/1000米来评判一个人健不健康(其实就是体测成绩每一项也都有比重),不能说一个人立定跳远能跳两米五,就能证明他身体好,所以每一项都有权重来总体表示一个人的健康程度

1.3 基于熵权的 TOPSIS 模型

1.3.1 TOPSIS 模型

TOPSIS法(Technique for Order Preference by Similarity to Ideal Solution)
可翻译为逼近理想解排序法,国内常简称为优劣解距离法,TOPSIS 法是一种常用的综合评价方法,其能充分利用原始数据的信息,其结果能精确地反映各评价方案之间的差距。
具体细节可以参考这个文章:戳我去看详细知识

简单总结一下就是先把整个数据都正向化(就是把所有的数据类型都变成值越大越好)然后确定一组数据的最大值和最小值,分别为正理想解”和“负理想解”。然后求该组数据到正负理想解的距离,距离正理想解越近越好

1.3.2 基于熵权的 TOPSIS 模型

戳我去看详细例子

总结:
熵权法的原理是指标的变异程度越小,所反映的信息量也越少,其对应的权值也应该越低。因此数据本身就告诉了我们权重。所以说熵权法是一种客观的方法。

而 Topsis 优劣解距离法模型是一种常用的综合评价方法,能充分利用原始数据的信息,其结果能精确地反映各评价方案之间的差距。相对于层次分析法而言,Topsis法是解决决策层中数据已知的评价类模型。它可以解决多数据量的题目,数据计算简单易行。但对于各数据量之间的关系,我们需要使用熵权法或层次分析法来建立权重。

2.Apriori算法

2.1 项集、关联规则、支持度、置信度

项集:顾名思义,即项的集合。eg:牛奶、面包组成一个集合{牛奶、面包},其中牛奶和面包为项,{牛奶、面包}为项集,称之为2项集。(说白了,其实就是集合)
支持度:项集A、B同时发生的概率称之为关联规则的支持度。
置信度:项集A发生的情况下,则项集B发生的概率为关联规则的置信度。

看不懂吧,举个例子就懂了
月末了,卑微大学牲代总没钱了,代总想去买几包泡面。代总的标配是红烧牛肉面(汤)、一个卤蛋、一根香辣脆皮肠。这就是一个项集{红烧牛肉面(汤)、一个卤蛋、一根香辣脆皮肠}。而这种“标配”就相当于关联规则

接着说,那代总饿了的时候买这些东西是挺正常的,但是你觉得代总会买着买着就去买马桶刷吗,emm凡事不是绝对的(但是现实就是不可能!绝对不可能!),有很小很小的概率,但是不可以把马桶刷也加到我们的项集变成{红烧牛肉面(汤)、一个卤蛋、一根香辣脆皮肠、马桶刷}
换句话说,如果你买了标配泡面,大概率不会买马桶刷,甚至会刻意不去买马桶刷,那么标配和马桶刷同时出现在一条购物记录的次数必然不会太多,因此可以认为两者没有关联。例子是这样,但是我们去度量呢?这个商品组合出现的次数小于多少,我才认为它是无关联的呢?

这个次数可以随意规定,我们称为支持度。但你试想一下,如果这个数定的太小,连 标配泡面 和 马桶刷 您都认为有关联,然后 你把这两个摆在一起卖,显然不合适,算法意义也不大。如果定的太高,很多商品本来有关联,结果你定的太高,这些商品组合出现次数都不能满足这个数,那么这些商品组合你也就找不出来,算法也就失去了意义。所以这个值一定要取的合适才好。
这个取值就称为 最小支持度

接着来,但是今天代总又要开始想了,只用次数大小来确定是否关联,是不是太草率了,代总打算买3或4包,到了地方,里面有很多口味的,比如麻辣,原味,三鲜,酸菜,但代总就喜欢红烧的,本来是想全买红烧口味的,可惜的是每种口味都只剩2包了,无奈之下,你买了2包红烧,还有1包香辣的,走之前还拿了个蛋,,,这个时候你的这条购物信息是 {红烧,香辣, 蛋}

这个时候,虽然购物记录里面有 红烧,和香辣两种物品,但你要知道,你刚开始是想全买红烧的,是因为红烧的没了,才买了香辣。虽然{红烧,香辣}同时出现了,且在计算支持度时,还提供了次数,可能会误认为红烧香辣是 相关的,但其实你知道你是无奈才选的香辣泡面,红烧香辣并不是相关的,甚至顾客在买红烧口味的时候,刻意不会去购买香辣口味的泡面,它们是反相关的。

如果能计算出,顾客在买了红烧的情况下,同时买了香辣的概率多好啊,如果这个概率大,就表明顾客买红烧的,还有买香辣的情况不是偶然,顾客就是同时喜欢吃这两种口味,每次买泡面,总是同时买这两种口味,两种口味是关联的。如果概率小,就表明顾客只喜欢其中一种口味,买香辣是因为无奈之举,超市没货了。

现在就清楚了,我们算一下这个概率,很明显是条件概率的计算,用AB表示这两种商品,则 AB同时出现的次数 ÷ A出现的次数,就是顾客在买A的前提下,又买了B的概率,这个概率又称为 置信度,这个式子的意思表示,对于顾客 <买了A,同时又买了B的行为> 有多少自信,有多少把握,认为这个商品组合是有关联的。

和支持度类似,我们也得自己确定一个数,称为最小置信度,大于这个数就认为这个商品组合有关联。

好啦,基础知识介绍的差不多了,该讲最核心的东西了

怎么把熵权法与Apriori算法结合起来处理问题

熵权法的缺点就是如果特征太多,即使有些特征所占权重很少也需要去筛选,而Apriori算法就可以先去计算关联程度先筛去权重较小的那部分,减少计算量。

那片论文(具体内容不方便说吼)就是一个大的目标分成了4个部分,然后这4个部分又被分成了38个小部分用基于熵权的 TOPSIS 模型分别去算权重,就相当于算了38次,然后有些权重算出来只有0.9%,就很小。我想的就是先算出来这些38个子特征的关联规则,把支持度低的删掉,只留下支持度高的进行熵值运算

代总没想出来怎么优化,等想出来了我再补充嘿嘿

下次见哦

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-04-30 08:42:53  更:2022-04-30 08:42:57 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/6 18:03:37-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码