-C4.5(分类)
-
信息熵:某件事情发生的不确定性度,-plog2(p),信息熵越大,不确定性越大 -
类别信息熵:类别信息熵表示的是所有样本中各种类别出现的不确定性之和,公式:label_info =?-p1log2(p1)-p2log2(p2)-p3log2(p3),(p1+p2+p3=1) -
属性信息熵:每个属性的信息熵相当于一种条件熵。他表示的是在某种属性的条件下,各种类别出现的不确定性之和。属性的信息熵越大,表示这个属性中拥有的样本类别越不“纯”。公示:p1*label_info_onp1 + p2*label_info_onp2,p1、p2表示其中一个属性两种情况概率,label_info_onp1、label_info_onp2分别表示两种情况的条件下各自的类别信息熵。例子:
-k-Means(聚类)
讲得非常好:K-Means聚类算法原理 - 刘建平Pinard - 博客园
-SVM(分类/回归)
支持向量机(SVM)——原理篇 - 知乎
-Apriori(关联)
-EM(期望最大化)
-PageRank(排序) -AdaBoost(分类/回归) -K-nearest neighbor(分类) -Bayesian classification(分类) -CART - Classification and Regression Tree(分类/回归)
|