[人工智能] 《机器学习》慕课版课后习题-第3章

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 《机器学习》慕课版课后习题-第3章 -> 正文阅读

[人工智能]《机器学习》慕课版课后习题-第3章

中国工信出版集团、人民邮电出版社出版的赵卫东、董亮编著的《机器学习》慕课版

第3章决策树与分类算法

1.分类解决什么问题？

解：分类算法是利用训练数据集获得分类函数即分类模型(分类器)，从而实现将数据集中的样本划分到各个类中。分类模型通过学习训练样本中属性集与类别之间的潜在关系，并以此为依据对新样本属于哪一类进行预测。

2.常用的分类算法有哪些？举例说明其应用。

解：常见的分类算法包括决策树、支持向量机、最近邻、贝叶斯网络和神经网络等。

例如，根据动物身体构造、生理习性等特征对动物进行分类，根据电子邮件的内容等信息将邮件分类为垃圾邮件与普通邮件，通过在电商网站中的消费历史将用户分类为不同等级等。

3.简述决策树的分类过程。

解：决策树的构建过程是按照属性的优先级或重要性来逐渐确定树的层次结构，使其叶子结点尽可能属于同一类别，一般采用局部最优的贪心策略来构建决策树。

4.总结常用的决策树C5.0、CHAID、CART等算法的分支标准。

解：C5.0算法选择分支变量的依据：以信息熵的下降速度作为确定最佳分支变量和分割阀值的依据。信息熵的下降意味着信息的不确定性下降。

CHAID算法分支处理的标注指标是独立性检验和相关(分裂后自变量与目标变量的相关性)。

CART算法在分支处理中分支属性的度量指标是Gini指标。

5.举例说明连续属性离散化的几种方法。

解：非监督离散化不需要使用分类属性值，相对简单，有等宽离散化、等频离散化、聚类等方法。

等宽离散化将属性划分为宽度一致的若干个区间。

等频离散化将属性划分为若干个区间，每个区间的数量相等。如企业绩效评估，将员工绩效考核表现划分为排名“1_5名”“610名”“11~15名”……。以此类推，每个划分区间均有5名员工(即5个样本)。

聚类将属性间根据特性划分为不同的簇，以此形式将连续属性离散化。

监督离散化常用的方法是通过选取极大化区间纯度的临界值来进行划分，C4.5与CART算法中的连续属性离散化方法均属于监督离散化方法；CART算法采用Gini系数作为区间纯度的度量标准；C4.5算法使用熵作为区间纯度的度量标准。

6.什么是过拟合问题？如何判断过拟合？

解：模型的训练误差低但是泛化误差比较高，则称此分类过拟合。

判断标准为模型在验证集合上和训练集合上表现都很好，而在测试集合上变现很差。

7.如何减少过拟合？

解：解决过拟合问题，一方面要注意数据训练集的质量，选取具有代表性样本的训练样本集。另一方面要避免决策树过度增长，通过限制树的深度来减少数据中的噪声对于决策树构建的影响，一般可以采取剪枝的方法。

8.在决策树的训练过程中，如何通过剪枝减少过拟合？举例说明。

解：剪枝是用来缩小决策树的规模，从而减低最终算法的复杂度并提高预测准确度，包括预剪枝和后剪枝两类。预剪枝的思路是提前终止决策树的增长，在形成完全拟合训练样本集的决策树之前就停止树的增长，避免决策树规模过大而产生过拟合。后剪枝策略先让决策树完全生长，之后针对子树进行判断，用叶子结点或者子树中最常用的分支替换子树，以此方式不断改进决策树，直至无法改进为止。

9.决策树的学习质量如何评价？

解：对于一般分类问题，有训练误差、泛化误差、准确率、精确率、召回率、F值、受试者工作特征曲线(ROC)曲线等指标。

10.ROC曲线如何绘制？它的主要功能是什么？

解：通过将连续变量设定出多个不同的临界值，从而计算出一系列真正率和假正率，再以假正率为纵坐标、真正率为横坐标绘制出ROC曲线。

ROC曲线下面积越大，模型准确性越高。在ROC曲线上，最靠近坐标图左上方的点为假正率和真正率均较高的临界值。

ROC的优势在于当检验集中的正负样本的分布发生变化时，ROC能够保持不变。

11.AUC与ROC的关系是什么？

解：ROC曲线下的面积称为AUC，AUC值越大，表示分类模型的预测准确性越高，ROC曲线越光滑，一般代表过拟合现象越轻。

12.阅读文献，讨论k折交叉校验的方法。

解：k折交叉验证法将样本集随机地划分为k个大小相等的子集，在每一轮交叉验证中，选择一个子集作为检验集，其余子集作为训练集，重复k轮，保证每一个子集都作为检验集出现，用K轮检验结果取平均值作为模型好坏的评价标准。最常用的k折交叉验证法为十折交叉验证。

13.集成学习的基本原理是什么？举例说明集成学习的应用。

解：集成学习方法是指组合多个模型，以获得更好的效果，使集成的模型具有更强的泛化能力。使用集成方法时会有多种形式：可以是不同算法的集成，也可以是同一算法在不同设置下的集成，还可以是数据集不同部分分配给不同学习模型之后的集成。最常见的集成思想有两种bagging和boosting。

集成学习适用于大部分所有的机器学习应用场景。例如，计算机视觉的绝大部分分支，如目标检测、识别、跟踪，都从集成学习方法中受益。

14.讨论GBDT算法的过程以及应用。

解：梯度提升决策树算法是利用梯度下降的思想，使用损失函数的负梯度在当前模型的值，作为提升树中残差的近似值，以此来拟合回归决策树。梯度提升决策树的算法过程如下：

初始化决策树，估计一个使损失函数最小化的常数构建一个只有根节点的树。

不断提升迭代：计算当前模型中损失函数的负梯度值，作为残差的估计值；估计回归树中叶子节点的区域，拟合残差的近似值；利用线性搜索估计叶子节点区域的值，使损失函数极小化；更新决策树。

经过若干轮的提升法迭代过程之后，输出最终的模型。

对于GBDT算法的具体实现，最为出色的是XGBoost树提升系统，此模型的性能已得到广泛认可，并被大量应用于Kaggle等数据挖掘比赛中，取得了较好的效果，在XGBoost系统实现的过程中，对于GBDT算法进行了多方面的优化。

15.以随机森林为例，讨论集成学习能否提高分类的性能。

解：传统的分类方法是在一个由各种可能的函数构成的空间中寻找一个最接近实际分类函数的分类器。可以通过聚集多个分类器的预测结果提高分类器的分类准确率，这一方法即为集成学习。该刚发由训练数据构建一组基份分类器，然后通过每个基分类器的预测进行投票来进行分类。随机森林算法目标是通过将多个弱学习机(如单棵决策树)组合得到一个强学习机。随机森林的每一棵决策树之间是没有关联的。在得到森林之后，当有一个新的输入样本进入的时候，就让森林中的每一颗决策树分别进行一下判断，看看这个样本应该属于哪一类，然后看看哪一类被选择最多，就预测这个样本为那一类。这样就集成了多个分类器的分类结果，达到了更好的分类性能。

16.举例说明决策树在实际分类项目中的应用。

解：决策树算法被广泛应用于商业、农业、气象学等众多领域，如VMware公司使用定制的决策树进行定价优化、马来西亚多媒体大学使用随机森林的时序拓展对人类活动进行分类等。

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)