[人工智能] 机器学习阶段性总结[机器学习]

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 机器学习阶段性总结[机器学习] -> 正文阅读

[人工智能]机器学习阶段性总结[机器学习]

文章目录

分类阶段性测试

机器学习三要素是？ A B C
A.模型
B.策略
C.算法
D.样本
感知器算法的损失函数是误分类点的总数。错
sklearn 提供的感知器类是 Perceptron，该类实例化的时候一个重要的参数是 eta0请问该参数表示什么？学习率
下述指标常用来评价分类模型的有哪些？ A B C D
A.准确率（accuracy）
==B.精确率（precision） ==
C.召回率（recall）
D.F1-值（F1-score）
E.均方误差
段落说明
现有 10 个样本，6 个阳性（positive），4 个阴性（negative）。模型分别将 2 个阳性和 1
个阴性样本预测错误，其余样本均预测正确。请根据该数据，完成下述四个题目。
模型的准确率（accuracy）是多少？（保留两位小数）0.70
模型的精确率（precision）是多少？（保留两位小数）0.80
模型的召回率（recall）是多少？（保留两位小数）0.67
F1-值（F1-score）是多少？（保留两位小数）0.73
点击率的预测是一个数据比例不平衡问题（比如训练集中样本呈阴性的比例为 99%，阳
性的比例是 1%），如果我们用这种数据建立模型并使得训练集的准确率高达 99%。下列说
法正确的是 D
A.模型的准确率非常高，我们不需要进一步探索
B.不能确定模型是否好，应该进一步探讨精确率（precision），如果精确率高，说明模型
好。
C.训练样本中阳性和阴性样本的比例不影响模型的性能。
D.不能确定模型是否好，应该进一步探讨召回率（recall），如果召回率低，说明模型不好，需要重新考虑。
下列关于支持向量机模型叙述错误的是？ B
A.对偶问题的解中非零的 alpha 对应的样本是支持向量。
B.将不是支持向量的样本去掉后，使用相同参数重新求得的超平面可能会不同。
C.当惩罚系数 C 趋于无穷大时，软间隔最大化问题会退化为硬间隔最大化问题。
D.惩罚系数 C 越小，间隔越大，模型的泛化性能越差。
支持向量机的损失函数是？ D
A.0-1 损失函数
B.交叉熵损失函数
C.KL-散度
D.合页损失函数
线性不可分问题不能使用支持向量机模型求解。错
sklearn 中用支持向量机分类的类名是 SVC，该类默认使用的核是？ A
A. 径向基核函数
B.多项式核函数
C.线性核函数
D.Sigmoid 核函数
下列关于多类分类问题，叙述错误的是 C
A.多类分类问题可以转化为二分类问题
B.one-versus-rest 方法可以将多类分类问题转化为二分类问题，但是存在训练样本不平衡
的问题。
C.one-versus-one 方法可以将多类分类问题转化为二分类问题，与 one-versus-rest 方法的计算量相当
D.one-versus-one 方法通常使用投票原则预测分类结果。
下列算法属于生成式模型的是？ A
==A.朴素贝叶斯 ==
B.支持向量机
C.感知器算法
D.决策树
下列关于朴素贝叶斯叙述错误的是？ B
A.朴素贝叶斯模型的核心假设是“在类别已知的情况下，特征条件独立”。
B.朴素贝叶斯模型无法解决连续特征的分类问题
C.朴素贝叶斯常用于文本分类。
D.拉普拉斯平滑可以有效解决零概率问题。
sklearn 中用于分类任务的 K-近邻算法的类是 KNeighborClassifier，下述那个参数是 A
算法中的 K？
A.n_neighbors
B.metric
C.p
D.weights
K-近邻算法中的超参数 K 太大和太小对模型都有影响，不同的问题应该选择合适的 K。
对
KD-树中的 K 和 K-近邻中的 K 都是表示满足特定条件的样本个数。错
KD-树和 Ball-树都是为了提升 K-近邻算法查找 K 个近邻样本的效率而设计的数据结
构。与暴力搜索相比，它们在特征维度较小时有明显优势。对
下列选项中关于 K-近邻算法叙述正确的有 A D
A.K-近邻算法没有明显的训练过程，计算量主要体现在测试阶段。
B.用 K-近邻算法分类，预测速度与训练样本多少无关，只与测试样本的数量有关系。
C.K-近邻算法的运算速度与特征的维度无关。
D.在使用 sklearn 中的 K-近邻算法时，如果选择了 KD-树或 Ball-树等数据结构，fit 阶段
主要用来构建相应的数据结构。
关于决策树，下列说法正确的有 A C
A.构建决策树的关键是确定划分属性。
B.决策树越深模型的分类效果越好。
C.如果使用信息增益确定最优划分属性，应该选择信息增益大的属性。
D.如果使用基尼指数确定最优划分属性，应该选择基尼指数大的属性。
用决策树分类时，如果训练集规模很大，那么下面哪种方式比较合理？C
A.降低特征的维度
B.增加学习率
C.减少数的深度
D.挑选少量样本来训练
决策树剪枝的主要目的是？ A D
A.降低过拟合风险
B.降低欠拟合风险
C.提高模型在训练集的准确率
D.提高模型的泛化能力
经典决策树有 ID3，C4.5，CART 等，下列选项中关于这些算法叙述正确的有 ABCD
A.ID3 没有考虑连续特征。
B.ID3 使用信息增益确定划分属性
C.C4.5 使用增益率确定划分属性
D.CART 生成的树是二叉树，使用了基尼指数确定划分属性
E.C4.5 和 CART 都可以处理连续属性，都考虑了剪枝，都考虑了缺失值的处理。
F.构建相同深度的决策树，CART 比 C4.5 的运算量大。
下列选项中，哪些算法使用串行策略，通过提升的方式，由若干弱分类器构建出强分
类器？ AB
A.AdaBoost
B.梯度提升树
C.决策树
D.Bagging
下列选项中，关于 AdaBoost 算法描述正确的有？ ABC
A.AdBoost 算法通过调整样本的分布，使得当前的弱分类器会优先将分布值大的样本分对
B.AdaBoost 算法是向前分步算法的特例
C.在 sklearn 中，用于分类的 AdaBoost 算法对应的类是 AdaBoostClassifier，其中参数 n_estimators 是弱分类器个数
D.AdaBoost 算法很好地体现了好而不同的策略。
下列选项中，关于 Bagging，叙述正确的有？ ABC
A.在测试阶段，Bagging 在学习到的基学习器中通过投票规则确定最终分类结果。
B.Bagging 通过 Bootstrap 重采样的方式实现样本扰动，进而使各基学习器具有差异性。
C.在 sklearn 中，用于分类的 Bagging 算法对应的类是 BaggingClassifier，其中参数 n_estimators 是基学习器的个数
D.Bootstrap 重采样保证了所有训练样本都将被用来训练某个基学习器。
bootstrap 数据的含义是： C
A.有放回的从整体 M 中抽样 m 个特征
B.无放回的从整体 M 中抽样 m 个特征
C.有放回的从整体 N 中抽样 n 个样本
D.无放回的从整体 N 中抽样 n 个样本
下列选项中，关于随机森林叙述正确的有？ AB
A.随机森林通过样本扰动和属性扰动使每棵决策树具有差异性
B.大多数情况下，随机森林的性能优于 Bagging
C.随机森林很好地使用了分而治之的策略。
D.构建随机森林时，随机选取属性个数的参数 k 无关紧要，该参数的大小对模型的性能影响
不大。
感知器也是一个神经网络。对
在前馈神经网络的训练阶段，通过正向传播计算损失，通过反向传播更新各参数。对
误差反向传播算法是从输出层到输入层逐层更新参数的。对
以下选项中，最有可能防止梯度消失现象的激活函数是？ C
A.Sigmoid 激活函数
B.tanh 激活函数
C.ReLU 激活函数
在训练深度神经网络时，以下选项中，常用来避免过拟合的方式有？ AB
A.Dropout
B.数据增强(Data Augmentation )
C.增加训练次数
D.减小学习率
卷积神经网络可以自动学习特征。对
池化层（Pooling）的作用主要是降维。对
KL 散度具有非负性和非对称性。对
确定性算法是指在不同的运行中，算法输出总是一样。那么前馈神经网络是一种确定
性算法。错
根节点的划分属性是信贷情况

数据预处理

在使用 sklearn 的数据标准化类的时候，成员函数 fit_transform 和 transform 是一样的，没有区别。错
Binarizer 类中的 fit()方法没有实质性作用。对
下列关于 Binarizer(copy=)说法正确的是 A
A.copy=True 可以保证在使用该类的过程中，输入数据不会被修改
B.copy=True 没有实质性作用，可以忽略。
C.在使用该类时，输入数据总是不会被修改。
在测试集上可以使用 MaxAbsScale 类的 fit_transform()方法。错
Normalizer 类当 norm='inf’时，实现的功能与 MaxAbsScale 类一样。对
使用 StandardScaler 变换以后，数据的取值范围变为(0,1)。错

聚类

下列选项中属于无监督学习的是？ C
A.分类任务
B.回归任务
C.聚类
聚类是寻找平方误差最小的簇划分。对
k-均值聚类中的 k 是指特征的维度。错
k-均值聚类的结果与初始聚类中心的选取无关。错
下列选项中关于 k-means++说法正确的是 B
A.k-means++跟 k-means 一样，都是聚类算法。
B.k-means++是一种挑选初始聚类中心的算法
C.k-means++是 k-means 的一种改进，可以解决 k-means 在大数据情况下速度慢的问题。
实际使用 k-means 算法时，往往需要运行多次，然后根据每次的平方误差选取最优的一次。在使用 sklearn 时，KMeans 类的初始化参数中设置该次数的是？ A
A.n_init
B.init
C.n_clusters
D.max_iter
在使用 sklearn 时，KMeans 类哪个成员变量可以返回最终的聚类中心？ B
A.inertia_
B.cluster_centers_
C.labels_
D.n_iter_
mini batch k-means 是 k-means 的一种改进，可以解决 k-means 在大数据情况下速度慢的问题。对
mini batch k-mean 的核心思想是：每次从所有样本中随机选取一批样本来更新聚类中
心。请问 sklearn.cluster.MiniBatchKMeans 类中哪个参数是设置每批样本的数量？ A
A.batch_size
B.n_clusters
C.n_init
D.init
下列关于 k-means 算法的运行时间叙述正确的是 A
A.运行时间与样本数量有关系，样本量越大，时间越长
B.运行时间受特征维度影响较大，样本数量几乎没有影响
C.运行时间受样本数量影响较大，特征维度几乎没有影响