-
机器学习三要素是? A B C
A.模型
B.策略
C.算法
D.样本
-
感知器算法的损失函数是误分类点的总数。 错
-
sklearn 提供的感知器类是 Perceptron,该类实例化的时候一个重要的参数是 eta0请 问该参数表示什么?学习率
-
下述指标常用来评价分类模型的有哪些? A B C D
A.准确率(accuracy)
==B.精确率(precision) ==
C.召回率(recall)
D.F1-值(F1-score)
E.均方误差
-
段落说明
现有 10 个样本,6 个阳性(positive),4 个阴性(negative)。模型分别将 2 个阳性和 1
个阴性样本预测错误,其余样本均预测正确。请根据该数据,完成下述四个题目。
-
模型的准确率(accuracy)是多少?(保留两位小数)0.70
-
模型的精确率(precision)是多少?(保留两位小数)0.80
-
模型的召回率(recall)是多少?(保留两位小数)0.67
-
F1-值(F1-score)是多少?(保留两位小数)0.73
-
点击率的预测是一个数据比例不平衡问题(比如训练集中样本呈阴性的比例为 99%,阳
性的比例是 1%),如果我们用这种数据建立模型并使得训练集的准确率高达 99%。下列说
法正确的是 D
A.模型的准确率非常高,我们不需要进一步探索
B.不能确定模型是否好,应该进一步探讨精确率(precision),如果精确率高,说明模型
好。
C.训练样本中阳性和阴性样本的比例不影响模型的性能。
D.不能确定模型是否好,应该进一步探讨召回率(recall),如果召回率低,说明模型不好, 需要重新考虑。
-
下列关于支持向量机模型叙述错误的是? B
A.对偶问题的解中非零的 alpha 对应的样本是支持向量。
B.将不是支持向量的样本去掉后,使用相同参数重新求得的超平面可能会不同。
C.当惩罚系数 C 趋于无穷大时,软间隔最大化问题会退化为硬间隔最大化问题。
D.惩罚系数 C 越小,间隔越大,模型的泛化性能越差。
-
支持向量机的损失函数是? D
A.0-1 损失函数
B.交叉熵损失函数
C.KL-散度
D.合页损失函数
-
线性不可分问题不能使用支持向量机模型求解。 错
-
sklearn 中用支持向量机分类的类名是 SVC,该类默认使用的核是? A
A. 径向基核函数
B.多项式核函数
C.线性核函数
D.Sigmoid 核函数
-
下列关于多类分类问题,叙述错误的是 C
A.多类分类问题可以转化为二分类问题
B.one-versus-rest 方法可以将多类分类问题转化为二分类问题,但是存在训练样本不平衡
的问题。
C.one-versus-one 方法可以将多类分类问题转化为二分类问题,与 one-versus-rest 方法 的计算量相当
D.one-versus-one 方法通常使用投票原则预测分类结果。
-
下列算法属于生成式模型的是? A
==A.朴素贝叶斯 ==
B.支持向量机
C.感知器算法
D.决策树
-
下列关于朴素贝叶斯叙述错误的是? B
A.朴素贝叶斯模型的核心假设是“在类别已知的情况下,特征条件独立”。
B.朴素贝叶斯模型无法解决连续特征的分类问题
C.朴素贝叶斯常用于文本分类。
D.拉普拉斯平滑可以有效解决零概率问题。
-
sklearn 中用于分类任务的 K-近邻算法的类是 KNeighborClassifier,下述那个参数是 A
算法中的 K?
A.n_neighbors
B.metric
C.p
D.weights
-
K-近邻算法中的超参数 K 太大和太小对模型都有影响,不同的问题应该选择合适的 K。
对
-
KD-树中的 K 和 K-近邻中的 K 都是表示满足特定条件的样本个数。 错
-
KD-树和 Ball-树都是为了提升 K-近邻算法查找 K 个近邻样本的效率而设计的数据结
构。与暴力搜索相比,它们在特征维度较小时有明显优势。 对
-
下列选项中关于 K-近邻算法叙述正确的有 A D
A.K-近邻算法没有明显的训练过程,计算量主要体现在测试阶段。
B.用 K-近邻算法分类,预测速度与训练样本多少无关,只与测试样本的数量有关系。
C.K-近邻算法的运算速度与特征的维度无关。
D.在使用 sklearn 中的 K-近邻算法时,如果选择了 KD-树或 Ball-树等数据结构,fit 阶段
主要用来构建相应的数据结构。
-
关于决策树,下列说法正确的有 A C
A.构建决策树的关键是确定划分属性。
B.决策树越深模型的分类效果越好。
C.如果使用信息增益确定最优划分属性,应该选择信息增益大的属性。
D.如果使用基尼指数确定最优划分属性,应该选择基尼指数大的属性。
-
用决策树分类时,如果训练集规模很大,那么下面哪种方式比较合理?C
A.降低特征的维度
B.增加学习率
C.减少数的深度
D.挑选少量样本来训练
-
决策树剪枝的主要目的是? A D
A.降低过拟合风险
B.降低欠拟合风险
C.提高模型在训练集的准确率
D.提高模型的泛化能力
-
经典决策树有 ID3,C4.5,CART 等,下列选项中关于这些算法叙述正确的有 ABCD
A.ID3 没有考虑连续特征。
B.ID3 使用信息增益确定划分属性
C.C4.5 使用增益率确定划分属性
D.CART 生成的树是二叉树,使用了基尼指数确定划分属性
E.C4.5 和 CART 都可以处理连续属性,都考虑了剪枝,都考虑了缺失值的处理。
F.构建相同深度的决策树,CART 比 C4.5 的运算量大。
-
下列选项中,哪些算法使用串行策略,通过提升的方式,由若干弱分类器构建出强分
类器? AB
A.AdaBoost
B.梯度提升树
C.决策树
D.Bagging
-
下列选项中,关于 AdaBoost 算法描述正确的有? ABC
A.AdBoost 算法通过调整样本的分布,使得当前的弱分类器会优先将分布值大的样本分对
B.AdaBoost 算法是向前分步算法的特例
C.在 sklearn 中,用于分类的 AdaBoost 算法对应的类是 AdaBoostClassifier,其中参数 n_estimators 是弱分类器个数
D.AdaBoost 算法很好地体现了好而不同的策略。
-
下列选项中,关于 Bagging,叙述正确的有? ABC
A.在测试阶段,Bagging 在学习到的基学习器中通过投票规则确定最终分类结果。
B.Bagging 通过 Bootstrap 重采样的方式实现样本扰动,进而使各基学习器具有差异性。
C.在 sklearn 中,用于分类的 Bagging 算法对应的类是 BaggingClassifier,其中参数 n_estimators 是基学习器的个数
D.Bootstrap 重采样保证了所有训练样本都将被用来训练某个基学习器。
-
bootstrap 数据的含义是: C
A.有放回的从整体 M 中抽样 m 个特征
B.无放回的从整体 M 中抽样 m 个特征
C.有放回的从整体 N 中抽样 n 个样本
D.无放回的从整体 N 中抽样 n 个样本
-
下列选项中,关于随机森林叙述正确的有? AB
A.随机森林通过样本扰动和属性扰动使每棵决策树具有差异性
B.大多数情况下,随机森林的性能优于 Bagging
C.随机森林很好地使用了分而治之的策略。
D.构建随机森林时,随机选取属性个数的参数 k 无关紧要,该参数的大小对模型的性能影响
不大。
-
感知器也是一个神经网络。 对
-
在前馈神经网络的训练阶段,通过正向传播计算损失,通过反向传播更新各参数。 对
-
误差反向传播算法是从输出层到输入层逐层更新参数的。 对
-
以下选项中,最有可能防止梯度消失现象的激活函数是? C
A.Sigmoid 激活函数
B.tanh 激活函数
C.ReLU 激活函数
-
在训练深度神经网络时,以下选项中,常用来避免过拟合的方式有? AB
A.Dropout
B.数据增强(Data Augmentation )
C.增加训练次数
D.减小学习率
-
卷积神经网络可以自动学习特征。 对
-
池化层(Pooling)的作用主要是降维。 对
-
KL 散度具有非负性和非对称性。 对
-
确定性算法是指在不同的运行中,算法输出总是一样。那么前馈神经网络是一种确定
性算法。 错
根节点的划分属性是信贷情况