| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 机器学习常考问题面经总结 -> 正文阅读 |
|
[人工智能]机器学习常考问题面经总结 |
1 特征工程对于一个机器学习问题,数据和特征往往决定了结果的上限,而模型、算法的选择应优化则是在逐步接近这个上限。 1.1 特征归一化为了消除数据特征之间的量纲影响,我们需要对特征进行归一化处理使得不同指标之间具有可比性。 1 归一化方法
2 为什么需要归一化前面说的为了去量纲,进一步,为什么需要去量纲?拿一个随机梯度下降的例子,假设高两种数值型特征, X1 的取值范围为[0, 10],X2的取值范围为[0, 3],于是可以构造一个目标函数等值图。另外进行归一化之后如右图 1.2 类别型特征类比特征就是待分类的标签值。比如男女,血型A/B/O/AB.这些字符串表示出了决策树等少数模型可以接受,一般模型比如LR,SVM都需要数值型标签才能work。
1.3 组合特征为了提高对复杂关系的拟合能力,需要对一特征进行组合交叉,将一阶特征组合为高阶特征。 1.4 文本表示能力1 Word2Vec2013年谷歌提出了Word2Vec模型。有两种网络结构分别是:
同理,输出层向量的值可以通过隐含层向量 ( K 维),以及连接隐含层和输出层之间的 K× N 维权童声巨阵计算得到。输出层也是一个N维向量 ,每维与词汇表中的一个单词中日对应 。 最后,对输出层向量应用Softmax 激活函数,可以计算出每个单词的生成概率 。 2 Word2Vec和LDA区别联系
2 模型评估2.1 评估指标
准
确
率
:
A
c
c
u
r
a
c
y
=
T
F
+
F
N
/
T
F
+
T
N
+
F
P
+
F
N
准确率:Accuracy = TF+FN/TF+TN+FP+FN
准确率:Accuracy=TF+FN/TF+TN+FP+FN P-R曲线 2.2 ROC和AUC1 ROC曲线ROC的横坐标是假阳(FPR),纵坐标是真阳(TPR),计算方式如下:
绘制ROC曲线: 2 AUC的计算AUC就是ROC的曲线面积,可以使用对曲线积分的方式计算。 3 ROC和P-R曲线对比ROC比P-R曲线更加稳定,对于正负样本不均衡时,ROC曲线可以维持不变,但是P-R曲线变化剧烈。所以ROC的应用场景更加广泛。 2.3 余弦相似度1 余弦相似度和欧氏距离对于词频或者词向量,他们在空间的欧氏距离可能很大,但是余弦夹角很小,依次度量两个向量的相似度。即是扩展到高维数据,依然符合相似为1,相交为0,相反为-1的特点。所以余弦相似度取值为[0,2]。 在一些场景,例如 Word2Vec 中,其向量的模长是经过归一化的, 此时欧氏距离与余弦距离有着单调的关系, 即 总体来说,欧氏距离体现数值上的绝对差异,而余弦距离体现方向上的相对差异。例如, 统计两部剧的用户观看行为, 用户 A \mathrm{A} A 的观看向量为 ( 0 , 1 ) (0,1) (0,1), 用户 B \mathrm{B} B 为 ( 1 , 0 ) (1,0) (1,0); 此时二者的余弦距离很大, 而欧氏距离很小; 我 们分析两个用户对于不同视频的偏好, 更关注相对差异, 显然应当使用余 弦距离。而当我们分析用户活跃度,以登陆次数 (单位: 次) 和平均观看 时长 (单位: 分钟) 作为特征时, 余弦距离会认为 ( 1 , 10 ) 、 ( 10 , 100 ) (1,10) 、(10,100) (1,10)、(10,100) 两个 用户距离很近; 但显然这两个用户活跃度是有着极大差异的, 此时我们更 关注数值绝对差异,应当使用欧氏距离。 所以,针对不同的场景采用不同的距离度量方式。 2 余弦距离不是一个严格定义的距离距离定义:在集合中,一对元素均可以唯一确定一个实数,满足正定性,对称性和三角不等式,那么这个实数就是这对元素的距离。但是余弦距离不满足三角不等式。 此外还有KL散度(相对熵)不满足对称性和三角形不等式 2.5 A/Btest1.为什么进行A/Btest?
2.如何进行A/B test?对用户进行分桶,实验组和对照组。要注意样本的独立性和采样无偏性,确保同一用户每次分进同一个组。分桶过程中用户id是一个随机数,保证无偏。 3.如何划分实验组和对照组?对于美国用户进行推荐系统a/btest,按照用户id的奇偶性来划分两组,分别采用不同的模型。 2.6 模型评估方法1 holdout法7:3的训练测试比例 缺点:,即在验证集上计算出来的最后评估指标与原始分组有很大关系。为了消除随机性,研究者们引入了“交叉检验”的思想 2 交叉检验k-fold交叉验证:将数据样本等分为k份,依次选择其中一份为测试集,其他为训练集,作k次实验,k次结果平均为最终的评估指标。 留一:每次留下一个样本作为测试集,进行n次实验,取平均,由于遍历时间过长,工程上不采用。 3 自助采样法(booststrap)以上方法都有一个缺点:当样本规模比较小时,将样本集进行划分会让训练集进一步减小,这可能会影响模型训练效果。自助法可以维持数据集的规模。 对于总数为 n 的样本集合进行 n 次有放回的随机抽样得到大小为 n 的训练集 。 n 次采样过程中有的样本会被重复采样,有的样本没高被抽出过,将这些没被抽出的样本作为测试集,进行模型验证,这就是自助法的验证过程 。 4 自助法下,n次取样多少样本未被抽中? 36.8%2.7 过拟合与欠拟合问题1 如何降低过拟合?
2 欠拟合怎么操作?
2.8 方差和偏差关于方差和偏差的总结 方差和偏差 3 分类算法3.1 逻辑回归1 逻辑回归与线性回归的比较不同之处: LR是分类,线性回归属于回归 相同:
2 LR如何进行多分类1.当单个样本属于一个标签时 其中 θ = θ 2 ? θ 1 \theta=\theta_{2}-\theta_{1} θ=θ2??θ1? 。而整理后的式子与逻辑回归一致。因此,多项逻辑回 归实际上是二分类逻辑回归在多标签分类下的一种拓展。 2.当一个样本可能属于多标签时: 3 LR的优缺点优点
缺点:
4 LR为何使用sigmoid激活函数(sigmoid函数的优点)p = e x 1 + e x p = \frac{e^x}{1+e^x} p=1+exex?
3.2 支持向量机3.3 决策树1 决策树有哪些常用的启发函数1.ID3——最大信息增益 CART 在每一次迭代中 选择基尼指数最小(ID3,C4.5选择最大的)的特征及其对应的切分点进行分类 。但与 ID3 , C4.5 不同的是, CART 是一颗二叉树,采用二元切割,每一步将数据按特征 A 的取值切成两份,分别进入左右子树
2 决策树怎么剪枝一颗完全生长的决策树都会过拟合,预测效果很差,为了提升决策树的泛化能力,需要对决策树进行剪枝,去除一些特征。主要有两种方法,预剪枝(pre-Pruning)和后剪枝(Post-Pruning)。
总结:
4 非监督算法5 概率图模型6 优化算法6.1 常用损失函数总结6.2 机器学习中的优化问题6.3 梯度验证(待总结)6.4 常用优化方法6.5 正则与稀疏问题为了防止模型过拟合,通用使用正则的方式,实现结构风险最小。也就是在经验风险的基础上增加一个正则项,一般是一个单调递增的函数,当模型越复杂,正则项就越大,实现对模型的惩罚。 1 L1正则和L2正则2 L1正则为何导致模型参数稀疏1 解空间形状角度
2 贝叶斯概率角度贝叶斯的角度来理解 L l 正则化和 L2 正则化,简单的解释是L1正则化相当于对模型参数 w 引入了拉普拉斯先验, L2 正则化引入了高斯先验.而拉普拉斯先验使参数为 0 的可能性更大。 高斯分布在极值点( 0 点)处是平,也就是高斯先验分布认为 w 在极值点附近取不同值的可能性是接近的 。 这就是 L2 正则化只会让 w 更接近 0 点,但不会等于 0 的原因 。 6.6 超参数的调优超参数:在开始学习过程之前设置值的参数,而不是通过训练得到的参数数据。通常情况下,需要对超参数进行优化,给学习机选择一组最优超参数,以提高学习的性能和效果。 一般有三种调参方法:
7 集成学习7.1 集成学习理论7.2 GBDT和XGBoost7.3 常用的基分类器为何是决策树?三个原因:
除此之外,神经网络可以作为基分类器,不稳定,调节神经元个数,层数,等方式来引入随机性。 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/26 22:47:04- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |