| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 神经网络与深度学习--读书笔记1 -> 正文阅读 |
|
[人工智能]神经网络与深度学习--读书笔记1 |
机器学习概述本文是邱锡鹏教授撰写的《神经网络与深度学习》一书中 第2章:机器学习概述 的读书笔记,由于该部分比较基础,只记录一些本人觉得比较值得记录的内容,中间也会包括一些拓展和思考。 机器学习中的损失函数平方损失函数
交叉熵损失函数
Hinge 损失函数
最大似然估计与平方损失函数假设真实值
y
y
y 与 预测值
f
(
x
;
θ
)
f(x;\theta)
f(x;θ)的关系如下: 因此,当 y \boldsymbol y y 满足高斯分布时,最大似然估计等价于平方损失函数 最大似然估计与交叉熵参见 最大似然估计与交叉熵 最大似然估计与最大后验估计
######################################################################### 正则化关于L2正则化的两点思考对于线性回归 f ( x ; w ) = w T x f(\boldsymbol x;\boldsymbol w) = \boldsymbol w^T \boldsymbol x f(x;w)=wTx,其平方损失: L ( w ) = 1 2 ∣ ∣ y ? X T w ∣ ∣ 2 L(\boldsymbol w)= \frac{1}{2} || \boldsymbol y - \boldsymbol X^T \boldsymbol w ||^2 L(w)=21?∣∣y?XTw∣∣2,用最小二乘法可得 w \boldsymbol w w的解析解为: w = ( X T X ) ? 1 X y \boldsymbol w = (\boldsymbol X^T \boldsymbol X)^{-1} \boldsymbol X \boldsymbol y w=(XTX)?1Xy。 但这个要求
X
T
X
\boldsymbol X^T \boldsymbol X
XTX 可逆阵,而实际使用中,仅仅可逆还不够,如果
X
T
X
\boldsymbol X^T \boldsymbol X
XTX可逆,但有接近于0的特征值,仍会使得数据集
X
\boldsymbol X
X一点点小的扰动就让
(
X
T
X
)
?
1
(\boldsymbol X^T \boldsymbol X)^{-1}
(XTX)?1 的值变化很大,为了解决这个问题,有人提出了岭回归,给
X
T
X
\boldsymbol X^T \boldsymbol X
XTX的对角线元素都加上一个常数
α
\alpha
α,使得
X
T
X
+
α
I
\boldsymbol X^T \boldsymbol X + \alpha \boldsymbol I
XTX+αI 求逆稳定: 而上式恰好等价于给平方损失加上L2正则化: 那么我们就知道了L2正则化的第一个作用:L2正则化可以使得求解更稳定! 继续观察
w
=
(
X
T
X
+
α
I
)
?
1
X
y
\boldsymbol w = (\boldsymbol X^T \boldsymbol X + \alpha \boldsymbol I)^{-1} \boldsymbol X \boldsymbol y
w=(XTX+αI)?1Xy,它可以分解成: 假如
λ
i
\lambda_i
λi?是
X
T
X
=
Q
T
Γ
Q
\boldsymbol X^T \boldsymbol X = \boldsymbol Q^T \Gamma \boldsymbol Q
XTX=QTΓQ的特征值,那么
λ
i
λ
i
+
α
\frac{\lambda_i}{\lambda_i + \alpha}
λi?+αλi??就是
Q
T
(
Γ
+
α
I
)
?
1
Γ
Q
\boldsymbol Q^T (\Gamma + \alpha \boldsymbol I)^{-1} \Gamma \boldsymbol Q
QT(Γ+αI)?1ΓQ的特征值。 也就是说:在变换 Q \boldsymbol Q Q 下, w i \boldsymbol w_i wi? 相对于 w i ^ \hat{\boldsymbol w_i} wi?^?都变小了,而且变小的强度跟 λ i \lambda_i λi?成反比。 由于这里 L ( w ^ ) ? 2 w ^ = X T X \frac{L(\hat{\boldsymbol w})}{\partial^2 \hat{\boldsymbol w}} = \boldsymbol X^T \boldsymbol X ?2w^L(w^)?=XTX,因此 X T X \boldsymbol X^T \boldsymbol X XTX 是损失函数 L ( w ) L(\boldsymbol w) L(w) 的海森阵,反映的是损失函数 L ( w ^ ) L(\hat{\boldsymbol w}) L(w^) 的凸性, λ i \lambda_i λi? 越大,表示凸性越强。再结合上面的结果,我们可以得到L2正则化的第二个作用:
######################################################################### 机器学习中评价指标精确率和召回率对于分类模型,假如有 C C C 个类别,那么对于任意类别 c c c,有:
精确率,也叫查准率,类别
c
c
c 的查准率是所有预测为类别
c
c
c 的样本中预测正确的比例: 召回率,也叫查全率,类别
c
c
c 的查全率是所有真实标签为类别
c
c
c 的样本中预测正确的比例: F1 score,是一个综合指标,为精确率和召回率的调和平均: 计算分类算法在所有类别上的总体精确率,召回率和F1 score: 交叉验证交叉验证(Cross-Validation)是一种比较好的衡量机器学习模型的统计分析方法,可以有效避免划分训练集和测试集时的随机性对评价结果造成的影响.我们可以把原始数据集平均分为 K K K 组不重复的子集,每次选 K ? 1 K-1 K?1 组子集作为训练集,剩下的一组子集作为验证集.这样可以进行 K K K 次试验并得到 K K K 个模型,将这 K K K 个模型在各自验证集上的错误率的平均作为分类器的评价. Reference: |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/26 23:35:25- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |