| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 机器学习笔记(二)——线性回归 -> 正文阅读 |
|
[人工智能]机器学习笔记(二)——线性回归 |
线性回归给定数据集 D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ? ? , ( x m , y m ) } D = \{ ({x_1},{y_1}),({x_2},{y_2}), \cdots ,({x_m},{y_m})\} D={(x1?,y1?),(x2?,y2?),?,(xm?,ym?)},其中 x i = ( x i 1 ; x i 2 ; ? ? ; x i d ) x_i=(x_{i1};x_{i2};\cdots;x_{id}) xi?=(xi1?;xi2?;?;xid?), y i ∈ R . y_i\in R. yi?∈R.线性回归试(linear regression)图学得一个线性模型以尽可能的准确的预测实值输出标记。 这里x(i)表示数据集中第i个样本,该样本总共有d个特征。 1.单变量线性回归由于是单变量,输入的样本特征只有一个,此时我们忽略关于样本特征的下表,即
D
=
{
(
x
i
,
y
i
)
}
i
=
1
m
D = \{ ({x_i},{y_i})\} _{i = 1}^m
D={(xi?,yi?)}i=1m?,其中
x
i
∈
R
{x_i} \in R
xi?∈R。对于离散属性,若特征值间存在“序”(order)关系,可通过连续化将其转化为连续值。 均方误差的几何意义对应于欧几里得距离即“欧氏距离”,而基于均方误差最小化来进行模型求解的方法则是“最小二乘法”,“最小二乘法”实质上就是找到一条直线,使所有样本数据到该直线的欧式距离之和最小,即误差最小。 2.推广到一般情形——多元线性回归例如文章开头的线性回归描述,数据集
D
=
{
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
?
?
,
(
x
m
,
y
m
)
}
D = \{ ({x_1},{y_1}),({x_2},{y_2}), \cdots ,({x_m},{y_m})\}
D={(x1?,y1?),(x2?,y2?),?,(xm?,ym?)},其中
x
i
=
(
x
i
1
;
x
i
2
;
?
?
;
x
i
d
)
x_i=(x_{i1};x_{i2};\cdots;x_{id})
xi?=(xi1?;xi2?;?;xid?),
y
i
∈
R
.
y_i\in R.
yi?∈R.,样本由
d
d
d个特征,此时我们试图学得
? A B ? B = A T \frac{{\partial AB}}{{\partial B}} = {A^T} ?B?AB?=AT ? A T B ? A = B \frac{{\partial {A^T}B}}{{\partial A}} = B ?A?ATB?=B ? X T A X ? X = 2 A X \frac{{\partial {X^T}AX}}{{\partial X}} = 2AX ?X?XTAX?=2AX 当
?
J
(
w
^
)
?
w
^
\frac{{\partial J(\hat w)}}{{\partial \hat w}}
?w^?J(w^)?为0可得
w
^
\hat w
w^的最优解,当
X
T
X
{X^T}X
XTX为满秩矩阵或正定矩阵时,可得
w
^
?
=
(
X
T
X
)
?
1
X
T
y
{\hat w^*} = {({X^T}X)^{ - 1}}{X^T}y
w^?=(XTX)?1XTy 梯度下降算法1.选择梯度下降算法而不是直接求导等于0的理由为什么计算损失函数最优值采用梯度下降算法而不是直接求导等于0? 2.梯度的概念梯度是微积分中一个很重要的概念 3.场景假设
4.学习率学习率即为每次更新迭代参数的步长,通常我们学习率使用
α
\alpha
α来表示。 5.单变量梯度下降为方便描述,这里令预测的函数模型为
f
(
x
i
)
=
θ
0
+
θ
1
x
f({x_i}) = {\theta _0} + {\theta _1}x
f(xi?)=θ0?+θ1?x 注:跟之前的式子比,这里 θ 0 {\theta _0} θ0?= b b b, θ 1 {\theta _1} θ1?= w w w.这里的系数 1 2 m \frac{1}{{2m}} 2m1?对结果没有影响。 (1)单变量梯度下降公式repeat until convergence{ (2)单变量梯度下降实例我们假设有一个单变量的函数:
J
(
θ
)
=
θ
2
J(\theta ) = {\theta ^2}
J(θ)=θ2 6.多变量梯度下降支持多变量的假设
f
f
f表示为
f
(
x
i
)
=
θ
0
+
θ
1
x
1
+
θ
2
x
2
+
?
+
θ
n
x
n
f({x_i}) = {\theta _0} + {\theta _1}{x_1} + {\theta _2}{x_2} + \cdots + {\theta _n}{x_n}
f(xi?)=θ0?+θ1?x1?+θ2?x2?+?+θn?xn? (1)多变量梯度下降公式Repeat{ (2)多变量梯度下降实例我们假设有一个目标函数:
常见的梯度下降算法还有: 参考文献周志华《机器学习》 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 | -2025/1/27 7:19:08- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |