IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 李宏毅机器学习小笔记 -> 正文阅读

[人工智能]李宏毅机器学习小笔记

机器学习基本概念简介:

  • 机器学习模型中的两类参数:
    • 模型参数(Parameter):
      • 需要从数据中学习和估计得到,称为模型参数(Parameter)—即模型本身的参数。比如,线性回归直线的加权系数(斜率)及其偏差项(截距)都是模型参数.
    • 超参数(hyperparameter):
      • 机器学习算法中的调优参数(tuning parameters),需要人为设定,称为超参数(Hyperparameter)。比如,正则化系数λ,决策树模型中树的深度,梯度下降法中的学习速率α,迭代次数epoch,批量大小batch-size,k近邻法中的k(最相近的点的个数),决策树模型中树的深度,等等

机器学习寻找函数的过程:

  1. 写出一个带有未知参数的函数:

    • 比如,可以先写出 y=f(x)或是y=b+wx1
    • model:y=b+wx1
    • weight:w
    • bias:b
  2. 定义一个loss:

    • Loss: L=1/n(e1+e2+…+en)
    • mean absolute error(MAE) e=|y-y’|
    • mean square error(MSE) e=(y-y’)^2
    • question:为什么loss的值会是负的:
      • answerloss是自己设定的,所以有可能会变成复数,比如设置为loss=|y-y‘|-100
  3. Optimization:

    • 找出使得L最小的一组w和b,记为w ,b**
      1. 随机选择一个初始的点w0
      2. 计算L关于w的导数、微分
      3. 使用梯度下降算法等更新w的值
        • 要设置learning rate学习率
        • hyperparameters:
          • 做机器学习时需要自己设定的东西(参数)

深度学习基本概念简介:

激活函数(Activation Function):

  • Sigmoid:

  • ReLU(Rectified Linear Unit):

    • c max(0,b+wx)
    • 2个ReLU可以合出一个hard Sigmoid
  • 这些Sigmoid或者ReLU叫做Neuron(神经元),很多的Neuron就叫做Neural Network,每一排Neuron叫做Layer(Hidden Layer),很多的Hidden Layer就叫做Deep,这一整套技术就叫做Deep Learning

当training data上的loss函数太大时,可能会有两个原因:

  1. Model Bias 太小
  2. Optimization Issue(没有选好优化方式)

当training data上的loss函数太小时:

  • 如果testing data上的loss函数也很小就刚好符合要求
  • 如果testing data上的loss函数比较大,就可能是发生了overfitting

当optimization时loss一直降不下去的时候:

在这里插入图片描述

  • 可能陷入了local minima
  • 可能陷入了 saddle point
  • 可能陷入了local maxima
  • 这些点的梯度gradient都是0,统称为critical point

那该怎么区分此时是在哪一点呢?

假设此时函数参数位于 θ \theta θ,由泰勒级数,我们可以近似地表示出当参数位于 θ \theta θ附近的 θ ′ \theta' θ时函数的值:
泰勒级数
里面的g是函数L在 θ ′ \theta' θ处的梯度,是一个向量;里面的H表示一个Hessian Matrix,可以将其理解为在点 θ ′ \theta' θ处的二阶导数:Hessian Matrix
由于函数陷入的一点梯度为0,所以我们可以只关注后面的一项,式子可以表示为:
忽略梯度值
此时,我们将 ( θ ? θ ′ ) (\theta-\theta') (θ?θ)表示为v,可以得到下图这三种情况:
三种情况

  1. 对于 θ ′ \theta' θ附近的所有 θ \theta θ,都有 v T H v > 0 v^THv>0 vTHv>0,也即矩阵H是一个正定矩阵:说明在 θ \theta θ点上,函数L的值等于在点 θ ′ \theta' θ处的函数值加上一个正数,这个结果都会比在点 θ ′ \theta' θ处的值要大,即点 θ ′ \theta' θ是一个极小值点,Local minima
  2. 对于 θ ′ \theta' θ附近的所有 θ \theta θ,都有 v T H v < 0 v^THv<0 vTHv<0,也即矩阵H是一个负定矩阵:说明在 θ \theta θ点上,函数L的值等于在点 θ ′ \theta' θ处的函数值加上一个正=负数,这个结果都会比在点 θ ′ \theta' θ处的值要小,即点 θ ′ \theta' θ是一个极大值点,Local maxima
  3. 对于 θ ′ \theta' θ附近的所有 θ \theta θ,有些 v T H v > 0 v^THv>0 vTHv>0,有些 v T H v < 0 v^THv<0 vTHv<0:由以上两种情况可知,这种情况下在 θ ′ \theta' θ点周围有些地方高有些地方低,意味着这是一个Saddle point
  • 矩阵的正定可以计算特征值或是看各阶主子式是否全大于0,特征值全大于0说明是正定矩阵,小于0说明是负定矩阵;各阶主子式全大于0说明是正定矩阵
  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-07-16 11:17:35  更:2021-07-16 11:19:21 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/28 12:07:48-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码