IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 27- 条件随机场 -> 正文阅读

[人工智能]27- 条件随机场

1. 背景介绍

1.1 简述

条件随机场的英文简称为(conditional-random-field),它是一个无向图模型,本文主要讲解的条件随机场历史进行研究和分析,主要按照如下顺序讲解

  • 条件随机场的背景介绍
  • HMM VS MEMM
  • MEMM VS CRF
  • CRF 概率密度函数的参数形式
  • 概率密度函数的向量形式
  • CRF 模型要解决的问题
  • 边缘概率密度计算 marginal-probability-calculate
  • CRF 参数学习问题

条件随机场CRF在图像处理和标注问题中表现突出,模型中结合了隐马尔可夫模型HMM和最大熵原理等相关知识,所以为了后续分析了顺畅性,需要提前了解相关知识。

1.2 思维导图

在这里插入图片描述

在机器学习过程中,我们遇到的很多问题基本都是围绕分类问题进行展开的,我们可以根据输出的类型是二分类0,1问题的为硬分类问题,对于输出的类型是多分类问题中预测输出是属于某一类的概率问题称为软分类问题。

1.3硬分类

硬分类主要是通过输入特征来表示,输出的结果直接告诉你这个样本到底属于哪一个类。常见的硬分类包含如下

1.3.1 SVM 支持向量机

SVM的全称叫"Support-Vector-Machine",中文名“支持向量机”,支持向量机就是通过几何上的间隔进行分类的,数学模型如下:详见支持向量机

min ? 1 2 W T W (1) \mathop {\min} \frac{1}{2}W^TW \tag 1 min21?WTW(1)

s . t : y i ( W T X i + b ) ≥ 1 , i = 1 , 2 , . . . , N (2) s.t: y_i(W^TX_i+b)\geq 1,i=1,2,...,N\tag 2 s.t:yi?(WTXi?+b)1,i=1,2,...,N(2)

1.3.2 PLA 支持向量机

多层感知机的主要思想是运用了误差驱动的思想来确定的。模型的数学如下:
f ( W ) = s i g n ( W T X ) (3) f(W)=sign(W^TX)\tag 3 f(W)=sign(WTX)(3)

1.3.3 LDA 线性判别分析

线性判别分析(linear-discriminate-analysis)的主要思想是保证数据的类间大,类内小的特性,详见线性判别分析

1.4 软分类

什么是软分类呢?其实软分类具体来说就是对于多个具体的类别来说,我们用概率的形式进行对样本进行分类,输出的是每一种可能性的概率。所以软分类最终求得的是一个概率分布,我们可以通过设定一个阀值来具体判断这个样本到底属于哪一个类别。对于软分类来说我们可以分为两类,第一类为概率判别模型;第二类为概率生成模型

1.4.1 概率判别模型

我们知道概率判别模型有很多种,具体来说是对P(Y|X)进行建模,只需要判断Y的结果,中间省略了很多信息,对于某些特定的应用来说比较方便,不需要进行复杂的计算。常见的概率判别模型中比较基本的算法为逻辑回归(Logistics-Regression),我们在指数族分布中学过最大熵模型中得到一个结论,即:在给定已知数据和事实的情况下,具有最大熵原理的模型分布为指数族分布,详见指数族分布,特例如下,对于我们给定均值和方差的情况下,满足最大熵原理的模型分布为高斯分布。

1.4.2 概率生成模型

概率生成模型主要是对P(X,Y)进行建模,我们求解的是联合概率分布P(X,Y),当我们得到一组新的数据时候,我们可以通过贝叶斯公式近似的得到P(Y|X)~P(X,Y),概率生成模型主要是分析结果是如何得到的,所具备的信息十分的全,但缺点是需要大量的数据样本和大量的计算。

  • Naive-Bayes 算法:朴素贝叶斯算法就是一个概率生成模型,此模型满足贝叶斯假设:
    P ( X ∣ Y = 1 / 0 ) = ∏ i = 1 p P ( x i ∣ Y = 1 / 0 ) (4) P(X|Y=1/0)=\prod_{i=1}^{p} P(x_i|Y=1/0)\tag{4} P(XY=1/0)=i=1p?P(xi?Y=1/0)(4)

  • 注:在给定 Y 的条件下,样本 X i X_i Xi? X j X_j Xj?之间相互独立;概率图模型如下:
    在这里插入图片描述

  • X i ⊥ X j ∣ Y ( i ≠ j ) ; 即 : 在 给 定 Y 的 条 件 下 , X i 独 立 于 X j X_i ⊥X_j| Y(i≠j);即:在给定 Y 的条件下,X_i独立于 X_j Xi?Xj?Y(i?=j);YXi?Xj?
    P ( y ∣ x ) = p ( x ∣ y ) ? p ( y ) p ( x ) = p ( x , y ) p ( x ) ∝ p ( x , y ) ; 注 : p ( x ) 为 已 知 ; (5) P(y|x)=\frac{p(x|y)·p(y)}{p(x)}=\frac{p(x,y)}{p(x)} \propto p(x,y);注:p(x)为已知;\tag{5} P(yx)=p(x)p(xy)?p(y)?=p(x)p(x,y)?p(x,y);p(x)(5)
    朴素贝叶斯的假设实在是太强了,假设每个样本之间相互独立,这个假设虽然极大的方便了计算,但在现实基本无法实现,所以这个假设不合理。当我们的结果有 y ∈ { 0 , 1 } y \in \{0,1\} y{0,1}变成多分类序列后,就引出了隐马尔可夫模型HMM.

  • 高斯混合模型
    高斯混合模型概率图如下所示:
    在这里插入图片描述

  • 对于高斯混合模型来说,隐变量 Z 属于离散型随机变量,Z决定了我们是选择哪一个高斯分布,所以我们可以得出在给定随机变量 Z 的情况下 ,X|Z 服从高斯分布,即:
    P ( X ∣ Z ) ~ N ( μ , Σ ) (6) P(X|Z)\sim N(\mu,\Sigma)\tag{6} P(XZ)N(μ,Σ)(6)
    H M M = 高 斯 混 合 模 型 + 时 间 (7) HMM = 高斯混合模型+时间\tag{7} HMM=+(7)

  • HMM隐马尔可夫模型(hidden-markov-model)概率图模型如下:
    在这里插入图片描述

  • 隐马尔可夫模型
    隐马尔可夫模型要求的是隐变量Z是离散型分布,对于观测变量来说可以随意,详见隐马尔可夫模型
    概率图如下:
    在这里插入图片描述

HMM中有两个重要的假设:

  • 齐次马尔科夫假设[无后效性]
    P ( i t + 1 ∣ i t , i t + 1 , . . . , i 1 , o t , o t ? 1 , . . . , o 1 ) = P ( i t + 1 ∣ i t ) (8) P(i_{t+1}|i_t,i_{t+1},...,i_1,o_t,o_{t-1},...,o_1)=P(i_{t+1}|i_t)\tag 8 P(it+1?it?,it+1?,...,i1?,ot?,ot?1?,...,o1?)=P(it+1?it?)(8)
    注:在给定当前时刻的时候,未来只依赖于现在,与过去无关。即英雄不问出处,未来只取决于现在
  • 观测独立性假设
    P ( o t ∣ i t , i t ? 1 . . . , o t ? 1 , . . . , o 1 ) = P ( o t ∣ i t ) (9) P(o_t|i_t,i_{t-1}...,o_{t-1},...,o_1)=P(o_t|i_t)\tag 9 P(ot?it?,it?1?...,ot?1?,...,o1?)=P(ot?it?)(9)

但是在现实过程中,我们希望的是模型中尽可能的减少假设的存在,研究人员希望打破HMM中的观测独立性假设来更好的理解模型,从而得出了MEMM模型

1.5 MEMM (最大熵马尔可夫模型)

最大熵马尔可夫模型是最大熵模型和马尔可夫模型的结合,MEMM严格意义上来说是一个概率判别模型,是对P(Y|X)进行建模,MEMM全称"maximum-entropy-markov-model",它打破了HMM模型中的观测独立性假设;

  • MEMM 图结构
    在这里插入图片描述

  • 分析:
    由上图可以看出,MEMM的输入可以分为两个部分,一部分为global-input,另外一部分为local-input;这样做十分的合理,因为一个变量Y不仅仅跟自身的样本 X i X_i Xi?有关,还与全局有关,所以将输入分成两个部分是十分合理的,上图是为了跟HMM模型进行区分才写成两个部分的,其实只需要输入写成 X 1 : T X_{1:T} X1:T?即可,因为 X 1 : T X_{1:T} X1:T?中也包含了 X i X_i Xi?;

  • 优点:
    对于 MEMM模型来说,它是一个概率判别式模型,也就是说对P(Y|X)进行了建模,那么就避免了求解P(X,Y)再通过贝叶斯公式求解P(Y|X),这样大大简化了计算
    MEMM模型丢弃了观测独立性假设,使得模型在计算的时候考虑了很多其他样本的影响,这样更加贴近现实,所以相对于HMM模型来说,MEMM模型更加的合理。它不仅考虑了对它有影响的样本,还考虑到了全局样本的影响。

  • 缺点:
    对于MEMM模型来说,有一个缺点就是引起了标注偏移的问题,造成这个现象的具体原因是因为我们需要进行局部归一化,从而导致label-bias-problem;

  • 原因:
    如上图绿框所示,我们需要求解概率 P ( y 2 ∣ y 1 , x 1 ) P(y_2|y_1,x_1) P(y2?y1?,x1?)时,需要对其进行归一化处理得如下:
    ? ( y 1 , x 1 , y 2 ) ∑ ? ( y 1 , . . . . ) (10) \frac{\phi(y_1,x_1,y_2)}{\sum \phi(y_1,....)}\tag {10} ?(y1?,....)?(y1?,x1?,y2?)?(10)
    由于进行了归一化处理,导致此时的能量波动,从而对后续的概率产生影响,为了解决上述标记偏移问题,我们提出了把MEMM算法模型的有向图改成无向图来解决局部归一化问题,因为无向图天然的是全局归一化,所以我们现在就引出了一个新的模型,它是一个无向图的结构,也是我们后续为了解决此类问题的新的模型,即条件随机场模型(Conditional-Random-Field)。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-08-08 11:20:38  更:2021-08-08 11:23:56 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 22:29:46-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码