| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> NPL基于词典分词(三) -> 正文阅读 |
|
[人工智能]NPL基于词典分词(三) |
前言《NPL基于词典分词(二)》介绍n元语法模型从词语接续的流畅度出发,为全切分词网中的二元接续打分,进而利用维特比算法求解似然概率最大的路径。这种词语级别的模型无法应对 OOV(Out of Vocabulary,即未登录词) 问题: 00V在最初的全切分阶段就已经不可能进人词网了,更何谈召回。 序列标注模型例如下面一句:
加粗的就是相对陌生的新词,之前的分词算法识别不出,但人类确可以,是因为读者能够识别“戴着”,后面往往跟着是一个词。 序列标注序列标注指的是给定一个序列
x
=
x
1
x
2
x
3
.
.
.
x
n
x=x_1x_2x_3...x_n
x=x1?x2?x3?...xn? ,找出序列中每个元素对应标签
y
=
y
1
y
2
y
3
.
.
.
y
n
y=y_1y_2y_3...y_n
y=y1?y2?y3?...yn? 的问题。其中,y 所有可能的取值集合称为标注集
{
x
,
y
}
=
{
(
x
i
,
y
i
)
}
,
i
=
1
,
2...
k
\{x,y\} = \{(x_i,y_i)\}, i=1,2...k
{x,y}={(xi?,yi?)},i=1,2...k。比如,输入一个自然数序列,输出它们的奇偶性。
即通过一个标注数据集学习相关知识后再进行预测。在NLP问题中,x 通常是字符或词语,而 y 则是待预测的组词角色或词性等标签。中文分词、词性标注以及命名实体识别,都可以转化为序列标注问题。
隐马尔可夫模型在所有“序列标注”模型中,隐马尔可夫模型( Hidden Markov Model, HMM)是最基础的一种。描述两个时序序列联合分布 p(x,y) 的概率模型:
隐马尔可夫模型之所以称为“马尔可夫模型”,”是因为它满足马尔可夫假设。
观测 x 为单词,状态 y 为词性。
状态与观测之间的依赖关系确定之后,隐马尔可夫模型利用三个要素来模拟时序序列的发生过程----即初始状态概率向量、状态转移概率矩阵和发射概率矩阵。 初始状态概率向量第一个状态 Y1 称为初始状态,假设 y 有 N 种可能的取值,那么 Y1 就是一个独立的离散型随机变量,由 P(y1 | π) 描述。其中
状态转移矩阵Yt 如何转移到 Yt+1 呢?根据马尔可夫假设,t+1 时的状态仅仅取决于 t 时的状态,既然一共有 N 种状态,那么从状态 Si 到状态 Sj 的概率就构成了一个 N*N 的方阵,称为状态转移矩阵 A:
发射概率矩阵有了状态 Yt 之后,如何确定观测 Xt 的概率分布呢?当前观测 Xt 仅仅取决于当前状态 Yt。也就是说,给定每种 y,x 都是一个独立的离散型随机变量,其参数对应一个向量。 假设观测 x 一共有 M 种可能的取值,则 x 的概率分布参数向量维度为 M。由于 y 共有 N 种,所以这些参数向量构成了 N*M 的矩阵,称为发射概率矩阵B。 隐马尔可夫模型应用一个隐马尔科夫模型是一个三元组(pi, A, B)。
第三个问题是:
给定HMM求一个观察序列的概率给定一个天气及与它密切相关的海藻湿度状态的隐马尔科夫模型(HMM),即(pi, A, B)已知的情况下,我们想找到观察序列的概率。假设连续3天海藻湿度的观察结果是(干燥、湿润、湿透),三天的天气情况如何。对于观察序列以及隐藏的状态,可以将其视为网格: 搜索最有可能生成一个观察序列的隐藏状态序列通过上述问题,已经列举出所有可能发生显示状态海藻(干燥、湿润、湿透)的隐性状态的概率了,我们只要找寻最大概率所对应的状态序列就行了。 给定观察序列生成一个HMM以隐马尔可夫模型应用于中文分词为例
性能评测如果隐马尔可夫模型中每个状态仅依赖于前一个状态, 则称为一阶;如果依赖于前两个状态,则称为二阶。
可以看到,二阶隐马尔可夫模型的 Roov 有少许提升,但综合 F1 反而下降了。这说明增加隐马尔可夫模型的阶数并不能提高分词器的准确率,单靠提高转移概率矩阵的复杂度并不能提高模型的拟合能力,我们需要从别的方面想办法。 主要参考《隐马尔可夫模型与序列标注》 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/27 18:42:57- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |