| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 深度学习学习笔记-双向LSTM-CRF模型论文研读 -> 正文阅读 |
|
[人工智能]深度学习学习笔记-双向LSTM-CRF模型论文研读 |
概念引入命名实体识别 命名实体识别(Named Entity Recognition,NER)是NLP中一项非常基础的任务。NER是信息提取、问答系统、句法分析、机器翻译等众多NLP任务的重要基础工具。 定义 命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。简单的讲,就是识别自然文本中的实体指称的边界和类别。 信息抽取 信息抽取(information extraction),即从自然语言文本中,抽取出特定的事件或事实信息,帮助我们将海量内容自动分类、提取和重构。这些信息通常包括实体(entity)、关系(relation)、事件(event)。例如从新闻中抽取时间、地点、关键人物,或者从技术文档中抽取产品名称、开发时间、性能指标等。 显然,信息抽取任务与命名实体识别任务类似,但相对来说更为复杂。有时,信息抽取也被称为事件抽取(event extraction)。 与自动摘要相比,信息抽取更有目的性,并能将找到的信息以一定的框架展示。自动摘要输出的则是完整的自然语言句子,需要考虑语言的连贯和语法,甚至是逻辑。有时信息抽取也被用来完成自动摘要。 由于能从自然语言中抽取出信息框架和用户感兴趣的事实信息,无论是在知识图谱、信息检索、问答系统还是在情感分析、文本挖掘中,信息抽取都有广泛应用 概率图模型 概率图模型是用图来表示变量概率依赖关系的理论,结合概率论与图论的知识,利用图来表示与模型有关的变量的联合概率分布。由图灵奖获得者Pearl开发出来。概率图模型理论分为概率图模型表示理论,概率图模型推理理论和概率图模型学习理论。近10年它已成为不确定性推理的研究热点,在人工智能、机器学习和计算机视觉等领域有广阔的应用前景。简单来说就是就是一类用图来表达变量相关关系的概率模型,通常用一个节点表示一个或一组随机变量,节点间的边表示变量间的概率关系,分为有向无环图(贝叶斯网) + 无向图模型(马尔科夫网) 马尔可夫模型 此为一阶马尔科夫模型 隐马尔可夫模型(HMM) HMM是关于时序的概率模型,描述由一个隐藏的马尔可夫链随机生成不可观测的状态随机序列(状态序列),再由各个状态生成一个观测而产生的观测随机序列(观测序列)的过程。
1齐次马尔科夫假设 2观测独立假设 HMM模型解决的3个问题 条件随机场 设两组随机变量𝑋 = ( 𝑋 1 , . . . , 𝑋 𝑛 ), 𝑌 = ( 𝑌 1 , . . . , 𝑌 𝑛 ),那么线性链条件随机场的定义为 用于序列标注问题的线性链条件随机场, 判别方式:特征函数(可以简单理解为强化学习中的状态函数) 转移特征𝑡 𝑘 ( 𝑦 𝑖 ? 1 , 𝑦 𝑖 , 𝑥 , 𝑖 )是定义在边上的特征函数(transition),依赖于当前位置 i 和前 前向算法 概率计算问题:已知模型参数(π, A, B)和观测序列O = (o1, o2, … ,oT),计算观测序列出现的概率。 维特比算法(Viterbi) 简单来说就是概率论里面的传染病模型 维特比解码(Viterbi Decoding) 命名实体识别的发展历程 传统机器学习的方法 深度学习方法 论文的背景序列标注问题(sequence labeling, also named as tagging)可以看作许多自然语言处理问题的前驱,如情感分析,信息检索、推荐和过滤等等。同时在自然语言处理中,许多的任务可以转化为“将输入的语言序列转化为标注序列”来解决问题,因此序列标注是自然语言处理中的重要研究内容之一 当时(2015)的序列标记模型大多是线性统计模型,如隐马尔可夫模型(HMM),最大熵马尔可夫模型(MEMMS),条件随机场(CRF) 论文主要内容BILSTM-CRF模型的结构 1 . 句中转化为字词向量序列,字词向量可以预训练好或随机初始化,在模型训练中还可以再训练 步骤1:Word embedding
步骤2:BiLSTM Extracting text features(BiLSTM提取文本特征) 原理:门机制 这些门由sigmoid函数表达,输出值为1(保留)和0(舍弃) 方法流程:
LSTM通过记忆单元来解决长距离依赖问题,但LSTM是一种前向传播算法,因此对命名实体识别而言,需要反向传播的LSTM进行学习,即BiLSTM:
步骤3: Get P Matrix(得到P矩阵)
发射分数,是BiLSTM层的输出。用 X i y j 代表发射分数,i 是单词的位置索引,y j 是类别的索引 步骤4:CRF层的引入
转移分数(Transition score) 转移分数,来自CRF层可以学到的转移矩阵 。 步骤5:最终结果的计算 (Calculation of the final result) CRF考虑前后标记依赖约束,综合使用标记状态转换概率作为 路径分数 CRF损失函数 当前节点的得分 所有路径得分 对最优选择的预测
模型的效果
论文的成果提出了一系列基于神经网络的序列标注模型:LSTM、BI-LSTM、LSTM-CRF、BILSTM-CRF
论文的意义是命名实体识别深度学习时代的开端 模型的优势相对于HMM(隐马尔可夫模型)来说, |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 | -2024/12/22 10:29:32- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |