CIPS 2016 笔记整理
《中文信息处理发展报告(2016)》是中国中文信息学会召集专家对本领域学科方 向和前沿技术的一次梳理,官方定位是深度科普,旨在向政府、企业、媒体等对中文 信息处理感兴趣的人士简要介绍相关领域的基本概念和应用方向,向高校、科研院所和 高技术企业中从事相关工作的专业人士介绍相关领域的前沿技术和发展趋势。
本专栏主要是针对《中文信息处理发展报告(2016)》做的笔记知识整理,方便日后查看。
注意:本笔记不涉及任何代码以及原理分析研究探讨,主要是对NLP的研究进展、现状以及发展趋势有一个清晰的了解,方便以后更加深入的研究。
前言
当前已经进入以互联网、大数据和深度学习为标志的海量信息时代,互联网和机器 学习技术的快速发展对中文信息处理提出了许多新的挑战。
从实现快速计算、记忆与存储的“计算智能”,到识别处理语音、图像、视频 的“感知智能”,再到实现思考、理解、推理和解释的“认知智能”,新一代人工智 能技术也正在从“感知智能”向“认知智能”迈进。自然语言处理中的自然语言句子级分析技术,可以大致分为词法分析、句法分析、语义分析三个层面。因此对NLP中词法、句法、语义、语篇分析的研究进展、现状以及发展趋势有一个大概的了解至关重要。
自然语言处理
词法分析
汉语分词
-
主要分词方法
-
基于词典的最大匹配分词方法
- 缺点是严重依赖词典,无法很好地 处理分词歧义和未登录词。
- 优点:由于这种方法简单、速度快、且分词效果基本可以满足需求,因此在工业界仍然很受欢迎。
-
全切分路径选择方法
- 其思想是所有可能的切分表示为一个有向无环图,每一个可能的 切分词语作为图中的一个节点。有向图中任何一个从起点到终点的路径构成一个句子的词语 切分,路径数目随着句子的长度指数增长。
- 目的:从指数级搜索空间中求解出一 条最优路径。
-
基于字序列标注的方法 (分词主流方法)
- 对句子中的每个字进行标记,如四符号标记{B,I, E, S},分 别表示当前字是一个字的开始、中间、结尾,以及独立成词。
-
基于转移的分词方法
- 借鉴了基于转移的依存句法分析的思路,从左到右扫描 句子中的每一个字,将分词过程转化为一个动作{append, separate}序列,使用柱搜索获得 最优动作序列
- 优点:可以更灵活的融入各种特征,特别是基于词的特征
-
主要研究进展
-
有效的特征集合
- 已经形成了一套有效稳定的特征集合,如 n 元字串、字的类别、叠 字现象、偏旁部首作为形态信息等等。
-
基于词典的特征 分词过程中,可以把“当前字开始的三个字构成的字串是否在词典 中出现”这样的信息作为特征,加入到统计模型中,这种信息称为基于词典的特征。
- 实际上是将基于词典的规则系统和基于统计的分词方法进行了软融合
- 在处理跨领域文本时,如果有比较好的领域词典,基于词典的特征可以显著提高 分词准确率
-
基于无标注数据的半指导特征
-
基于自然标注数据的学习方法 网页源文本中包含了大量的 html 标记,指定了 网页中的角色、超链接、显示位置或显示格式,而这些标记无形中也隐含了分词边界信息。 研究者们将这种隐含的分词边界信息称为自然标注 -
基于异构标注数据的学习方法 汉语数据目前存在多个人工标注数据,然而不同数据 遵守不同的标注规范,因此称为多源异构数据。近年来,学者们就如何利用多源异构数据提 高模型准确率,提出了很多有效的方法,如基于指导特征的方法、基于部分词(subword) 的方法、基于成对序列标注的方法。 -
基于深度学习的分词方法 -
词法句法一体化建模
- 直接从字开始对句子进行分析,输出分词、词性、句法的 结果
-
国际公开评测任务 -
分词开源软件开放 中科院计算所的 ICTLAS 分词系统、哈工大语言技术平台 LTP、清华大学自然语 言处理工具包、海量云分词 -
主要挑战
-
分词歧义消解 -
未登录词(新词)识别 -
错别字、谐音字规范化 -
分词粒度问题
词性标注
词性标注是一个非常典型的序列标注问题。最初采用的方法是隐马尔科夫生成式模型, 然后是判别式的最大熵模型、支持向量机模型,目前学术界通常采用结构感知器模型和条件 随机场模型。近年来,随着深度学习技术的发展,研究者们也提出了很多有效的基于深层神 经网络的词性标注方法。
目的:将输入句子从字序列转化成词和词性序列
面临问题
- 用来描述生词和构词法的模型是非常重要的
- 分词歧义问题(有多种切法,需要联系上下文)
- 词性定义和词性兼类问题
句法分析
目的:得到句子的语法结构。输入句子从词序列形式转化成树状结构,从而刻画句子的词法和句法结构
短语结构句法分析
(成分句法分析)
-
基于上下文无关文法(Context Free Grammar,CFG) 上下文 无关文法可以定义为四元组<T, N, S, R>,其中 T 表示终结符的集合(即词的集合),N 表 示非终结符的集合(即文法标注和词性标记的集合),S 表示充当句法树根节点的特殊非终 结符,而 R 表示文法规则的集合,其中每条文法规则可以表示为 N i -->r,这里的 r表示由非终结符与终结符组成的一个序列(允许为空)
- 终结符的集合(即词的集合),非终结符的集合(即文法标注和词性标记的集合)
-
作用:识别句子中的短语结构以及短语之间的层次句法关系 -
介于依存句法分析和深层文法句法分析之间 -
句法分析器
-
为了在句法分 析中引入统计信息,需要将上下文无关文法扩展成为概率上下文无关文法(Probabilistic Context Free Grammar,PCFG),即为每条文法规则指定概率值 缺点:上下 规则左侧的非终结符有关,而与任何其它上下文信息无关。应弱化上下文无关文法中的隐含独立性假设 -
研究方向:弱化上下文无关文法中的隐含独立性假 设
依存句法分析
-
基本假设:依存语法存在一个共同的基本假 设:句法结构本质上包含词和词之间的依存(修饰)关系。
- 一个依存关系连接两个词,分别 是核心词(head)和依存词(dependent)
-
作用:识别句子中的词汇之间的相互依存关系 -
浅层句法分析
-
依存句法分析的形式化目标是针对给定输入句子x = w 0 w 1 … w i … w n ,寻找分值(或概率)最大的依存树 -
数据驱动的依存句法分析方法 在训练实例集合上学习得到依存 句法分析器,而不涉及依存语法理论的研究
深层文法句法分析
面临问题
基于DL的句法分析
- 把原子特征进行向量化,在利用多层神经元网络提取特征。所谓向量化就是把词、 词性等用低维、连续实数空间上的向量来表示,从而便于寻找特征组合与表示,同时容易进 行计算
技术展望&发展趋势
(词法&句法分析)
- 深度学习和传统方法相结合的问题
- 多粒度分词
- 面向非规范文本的分词
- 分词、新词发现(词语归一化)交互建模
- 面向非规范文本的词性标注
- 词性标注的数据标注问题
- 互联网文本分析和领域自适应问题
语义分析
语义角色标注(目前较为成熟的浅层语义分析技术)
基于逻辑表达的语义分析也得到了学术界的长期关注
根据理解对象的语言单位不同
-
词汇级语义分析 主要体现在如何理解某个词汇的含义
-
句子级语义分析
-
篇章级语义分析
技术展望&发展趋势
- 短语/句嵌入的学习
- 基于句子级语义分析的篇章融合
- 中文篇章分析
- 非规范文本的语义分析
级联方式
即分词、词性标注、句法分析、语义分析分别训练模型
原因:出于ML的复杂度、效率的考虑
联合模型
-
将多个任务联合学习和解码 -
方法
- 分词词性联合
- 词性句法联合
- 分词词性句法联合
- 句法语义联合
-
优点:可显著提高分析质量
- 可以让相互关联的多个任务互相帮助
- 对于任何单任务而言,人工标注的信息也更多
-
缺点:复杂度更高、速度也更慢
目前主要研究数据驱动的分析方法
在人工标注的分词、词性语料和树库上自动训练构建词法和句法分析系统。优势在于给定训练数据,不需要太多的人工干预,就能得到最终的系统
语篇分析研究进展、现状&趋势
又称话语分析或篇章分析
语篇分析
包括衔接性和连贯性两个方面
- 衔接性通过词汇(或短语)之间的关系来表示 上下文的关联
- 连贯性则通过句子或者句群之间的关系表示关联。
对“语篇”整体进行的分析,包括语篇基本单元 之间的关系,不同语篇单元的成份间关联以及语篇所含的信息等
由一个以上的句子(sentence)或语段(utterance)构成的。一篇文章、一段 会话等都可以看成语篇。构成语篇的句子(或语段)彼此之间在形式上相互衔接,在意义上 前后连贯
语篇的衔接关系分析
主要是分析词汇(或短语)之间的语义关联
- 如果是词义, 还需要进行词义消歧和词义的相似性或相关性计算
- 如果是指称义,则要进行同指或指代的 消解。
技术方法&研究现状
总结
本篇文章主要对CIPS中1-3章的内容做了一个大概的汇总。
彩蛋
下一章我将对CIPS中的语言认知模型(第4章)、语言表示以及深度学习(第5章)做一个知识汇总。
|