| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 自然语言处理NLP概论 -> 正文阅读 |
|
[人工智能]自然语言处理NLP概论 |
1 什么是NLP??在人工智能出现之前,机器可以理解结构化的数据,比如excel,数据库里面的数据,但是对于文本,视频,语音等非结构化的数据,虽然蕴含了极大的信息,但是机器却不能够直接理解,所以自然语言处理学科就应运而生。NLP就是人和计算机之间沟通的桥梁。 1.1 NLP的两大任务NLP有两个核心任务,分别是
1 NLU 自然语言理解1.在NLU领域的难点:
2.知识图谱: 2 NLG 自然语言生成定义:将非语言格式的数据转换成?类可以理解的语言格式。
步骤: 第一步:内容确定 - Content Determination 首先,NLG 系统需要决定哪些信息应该包含在正在构建的文本中,哪些不应该包含。通常数据中包含的信息比最终传达的信息要多。 第二步:文本结构 - Text Structuring 确定需要传达哪些信息后,NLG 系统需要合理的组织文本的顺序。例如在报道一场篮球比赛时,会优先表达「什么时间」「什么地点」「哪2支球队」,然后再表达「比赛的概况」,最后表达「比赛的结局」。 第三步:句子聚合 - Sentence Aggregation 不是每一条信息都需要一个独立的句子来表达,将多个信息合并到一个句子里表达可能会更加流畅,也更易于阅读。 第四步:语法化 - Lexicalisation 当每一句的内容确定下来后,就可以将这些信息组织成自然语言了。这个步骤会在各种信息之间加一些连接词,看起来更像是一个完整的句子。 第五步:参考表达式生成 - Referring Expression Generation|REG 这个步骤跟语法化很相似,都是选择一些单词和短语来构成一个完整的句子。不过他跟语法化的本质区别在于“REG需要识别出内容的领域,然后使用该领域(而不是其他领域)的词汇”。 第六步:语言实现 - Linguistic Realisation 最后,当所有相关的单词和短语都已经确定时,需要将它们组合起来形成一个结构良好的完整句子。 典型应用:
1.2 NLP的发展和技术路线NLP的两种途径 1 基于传统机器学习的NLP流程
2 基于深度学习的NLP流程3 方法路线知识图谱: 1.3 目前研究方向2019 年 A C L 投 稿 热 门 2019年ACL投稿热门 2019年ACL投稿热门 2020 A C L 投 稿 热 门 2020ACL投稿热门 2020ACL投稿热门 2 词法分析(Lexical Analyse)??词是最小的能够独立运用的语言单位,因此,词法分析是其他一切自然语言处理问题(例如:句法分析、语义分析、文本分类、信息检索、机器翻译、机器问答等)的基础,会对后续问题产生深刻的影响。 ??在词法分析中,主要有分词,词性标注,(命名)实体识别等任务。最终任务就是:将输入的句子字串转换成词序列并标记出各词的词性。 2.1 分词??分词就是将句子,段落,篇章等等长文本分解为已字词为单位的数据结构,得到结构化数据,方便后续处理。 1. 为什么需要分词?
2. 中英文分词的区别
3. 中文分词的难点
4. 分词方法5 分词知识图谱2.2 词性标注1 什么是词性标注??词性:单词的语法分类,比如名次动词形容词副词等等。 2 词性标注难点
3 词性标注常用方法4 语料库和标注集??同分词一样,词性标注也没有一个统一的标准,无论是词性划分的颗粒度还是词性标签都不一致。一方面各派系林立,互不兼容;另一方面,部分语料库称为内部资料,不公开给社会。 常用的公开语料库有:
5 语料标注工具推荐
2.3 命名实体识别(NER)1 什么是命名实体识别??命名实体识别(Named Entity Recognition,简称NER),是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。 2 命名实体识别方法3 实现方式
值得一提的是,由于深度学习在自然语言的广泛应用,基于深度学习的命名实体识别方法也展现出不错的效果,此类方法基本还是把命名实体识别当做序列标注任务来做,比较经典的方法是LSTM+CRF、BiLSTM+CRF。 4 推荐工具3 句法分析(Syntactic Analyse)??句法分析就是找到一个句子的组成成分,打上标签。如下所示: 3.1 成分句法分析??成分句法分析要做的是,给定一个句子,句子中每个词汇都是成分。它们的标签,就是它们的词性。接着,相邻的成分,可以组合成一个更大的单位。比如 deep 和 learning 可以组合起来成为一个名词短语。very 和 powerful 也可以组合起来,变成一个形容词短语。is 和 very powerful 又可以组合起来,变成一个动词短语。最后这个动词短语和名词短语组合起来,变成整个句子。 1 成分标签2 方法
3 成分结构与依存结构关系成分结构树可以转换为依存结构树,反之不能。可以通过以下方法转换:
3.2依存句法分析??依存句法是由法国语言学家L.Tesniere最先提出。它将句子分析成一颗依存句法树,描述出各个词语之间的依存关系。也即指出了词语之间在句法上的搭配关系,这种搭配关系是和语义相关联的。 ??在自然语言处理中,用词与词之间的依存关系来描述语言结构的框架称为依存语法(dependence grammar),又称从属关系语法。利用依存句法进行句法分析是自然语言理解的重要技术之一。 ??依存句法通过分析语言单位内成分之间的依存关系解释其句法结构,主张句子中核心动词是支配其他成分的中心成分。而它本身却不受其他任何成分的支配,所有受支配成分都以某种关系从属于支配者。 1 依存关系标签表2 常用方法
4 语义分析(Semantic Analyse) |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/17 20:30:38- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |