| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 自然语言处理发展的四大阶段 -> 正文阅读 |
|
[人工智能]自然语言处理发展的四大阶段 |
??大家好,我是herosunly,985院校硕士毕业,现担任算法研究员一职。CSDN博客专家,2020年博客之星TOP。曾获得阿里云天池比赛第一名、科大讯飞比赛第一名、CCF比赛第一名等Top名次,拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。今天给大家分享的文章是自然语言处理发展的四大阶段,希望能对初学者有所帮助。 ??自然语言处理研究的是自动的去理解与生成人类语言的算法。小到一个文本匹配的算法,大到机器翻译、对话系统、搜索引擎都能用到自然语言处理技术。自然语言处理的任务包括基础自然语言任务、信息抽取任务、文本生成任务和其他应用任务。 ??那么自然语言处理的发展历程又是什么样呢?它究竟包含哪几个发展阶段呢?
1. 基于规则的方法??早在19世纪50年代,当计算机科学和人工智能刚刚兴起的时候,自然语言处理的研究领域就出现了用语言学家制定的规则来书写程序,从而完成语言理解和机器翻译等任务。那时候的程序包含很多条件语句。它们都是属于基于规则的系统。然而自然语言充满了歧义性,同样一个词可能有不同的意思,同样一个短语可能表达不同的看法,这些歧义性给语言学家书写规则提出了很大的挑战。很少有一套规则系统能够解决所有的歧义性。其中一个著名的案例发生在60年代,该任务是将俄语翻译成英语,原文的意思是精神很强大但肉体很虚弱:
??然而基于规则的翻译结果却变成了烈酒喝起来很过瘾,但是肉做的不太好吃。这就体现了词语的多义性。比如spirit 这个词可以被翻译成精神或者烈酒,而flesh可以被翻译成肉体或者食用的肉。 2. 统计机器学习方法??自然语言的歧义性远远不止这些词汇的歧义性,这些挑战也导致基于规则的系统在研究领域逐渐陷入了沉寂。 ??20世纪80年代末开始,一些基于统计的机器学习的方法逐渐兴盛了起来,这些方法的大体步骤是:首先语言学家对数据进行手工标注,然后使用特征工程构建重要特征,并通过构建概率模型进行参数优化,从而得到结果(将概率最大的输出作为输出结果)。事实证明,统计机器学习的方法的效果远远高于语言学家制定的规则。在那个时代,语言学家扮演的角色从编写算法规则变成了数据标注。 ??当时流传着一个著名的故事,就是IBM的一位资深学者声称每解雇一个语言学家,机器翻译的系统效果就能提升一些。 3. 浅层神经网络??自然语言处理发展的第三个阶段,也就是神经网络的第一阶段:浅层神经网络。该阶段是从从2010年左右就开始了。随着算法、算力、数据(数字经济的三大核心要素)的不断发展,基于深度学习的神经网络模型逐渐取代了统计学习方法,成为学术界和工业界的主流方法。 我们当今的神经网络阶段。这个阶段是从2010年左右就开始了。当时随着算法、算力、数据(数字经济的三大核心要素)的不断发展,深度学习的模型逐渐取代了统计学习方法,成为学术界和工业界的主流方法。本质上是通过大量的数据 ??自然语言处理发展的第三个阶段,是我们当今的神经网络阶段。这个阶段是从2010年左右到2017年左右。当时随着算法、算力、数据(数字经济的三大核心要素)的不断发展,深度学习的模型逐渐取代了统计学习方法,成为学术界和工业界的主流方法。本质上是通过大量的数据来训练神经网络,但由于三大要素到达了一定的瓶颈,构建的神经网络层数还比较浅,主要的表现形式为:MLP(多层感知机)、CNN(卷积神经网络)、RNN(循环神经网络)。相比于统计学习方法而言,省去了复杂且为手工的特征工程,大大提高了研发效率。 4. 深层神经网络(预训练模型)??自然语言处理发展的第四个阶段,大约是从谷歌发明了Transformer结构开始的。从此开始,就可以先利用大量的无标注数据进行自监督学习。然后再使用少量的标注数据对下游任务进行微调(也称为迁移学习)。绝大多数的预训练模型都是基于Transformer模型发展起来的,比如BERT是只使用了Transformer的Encoder。
??最后分享几个自己精心创作的专栏:
|
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/26 6:30:57- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |