IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 自然语言处理发展的四大阶段 -> 正文阅读

[人工智能]自然语言处理发展的四大阶段

??大家好,我是herosunly,985院校硕士毕业,现担任算法研究员一职。CSDN博客专家,2020年博客之星TOP。曾获得阿里云天池比赛第一名、科大讯飞比赛第一名、CCF比赛第一名等Top名次,拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。今天给大家分享的文章是自然语言处理发展的四大阶段,希望能对初学者有所帮助。

??自然语言处理研究的是自动的去理解与生成人类语言的算法。小到一个文本匹配的算法,大到机器翻译、对话系统、搜索引擎都能用到自然语言处理技术。自然语言处理的任务包括基础自然语言任务、信息抽取任务、文本生成任务和其他应用任务。

??那么自然语言处理的发展历程又是什么样呢?它究竟包含哪几个发展阶段呢?

在这里插入图片描述

1. 基于规则的方法

??早在19世纪50年代,当计算机科学和人工智能刚刚兴起的时候,自然语言处理的研究领域就出现了用语言学家制定的规则来书写程序,从而完成语言理解和机器翻译等任务。那时候的程序包含很多条件语句。它们都是属于基于规则的系统。然而自然语言充满了歧义性,同样一个词可能有不同的意思,同样一个短语可能表达不同的看法,这些歧义性给语言学家书写规则提出了很大的挑战。很少有一套规则系统能够解决所有的歧义性。其中一个著名的案例发生在60年代,该任务是将俄语翻译成英语,原文的意思是精神很强大但肉体很虚弱:

  • The spirit is strong, but the flesh is weak.
  • The Vodka is good, but the meat is bad.

??然而基于规则的翻译结果却变成了烈酒喝起来很过瘾,但是肉做的不太好吃。这就体现了词语的多义性。比如spirit 这个词可以被翻译成精神或者烈酒,而flesh可以被翻译成肉体或者食用的肉。

2. 统计机器学习方法

??自然语言的歧义性远远不止这些词汇的歧义性,这些挑战也导致基于规则的系统在研究领域逐渐陷入了沉寂。

??20世纪80年代末开始,一些基于统计的机器学习的方法逐渐兴盛了起来,这些方法的大体步骤是:首先语言学家对数据进行手工标注,然后使用特征工程构建重要特征,并通过构建概率模型进行参数优化,从而得到结果(将概率最大的输出作为输出结果)。事实证明,统计机器学习的方法的效果远远高于语言学家制定的规则。在那个时代,语言学家扮演的角色从编写算法规则变成了数据标注。

??当时流传着一个著名的故事,就是IBM的一位资深学者声称每解雇一个语言学家,机器翻译的系统效果就能提升一些。

3. 浅层神经网络

??自然语言处理发展的第三个阶段,也就是神经网络的第一阶段:浅层神经网络。该阶段是从从2010年左右就开始了。随着算法、算力、数据(数字经济的三大核心要素)的不断发展,基于深度学习的神经网络模型逐渐取代了统计学习方法,成为学术界和工业界的主流方法。

我们当今的神经网络阶段。这个阶段是从2010年左右就开始了。当时随着算法、算力、数据(数字经济的三大核心要素)的不断发展,深度学习的模型逐渐取代了统计学习方法,成为学术界和工业界的主流方法。本质上是通过大量的数据

??自然语言处理发展的第三个阶段,是我们当今的神经网络阶段。这个阶段是从2010年左右到2017年左右。当时随着算法、算力、数据(数字经济的三大核心要素)的不断发展,深度学习的模型逐渐取代了统计学习方法,成为学术界和工业界的主流方法。本质上是通过大量的数据来训练神经网络,但由于三大要素到达了一定的瓶颈,构建的神经网络层数还比较浅,主要的表现形式为:MLP(多层感知机)、CNN(卷积神经网络)、RNN(循环神经网络)。相比于统计学习方法而言,省去了复杂且为手工的特征工程,大大提高了研发效率。

4. 深层神经网络(预训练模型)

??自然语言处理发展的第四个阶段,大约是从谷歌发明了Transformer结构开始的。从此开始,就可以先利用大量的无标注数据进行自监督学习。然后再使用少量的标注数据对下游任务进行微调(也称为迁移学习)。绝大多数的预训练模型都是基于Transformer模型发展起来的,比如BERT是只使用了Transformer的Encoder。

在这里插入图片描述
??预训练模型的本质是深层神经网络,也可能随着技术的发展,会产生新的学习范式或者模型。但万变不离其宗,所以初学者在学习之前一定要把握住学习的主要脉络,才能位于不败之地。

??最后分享几个自己精心创作的专栏:

  • Al比赛教程。分享各类Al比赛(阿里云天池、科大讯飞等)前几名队伍的成功经验,包括NLP,CV、语音、时序预测、信息安全等方向。其中也包括自己取得的阿里云第一名的经验分享。也包括打比赛提分的一些实用tricks ,从而更好的帮助新手入门数据科学竞赛。
  • 机器学习入门之工具篇。含了Python基础(运行环境、编程规范、基本语法)、Numpy、Pandas、Linux和Git常用命令、TensoFflow、Pytorch的入门教程以及最常用的软件和网站。希望能对初学机器学习以及入门AI比赛的同学有所帮助。
  • Python爬虫实战教程。爬虫各种实战项目,使得快速上手爬虫,能对各种自动化操作得心应手。
  • Python新手快速入门。首先讲解核心的学习方法,帮助初学者提升学习效率;然后讲解Python的重要知识点,并通过实例帮助新人快速掌握该部分。并且将详细讲解Python常用库的主要内容,例如Numpy、Pandas、文件操作和非常常用的正则表达式等库。
  • 考名校研究生经验分享。总结了很多独到的思维方式和提分方法,其中几个小技巧就能帮助提高至少5到10分。
  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-05-11 16:27:02  更:2022-05-11 16:28:43 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 6:30:57-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码