开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 简介NLP中的Tokenization（基于WordSubword 和 Character） -> 正文阅读

[人工智能]简介NLP中的Tokenization（基于WordSubword 和 Character）

概念理解

Word：一个单词，例如hello
Character：一个字母，例如a
Subword：①若使用单词进行编码，由于单词多且杂，容易导致OOV问题，而且不太好编码 ②若使用字母进行编码，又太少，容易丢失语义；所以人们发明了subword，将一个word分成多个subword，同时兼顾了①②两个问题。
OOV：Out of Vocabulary，意思是有些单词在词典中查询不到，例如一些根据词根现造的词，或者拼写错误的词等。
Tokenization：将一段文本分成若干个元素，一个元素称为一个Token，而 token 是之后要被编码成向量然后送往模型的基本单位。
Token：Token可以是一个单词、一个字母、甚至是“半个单词”

Tokenization 举例：

假设要对 Let us learn tokenization 做 Tokenization，通常有三种做法：

1：Word-Based Tokenization，结果为：[“Let”, “us”, “learn”, “tokenization.”]
2. Subword-based Tokenization，结果为：[“Let”, “us”, “learn”, “token”, “ization.”]
3. Character-based Tokenization，结果为：[“L”, “e”, “t”, “u”, “s”, “l”, “e”, “a”, “r”, “n”, “t”, “o”, “k”, “e”, “n”, “i”, “z”, “a”, “t”, “i”, “o”, “n”, “.”]

Word-based Tokenization

目标：将一段文本分成一个词一个词的Sequence

常用方法：

直接使用空格（Space）进行分隔（Split）
使用分隔符（delimiter）进行分隔，例如：空格和标点符号（Punctuation marks）
使用框架，例如：NLTK，spaCy，Keras，Gensim等

缺点：

会导致词典（Vocabulary）特别大，进而导致Embedding Matrix非常大，最终导致模型巨大，需要更多的训练资源
容易出现OOV问题
难以处理拼写错误的单词

缺点解决方案

缺点1，限制词典大小，例如，将出现次数最多的5000个单词编成词典，其他的单词全标记为UNKNOWN，但这样加重OOV问题
缺点2，使用Subword-based Tokenization
缺点3，无解

优点：word是具有含义的，例如：run是跑的意思

Character-based Tokenization

目标：将一段文本分成一个字母一个字母的Sequence

常用方法：直接分就好了

优点：

总量固定
不存在OOV问题
拼写错误也可以应对

缺点：

一个字母不具备任何含义。（致命缺点）
会导致Sequence很长

致命缺点导致Character-based Tokenization基本不会被使用

对于中文这种一个Charactor也具有含义的，是可以使用Character-based Tokenization的，而且有时效果还很好（因为中文做分词很难）

Subword-based Tokenization

目标：将一段文本分成一个字词一个字词的Sequence，但有些词能拆就拆。

对Subword的进行举例说明：

例1. 将boys拆成boy和s，这可以让模型学到，boys和boy的有相同的意思，但又有些微小的差别

例2. 将tokenization拆成token和ization，这样的拆法可以让模型学到 tokenization、tokens、tokenizing具有相近的意思。

例3. 接着例2，还可以让模型学到 tokenization 和 modernization 具有相同的词性

subword 时的一般原则：

频率非常高的词不进行拆分
将罕见的词拆成小的有意义的词
对于后缀，一般前面会增加一个特殊标记，例如将tokenization 实际会拆成 token 和 ##ization ，##标记ization是一个后缀

常用方法：

WordPiece
BPE(Byte-Pair Encoding)
Unigram
SentencePiece

优点：

Vocabulary的大小还行，能接受
减少了OOV问题
模型甚至可以理解没见过的单词，例如，假设模型没见过pretrain，但由于拆分成了pre和train，模型就可能会理解该单词的意思是预训练

缺点：

好像依然没办法解决拼写错误的问题

参考资料

Word, Subword, and Character-Based Tokenization: Know the Difference: https://towardsdatascience.com/word-subword-and-character-based-tokenization-know-the-difference-ea0976b64e17

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

加:2022-03-10 22:31:02 更:2022-03-10 22:32:04

360图书馆购物三丰科技阅读网日历万年历 2026年3日历

-2026/3/31 6:02:27-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码