IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 700-lecture2-预处理1-Tokens and N-grams -> 正文阅读

[人工智能]700-lecture2-预处理1-Tokens and N-grams

Basic unit of language

  • Alphabet (symbol)
  • Word (Token) ?符号
  • Phrase (Utterance) ?表达
  • Discourse (Document) ?论述
  • Collection of Discourses (Corpus) 语料
  • Collection of Corpus (Corpora) ?语料库

Some basics on Words

????????words约等于words:有些单词是必须连在一起才是这个意思。例如:New Zealand

English Morphology词法

????????词法是建立在有更小的单元-语素(morphemes)组成的单词的方法研究。

????????语素(morphemes)分为两部分:主干(Stems)和词缀(Affixes)

? ? ? ? 我们又能按照词分开的方法分成两个大类:

????????Inflectional ?词尾变化的

? ? ? ? Inflectional Morphology关心单词的主干和词缀的结合。产生的词有和原生词有相同的词类。如果是作为一个语法语义目的的是与原生词不同,但彼此相关。

? ? ? ? ?例:名词和动词。名词变复数/所有格形式(plural and possessive)。动词不同时态的变化(tense of the verb)。词语在变换形式的时候有的规则,有的不规则,这是它的复杂性。

????????名词变复数:Mouse/mice, goose/geese, ox/oxen

????????动词变时态:

????????Regulars… Walk, walks, walking, walked, walked

????????Irregulars Eat, eats, eating, ate, eaten Catch, catches, catching, caught, caught Cut, cuts, cutting, cut, cut

????????Derivational 派生的

? ? ? ? 1.意思的不规则变化? 2.词类会改变? ? 例:

? ? Verbs and Adjectives to Nouns?

-ation

computerize

computerization

-ee

appoint

appointee

-er

kill

killer

-ness

fuzzy

fuzziness

? ?Nouns and Verbs to Adjectives

-al

computation

computational

-able

embrace

embraceable

-less

clue

clueless

Word Prediction——N-gram

Guess the next word... ...

I notice three guys standing on the ???

????????N-gram模型---通过前面的单词和记录一些相当简单的计数来预测单词。N就是以N个单词为单位,将句子分成若干份。

????????如果N=2,此时上述句子可变为

(I notice), (notice three), (three guys), (guys standing), (standing on), (on the)

????????再根据两个词的组合数的个数排序,找出最可能的下一个单词。也就是说第N个单词是根据前面N-1个单词组合进行预测的。通过计算单词的条件概率预测接下来的单词。也可以用来计算整个句子出现的概率。

N-gram的应用场景:

????????Automatic speech recognition? ? 自动语音识别

????????Handwriting and character recognition? ?手写和字符识别

????????Spelling correction? ? 单词拼写改正

????????Machine translation? ?机器翻译

计数:

He stepped out into the hall, was delighted to encounter a water brother.

带上","和"."一共有15个tokens,14个bigrams

? ? ? ? 但是有时候有些语气词/停顿词,或者重复词怎么计数,这个看application的用途了。

????????如果是语音识别技术ASR,这些词没有用,没必要count;但是对话管理里面需要停顿,这是很有必要。

They picnicked by the pool, then lay back on the grass and looked at the stars.

带上标点,一共有18tokens,但是只有16个类型(the重复)。

lemma--出现在字典里的单词的基本形式。break,?breaks,?broke,?broken?and?breaking中的break

Stem--单词的主干,在字典里可能没有。

Wordform--词形,也叫inflections(词形变化)。

Corpora语料库中有Crawl of 1,024,908,267,229 English tokens ,13,588,391 wordform types

但英语字典中只有500k types,多在Numbers, Misspellings, Names, Acronyms里。

Language Model:P(wn|w1,w2…wn-1)? 概率公式:

P(the | its water is so transparent that)=

P(its water is so transparent that the)/P(its water is so transparent that)

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-07-31 16:38:15  更:2021-07-31 16:40:14 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/17 21:40:42-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码