| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 700-lecture2-预处理1-Tokens and N-grams -> 正文阅读 |
|
[人工智能]700-lecture2-预处理1-Tokens and N-grams |
Basic unit of language
Some basics on Words????????words约等于words:有些单词是必须连在一起才是这个意思。例如:New Zealand English Morphology词法????????词法是建立在有更小的单元-语素(morphemes)组成的单词的方法研究。 ????????语素(morphemes)分为两部分:主干(Stems)和词缀(Affixes) ? ? ? ? 我们又能按照词分开的方法分成两个大类: ????????Inflectional ?词尾变化的 ? ? ? ? Inflectional Morphology关心单词的主干和词缀的结合。产生的词有和原生词有相同的词类。如果是作为一个语法语义目的的是与原生词不同,但彼此相关。 ? ? ? ? ?例:名词和动词。名词变复数/所有格形式(plural and possessive)。动词不同时态的变化(tense of the verb)。词语在变换形式的时候有的规则,有的不规则,这是它的复杂性。 ????????名词变复数:Mouse/mice, goose/geese, ox/oxen ????????动词变时态: ????????Regulars… Walk, walks, walking, walked, walked ????????Irregulars Eat, eats, eating, ate, eaten Catch, catches, catching, caught, caught Cut, cuts, cutting, cut, cut ????????Derivational 派生的 ? ? ? ? 1.意思的不规则变化? 2.词类会改变? ? 例: ? ? Verbs and Adjectives to Nouns?
? ?Nouns and Verbs to Adjectives
Word Prediction——N-gram
????????N-gram模型---通过前面的单词和记录一些相当简单的计数来预测单词。N就是以N个单词为单位,将句子分成若干份。 ????????如果N=2,此时上述句子可变为
????????再根据两个词的组合数的个数排序,找出最可能的下一个单词。也就是说第N个单词是根据前面N-1个单词组合进行预测的。通过计算单词的条件概率预测接下来的单词。也可以用来计算整个句子出现的概率。 N-gram的应用场景: ????????Automatic speech recognition? ? 自动语音识别 ????????Handwriting and character recognition? ?手写和字符识别 ????????Spelling correction? ? 单词拼写改正 ????????Machine translation? ?机器翻译 计数:
? ? ? ? 但是有时候有些语气词/停顿词,或者重复词怎么计数,这个看application的用途了。 ????????如果是语音识别技术ASR,这些词没有用,没必要count;但是对话管理里面需要停顿,这是很有必要。
lemma--出现在字典里的单词的基本形式。break,?breaks,?broke,?broken?and?breaking中的break Stem--单词的主干,在字典里可能没有。 Wordform--词形,也叫inflections(词形变化)。 Corpora语料库中有Crawl of 1,024,908,267,229 English tokens ,13,588,391 wordform types 但英语字典中只有500k types,多在Numbers, Misspellings, Names, Acronyms里。 Language Model:P(wn|w1,w2…wn-1)? 概率公式: P(the | its water is so transparent that)= P(its water is so transparent that the)/P(its water is so transparent that) |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/17 21:40:42- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |