IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 自然语言处理2021秋季 -> 正文阅读

[人工智能]自然语言处理2021秋季

第一讲 绪论

第二讲 数学基础

1 概率论基础

2 信息论基础

熵(entropy)

X是一个离散型随机变量,X的熵H(X)为:

H ( X ) = ? ∑ x ∈ X p ( x ) l o g 2 p ( x ) H(X)=-\sum_{x \in X}p(x)log_2p(x) H(X)=?xX?p(x)log2?p(x)

熵越大,随机变量的不确定性越大

联合熵(joint entropy)

X,Y是一对离散型随机变量,X,Y的联合熵H(X,Y)为:

H ( X , Y ) = H ( X ) + H ( Y ∣ X ) = ? ∑ x ∈ X ∑ y ∈ Y p ( x , y ) l o g 2 p ( x , y ) H(X,Y)=H(X)+H(Y|X)=-\sum_{x \in X}\sum_{y \in Y}p(x, y)log_2p(x, y) H(X,Y)=H(X)+H(YX)=?xX?yY?p(x,y)log2?p(x,y)
联合熵描述一对随机变量平均所需要的信息量

条件熵(conditional entropy)

给定随机变量X的情况下,随机变量Y的条件熵定义为:
H ( X ∣ Y ) = ∑ x ∈ X p ( x ) H ( Y ∣ X = x ) = ? ∑ x ∈ X ∑ y ∈ Y p ( x , y ) l o g 2 p ( y ∣ x ) H(X|Y)=\sum_{x \in X}p(x)H(Y|X=x)=-\sum_{x \in X}\sum_{y \in Y}p(x, y)log_2p(y|x) H(XY)=xX?p(x)H(YX=x)=?xX?yY?p(x,y)log2?p(yx)

相对熵(relative entropy)

即K-L距离,两个概率分布p(x)和q(x)的相对熵定义为:
D ( p ∣ ∣ q ) = ∑ x ∈ X p ( x ) l o g p ( x ) q ( x ) D(p||q)=\sum_{x \in X}p(x)log\frac{p(x)}{q(x)} D(pq)=xX?p(x)logq(x)p(x)?
两个随机分布相同时,其相对熵为0,两个随机分布差别增加时,其相对熵也增加

交叉熵(cross entropy)

如果一个随机变量X~p(x),q(x)为近似p(x)的概率分布,随机变量X和模型q之间的交叉熵定义为:
H ( X , q ) = H ( X ) + D ( p ∣ ∣ q ) = ? ∑ x p ( x ) l o g q ( x ) H(X,q)=H(X)+D(p||q)=-\sum_{x}p(x)log q(x) H(X,q)=H(X)+D(pq)=?x?p(x)logq(x)
交叉熵用以衡量估计模型与真实概率分布之间的差距

  • 对于语言L=(X)~p(x)与其模型q的交叉熵定义为:
    H ( L , q ) = ? lim ? n → ∞ 1 n ∑ x 1 n p ( x 1 n ) l o g q ( x 1 n ) = ? ? lim ? n → ∞ 1 n l o g q ( x 1 n ) H(L,q)=-\lim_{n \to \infty}\frac{1}{n}\sum_{x^n_1}p(x^n_1)logq(x^n_1)=--\lim_{n \to \infty}\frac{1}{n}logq(x^n_1) H(L,q)=?nlim?n1?x1n??p(x1n?)logq(x1n?)=??nlim?n1?logq(x1n?)

    • x 1 n = x 1 . . . x n x^n_1=x_1...x_n x1n?=x1?...xn?为语言L的词序列
    • p ( x 1 n ) p(x^n_1) p(x1n?) x 1 n x^n_1 x1n?的概率
    • q ( x 1 n ) q(x^n_1) q(x1n?)为模型q对 x 1 n x^n_1 x1n?的概率估计值

由此可以根据模型q和一个含有大量数据的L的样本来计算交叉熵

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-09-12 13:09:55  更:2021-09-12 13:12:30 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/27 7:15:28-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码