| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> Python知识库 -> 拓端tecdat|PYTHON贝叶斯推断计算:用BETA先验分布推断概率和可视化案例 -> 正文阅读 |
|
[Python知识库]拓端tecdat|PYTHON贝叶斯推断计算:用BETA先验分布推断概率和可视化案例 |
原文链接:http://tecdat.cn/?p=24084?原文出处:拓端数据部落公众号在这篇文章中,我将扩展从数据推断概率的示例,考虑 0 和 1之间的所有(连续)值,而不是考虑一组离散的候选概率。这意味着我们的先验(和后验)现在是一个?probability density function?(pdf) 而不是?probability mass function?(pmf)。 我考虑了从数据序列推断 p0,即零的概率: 我使用 p0的不同先验来解决相同的问题,该先验允许 0 和 1?之间的连续值而不是一组离散的候选值。 概率我们推理问题的起点是?似然?——观察到的数据序列的概率,写成就像我知道 p0 的值一样: ? 为了清楚起见,我们可以插入 p0=0.6,并找到给定未知概率值的指定数据序列的概率: 概率的更一般形式,不是特定于所考虑的数据序列,是 其中 n0 是零的数量,n1 是考虑的任何数据序列 D 中的 1 的数量。 先验 - Beta 分布我们使用贝塔分布来表示我们的先验假设/信息。其数学形式是 其中 α0 和 α1 是我们必须设置的超参数,反映我们关于 p0 值的假设/信息。但是,只需将p0 视为我们想要推断的参数——忽略参数是概率。 请注意?后验 pdf 也将是 Beta Distribution,因此值得努力适应 pdf。 先验均值——?大多数人想要一个数字或点估计来表示推理结果或先验中包含的信息。然而,在贝叶斯推理方法中,先验和后验都是 pdf 或 pmf。获得点估计的一种方法是取?相关参数相对于先验或后验的?平均值。例如,对于 Beta 先验我们得到: pdf 被归一化——?这意味着如果我们将 p0 从 0?积分到 1,我们会得到一个: 因为以下关系: 就我们而言,最重要的信息是?b?在 0 到 1 区间上进行归一化,这对于像 p0 这样的概率是必要的。 先验假设和信息可以通过设置超参数来反映--超参数α0α0和α1α1影响pdf的形状,使先验信息的编码更加灵活。 例如,使用α0=1, α1=1 不能反映p0 的优选值。这个pdf看起来像 另一个先验可以指定 α0=5, α1=5,它更接近 p0=1/2 附近的值 最后,我们可以用α0≠α1得到非对称的先验,可以看到α0=2,α1=8。 ? 关于设置超参数需要记住的一些事情:
累积分布函数 (cdf) ?beta累积分布函数 (cdf)让我们计算 p0 小于或等于值 x 的概率。具体来说,cdf定义为: 该积分也被称为不完全Beta ing积分,并表示为Ix(α0,α1)。 如果我们想知道p0在数值xl和xh之间的概率,我们可以用cdf来计算。 不完全 Beta 积分或 cdf 及其逆积分允许从先验或后验计算置信区间。使用这些工具,可以说p0 的值有 95% 的概率在某个范围内——同样,我们将使用 Python 代码在下面绘制它。 贝塔分布是这个问题的共轭先验--这意味着后验将具有与先验相同的数学形式(它也是一个贝塔分布),并更新了超参数。这种数学上的 "共鸣 "真的很好,让我们不用MCMC就能做完整的贝叶斯推断。 现在我们谈谈贝叶斯定理和这个问题的后验pdf。 贝叶斯定理和后验我们的最终目标是后验概率密度函数,结合似然和先验,在考虑数据后对我们对p0的知识做一个更新的反映。后验pdf的形式是(在这种情况下)。 换句话说,这是?给定数据序列?D?和先验假设的?p0?的概率密度,由具有超参数?(α0,α1)的 Beta pdf 反映。 在这种情况下,贝叶斯定理采用以下形式: 其中后验 P(p0|D,α0,α1) 为蓝色,似然 P(D|p0)为黑色,先验 P(p0| α0,α1)是红色的。请注意,归一化?边际似然?(上述等式中的分母)现在是一个积分。 尝试将贝叶斯定理视为关于 p0 从?假设?(α0,α1) 更新到?假设 + 数据?(D,α0,α1) 的信息: 试着把贝叶斯定理看作是关于p0的信息被从假设(α0,α1)更新为假设+数据(D,α0,α1)。 为了得到后验pdf,我们必须在贝叶斯定理的分母上做积分。在这种情况下,利用贝塔分布的特性,就可以进行计算。该积分如下。 最后一行的积分定义了一个贝塔函数,在关于先验的一节中讨论过,并且有一个已知的结果。 这意味着分母,也叫边际似然,等于。? 同样,我们得到这个结果是因为Beta分布是我们所考虑的伯努利过程概率的共轭先验。请注意,来自先验的超参数已经被计数数据所更新。 这与人们预期的完全一样,不需要做所有的数学计算。在任何情况下,在用Python实现这一点之前,有几个注意事项。
Python 中的推理代码首先,我们导入一些包,使用这些包来计算和绘制先验、似然和后验。此外,使用 matplotlib,在本例中为 ggplot,创建漂亮的图。 概率
先验分布我们的先验类基本上是一个围绕 scipy的包,有一个绘图方法。注意 plot() 方法得到了 Beta 分布的平均值,并使用? interval() 方法得到了一个概率为 95% 的区域--这是使用不完整的 Beta 积分和上面讨论的它的逆值完成的。
让我们使用新代码绘制一些具有一序列参数的 Beta pdf。 统一先验带点的垂直线显示 pdf 均值的位置。阴影区域表示对于给定的 α0 和 α1 值,概率为 95% 的(对称)区域。如果您想要平均值和置信区间的实际值,也可以获取这些值:
上面的其他先前示例也有效:
和
? 了解超参数所反映的先前假设的均值和不确定性很有用。 后验最后,我们为后验构建类。正如您所料,我将数据和先验作为参数,并从这些元素中提取后验所需的参数。
基本代码就是这样,让我们??做一些例子。 例子让我们从数据和统一先验的示例开始。
这里需要注意的事项:?
接下来,让我们考虑具有不统一先验的相同数据。数据集长度为 10,因此 n0+n1=10。让我们用 α0+α1=10 ,设置先验,但先验在与似然不同的位置达到峰值(也许有专家说这应该是先验设置):
显然数据和专家在这一点上存在分歧。然而,因为先验的权重设置为 10 并且数据序列的长度为 10,所以后验峰值位于先验峰值和似然峰值的中间。尝试使用这种效果来更好地理解先验超参数、数据集长度和结果后验之间的相互作用。 作为最后一个例子,我们考虑最后一个例子的两个变体,?首先我们使用统一先验:
请注意,概率和后验峰值在同一个地方,正如我们所期望的那样。但是,由于数据集较长(500 个值),峰值要强得多。 最后,我们在同一数据集上使用“错误先验”。在这种情况下,我们将保持先验强度为 10,即 α0+α1=10:
请注意,尽管先验在错误的位置达到峰值,但概率和后验非常相似。这个例子表明,如果先验没有设置得太强,合理数量的数据应该产生不错的推理。一般来说,最好让 n0+n1>α0+α1 并考虑先验和后验的形状。 最受欢迎的见解 4.R语言中的block Gibbs吉布斯采样贝叶斯多元线性回归 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 | -2024/12/29 13:36:12- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |
数据统计 |