[人工智能] R语言零膨胀泊松回归ZERO-INFLATED POISSON（ZIP）模型分析露营钓鱼数据实例估计IRR和OR

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> R语言零膨胀泊松回归ZERO-INFLATED POISSON（ZIP）模型分析露营钓鱼数据实例估计IRR和OR -> 正文阅读

[人工智能]R语言零膨胀泊松回归ZERO-INFLATED POISSON（ZIP）模型分析露营钓鱼数据实例估计IRR和OR

原文链接：http://tecdat.cn/?p=26915?

原文出处：拓端数据部落公众号

零膨胀泊松回归用于对超过零计数的计数数据进行建模。此外，理论表明，多余的零点是通过与计数值不同的过程生成的，并且可以独立地对多余的零点进行建模。因此，? zip?模型有两个部分，泊松计数模型和用于预测多余零点的 logit 模型。

零膨胀泊松回归示例

示例。州立野生动物生物学家想要模拟州立公园的渔民捕获了多少鱼。游客会被问到他们逗留了多长时间，团队中有多少人，团队中是否有儿童以及捕获了多少鱼。一些游客不钓鱼，但没有关于一个人是否钓鱼的数据。一些钓鱼的游客没有钓到任何鱼，因此数据中存在多余的零，因为人们没有钓鱼。

数据说明

我们有 250 个去公园的团体的数据。每个小组都被询问他们捕获了多少鱼（count），小组中有多少孩子（child），小组中有多少人（persons），以及他们是否带露营者到公园（camper）。

让我们看一下数据。


summary(zib)

## 直方图的X轴为对数10标
ggplot(znb, aes(ount))

您可能会考虑的分析方法

以下是您可能遇到的一些分析方法的列表。列出的一些方法是相当合理的，而另一些方法要么失宠，要么有局限性。

零膨胀泊松回归。
零膨胀负二项式回归——负二项式回归在分散数据时表现更好，即方差远大于平均值。
普通计数模型。
OLS 回归——您可以尝试使用 OLS 回归分析这些数据。然而，计数数据是高度非正态的，并且不能通过 OLS 回归很好地估计。

零膨胀泊松回归

summary(m1)

输出看起来非常像 R 中两个 OLS 回归的输出。在模型调用下方，您会发现一个输出块，其中包含每个变量的泊松回归系数以及标准误差、z 分数和 p 值系数。接下来是对应于通货膨胀模型的第二个块。这包括用于预测多余零点的 logit 系数及其标准误差、z 分数和 p 值。

模型的计数和膨胀部分中的所有预测变量都具有统计显着性。该模型对数据的拟合显着优于空模型，即仅截距模型。为了证明情况确实如此，我们可以使用对数似然差异的卡方检验将当前模型与没有预测变量的空模型进行比较。

mnl <- update(m1, . ~ 1)

由于我们在完整模型中有三个预测变量，因此卡方检验的自由度为 3。这会产生较高的显着 p 值；因此，我们的整体模型具有统计学意义。

请注意，上面的模型输出并没有以任何方式表明我们的零膨胀模型是否是对标准泊松回归的改进。我们可以通过运行相应的标准 Poisson 模型然后对这两个模型进行 Vuong 检验来确定这一点。

vuong(p, m)

Vuong 检验将零膨胀模型与普通泊松回归模型进行比较。在这个例子中，我们可以看到我们的检验统计量是显着的，表明零膨胀模型优于标准泊松模型。

我们可以使用自举获得参数和指数参数的置信区间。对于泊松模型，这些将是事件风险比，对于零通胀模型，优势比。此外，对于最终结果，可能希望增加重复次数以帮助确保结果稳定。

dt(coef(m1, "count"))

dpt(coef(m1, "zero"))


res <- boot(znb, f, R = 1200, pralel = "snow", ncus = 4)
## 输出结果
res

结果是交替的参数估计和标准误差。也就是说，第一行具有我们模型的第一个参数估计值。第二个具有第一个参数的标准误差。第三列包含自举的标准误差。

现在我们可以得到所有参数的置信区间。我们从原始比例开始，使用百分位数和偏差调整的 CI。我们还将这些结果与基于标准误差的置信区间进行比较。

## 带百分位数和偏差调整的CI的基本参数估计值


## 添加行名
row.names(pms) <- names(coef(m))
## 输出结果
parms

## 与基于正常的近似值相比
confint(m1)

bootstrap置信区间比基于正态的近似值要宽得多。使用稳健标准误差时，自举 CI 与来自 Stata 的 CI 更加一致。

现在我们可以估计泊松模型的事件风险比 (IRR) 和逻辑（零通胀）模型的优势比 (OR)。

## 带百分位数和偏差调整的CI的指数化参数估计值
exps <- t(sapply(c(1, 3, 5, 7, 9), function(i) {
  out <- boot.ci

为了更好地理解我们的模型，我们可以计算预测变量的不同组合所捕获的鱼的预期数量。事实上，由于我们基本上使用的是分类预测，我们可以使用函数来计算所有组合的期望值来创建所有组合。最后我们创建一个图表。


ggplot(neda1, aes(x = cld, y = pat, colour = factor(pos))) +
  geom_point() +
  geom_line() +
  facet_wrap(~cmp)

需要考虑的事项

由于?zip?同时具有计数模型和 logit 模型，因此这两个模型中的每一个都应该具有良好的预测器。这两个模型不一定需要使用相同的预测变量。
零膨胀模型的逻辑部分可能会出现完美预测、分离或部分分离的问题。
计数数据通常使用暴露变量来指示事件可能发生的次数。
不建议将零膨胀泊松模型应用于小样本。

最受欢迎的见解

1.R语言多元Logistic逻辑回归应用案例

2.面板平滑转移回归(PSTR)分析案例实现

3.matlab中的偏最小二乘回归（PLSR）和主成分回归（PCR）

4.R语言泊松Poisson回归模型分析案例

5.R语言混合效应逻辑回归Logistic模型分析肺癌

6.r语言中对LASSO回归，Ridge岭回归和Elastic Net模型实现

7.R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病

8.python用线性回归预测股票价格

9.R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测

开发者涨薪指南

48位大咖的思考法则、工作方式、逻辑体系

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

加:2022-06-01 15:13:42 更:2022-06-01 15:17:13

360图书馆购物三丰科技阅读网日历万年历 2026年5日历

-2026/5/3 23:48:11-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码