IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> R语言使用逻辑回归Logistic、单因素方差分析anova、异常点分析和可视化分类iris鸢尾花数据集 -> 正文阅读

[人工智能]R语言使用逻辑回归Logistic、单因素方差分析anova、异常点分析和可视化分类iris鸢尾花数据集

全文链接:http://tecdat.cn/?p=27650?

原文出处:拓端数据部落公众号

摘要

本文将探讨 Fisher 和 Anderson 鸢尾花数据集中呈现的三个变量之间的关系,特别是virginica 和 versicolor 级别的因变量变量物种对预测变量花瓣长度花瓣宽度的逻辑回归。单因素方差分析和数据可视化都确定了因变量的一个因素水平,即 I. setosa,很容易与其他两个因素线性分离,具有非常明显的均值和方差,因此不是我们对逻辑回归感兴趣。

介绍

对鸢尾花数据的初步查看引发了关于数据集本身性质的直接问题:为什么要收集如此简单的数据,事实上,我们最初的直觉之一是想知道,鉴于数据集中的信息,是否有可能在进行相关分析和诊断后,建立一个能够对新观??察结果进行分类的模型。??

我们很惊讶也很高兴得知数据集通常是为了这个目的分析的。它最常见的用途是机器学习,特别是分类和模式识别应用。我们开始使用到目前为止所学的工具检查部分数据——即,我们将使用逻辑回归和两种鸢尾花,Virginica 和 versicolor(分别表示为π =0 和π=1)。第三种物种 I. setosa 被排除在外,因为它在所有维度上都与其他两个物种高度分离。

方法

在这种情况下,逻辑回归比卡方或 Fisher 精确检验更合适,因为我们有一个二元因变量和多个预测变量,它还允许我们在控制其他变量的同时清楚地量化各种影响的强度(即每个参数的优势比)。

plot(predicresiduals(logit.fylab="
rl=lm(resi.fit)~bs(predict(.fit),8))
#rl=loess(repredictit.fit))
y=pree=TRUE)
segments(predict(l

??

结果

创建了一个逻辑模型,一般模型和参数特征如下:

通过查看它们的优势比,可以有效地总结参数估计的含义。显然,截距项并不是特别有趣,因为数据点 (0,0) 在理论上是不可能的,而且远远超出了我们收集的数据范围。β1的优势比β2?更有趣;它们分别代表相关变量的每一个增量,而另一个保持不变时,特定植物属于 I. virginica 物种的几率增加。在这种情况下,很明显,增加花瓣宽度会对特定植物被归类为 I. virginica 的几率产生巨大影响——这种影响大约是花瓣长度的 110 倍。然而,优势比 95% 置信区间都不包含 1,因此我们可以得出结论,这两种效应都具有统计学意义。

library(ggplot2)

#绘图数据
qplot(Petal.Width, Petal.Length, colour = Species,  data = irises, main = "Iris classification")

使用模型中的系数估计,我们可以确定一个标准——一个线性判别式——通过它我们可以最好地分离数据。线性判别式的准确度在以下混淆矩阵中给出:

# 从模型中获得预测结果
logit.predictions <- ifelse(predict(logit.fit) > 0,'virginica', 'versicolor')

# 混淆矩阵 
table(irises[,5],logit.predictions)

诊断

通过检查残差和数据的影响,我们确定了几个潜在的异常观察结果:

在所有可能有问题的观察中,我们注意到第 57 个观察样本可能是异常点。检查诊断图,我们看到逻辑回归的趋势特征,包括残差与预测图中的两条不同曲线。第 57 个观察样本出现在每个诊断图中,但幸运的是没有超过库克的距离。

结论与讨论

在这种情况下,逻辑模型的使用具有启发性,因为它显示了根据多个预测变量将数据分类为二元因变量技术的强大功能。该模型可预见地显示出最大的不确定性,即在给定维度(即一个物种的数据与另一个物种的数据之间的边界)中观测值接近平均值时。考虑模型是否可以改进,或者不同的模型是否更适合数据是很有趣的;也许对于这个分类问题,k-最近邻方法是必要的。无论如何,6% 的错误分类率实际上是相当不错的;更多的数据肯定会提高这个数字。

自测题

Diagnosis of Depression in Primary Care
To study factors related to the diagnosis of depression in primary care, 400 patients were randomly selected and the following variables were recorded:
DAV: Diagnosis of depression in any visit during one year of care.
0 = Not diagnosed
1 = Diagnosed
PCS: Physical component of SF-36 measuring health status of the patient.
MCS: Mental component of SF-36 measuring health status of the patient
BECK: The Beck depression score.
PGEND: Patient gender
0 = Female
1 = Male
AGE: Patient’s age in years.
EDUCAT: Number of years of formal schooling.
The response variable is DAV (0 not diagnosed, 1 diagnosed), and it is recorded in the first column of the data. The data are stored in the file final.dat and is available from the course web site. Perform a multiple logistic regression analysis of this data using SAS or any other statistical packages. This includes
estimation, hypothesis testing, model selection, residual analysis and diagnostics. Explain your findings in a 3 to 4- page report. Your report may include the following sections:
? Introduction: Statement of the problem.
? Material and Methods: Description of the data and methods that you used for the analysis.
? Results: Explain the results of your analysis in detail. You may cut and paste some of your computer
outputs and refer to them in the explanation of your results.
? Conclusion and Discussion: Highlight the main findings and discuss.
Please cut and paste the computer outputs to your report and do not include any direct computer output as an attachment
Please note that you have also the option of using a similar data set in your own field of interest.


最受欢迎的见解

1.R语言多元Logistic逻辑回归 应用案例

2.面板平滑转移回归(PSTR)分析案例实现

3.matlab中的偏最小二乘回归(PLSR)和主成分回归(PCR)

4.R语言泊松Poisson回归模型分析案例

5.R语言回归中的Hosmer-Lemeshow拟合优度检验

6.r语言中对LASSO回归,Ridge岭回归和Elastic Net模型实现

7.在R语言中实现Logistic逻辑回归

8.python用线性回归预测股票价格

9.R语言如何在生存分析与Cox回归中计算IDI,NRI指标

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-07-21 21:32:47  更:2022-07-21 21:36:07 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 0:48:57-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码