IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> R语言实现单变量分析教程 -> 正文阅读

[人工智能]R语言实现单变量分析教程

单变量分析是理解单个变量的数值分布情况,与之相对的有双变量分析和多变量分析。

加载示例数据

因为csv文件中年收入字段有千分位分隔符,所以先定义转换函数。

setClass("num.with.commas")
setAs("character", "num.with.commas", 
        function(from) as.numeric(gsub(",", "", from) ) )

data <- read.csv("csv/data.csv",colClasses=c('numeric','numeric','num.with.commas','numeric'))
data

#    HouseholdID HouseholdSize AnnInCome NumberOfPets
# 1            1             2    37,000            0
# 2            2             4    49,000            0
# 3            3             4    58,000            1
# 4            4             1    68,000            3
# 5            5             3    61,000            2
# 6            6             5    64,000            2
# 7            7             6    79,000            1
# 8            8             4    89,000            1
# 9            9             7   104,000            1
# 10          10             2    95,000            0

我们可以对上面任何一列进行单变量分析,以获得数据分布的更深理解。举例我们选择第二列 HouseholdSize 进行分析,主要包括三类分析:概要统计、频率分布、图表可视化。

概要统计

概要统计是单变量分析中最常用的方法。主要包括两类概要统计:

  • 衡量中心趋势

描述数据集中心的位置,包括平均值和中位数。

mean(data$HouseholdSize)
# 3.8

median(data$HouseholdSize)
# 4
  • 衡量离散趋势

描述数值在数据集中的分布情况,包括范围、四分位范围、标准差和方差。

range_info <- max(data$HouseholdSize) - min(data$HouseholdSize)
range_info
# 6

# 获得最小值 和 最大值 
range(data$HouseholdSize)
# 1 7

# IQR = Q3 – Q1
# 中间50% 数据范围
IQR(data$HouseholdSize)
# 2.5

sd(data$HouseholdSize)
# 1.87

# 最小 Q1 中位数 Q3 最大值
fivenum(data$HouseholdSize)
# 1 2 4 5 7

# 计算分位数
quantile(data$HouseholdSize)

#   0%  25%  50%  75% 100% 
# 1.00 2.25 4.00 4.75 7.00 

summary(data$HouseholdSize)

# Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
# 1.00    2.25    4.00    3.80    4.75    7.00 

频率分布

执行单变量分析的另一种方法是创建频率分布,该分布描述不同值在数据集中出现的频率,通常用于分析因子变量。

table(data$HouseholdSize)

# 1 2 3 4 5 6 7 
# 1 2 1 3 1 1 1 

结果显示2有连个, 4 有三个,其他数有1个。

图表分析

通过图表以可视化方式展示变量的数据分布情况。

常用图形包括:

  • 箱线图

箱线图可以同时展示5个数的概要信息,最小Q1,中位数,Q3,最大值

boxplot(data$HouseholdSize, main="Boxplot of HouseHoldSize")

在这里插入图片描述

  • 直方图

直方图用于垂直条形图展示频率,通常用于显示数据分布。

hist(data$HouseholdSize, main="Hist of HouseHoldSize")

在这里插入图片描述

  • 密度曲线图

密度曲线表示数据集中值分布曲线。可视化方式展示分布形状,是否包括多峰,偏度情况。


holdSize_density <- density(data$HouseholdSize)
plot(holdSize_density, main = "density of hold size")


在这里插入图片描述

  • 饼图

饼图展示每个数值占用的百分比。

pie(data$HouseholdSize, main = "Distribution of HoldSize")

在这里插入图片描述

通过不同图形可视化,可以更方便观测数值的分布情况。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-04-18 17:43:23  更:2022-04-18 17:43:29 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 11:52:25-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码