数据清理
前言
R语言的数据清洗部分,我们首先要做的是导入数据 (我目前只处理过excel,txt与spss数据 后续会持续更新)
一、主要使用的拓展包
读取 —— 数据
- Foreign 读取spss数据
- Hmisc 读取spss数据
- Xlsx 读取excel数据
输出 —— 数据
二、重要查询
三、使用倾向读取
默认常用的函数
read.csv()
read.csv2()
1.txt数据
read.table(file,header=value,sep="delimter",row.names="name")
2.spss数据
代码如下(示例):
install.packages("foreign")
library(foreign)
data=read.spss("data.sav")
install.packages("Hmisc")
library(Hmisc)
data = spss.get("data.sav")
3.xlsx数据
代码如下(示例):
library("xlsx")
data = read.xlsx("data.xlsx",sheetIndex = )
四、使用倾向输出
主要有txt xlsx csv ????????——对于sav数据待查明
write.table(data,file="file") write.xlsx(data,file="file") write.csv(data,file="file")
总结
??这些导入数据或者是输出数据的函数有一些主要内置参数,合理使用参数可以有效减少后续的数据清洗 参数的使用最多的是在导入xlsx数据是进行表格的选择,对于表格表头的选择,第一行是否选取
详细的使用方法利用 拓展包的使用查询 查看 或者使用函数help () 查看源生的官方参考文档
在安装这些包的时候最困难的就是xlsx拓展包的安装 具体安装步骤
- xlsx包的加载依赖Java的环境 - JAVA安装地址
- 安装版本相对应 Example - R版本为64bit 则 Java也要64bit
|