一、下载安装
1、下载OpenRefine
官网:http://OpenRefine.org
2、安装OpenRefine
解压后双击运行 openrefine.exe。如果电脑上没有Java环境,会自动跳转到浏览器下载Java界面 点击 同意并开始免费下载,然后安装Java 到这儿环境配置好了,重新双击 openrefine.exe 运行,会启动程序并自动跳转到浏览器OpenRefine主页面
二、运行OpenRefine对数据查看、清洗、导出
选择本地存储文件,以水利局输沙率文件作为今天的测试数据吧,内容如图所示
-
启动OpenRefine,在浏览器中打开运行界面 -
单击 Create Project 中的 选择文件按钮,然后选择桌面上的“实测悬移质输沙率成果表_利津(三)40108400_2019_9.csv”文件,然后点击 next 按钮,可以查看已经导入的文件内容了
3.点击右上角的 Create Project,进入到数据记录的显示界面,如图所示
4.选择菜单栏中的下拉箭头,可以对每一列数据进行清洗和转换,如图所示
5.如果要对数据进行过滤,可以选择 Facet 下的 Text facet 命令,如图所示
6.在左边区域 Facet/Filter 下可以看到内容分组的结果,有助于用户对数据进行分析
7.如果要对显示的数据继续查询,例如,想要查看2020年的某一条数据,可以选择这一组,就过滤了整个数据表,在屏幕上只显示这一条数据 8.如果要对数据进行编辑,可以单击每一行右侧的Edit按钮,对数据进行修改,如下图 将日期12改成9,修改完成后单击Apply按钮进行保存,如下图 9.导出数据,选择Export菜单中的Templating选项,如下图所示: 10.在网页中查看生成的数据,如下图
11.单击Export按钮,即可输出数据保存成.txt格式的文件,如下图
三、Excel有效性分析
1.打开Excel,将txt中的内容,复制粘贴到Excel第一列中,如下图 2.选中第一列数据,选择“数据”菜单,找到“数据验证”选项,在弹出的“数据验证”对话框中分别设置“验证条件”和“最大值”和“最小值” 3.设置完成后,选择“数据验证”下拉列表中的“圈释无效数据”选项,会看到表格中的无效数据用椭圆圈注,如下图所示
四、Excel数据分析并清除无效数据
1.打开Excel,输入原始数据 2.选中所有数据单元格区域,单击“数据”选项卡中的“删除重复值”按钮,如下图所示 3.在弹出的“删除重复项”对话框中选择“全选”按钮,如下图 4.执行完删除重复项操作后,如下图所示
|