《数据清洗(黑马程序员/编著)》
第3章 Kettle工具的基本使用
学习目标
(1)抽取CSV文件csv_extract.csv中的数据保存至数据库extract中的数据表csv中。 (2)抽取JSON文件json_extract.js中的数据保存至数据库extract中的数据表json中。
1.CSV文件的数据抽取
(1)创建转换 使用kettle创建一个转换csv_extract,并添加“CSV文件输入”控件、“表输出”控件以及Hop跳连接线。 (2)配置CSV文件输入控件 进入CSV文件输入界面,选择抽取的文件。单击“获取字段”,自动检索CSV文件,对文件中的字段类型、格式、长度、精度等属性进行分析。单击“预览”查看文件csv_extract.csv中的数据是否成功抽取到CSV文件输入流中。 (3)配置表输出控件 进入表输出界面,配置数据库连接,选择输出的目标表,即数据表extract,勾选“指定数据库字段”,用于将数据表CSV的字段与CSV文件csv_extract.csv中的字段进行匹配,选择数据库字段选项卡,点击输入字段映射,将映射字段添加至映射框中。 (4)运行转换
2.JSON文件的数据抽取
(1)创建转换 使用kettle创建一个转换json_extract,并添加JSON input控件、“表输出”控件以及Hop跳连接线。 (2)配置JSON input控件 双击JSON input控件,进入JSON输入的配置。选择要抽取的JSON文件json_extract.json,将所选择的文件添加到选中的文件中。单击字段选项卡,添加要抽取的数据字段,完成JSON input控件的配置。双击JSON input2控件,进入JSON输入界面,勾选源定义在一个字段里,添加字段data中抽取的field和value字段。
(3)配置表输出控件 双击表输出控件,点击新建配置数据库连接。选择输出的目标表,勾选指定数据库字段,用于将数据表json字段与JSON文件json_extract.json中的字段进行匹配。将映射字段添加到映射框中。
(4)运行转换json_extract
|