题目要求
(要求使用Java编写 MR 代码实现)抽取ods 库中 baseemployee 的全量数据进入Hive的dwd库中表dim_employee。分区字段为etldate且值与ods库的相对应表该值相等,并添加dwd_insert_user、dwd_insert_time、dwd_modify_user、dwd_modify_time四列,其中dwd_insert_user、dwd_modify_user均填写“user1”,dwd_insert_time、dwd_modify_time均填写操作时间,并进行数据类型转换。并在hive cli执行show partitions dwd. fact_machine_data 命令,将结果内容和 MR 的 Diver 类代码复制粘贴至对应报告中。
注意:
Hive 中的 ods.baseemployee 这个是以压缩的格式存储的( parquet结尾 ),没办法通过MR直接读取,见下图:
$ hdfs dfs -ls /user/hive/warehouse/ods.db/baseemployee/etldate=20220713
Found 1 items
-rw-r--r-- 3 root supergroup 7135097 2022-07-14 10:42 /user/
|