IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> Sqoop 导入 Hive 添加不属于来源表的字段 -> 正文阅读

[大数据]Sqoop 导入 Hive 添加不属于来源表的字段

最近在接手 Sqoop的数据导入到处工作较多,其中碰到了一个之前没有遇到过的问题,即Sqoop在导入postgresql数据到Hive时,需要添加一个字段 租户id 到Hive表中,但是这个租户id在来源表中是不存在的。
Sqoop脚本中,需要手动处理下,这里记录下处理方式,供今后查看。

我们一般情况下,通过Sqoop导入数据到Hive时,采用--table的方式导入全表、全字段的情况居多。当需要在来源表已有字段的基础上添加字段时,就需要使用到 --query了。
这里有几个细节需要注意下:
1.--table--query不能共存,两个属性二选一;
2. --query中,必须带有特殊条件 WHERE $CONDITIONS;并且,如果是sql双引号的话,则多加一个符转义符 WHERE \$CONDITIONS
3. 注意新添加的字段类型,例如字符串类型要加单引号等等;新添加的字段要起别名等等;

下面附上完整的Sqoop命令:

sqoop import --connect 'jdbc:postgresql://xxxx:5432/tenant_sag? \
useUnicode=true&characterEncoding=utf-8' --username 'xxx' \
--password 'xxx' --null-string '\\N' --null-non-string '\\N' \
--hive-import --hive-database test_sqoop --hive-table survey_question \
--hive-drop-import-delims --lines-terminated-by '\n' \
--fields-terminated-by '\001' --map-column-java options=String,name=String \
--query " select 1111 as talent_id, * from survey_question WHERE \$CONDITIONS" \
--map-column-hive options=String,name=String  --target-dir  \
hdfs:///tmp/sqoop/survey_question_1626071355330 -m 1

如果导入的Sqoop脚本很多,并且有多张来源表向同一张 Hive表中导入数据的使用场景,尝试并行化导入的方式。
详见 https://editor.csdn.net/md?not_checkout=1&articleId=118579693

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2021-07-13 17:31:50  更:2021-07-13 17:34:05 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年5日历 -2024/5/6 18:27:40-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码