[大数据] sqoop安装和使用

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 大数据 -> sqoop安装和使用 -> 正文阅读

[大数据]sqoop安装和使用

Sqoop 是一款开源的工具，主要用于在 Hadoop、 Hive 与传统的数据库（MySQL）间进行数据的传递，可以将一个关系型数据库（例如： MySQL， Oracle 等）中的数据导进到 Hadoop 的 HDFS 中，也可以将 HDFS 的数据导进到关系型数据库中

貌似sqoop已经不维护了，索性学习阿里的datax，参考资料放在下面

参考

sqoop安装

解压压缩包

tar -zxf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz -C /opt/module/

在sqoop的conf下修改配置文件

mv sqoop-env-template.sh sqoop-env.sh  

//sqoop-env.sh
export HADOOP_COMMON_HOME=/opt/module/hadoop-2.7.2
export HADOOP_MAPRED_HOME=/opt/module/hadoop-2.7.2
export HIVE_HOME=/opt/module/hive
export ZOOKEEPER_HOME=/opt/module/zookeeper-3.4.10
export ZOOCFGDIR=/opt/module/zookeeper-3.4.10
export HBASE_HOME=/opt/module/hbase

拷贝 jdbc 驱动到 sqoop 的 lib 目录下

cp mysql-connector-java-5.1.27-bin.jar /opt/module/sqoop-1.4.6.bin__hadoop-2.0.4-alpha/lib/

执行测试

bin/sqoop help

连接mysql

bin/sqoop list-databases --connect jdbc:mysql://hadoop26:3306/ --username root --password maple

导入数据

HDFS

开启mysql

建表插入数据

create database company;

create table company.staff(
	id int(4) primary key not null auto_increment, 
	name varchar(255), sex varchar(255)
);
insert into company.staff(name, sex) values('Thomas', 'Male');
insert into company.staff(name, sex) values('Catalina', 'FeMale');

导入数据

bin/sqoop import \
--connect jdbc:mysql://hadoop102:3306/company \
--username root \
--password maple \
--table staff \
--target-dir /user/company \
--delete-target-dir \
--num-mappers 1 \
--fields-terminated-by "\t"

导入查询

注意： must contain ‘$CONDITIONS’ in WHERE clause

bin/sqoop import \
--connect jdbc:mysql://hadoop26:3306/company \
--username root \
--password maple \
--target-dir /user/company \
--delete-target-dir \
--num-mappers 1 \
--fields-terminated-by "\t" \
--query 'select name,sex from staff where id <=1 and $CONDITIONS;'

导入指定列

bin/sqoop import \
--connect jdbc:mysql://hadoop26:3306/company \
--username root \
--password maple \
--target-dir /user/company \
--delete-target-dir \
--num-mappers 1 \
--fields-terminated-by "\t" \
--columns id,sex \
--table staff

使用 sqoop 关键字筛选查询导入数据

bin/sqoop import \
--connect jdbc:mysql://hadoop26:3306/company \
--username root \
--password maple \
--target-dir /user/company \
--delete-target-dir \
--num-mappers 1 \
--fields-terminated-by "\t" \
--table staff \
--where "id=1"

RDBMS 到 Hive

该过程分为两步，第一步将数据导入到 HDFS，第二步将导入到 HDFS 的数据迁移到Hive 仓库，第一步默认的临时目录是/user/xxxx/表名

bin/sqoop import \
--connect jdbc:mysql://hadoop102:3306/company \
--username root \
--password maple \
--table staff \
--num-mappers 1 \
--hive-import \
--fields-terminated-by "\t" \
--hive-overwrite \
--hive-table staff_hive

RDBMS 到 Hbase

提示： sqoop1.4.6 只支持 HBase1.0.1 之前的版本的自动创建 HBase 表的功能

bin/sqoop import \
--connect jdbc:mysql://hadoop102:3306/company \
--username root \
--password maple \
--table company \
--columns "id,name,sex" \
--column-family "info" \
--hbase-create-table \
--hbase-row-key "id" \
--hbase-table "hbase_company" \
--num-mappers 1 \
--split-by id

导出数据

从大数据集群（HDFS， HIVE， HBASE）向非大数据集群（RDBMS）中传输数据

HIVE/HDFS 到 RDBMS

提示： Mysql 中如果表不存在，不会自动创建

bin/sqoop export \
--connect jdbc:mysql://hadoop26:3306/company \
--username root \
--password maple \
--table staff \
--num-mappers 1 \
--export-dir /user/hive/warehouse/staff_hive \
--input-fields-terminated-by "\t"

脚本打包

mkdir opt
touch opt/job_HDFS2RDBMS.opt

编辑脚本

$ vim opt/job_HDFS2RDBMS.opt
export
--connect
jdbc:mysql://hadoop26:3306/company
--username
root
--password
maple
--table
staff
--num-mappers
1
--export-dir
/user/hive/warehouse/staff_hive
--input-fields-terminated-by
"\t"

执行脚本

bin/sqoop --options-file opt/job_HDFS2RDBMS.opt

创作打卡挑战赛

赢取流量/现金/CSDN周边激励大奖

大数据最新文章

实现Kafka至少消费一次

亚马逊云科技：还在苦于ETL？Zero ETL的时代

初探MapReduce

【SpringBoot框架篇】32.基于注解+redis实现

Elasticsearch：如何减少 Elasticsearch 集

Go redis操作

Redis面试题

专题五 Redis高并发场景

基于GBase8s和Calcite的多数据源查询

Redis——底层数据结构原理

加:2022-04-30 08:47:05 更:2022-04-30 08:48:50

360图书馆购物三丰科技阅读网日历万年历 2025年12日历

-2025/12/4 14:33:24-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码