IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> sqoop安装和使用 -> 正文阅读

[大数据]sqoop安装和使用

Sqoop 是一款开源的工具,主要用于在 Hadoop、 Hive 与传统的数据库(MySQL)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL, Oracle 等)中的数据导进到 Hadoop 的 HDFS 中,也可以将 HDFS 的数据导进到关系型数据库中

貌似sqoop已经不维护了,索性学习阿里的datax,参考资料放在下面

参考

sqoop安装

解压压缩包

tar -zxf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz -C /opt/module/

在sqoop的conf下修改配置文件

mv sqoop-env-template.sh sqoop-env.sh  

//sqoop-env.sh
export HADOOP_COMMON_HOME=/opt/module/hadoop-2.7.2
export HADOOP_MAPRED_HOME=/opt/module/hadoop-2.7.2
export HIVE_HOME=/opt/module/hive
export ZOOKEEPER_HOME=/opt/module/zookeeper-3.4.10
export ZOOCFGDIR=/opt/module/zookeeper-3.4.10
export HBASE_HOME=/opt/module/hbase

拷贝 jdbc 驱动到 sqoop 的 lib 目录下

cp mysql-connector-java-5.1.27-bin.jar /opt/module/sqoop-1.4.6.bin__hadoop-2.0.4-alpha/lib/

执行测试

bin/sqoop help

连接mysql

bin/sqoop list-databases --connect jdbc:mysql://hadoop26:3306/ --username root --password maple

导入数据

HDFS

开启mysql

建表插入数据

create database company;

create table company.staff(
	id int(4) primary key not null auto_increment, 
	name varchar(255), sex varchar(255)
);
insert into company.staff(name, sex) values('Thomas', 'Male');
insert into company.staff(name, sex) values('Catalina', 'FeMale');

导入数据

bin/sqoop import \
--connect jdbc:mysql://hadoop102:3306/company \
--username root \
--password maple \
--table staff \
--target-dir /user/company \
--delete-target-dir \
--num-mappers 1 \
--fields-terminated-by "\t"

导入查询

注意: must contain ‘$CONDITIONS’ in WHERE clause

bin/sqoop import \
--connect jdbc:mysql://hadoop26:3306/company \
--username root \
--password maple \
--target-dir /user/company \
--delete-target-dir \
--num-mappers 1 \
--fields-terminated-by "\t" \
--query 'select name,sex from staff where id <=1 and $CONDITIONS;'

导入指定列

bin/sqoop import \
--connect jdbc:mysql://hadoop26:3306/company \
--username root \
--password maple \
--target-dir /user/company \
--delete-target-dir \
--num-mappers 1 \
--fields-terminated-by "\t" \
--columns id,sex \
--table staff

使用 sqoop 关键字筛选查询导入数据

bin/sqoop import \
--connect jdbc:mysql://hadoop26:3306/company \
--username root \
--password maple \
--target-dir /user/company \
--delete-target-dir \
--num-mappers 1 \
--fields-terminated-by "\t" \
--table staff \
--where "id=1"  

RDBMS 到 Hive

该过程分为两步,第一步将数据导入到 HDFS,第二步将导入到 HDFS 的数据迁移到Hive 仓库, 第一步默认的临时目录是/user/xxxx/表名

bin/sqoop import \
--connect jdbc:mysql://hadoop102:3306/company \
--username root \
--password maple \
--table staff \
--num-mappers 1 \
--hive-import \
--fields-terminated-by "\t" \
--hive-overwrite \
--hive-table staff_hive  

RDBMS 到 Hbase

提示: sqoop1.4.6 只支持 HBase1.0.1 之前的版本的自动创建 HBase 表的功能

bin/sqoop import \
--connect jdbc:mysql://hadoop102:3306/company \
--username root \
--password maple \
--table company \
--columns "id,name,sex" \
--column-family "info" \
--hbase-create-table \
--hbase-row-key "id" \
--hbase-table "hbase_company" \
--num-mappers 1 \
--split-by id

导出数据

从大数据集群(HDFS, HIVE, HBASE)向非大数据集群(RDBMS)中传输数据

HIVE/HDFS 到 RDBMS

提示: Mysql 中如果表不存在,不会自动创建

bin/sqoop export \
--connect jdbc:mysql://hadoop26:3306/company \
--username root \
--password maple \
--table staff \
--num-mappers 1 \
--export-dir /user/hive/warehouse/staff_hive \
--input-fields-terminated-by "\t"

脚本打包

mkdir opt
touch opt/job_HDFS2RDBMS.opt

编辑脚本

$ vim opt/job_HDFS2RDBMS.opt
export
--connect
jdbc:mysql://hadoop26:3306/company
--username
root
--password
maple
--table
staff
--num-mappers
1
--export-dir
/user/hive/warehouse/staff_hive
--input-fields-terminated-by
"\t"

执行脚本

bin/sqoop --options-file opt/job_HDFS2RDBMS.opt
  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2022-04-30 08:47:05  更:2022-04-30 08:48:50 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/24 1:21:56-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码