IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> DataX部署及使用 -> 正文阅读

[大数据]DataX部署及使用

下载

https://github.com/alibaba/DataX

部署

基础依赖 : python2
解压后运行自检脚本:

./bin/datax.py  ./job/job.json

出现如下界面代表OK
在这里插入图片描述

使用

MySQL数据导入到HDFS

编辑 mysql2hdfs.json 文件

cd datax/job
vim mysql2hdfs.json

{
    "job": {
        "content": [
            {
                "reader": {
                    "name": "mysqlreader", 
                    "parameter": {
                        "column": [
                            "id",
                            "arth_type",
                            "content"
                        ], 
                        "connection": [
                            {
                                "jdbcUrl": [
                                    "jdbc:mysql://10.20.8.86:13306/test_db"
                                ], 
                                "table": [
                                    "test_in"
                                ]
                            }
                        ], 
                        "password": "123456", 
                        "username": "clj"
                    }
                }, 
                "writer": {
                    "name": "hdfswriter", 
                    "parameter": {
                        "column": [
                            {
                                "name":"id",
                                "type":"int"
                            },
                            {
                                "name":"arth_type",
                                "type":"string"
                            },
							{
                                "name":"content",
                                "type":"string"
                            }
                        ], 
                        "defaultFS": "hdfs://sentiment", 
						"hadoopConfig":{
						  "dfs.nameservices": "sentiment",
						  "dfs.ha.namenodes.sentiment": "namenode1,namenode2",
						  "dfs.namenode.rpc-address.sentiment.namenode1": "clj-mr-m1:8020",
						  "dfs.namenode.rpc-address.sentiment.namenode2": "clj-mr-m2:8020",
						  "dfs.client.failover.proxy.provider.sentiment": "org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider"
						},
                        "fieldDelimiter": "\t", 
                        "fileName": "keyword.txt", 
                        "fileType": "text", 
                        "path": "/datax/test_in", 
                        "writeMode": "append"
                    }
                }
            }
        ], 
        "setting": {
            "speed": {
                "channel": "3"
            }
        }
    }
}

注意点:
如果mysql版本比较高,需要更换驱动包,路径如下:

 plugin/reader/mysqlreader/libs/

hdfswriter需要预选创建hive外部表

create external table test_in(
 `id` bigint,
 `arth_type` string,
 `content` string
)
stored as textfile 
LOCATION 
'/datax/test_in';

高可用hdfs注意如下配置:

"defaultFS": "hdfs://sentiment", 
"hadoopConfig":{
  "dfs.nameservices": "sentiment",
  "dfs.ha.namenodes.sentiment": "namenode1,namenode2",
  "dfs.namenode.rpc-address.sentiment.namenode1": "clj-mr-m1:8020",
  "dfs.namenode.rpc-address.sentiment.namenode2": "clj-mr-m2:8020",
  "dfs.client.failover.proxy.provider.sentiment": "org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider"
},

同步完成标志:
在这里插入图片描述

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2021-10-09 16:21:04  更:2021-10-09 16:23:32 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/24 1:03:36-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码