IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> Hive创建表的过程详细过程 -> 正文阅读

[大数据]Hive创建表的过程详细过程

Hive创建表的过程详细过程

Demo

第一个demo

CREATE TABLE db.testTable(
    id string COMMENT 'id'
    ,name string COMMENT '姓名'
    ,age bigint COMMENT '年龄'
  )
COMMENT '测试表'
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\001'
SOTRED AS PARQUET;

这个创建表的涉及的参数主要有:

  • ROW FORMAT DELIMITED
  • FIELDS TERMINATED BY ‘\001’
  • SOTRED AS PARQUET;

上述创建过程最后会解析为:

CREATE TABLE db.testTable(
    id string COMMENT 'id'
    ,name string COMMENT '姓名'
    ,age bigint COMMENT '年龄'
  )
COMMENT '测试表'
ROW FORMAT DELIMITED 
FIELDS TERMINATED BY '\u0001' 
STORED AS INPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat' 
OUTPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat'

也就是说:
SOTRED AS PARQUET;等价于

  • STORED AS INPUTFORMAT :存储格式
  • OUTPUTFORMAT 输出格式

ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘\001’ 表示要指定表的列分隔符,其中:

  • ROW FORMAT DELIMITED:是指定分隔符的标示
  • FIELDS TERMINATED BY '\001’表示指定的是列分隔符

第二个demo

CREATE TABLE db.testTable(
    id string COMMENT 'id'
    ,name string COMMENT '姓名'
    ,age bigint COMMENT '年龄'
  )
COMMENT '测试表'
SOTRED AS PARQUET;

这个等价于:

CREATE TABLE db.entity_deleteParquet0728(
    id_reserve string COMMENT '需要保留的ID'

    ,id_delete string COMMENT '需要删除的ID'

    ,component bigint COMMENT '连通图分组编号'
  )
COMMENT '测试'
ROW FORMAT SERDE 
  'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe' 
STORED AS INPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat' 
OUTPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat'

这里SOTRED AS PARQUET;等价于:

  • ROW FORMAT SERDE :指定序列化格式为PARQUET
  • STORED AS INPUTFORMAT :存储格式
  • OUTPUTFORMAT 输出格式

这里没有指定列的分隔符,那么就采用模式的分隔符\001。

这里会有个三个疑问

1、为什么这个SOTRED AS PARQUET包含了ROW FORMAT SERDE而上一个demo没有包含?

答:因为如果使用了ROW FORMAT DELIMITED指定行列分隔符,那么就会采用默认的SERDE 序列化格式,其实也就是

PARQUET的默认序列化格式:org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe

2、为什么没有提到行分割符?

答:行分隔符默认是\n,如果不是特殊指定,可以不写

分区表的话:分区一定要写在row format之前,否则报错。

总结:

创建表的模板:

1、无特殊指定列分隔符

CREATE TABLE db.testTable(
    id string COMMENT 'id'
    ,name string COMMENT '姓名'
    ,age bigint COMMENT '年龄'
  )
COMMENT '测试表'
SOTRED AS PARQUET;

格式可以修改

2、指定列分隔符

CREATE TABLE db.testTable(
    id string COMMENT 'id'
    ,name string COMMENT '姓名'
    ,age bigint COMMENT '年龄'
  )
COMMENT '测试表'
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\001'
SOTRED AS PARQUET;

关键字含义

  1. SOTRED AS指定存储格式,等价于下面几项:
    • ROW FORMAT SERDE :指定序列化格式为PARQUET
    • STORED AS INPUTFORMAT :存储格式
    • OUTPUTFORMAT 输出格式
  2. ROW FORMAT DELIMITED当指定行列分隔符时需要添加,同时指定列分隔符为CREATE TABLE db.testTable(
  3. 如果什么都不加,那么默认行分隔符时\n 列分隔符为\001 存储格式为TextFile
  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2021-07-29 11:43:03  更:2021-07-29 11:44:38 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年5日历 -2024/5/3 6:53:40-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码