一、hive的内部表
1,建表语句
create table students
(
id bigint,
name string,
age int,
school string,
class string
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
LOCATION '/user/hive/warehouse';
2,存储位置
内部表数据存储的位置是hive在hdfs中存在默认的存储路径,即default数据库(默认:/user/hive/warehouse)
3,管理主体
内部表的数据是Hive自身管理,创建内部表时,会将数据移动到数据仓库指向的路径
4,内部表转换为外部表
alter table table_name set tblproperties('EXTERNAL'='TRUE');
可以通过 desc formatted 表名 来查看表的属性
5,数据删除问题
删除内部表会直接删除元数据(metadata)及存储数据,对内部表的修改会将修改直接同步给元数据
二、hive的外部表
1,建表语句
create external table students
(
id bigint,
name string,
age int,
school string,
class string
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
LOCATION '/user/hive/warehouse_external ';
2,存储位置
外部表数据存储的位置可以自己指定,指定除/user/hive/warehouse以外的路径。
3,管理主体
外部表数据由HDFS管理,创建外部表时,仅记录数据所在的路径,不对数据的位置做任何改变。
4,外部表转换为内部表
alter table table_name set tblproperties('EXTERNAL'='FALSE');
可以通过 desc formatted 表名 来查看表的属性
5,数据删除问题
删除外部表仅仅会删除元数据,HDFS上的文件并不会被删除,而对外部表的表结构和分区进行修改,则需要修复(MSCK REPAIR TABLE table_name)
三、hive内部表与外部表的不同使用场景
1,场景一
因为hive内部表在删除表是同时删除表数据与元数据,而外部表删除的时候,仅仅会删除元数据,HDFS上的文件并不会被删除,所以外部表相对来说更加安全些,数据组织也更加灵活,方便共享源数据。
2,场景二
如果所有的数据都由hive处理,则创建内部表;如果数据的处理由hive和其他工具一起处理,则创建外部表。
3,场景三
我们在管理表不方便和其他工作共享数据。可以创建一个外部表指向这份数据,而并不需要对其具有所有权。
我们在使用hive内部表与外部表的时候,需要根据合适的业务场景去选择哦!
我是晓之以理的喵~,欢迎大家相互交流!!!
|