hive	RDBMS（关系型数据库）
分布式	支持	支持
节点	支持	支持
成本?	廉价	昂贵
数据量	TB? PB	GB
事务? ?	支持	支持
延时性	高	低
DML	0.14之后支持（但是不建议用）	支持?

三、hive适用场景

批处理 / 离线处理

四、 hive的优缺点

优点：易上手，比MR使用起来简单多了

缺点：延时性高

五、一些问题

1、Hive的执行速度对比于Mysql谁快

没有对比性，具体问题具体分析

2、hive?sql? 和mysql?sql? 有什么关系

除了语法类似之外，没有任何关系

?六、hive安装

1、解压压缩包，并更名如下：

?2、?hive一些目录整理

bin?	可执行的文件
conf?	配置文件
lib	hive相关的jar包

3、添加hive环形变量

在? /etc/profile?中添加

#HIVE_HOME
export HIVE_HOME=/home/peizk/app/hive-3.1.2
export PATH=$PATH:$HIVE_HOME/bin

?source? 一下? 使其生效

4、配置文件

[peizk@hadoop conf]$ vim hive-site.xml

内容如下：

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
    <property>
        <name>javax.jdo.option.ConnectionURL</name>
        <value>jdbc:mysql://hadoop:3306/metastore?useSSL=false&amp;useUnicode=true&amp;characterEncoding=UTF-8</value>
    </property>

    <property>
        <name>javax.jdo.option.ConnectionDriverName</name>
        <value>com.mysql.jdbc.Driver</value>
    </property>

    <property>
        <name>javax.jdo.option.ConnectionUserName</name>
        <value>root</value>
    </property>

    <property>
        <name>javax.jdo.option.ConnectionPassword</name>
        <value>123456</value>
    </property>

    <property>
        <name>hive.metastore.warehouse.dir</name>
        <value>/user/hive/warehouse</value>
    </property>

    <property>
        <name>hive.metastore.schema.verification</name>
        <value>false</value>
    </property>

    <property>
    <name>hive.server2.thrift.port</name>
    <value>10000</value>
    </property>

    <property>
        <name>hive.server2.thrift.bind.host</name>
        <value>hadoop</value>
    </property>

    <property>
        <name>hive.metastore.event.db.notification.api.auth</name>
        <value>false</value>
    </property>
    
    <property>
        <name>hive.cli.print.header</name>
        <value>true</value>
    </property>

    <property>
        <name>hive.cli.print.current.db</name>
        <value>true</value>
    </property>
</configuration>

导入jar包到?hive? lib?下??

5、初始化元数据

（1）创建一个元数据库

mysql> create database metastore;
Query OK, 1 row affected (0.00 sec)

（2）初始化

[peizk@hadoop conf]$ schematool -initSchema -dbType mysql -verbose

hive启动一下，show? databases

?出现? ok！

初始化成功

6、测试

创建一个表?插入一条数据

hive (default)> create table test0401(id bigint,name string);
OK
Time taken: 0.478 seconds
hive (default)> insert into test0401 values(1,'zhangsan');
Query ID = peizk_20220402153441_0c2729a1-961c-46ad-a03e-ef60c85e3af7
Total jobs = 3
Launching Job 1 out of 3
Number of reduce tasks determined at compile time: 1
In order to change the average load for a reducer (in bytes):
  set hive.exec.reducers.bytes.per.reducer=<number>
In order to limit the maximum number of reducers:
  set hive.exec.reducers.max=<number>
In order to set a constant number of reducers:
  set mapreduce.job.reduces=<number>
Job running in-process (local Hadoop)
2022-04-02 15:34:44,673 Stage-1 map = 100%,  reduce = 100%
Ended Job = job_local1960812315_0001
Stage-4 is selected by condition resolver.
Stage-3 is filtered out by condition resolver.
Stage-5 is filtered out by condition resolver.
Moving data to directory hdfs://hadoop:9000/user/hive/warehouse/test0401/.hive-staging_hive_2022-04-02_15-34-41_544_4957939646936871229-1/-ext-10000
Loading data to table default.test0401
MapReduce Jobs Launched: 
Stage-Stage-1:  HDFS Read: 0 HDFS Write: 166 SUCCESS
Total MapReduce CPU Time Spent: 0 msec
OK
_col0	_col1
Time taken: 3.488 seconds
hive (default)> select *  from test0401;
OK
test0401.id	test0401.name
1	zhangsan
Time taken: 0.126 seconds, Fetched: 1 row(s)
hive (default)>

?查看hdfs? 有

查看目录下文件内容

[root@hadoop ~]# hadoop fs -cat  /user/hive/warehouse/test0401/*
2022-04-02 15:41:10,235 INFO sasl.SaslDataTransferClient: SASL encryption trust check: localHostTrusted = false, remoteHostTrusted = false
1zhangsan

查看下mysql下metastore下? tbls? ?元数据

mysql> select * from TBLS;
+--------+-------------+-------+------------------+-------+------------+-----------+-------+----------+---------------+--------------------+--------------------+--------------------+
| TBL_ID | CREATE_TIME | DB_ID | LAST_ACCESS_TIME | OWNER | OWNER_TYPE | RETENTION | SD_ID | TBL_NAME | TBL_TYPE      | VIEW_EXPANDED_TEXT | VIEW_ORIGINAL_TEXT | IS_REWRITE_ENABLED |
+--------+-------------+-------+------------------+-------+------------+-----------+-------+----------+---------------+--------------------+--------------------+--------------------+
|      1 |  1648884858 |     1 |                0 | peizk | USER       |         0 |     1 | test0401 | MANAGED_TABLE | NULL               | NULL               |                    |
+--------+-------------+-------+------------------+-------+------------+-----------+-------+----------+---------------+--------------------+--------------------+--------------------+
1 row in set (0.00 sec)

mysql>

7、修改配置的其他办法

（1）hive? --hiveconf

hive? 启动，跟上需要修改的参数

例如不显示列名?

hive? --hiveconf? ? hive.cli.print.header =?false

(2)? set??

进入hive之后，可以通过?set?命令去配置?

set??hive.cli.print.header =?true;

总结：生效顺序

hive-site.xml? <??hive? --hiveconf? ? <? set?

七、作业

1、使用adb连接hive

开启hiveserver2

[peizk@hadoop hadoop]$ hive --service hiveserver2

##这是一个服务  在hive/bin目录下启动  可使用
sudo netstat -anp|grep 10000  查看是否启动成功
启动有点慢

?在hadoop?家目录下? etc/hadoop? ? 更改core-site.xml? 新增如下内容

<property>
    <name>hadoop.proxyuser.peizk.hosts</name>
    <value>*</value>
</property>
<property>
    <name>hadoop.proxyuser.peizk.groups</name>
    <value>*</value>
</property>




####################  为了解决以下问题，添加上述内容

[root@hadoop ~]# beeline -u  jdbc:hive2://hadoop:10000/default -n root
SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/home/peizk/app/hive-3.1.2/lib/log4j-slf4j-impl-2.10.0.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/home/peizk/app/hadoop-3.1.3/share/hadoop/common/lib/slf4j-log4j12-1.7.25.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.apache.logging.slf4j.Log4jLoggerFactory]
Connecting to jdbc:hive2://hadoop:10000/default
22/04/03 13:20:28 [main]: WARN jdbc.HiveConnection: Failed to connect to hadoop:10000
Error: Could not open client transport with JDBC Uri: jdbc:hive2://hadoop:10000/default: Failed to open new session: java.lang.RuntimeException: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.authorize.AuthorizationException): User: peizk is not allowed to impersonate root (state=08S01,code=0)
Beeline version 3.1.2 by Apache Hive

?将hive家目录下的?jdbc? jar包?拿出? 在ADB中导入

如下：

?填写? 相应信息? ? 测试连接

如下：?

网页上也可看到

2、?MPP数据库的概念以及有哪些？

MPP数据库--大规模并行分析数据库。

MPP架构是将任务并行的分散到多个服务器和节点上，在每个节点上计算完成后，将各自部分的结果汇总在一起得到最终的结果。有点类似于hadoop

并行处理的解释：

在数据库集群中，首先每个节点都有独立的磁盘存储系统和内存系统，其次业务数据根据数据库模型和应用特点划分到各个节点上，MPP是将任务并行的分散到多个服务器和节点上，在每个节点上计算完成后，将各自部分的结果汇总在一起得到最终的结果。

MPP的架构特性：

相对低的硬件成本	完全使用 x86?架构的 PC Server，不需要昂贵的 Unix 服务器和磁盘阵列
海量数据分布压缩存储	可处理 PB?级别以上的结构化数据，采用 hash分布、random 存储策略进行数据存储；同时采用先进的压缩算法，减少存储数据所需的空间，可以将所用空间减少 1~20 倍，并相应地提高 I/O 性能
数据加载高效性	基于策略的数据加载模式，集群整体加载速度可达2TB/h
高扩展、高可靠	支持集群节点的扩容和缩容，支持全量、增量的备份/恢复
高可用、易维护	数据通过副本提供冗余保护，自动故障探测和管理，自动同步元数据和业务数据。提供图形化工具，以简化管理员对数据库的管理工作
高并发	读写不互斥，支持数据的边加载边查询，单个节点并发能力大于 300?用户
行列混合存储	提供行列混合存储方案，从而提高了列存数据库特殊查询场景的查询响应耗时

Hadoop?和 MPP 的一个区别：?

（1）在底层数据库上

MPP跑的是SQL,而Hadoop底层处理是MapReduce程序。

（2）

特征	Hadoop	MPPDB	传统数据库
SQL支持	中	高	高
数据规模	PB级别	准PB级别	TB级别
计算性能	对非关系型操作效率高	对关系型操作效率高	对关系型操作效率中
数据结构	结构、半结构、非结构	结构	结构