Hive安装部署
1、主机分配
Node | 内存大小(G) | ip | Applications | 系统 | JDK |
---|
hadoop01 | 4 | 192.168.159.128 | NameNode、DataNode、ResourceManager、NodeManager、Zookeeper、MySQL | CentOS7 | jdk1.8.0_144 | hadoop02 | 4 | 192.168.159.129 | SecondaryNameNode、DataNode、NodeManager、Zookeeper、Hive | CentOS7 | jdk1.8.0_144 | hadoop03 | 4 | 192.168.159.130 | DataNode、NodeManager、Zookeeper | CentOS7 | jdk1.8.0_144 |
注:本文只涉及Hive安装,Hive依赖Hadoop,不依赖Zookeeper,其他安装详见Hadoop集群的安装、Zookeeper集群安装、Linux安装mysql5.7
2、文件下载
下载连接:http://archive.apache.org/dist/hive/hive-2.1.1/apache-hive-2.1.1-bin.tar.gz,在Hadoop集群的安装中已经提过,下载后,存放于hadoop01服务器/root/softwares目录
3、Hive安装
3.1、解压、安装、重命名
[root@hadoop01 ~]# cd /root/softwares
[root@hadoop01 softwares]# scp apache-hive-2.1.1-bin.tar.gz root@hadoop02:/root
[root@hadoop02 ~]# tar -zxvf apache-hive-2.1.1-bin.tar.gz -C /usr/local/ #执行完后apache-hive-2.1.1-bin.tar.gz可删除
[root@hadoop02 ~]# cd /usr/local/
[root@hadoop02 local]# mv apache-hive-2.1.1-bin hive
3.2、修改配置文件
以下命令与操作,若无特殊说明,均指在hadoop02中执行
3.2.1、配置profile
vim /etc/profile,在profile文件下追加
# Hive
export HIVE_HOME=/usr/local/hive
export PATH=$PATH:$HIVE_HOME/bin
3.2.2、配置hive-env.sh
cd /usr/local/hive/conf/ cp hive-env.sh.template hive-env.sh #拷贝一份hive-env.sh文件
hive-env.sh文件末追如下内容(若有则做修改)
export HIVE_CONF_DIR=/usr/local/hive/conf #hive配置文件路径
export JAVA_HOME=/usr/local/java/jdk1.8.0_144 #jdk路径
export HADOOP_HOME=/usr/local/hadoop #hadoop路径
export HIVE_AUX_JARS_PATH=/usr/local/hive/lib #hive lib路径
3.2.3、配置hive-site.xml
cd /usr/local/hive/conf/
cp hive-default.xml.template hive-site.xml #拷贝一份hive-site.xml文件
vim hive-site.xml
替换前 | 替换后 | 替换命令(命令模式下执行) | 范围 |
---|
${system:java.io.tmpdir} | /usr/local/hive/iotmp | :%s#${system:java.io.tmpdir}#/usr/local/hive/iotmp#g | 全文件 | ${system:user.name} | root | :%s#${system:user.name}#/root#g | 全文件 |
注:配置完后,确认配置是否有误
补充:该文件有两处配置项
序号 | name | value | 说明 |
---|
1 | hive.metastore.warehouse.dir | /user/hive/warehouse | 该路径为hdfs路径,指定hive存储数据目录 | 2 | hive.exec.scratchdir | /tmp/hive | 该路径为hdfs路径,hive临时文件目录 |
3.2.4、配置mysql连接
1、vim hive-site.xml,以下属性做对应修改
<!-- mysql连接url,设置字符集为latin1,hive为存放hive元数据的库名,会自动创建 -->
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://hadoop01:3306/hive?createDatabaseIfNotExist=true&characterEncoding=latin1&verifyServerCertificate=false&useSSL=false</value>
</property>
<!-- mysql用户名-->
<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>root</value>
</property>
<!-- mysql用户名对应的密码-->
<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>123456</value>
</property>
<!-- mysql驱动,高版本的mysql可用高版本驱动 -->
<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
</property>
2、确定hive的lib下是否有mysql驱动
ls $HIVE_HOME/lib | grep mysql
若没有,可去maven仓库中下载mysql驱动,存放于hadoop01的/root/softwares目录下
hadoop01执行:
scp mysql-connector-java-5.1.47.jar root@hadoop02:/usr/local/hive/lib #确定上一步配置的驱动,在该包中存在
执行完后可再检查以下
3、初始化hive元数据
schematool --initSchema -dbType mysql
执行完后,mysql会多一个hive库,里面会有一些存放hive元数据的表
3.2.5、core-site.xml
追加以下内容
<property>
<name>hadoop.proxyuser.root.hosts</name>
<value>*</value>
</property>
<property>
<name>hadoop.proxyuser.root.groups</name>
<value>*</value>
</property>
配置完core-site.xml文件,分发至hadoop01、hadoop03:
#分发core-site.xml文件至hadoop01
scp /usr/local/hadoop/etc/hadoop/core-site.xml root@hadoop01/usr/local/hadoop/etc/hadoop/core-site.xml
#分发core-site.xml文件至hadoop02
scp /usr/local/hadoop/etc/hadoop/core-site.xml root@hadoop03/usr/local/hadoop/etc/hadoop/core-site.xml
4、Hive启动
执行完第3步Hive安装后,重启hadoop集群,stop-all.sh,start-all.sh
Hive有两种服务:
1、hiveserver2
2、metastore
4.1、hiveserver2
1、该服务端口号默认是10000
2、可以单独启动该服务,供远程客户端连接,此服务内置metastore服务
3、可通过以下命令启动:
nohup hive --service hiveserver2 >/dev/null 2>&1 &
启动后,可通过http://hadoop02:10002/访问hiveserver2服务,其中hadoop02为hiveserver2服务主机ip
4.2、metastore
1、此服务才是真正连接元数据库的服务进程
2、也可以让远程客户端连接
3、可通过以下命令启动:
nohup hive --service metastore >/dev/null 2>&1 &
5、Hive连接
hive连接前,启动hiveserver2服务
5.1、linux客户端连接
在需要连接hive服务端的客户端上安装hive,如hadoop02作为hive服务端,想在hadoop01上连接hadoop02的hive,则要在hadoop01上安装hive。
执行3.1、3.2.1、3.2.2。
3.2.3中的配置文件hive-site.xml则如下
<configuration>
<property>
<name>hive.metastore.uris</name>
<value>thrift://hadoop02:9083</value>
</property>
</configuration>
补充:
1、thrift为协议名称
2、hadoop02为hive metastore服务所在主机ip地址
3、9083为默认端口
5.2、jdbc连接hive
maven依赖如下
<!-- hadoop的依赖 -->
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version>2.7.6</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-common</artifactId>
<version>2.7.6</version>
<classifier>tests</classifier>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-core</artifactId>
<version>1.2.1</version>
</dependency>
<dependency>
<groupId>org.apache.hive</groupId>
<artifactId>hive-jdbc</artifactId>
<version>2.1.1</version>
</dependency>
测试类
import lombok.extern.slf4j.Slf4j;
import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.Statement;
@Slf4j
public class HiveJDBCTest {
/**
* hive启动,可能因引入的hive-jdbc版本不同而有所差异
*/
private static String driverName = "org.apache.hive.jdbc.HiveDriver";
public static void main(String[] args) throws Exception {
Class.forName(driverName);
/**
* 1、hadoop02为hiveserver2服务所在主机ip地址,
* 2、10000为hiveserver2服务默认端口
* 3、default为hive数据库名,初始化后,默认创建
* 4、root为core-site.xml文件hadoop.proxyuser.root.hosts和hadoop.proxyuser.root.groups配置项中的root
*/
Connection con = DriverManager.getConnection("jdbc:hive2://hadoop02:10000/default", "root", "");
Statement stmt = con.createStatement();
String tableName = "hiveTest";
stmt.execute("drop table if exists " + tableName);
log.info("create table success");
}
}
执行完上述测试类后
http://hadoop02:10002/hiveserver2.jsp 可查看到执行过的查询
http://hadoop02:10002/logs/ 可查看hive日志
5.3、hive后台
在hadoop02中执行hive,可进入hive后台
show databases; #查看数据库
use default; #进入数据库
show tables; # 查看数据库下的表,hive元数据存在mysql中,故也可以通过mysql的hive数据库表TBLS查看hive下的表名
show create table jdbctest; #查看见表语句
说明:HQL命令是类SQL,语法与mysql极其相似
|