Hbase 整合Phoenix
Phoenix简介
Phoenix是HBase的开源SQL皮肤。可以使用标准JDBC API代替HBase客户端API来创建表,插入数据和查询HBase数据。
Phoenix特点
1)容易集成:如Spark, Hive, Pig, Flume和Map Reduce; 2)操作简单:DML命令以及通过DDL命令创建和操作表和版本化增量更改; 3)支持HBase二级索引创建。
Phoenix架构
Phoenix快速入门
Phoenix安装
1)官网地址:https://phoenix.apache.org/ 2)上传解压:tar -zxvf /opt/software/apache-phoenix-5.0.0-HBase-2.0-bin.tar.gz -C /opt/module/ 3)改名:mv /opt/module/apache-phoenix-5.0.0-HBase-2.0-bin/ /opt/module/phoenix 4)添加环境变量:sudo vim /etc/profile.d/my_env.sh
#PHOENIX_HOME
export PHOENIX_HOME=/opt/module/phoenix
export PATH= $PATH:$PHOENIX_HOME/bin
source /etc/profile 5)复制server包并拷贝到各个节点的hbase/lib cp /opt/module/phoenix/phoenix-5.0.0-HBase-2.0-server.jar /opt/module/hbase/lib/ xsync /opt/module/hbase/lib/phoenix-5.0.0-HBase-2.0-server.jar 6)重启Hbase,连接phoenix sqlline.py hadoop102,hadoop103,hadoop104:2181
Phoenix shell操作基础sql
1)显示所有表 !table 或 !tables 2)创建表 直接指定单个列作为RowKey
CREATE TABLE IF NOT EXISTS student(id VARCHAR primary key,ename VARCHAR);
在phoenix中,表名等会自动转换为大写,若要小写,使用双引号,如"us_ population"。 指定多个列的联合作为RowKeye
CREATE TABLE IF NOT EXISTS us_ population (
State CHAR(2) NOT NULL,
City VARCHAR NOT NULL,
Population BIGINT
CONSTRAINT my_pk PRIMARY KEY (state, city));
3)插入数据
upsert into student values('1001','zhangsan');
4)查询记录
select * from student;
select * from student where id ='1001';
5)删除记录
delete from student where id='1001';
6)删除表
drop table student;
7)退出 !quit
Phoenix 表映射
(1)表的关系 默认情况下,直接在HBase中创建的表,通过Phoenix是查看不到的。如果要在Phoenix中操作直接在HBase中创建的表,则需要在Phoenix中进行表的映射。映射方式有两种:视图映射和表映射。 (2)命令行中创建表test HBase中test的表结构如下,两个列族info1、 info2
Rowkey | info1 | info2 |
---|
id | name | address |
Hbase创建test表: create ‘TEST’,‘INFO1’,‘INFO2’ put ‘TEST’,‘1001’,‘INFO1:NAME’,‘zhangsan’ put ‘TEST’,‘1001’,‘INFO2:ADDRESS’,‘beijing’ (3)视图映射 Phoenix创建的视图是只读的,所以只能用来做查询,无法通过视图对源数据进行修改等操作。
在phoenix中创建关联test表的视图
create view test(id varchar primary key,info1.name varchar, info2.address varchar);
删除视图
drop view test;
(4)表映射 使用Apache Phoenix创建对HBase的表映射,有两种方法: a.HBase中不存在表时,可以直接使用create table指令创建需要的表,系统将会自动在Phoenix和HBase中创建person_ infomation的表,并会根据指令内的参数对表结构进行初始化。 b.当HBase中已经存在表时,可以以类似创建视图的方式创建关联表,只需要将create table 改为create view即可。
Phoenix JDBC操作
1)启动queryServer服务 queryserver.py 2)创建项目并导入依赖
<dependency>
<groupId>org.apache.phoenix</groupId>
<artifactId>phoenix-queryserver-client</artifactId>
<version>5.0.0-HBase-2.0</version>
</dependency>
3)代码
public class HBasePhoenixJdbc {
public static void main(String[] args) throws SQLException {
String connectionUrl = ThinClientUtil.getConnectionUrl("hadoop102", 8765);
Connection connection = DriverManager.getConnection(connectionUrl);
String sql = "select id,name,address from test";
PreparedStatement preparedStatement = connection.prepareStatement(sql);
ResultSet resultSet = preparedStatement.executeQuery();
while (resultSet.next()) {
System.out.println(
"id:" + resultSet.getString(1)
+ ",name:" + resultSet.getString(2)
+ ",address:" + resultSet.getString(3));
}
resultSet.close();
preparedStatement.close();
connection.close();
}
}
Phoenix 二级索引
HBase协处理器(扩展)
案例需求 编写协处理器,实现在往A表插入数据的同时让HBase自身(协处理器)向B表中插入一条数据。 实现步骤 1)创建一个maven项目,并引入以下依赖。
<dependency>
<groupId>org.apache.hbase</groupId>
<artifactId>hbase-server</artifactId>
<version>2.0.5</version>
</dependency>
<dependency>
<groupId>org.apache.hbase</groupId>
<artifactId>hbase-client</artifactId>
<version>2.0.5</version>
</dependency>
2)定义TableCoprocessor类并实现RegionObserver, RegionCoprocessor接口
public class TableCoprocessor implements RegionObserver, RegionCoprocessor {
@Override
public Optional<RegionObserver> getRegionObserver() {
return Optional.of(this);
}
@Override
public void postPut(ObserverContext<RegionCoprocessorEnvironment> c, Put put, WALEdit edit, Durability durability) throws IOException {
Configuration configuration = HBaseConfiguration.create();
configuration.set("hbase.zookeeper.quorum", "hadoop102,hadoop103,hadoop104");
Connection connection = ConnectionFactory.createConnection(configuration);
Table table = connection.getTable(TableName.valueOf("stu"));
table.put(put);
table.close();
connection.close();
}
}
3)创建Hbase建表API并注册协处理器
public class HbaseAPI{
private static Connection connection;
private static Admin admin;
static {
Configuration configuration = HBaseConfiguration.create();
configuration.set("hbase.zookeeper.quorum","hadoop102,hadoop103,hadoop104");
try {
connection = ConnectionFactory.createConnection(configuration);
admin = connection.getAdmin();
} catch (IOException e) {
e.printStackTrace();
}
}
public static void close(){
try {
admin.close();
connection.close();
} catch (IOException e) {
e.printStackTrace();
}
}
public static void createTable(String tableName,String... args){
if (args.length <=0){
System.out.println("请输入列族信息!");
return;
}
if (isTableExist(tableName)){
System.out.println(tableName+"表已存在");
return;
}
TableDescriptorBuilder builder = TableDescriptorBuilder.newBuilder(TableName.valueOf(tableName));
for (String arg : args) {
ColumnFamilyDescriptor familyDescriptor = ColumnFamilyDescriptorBuilder.newBuilder(Bytes.toBytes(arg)).build();
builder.setColumnFamily(familyDescriptor);
}
try {
builder.setCoprocessor("com.xiaoqiu.TableCoprocessor");
} catch (IOException e) {
e.printStackTrace();
}
TableDescriptor tableDescriptor = builder.build();
try {
admin.createTable(tableDescriptor);
} catch (IOException e) {
e.printStackTrace();
}
}
public static void main(String[] args) throws IOException {
createTable("stu1","info");
close();
}
}
4)Hbase中创建stu表:create ‘stu’,‘info’ 5)打包工程上传到hbase的lib目录下 6)重启hbse 7)运行Hbase建表API,创建stu1表(为了方便测试,两个表结构一致) 8)hbase中向stu1插入数据:put ‘stu1’,‘1001’,‘info:name’,‘zhangsan’ 9)查看stu表和stu1表
二级索引配置文件
1)添加如下配置到HBase的HRegionserver节点的hbase-site.xml vim /opt/module/hbase/conf/hbase-site.xml
<property>
<name>hbase.regionserver.wal.codec</name>
<value>org.apache.hadoop.hbase.regionserver.wal.IndexedWALEditCodec</value>
</property>
<property>
<name>hbase.region.server.rpc.scheduler.factory.class</name>
<value>org.apache.hadoop.hbase.ipc.PhoenixRpcSchedulerFactory</value>
<description>Factory to create the Phoenix RPC Scheduler that uses separate queues for index and metadata updates</description>
</property>
<property>
<name>hbase.rpc.controllerfactory.class</name>
<value>org.apache.hadoop.hbase.ipc.controller.ServerRpcControllerFactory</value>
<description>Factory to create the Phoenix RPC Scheduler that uses separate queues for index and metadata updates</description>
</property>
2)分发xsync /opt/module/hbase/conf/hbase-site.xml 3)重启hbase
全局二级索引
Global Index是默认的索引格式,创建全局索引时,会在HBase中建立一张新表。 也就是说索引数据和数据表是存放在不同的表中的 ,因此全局索引适用于多读少写 的业务场景。
写数据的时候会消耗大量开销,因为索引表也要更新,而索引表是分布在不同的数据节点上的,跨节点的数据传输带来了较大的性能消耗。
在读数据的时候Phoenix会选择索引表来降低查询消耗的时间。
1)创建单个字段的全局索引 CREATE INDEX 索引名 ON 表 (字段); 例: 创建表 create table staff (id varchar primary key,name varchar,age varchar,sex varchar, addr varchar) ; 创建索引 create index staff_name_index on staff(name); 如果想查询的字段不是索引字段的话索引表不会被使用,也就是说不会带来查询速度的提升。 2)创建携带其他字段的全局索引 CREATE INDEX 索引名 ON 表 (字段) INCLUDE (字段1,字段2,.....); 例: create index staff_ageIncludeSex_index on staff(age) INCLUDE (sex);
本地二级索引
Local Index适用于写操作频繁的场景。 索引数据和数据表的数据是存放在同一张表中(且是同一个Region),避免了在写操作的时候往不同服务器的索引表中写索引带来的额外开销。查询的字段不是索引字段索引表也会被使用,这会带来查询速度的提升。 CREATE LOCAL INDEX 索引名 ON 表 (字段); 例: create local index local_addr_index on staff(addr);
|