[大数据] kylin知识总结

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 大数据 -> kylin知识总结 -> 正文阅读

[大数据]kylin知识总结

作用：（创建cude）多维度分析压秒级别

数据源使用 hive 的星型模型通过手动指定需要分析的维度把分析结果储存到hbase中

web 使用流程：

1、创建project（点击加号）
在这里插入图片描述
书写 project 的名字和描述信息点击提交生产项目；
2、指定hive中的数据源

通过选择第二个来选择库和表；（第一个默认是使用 default库表使用，分割；第三个为对接kafka的时候使用的）
最后点击syc（同步）；此时hive中的表的元数据就会同步到kylin中；
在kylin cudeid为分析的维度的组合
总共的cudeid = 2^n -1 （n是选择字段的总数）
3、定义模型
点击model - new model(只支持星型模型)定义模型：即那个是你的事实表（fact table）（），那个是你的维度表（look up table）
定义模型的使用可以fiter 数据并选择增量的partition

4 、创建cude （通过跑MR来创建的）
点击model 中的 new 选择 new cude

cube的构建算法：

逐层构建：
从维度多的层开始 -》维度少的层逐层构建cube
每层都会生成一个MR
快速构建：1.5以后开始使用
所有的维度都在一个MR中构建出来；

构建cube的优化

衍生维度
使用外键维度来代替所有的衍生维度；
使用衍生维度会需要在查询衍生维度的指标的时候跑聚合，因此会变慢，所以需要考虑使用的衍生维度和聚合任务的均衡问题
配置：advance setting
强制维度
去除不包括强制维度的cube
配置： advance setting
rowkey的优化
把将来可能用做条件过滤的值放在前面来组件rowkey
基数大的放最基数小的前面（由于在做集合的时候使用的结果都是选用cubeid id 差的小的进行聚合）
配置：高级设置中直接拖动
并发粒度的优化
hbase 的region的数量的优化（通过调参的方式）
kylin.hbase.region.cut 默认 5 GB
kylin.hbase.region.count.min 最小分区数 1
kylin.hbase.region.count.max 最大分区数 500
页面中的配置 configration overwrite kv形式配置

增量构建cube（measures 中指定partition）Model (edit)

列表 --》 选列 -》 格式
（应对时间和日期不在同一个字段中选yes）

自动合并cube
Resfrsh setting 设置合并：
小合并
大合并
以及开始合并的时间
流式cube的构建
带补充

BI工具的集成

resfule API的集成
需要修改 sql 和 project
jdbc 连接 kylin
请添加图片描述

大数据最新文章

实现Kafka至少消费一次

亚马逊云科技：还在苦于ETL？Zero ETL的时代

初探MapReduce

【SpringBoot框架篇】32.基于注解+redis实现

Elasticsearch：如何减少 Elasticsearch 集

Go redis操作

Redis面试题

专题五 Redis高并发场景

基于GBase8s和Calcite的多数据源查询

Redis——底层数据结构原理

加:2021-07-25 11:45:16 更:2021-07-25 11:47:43

360图书馆购物三丰科技阅读网日历万年历 2026年4日历

-2026/4/7 2:58:26-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码