| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 大数据 -> ClickHouse技术总结 -> 正文阅读 |
|
[大数据]ClickHouse技术总结 |
【术语解释】 【产品概要】 ClickHouse是由俄罗斯搜索引擎公司Yandex开发的一款开源的OLAP分布式数据仓库产品,源码由C++编写,完全的列存储数据库。相比于开源社区的其他几项分析型技术,如Druid、Presto、Impala、Kylin、ElasticSearch等,ClickHouse更是一整套完善的解决方案,它自包含了存储和计算能力(无需额外依赖其他存储组件),完全自主实现了高可用,而且支持完整的SQL语法包括JOIN等,技术上有着明显优势。相比于hadoop体系,以数据库的方式来做大数据处理更加简单易用,学习成本低且灵活度高。 目前国内大厂应用案例: 1、今日头条 内部用ClickHouse来做用户行为分析,内部一共几千个ClickHouse节点,单集群最大1200节点,总数据量几十PB,日增原始数据300TB左右。 【技术架构】 分布式架构
常用建表引擎 【技术特点】 1、支持数据有序存储,ClickHouse支持在建表时,指定将数据按照某些列进行sort by。在进行等值、范围查询时,where条件命中的数据都紧密存储在一个或若干个连续的Block中,而不是分散的存储在任意多个Block, 大幅减少需要IO的block数量。顺序写的特性,充分利用了磁盘的吞吐能力,即便在HDD上也有着优异的写入性能。官方公开benchmark测试显示能够达到50MB-200MB/s的写入吞吐能力,按照每行100Byte估算,大约相当于50W-200W条/s的写入速度。 5、ClickHouse更加适合低成本、大数据量的分析场景,它能够充分利用磁盘的带宽能力。数据导入和存储成本上,ClickHouse更加具有绝对的优势。 6、有限支持delete、update。删除、更新操作为异步操作,需要后台compation之后才能生效。 7、多核并行,ClickHouse将数据划分为多个partition,每个partition再进一步划分为多个index granularity,然后通过多个CPU核心分别处理其中的一部分来实现并行数据处理。在这种设计下,单条Query就能利用整机所有CPU。极致的并行处理能力,极大的降低了查询延时。 9、ClickHouse实现了向量执行引擎(Vectorized execution engine),对内存中的列式数据,一个batch调用一次SIMD指令(而非每一行调用一次),不仅减少了函数调用次数、降低了cache miss,而且可以充分发挥SIMD指令的并行能力,大幅缩短了计算耗时。向量执行引擎,通常能够带来数倍的性能提升。 11、ClickHouse实现了Expression级别的runtime codegen,动态地根据当前SQL直接生成代码,然后编译执行。 【优缺点分析】 优点: 1、提供了极致的查询性能:开源公开benchmark显示比传统方法快1001000倍,提供50MB~200MB/s的高吞吐实时导入能力) 缺点: 1、不支持事务,不支持真正的删除/更新。 2、聚合结果必须小于一台机器的内存大小。 3、不支持高并发,官方建议qps为100,可以通过修改配置文件增加连接数,但是在服务器足够好的情况下。 4、SQL满足日常使用80%以上的语法,join写法比较特殊;最新版已支持类似SQL的join,但性能不好。 【ClickHouse VS Kylin】 1、技术架构区别: 【参考文献】 官方网站 ClickHouse中国社区 阿里云数据库ClickHouse产品 https://www.aliyun.com/product/clickhouse ClickHouse深度揭秘 https://zhuanlan.zhihu.com/p/98135840 数据仓库一些整理(列式数据库) https://www.cnblogs.com/wangtao_20/p/8294974.html 数据分析引擎黑马 ClickHouse 最新技术的实践与应用 https://zhuanlan.zhihu.com/p/374828506 为什么ClickHouse这么快 https://www.sohu.com/a/427426937_463994 OLAP新秀ClickHouse性能测试 https://zhuanlan.zhihu.com/p/126323914 独家深度 | 一文看懂 ClickHouse vs Elasticsearch:谁更胜一筹? https://mp.weixin.qq.com/s/80qnWq2HOBNPd__WI5k0eg 大数据东风下,Clickhouse这坨屎是怎么上天的 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年3日历 | -2025/3/4 2:51:30- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |