IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> 开源数据计算引擎,实现媲美ElasticSearch的高性能并发查询 -> 正文阅读

[大数据]开源数据计算引擎,实现媲美ElasticSearch的高性能并发查询

高并发帐户查询的应用场景有很多,例如:手机银行查流水、电商系统查购物订单、手游帐户查充值记录等等。这些场景一般会涉及众多帐户,数据总量非常大,需要外存。每个帐户的数据量通常不大(几条到几千条),而且就是简单查询,几乎没有什么运算。不过,众多的帐户自然也会有大量、高频率的查询,并发访问量会很大,要达到秒级甚至更高的响应速度也是一个不小的挑战。

在SQL数据库或数据仓库中,用索引查找单个帐户数据的速度很快,几乎感觉不到耗时,但并发很多时就会有明显延迟了。这是因为,基于无序集合理解的关系数据库不能保证数据在存储时的次序,也就无法保证同一帐户数据在物理上连续存放,查找一个帐户数据时,可能要到硬盘的很多位置读取才能全部取出。而硬盘有最小读取单位,在读取不连续数据时,会取出很多无关内容,查询就会变慢。虽然每个帐户数据量很少,单个帐户查询的时候只是慢一点,但是高并发访问的每个查询都慢一点,总体性能就会很差了。

因为关系数据库的表现不如人意,所以搜索引擎Elastic Search经常会被用来应对这种场景,即把数据导出到ES里,利用搜索技术实现高性能并发查询。使用ES后,通常确实可以达到期望的性能要求,但遗憾的是ES对JOIN支持非常差,如果查询过程中还涉及关联计算,就会造成巨大的麻烦。比如帐户交易明细表,要和用户表、商品表、网点表等等关联,使用ES时通常只能将这些数据全都整合到交易表中形成大宽表。准备这个大宽表的过程费时费力,还会丧失很多灵活性;而且ES的数据导入非常慢,会进一步加剧这个问题。使用大宽表后无法在关联数据发生变动时简单追加写入,只能重新准备新的宽表再重新导入,耗时很长,这期间只能暂停查询服务。用ES解决高并发帐户查询只能说是一个权宜之计。

其实这个问题也不是很难,解决的关键在于要把数据按照帐户排序,保证同一帐户的数据在物理上是连续存储的。这样,查询时从硬盘上读出的数据块几乎都是目标值,性能就会得到大幅提升。只是,关系数据库不保证数据存储的物理次序,就难以应用这个方法。

开源数据计算引擎 S P L 支持有序存储,可以保证数据按照帐户物理有序存放。高并发查找时,S P L 的索引可以迅速、精确定位到指定帐号的外存存储位置;有序存储技术则保证同一帐号的数据在物理上连续存储在一片区域中,不需要跳动读取。两者配合,可以让高并发帐户查询达到极致性能。

另外,高并发场景要选择行式存储,而不是很多数据仓库鼓吹的列存方案。这是因为,行存时一条记录的各个字段数据在物理上是连续存放的,才能保证同一帐户的所有数据存在一处。而列存时,则是各列数据连续存放,一个帐户的字段分散在不同的列中,还是会造成硬盘读取不连续数据的情况。特别是有并发任务时,列存造成的硬盘不连续访问程度要比行存严重的多。

实际上,行存更适合查找,列存则更适合遍历。S P L 两者都支持,程序员可以根据计算的需要来自由选择。有些数据仓库做成了透明机制,不允许用户自由选择行存和列存,就很难达到最佳效果了。

S P L 有序行存加索引的代码也很简单,比如,从数据库导出数据,生成有序行存的帐户交易表和索引的代码大致是这样:

A

B

1

=connect("db").cursor@d("select * from detail order by id")

2

=file("detail.ctx").create@r(#id,ddate,amt,…)

=A3.append@i(A2)

3

=A3.index(index_id;id)

>A3.close()

A1连数据库准备取数。A2创建交易明细表,@r代表行存。B2向明细表追加数据,A3给明细表创建索引。

然后,就可以使用生成的明细表和索引进行高速查询::

A

4

=file("detail.ctx").open().index@3(index_id)

5

=A4.icursor (id,ddate,amt;id==1101004 && …,index_id).fetch()

A4加载明细表的索引,A5利用有序行存表和索引完成查询。

在此基础上,S P L实现JOIN运算也很轻松,多外键关联、多层关联都很容易做到。比如,查询交易明细表时,要关联网点表store,在查询结果中要包含网点名称。代码是下面这样:

A

4

=file("detail.ctx").open().index@3(index_id)

5

=A4.icursor (id,ddate,amt,sid;id==1101004 && …,index_id).fetch()

6

=file("store.btx").import@b(id,name,...).keys(id)

7

=A5.switch(sid,A6)

8

=A7.new(id,sid.name:sname,amt,ddate)

A6、A7、A8加载网点表,完成内存关联,生成查询结果(包含网点名称)。

由于每个帐户的数据量都不大,所以A7和A8是内存计算,几乎不占用什么时间。

S P L 还支持新增数据的快速追加,详情请参考SQL 提速:高并发帐户查询

经过实际测试,在总数据量2亿条,500用户并发查询的场景中,S P L 有序行存索引的查询性能可以超过ES。测试结果如下:

可以看到,S P L 性能与ES相当甚至稍快。而 S P L 对JOIN的支持要好得多,也不存在加载复杂的问题,相比之下,比ES更适合高并发帐户查询场景。

还要注意的是,高并发帐户查询属于查找计算,但有时候系统还要兼顾遍历计算的性能,比如说2月份的帐户交易数据,要按产品分组统计交易总金额、总笔数等。S P L 提供了带值索引机制,可以同时支持高性能遍历和查找计算。有兴趣的读者可以参考SQL 提速:高并发帐户查询

源码地址

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2022-07-20 18:56:33  更:2022-07-20 18:58:09 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/15 23:28:00-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码