IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> 数据仓库产品 -> 正文阅读

[大数据]数据仓库产品

MPP 传统数仓:

1 Oracle :节点之间共享磁盘资源

优点:很常见,学习资料广泛,运维方便。

缺点:单个集群支持100左右节点,适合数据量小的场景

2 DB2 :集群版本DPF-IBM商业数据库,与IBM硬件兼容好,一般伴随商业选增中被企业使用;

3 Teradata :

一体机形式销售

自带数据引擎和查询工具,性能优秀,稳定易用,是大型企业商业数仓选型

4 Greenplum :

开源产品 ,性价比高

大数据数仓

1 Hive 主流数仓产品:基于hadoop分布式架构?;

原理是将SQL(Hivesql)通过解释器转换为mapreduce 的作业执行模型,提交到Hadoop集群上?,返回作业执行结果给用户。hive 在加载数据过程中不会对数据进行任何的修改,只是将数据移动到HDFS 中hive 设定的目录下,因此,hive 不支持对数据的改写和添加,所有的数据都是在加载的时候确定的。hive 的数据存储在 HDFS 中,大部分的查询由 MapReduce 完成(不包含 * 的查询,比如 select * from tbl 不会生成 MapReduce 任务)

优点: 适用于海量数据批处理场景,使用Hiveql 语法

离线批处理 是其主场

缺点:hive 需要安装集群和运维

2 hive on spark(spark SQL) -- 产生的原因是MR?引擎运行速度比较慢。【流处理】

优点:

无须单独安装集群和运维 ;?

开发更灵活,spark引擎原生支持更好 ;

3 HBase NoSQL数据库--更适合存储半结构化数据

常用场景:

高并发业务查询;

实时流处理的业务存储;

非结构化半结构化数据存储;

DDL频繁变动的场景 ;

4 impala :是一个大规模并行处理引擎,数据仓库的补充产品,impala是基于Hadoop设计的SQL查询引擎,impala查询不会转换为map reduce 作业,而是本地执行。Impala的数据格式、元数据、文件安全性和资源管理与MapReduce相同。它拥有和Hadoop一样的可扩展性、它提供了类SQL(类Hsql)语法,在多用户场景下也能拥有较高的响应速度和吞吐量。Impala还能够共享Hive Metastore,甚至可以直接使用Hive的JDBC jar和beeline等直接进行查询,并且支持丰富的数据存储格式(Parquet、Avro等)。此外,Impala 通过使用分布式查询引擎(由 Query Planner、Query Coordinator 和 Query Exec Engine 三部分组成),可以直接从 HDFS 或 HBase 中用 SELECT、JOIN 和统计函数查询数据,从而大大降低了延迟。

Impala的一些流行功能:

  • 支持Apache HBase存储和HDFS或Hadoop分布式文件系统
  • 支持Kerberos身份验证或Hadoop安全性
  • 它可以轻松读取Apache Hive的元数据,SQL语法和ODBC驱动程序
  • 它可以识别Hadoop文件格式,RCFile,Parquet,LZO和SequenceFile
  • Apache Sentry基于角色的授权。

Impala在2年内崛起,已成为最重要的SQL引擎之一。现在,甚至Amazon Web Services和MapR都已列出了对Impala的支持。

5 HAWQ 老牌数据库,Greenplum 在hadoop 架构上的新产品

6 TIDB 基于MPP+SMP 结构,底层NoSQL存储, 兼容MySQL

同时做OLAP 和 OLTP,侧重OLTP

在选型上不占优势。

7 presto 是facebook开发的开源的分布式sql查询引擎,它被设计为用来专门进行高速、实时的数据分析。包括复杂查询、聚合(aggregation)、连接(join)和窗口函数(window functions)。Presto 本身并不存储数据,但是可以接入多种数据源,并且支持跨数据源的级联查询。

Presto是一个OLAP的工具,擅长对海量数据进行复杂的分析;但是对于OLTP场景,并不是Presto所擅长,所以不要把Presto当做数据库来使用。

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2022-07-20 18:56:33  更:2022-07-20 18:59:59 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/23 13:49:35-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码