| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 大数据 -> 数据仓库产品 -> 正文阅读 |
|
[大数据]数据仓库产品 |
MPP 传统数仓:1 Oracle :节点之间共享磁盘资源 优点:很常见,学习资料广泛,运维方便。 缺点:单个集群支持100左右节点,适合数据量小的场景 2 DB2 :集群版本DPF-IBM商业数据库,与IBM硬件兼容好,一般伴随商业选增中被企业使用; 3 Teradata : 一体机形式销售 自带数据引擎和查询工具,性能优秀,稳定易用,是大型企业商业数仓选型 4 Greenplum : 开源产品 ,性价比高 大数据数仓1 Hive 主流数仓产品:基于hadoop分布式架构?; 原理是将SQL(Hivesql)通过解释器转换为mapreduce 的作业执行模型,提交到Hadoop集群上?,返回作业执行结果给用户。hive 在加载数据过程中不会对数据进行任何的修改,只是将数据移动到HDFS 中hive 设定的目录下,因此,hive 不支持对数据的改写和添加,所有的数据都是在加载的时候确定的。hive 的数据存储在 HDFS 中,大部分的查询由 MapReduce 完成(不包含 * 的查询,比如 select * from tbl 不会生成 MapReduce 任务) 优点: 适用于海量数据批处理场景,使用Hiveql 语法 离线批处理 是其主场 缺点:hive 需要安装集群和运维 2 hive on spark(spark SQL) -- 产生的原因是MR?引擎运行速度比较慢。【流处理】 优点: 无须单独安装集群和运维 ;? 开发更灵活,spark引擎原生支持更好 ; 3 HBase NoSQL数据库--更适合存储半结构化数据 常用场景: 高并发业务查询; 实时流处理的业务存储; 非结构化半结构化数据存储; DDL频繁变动的场景 ; 4 impala :是一个大规模并行处理引擎,数据仓库的补充产品,impala是基于Hadoop设计的SQL查询引擎,impala查询不会转换为map reduce 作业,而是本地执行。Impala的数据格式、元数据、文件安全性和资源管理与MapReduce相同。它拥有和Hadoop一样的可扩展性、它提供了类SQL(类Hsql)语法,在多用户场景下也能拥有较高的响应速度和吞吐量。Impala还能够共享Hive Metastore,甚至可以直接使用Hive的JDBC jar和beeline等直接进行查询,并且支持丰富的数据存储格式(Parquet、Avro等)。此外,Impala 通过使用分布式查询引擎(由 Query Planner、Query Coordinator 和 Query Exec Engine 三部分组成),可以直接从 HDFS 或 HBase 中用 SELECT、JOIN 和统计函数查询数据,从而大大降低了延迟。 Impala的一些流行功能:
Impala在2年内崛起,已成为最重要的SQL引擎之一。现在,甚至Amazon Web Services和MapR都已列出了对Impala的支持。 5 HAWQ 老牌数据库,Greenplum 在hadoop 架构上的新产品 6 TIDB 基于MPP+SMP 结构,底层NoSQL存储, 兼容MySQL 同时做OLAP 和 OLTP,侧重OLTP 在选型上不占优势。 7 presto 是facebook开发的开源的分布式sql查询引擎,它被设计为用来专门进行高速、实时的数据分析。包括复杂查询、聚合(aggregation)、连接(join)和窗口函数(window functions)。Presto 本身并不存储数据,但是可以接入多种数据源,并且支持跨数据源的级联查询。 Presto是一个OLAP的工具,擅长对海量数据进行复杂的分析;但是对于OLTP场景,并不是Presto所擅长,所以不要把Presto当做数据库来使用。 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/23 13:49:35- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |