大数据平台实时数仓从0到1搭建之 - 10 阶段回顾
概述
截止Flink安装完成,其实一个简单的架构已经可以用了,这里整理下现在集群上安装的各种服务
jpsall 目前所有进程
jpsall,展示出目前三台节点上所有的java进程
[root@server110 opt]
----------------jps server110 --------------------
31744 QuorumPeerMain
32420 Jps
32182 Kafka
17387 NameNode
17916 NodeManager
17549 DataNode
----------------jps server111 --------------------
17265 DataNode
1201 Jps
17540 NodeManager
532 QuorumPeerMain
17383 ResourceManager
18029 JobHistoryServer
975 Kafka
----------------jps server112 --------------------
26338 QuorumPeerMain
26995 Jps
17207 DataNode
17289 SecondaryNameNode
26765 Kafka
17407 NodeManager
整体架构
| server110 | server111 | server112 |
---|
Flink | JobManager TaskManager | TaskManager | TaskManager | kafka | broker.id.0 | broker.id.1 | broker.id.2 | zookeeper | zk.1 | zk.2 | zk.3 | hive | client | client | client | mariadb | | mysql | | HistoryServer | | JobHistoryServer | | YARN | NodeManager | ResourceManager NodeManager | NodeManager | HDFS | NameNode DataNode | DataNode | SecondaryNameNode DataNode |
hdfs,做最底层的数据存储 yarn,做资源调度 JobHistoryServer记录job日志 mariadb为hive的资源库 hive作为离线数据存储的主要入口 zk支持kafka kafka用来暂存实时数据 Flink 做实时计算
按下图的流程看来,还缺少数据采集部分和数据服务层部分 数据采集层:要求多数据源,实时监听数据变化,有待完善 数据服务层:要求快速响应,可操作数据,这部分使用Mysql和Hbase比较合适
数据采集这部分,还希望路过的大佬可以给个思路。
|