HDFS
- NameNode
负责保存HDFS的元数据信息,比如命名空间信息,块信息 Secondary NameNode 是 NameNode的一个助手节点,是一个检查点,负责合并NameNode的edit logs到fsimage文件中 - JournalNode
负责 HA 中 active namenode 与standby namenode 数据的实时同步 (QJM 3节点JN,zookeeper故障转移) - DataNode
负责namenode的调度存储和检索数据,并且定期向namenode发送他们所存储的块(block)的列表 - HttpFS
http协议访问hdfs文件系统 - ZKFailoverController
基于zookeeper 负责对NameNode进行监控,健康监测和主备切换 故障转移 - HDFSClient
YARN
- ResourceManager
是集群的资源管理器,基于应用程序对资源的需求进行调度。资源管理器提供一个调度策略的插件,它负责将集群资源分配给多个队列和应用程序。调度插件可以基于现有的能力调度和公平调度模型 - NodeManager
YARN 集群中的每个具体节点的管理者,负责本身节点程序的运行,以及该节点资源的管理和监控 - HistoryServer
Hadoop 1.x遗留下的产物,是专门用于展示MR作业的 - TimelineServer
检索YARN中当前运行的、以及历史运行的作业 - Container
当用户提交个任务时,YARN 会启动一个轻量级的进程 ApplicationMaster 来协调 ResourceManager 的资源 并基于(如内存、CPU、磁盘、网络)封装成个 Container, - YARNClient
Hive
- HiveServer2
允许远程客户端可以使用各种编程语言向 Hive 提交请求并检索结果,支持多客户端并发访问和身份验证 - MetaStore
Hive 进行的是统一的元数据管理,就是说你在 Hive 上创建了一张表,然后在 presto/impala/sparksql 中都是可以直接使用的 - HiveClient
Spark
- SparkThriftServer
Spark Thrift Server是Spark社区基于HiveServer2实现的一个Thrift服务。旨在无缝兼容HiveServer2,可以直接使用hive的beeline访问Spark Thrift Server执行相关语句 - SparkHistoryServer
是Spark 应用程序的 Web UI ,展示Spark 应用程序的作业、阶段、任务、执行器的环境详细信息 - SparkClient
HBase
- HMaster
是HBase 集群中的主服务器 - HRegionServer
是存储实际Region,响应客户端写入的IO,并负责存储数据到HDFS中 - HThriftServer
Thrift server是HBase中的一种服务,主要用于对多语言API的支持 - HBaseClient
DolphinScheduler
- DolphinSchedulerApi
API接口层,主要负责处理前端UI层的请求。该服务统一提供RESTful api向外部提供请求服务。 接口包括工作流的创建、定义、查询、修改、发布、下线、手工启动、停止、暂停、恢复、从该节点开始执行等等。 - DolphinSchedulerMaster
MasterServer主要负责 DAG 任务切分、任务提交监控,并同时监听其它MasterServer和WorkerServer的健康状态 - DolphinSchedulerWorker
主要负责任务的执行和提供日志服务。 WorkerServer服务启动时向Zookeeper注册临时节点,并维持心跳。 - DolphinSchedulerAlert
提供告警相关功能
通用
- Tez
Tez是从MapReduce计算框架演化而来的通用DAG计算框架,可以用来替换 hive 产生的MapReduce作业 - Hive On Spark
把hive执行引擎换成spark ,将Hive的查询作为Spark的任务提交到Spark集群上进行计算
|