Spark有主要有三种部署模式:Spark独立服务器模式、基于YARN的Spark、基于Mesos的Spark。
1.Spark独立服务器模式
独立服务器模式使用内置的调度器,因而不需要任何外部调度器,如YARN或Mesos。要以独立服务器模式安装Spark,需要将Spark的二进制安装文件复制到集群的所有机器上。 独立服务器模式下,客户端可通过spark-submit或Spark shell与集群通信。无论那种情况,driver都会与Spark主节点进行通信,以便获取worker节点的信息,此后executor将在worker节点上启动来执行应用。多个客户端可同时与集群通信,然后再worker节点上创建各自的executor,每个客户端都有自己的driver组件。
2.基于YARN的Spark
在YARN模式下,客户段与YARN的资源管理器进行通信,从而获得容器来运行Spark应用。可将其视为一个小型Spark集群。在使用YARN运行Spark应用时,可使用YARN客户端模式或YARN集群模式。
2.1 YARN客户端模式
在YARN客户端模式下,driver在集群之外的节点(一般都是客户端节点)上运行。driver首先需要与资源管理器通信,从而请求资源并运行Spark作业。资源管理器会分配容器(0号容器)并响应driver。driver在0号容器中启动Spark应用主节点。Spark应用主节点在资源管理器分配的容器中创建executor。 YARN容器可位于集群中由节点管理器控制的任一节点,因此所有的资源分配都由资源管理器负责。 Spark应用主节点与资源管理器进行沟通,以获取其他容器来启动executor。
2.2 YARN集群模式
在集群模式下,driver在集群中的某个节点(一般是应用程序的主节点)上运行。客户端首先与资源管理器通信,请求资源并运行Spark作业。资源管理器会分配容器(0号容器)并响应客户端。然后客户端向集群提交代码,并在0号容器内启动driver和Spark应用主节点。driver与Spark应用主节点协同工作,然后在由资源管理器分配的容器上创建executor。 YARN容器可位于由节管理器控制的任何容器上。因此所有的资源分配都由资源管理器负责。 Spark应用主节点与资源管理器进行沟通,以获取其他容器来启动executor。 在YARN集群模式下,没有shell,因为driver本身在YARN内部。
3. 基于Mesos的Spark
基于Mesos的部署模式与Spark的独立服务器模式蕾丝。driver与Mesos的主节点通信,然后该主节点分配用于运行executor的资源。然后driver会与executor通信。 Mesos中的driver会先与主节点通信,然后从Mesos所有的从节点上处理请求。 将容器分配给Spark作业后,driver会让executor启动,然后再executor中运行代码。如果Spark作业运行完成,而driver还存在,就会通知Mesos主节点,然后Mesos从属节点中所有以容器形式存在的资源都会被释放。 多个客户端与集群交互,从而在从属节点上创建格子的executor。每个客户端由自己的driver组件。
4. 总结
如果你只是测试Spark,或者服务器数据量不是很多,独立服务器模式是个不错的选择。当你需要统一管理集群资源(Hadoop、Spark等),那么你可以选择YARN或者Mesos,但是这样维护成本就会变高。 从对比上看,Mesos似乎是Spark更好的选择,也是被官方推荐的。 如果你同时运行hadoop和Spark,从兼容性上考虑,YARN是更好的选择。 如果你不仅运行了hadoop,Spark。还在资源管理上运行了docker,Mesos更加通用。
|