[大数据] hadoop单机模式和伪分布式，全分布式的区别？

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 大数据 -> hadoop单机模式和伪分布式，全分布式的区别？ -> 正文阅读

[大数据]hadoop单机模式和伪分布式，全分布式的区别？

1.单机模式（standalone）

单机模式是Hadoop的默认模式。这种模式在一台单机上运行，没有分布式文件系统，而是直接读写本地操作系统的文件系统。当首次解压Hadoop的源码包时，Hadoop无法了解硬件安装环境，便保守地选择了最小配置。在这种默认模式下所有3个XML文件均为空。当配置文件为空时，Hadoop会完全运行在本地。因为不需要与其他节点交互，单机模式就不使用HDFS，也不加载任何Hadoop的守护进程。该模式主要用于开发调试MapReduce程序的应用逻辑。

2.伪分布模式（Pseudo-Distributed Mode）

这种模式也是在一台单机上运行，但用不同的Java进程模仿分布式运行中的各类结点
伪分布模式在“单节点集群”上运行Hadoop，其中所有的守护进程都运行在同一台机器上。该模式在单机模式之上增加了代码调试功能，允许你检查内存使用情况，HDFS输入输出，以及其他的守护进程交互。

3 . 全分布模式（Fully Distributed Mode）

Hadoop守护进程运行在一个集群上。

4 为什么伪分布式要比单机慢？

众所周知MapReduce是基于硬盘的计算引擎，计算一个结果就会存入硬盘，reduce计算时会从硬盘中取出再进行计算，在单机模式下硬盘就是我们的自身的Linux系统，但是分布式的情况下，硬盘是我们的hdfs分布式文件系统，存取数据会有一层映射，故而慢。既然这样的话，那为何还要有分布式文件系统？原因就是大数据时代，单机硬盘存不下大量数据，只能通过分布式存储。

三种分布模式的区别转载于：https://my.oschina.net/u/3696405/blog/1557839