Hadoop 介绍
- Hadoop 是 Apache 软件基金会旗下的一个开源分布式计算平台, 为用户提供了系统底层细节透明的分布式基础架构
- Hadoop 是基于 Java 语言开发的, 具有很好的跨平台特性, 并且可以部署在廉价的计算机集群中
- Hadoop 的两大核心组件是分布式文件系统HDFS和分布式计算框架MapReduce
- Hadoop 被公认为行业大数据标准开源软件, 在分布式环境下提供了海量数据的处理能力
- 几乎所有主流厂商都围绕 Hadoop 提供开发工具、开源软件、商业化工具和技术服务
传统架构
- VPS 服务器 (虚拟专用服务器) ( “Virtual Private Server”, 简称 “VPS”) 是利用虚拟服务器软件在一台物理服务器上创建多个相互隔离的小服务器
- 传统架构的瓶颈
- 计算能力和机器数量成正比
- IO 能力和机器数量成非正比
Hadoop 架构
Hadoop 版本演变
Hadoop 生态系统
- HDFS : 分布式文件存储
- MapReduce : 分布式计算框架
- YARN : 分布式调度平台
- Flume : 数据采集利器
- Sqoop : 数据同步工具
- Hive : 数据仓库
- HBase : 列族数据库 (NoSQL)
Hadoop 典型应用架构
|