开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 大数据 -> hadoop学习_1 -> 正文阅读

[大数据]hadoop学习_1

hadoop学习_1

hadoop入门及介绍

hadoop入门及介绍

目标：
	1 hadoop的入门
	2 hadoopHDFS
	3 hadoop的MapReduce
	4 hadoop的Yarn
	5 hadoop的优化
	6 hadoop的HA
	7 常见的错误和解决方案

1.1大数据概述

大数据主要解决海量数据的存储和分析的问题

1.1.1大数据概念

大数据主要解决海量数据的存储和分析的问题

1.1.2大数据特点

1 大量
2 高速  
3 多样
4 低价值密度

1.1.3大数据应用场景

1 物流仓储
2 零售
3 旅游
4 商品广告推荐
5 保险
6 金融 防范风险，风控
7 房地产
8 人工智能

1.1.4大数据发展前景

国家重点发展，前途不可限量

1.1.5大数据业务流程

在这里插入图片描述

1.1.6大数据部门组织架构

在这里插入图片描述

2.1hadoop生态

2.1.1hadoop的发展历史及版本

在这里插入图片描述

2.1.2hadoop的优势

1 高可靠性
2 高扩展
3 高容错
4 高效性

2.1.3hadoop的组成

在这里插入图片描述

2.1.4HDFS的架构

1 NameNode（nn）:是HDFS的大哥，管理所有存储的真实数据的元数据信息（文件名，文件大小，创建时间等）
2 DataNode（nn）:是HDFS的小弟，存储真实的数据，以块为单位，默认128M,比如一个200M的文件，会存2块 ，一块128M，一块72M
3 SecondaryNameNode(2nn)：是NameNode的秘书，辅助NameNode干活，分担NameNode的工作，减少NameNode的压力

2.1.5Yarn的架构

1 Resource Manager（rm）：是Yarn的大哥，管理和分配集群中所有的资源（来自每个机器的资源）
2 Node Manager（nm）：是Yarn的小弟，管理所在机器的资源
3 Application Master（am）：每个Job对应一个Application Master，主要负责Job的执行过程（资源申请，监控，容错等）
4 container：对资源的抽象封装，防止资源被侵占

在这里插入图片描述

2.1.6MapReduce的思想

思想：先分再合，分：map，合：reduce

在这里插入图片描述

3.1 hadoop的生态体系

在这里插入图片描述

3.1.1搭建开发环境

1 单台 配置： 内存2G 后续可能要4G，磁盘大小50G
2 准备一台模板虚拟机，后续克隆就好
3 准备初始化安装
1）sudo yum install -y epel-release
2）sudo yum install -y psmisc nc net-tools rsync vim lrzsz ntp	libzstd openssl-static tree iotop
3) 关闭防火墙
查看防火墙：systemctl status firewalld
关闭：systemctl disable firewalld
再次查看：systemctl is-enabled firewalld  显示disabled  表明关闭成功
4 将atguigu这个账号配置临时root权限
1）vim /etc/sudoers
2) 配置atguigu 用户的临时权限

在这里插入图片描述
2、在/opt目录下创建文件夹
（1）在/opt目录下创建module、software文件夹

	sudo mkdir module
	sudo mkdir software

（2）修改module、software文件夹的所有者

sudo chown caron:caron /opt/module /opt/software

3、安装JDK

将JDK安装包上传到Linux /opt/software目录下
解压JDK到/opt/module目录下
tar -zxvf jdk-8u212-linux-x64.tar.gz -C /opt/module/

配置JDK环境变量,两种方式:

第一种:
在这里插入图片描述
（2）保存后退出 :wq

（3）重启xshell窗口，让环境变量生效

测试JDK是否安装成功

java -version

如果能看到以下结果、则Java正常安装

java version “1.8.0_212”

注意：重启（如果java -version可以用就不用重启）

sudo reboot

4、安装Hadoop

Hadoop下载地址：https://archive.apache.org/dist/hadoop/common/hadoop-3.1.3/

将hadoop安装包上传到/opt/software目录下

解压安装文件到/opt/module下面

tar -zxvf hadoop-3.1.3.tar.gz -C /opt/module/

查看是否解压成功

ls /opt/module/

将Hadoop添加到环境变量

（1）获取Hadoop安装路径 pwd
（2）打开/etc/profile文件   ./profile.d

sudo vim /etc/profile

在profile文件末尾添加：（shitf+g）或者添加到my_env.sh 中

在这里插入图片描述
保存后退出:wq

（4）让修改后的文件生效

source /etc/profile

（5) 测试是否安装成功

hadoop version

（6) 重启(如果Hadoop命令不能用再重启)

sync
或者
sudo reboot

5、Hadoop重要目录

（1）bin目录：存放对Hadoop相关服务（HDFS,YARN）进行操作的脚本

（2）etc目录：Hadoop的配置文件目录，存放Hadoop的配置文件

（3）lib目录：存放Hadoop的本地库（对数据进行压缩解压缩功能）

（4）sbin目录：存放启动或停止Hadoop相关服务的脚本

（5）share目录：存放Hadoop的依赖jar包、文档、和官方案例

大数据最新文章

实现Kafka至少消费一次

亚马逊云科技：还在苦于ETL？Zero ETL的时代

初探MapReduce

【SpringBoot框架篇】32.基于注解+redis实现

Elasticsearch：如何减少 Elasticsearch 集

Go redis操作

Redis面试题

专题五 Redis高并发场景

基于GBase8s和Calcite的多数据源查询

Redis——底层数据结构原理