IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> Hadoop day01 -> 正文阅读

[大数据]Hadoop day01

大数据概述
一、6v
1.数据体量大
2.数据种类样式多
3.数据的增长速度越来越快
4.数据的价值密度
5.数据的真实性
6.数据的联通性
7.数据的动态性、可视化以及合法性
二、分类
大数据的相关岗位:
数据的存储
数据的采集
数据清洗-ETL
数据分析 离线批处理 实时流处理
数据挖掘
数据可视化

Hadoop简介
一、概述
1.Hadoop是apache提供的一套开源的,可靠的,可扩展的,进行分布式存储和计算的框架。
2.Hadoop的版本很混乱

二、发展历程
1.创始人: Doug Cutting和Mike Caferalla
2.在2002年,这两个人设计一套搜索引擎Nutch,爬取了全网的10亿个网页的数据
3.在2003年,谷歌公司发表了一篇论文《The Google File System》(GFS)分布式存储的原理,但是谷歌并没有公布这个框架,Doug根据这篇论文设计实现了NDFS(Nutch Distributed File System)
4.在2004年,谷歌发表了一篇论文《The Google MapReduce》阐述了分布式计算的原理,Doug根据这篇论文设计了MapReduce
5.在Nutch0.8版本的时候,将NDFS和MapReduce从Nutch中分离出来了Hadoop,将NDHS更名为HDFS
6.在2007年,Doug携带Hadoop入职了Yahoo
7.Doug在雅虎工作期间,主持了HBase、Pig等框架。
8.Yahoop将Hadoop等框架贡献给了apache,雅虎之后谢幕

三、模块
1.Hadoop Common:基本模块,用于支持其它模块
2.Hadoop distributed Filesystem:分布式存储框架
3.Hadoop Yarn:任务调度和集群资源管理
4.Hadoop Mapeduce: 分布式计算
5.Hadoop Ozone:对象存储
6.Hadoop submarine:机器学习引擎

四、版本
1.Hadoop1.0:Common,HDFS、MapReduce
2.Hadoop2.0:Common,HDFS、MapReduce、yarn
注意:hadoop1.0和hadoop2.0不兼容
3.Hadoop3.0:Common,HDFS、MapReduce、yarn、Ozone,最新的版本中包含Submarine

伪分布式Hadoop
1.关闭防火墙chkconfig iptables off
2.需要修改主机名,要求主机名中没有没有_和-

vim /etc/sysconfig/network

修改了名字
在这里插入图片描述
在这里插入图片描述

重新生效

source /etc/sysconfig/network

将ip和主机名进行映射

vim /etc/hosts

添加ip和主机名,如下图
在这里插入图片描述
重启

reboot

配置Linux免密互通
产生密钥

ssh-keygen

免密互通

ssh-copy-id root@hadoop01

输入密码(服务器密码)

测试(中间不用输入密码)

[root@hadoop01 ~]# ssh hadoop01
Last login: Sat Aug 21 15:32:50 2021 from 192.168.253.6
[root@hadoop01 ~]# logout
Connection to hadoop01 closed.

安装jdk
下载Hadoop和解压

地址
https://hadoop.apache.org/release/2.7.1.html
tar -xvf hadoop-2.7.1.tar.gz

进入hadoop安装的目录的etc/hadoop目录下

[root@hadoop01 hadoop]# pwd
/home/presoftware/hadoop-2.7.1/etc/hadoop

修改hadoop-env.sh

[root@hadoop01 hadoop]# vim hadoop-env.sh
export JAVA_HOME=/home/presoftware/jdk1.8.0_181

在这里插入图片描述

export HADOOP_CONF_DIR=/home/presoftware/hadoop-2.7.1/etc/hadoop

在这里插入图片描述
保存退出,重新生效

source hadoop-env.sh

编辑core-site.xml

vim core-site.xml

添加

		<property>
                <name>fs.defaultFS</name>
                <value>hdfs://hadoop01:9000</value>
        </property>
        <property>
                <name>hadoop.tmp.dir</name>
                <value>/home/presoftware/hadoop-2.7.1/tmp</value>
        </property>

保存退出

编辑hdfs-site.xml

vim hdfs-site.xml

添加

        <property>
                <name>dfs.replication</name>
                <value>1</value>
        </property>

复制mapred-site.xml.template文件

cp mapred-site.xml.template mapred-site.xml

编辑mapred-site.xml
添加

		<property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>

编辑yarn-site.xml

vim yarn-site.xml

添加

		<property>
          <name>yarn.resourcemanager.hostname</name>
                <value>hadoop01</value>
        </property>
        <property>
      	<name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
        </property>

编辑slaves文件

vim slaves

添加主机名
hadoop01

配置环境变量

vim /etc/profile

添加

export HADOOP_HOME=/home/presoftware/hadoop-2.7.1
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

保存退出,重新生效

source /etc/profile

hadoop第一次启动之前需要格式化

hadoop namenode -format

启动Hadoop

start-all.sh

关闭

stop-all.sh

如果启动成功,则通过jsp命令,能查到5个进程

[root@hadoop01 hadoop]# jps
2533 NameNode
2808 SecondaryNameNode
3256 Jps
3048 NodeManager
2953 ResourceManager
2636 DataNode

注意:1.如果少了XXXNode,那么修改core,hdfs,删除hadoop-2.7.1/tmp 然后重新格式化重新启动
2.如果XXXManageer,那么修改mapred,yarn,重新启动
3.命令找不见,hadoop-env.sh配置错误,profile配置错了

两个地址
192.168.253.129:50070
192.168.253.129:8088

在这里插入图片描述

在这里插入图片描述

启动路径(此处已经配置了环境变量,在哪里都可以启动)

[root@hadoop01 hadoop]# pwd
/home/presoftware/hadoop-2.7.1/etc/hadoop
  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2021-08-22 13:36:15  更:2021-08-22 13:36:47 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/23 13:32:26-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码