大数据项目设计及实战
第一章
1.系统架构图设计
2.系统数据流程设计
3.集群资源规划设计
第二章 linux环境准备与设置
1.Linux系统常规设置
2.克隆虚拟机并进行相关的配置
3.对集群中的机器进行基本的配置
1.Linux系统常规设置
1、设置ip地址 2、创建用户
adduser lyc
passwd 123456
exit 3、文件中设置主机名
vi /etc/sysconfig/network
4、主机名映射
vi /etc/hosts
IP地址 xyxy11 xyxy12
5、关闭防火墙
systemctl stop firewalld (本次服务关闭)
systemctl disable firewalld(禁用防火墙) 永久
6.root用户下设置无密码用户切换
ls -l /etc/sudoers
vi /etc/sudoers
加一行
lyc ALL=(root)NOPASSWD:ALL
7.验证机器的防火墙是不是关了
service iptables status
service ipables start
service ipables stop
2.克隆虚拟机并进行相关的配置
1.创建我们需要的目录
mkdir /opt/softwares
mkdir /opt/modules
mkdir /opt/tools
mkdir /opt/datas
2.将root用户的目录改变成lyc用户所属的目录
chown -R lyc:lyc /opt/*
3.将JDK安装包通过工具上传到opt/softwares目录下 4.更改文件的权限
chmod u+x /opt/softwares/*
5.安装JDK
tar -zxvf jdk-linux-x64.tar.gz -C /opt/modules/
6.安装JDK-配置Java环境变量
vi etc/profile 进入文件末尾添加数据
export JAVA_HOME=/opt/modules/jdk 1.8.0
export PATH=$PATH:$JAVA_HOME/bin
保存文件
7.修改虚拟机大小 8.修改虚拟机名称
3.对集群中的机器进行基本配置
1.配置IP地址 2.配置IP地址映射
第三章:Hadoop2.x分布式集群部署
1.hadoop2.x版本下载及安装
2.hadoop2.x分布式集群配置
3.分发到各个机器节点
4.HDFS启动集群运行测试
5.YARN集群运行ManReduce程序测试
6.配置集群中主节点到各个机器的SSH无秘钥登录
7.配置集群内机器时间同步(使用Linux ntp进行)
1.hadoop2.x版本下载及安装
官网下载 https://archive.apache.org/dist http://archive.cloudera.com/cdh5/
2.hadoop2.x分布式集群配置
HDFS分布式部署 hadoop-env.sh core-site.xml Hdfs-site.xml
slave yarn分布式部署
2.MapReduce部署
mapreduce部署 mapred-env.sh mapred-site.xml
3.分发到各个节点
scp -r hadoop-2.5.0/ xyxy129:/opt/modules xyxy130: /opt/modules
scp -r hadoop-2.5.0/ xyxy129:/opt/modules xyxy131: /opt/modules
4.HDFS启动集群运行测试
hdfs namenode -format
启动各个节点机器服务:
Namenode
Datanode
Resourcemanager
Nodemanager
5.YARN集群运行ManReduce程序测试
hadoop jar /usr/tools/hadoop-2.6.5/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.5.jar wordcount /input/data.txt /user/root/data/1
6.配置集群中节点到各个机器的SSH无秘钥登录
主机1: 清空.shh目录 主节点NameNode 1)生成一对公钥与秘钥
ssh-keygen -t rsa
2)拷贝公钥到各个机器上
ssh-copy-id xyxy11
ssh-copy-id xyxy12
ssh-copy-id xyxy13
3)测试ssh连接
ssh xyxy11
ssh xyxy12
ssh xyxy13
4)测试HDFS
stop-dfs.sh
yarn ssh无秘钥登录 主机2: 主节点 Resourcemanager 1)生成一对公钥与秘钥
ssh-keygen -t rsa
2)拷贝公钥到各个机器上
ssh-copy-id xyxy11
ssh-copy-id xyxy12
ssh-copy-id xyxy13
3)测试ssh连接
ssh xyxy11
ssh xyxy12
ssh xyxy13
4)测试HDFS
stop-dfs.sh
7.配置集群内机器时间同步(使用Linux ntp进行)
找一代机器作为时间服务器 xyxy11
|