IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> ubuntu-hadoop伪分布 -> 正文阅读

[大数据]ubuntu-hadoop伪分布

1. ubuntu-hadoop伪分布-环境配置

1.1 创建新用户(确保环境最干净)

  • sudo useradd -m hduser -s /bin/bash(创建新用户)
  • sudo passwd hduser(为新用户设置密码-必设)
  • sudo adduser hduser sudo(为新用户赋予sudo权限)
  • sudo apt update(更新软件列表)
  • sudo apt upgrade(安装列表中的安装包)

1.2 jdk

  • sudo tar zxvf jdk-18_linux-x64_bin.tar.gz -C /usr/local(注意:进入到安装包文件夹)
  • sudo tar zxvf hadoop-3.3.4.tar.gz -C /usr/local(后面要安装hadoop,一起了)
  • sudo gedit /etc/profile(改配置文件)
# java environment
export JAVA_HOME=/usr/local/jdk-18.0.2.1
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=.:${JAVA_HOME}/bin:$PATH
  • source /etc/profile(刷新配置文件)
  • sudo gedit ~/.bashrc(主配置文件,让profile配置次次生效)
if [ -f /etc/profile ]; then
        . /etc/profile
fi

1.3 hadoop配置

ssh无密码(分布式的结点以ssh控制,有密码不行)

  • sudo apt install openssh-server
  • cd /home/hduser/.ssh
  • ssh-keygen -t rsa
  • cat ./id_rsa.pub >> ./authorized_keys

hadoop环境变量

  • sudo gedit /etc/profile(配置文件)
# hadoop
export HADOOP_HOME=/usr/local/hadoop-3.3.4
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HAME/sbin
  • 单机模式验证(可以不做,只是一个测试)
- cd /usr/local/hadoop-3.3.4
- mkdir ./input
- cp ./etc/hadoop/*.xml ./input
- ./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep ./input ./output 'dfs[a-z.]+'
- cat ./output/*
- rm -r ./output

伪分布模式

  • sudo chown -R hduser /usr/local/hadoop-3.3.4(修改hadoop-3.3.4的权限为hduser)

  • cd /usr/local/hadoop-3.3.4/etc/hadoop

  • gedit hadoop-env.sh

export JAVA_HOME=/usr/local/jdk-18.0.2.1
  • gedit core-site.xml
<configuration>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>file:/usr/local/hadoop-3.3.4/tmp</value>
        <description>Abase for other temporary directories.</description>
    </property>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>
  • gedit hdfs-site.xml
<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/usr/local/hadoop-3.3.4/tmp/dfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/usr/local/hadoop-3.3.4/tmp/dfs/data</value>
    </property>
</configuration>
  • cd /usr/local/hadoop-3.3.4
  • ./bin/hdfs namenode -format(可能要执行两边)
  • ./sbin/start-dfs.sh

检查

  • jps检查
  • http://localhost:9870

停止/启用hadoop

  • /usr/local/hadoop-3.3.4/sbin/stop-dfs.sh
  • /usr/local/hadoop-3.3.4/sbin/start-dfs.sh

2. 伪分布实例

2.1 估计pi值

  • cd /usr/local/hadoop-3.3.4/share/hadoop/mapreduce
  • hadoop jar hadoop-mapreduce-examples-3.3.4.jar pi 1000 50000

2.2 统计文本

  • hdfs dfs -mkdir /input
  • cd /usr/local/hadoop-3.3.4/share/hadoop/mapreduce
  • mkdir temp
  • gedit ./temp/data.txt
I love you
you love me
I love you and you love me
  • cd temp
  • hdfs dfs -put ./data.txt /input
  • cd …(返回上级目录)
  • hadoop jar hadoop-mapreduce-examples-3.3.4.jar wordcount /input/data.txt /output/wct
  • 查看:hdfs dfs -ls /(可以不执行)
  • hdfs dfs -cat /output/wct/part-r-00000
  • hdfs dfs -rm -r /output(hadoop实例不会自动覆盖,每次要自己删除输出文件)
  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2022-09-13 11:22:42  更:2022-09-13 11:23:08 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/23 9:52:46-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码