| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 大数据 -> 大数据入门----hadoop -> 正文阅读 |
|
[大数据]大数据入门----hadoop |
目录 一、大数据简介1、什么是大数据?????????大数据(big data),是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 2、大数据应用场景????????批量数据的收集,处理,展示。 例如: 1)统计8月份淘宝搜索鞋子热度最高的10个品牌 2)统计2021年上半年淘宝各个模块热度 主要解决:
3、大数据项目的基本架构?二、hadoop1、hadoop简介Apache? Hadoop? 项目开发用于可靠、可扩展、分布式计算的开源软件。 Apache Hadoop 软件库是一个框架,允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。该库本身不是依靠硬件来提供高可用性,而是设计用于检测和处理应用层的故障,因此在计算机集群之上提供高可用性服务,每台计算机都可能容易出现故障。 小知识: 分布式和集群的区别: 分布式指的是一个业务分拆多个子业务,部署在不同的服务器上。 集群指的是将几台服务器集中在一起,实现同一业务。 ?2、hadoop的主要模块
????????HDFS? 分布式文件系统,海量数据的存储。HDFS由一个NameNode和多个DateNode组成 ???????Mapreduce ?处理大数据集的框架,海量数据的处理(处理的是离线数据)。MapReduce由一个JobTracker和多个TaskTracker组成
? ? ? ? HDFS ? ? ? ? YARN 资源调度框架。Mapreduce运行在yarn上面,yarn还可以处理其他的。 ????????Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop?资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。 3、hadoop的搭建3.1 提前准备? ? ? ? VMware ? ? ? ? linux centos7.x ? ? ? ? linux系统的安装感兴趣的话可以查看博主的这篇文章:https://blog.csdn.net/qq_41699033/article/details/116985440 3.2 静态ip配置????????参考此篇文章:https://blog.csdn.net/Ryxiong728/article/details/114882547 其中DNS的配置建议使用多DNS,配一个DNS2=223.5.5.5(此域名解析地址为阿里的) ????????为什么要配置静态ip: 使用静态ip就不用担心每次联网你自己局域网的ip发生改变,进而影响你搭建Hadoop集群。 3.2 配置jdk? ? ? ? 参考博主的这篇文章:https://blog.csdn.net/qq_41699033/article/details/116985440 3.3 配置hadoop
?[root@qh001 hadoop-2.7.3]# vi /etc/profile ?????4.刷新环境变量 ?[root@qh001 hadoop-2.7.3]# source /etc/profile 4、hadoop单节点搭建4.1 准备jdk? hadoop环境4.2 域名映射这里做域名的映射的目的是为了之后的配置方便,并且修改ip后只用修改hosts文件即可。 [root@qh001?hadoop-2.7.3]# vi /etc/hosts ?4.3 修改配置文件配置文件的存放位置$HADOOP_HOME/etc/hadoop
4.4 格式化namenode(第一次启动需要)[root@qh001?hadoop]# hadoop namenode -format 4.5 启动????????到hadoop的sbin目录下
[root@qh001 sbin]# ./start-dfs.sh
[root@qh001 sbin]# ./start-yarn.sh
[root@qh001 sbin]# jps ?
http://192.168.2.3:50070 (HDFS管理界面) ?http://192.168.2.3:8088?(YARN管理界面) ? ? |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/23 13:28:29- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |