IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 大数据 -> day34Hadoop介绍及集群安装 -> 正文阅读

[大数据]day34Hadoop介绍及集群安装

一、大数据简介以及服务器硬件基础

(一)什么是大数据

全球第一家信息技术研究和分析的公司Gartner给出定义:大数据指的是在一定的时间范围无法使用常规软件进行存储、计算的数据集合

通俗理解:描述的是人类在信息爆炸时代所产生的海量数据。

大数据岗位的职责:使用特殊的软件、架构来存储、计算海量的数据。

?

?

(二)大数据特点

如何存储、计算海量数据?

我们需要了解这些海量数据的特点,IBM公司提出,大数据具备以下5V的主要特点:

体量大(Volume):数据集总体规模比较大,包括采集、存储和计算的量都非常大。

速度快(Velocity) :产生速度和处理速度要求比较高

类型多(variety) :数据来自多种数据源,数据种类和格式日渐丰富

价值密度低(Value):数据量巨大,但是有用数据少

?

真实性(Veracity):数据的准确性和可信赖度,即数据的质量。

(三)大数据技术核心技术

针对大数据的5个V的特性,如果把做的系统部署到一台服务器上,所有的请求业务都由这台服务器处理。显然,当业务增长到一定程度的时候,服务器的硬件会无法满足业务需求。很多人就会想到多部署几台服务器,这就是集群

1、分布式和集群

分布式:将多台服务器集中在一起,每台服务器都实现总体的不同业务,做不同的事。

举例:饭店有3个厨师,做菜分为洗菜、切菜、下锅3个步骤。3个人进行分工,有个人专门洗菜,有个人专门切菜,有个人专门下锅,从而完成做菜这个事情。

集群:指将多台服务器集中在一起,每台服务器都实现相同的业务,做相同的事情。

举例:饭店有3个厨师,做菜分为洗菜、切菜、下锅3个步骤。3个人同时洗菜,完成洗菜再同时切菜,完成切菜再同时下锅,从而完成做菜这个事情。

集群不一定是分布式,分布式一定是集群。

2、分布式存储

解决大数据时代海量数据存储方式,是将数据分散存储在多台独立的设备上

?

3、分布式计算

将该应用分解成许多小的部分,分配给多台计算机进行处理。这样可以节约整体计算时间,大大提高计算效率。

?

4、负载均衡、故障转移、伸缩性

负载均衡(Load Balance):将工作任务分摊到多个操作单元上进行执行,减少某台机器或某个程序的工作压力,使多台机器或多个程序协同完成工作任务。

故障转移(failover):当活动的服务或应用意外终止时,快速启用冗余或备用的服务器、系统、硬件或者网络接替它们工作,从而保障服务或应用能够继续正常运行。

伸缩性(scalability):随着需求和负荷的增长,可以向集群系统添加新的集群服务器或者在已存在的服务器中添加内存、磁盘等资源,从而提高集群系统的处理能力,实现高吞吐量和低延迟高性能。

(四)大数据的应用场景

大数据无处不在,大数据应用于各个行业,包括金融、汽车、餐饮、电信、能源、体能和娱乐等在内的社会各行各业都已经融入了大数据的印迹。

1、大数据疫情分析

???????2、人工智能

柯洁与alphago、无人餐厅、无人车、智能仓库。

???????3、数据分析预测

美国第二大超市塔吉特百货(Target)是最早玩大数据的零售商,他们拥有专业顾客数据分析模型,可对购买行为精确分析出早期怀孕的人群,然后先于同行精准营销商品。曾经一次精准营销让一个蒙在鼓里的父亲意外发现高中生女儿怀孕了,此事被纽约时报报道,轰动了全美。

???????4、啤酒加纸尿裤

沃尔玛百货将他们的纸尿裤和啤酒这两种风马牛不相及的两件商品进行搭配销售,反而能取到惊人的销售效果,这是为什么呢?

原来,美国的太太们常叮嘱她们的丈夫下班后为小孩买纸尿裤,而丈夫们在买纸尿裤后顺便买了啤酒。这一消费行为使得纸尿裤和啤酒存在了某种消费关联,因此,沃尔玛干脆将这两种商品放在了一起,从而提高了啤酒销量。

???????5、智慧出行

智慧出行也称智能交通,是指借助移动互联网、云计算、大数据、物联网等先进技术和理念,将传统交通运输业和互联网进行有效渗透与融合,形成具有“线上资源合理分配,线下高效优质运行”的新业态和新模式。

???????6、智慧旅游

利用大数据技术,提前预判游客人数,做好接待准备,构建智慧旅游业。

???????7、智慧社区

对社区中业主、物业、政府和商家等进行数据采集、数据分类,使业主能通过网络完成社区服务,社区生活更加便捷、快速、安全。

???????8、智慧医疗

通过打造健康档案区域医疗信息平台,利用最先进的物联网技术,实现患者与医务人员、医疗机构、医疗设备之间的互动,逐步达到信息化。

???????9、智慧农场

智慧农场是一款数字化农业线上租地种植、农业认养、农业电商、农业物联网、监控实时直播、多种营销功能等为一体的农业线上多平台。

(五)大数据业务分析步骤

很多时候我们在进行数据分析时,找不到突破点,其实大数据的数据分析需要围绕着数据展开,就是说,数据从哪里来,怎么来,来了存在哪里,如何计算,如何展示?

1、明确分析目的和思路

目的:为数据的采集、处理、统计分析提供清晰的方向

思路: (1)先分析什么,再分析什么,各分析点彼此是否有逻辑关系

(2)维度是否完整,分析结果是否有效、准确

(3)参照数据分析方法论,进行分析统计

2、数据采集、收集

?????????? (1)数据从无到有

比如传感器收集天气、温度、湿度等数据,埋点采集用户在网页上的各种行为数据? ?????????? ???

  大数据 最新文章
实现Kafka至少消费一次
亚马逊云科技:还在苦于ETL?Zero ETL的时代
初探MapReduce
【SpringBoot框架篇】32.基于注解+redis实现
Elasticsearch:如何减少 Elasticsearch 集
Go redis操作
Redis面试题
专题五 Redis高并发场景
基于GBase8s和Calcite的多数据源查询
Redis——底层数据结构原理
上一篇文章      下一篇文章      查看所有文章
加:2021-08-25 12:16:45  更:2021-08-25 12:18:23 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/23 13:26:53-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码