| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 大数据 -> Hadoop入门 -> 正文阅读 |
|
[大数据]Hadoop入门 |
大数据概论大数据概念大数据(Big Data):指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模型才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 主要解决,海量数据的存储和海量数据的分析计算问题。 大数据特点(4V)1、Volume(大量) 2、Velocity(高速) 3、Variety(多样) 4、value(低价值密度) ##大数据应用场景 3、旅游:深度结合大数据能力与旅游行业需求,共建旅游创业智慧管理、智慧服务和智慧营销的未来。 4、商品广告推荐 5、保险:海量数据挖掘及风险预测,助理保险行业精准营销,提升精细化定价能力。 6、金融:多维度体现用户特征,帮助金融机构推荐优质客户,防范欺诈风险。 7,人工智能 大数据部门组织结构从Hadoop框架套路大数据生态##Hadoop是什么 1、Hadoop是一个由Apache基金会所开发的分布式系统基础架构 Hadoop发展历史1、Lucene框架是Doug Cutting开创的开源软件,用Java书写代码,实现与Google Docs类似的全文搜索功能,它提供了全文检索引擎,包括完整的查询引擎和索引引擎。 2、2001年年底,Lucene成为Apache基金会的一个子项目。 3、对于海量数据的场景,Lucene面对与Google同样的困难:存储数据困难、检索速度慢。 5、可以说Google是Hadoop的思想之源: 6、2003-2004年,Google公开了部分GFS和MapReduce思想的细节,以此为基础Doug cutting等人用了2年业余时间实现了DFS和MapReduce机制,是Nutch性能飙升 7、2005年Hadoop 作为Lucene的子项目Nutch的一部分正式引入Apache基金会。 8、 2006年3月份,Map-Reduce和Nutch Distributed File System (NDFS)分别被纳入到Hadoop项目中,Hadoop就此正式诞生,标志着大数据时代来临。 9、名字来源于Doug Cutting儿子的玩具大象 Hadoop三大发行版本
Cloudera内部集成了很多大数据框架。对应产品CDH。 1、Apache Hadoop 2、Cloudera Hadoop 3、Hortonworks Hadoop Hadoop的优势(4高)1、高可靠性: Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。 2、高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。 3、高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。 4、高容错性:能够自动将失败的任务重新分配。 Hadoop组成Hadoop1.x和Hadoop2.x区别 在Hadoop1.x时代,Hadoop中的MapReduce同时处理业务逻辑运算和资源的调度,耦合性较大,在Hadoop2.x时代,增加了Yarn 。Yarn只负责资源的调度MapReduce只负责运算。 HDFS架构概述1、NameNode(nm):存储文件袋元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。 2、DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。 3、Secondary NameNode(2nn):每隔一段时间对NameNode元数据备份。 YARN 架构概述MapReduce架构概述MapReduce将计算过程分为两个阶段:Map和Reduce
大数据技术生态体系图中涉及的技术名词解释如下: 推荐系统框架图 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/23 17:03:40- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |