目标
一、大数据的产生背景?
1.1 Big Data名词由来
- 20世纪90年代,数据仓库之父的Bill Inmon就经常提及Big Data
- 2011年5月,在“云计算相遇大数据”为主题的会议中抛出了Big Data概念,重点是如何管理PB级数据量,通过分析挖掘这些数据的价值,确保及时向相关人员提供信息。
- 维基百科:“大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合”
1.2 海量的数据从哪里来
1.3 传统的数据处理系统面临的问题
二、大数据简介
大数据定义-不同的声音
2.1 什么是大数据
2.2 大数据的结构特征
2.3 数据处理技术分布式演进趋势
2.4 揭开Hadoop神秘的面纱
- Hadoop是Apache基金会的一个项目总成,主要由HDFS、MapReduce和HBase等组成。HDFS是对Google GFS的开源实现,MapReduce是对Google MapReduce的开源实现,HBase是Google BigTable的开源实现。
- Hadoop来源于其创始人Doug Cutting 的儿子给一头黄色大象取的名称,Hadoop最初只与网页索引有关,迅速发展成为分析大数据的领先平台。
三、华为大数据的定义
3.1 企业大数据平台架构
3.2 华为大数据方案
四、FusionInsight企业版简介
4.1 FusionInsight架构概述
4.2 电信级可靠性
-
系统可靠性 -
数据可靠性
4.3 可靠性关键技术
4.4 可运营的安全体系
4.5 易运维:图形化快速升级平滑扩容
五、FusionInsight组件介绍
5.1 HDFS原理简介
- 分布式文件系统
- HDFS增强介绍(FTP接入)
5.2 Hive简介
- Hadoop数据仓库工具
- HIVE增强介绍(Hive eIndex)
5.3 HBase简介
-
分布式数据库 -
Hbase增强(备份与集群容灾)
5.4 Yarn原理简介
- 资源管理与调度
5.5 MapReduce原理简介
5.6 Spark迭代计算:重构M-R,优于Hadoop
5.7 Storm:流式数据处理框架,实时Hadoop
5.8 ZooKeeper简介
六、FusionInsight功能特性
6.1 安全
- 用户权限集中管理
- 安全:单点登录
- 安全:Hive/HBase细粒度加密
6.2 可靠性增强:组网隔离
6.3 运维
- 资源分布监控
- 自定义监控阈值
6.4 故障定位:日志级别动态调整
6.5 Step by Step 故障定位
七、大数据行业应用与成功案例
大数据应用的行业分类
-
金融:让银行更了解客户与识别风险 -
电信:支撑运营商转型 -
某运营商详单分析系统 -
某行日志分析系统
|