1.1 大数据时代
1.1.1第三次信息化浪潮
2010年前后,以云计算、大数据、物联网的首发为标志迎来第三次信息化浪潮。
IT发展史历经的信息化浪潮如下: ![在这里插入图片描述](https://img-blog.csdnimg.cn/b8224eefd4634871ade9b42738bdd558.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBA5LuK5pma5ru_5aSp5pif,size_20,color_FFFFFF,t_70,g_se,x_16#pic_center)
1.1.2 大数据时代的到来需要技术支撑
![在这里插入图片描述](https://img-blog.csdnimg.cn/dda01cba42744bbcb690f7aac81ff1ce.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBA5LuK5pma5ru_5aSp5pif,size_20,color_FFFFFF,t_70,g_se,x_16#pic_center) 主要表现为:
- 存储设备容量不断增加
- CPU处理能力大幅提升
- 网络带宽不断增加
1.1.3 数据产生方式的变革促进大数据时代到来
第一阶段:运营式系统阶段。实例:购物记录。数据仅由运营系统生成。 第二阶段:用户原创内容阶段。实例:微信。每个网民都成为自媒体,可以向网络发送信息。但到此为止还不足以促进大数据时代到来。 第三阶段:感知式系统阶段。物联网(IoT)的大规模普及,实现了万物互联。物联网底层是感知层,比如摄像头、传感器,这些设备时刻生成大量数据,物联网的兴起促使了大数据时代到来。 ![在这里插入图片描述](https://img-blog.csdnimg.cn/a513c7fe0e5b48f5b31fb9f56287f033.png#pic_center)
1.1.4 大数据的发展历程
![在这里插入图片描述](https://img-blog.csdnimg.cn/3eb9f8a3739c4e6e9c11eabb3b1b3370.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBA5LuK5pma5ru_5aSp5pif,size_20,color_FFFFFF,t_70,g_se,x_16#pic_center)
1.2 大数据的概念和影响
1.2.1大数据的4V特性
4V特性指velocity、variety、value、volume。 ![在这里插入图片描述](https://img-blog.csdnimg.cn/3973cf91d1da406f93909413a97bf969.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBA5LuK5pma5ru_5aSp5pif,size_17,color_FFFFFF,t_70,g_se,x_16#pic_center)
(1)数据量大: 大数据摩尔定律(根据IDC作出的估测,数据一直都在以每年50%的速度增长,也就是说每两年就增长一倍)。 人类在最近两年产生的数据量相当于之前产生的全部数据量。 ![在这里插入图片描述](https://img-blog.csdnimg.cn/09571d53956f44f78f8620b7c645cf7b.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBA5LuK5pma5ru_5aSp5pif,size_20,color_FFFFFF,t_70,g_se,x_16#pic_center) (2)数据类型繁多: 大数据是由结构化和非结构化数据组成:
- 结构化数据存储在关系型数据库中,只占10%。
![在这里插入图片描述](https://img-blog.csdnimg.cn/17cbd5f96e114e39adf09dcd0058d892.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBA5LuK5pma5ru_5aSp5pif,size_20,color_FFFFFF,t_70,g_se,x_16#pic_center) - 大部分都是非结构化数据,类型非常多。
![在这里插入图片描述](https://img-blog.csdnimg.cn/44c9d61687a445979c315c10ab3b6b01.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBA5LuK5pma5ru_5aSp5pif,size_20,color_FFFFFF,t_70,g_se,x_16#pic_center)
(3)处理速度快: 目前很多企业都需要秒级决策。从数据的生成到消耗,时间窗口非常小,可用于生成决策的时间非常少。 1秒定律:这一点和传统的数据挖掘技术有着本质的不同。
(4)价值密度低,商业价值高: 如此大量的数据,很多可能都是没有价值的数据。比如监控摄像头时刻生成大量数据需要进行存储,一旦发生案件时,摄像头存储的视频才有用,但发生案件的几率很小,因此价值密度低很低。
1.2.2大数据的影响
图灵奖获得者Jim Gray博士总结人类在科学研究上,先后经历了实验、理论、计算和数据四种范式。 ![在这里插入图片描述](https://img-blog.csdnimg.cn/5c29bea52f8c4461a76d619442767a24.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBA5LuK5pma5ru_5aSp5pif,size_20,color_FFFFFF,t_70,g_se,x_16#pic_center)
在思维方式方面,大数据完全颠覆了传统的思维方式:
- 全样而非抽样
大数据时代之前,我们无法保存和分析所有数据,只能统计学采用抽样进行分析,舍弃了很多数据,只抽取一部分数据进行存储、计算、分析。 而现在我们有足够的空间、可以构建服务器集群进行庞大数据处理,就可以做全样的数据分析。 - 效率而非精确
之前在做抽样统计时,需要不断提高算法精度,因为抽样计算的结果误差放到全样上会被放大,容易超出许可范围。 而全样分析不存在误差放大的问题,不追求精确度,而追求时效性、追求效率。 - 相关而非因果
更多的追求事物的相关性,而不关注因果关系。不问为什么,只关注关联性。
![在这里插入图片描述](https://img-blog.csdnimg.cn/57032feba3e04c83879ceb48c7ee2e01.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBA5LuK5pma5ru_5aSp5pif,size_20,color_FFFFFF,t_70,g_se,x_16#pic_center)
1.3 大数据的应用
1.3.1大数据的应用领域
![在这里插入图片描述](https://img-blog.csdnimg.cn/be1221c590454dbcaf2ad5ae715b271c.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBA5LuK5pma5ru_5aSp5pif,size_18,color_FFFFFF,t_70,g_se,x_16#pic_center)
1.3.2举例:流感预测
谷歌使用大数据预测流感趋势,利用搜索引擎实时收集用户搜索的信息。 通常遇到疾病时,会首先使用搜索引擎搜索,然后再去医院,这些搜索关键词构成了庞大的数据库。 ![在这里插入图片描述](https://img-blog.csdnimg.cn/3c309f12812b4d059c513a5342bb02ac.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBA5LuK5pma5ru_5aSp5pif,size_20,color_FFFFFF,t_70,g_se,x_16#pic_center)
1.4 大数据的关键技术
1.4.1大数据技术的层次
下图为大数据技术的层次,最核心的大数据技术在数据存储与管理、数据处理与分析这两个层面。 ![在这里插入图片描述](https://img-blog.csdnimg.cn/37731f286cf544e291950bd9993406ce.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBA5LuK5pma5ru_5aSp5pif,size_20,color_FFFFFF,t_70,g_se,x_16#pic_center)
1.4.2两大核心技术
两大核心技术指的是分布式存储、分布式处理。 ![在这里插入图片描述](https://img-blog.csdnimg.cn/4c89b76d9c3948ce8dc3806f9ef1418e.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBA5LuK5pma5ru_5aSp5pif,size_20,color_FFFFFF,t_70,g_se,x_16#pic_center)
分布式存储:解决海量数据的存储问题。单机无法存储海量数据时,就借助集群进行分布式存储。 ![在这里插入图片描述](https://img-blog.csdnimg.cn/ededee4f40c1494e8b268e89d5a3061f.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBA5LuK5pma5ru_5aSp5pif,size_20,color_FFFFFF,t_70,g_se,x_16#pic_center)
分布式处理:解决海量数据的处理问题。单机无法高效完成海量数据处理时,就使用集群进行分布式处理。 ![在这里插入图片描述](https://img-blog.csdnimg.cn/f043ae7088af45729ffbce13bf261dde.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBA5LuK5pma5ru_5aSp5pif,size_20,color_FFFFFF,t_70,g_se,x_16#pic_center)
1.4.3大数据技术以谷歌公司技术为代表
![在这里插入图片描述](https://img-blog.csdnimg.cn/4eac118e4e834ab1a6002c8a9ce7df4c.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBA5LuK5pma5ru_5aSp5pif,size_16,color_FFFFFF,t_70,g_se,x_16#pic_center)
1.4.4大数据计算模式
目前有许多大数据相关产品存在,这些产品可能用于批处理、实时计算、交互式计算,但是没有任何一款产品可以满足所有需求。因此不同计算模式需要使用不同的产品。 典型的计算模式可以分为四种:
-
批处理计算:典型代表为MapReduce、Spark。 用于解决大规模数据的批量处理。 不适合做实时交互式计算,做不到秒级响应。 其中Spark实时性比MapReduce更好,并且可以进行迭代计算,比如数据挖掘需要迭代计算时就需要使用Spark。 ![在这里插入图片描述](https://img-blog.csdnimg.cn/ab3832071f714f9ead4cd8b8b9209dda.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBA5LuK5pma5ru_5aSp5pif,size_20,color_FFFFFF,t_70,g_se,x_16#pic_center) -
流计算:典型代表为Storm、S4、Flume、Streams、Puma、DStream、SuperMario、银河流数据处理平台等。 需要进行实时处理,给出实时响应,否则分析结果就会失去商业价值。 ![在这里插入图片描述](https://img-blog.csdnimg.cn/ee92475278104f9085e1e2ccdbe964a5.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBA5LuK5pma5ru_5aSp5pif,size_13,color_FFFFFF,t_70,g_se,x_16#pic_center) 流计算框架如下: ![在这里插入图片描述](https://img-blog.csdnimg.cn/9d17fd9a4ec24ff699692e9745372f28.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBA5LuK5pma5ru_5aSp5pif,size_13,color_FFFFFF,t_70,g_se,x_16#pic_center) -
图计算:典型代表为Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb等。 处理大规模图结构数据。 现实生活中比如社交网络、交通网络都可以转成图结构进行处理。 ![在这里插入图片描述](https://img-blog.csdnimg.cn/9334df4d41d2453ba2b91f9c4cb4c9ff.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBA5LuK5pma5ru_5aSp5pif,size_20,color_FFFFFF,t_70,g_se,x_16#pic_center) -
查询分析计算:典型代表为Hive、Dremel、Cassandra、Impala等。 用于大规模数据的存储管理和查询分析。
计算模式总结表如下: ![在这里插入图片描述](https://img-blog.csdnimg.cn/5b006b36d18f4afa879c18b8cf449fc6.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBA5LuK5pma5ru_5aSp5pif,size_20,color_FFFFFF,t_70,g_se,x_16#pic_center)
1.5 大数据与云计算、物联网的关系
1.5.1云计算
云计算要解决两大核心问题:即海量数据存储和处理问题。 ![在这里插入图片描述](https://img-blog.csdnimg.cn/2d1e60c4f77f4027a7395ba874c669be.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBA5LuK5pma5ru_5aSp5pif,size_20,color_FFFFFF,t_70,g_se,x_16#pic_center)
云计算典型特征:虚拟化、多租户。
云计算的概念:通过网络以服务的方式为用户提供非常廉价的IT资源。
云计算的优势:企业不需要自建IT基础设施,可以租用云端资源。
云计算的三种模式:公有云、混合云、私有云。 公有云举例:百度云,面向所有用户。 私有云举例:电信、移动,面向企业内部。 混合云:部分给自己,部分给公众。 ![在这里插入图片描述](https://img-blog.csdnimg.cn/0e1c29a365c045138acf043cce6a760f.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBA5LuK5pma5ru_5aSp5pif,size_15,color_FFFFFF,t_70,g_se,x_16#pic_center)
三种云服务:IaaS、PaaS、SaaS
- IaaS:基础设置即服务
将基础设施(计算资源和存储)作为服务出租。 比如亚马逊提供了EC2,可以直接购买并在环境上安装系统和业务等,平台已经提供CPU等资源。 - PaaS:平台即服务
个体没有能力独立开发云计算产品,不具备环境。 比如新浪搭建了云计算分布式开发平台Sina App Engine,可以购买后在新浪上开发、部署云服务。 - SaaS:软件即服务
将软件作为服务出售。 典型案例:云财务软件。 从一个集中的系统部署软件,使之在一台本地计算机上(或从云中远程地)运行的一个模型。由于是计量服务,SaaS允许出租应用程序,并计时收费。 ![在这里插入图片描述](https://img-blog.csdnimg.cn/a932466b27024df9a19527cf627c6a9e.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBA5LuK5pma5ru_5aSp5pif,size_20,color_FFFFFF,t_70,g_se,x_16#pic_center)
云计算关键技术:
- 多租户:同时为多个用户服务。
- 虚拟化:上机操作均基于Linux环境,可以利用虚拟化技术,再虚拟机上装Linux系统。比如虚拟专用网VPN。
![在这里插入图片描述](https://img-blog.csdnimg.cn/ad682de39d284e4088254262086d3b49.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBA5LuK5pma5ru_5aSp5pif,size_17,color_FFFFFF,t_70,g_se,x_16#pic_center)
云计算数据中心:数据中心是云计算的温床。各种数据和应用都位于数据中心。 ![在这里插入图片描述](https://img-blog.csdnimg.cn/d5682b6601964d9ba393b854ba658c98.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBA5LuK5pma5ru_5aSp5pif,size_20,color_FFFFFF,t_70,g_se,x_16#pic_center)
全球各地大量建设数据中心: ![在这里插入图片描述](https://img-blog.csdnimg.cn/00aead5df5634c3383ef1b827d8c7e66.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBA5LuK5pma5ru_5aSp5pif,size_16,color_FFFFFF,t_70,g_se,x_16#pic_center)
数据中心投资非常高昂、耗能非常大,因此必需建设在地址结构稳定、气候凉爽的地方。
政务云、教育云、中小企业云、医疗云都是云计算的应用。 ![在这里插入图片描述](https://img-blog.csdnimg.cn/0c82a696f2c94feab743e8b0918269dc.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBA5LuK5pma5ru_5aSp5pif,size_20,color_FFFFFF,t_70,g_se,x_16#pic_center)
1.5.2物联网
物联网:IoT(The Internet of Things)
物联网概念:物物相连的互联网,是互联网的延伸。 ![在这里插入图片描述](https://img-blog.csdnimg.cn/33eb974a3db545778ab460825e33d43d.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBA5LuK5pma5ru_5aSp5pif,size_16,color_FFFFFF,t_70,g_se,x_16#pic_center)
物联网层次架构: ![在这里插入图片描述](https://img-blog.csdnimg.cn/b55a5ff9b4714a61a8bf4466e3807974.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBA5LuK5pma5ru_5aSp5pif,size_16,color_FFFFFF,t_70,g_se,x_16#pic_center)
典型物联网应用:智能公交。在公交车上的JPS定位相当于感知层,通过沿途基站传输信息,用户通过因特网访问。
物联网的关键技术:
- 识别与感知技术(二维码、RFID、传感器等)
- 网络与通信技术
- 数据挖掘与融合技术等。
物联网应用: ![在这里插入图片描述](https://img-blog.csdnimg.cn/c4075b3a484344f783925e24ff124e2c.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBA5LuK5pma5ru_5aSp5pif,size_18,color_FFFFFF,t_70,g_se,x_16#pic_center)
1.5.3大数据、云计算、物联网的关系
三者相辅相成,既有联系又有区别。 ![在这里插入图片描述](https://img-blog.csdnimg.cn/3a0070f290b743c5acf0a80e2eeea907.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBA5LuK5pma5ru_5aSp5pif,size_20,color_FFFFFF,t_70,g_se,x_16#pic_center)
|