在谈大数据之前,笔者想说点我与大数据的缘分,去年疫情期间。学校与华为公司共建了一个ICT学院,笔者学习了大数据的相关课程,了解到不少关于大数据的知识。写大数据文章的初衷就是把自己的心得体会与大家分享分享,由于笔者知识有限,文章有错误的地方还请大家不吝指正,感谢大家。
一、 大数据时代的到来
随着第三次信息化浪潮的到来,大数据时代也全面开启,人类不断发展的信息技术为大数据时代提供了技术支撑,数据产生方式的变革是促进大数据时代最重要的因素。
1. 大数据时代背景
2010年前后,以云计算、大数据、物联网的普及为标志迎来了第三次信息化浪潮。谈到第三次信息化浪潮,我们就简单说一下前两次信息化浪潮。
2. 大数据时代技术支撑
信息技术需要解决信息存储、信息传输和信息处理三个核心问题 ,针对这三个核心问题,存储设备容量的不断增加、CPU处理能力大幅提升和网络带宽的不断增加解决了这三个核心问题。
3. 大数据的发展历程
二、大数据的概念
随着技术的发展,数据的产生、传输和存储变得越来越容易。人类社会产生的信息也越来越多地被数据化。这些海量、详尽的数据让人们变得更客观、全面的探索和研究世界。
1. 什么是大数据
数据已经成为一种重要的生产要素,大小超出了典型数据库软件的采集、存储、管理和分析等能力的数据集被称为大数据。大数据具有“4V”特征,即海量的数据(Volume)、快速的数据处理(Velocity)、多样的数据类型(Variety)和低价值密度(Value)。
- 海量的数据(Volume):进入信息社会以来,数据增长速度急剧加快。我们生活在一个“数据爆炸”的时代。各种数据产生速度之快、产生数量之大,已经远远超出人类可以控制的范围,“数据爆炸”成为大数据时代的鲜明特征。
- 快速的数据处理{Velocity):大数据时代数据产生速度非常迅速。在1min内,新浪可以产生2万条微博,Twitter可以产生10万条推文,苹果可以下载4.7万次应用,淘宝可以卖出6万件商品,百度可以产生90万次搜索查询。对于某些应用来说,经常需要在数秒内对海量数据进行计算分析,并给出计算结果,否则处理结果就是过时和无效的。大数据可以通过对海量数据进行实时分析,快速的出结论,从而保证结果的时效性。
- 多样的数据类型(Variety):大数据的数据类型繁多,简单地可以分为结构化数据、半结构化数据和非结构化数据。其中,结构化数据主要指存储在关系型数据库中的数据。不方便用关系型数据库二维逻辑表来表现出来的数据即称为非机构化数据,其中包括图片、音频、视频、模型、连接信息、文档、位置信息、网络日志等。
- 低价值密度(Value):大数据虽然看起来很美,但是价值密度缺远远低于传统关系数据库中已经有的那些数据。在大数据时代,很多有价值的信息都是分散在海量数据中的。这些海量数据单独拿出来相关性都很低,只有在宏观的角度对所有数据进行分析才能得到有价值的结果。
2. 大数据来源
随着技术的发展,在日常生产和生活中数据越来越多地被记录和存储下来,人类社会信息化的进程不断地向前推进。在信息化过程中产生的大量数据,根据其产生来源可以分为两类:社交数据和机器数据。
3. 大数据的价值
一方面,大数据已经上升到各个国家的战略规划中,大数据是一种新的战略资源,现代科学技术的发展使我们有能力把这种资源利用起来,在更多的领域获得并使用全面完整的数据。另一方面,对于企业来说,数据是一种信息资产,企业可以通过大数据应用将这种资产真正利用起来以达到提高企业效益的目的。
三、大数据的关键技术
当人们谈到大数据时,往往并非仅指数据本身,而是数据和大数据技术二者的结合。所谓大数据技术,是指伴随着大数据的采集、存储、分析和应用的相关技术,是一系列使用非传统的工具来对大量的机构化、半结构化和非结构化数据进行处理,从而获得分析和预测结果的一系列数据处理和分析技术。
1. 大数据采集、预处理和存储管理
- 大数据采集技术:数据采集主要通过web、应用、传感器等方式获得各种类型的结构化、半结构化及非结构化数据,难点在于采集量大且数据类型繁多。采集网络数据可以通过网络爬虫或API的方式来获取。很多互联网企业都有自己的海量数据收集工具,用于系统日志的收集,如Hadoop的Flume,Facebook的Scribe等。
- 大数据预处理技术:大数据的预处理包括对数据的抽取和清洗等方面,数据的数据类型是多样化的,不利于快速分析处理,数据抽取过程可以将数据转化为单一的或者便于处理的数据结构。数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,可以将数据集中的残缺数据、错误数据和重复数据筛选出来并丢弃。
- 大数据存储及管理技术:大数据存储及管理与传统数据相比,难点在于数据量大、数据类型多,文件大小可能超过单个磁盘容量。企业要克服这些问题,可以综合利用分布式文件系统、数据仓库、关系型数据库等技术。常用的分布式文件系统有Google 的GFS、Hadoop的HDFS等。
2. 大数据分析与挖掘
数据分析及挖掘是利用算法模型对数据进行处理,从而得到有用的信息。数据挖掘会从大量复杂的数据中提取信息,通过处理分析海量数据发现价值。大数据平台通过不同的计算框架执行计算任务实现数据分析和挖掘的目的。常用的分布式计算框架有MapReduce、Storm和Spark等。其中MapReduce适用于复杂的批量离线数据处理;Storm适用于流式数据的实时处理;Spark基于内存计算,具有多个组件,应用范围较广。
3. 数据可视化
数据可视化是指将数据以图形图像形式表示,向用户清楚有效地传达信息的过程。通过数据可视化技术,可以生成实时的图表,它能对数据的生成和变化进行观察、跟踪,也可以形成静态的多维报表以发现数据中不同变量的潜在联系,
四、大数据应用场景
大数据无处不在,结合不同行业的应用场景可以创造出巨大的价值。
总结
本节介绍了大数据的基本概念、大数据的背景以及大数据在各行各业的广泛应用,对社会产生了深远的影响。 本篇文章借鉴了下面两本大数据书籍,在此郑重感谢。
《大数据技术原理与应用(第2版)》 林子雨编著 《大数据原理与技术》 黄史浩编著
|