该系列博文会根据Databricks的授课内容与个人理解进行博文的撰写。 截至今日,大数据之类的讨论已经非常随处可见,但是如果有人问大数据具体怎么定义?可能也不是很多人可以回答上来。所以我们这篇博文先来看看Databricks对大数据的理解。
大数据的特征
大数据有五种特征,分别为Volume, Velocity, Variety, Veracity和Value。
Volume
Volume,在这里我个人理解是指量,可能也是很多人对大数据最初的理解,大数据,大量的数据(massive volume of data)😉。 但是大量的数据的描述只是一个比较感性的认知,用数据表示的话大量到底是有多大? 根据International Data Corporation (IDC)的报告,在2018年,产生的数据量是33 Zetabytes,并且预计在2025年的时候这个数字会变成177 Zetabytes。 从数据分析师的角度来看的话,这个量级的数据带来的既是挑战也是机遇。从另一方面来说,更多的数据意味着它可以帮助我们做出更好的决策。所以这时候就会产生一个难点或者说疑问,我们要如何访问到所有的数据?
Velocity
Velocity,也即是速率,高中学过物理的同学应该对这个词不会陌生。这里的Velocity有两个指代含义:
有时候正在生成的移动数据可能正在从数据库中传输给终端用户。数据还可能在多个数据库之间移动,而且移动非常快。 从数据分析师的角度来看,聚集,分析以及对大量数据生成报告是一件好事,但问题是我们要如何对数据进行处理并实现分析的目的?还有数据检索起来是否容易以及我们是否可以创建一个可以真实反映数据的实时报告?
Variety
Variety,在这里的英文释义是“Different types and sources of data”。数据分析师通常要使用结构化和半结构化数据完成工作。但许多业务可能会收集非结构化数据,比如视频文件和社交帖子。所以数据分析师要如何使用这些数据结构完成工作,以及我们可以与数据交互的接入点在哪里?
Veracity
Veracity,是指数据的质量以及精准度。如果一个系统的数据相关输入输出操作会导致不同的数据速率,那我们不难想象这个系统有着数据不一致的问题需要考虑。对于数据分析师来说,高质量以及准确的数据对于生成最好的报告是至关重要的。所以这里有个疑问是我们数据有使用最精确的数据,以及数据是否有高可信度?
Value
上述几个特性都是会影响数据分析师的工作方式的点,而Value, 即数据价值,是数据分析师直接带给一个组织的东西。 从大数据中提取价值是非常复杂的一个过程,而且数据需要被转换为可分享,可操作的形式让它对组织可见。
|