在数据流转的过程中,一个完整的数据生命周期通常被划分为六阶段: **1. 数据采集:**指新数据产生或现有数据内容发生显著改变或更新的阶段。对组织机构而言,“数据采集”即包含组织机构内部系统生成的数据,也包含组织机构从外部采集的数据。 **2. 数据存储:**指非动态数据以任意数据格式进行物理存储的阶段。 **3. 数据处理:**指组织机构内部针对动态数据展开的一系列活动组合。 **4. 数据传输:**指数据在组织机构内部从一个实体通过网络传输流动到另一个实体的过程。 5. 数据交换: 指经由组织机构内、外部及个人之间在交互过程中提供数据的阶段。 **6. 数据销毁:**指通过对数据及对其存储介质采取相应的操作手段,使数据彻底丢失且任何方式都无法恢复的过程。
今天,我们针对数据采集所涉及的问题简单分析一下——
数据采集在这里分为两种: 1)新的数据产生 2)现有数据内容发生显著改变或更新
实际上,若是深度分析,关于数据采集终归只有一种——新的数据产生。这是因为当现有数据内容发生显著改变或更新时,这种变化必然改变数据并使之发生“质”变,从而成为新数据。举个例子,一家企业召开一个大型数据研讨会,如果只收集参会人员名单,形成一个参会人员列表清单文件,这个列表清单是一个类型的数据,即1)的情况。但如果会后有人决定修改数据,追加参会人员的邮箱、手机号和身份证号等字段信息,形成的新文档从表面讲就是2)的情况。但实际上,修改后的文件已经发生了质变,成为包含个人隐私的文件。不论原来的参会人员列表清单是否保留或销毁,新文件与原文件都具有“质”的区别,因此完全可以说修改后的文件是“新的数据产生”,即新文档可归属为1)的情况。
所以,这里我们重点关注1)的情况(即:新的数据产生)。新数据在产生的过程中以格式形态可分为两大类:
1)结构化数据 各种各样的注册登记表就属于结构化数据。比如病人就诊病历卡、员工入职登记表等等,每个表格都有特定的格式规范。无论纸质手填表再扫描载入或是电脑表格直接输入,这样的数据入库后都属于结构化数据,结构化数据的特点是数据入库不以文件为单元。
2)非结构化数据 其它以文件为单位入库的数据即为非结构化数据。这里要指出的是,在上述提到纸张表格,如果扫描后不做数据解析而是直接以图片形式入库,这样的表格也属于非结构性数据。
无论是结构化或是非结构化数据,数据的重要属性,早在新的数据产生时就已决定好了。数据依照属性也可分两个大方向: 1)数据是否要保护——数据的可见度,谁可以访问(看)这个数据(数据敏感度); 2)数据的适用范围——数据分类,数据对哪类人或应用更有用(数据类别)。
关于数据的可见度(或敏感度):需要保护的数据是网络数据安全的保护对象。为了区分不需保护的数据,受保护数据统称为“敏感数据”。敏感数据只有一个标准来衡量,即数据的可见度或敏感度。数据的可见度越低,数据的敏感程度(级别)越高。数据的可见度(敏感度)决定了在组织或企业内部什么权限的人员可以访问其敏感数据。
对于非结构化数据,敏感数据的可见度是由文件“作者”(文件的发起人)或“作者”的上级领导来决定的。在上述的纸张表格若在扫描后未做数据解析而直接以图片格式入库的敏感数据,其可见度也是由相关部门事先决定。
对于结构化的敏感数据,数据的“作者”即填表人(包括表格的输入者或扫描者)不能决定数据的可见度(敏感程度)。数据的可见度是由表格制定的相关部门决定的。可见度定下来,数据进什么数据库也基本定下来了。
数据的敏感度越高,数据的可见度就越低。因此,敏感文件产生入库前,其敏感级别就基于其数据可见度来决定。在一个信息化管理规范的组织或企业,一个敏感文件入什么库,什么人可以看此敏感文件,绝不是在数据入库之后才决定,也不由个人主观臆断来决策,而是以组织的规章制度来规范的。
从数据的产生开始对其决定适当的敏感度是非常重要的。数据的敏感度越高,带来的维护使用成本也越高。而敏感度定义不准,会导致敏感数据泄露。敏感数据泄露,轻则给组织或企业带来经济损失,重则触犯法律,导致失去人身自由。因此,业内共识是“宁可错杀三千,也不放过一个”,也就是说,若已知是敏感数据但却对数据敏感度“吃不准”,通常就用比较高的敏感度(也就是较低可见度),以此避免不必要的数据泄露,但这种做法给数据的使用及维护增加了成本。
|