随着数据分类分级成为市场热点之后，市面上数据分类分级产品不断涌现出来，但功能都大同小异，原理和方法论都摆在那里，能区分的就是产品核心技术和安全服务的区别，能不能做好数据分类分级这项工作依赖于对客户业务的深度理解融合。

关于数据分类分级的解决方案请看金融数据安全分类分级解决方案，可以了解下整体思路和基本概念；关于数据分类分级产品的介绍请看数据分类分级产品，一文详解；可以了解产品基本功能和实现原理，当你看了前两篇文章有了初步的理解之后，这篇文章重点讨论了数据分类分级工具的敏感数据识别能力和功能优化的一些深度思考。

1、敏感数据识别

数据分类分级的准确度和效率取决于工具的识别能力是否强大，即“工具是不是真的能够看到数据、看懂数据”。

? 1.1落地难点

数据分类分类大多数安全工具都是基于模式匹配和相对敏感级别来执行的，然后将该结果记录在存储库中或作为文档上的标签或标签，敏感数据识别策略是数据识别的一个核心能力点。

市面上很多工具大多会选择从具备明显数据特征的数据切入。如身份证号码有固定的编码，手机号码有固定的位数格式，姓名、民族等都具有易于定义和区分的含义，识别策略较容易设计。

客户特定且不断增长的业务数据，在数据分类分级的框架下往往不具备明显的数据特征，甚至还可能存在歧义。比如一个姓名，他可能是企业员工，也可能是企业用户，在不同的业务场景和数据类别中，其重要程度和敏感度是不一样的。例如，数字35可以是门牌号、温度——实际上是任何东西，当数据分类分级产品仅限于模式匹配以进行发现和分类时，几乎无法发现某个数据特征不明显的业务数据是什么。

? 1.2技术实现

? ? 1.2.1常规识别技术

? ? ?①基于规则的自动识别，比如：正则表达式、关键字、算法、数据字典、包含、等于、字段名等规则。

通过用户自定义规则，自动识别敏感数据，使用自带的规则或自定义规则，对其结构化表或者非结构化文件进行整体扫描。

如何发现敏感数据字段？

通过定期全库扫描，识别敏感字段（周期触发）。如果新增或修改表和字段，增量扫描识别出敏感字段，需要监听数据库对表或字段的操作，来指定表或字段进行敏感识别扫描，需结合数据库代理服务。

日常的一些敏感数据识别

银行卡号、证件号、手机号，有明确的规则，可以根据正则表达式和算法匹配；姓名、特殊字段，没有明确信息，可能是任意字符串，可以通过配置关键字来进行匹配；营业执照、地址、图片等，没有明确规则，可以通过自然语言算法来识别，使用开源算法库。

? ? ②字段名匹配

针对已经做过元数据梳理或者人工分类分级的客户，可以把敏感数据的字段名导出来，在数据分类分级工具中输入敏感数据在数据库中对应表字段的名称，可以直接100%匹配到敏感数据，这种方式可以避免重复工作。

? ? ③人工辅助的数据资产识别

技术工具识别出来的结果再精准也不如人工，所以在敏感数据识别环节要预留人工二次确认的环节，提高准确性。

能落地的数据分类分级工具必须经过大量项目的沉淀，通过深度接触客户的业务，理解具体场景中的数据含义，掌握各种数据处理活动中的数据流动情况，再将这些知识和经验集成到工具中，才能发挥实际作用。

? ? 1.2.2AI（人工智能）和ML（机器学习）

理想化的数据分类分级技术工具应具备数据分类的语义能力——判断数据的实际情况和业务场景，而不是依赖于预配置的标识符。

安全厂商正在努力摆脱算法模式匹配，并正在添加基于人工智能/机器学习的功能，使技术工具的语义功能可以识别出“真正”的数据。

下面简单介绍一下基于人工智能的敏感数据发现。

? ? ①基于 NLP 自然语言技术的自动识别

自然语言处理（NLP）是指机器理解并解释人类paralyzes写作、说话方式的能力。NLP的目标是让计算机／机器在理解语言上像人类一样智能。

插入一段科普：人工智能三大阶段

阶段 1——机器学习：智能系统使用一系列算法从经验中进行学习。

阶段 2——机器智能：机器使用的一系列从经验中进行学习的高级算法，例如深度神经网络。人工智能目前处于此阶段。

阶段 3——机器意识：不需要外部数据就能从经验中自学习。

具体的算法模型不展开讨论，AI技术对于敏感数据的自动识别有关键意义。目前业内智能化打标一般指的是针对敏感数据进行打标。借助正则表达式、关键词、文档指纹、NLP、OCR、机器学习等先进AI技术提取敏感数据特征，建立相应敏感识别规则，然后统一录入规则引擎。

? ? ②机器学习

机器学习是未来战略技术趋势之一，当今最先进的机器学习和人工智能系统正在超越传统的基于规则的算法，机器学习在当前的大数据技术中扮演着重要的角色。机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能.在计算机系统中，“经验”通常以“数据”形式存在，因此,机器学习所研究的主要内容，是关于在计算机上从数据中产生“模型”的算法,即“学习算法”。

基于相似度算法

基于相似度算法可准确检测以文档形式存储的非结构化数据，例如 Word 与 PowerPoint 文件、PDF 文档、财务、并购文档，以及其他敏感或专有信息。

首先，手工或者通过感知算法提取文档指纹特征，以检测原始文档的已检索部分、草稿或不同版本的受保护文档。第二步进行敏感文件的学习和训练，获得敏感内容的文档时，采用语义分析的技术进行分词，提出来需要学习和训练的敏感信息文档的指纹模型，然后利用同样的方法对被测的文档或内容进行指纹抓取，将得到的指纹与训练的指纹进行比对，根据预设的相似度阈值去确认被检测文档是否为敏感信息文档。

基于非监督学习算法

基于无监督学习算法，人工无需打标签，进行特征设计与提取。

比如敏感图像场景提取目标关键点、文档数据根据语义提取特征向量。首先选取 K-means、DBSCAN 等聚类算法其中之一作为训练算法，然后将敏感数据待分类的数目赋为聚类“簇”的个数，将输入的样本数据进行聚类，聚类完成形成不同“簇”的数据集合，人工对这些“簇”的部分样本进行分析并确定相应“簇”的类别，比如敏感型、非敏感型。

基于监督学习算法

基于监督学习算法需收集一定数量的训练数据，同时对数据进行人工打标签，比如敏感 / 非敏感标签（二分类场景）。然后选择相应的监督学习算法，比如支持向量、决策树、随机森林、神经网络等，再对训练数据进行模型训练与调参。训练完成，将输出的模型应用在新的数据进行智能识别与预测，自动化输出数据类型--敏感 / 非敏感数据。

目前有公司宣称利用机器学习和聚类算法实现规模数据分类，以自动化发现个人数据以及其他敏感数据，但算法的效率、识别精度以及可扩展性仍然是一系列有挑战性的关键问题。

? ? ③深度学习

深度学习是机器学习的一大分支，在自然语言处理中需应用深度学习模型，如卷积神经网络、循环神经网络等，通过对生成的词向量进行学习，以完成自然语言分类、理解的过程。

与传统的机器学习相比，基于深度学习的自然语言处理技术具备以下优势：

(1)深度学习能够以词或句子的向量化为前提，不断学习语言特征，掌握更高层次、更加抽象的语言特征，满足大量特征工程的自然语言处理要求。

(2)深度学习无需专家人工定义训练集，可通过神经网络自动学习高层次特征

? ? ?简单例举机器学习中三种敏感数据识别的算法模型，具体技术细节不展开讨论。通过机器学习算法对数据进行多维度元数据特征向量自动提取，对相似字段的数据字段进行聚合归类。数据分类分级工具在有足够数据样板的条件下是可以支持机器学习的，通过各种AI算法自动完成敏感数据识别、分类分级，缩减了所投入的人力成本，敏感数据识别规则的沉淀随着分类分级工作的深入开展，边际成本递减。

? 1.3敏感数据识别存在的问题

全库扫描占用资源较大，是否可以使用采样的方式
应对增量数据如何处理，除了执行定期扫描是否还有其他方式
脏数据的判断识别，有的字段是NULL或者空格的，是否可以直接默认是定义为敏感级别
数据打标签，是对全库字段打标，还是只对采样数据进行打标，并单独存库用走后期的统计分析。
机器学习和聚类算法是否成熟，需要考虑精确度和效率。

2、分类分级进阶功能

? 2.1数据资产管理

支持数据源手动添加、自动发现、API 对接三种模式。

手工添加数据库，配置数据库的详细连接信息。
API 通用接口对接其他数据平台的元数据。
自动发现在通过IP地址区间和端口扫描自动化发现网络环境中存在的数据库。

? 2.2数据分类分级

数据自动分类分级。对识别到的数据资产结合内置识别模型和配置的分类分级规则进行分析，自动完成敏感数据识别和数据分类分级。

分类分级结果展示。完成分类分级自动打标后，需展示本次自动识别的数据分类分级结果清单以供查看和批准，并支持手工修改。

? 2.3数据资产地图

利用数据处理程序对采集的数据进行清洗、解析、处理，通过数据识别和分类分级引擎，结合数据识别策略、分类分级策略、数据识别和分类模型对处理后的数据进行匹配识别，准确定位数据中包含的敏感数据或重要数据，对其进行识别标记和分类分级标记。

利用数据分析引擎，对数据源、采集数据、识别结果等内容进行全面分析，形成企业数据资产地图、多维统计分析视图、资产分析报告、资产清单等，为企业进一步的数据价值挖掘、数据安全防护体系建设完成数据准备工作。

? 2.4敏感数据流动监控

在所有流动的数据资产可视基础上，发现敏感数据并进行分类分级，做到所有流动的数据已知，所有敏感数据已知。知道敏感数据资产的流转路径，涉及业务部门、时间、地点等信息。基于已知的敏感数据后续制定各种场景化的预警和告警，从而有效保护敏感数据。

? 2.5数据安全风险检测

能够展示数据访问热度、敏感数据分布等统计信息，对数据资产的访问源头、访问频率、访问时间、访问流量等敏感数据访问情况进行监测。这项功能涉及流量分析技术。

? 2.6数据开放共享管理

对数据分类分级之后进行共享管控，严格按照安全级别进安全管理，对高安全级别数据需要经过数据脱敏处理之后开放，对数据共享全链路进行风险监控；另一方面严格控制数据访问权限，设置数据消费（使用）账号进行权限区分。

以上举例的几个进阶功能只是一个理论概念，真正落地实现要看实际的业务场景需求，前提是先得打好数据分类分级的基础，其他的数据、数据安全防护的可扩展性才能被慢慢挖掘出来。

总结

? ? 对于数据分类分级这个技术工具的演变后面肯定是一个集成化的产品，与数据平台的对接或者安全产品的联动联防必定成为焦点，关于精细化防护的场景更多在运维端。搭配相应的组织架构、制度流程、人员配置，数据分类分级这项工作才能真正落地。

? ? 数据分类分级处在数据治理和数据安全治理的交汇处，这就意味着它的交互场景会非常多，往往很多时候需要应用的场景牵扯到业务，同时需要兼顾安全。对于数据安全和治理三个维度的要素，我们如果按照紧急或者是大小程度去排序，应该是数据＞治理＞安全，在整个数据安全或者是数据治理的过程当中，我们都应该考虑一个问题，如何对数据进行降本增效的效果。

? 下期更新分类分级落地最佳效果，落地之后怎么做，值得思考！

注：以上内容分享仅供参考和学习，如有侵权，请联系我删除。

[人工智能]数据分类分级的深度思考

文章目录

前言