目录
一、 绪
二、 大数据安全与隐私保密需求?
2.1 大数据安全
2.2 大数据隐私保密
三、 大数据安全与隐私保护技术框架
3.1 大数据安全技术
1.大数据访问控制
?2.安全检索
四、基本密码学工具
4.1 加密技术
4.2 数字签名技术
4.3 Hash 和 MAC 技术
五、隐私保密技术基础知识
5.1 数据隐私保护场景
5.2 隐私保密需求
一、 绪
? ? ? ? 随着云计算、物联网及移动互联网技术的迅速发展,人们已经迈入大数据时代。大数据技术正在加速推进数据资源的汇集,成为当代社会的三大产业支柱之一。但同时,大量数据的融合、分析与应用对用户带来了前所未有的隐私泄露威胁正引发学术界产业界和广大互联网用户的广泛关注。目前安全与隐私保密问题已成为大数据技术中重要的研究内容之一。
二、 大数据安全与隐私保密需求?
2.1 大数据安全
? ? ? 大数据普遍存在巨大的数据安全需求。大数据由于价值密度高,往往成为众多黑客觊觎的目标,吸引了大量攻击者铤而走险。例如在2017年,我国某著名互联网公司内部员工盗取并贩卖涉及交通、物流、医疗、社交、银行等个人信息50亿条,通过各种方式在网络黑市贩卖。
? ? ? ?经典的数据安全需求包括数据机密性、完整性和可用性等,其目的是防止数据在数据传输、存储等环节中被泄露或破坏。通常实现信息系统安全需要结合攻击路径分析、系统脆弱性分析以及资产价值分析等,全面评估系统面临的安全威胁的严重程度,并制定对应的保护、响应策略,使系统达到物理安全、网络安全、主机安全、应用安全和数据安全等各项安全要求。而在大数据场景下,不仅要满足经典的信息安全需求,还必须应对大数据特性所带来的各项新技术挑战。
? ? ? ?挑战之一是如何在满足可用性的前提下保护大数据机密性。安全与效率之间的平衡一直是信息安全领域关注的重要问题,但在大数据场景下,数据的高速流动特性以及操作多样性使得安全与效率之间的矛盾更加突出。以数据加密为例,它是实现敏感数据机密性保护的重要措施之一。? ? ?
? ? ? ?挑战之二是如何实现大数据的安全共享。访问控制是实现数据受控共享的经典手段之一。但在大数据访问控制中,用户难以信赖服务商能够正确实施访问控制策略,且在大数据应用中实现用户角色与权限划分更为困难。以医疗领域应用为例,一方面医生为了完成其工作可能需要访问大量信息,专业性很强,安全管理员难以一一设置;但另一方面又需要对医生行为进行监测与控制,限制医生对病患数据的过度访问。因此,实现大数据访问控制不仅需要智能化的安全策略管理,而且需要可信的访问控制策略实施机制。
? ? ? ?挑战之三是如何实现大数据真实性验证与可信溯源。当一定数量的虚假信息混杂在真实信息中时,往往容易导致人们误判。例如,一些点评网站上的虚假评论可能误导用户去选择某些劣质商品或服务。导致大数据失真的原因是多种多样的,包括伪造或刻意制造的数据干扰工干预的数据采集过程中引入的误差、在传播中的逐步失真、数据源更新与失效等,这些因素都可能最终影响。数据分析结果的准确性。需要基于数据的来源真实性、传播途径、加工处理过程等,了解各项数据可信度,防止分析得出无意义甚至错误的结果。
2.2 大数据隐私保密
? ? ? ?由于有相当一部分大数据是源自人的,所以除安全需求外,大数据普遍还存在隐私保护需求。大量事实表明,未能妥善处理隐私保护问题会对用户造成极大的侵害。以往企业认为,数据经过匿名处理后,不包含用户的标识符,就可以公开发布了。但事实上,仅通过这种简单匿名保护并不能达到隐私保护目标。
? ? ? ?由于去匿名化技术的发展,实现身份匿名越来越困难。攻击者可从更多的渠道获取数据,通过多数据源的交叉比对、协同分析等手段可对个人隐私信息进行更精准的推测,使原有基于模糊、扰动技术的匿名方案失效。不仅同质数据源可以去匿名化,不同类型数据之间也可以关联。通过搜集用户的旅游签到、电影点评、购物记录等足够多的信息碎片,将跨应用的不同账号联系起来,将用户不同侧面的信息联系起来,也可以识别出用户的真实身份。例如新浪微博明星小号曝光导致明星形象危机的事件层出不穷。此外,用户轨迹、行为分析也可能导致用户个人身份泄露。
? ? ? ?总体而言,目前用户数据的收集、存储、管理与使用等均缺乏规范,更缺乏监管,主要依靠企业的自律。用户无法确定自己的隐私信息的用途。而在商业化场景中,用户应有权决定自己的信息如何被利用,实现用户可控的隐私保护。例如用户可以决定自己的信息何时以何种形式披露,何时被销毁,主要包括数据采集时的隐私保护、数据共享和发布时的隐私保护、数据分析时的隐私保护、数据生命周期的隐私保护以及隐私数据可信销毀等。
三、 大数据安全与隐私保护技术框架
? ? ? ?不同的安全需求与隐私保护需求一般需要相应的技术手段支撑。例如,针对数据采集阶段的隐私保护需求,可以采用隐私保护技术,对用户数据做本地化的泛化或随机化处理。针对数据传输阶段的安全需求,可以采用密码技术实现。而对于包含用户隐私信息的大数据,则既需要采用数据加密、密文检索等安全技术实现其安全存储,又需要在对外发布前采用匿名化技术进行处理。但这种技术划分也并不是绝对的,相同的需求可以用不同技术手段实现。以位置隐私保护为例,虽然传统上多采用泛化、?失真等隐私保密技术。
3.1 大数据安全技术
? ? ? ?大数据安全技术旨在解决数据在传输、存储与使用各个环节面临的安全威胁。其面临的核心挑战在于满足数据机密性、完整性、真实性等安全目标的同时,支持高效的数据查询、计算与共享。介绍以下几类关键技术:
1.大数据访问控制
? ? ? ?大数据访问控制包括采用和不采用密码技术两种技术路线。前者的代表是密文访问控制,无须依赖可信引用监控器,安全性强,但加密带来的计算负担影响性能。后者的主要代表是角色挖掘、风险自适应访问控制,其特点是效率高、灵活度高,但依赖可信引用监控器实施数据的安全策略,面临可信引用监控器构建困难的问题。
1)基于密码学的访问控制 ? ? ? ?为了保障云环境中数据的安全共享,数据属主需要确保解密密钥只授权给合法用户,这通常使用基于密码学的访问控制技术来解决。根据使用的加密算法类型可大致分为两类:一类基于传统的公钥密码学,另一类基于函数加密(也称功能加密)的公钥密码学。前者基于传统的公钥密码学(如公钥基础设施(?PKI?)等)保护数据的加密密钥,或将其存储在专门的“锁盒”里。后者是一种新的公钥加密技术,支持细粒度访问控制和丰富的策略表达方式。属性加密(?ABE?,也称基于属性的加密或属性基加密)是一种典型的函数加密,当前?ABE?密文访问控制技术的研究主要集中在权限撤销、多权威机构等方面。
2)角色挖掘 ? ? ? ?角色挖掘起源于基于角色的访问控制,能够辅助管理员发现系统中的潜在角色,从而简化管理员的权限管理工作。其中,基于机器学习的角色挖掘技术可用性更强,角色可合理解释,而且策略反映权限实际使用情况。生成角色模型用途广泛,既可用于策略中错误的发现和标识,也可用于权限使用过程中的异常检测。
3)风险自适应访问控制 ? ? ? ? 针对大数据场景中安全管理员缺乏足够的专业知识,无法准确地为用户分配数据访问权限的问题,人们提出了风险自适应访问控制技术,将风险量化并为使用者分配访问配额。评估并积累用户访问资源的安全风险,当用户访问的资源的风险数值高于某个预定的门限时,限制用户继续访问。通过合理定义与量化风险,提供动态、自适应的访问控制服务。
?2.安全检索
? ? ? ?加密是保护云环境中数据安全的重要手段,但是密文数据的高效使用离不开密文检索,典型需求包括关键词检索与区间检索。前者又常被称为可搜索加密(?searchable?encryption?),包括对称可搜索加密和非对称可搜索加密。后者又可以进一步划分为单维、二维和多维区间检索。除密文检索外,安全检索还包括隐秘信息获取(?PIR?)以及健忘?RAM?(?Oblivious?RAM?,?ORAM?)等多种类型。
1)?PIR?系列与?ORAM? ? ? ? ?隐秘信息获取是源于数据库检索领域的一种安全需求,指用户在不向远端服务器暴露查询意图的前提下对服务器的数据进行查询并取得指定数据;?Oblivious?RAM?在读写过程中向服务器端隐藏访问模式等。两者均关注用户保护访问模式,防止用户的意图被攻击者或服务器探知,区别在于后者同时还关注数据机密性。
2)对称可搜索加密 ? ? ? ?可搜索加密研究快速检索出包含特定关键词或满足关键词布尔表达式的密文文档的方法。对称可搜索加密(?Symmetric?Searchable?Encryption?,?SSE?)适用于数据提交者与查询者相同的使用场景。?SSE?经历了顺序查询、倒排索引、索引树等构造发展历程,当前查询性能已有了极大提升。它关注的安全目标由基础性的选择关键字语义安全(如?IND?-?CKA?、IND2-CKA等)扩展至查询模式安全性、查询的前向安全性等多种安全性质。相关研究包括多关键字查询、模糊查询、?Top?—?k?查询和多用户?SSE?等。
3)非对称可搜索加密 ? ? ? ?与?SSE?不同,非对称可搜索加密(?Asymmetric?Searchable??Encryption?,?ASE?)的主要应用场景是第三方检索。由于数据所有者与检索者不是同一个人,所以一般采用公钥技术实现关键词陷门生成与检索。
4)密文区间检索 ? ? ? ?密文区间检索是实际应用中另一大类重要需求,旨在利用数据之间存在的顺序关系,不必按顺序扫描,而以更快速的方法查找指定区间的数据。典型方案包括近邻数据分桶、保序加密、密文索引树等。各类方案提供不同程度的安全性,例如方案是否暴露所有数据间的顺序关系、查询条件上下界的大小关系、区间之间的包含关系等。各类方案的效率也存在显著差异,一个优秀的密文区间检索方法能很好地实现检索效率与安全性之间的平衡。
四、基本密码学工具
?? ? ? 密码学可有效地保障信息的机密性、完整性、认证性和不可否认性,是大数据安全和隐私保护的基础工具。重点介绍密码学的一些基本概念:
4.1 加密技术
传统加密技术的主要目标是保护数据的机密性。一个加密算法被定义为一对数据变换。其中一个变换应用于数据起源项,称为明文,所产生的相应数据项称为密文。而另一个变换应用于密文,恢复出明文。这两个变换分别称为加密变换和解密变换。习惯上,也使用加密和解密这两个术语。加密和解密的操作通常都是在一组密钥控制下进行的,分别称为加密密钥和解密密钥。主要有两大类加密技术:一类是对称加密,另一类是公钥加密。对称加密的特征是加密密钥和解密密钥一样或相互容易推出;公钥加密(也称非对称加密)的特征是加密密钥和解密密钥不同,从一个难以推出另一个。
1.对称加密技术
? ? ? ?对称加密分为两种:一种是将明文消息按字符逐位地加密,称为序列密码(也称流密码);另一种是将明文消息分组(每组含有多个字符),逐组地进行加密,称为分组密码,例如分组密码 AES 和SM4以及序列密码 ZUC 。 AES 是美国国家标准技术研究所( NIST )公布的一个分组密码,其分组长度为128b,密钥可为128b、192b或256b。SM4是中国公布的一个商用分组密码标准,其分组长度和密钥长度均为128b。 ZUC (祖冲之序列密码算法)是一个序列密码,已成为国际3GPP标准,也是中国的国家标准。 ZUC 算法逻辑上分为上中下3层,上层是16级线性反馈移位寄存器( LFSR ),中层是比特重组( BR ),下层是非线性函数
2.公钥加密技术
? ? ? ?公钥密码是由 Diffie 和 Hellman 于1976年首次提出的。与对称密码不同,公钥密码采用两个不同的密钥将加密功能和解密功能分开。一个密钥称作私钥,像在对称密码中一样,该密钥被秘密保存。另一个密钥称作公钥,不需要保密。公钥密码必须具有如下重要特性:给定公钥,要确定出私钥是计算上不可行的。
公钥密码的设计比对称密码的设计具有更大的挑战性,因为公钥为攻击算法提供了一定的信息。目前使用的公钥密码的安全性基础主要是数学中的困难问题。最流行的有两大类:一类是基于大整数因子分解问题的,如 RSA 公钥加密;另一类是基于离散对数问题的,如椭圆曲线公钥加密、SM2公钥加密等。1977年由 Rivest 、 Shamir 和 Adleman 提出了第一个比较完善的公钥密码,这就是著名的 RSA 算法。 RSA 也是迄今应用最广泛的公钥密码,其安全性基于大整数因子分解困难问题:已知大整数 N ,求素因子 p 和 q ( N = pq )是计算困难的。1985年, Koblitz 和 Miller 分别独立地提出了椭圆曲线密码,( Elliptic Curve Cryptography , ECC )。椭圆曲线密码的安全性基于椭圆曲线群上计算离散对数困难问题。椭圆曲线密码能用更短的密钥来获得更高的安全性,而且加密速度比 RSA 快,因此,在许多资源受限的环境中得到了广泛的应用。SM2椭圆曲线公钥密码算法是中国的一个公钥密码标准,包括公钥加密算法、数字签名算法、密钥交换协议。
4.2 数字签名技术
? ? ? ? 数字签名是一种以电子形式存储的消息签名。数字签名算法由一个签名者对数据产生数字签名,并由一个验证者验证签名的可靠性。每个签名者有一个公钥和一个私钥,其中私钥用于产生数字签名,验证者用签名者的公钥验证签名。一个数字签名方案应具备如下基本特点:
(1)不可伪造性。在不知道签名者私钥的情况下,任何其他人都不能伪造签名。
(2)不可否认性。签名者无法否认自己对消息的签名。
(3)保证消息的完整性。任何对消息的更改都将导致签名无法通过验证。
公钥密码可提供功能强大的数字签名方案,而无须接收者秘密保存验证密钥。
? ? ? ?目前诸多数字签名方案主要基于公钥密码。除了 RSA 数字签名方案外,目前还有很多不同功能、不同类型的数字签名方案。 ISO 数字签名标准 ECDSA 和中国的商用密码标准SM2椭圆曲线数字签名就是两个重要的数字签名标准。 ECDSA 数字签名是使用椭圆曲线对数字签名算法 DSA 的模拟。 ECDSA 于1998年成为 ISO 标准,于1999年成为 ANS 标准,于2000年成为 IEEE 和 FIPS 标准。 ECDSA 是 EIGamal 公钥密码的一种变形,其安全性依赖于椭圆曲线群上计算离散对数困难问题。SM2数字签名与 ECDSA 数字签名一样,其安全性也依赖于椭圆曲线群上计算离散对数困难问
题。
4.3 Hash 和 MAC 技术
? ? ? ?Hash 函数(也称杂凑函数或哈希函数◇可将任意长的消息压缩为固定长度的 Hash 值。 Hash 函数需具有如下性质:
(1)单向性。对一个给定的 Hash 函数值,构造一个输入消息将其映射为该函数值是计算上不可行的。
(2)抗碰撞性。构造两个不同的消息将它们映射为同一个 Hash 函数值是计算上不可行的。
?Hash 函数可用于构造分组密码、序列密码和消息认证码,也是数字签名的重要组件,可破坏输入的代数结构,进行消息源认证;也可用于构造伪随机数生成器,进行密钥派生等。典型的 Hash 函数有 SHA —256算法,SM3算法和 SHA —3算法。 与?Hash?数技术相关的是消息认证码(?Message?Authentication?Code?,?MAC?)技术。?MAC?算法也是基于一个大尺寸数据生成一个小尺寸数据,在性能上也需要避免碰撞,但?MAC?算法有密钥参与,计算结果类似于一个加密的?Hash?函数值,攻击者难以在篡改内容后伪造它。因此,?MAC?值可单独使用,而?Hash?数值一般配合数字签名使用。?MAC?算法主要基于分组密码或普通?Hash?算法改造,?HMAC?是最常用的?MAC?算法,它通过?Hash?函数来实现消息认证。?HMAC?可以和任何迭代?Hash?函数(如MD5、?SHA?—1)结合使用而无须更改这些?Hash?函数。
五、隐私保密技术基础知识
? ? ? ?大数据时代,人类活动前所未有地被数据化。移动通信、数字医疗、社交网络、在线视频、位置服务等应用积累并持续不断地产生大量数据。以共享单车为例,截至2017年5月底,国内共享单车累计服务已超过10亿人次,注册用户超过1亿个。面向这些大规模、高速产生、蕴含高价值的大数据的分析挖掘不但为本行业的持续增长做出了贡献,也为跨行业应用提供了强有力的支持。共享单车的骑行路线在交通预测、路线推荐、城市规划方面具有重要意义。
? ? ? ?而随着数据披露范围的不断扩大,隐藏在数据背后的主体也面临愈来愈严重的隐私挖掘威胁,例如根据骑行路线推理个人用户的家庭住址、单位地址、出行规律,或者匿名用户被重新识别出来,进而导致“定制化”攻击,等等,为用户为满足用户保护个人隐私的需求及相关法律法规的要求,大数据隐私保护技术需确保公开发布的数据不泄露任何用户敏感信息。同时,隐私保护技术还应考虑到发布数据的可用性。因为片面强调数据匿名性,将导致数据过度失真,无法实现数据发布的初衷。因此,数据隐私保护技术的目标在于实现数据可用性和隐私性之间的良好平衡。
5.1 数据隐私保护场景
一般来说,一个隐私保护数据发布方案的构建涉及以下4个参与方:
(1)个人用户:收集数据的对象。
(2)数据采集/发布者:数据采集者与用户签订数据收集、使用协议,获得用户的相关数据。数据采集者通常也负责数据发布(用户本地隐私保护情景除外)。根据数据发布的目的和限制条件,数据发布者对数据进行一定的处理并以在线交互或离线非交互方式提供给数据使用者,在进行数据处理时还须预防潜在的恶意攻击。
(3)数据使用者:任意可获取该公开数据的机构和个人。数据使用者希望获得满足其使用目的尽可能真实有效的数据。
(4)攻击者:可获取该公开数据的恶意使用者。攻击者可能具有额外的信息或者知识等,试图利用该公开识别特定用户身份,获取关于某特定用户的敏感信息,进而从中牟取利益。
5.2 隐私保密需求
用户隐私保需密求可分为身份隐私、属性隐私、社交关系隐私、位置与轨迹隐私等几大类。
(1)身份隐私。它是指数据记录中的用户 ID 或社交网络中的虚拟节点对应的真实用户身份信息。通常情况下,政府公开部门或服务提供商对外提供匿名处理后的信息。但是一旦分析者将虚拟用户 ID 或节点和真实的用户身份相关联,即造成用户身份信息泄露(也称为“去匿名化”)。用户身份隐私保护的目标是降低攻击者从数据集中识别出某特定用户的可能性。
(2)属性隐私。属性数据用来描述个人用户的属性特征,例如结构化数据表中年龄、性别等描述用户的人口统计学特征的字段。宽泛地说,用户购物历史、社交网络上用户主动提供的喜欢的书、音乐等个性化信息都可以作为用户的属性信息。这些属性信息具有丰富的信息量和较高的个性化程度,能够帮助系统建立完整的用户轮廓,提高推荐系统的准确性等。然而,用户往往不希望所有属性信息都对外公开,尤其是敏感程度较高的属性信息。例如,某些视频观看记录被公开会对用户的形象造成不良影响。但是,简单地删除敏感属性是不够的,因为分析者有可能通过对用户其他信息(如社交关系、非敏感属性、活动规律等)进行分析、推测将其还原出来。属性隐私保护的目标是对用户相关属性信息进行有针对性的处理,防止用户敏感属性特征泄露。
(3)社交关系隐私。用户和用户之间形成的社交关系也是隐私的一种。通常在社交网络图谱中,用户社交关系用边表示。服务提供商基于社交结构可分析出用户的交友倾向并对其进行朋友推荐,以保持社交群体的活跃和黏性。但与此同时,分析者也可以挖掘出用户不不愿公开的社交关系、交友群体特征等,导致用户的社交关系隐私甚至属性隐私暴露。社交关系隐私保护要求节点对应的社交关系保持匿名,攻击者无法确认特定用户拥有哪些社交关系。
?(4)位置轨迹隐私。用户位置轨迹数据来源广泛,包括来自城市交通系统、 GPS 导航、行程规划系统、无线接入点以及各类基于位置服务的 APP 数据等。用户的实时位置泄露可能会给其带来极大危害,例如被锁定并实施定位攻击。而用户的历史位置轨迹分析也可能暴露用户隐私属性、私密关系、出行规律甚至用户真实身份,为用户带来意想不到的损失。用户位置轨迹隐私保护要求对用户的真实位置进行隐藏或处理,不泄露用户的敏感位置和行动规律给恶意攻击者,从而保护用户安全。
? ? ? ? 从数据类型角度看,用户隐私数据可表示为结构化数据或非结构化数据。通常,用户的属性信息(如年龄、性别、购物记录等)属于典型的结构化数据,可表示为数据库表;用户位置、轨迹数据一般以点集的形式表示,也属于结构化数据。而用户社交关系数据则表现为相对复杂的网络关系,属于非结构化数据,一般用图结构表示。
? ?
|