IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 网络协议 -> Differential privacy——差分隐私 -> 正文阅读

[网络协议]Differential privacy——差分隐私

Q: 首先我们要明白什么是隐私?

在百度百科上是这样解释的 “ 隐私,顾名思义,隐蔽、不公开的私事”,即指个人的不愿公开的私事或秘密。那么在互联网信息泛滥的情况下,我们希望我们的数据能为我们的生活提供便利的同时,也不会泄露个人的敏感信息招致自身利益受损,所以这个时候就需要保护隐私。

由此出现了最早两个隐私度量作为隐私保护的衡量标准:

披露风险

攻击者通过发布的数据集所获取的信息进而披露隐私的概率。即通过攻击者披露隐
私的多少,来侧面反映隐私保护的效果。如果所有敏感数据的披露风险均小于阈值 
α (0≤ α ≤1),则称该数据集的披露风险为 α。

信息缺损 (多适用于单个属性进行度量)

经过隐私保护技术处理后数据的丢失,是针对发布数据集质量的一种度量。值得注意
的是要求先计算出每条准标准态中每个属性的取值泛化带来的信息缺损,进而计算出
每条记录泛化后的信息缺损,再根据这个来计算整个数据集的信息缺损。

Q: 由此一来我们知道了什么是隐私,那么什么是隐私保护呢?

隐私保护整体分成9个部分,包括隐私信息产生、隐私感知、隐私保护、隐私发布、私信息存储, 隐私交换, 隐私分析, 隐私销毁, 隐私接收者。主要研究方向在在隐私保护, 隐私发布/存储/交换, 隐私分析这 3 个部分。

在这里插入图片描述

Q: 那么保护隐私的方法又是什么呢?

隐私保护的方式主要分成以下三种包括,数据失真,数据加密,以及限制发布,目前的很多隐私保护技术往往结合了其中的多种技术。比如有k-匿名算法(K-Anonymous)、l-匿名算法(L-Diversity)、t-匿名算法(T-Closeness)等等。

1)数据失真

通过扰动原始数据来实现保护隐私,数据扰动的基本思想是隐藏真实的原始数据,
只呈现出数据的统计学特征。

2)数据加密

通过密码机制实现对原始数据的不可见性以及数据的无损失性,以实现隐私保护。

3)限制发布

通过选择性发布原始数据,确保披露风险在一定的阈值内。

在了解了K-Anonymous,L-Diversity和T-Closeness的基础上,我们发现现有的这些模型并不能提供足够的安全保障,它们总是因新型攻击的出现而需要不断完善。所以我们进一步提出了差分隐私模型,进一步确保我们隐私的安全性。

Q: 那么差分隐私又是什么呢?

差分隐私保护是通过采用添加噪声的技术使敏感数据失真,是基于数据失真的隐私保
护技术。

而且所需加入的噪声量与数据集的大小无关,即大的数据集只需加入小的噪声量即有
很高的安全性。

差分隐私的一般性方法

用户提交查询结果——>从数据库中提炼出一个中间件——>中间件用特别设计的随机算法加入噪音——>由此中间件推导出一个带噪的结果返回给用户
在这里插入图片描述

Q: 差分隐私差分在哪?什么又是差分呢?

差分隐私主要是为了应对每个数据集差为1的情况下,对那个差为1的数据的保护。

举个例子:

比如医院记录了所有人是否患有该疾病的记录,那么我们可以通过一下差分的方法来
获取某个人的具体信息。

(1)先查询整个数据库内患有该病的人数Num1;
(2)查询除某个人以外患有该病的人数Num2;
(3)如果两者相差为1的话,再不考虑重名的情况下,极大可能知道某个人真实的
患病情况;

这样我们的隐私就泄露了,这并不是我们想看到的。

Q: 差分隐私是如何运行的?

基本定义

1)ε(Privacy budget):隐私预算(或隐私代价),用户衡量隐私保护的程度。当参数ε 越小时, 作用
在一对相邻数据集上的差分隐私算法返回的查询结果的概率分布越相似, 攻击者就
越难以区分这一对相邻数据集, 保护程度就越高。当ε = 0时, 攻击者无法区分这
一对相邻数据集保护程度最高。

(但相对的是数据集保护程度越高,有用的信息就越少,ε趋向于0的时候,信息的
可用性也随之减少。)

目前分配隐私预算的方法有:均分,自适应(多用于动态数组),数据结构等。


2)敏感度(Sensitivity):指删除数据集中任一记录对查询结果照成的改变,
是决定加入噪声量大小的关键。分成全局敏感度,局部敏感度,平滑敏感度和弹
性敏感度。

它是控制噪声大小的参数,敏感度越大,为了维持输出结果相识所需添加的噪声
也就越大

差分隐私依据数据收集分析发放中保护的对象不一样可以分为两种差分隐私类型:中心化差分隐私和本地化差分隐私。

数据收集分析的一般流程如下:

数据收集——>(上传)——>第三方——>(分析)——>信息发布

1)中心化差分隐私(centralized differential privacy)简称CDP

原理:认为第三方是可信的,因此主要保护的是数据收集分析后的结果发放过程,
差分隐私保护机制运行在可信第三方上。

公式:
在这里插入图片描述

其中D和D‘为邻近数据集(二者互相之间至多相差一条记录,即增加或者加减一项数据得到的数据集)

所具有的性质:
(1)序列组合性。
(2)并行性。
(3)后期处理(post-processing)。

2)本地化差分隐私(Local Differential Privacy)简称LDP

原理:认为第三方是不可信的,所以本地差分隐私保护的是用户上传数据到第三方的
过程,差分隐私机制运行在各个用户的本地。

公式:
在这里插入图片描述

其中V和V’为任意的两个输出(values)。

所具有的性质:
(1)序列组合性。
(2)后期处理(post-processing)。

Q: 那么两者的异同是什么呢?

1)首先就是定义不同,CDP和LDP区别就是是否存在可行第三方。

2)其次就是操作的对象不同,CDP操作的对象是D和D'两个邻近数据集,而LDP操
作的对象是任意两个输出values;

3)再者就是操作的方法不同,CDP主要采用噪声机制【比如拉普拉斯机制(适用
于连续型数据的查询),指数机制(适用于离散型数据的查询),几何分布以及高
斯分布】,而LDP主要采用随机响应技术。

**注意!!!**:CDP不对统计数据数量做要求,就是说无论多少个数据数量都可
以用CDP进行差分隐私,而LDP需要**海量**的数据集,原因是LDP对个体数据进
行正向和负向的扰动,最终通过聚合大量的扰动结果来抵消添加在其中的正负向噪
声,从而得到有效的统计结果.然而,由于噪声的随机性,要保证统计结果的无偏
性,必然需要海量的数据集来实现满足数据可用性的统计精度。

4)最后就是两者所需要添加的噪音也不一样,比如有n个数据集,CDP所需添加的
噪音是(1),因为CDP只需对最终结果加个噪音即可。而LDP所需添加的噪音是
(√n),因为LDP每个结果都要加噪音。
  网络协议 最新文章
使用Easyswoole 搭建简单的Websoket服务
常见的数据通信方式有哪些?
Openssl 1024bit RSA算法---公私钥获取和处
HTTPS协议的密钥交换流程
《小白WEB安全入门》03. 漏洞篇
HttpRunner4.x 安装与使用
2021-07-04
手写RPC学习笔记
K8S高可用版本部署
mySQL计算IP地址范围
上一篇文章           查看所有文章
加:2021-09-18 10:36:22  更:2021-09-18 10:39:08 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/16 16:56:47-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码