| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 区块链 -> 万向区块链蜂巢学院:王爽:隐私计算—数据经济、数据要素的基石 -> 正文阅读 |
|
[区块链]万向区块链蜂巢学院:王爽:隐私计算—数据经济、数据要素的基石 |
王爽:大家晚上好,非常荣幸有机会参加蜂巢研习社第82期在线讨论活动,非常感谢各位观众在晚上的时间跟我一起做关于隐私计算方面的交流。今天汇报的主题是“深入浅出隐私保护计算,数据经济数据要素的基石”。我本人目前在杭州锘崴信息科技有限公司,是创始人和董事长。 锘崴科技是专注于隐私计算底层技术研发和服务提供的公司,同时我也在四川大学华西医院、同济大学兼职特聘教授。我本人是2018年国家千人青年,是当年在隐私计算领域唯一入选的国家千人青年。 简单介绍一下团队在数据隐私保护过去十年的相关工作,回国之前我一直在美国的加州大学圣迭戈分校(UCSD)医学院做教授。在UCSD工作期间,我主要从事基于隐私计算在医疗领域的相关理论和应用研究,获得过国家自然科学资金的资助。在隐私计算领域团队发表了300多篇相关论文,基本覆盖了隐私计算的主流技术,像可信执行环境、同态加密、多方安全计算、联邦学习、差分隐私、数据隐私保护等。过去十年,团队获得了数亿元的自然科学基金资助。 除了基础研究外,我也在构建隐私计算的社区,也创办了全球最早最大规模的隐私计算大赛,每年大概有19个国家的100多个队伍参与到竞赛里。截止到今年已经举办了8届。 去年,锘崴科技首次把隐私计算搬回到国内,创办了国内首届隐私保护计算大赛。当时和国家基因库一起联合举办,有基因赛道。竞赛的目的更多是把学术界和工业界对于隐私计算的技术和需求更好地结合在一起,推动全球隐私计算应用技术的发展。 过去十年锘崴团队在隐私计算的医疗领域应用方面做了一些工作,2012年首次应用联邦学习的概念,打通了加州大学体系下五所医院的数据互联互通,实现跨多个医院“数据可用不可见”,或者是分享模型部分相个体数据的情况下,实现多中心联合分析、研究。 之后基于联邦学习的概念,结合同态加密、多方安全计算、可信执行环境等不同技术,实现更大规模的落地应用,比如说西海岸跨了200多家医院3000多万病人的联合数据分析,以及跨国罕见病研究。当时支持像美国、英国、新加坡等不同国家的多中心基因组学数据分析,以及横向纵向的联邦学习、结构化数据、影像学数据等不同的分析。 01 隐私计算行业概述 从隐私计算行业来讲,数据作为新型生产要素,已经写入到很多党的方针政策里,在党的政策引导下,数据作为生产要素正在释放数据红利对于未来数字经济发展的作用。可以看到,中国数字经济规模正在每年突飞猛进,到2025年将超过80万亿,并且占GDP50%以上的比重。数据作为生产要素,是驱动GDP和数字经济的基础。 在数字经济蓬勃发展的同时,全球和中国在信息、安全、个人隐私保护领域的监管越来越严。截止到2020年4月份,全球已经有130多个国家制定了和隐私相关的法律,我国在去年9月份和11月份颁布的《数据安全法》和《个人信息保护法》,标志着我国数据强监管时代的到来,特别是大数据和AI领域是重点监管的领域。在数字经济和强监管的共同作用下,对数据既要放得开,也要管得住。如何实现平衡?我们认为,目前隐私计算技术是用来平衡数据流通和隐私保护的最优解。 早在2012年隐私计算就在美国有应用场景的落地,在国内,从2019年开始,隐私计算技术进入普及和市场教育的阶段。到了2020年的时候,国内开始大规模验证和试点性地部署隐私计算技术,今年国内隐私保护计算技术发展进入到了真正成熟规模化应用的阶段。国际测评机构Gartner预计,到2025年,60%的大型企业将使用一种或多种隐私计算增强技术。来自甲子光年的测评报告数据显示,从隐私计算市场规模来看,是数千亿人民币的市场,放眼全球也有突破万亿级的规模。到2025年,中国隐私计算市场规模将超过200亿。所以,对于隐私计算的需求,或者说对于数据共享保护的需求和监管的需求越来越多。 02 数据隐私保护 简单介绍一下隐私计算技术,本次演讲的主题是深入浅出的介绍,所以我从几方面来讲下隐私计算。数据隐私保护的发展历程,大概经历了三个阶段。 阶段一:传统数据脱敏阶段,脱敏就是把数据里的敏感信息去掉。 阶段二:数据沙箱阶段,数据使用方要在数据源指定的边界内做相应的计算,拿到的只是相关的结果。 阶段三:隐私保护计算阶段,隐私保护计算是一类型技术的总称,底层结合了联邦学习、可信执行环境、多方安全计算、同态加密等技术来保护数据使用全流程的安全,可以实现数据的虚拟融合,打破“数据孤岛”。 这些概念对于大部分不是搞技术的人来说可能比较晦涩,我今天通过一个例子给大家解释一下数据脱敏、沙箱、隐私计算大概是什么意思。这里更多是从科普的角度阐述,并不是从非常严谨的学术角度。 从首饰加工过程中原材料保护的问题说起,首饰加工中有原材料的提供方,可以理解成数据源。原材料有宝石的矿产、贵金属的矿产,宝石里可能掺杂了钻石和水晶,贵金属里可能掺杂金子和银子。但最终生产的目的是生产一个银的水晶项链。 传统的生产模式要把宝石矿和贵金属矿交给工厂,从工厂提取出来水晶和银子,再加工生成银的水晶项链。但工厂可能会获得额外的宝石矿和金属矿里的钻石和金子,这种情况下额外的收获可能会被利用或者转卖。 解决方案一:数据脱敏。 为了解决这个问题,可以用类似于数据脱敏的方式,也就是说在原材料方先做一些粗加工,把原材料里不想给出去的信息或者材料,通过粗加工的方式进行处理,比如说在宝石矿里通过粗加工提取出来水晶矿,在贵金属矿里提取出来银矿,再交给工厂方生产。这种情况下,避免工厂可以获得额外的钻石和金子。 但是数据脱敏、粗加工这项技术并不完美,因为粗加工的时候有可能不能过滤掉所有的钻石和金子,还会残留一些。如果工厂有比较先进的技术,还是可以获得额外的钻石和金子。相当于把数据里的敏感数据去掉以后,交给第三方,但可能还是会被通过一些技术手段反推回数据里的敏感信息。 比如2020年国家癌症中心完成了全国最大规模的医疗数据隐私风险评估,覆盖了全国34个省7000多万病人。按照国家《去标识化指南》把数据里的敏感信息去掉以后,还是有大概0.01%的病人可以通过结合外部数据源进行重新的用户识别。 所以说,粗加工、数据脱敏以后的数据还是有一些风险,《数据安全法》和《个人信息保护法》规定,匿名化的数据才能不受到法律的监管,可以直接进行分享使用。由此可见,数据的脱敏并不等于数据的匿名化。 在粗加工的过程中,如果工艺不过关,有可能会把高质量的水晶和贵金属、银子破坏掉。也就是说,数据的可用性可能会出现问题。对应到数据隐私保护方面,把数据里年龄的信息进行脱敏,把具体的年龄变成年龄段,比如说10-20岁,20-30岁,30-50岁区间段的时候,细致化的年龄信息由于脱敏已经被破坏掉了,在训练一些相关AI模型的时候,可能会影响到模型的精度。 还有一种问题,水晶矿和银矿给出去以后,没有办法控制矿提取出来以后产品的用量。就是说,矿厂给了一车的矿,有可能工厂提取出来10颗水晶,但是做一个项链可能只需要1颗水晶,其他的9颗水晶工厂可以做其他产品,存在数据、原材料的滥用或转卖的现象。也就是说,数据的使用权、管理权、所有权不能完全得到控制。 解决方案二:数据沙箱。 可以在工厂旁边围起来栅栏,保证栅栏里生产出来的东西只有满足需求才能进行流转,这样就不会产生之前说到的数据泄露问题。但是在栅栏里还是进行常规生产,相当于数据在栅栏、沙箱里是进行明文计算的。如果沙箱存在某些漏洞,或者管理员失职的话还是有一些风险的,并且代价是比较大的,在处理系统里大规模数据的时候,需要TB级数据的转移,需要把原材料、数据源的数据移动到沙箱里,所以数据移动的代价也是比较大的。 另外很难找到公共沙箱,在数据使用的过程中,需要把多方数据汇总到一个沙箱里,在这种情况下有些数据源可能并不信任公共的沙箱,所以在有些数据的应用场景里很难找到公共沙箱完成计算。 解决方案三:隐私保护计算。 可以理解成,在数据源端、原材料方做一些精加工,工厂方只要指定告诉数据源方要做什么样的计算,比如说工厂要做水晶项链,工厂会告诉数据源方水晶的尺寸、形状、大小,只要在数据源方进行部件、型号、参数的交换,就可以完成最终产品生产。这样整个数据在数据源方是可管可控的,并且数据用途是可以计量的。 这种情况下,相当于是通过隐私计算实现的,即通过联邦学习技术、多方安全技术、可信执行环境技术、同态加密技术,在“数据可用不可见”的情况下,解决之前说到的相关问题。隐私计算的主流技术,包括联邦学习、可信执行环境、同态加密、多方安全计算,这些技术都是经历了一定的发展过程。锘崴团队在不同技术领域也有一些比较早期的工作经历。 (1)联邦学习 最早在1996年基于分布式数据库规则挖掘衍生出来的,在不同的数据库里有不同用户使用规则,在多个数据库不能直接交互规则的情况下,可以用类似于分布式计算、联邦学习的技术,实现多个数据库之间的规则共享。 2012年的时候我们就把联邦学习技术应用到医疗领域,实现了跨多个中心医疗数据在可用不可见情况下的共享。2016年是联邦学习大规模推广的元年,Google把联邦学习技术应用到移动互联网,在全球范围内推广联邦学习这项技术。 (2)可信执行环境 可信执行环境是在硬件区域内构建出来的特殊环境,这个环境可以不受到操作系统、虚拟机的影响,实现比较安全的数据。 可信执行环境最早是2009年的时候由OMTP提出的,可信执行环境的大规模商用是在2015年由Intel发布的SGX方案以后才得到比较广泛的应用。2015年发表了SGX以后,我们团队比较早的和Intel进行了前期合作,作为全球第一批团队与Intel通过可信执行环境实现了跨国罕见病全基因组的分析,并且获得了Intel的“杰出贡献奖”,之后很多大厂也投入到可信执行环境的应用。 (3)同态加密 基于密码学的研究,像同态加密和多方计算的历史也是比较悠久的,上世纪70、80年代就有相关的概念和技术提出。 同态加密最早的全同态算法是在2009年被Gentry提出,标志着进入全同态的时代。2015年我们通过同态加密解决多个中心的罕见病研究。2017年的时候,我参与ISO和美国国家标准局(ANSI)一起成立了国际同态加密标准委员会,推动全球隐私计算同态加密领域的标准制定。 (4)多方安全计算 多方安全计算最早的概念是1981年的时候由Rabin提出OT协议,在双方都互不知道要查询信息的情况下,可以交换一些机密的信息。之后是1982年姚期智老师提出的“百万富翁”的问题,基于doublecircuit解决两方安全计算问题。1987年由GBW扩展到三方,2016年的时候我们团队把多方安全计算应用到美国国家级网络上的数据共享。 目前隐私计算在国内服务了多个不同领域,像医疗、金融、政务等不同领域。不同隐私计算技术其实适用范围、保护范围、性能、安全保护程度各不相同。 首先,在谈安全解决方案的时候,没有任何系统是绝对安全的,所有的安全都是建立在某一个假设场景下的。所以在应用隐私计算的时候,首先要明确数据应用场景对于性能、精度、安全的要求,才能通过比较适当的组合、不同技术来满足场景的需求。这里面需要比较充分的了解和实践不同技术的能力,才能充分发挥隐私计算的作用。 技术路线就像刚才介绍的这几个主流技术,以及差分隐私、区块链技术,都可以一起辅助隐私计算的应用。归纳起来,整个数据应用场景主要包括了数据的查询场景,需要保护查询条件、被查询数据源、查询结果,如果查询过程中不是精准匹配而是模糊查询的话,也需要保护查询算法。 另外一大类的应用场景是多中心联合建模,通过结合多个数据源的数据,可以做横向或者纵向的联邦学习应用,横向是通过多个数据源提高分析样本量,纵向是通过多个数据源实现模型的维度,实现更精准的用户画像。 当模型训练好以后需要应用的时候,会需要保护到模型,保护输入模型的条件以及模型推理的结果,所以在模型推理的时候需要应用到隐私计算。 在刚才介绍的三个场景里,所有应用都涉及到溯源的过程,包括数据源的溯源,计算过程的可追踪,这些都需要结合区块链的技术。在刚才介绍的这些场景里,不同场景需要保护的信息也各不相同,这需要结合具体场景来决定保护输入的信息还是保护计算过程、模型参数,或者是计算结果。 跟性能相关的也有不同场景的要求,有些场景可以接受近似计算,只要通过联邦学习、隐私计算能够提高模型的AUC、预测精度,就可以达到场景的需求了,并不要求模型和明文构建的模型是完全一致的。 但是在某些场景,比如说医疗场景,需要模型具有可解释性,可解释的参数对应于不同的临床诊疗路径,就可能需要精准的隐私计算模型,保证在密文、多中心联邦学习下构建的模型和在明文下汇总以后的数据是完全一致的。 这里面所谓的“完全一致”,比如说在数学上的定义Meansquared error(MSE)小于10的负20次幂的精准度。不同的应用还有不同的实时高频、低频非实时的特性。在安全的信任基础上,不同技术给出的信任基础也是不一样的,比如说像多方安全计算假设的是参与方不能篡谋,可信执行环境更多是依赖于硬件设计,同态加密有一套公钥和私钥,如果涉及到多方应用同态加密的话,还需要引入第三方私钥管理。如果单纯用联邦学习的话,假设条件是统计信息不泄露。如果想保护统计信息的话,可能要把联邦学习结合上多方安全计算、同态加密、可信执行环境等技术,综合实现满足某一场景需求下的保护。 不同情况下的安全假设也是不一样的,有的是关于恶意模型的,有的是关于半诚实模型的。半诚实模型是参与方都比较好奇其他方的私密信息,但是在计算过程中会遵守约定好的计算规则,并不会作恶。也就是说,第三方让他做A+B=C的这项操作,在半诚实模型下要保护A和B的信息。但是如果第三方做了A×B这项操作,在半诚实模型下数据的接收方无法区分。 恶意模型就提高了更强的保护力度,不光能够保护底层A和B的数字信息,同样如果计算过程被篡改了,把A+B的操作换成了A返回C以后,数据接收方能够发现篡改。不同的安全假设也需要应对到不同的场景,像计算精度、安全假设、信任技术,对于隐私方案解决的性能也会有相应的影响,所以最好的解决方法还是要根据具体场景的需求,灵活搭配不同技术来尽可能好地服务于数据应用的场景。 市场上隐私计算平台主要分成大概三种类型: (1)基于开源框架的平台 优点是入门比较快,可以进行快速的概念证明、特定场景的测试,帮助隐私计算的普及。不足就是如果配置不当的话,可能会存在一些安全隐患,有些开源的框架为了演示的速度比较快,安全级别参数会设得相对比较低,也有可能采用不安全的隐私计算技术,存在安全漏洞。如果需要超过三方的计算,或者是一些复杂的数据类型,像基因数据、影像数据,可能有些场景不支持。 (2)基于开源框架+业务定制的修改 好处是提高特定场景下的安全性,行业特定场景适配度高,基于场景部分优化性能。不足是它受限于开源的框架,没有办法提供比较丰富的算法 (3)商业隐私保护计算平台+深度定制行业应用 可以根据安全性的需求适配不同的技术,而不是用场景来适配技术,是技术适配场景。可以支持大规模并发,像十方或者百方的计算,以及复杂算法、高精度解决方案。缺点是需要一些专业化团队来实施和开发。 03 方案介绍 隐私计算主要是解决分析、建模、推理、查询等相关应用,可以保护在全流程中的数据隐私和安全。隐私计算平台应用通常分为: (1)数据层。融合不同领域的数据,像政务、金融、互联网、医疗等不同数据。 (2)平台层。通过软硬件一体机、软件包、虚拟化、云平台的模式,连接不同的数据源,以及对数据有需求的需求方。 (3)应用层。在平台上提供不同的应用,服务于像医疗、金融、政务等不同领域。 隐私计算流程通常是在数据源方进行本地节点部署,本地节点在数据源部署以后,数据源就有对外进行隐私计算服务的能力。 通过协调平台可以把有数据需求的需求方需求分发给数据源提供方,同时提供一套监管方来做数据权限审核、数据使用过程中合规性审核。在合规性和权限满足条件的情况下,数据拥有方和数据提供方就可以通过隐私计算平台在“数据可用不可见”的情况下完成多中心计算。 这里面还有一些像算法提供方,可以针对不同的场景,在隐私计算平台上提供具体场景的应用服务。 隐私计算底层平台基于刚才介绍的联邦学习、可信执行环境、多方安全计算、同态加密等技术,搭建不同模型,支持不同场景应用。同时结合区块链技术,实现数据溯源和存证。产品形态可以有可视化的操作界面,为数据提供方、数据使用方、平台运营方、监管方提供相关接口。部署的情况下,可以通过像一体机的方式来给用户提供“开箱即用”的解决方案,也可以通过SDK和API的方式,结合客户现有的应用场景做部署。 锘崴科技提供开箱即用的一体机解决方案,可以采用国产信创解决方案,全自主可控的CPU,以及相关隐私计算的加速卡,基于FPGA、GPA,兼容国内及智能安全的网卡。单点机器可以进行多个机器的组合,形成隐私计算的集群,提高整个节点的算力。并且每个节点都可以跟其他节点连在一起,组成隐私计算的网络或者数据生态的网络,提供多中心联合计算的服务。 部署方式不局限于一体机的部署方式,如果用户本身有计算资源的话,可以通过容器、虚拟机的方式进行数据源、数据需求方的联合部署。我们认为,隐私计算平台需要具备几个能力: (1)多中心的能力,可以支持多个中心,不限于2到3家,可能有10到100家。因为在很多医疗场景下,经常需要10到100方的医院联合分析。 (2)丰富的计算方法,除了像金融领域常用的逻辑回归、XGBOOST等树状模型外,在医学领域还有全基因组分析、统计假设检验、影像学勾画识别等。 (3)自主可控的算法。 (4)支持全国产化信创设备。 (5)开放的接口,允许第三方应用,在隐私计算平台上部署。 (6)开放平台,通过多个不同隐私计算平台的互联互通,扩大数据生态网络。跟蚂蚁、洞见已经完成了点对点层面的隐私计算平台的互联互通。 (6)多种落地业务场景,像医疗、保险、金融、交通等。 (7)产品经权威部门认证,隐私计算产品的安全性非常重要,需要经过标准测评以及权威机构验证。 隐私计算典型的应用场景主要是医疗、政务、金融等方面。在医疗领域,像多中心专病库、新药研发、科研服务。在政务领域,像普惠金融、数据共享、安全服务、安防。在金融领域,像风控、客户画像、精准营销等等。锘崴科技做的医疗领域的场景比较多,所以更多是介绍我们在医疗场景的实践。 04 典型案例 这是之前做过全球首创基于隐私计算的多中心跨国罕见病研究。通过在全世界(美国、英国、新加坡)的多所医院,部署本地计算节点,在本地完成对基因数据的分析、交换、加密统计信息的情况下,在联邦学习、可信执行环境、多方安全计算、同态加密技术的保护下,可以实现跨国多中心数据分析。这个解决方案的效率也是比较高的,数据经过跨国的传输、计算,可以在分钟级内完成上百个个体、几十万个基因数据位点的联合分析。 锘崴在国内联合了多家头部医院,包括像长征医院、清华大学、华西医院以及郑州安徽的几所大学,通过隐私计算技术部署到每家医院的计算节点,在不交换个体数据的情况下,可以实现多中心风湿免疫疾病里强直性脊柱炎的基因分析。 这个项目的研究成果获得了上海市科技进步一等奖,通过隐私计算可以结合多中心数据提高研究的样本量,找到跟疾病相关的治病位点,类似于之前的跨国研究。通过多中心合作,能够更好地辅助于临床诊断,尽早地发现患病的病人,提早提出一些相关干预的措施。 同样把隐私计算应用到新发和突发传染病的多点预警系统里。现在新冠疫情是比较严重的,如果能够尽早发现相关的风险,可以更好地帮助相关部门采取措施和制定相关策略及决策。但是我们也知道,很多病人、公民的信息分布在不同的数据源,包括不同的医院、不同的药房,包括病人自主上报的数据、搜索数据、急诊数据,没有办法直接汇总到一个数据中心进行统一的模型构建和预警分析。 很多情况下需要把计算节点部署到各个数据源,通过隐私计算这项技术,在多个数据源做多中心联合深度学习模型构建,同时在推理过程中基于多个数据源的多点进行预警触发。在这种情况下,隐私计算技术就是最优的技术解决方案,它可以结合多个数据源的信息,比如说某一个药房有大量病人购买和退烧相关的药物,在某一个急诊室有大量发烧的病人,通过这些隐私计算节点,就可以尽早地发现和预警新发和突发的传染病。 我们已经在某一个省通过隐私计算实现了全省的隐私计算保护下的新发和多发传染病的多点预警,今年会在全国范围内进行推广。此外,锘崴科技通过隐私计算服务于全国多中心临床研究,跟中华医学会消化外科合作,通过隐私计算帮助他们在跨多个省的60多家三甲医院里进行多中心数据重输、联合分析、对外合作和使用过程中的隐私保护。像服务于科研、服务于新药研发,服务于保险应用。 此外,锘崴科技也把隐私计算应用到儿童罕见病的查询网络,罕见病的特点就是单体医院数据量比较有限,并且罕见病病人的个体信息也比较敏感。由于罕见病经常会出现误诊的问题,很多医生并不能够第一时间发现到罕见病。通过这一套罕见病的查询网络,可以在全国范围内收集不同的罕见病病例,同时基于病例构建知识库,知识库可以对外提供临床辅助诊断。 当一个医生发现病人有相关罕见病病情的时候,可以在系统上查全国范围内,乃至全世界范围内跟病人相关的基因型、表型的相似信息,提供一些疾病可能性的辅助诊断。在过程中,医生输入到系统的查询条件是非常敏感的,通过隐私计算就可以在加密输入的条件下,跟加密的数据库、知识库进行比对,最终生成加密结果。查询过程中不会在第三方留存任何查询条件,既保护了数据源,又保护了查询方,还保护了患者隐私。 非常感谢大家的时间,感谢蜂巢提供这个跟大家一起交流机会。? 关于杭州锘崴信息科技有限公司 杭州锘崴信息科技有限公司是一家专注于隐私计算技术服务的提供商,也是业内最早专注于医疗大数据隐私共享的团队,在这个领域有十多年的工作经验。总部设在杭州,目前在北京、上海、成都、海口都有分公司和办事处。公司专注于底层技术研发,在国际上有很多比较早期的工作经历。现在服务的客户主要集中在医疗、金融、保险、政务等不同领域。
|
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 | -2024/12/28 3:50:36- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |
数据统计 |