2021年8月3日
联邦学习概念
大数据是人工智能发展的燃料和助推剂,但是现实中数据很多是小规模且碎片化的,高质量和大数据量的训练数据很难获得。数据规模小,或者缺少标签,或者缺少部分重要特征值等,面临数据孤岛现象。
Federatd Learning联合多个参与方建立一个基于分布数据集的可共享的联邦学习模型,需兼顾隐私保护和数据安全。
1、 模型训练阶段,模型相关的信息可以在各方之间交换(加密形式),但是数据不能交换。 2、 模型推理阶段,训练好的联邦学习模型可以放置于联邦学习系统的各参与方,也可以供多方共享。
发展动机
- 保护用户隐私(各个组织的利益、法律法规的约束)和数据安全。
- 最大化利用云系统下的终端设备的计算能力。
联邦学习的特点
1、参与方有两个或两个以上,每个参与方有若干可供训练的数据。 2、在模型的训练过程中,数据不离开数据拥有者,即每一个参与方的训练数据不会离开该参与方。 3、模型相关信息可以加密方式在各方之间进行传输和交换,需保证任何一方不可推测出其他参与方的原始数据。 4、联邦学习模型的性能要能充分逼近理想模型的性能。理想模型(指将所有训练数据集中后进行训练得到的机器学习模型)
联邦学习架构
客户-服务器架构
对等网络架构
联邦学习分类
根据训练数据在不同参与方之间的数据特征样本空间和样本ID空间的分布情况,划分为横向联邦学习、纵向联邦学习、联邦迁移学习。
横向联邦学习(Horizontal Federated Learning HFL)
横向联邦学习,又称之为按样本划分的联邦学习。参与方的数据有重叠的数据特征,但是数据样本是不同的。
纵向联邦学习(Vertical Federated Learning VFL)
纵向联邦学习,又称之为按特征划分的联邦学习。参与方的数据样本重叠较多,但是数据特征的重叠部分较少。(Feature-Partitioned Federated Learning)
联邦迁移学习(Federated Tranfer Learning FTL)
当参与方的数据样本和数据特征上的重叠部分都比较小的时候,各参与方可以通过联邦迁移学习来协同训练机器学习模型。 联邦迁移学习可以为构建跨企业、跨数据以及跨领域的大数据和AI生态系统提供良好的技术支持。
应用场景
金融
由于保护数据隐私和数据安全,银行、社交网络、网购网站、运营商等之间的数据壁垒难以跨越,且数据可能为异构数据。联邦学习和迁移学习是解决这些问题的好的方案。
医疗
智能诊断中的联邦学习:
- 电子健康记录
- 医疗图像数据
- 基因诊断数据
- 专家知识数据
- 药物开发数据
智慧城市与城市计算
城市计算:获取、整合和分析由城市中不同信息源(传感器、设备、车辆、建筑和人类等)产生的大量异构数据的过程,缓解当前城市面临的主要问题(如空气污染、能源消耗、交通拥堵等)。联邦学习激励方法可以吸引更多拥有高质量数据的参与方加入,以公平公正的方式在参与方之间分享由联盟产生的收益。
边缘计算和物联网
联邦学习可使得边缘计算设备在不向云服务器发送数据的情况下,写作地训练机器学习模型。
区块链
区块链具有不可变性和可追溯性,是联邦学习中防止恶意攻击的有效工具。 每个参与方对本地模型所作的即时更新,都可以链接到区块链提供的分布式账本上,以便对这些模型的更新进行审计。
5G
无线网络中的数据通常位于用户设备和网络边缘设备中,联邦学习可以解决数据隐私的问题,同时可以解决通信贷款、可靠性和延迟问题。
联邦学习平台
谷歌的Gboard系统
谷歌发布了一个名为Gboard的应用程序,联邦学习技术在2018年迅速崛起。 1、企业对消费者(B2C)应用,设计了一个安全的分布式计算环境,通过联邦平均的技术,让所有的智能手机的数据都能被利用,从而使得单词预测模型可以不断改善和优化。智能手机的语言模型可以更新。 支持边缘计算,云系统的终端(边缘)设备可以处理许多计算任务,减少通过原始数据于中央服务器通信的需要。 2、B2B的应用,多个组织联合起来搭建一个共享的机器学习模型,确保本地数据不离开站点,模型性能可根据业务需求进行一定程度的定制。
联邦智能使能器(FATE)
Federated AI Technology Enabler(微众银行)
TensorFlow Federated(TFF)
TensorFlow-Encrypted
coMind
Horovod
OpenMined/PySyft
联邦学习厂商
|