[游戏开发] 联邦学习——Base + Personalization Layers的另一种玩法

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 游戏开发 -> 联邦学习——Base + Personalization Layers的另一种玩法 -> 正文阅读

[游戏开发]联邦学习——Base + Personalization Layers的另一种玩法

在典型的联邦学习中，不同设备之间的数据分布差异很大。为了缓解这种统计异质性的不利影响,《Federated learning with personalization layers》这篇文章给出了一个新的思路：将模型分为基础层和个性化层，提出了名为 FedPer 的架构。与联邦迁移学习(即首先对所有层进行全局训练，然后对所有或个别层进行局部数据再训练)不同，FedPer 先在全局数据上训练基础层，再在本地数据上训练个性化层，避免了联邦迁移学习需要重训练的问题。
《Exploiting Shared Representations for Personalized Federated Learning》所提出的 FedRep 算法就类似于 Base + Personalization Layers 的形式。但它基于“数据间通常存在一个 global feature representation，而 client 或 task 之间的统计异质性主要集中在 labels 上”这一直觉，提出用基础层来学习数据间的 global feature representation 的降维表示，以缓解 Non-IID 对模型训练的影响，用个性化层作为每个 client 唯一的 local head 实现个性化。
那废话不多说，我们直接看这个算法长什么样。下图就是FedRep的图示结构

global representation $φ : R^d → R^k$ ，将从本地数据中学到的global feature representation由高维空间map到低维空间中；
local head $h : R^k → y$ ，根据低维representation输出结果；

训练过程中，每个client共同训练 global representation：φ, 再用各自的数据训练自己的 local head：h
值得注意的是，k<<d，也就是说local head：h需要训练的参数量很少，这也就意味着local head：h可以在较小的计算代价下进行多轮训练。
在这里插入图片描述

FedRep算法流程

目标函数为
在这里插入图片描述

伪代码如下：
在这里插入图片描述
每个client的本地更新都需要分成两步，需要注意的是，这两步更新用的是同一批样本。
即先更新local head：h，由于h的参数量很小，所以可以进行多轮更新。

再基于更新后的 h 更新 global representation：φ，由于φ的参数量较大，所以一般只更新一次。
在这里插入图片描述
其中 GRD(f, h a) 表示学习率为a，用SGD等方式计算 f 的梯度以更新 h。

本文还解释了为什么要用个性化 FL 而不能用传统意义的 FedAvg 聚合全局模型：

对于传统 FL ，其目标函数是：
在这里插入图片描述
而个性化 FL 的目标函数是：

其中 $B^*w_i^*$ 是指 ground-truth 的模型表示。
由两者的目标函数可以看出，传统FL的目标是让全局模型去逼近 ground-truth，而个性化 FL 是让每个 client 的本地模型去逼近 ground-truth ，显然，肯定是个性化 FL 的结果会更好，每个client都能有一个很好的个性化模型，而不是共享一个折中的模型。