摘要
出于对扩展通信和潜在攻击的担忧,一次性FL将通信限制在单一回合,同时试图保持性能。
然而,一次性FL方法在高统计异质性的情况下往往会退化,无法提高管道的安全性,或者需要一个辅助的公共数据集。
为了解决这些局限性,我们提出了两种新的无数据的一次性FL方法:FEDCVAE-ENS和它的扩展FEDCVAEKD。这两种方法都使用条件变分自动编码器(CVAE)重构局部学习任务,以解决高统计异质性。
此外,FEDCVAE-KD利用知识蒸馏将客户端解码器的集合压缩到单个解码器中。我们提出了一种改变CVAE先验分布中心的方法,并通过实验证明这种方法提高了安全性,并展示了这两种方法是如何结合异构局部模型的。
论文通过在多个基准数据集(MNIST, FashionMNIST, SVHN)上进行实验,证明了这两种方法相较于其他一次性FL方法的优越性。特别是在极端统计异质性情况下(即客户端仅观察到一到两个类别),FEDCVAE-ENS和FEDCVAE-KD的准确度分别达到了最佳基线方法的1.75倍、2倍和2.75倍。
背景
FEDCVAE-ENS 和 FEDCVAE-KD
- 模型介绍:这两个模型利用条件变分自编码器(CVAE)重新定义了本地学习任务。CVAE能够轻松学习简化的数据分布,这对于处理高统计异质性环境中出现的狭窄条件数据分布特别有用。
- 本地训练:在高统计异质性的环境中,这两种方法在本地训练CVAE,以捕获狭窄的条件数据分布。
- 客户端解码器专业化:如图1所示,客户端的解码器成为它们观察到的少数类别的专家。
两种方法的具体实现
- FEDCVAE-ENS:使用集成方法将客户端解码器结合起来。
- FEDCVAE-KD:使用一种轻量级的知识蒸馏程序紧凑地聚合模型。在这种方法中,客户端解码器作为教师模型,服务器解码器作为学生模型。
- 图像生成示例:图1还展示了由服务器解码器生成的图像。
总结
- FEDCVAE-ENS和FEDCVAE-KD通过利用CVAE在本地学习特定于客户端的数据分布,为高度异构的数据环境下的联邦学习提供了有效的解决方案。
- 通过集成和知识蒸馏,这两种方法能够有效整合来自不同客户端的信息,同时减少通信成本和保护数据隐私。
- 这些方法展示了在保持数据自由和通信效率的同时,如何在FL设置中实现高质量的模型训练和数据生成。
- 高统计异质性的展示:图中展示了在非常高的统计异质性条件下,每个客户端只观察到十个可用类别中的一到两个。例如,客户端2只观察到数字4和7,导致其解码器成为生成这些数字的专家。
- 客户端解码器的专业化:图中用大小不等的点表示每个客户端观察到的样本数量,每个客户端因为观察到有限的类别,其解码器在这些类别上具有专业生成能力。
- 知识蒸馏在FEDCVAE-KD中的应用:FEDCVAE-KD通过轻量级知识蒸馏训练程序,将本地学习紧凑地集成到单个服务器解码器中。这个服务器解码器能够生成所有可用类别(数字0-9)的高质量样本。
- 服务器解码器的下游应用:经过训练的服务器解码器可用于任何下游任务,例如分类。
总结
- 这个图例说明了FEDCVAE-ENS和FEDCVAE-KD如何解决高统计异质性问题,即通过使每个客户端专注于有限的类别,然后通过知识蒸馏将这些专业知识整合到服务器端。
- 通过这种方法,即使在每个客户端只观察到一部分数据类别的情况下,整个系统仍能有效地学习和生成所有类别的数据。
- 这种方法不仅提高了数据利用效率,还提高了模型的灵活性和适用性,特别是在需要处理来自不同客户端的高度异质数据时。
PRELIMINARIES
条件变分自动编码器
一次性联邦学习(One-Shot Federated Learning)
- 概念:在联邦学习的设置中,存在一组客户端,每个客户端都拥有自己的私有数据集。在传统的FL方法中,假设每个客户端有一个本地的可微模型,通常是由参数化的深度神经网络。
- 通信限制:与多轮通信的传统FL不同,一次性FL仅限于单轮通信,这极大地限制了通信成本,但也增加了分布式学习任务的难度。
- 统计异质性问题:现有的一次性FL方法要么忽略了统计异质性问题(即不同客户端数据分布的不同),要么未能全面探索统计异质性对性能的影响,或者即使在中等水平的统计异质性下也表现不佳。
Method
FEDCVAE-KD是一种结合了条件变分自编码器(CVAE)和知识蒸馏(KD)的联邦学习方法。这个流程包含以下几个关键步骤:
- 客户端训练(m clients):
- 每个客户端都有自己的数据集。
- 客户端使用自己的数据训练CVAE模型,这包括一个编码器(E)和一个解码器(D)。
- 编码器(E)将数据编码到潜在空间,解码器(D)从潜在空间重构数据。
- 通信:
- 客户端将他们的解码器(D)权重和标签分布上传到服务器。
- 这个上传过程是单轮的,符合一次性联邦学习的框架,旨在减少通信成本。
- 服务器端训练解码器(Train server decoder via KD):
- 服务器使用客户端上传的解码器权重和标签分布来通过知识蒸馏训练一个全局解码器。
- 这个过程涉及到最小化知识蒸馏损失(KD loss),这通常是指减少客户端解码器输出和服务器解码器输出之间的差异。
- 训练分类器(Train classifier on decoder samples):
- 服务器使用训练好的全局解码器生成合成标记样本。
- 这些合成样本随后用于训练一个分类器(C),这个分类器最终可以用于新数据的预测。
Fedcvae-kd:利用知识蒸馏的译码器聚合
算法
因为FEDCVAE-KD集成客户端解码器来创建一个标记的数据集DEns来训练服务器解码器,每个客户端可以有一个独特的CVAE模型架构,以适应每个客户端的计算限制。此外,分类器架构的决定可以推迟到FL完成后,不会影响学习过程。FEDCVAE-KD可以应用于任何需要标记数据集的任务,这比分类更普遍;在学习发生之前,没有对特定的终端任务的承诺。虽然我们没有研究扩展的通信设置,但我们注意到FEDCVAE-KD通过将通过KD获得的服务器解码器参数传递给所有客户端,并在非终端通信轮中重复概述的过程,从而自然地进行了扩展
安全提升扩展
定义了一个安全的数据传输管道,其特点是即使外部攻击者获取了传输的数据,也无法训练出有效的分类器。特别针对的是FEDCVAE-ENS和FEDCVAE-KD模型,在这两个模型中,即使攻击者截获了所有客户端的解码器和本地标签分布,也不能生成用于训练高质量分类器的高质量样本。
文中提到条件变分自编码器(CVAEs)使用潜在空间上的先验分布来训练编码器和解码器模型。尽管通常出于方便使用多变量标准正态分布,但任何正态分布都是可接受的。为了提高安全性,建议将先验分布的中心μ随机移动到实空间中的某个位置(即 μ ∈ Rd),这个位置可以通过离线方式或加密方法在服务器和客户端之间进行通信。实验显示,从正态先验的中心过远地采样潜在向量会产生质量较差的数据样本,这阻止了没有μ知识的窃听攻击者。
促进安全
我们验证了我们所提出的分布移位扩展对于保护上传信息的有效性。假设一个窃听攻击者能够在上传过程中拦截所有客户端的标签分布、解码器权重和解码器架构。在不知道多元正态先验的共享中心的情况下,我们证明训练一个性能分类器是不可行的,因为很难从客户端解码器中提取高质量的样本。特别是,即使攻击者从一个与先前的高密度区域重叠的广阔区域(即以μ为中心的均匀分布)对潜在向量z进行采样,训练的分类器对最终样本的准确率也会随着采样区域的增长而急剧下降(图5)。10)对于n (0, I)的正常先验导致3 - 30%的准确性下降,这取决于数据集。对于U(−1000,1000)的更现实的猜测会导致33 - 67%的分数下降。因此,这个简单的FEDCVAE-ENS和FEDCVAE-KD扩展降低了窃听攻击者从上传的解码器中提取高质量样本或训练性能下游模型的能力,降低了通信风险。文章来源:https://www.toymoban.com/news/detail-765356.html
拓展
训练有素的解码器样本的质量。为了从经过训练的CVAE中生成高质量的样本,通常是直接从先验(通常是多元标准正态分布,即zi ~ N(0, I))或从先验分布均值附近有严格边界的其他分布(例如,截断的标准正态分布或均匀分布)中采样潜向量zi。训练过程中,CVAE会在先验分布密度最高的区域大量观察到潜伏载体;对于标准正态分布,这是在中心µ= 0附近。与训练好的解码器一起使用时,远离中心的潜在向量不能产生高质量的样本。作为一种证明,我们训练了一个集中的CVAE,并在靠近先验中心(即zi ~ U(−1,1))和远离先验中心(即zi ~ U(5,20))的地方进行样本采集。生成的图像样本如图7所示。文章来源地址https://www.toymoban.com/news/detail-765356.html
到了这里,关于(FEDCVAE-KD)DATA-FREE ONE-SHOT FEDERATED LEARNING UNDER VERY HIGH STATISTICAL HETEROGENEITY论文笔记的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!