基于局部-全局融合进行多模态联邦学习

题目：基于局部-全局融合进行多模态联邦学习

作者： Zilin Xia∗,1, Min Tan∗,1, Zhigang Gao+,2, Lingqiang Chu1, Tingting Han1

单位： 杭州电子科技大学计算机科学与技术学院（4人）与中国计量大学信息工程学院（1人）合作完成。

会议： 2024 IEEE International Conference on Systems, Man, and Cybernetics (SMC)

会议时间地点：October 6-10, 2024. Sarawak, Malaysia

摘要

物联网（IoT）设备在现代生活的各个领域广泛分布，成为收集和分析多模态数据的重要来源。然而，与IoT设备相关的数据所有权和隐私问题使得多设备间的数据共享变得不切实际。近年来，多模态联邦学习（MFL） 作为一种创新解决方案应运而生，使得每个设备客户端能够在无需交换本地数据的情况下，协作训练出性能良好的本地模型。然而，现有的大多数多模态联邦学习方法优先训练强大的全局服务器模型，却忽视了本地客户端模型的性能。本文提出 FedAF，一种基于对抗表征学习的多模态联邦学习方法，通过特征融合增强本地特征能力，从而优化本地客户端模型。具体而言，FedAF利用训练好的全局模型，将每个本地客户端数据的全局特征与其本地模型生成的局部特征进行融合。此外，通过领域对抗学习对齐全局与局部特征，最小化本地与全局编码器之间的差异，迫使全局编码器适配本地任务。在两类单模态分类数据集和一个多模态检索数据集上的实验表明，FedAF相较于其他联邦学习方法实现了最先进的性能，显著提升了本地客户端模型的性能，同时保持了全局服务器模型的良好表现。

关键点总结

问题：现有MFL方法忽视本地模型性能，过度依赖全局模型。
方法：
- 特征融合：结合本地特征与全局特征（通过公共数据集生成）。
- 对抗对齐：利用梯度反转层（GRL）和判别器对齐特征空间。
效果：
- 本地模型性能显著提升（如CIFAR-100分类精度提升至64%）。
- 全局模型性能保持稳定（如跨模态检索任务中rsum@R1达57.53）。

1. 介绍

物联网设备的发展并且促进了多模态的研究，因为对数据隐私和安全性的需求，引入了多模态联邦学习（MFL），客户端在本地训练模型，只向服务器传输模型更新或参数，从而保护原始数据的隐私。

物联网有丰富的数据源，但在数据隐私和安全方面却面临着巨大的挑战。

在本文中，我们提出了 FedAF，这是一种通过与对抗性表示学习特征融合的多模态联邦学习方法。我们的贡献总结如下：i) FedAF 通过局部全局特征融合创造性地解决了异构多模态场景带来的挑战，利用训练有素的全局编码器显着增强局部特征； ii) 我们引入了一种自适应特征对齐机制来增强全局特征和局部编码器训练之间的协同作用；iii) 采用域对抗鉴别器的结合来减轻服务器和本地客户端之间的异质性。

2. 相关工作

4efb4310100755537226340d0c039b8b_1_Figure_1_1601406915.png

FedAF 的总体操作程序。(a) 提出的 FedAF 模型的框架。(b)服务器从全局-局部聚合的聚合表示中提取知识。这些表示由公共数据集上的服务器和客户端编码器生成。(c) 客户端通过服务器和客户端编码器在本地数据集中生成全局和局部表示，并使用 MF 模块生成的组合表示更新它们。

描述：

MF module：将本地特征和全局特征融合 Discriminator：鉴别器：区分特征来源（本地或全局），如果发现这个结果与全局知识不符，就会触发MF模块重新调整特征比例

Predictor：预测器，预测匹配度 Evaluator：量化融合特征的质量，指导模型动态调整权重β

整体框架分为了三个部分，分别是FedAF模型的框架，服务器从聚合特征中提取知识，客户端通过融合本地与全局特征更新模型

（图a）先看这个FedAF模型，单模态客户端（图像/文本）分别使用使用本地编码器生成局部特征，MF模块融合本地特征和服务器下发的全局知识（Global Rep.），经过预测器，上传给服务器，鉴别器如果发现融合后后的结果与全局知识不符，就会触发MF模块重新调整特征比例，多模态客户端（MM client）：同时处理图像和文本，生成多模态联合特征，多了一个评估器，量化融合特征的质量。服务器聚合所有客户端的局部特征，生成全局特征，并通过公共数据集（Server Data）训练全局模型（Server Model），并分发全局特征至客户端。

（图b）接收来自客户端的本地特征（Local Rep.）与全局特征（Global Rep.），将他们进行聚合得到聚合特征，服务器从聚合特征中蒸馏提取知识。

（图c）客户端将本地特征（Local Rep.）与全局特征（Global Rep.）通过MF映射模块（MF mapping）融合，生成联合特征（Combined Rep.）。

假设你上传了一张「冲浪家庭照」和文字“海边假日”：

图片/文本编码器分别生成特征（Local Rep.）
MF模块混合本地特征和服务器下发的全局知识（Global Rep.）
Predictor登场：用混合后的特征判断图文是否匹配，并输出「匹配度85%」
如果Discriminator发现这个结果与全局知识不符（比如服务器知道“假日”常关联“沙滩椅”而非“冲浪”），就会触发MF模块重新调整特征比例

多模态特征融合

在客户端异构模型的多模态学习领域，全局和局部特征的融合和对齐构成了核心和具有挑战性的任务，特别是在处理来自分散数据源的复杂信息时。例如，通过发现和最大化不同特征集之间的相关性，典型相关分析 (CCA) [9] 为不同视图之间的特征对齐提供了一种有效的途径。图神经网络 (GNN) [10] 可以精确地捕获实体之间的复杂依赖关系，从而实现不同模态的特征的有效融合。构建深度网络[11]捕获复杂的非线性关系，建立特征之间的共享空间表示，从而促进深度融合特征的提取。然而，这些只代表了多模态联邦学习中的一小部分挑战，仍然需要进一步的研究和探索来解决数据隐私和安全性等问题。

对抗性学习

对抗性学习旨在利用对抗机制充分利用来自不同模态数据的互补信息。最经典的例子是Goodfellow等人2014年提出的生成对抗网络(GANs)[12]，主要由两个神经网络组成:生成器和鉴别器。对抗性学习中生成器的目标是通过生成与真实训练数据无法准确区分的样本来欺骗鉴别器。另一方面，鉴别器的目标是准确确定样本的来源，区分生成器生成的样本和真实数据。这两个网络在训练过程中相互竞争，从而促进彼此的改进。这种方法旨在提高学习模型的性能和泛化能力，从而使它们对各种任务和数据集更加健壮和适应性。

3. FedAF

该方法集成了特征融合和对抗对齐学习来增强局部表示。这种方法是专门为具有不同模式和异构任务模型的本地客户端设计的。

特征对齐

中提出的局部全局特征融合方法旨在利用服务器模型在局部模型训练过程中提供的见解。因此，我们引入了一种新的特征融合方法，该方法集成了客户端和服务器端的知识。这种方法涉及使用客户端编码器和服务器编码器对本地数据进行编码，从而产生捕获数据固有特征的局部特征表示，以及富含多模态信息的特征表示。此外，本地和服务器模型的不同角色加剧了局部和全局表示之间特征空间的差异。为了缓解这一挑战，我们引入了一个自适应模块 M(·)，专门用于最小化局部和全局特征表示之间的差异。

这种自适应模块有助于更好地融合全局和局部特征，使它们能够在同一特征空间中和谐交互。

特征融合

对于单峰客户端，局部模型仅在单一模态上进行训练，从而产生可能缺乏鲁棒性的特征。相反，在多模态本地客户端的情况下，本地模型和服务器模型表现出不同的架构，并在不同的数据集上进行训练，导致它们有效提取多模态信息的能力的变化。通过联合利用局部和全局特征，客户端不仅可以捕获局部特定信息，还可以整合全局特征的多模态见解。

对抗性对齐

我们利用对抗性学习来训练客户端鉴别器以提高本地编码器的性能。通过最大化鉴别器损失，我们强制局部特征编码器φc(·)和自适应模块Mc(·)产生更兼容的特征表示，可以融合内在特征和丰富的多模态信息[13]。具体来说，我们在鉴别器网络 D(·) 之前构建了一个梯度反转层 (GRL)，以有效地训练 φc(·) 和 Gc(·)。GRL 在反向传播中反转梯度，确保局部特征编码器以与最小化鉴别器损失相反的方向更新。受 [14] 的启发，我们将梯度反转层形式化为“伪函数”。R(·)由两个不相容的方程定义，

FedAF 是一个 多模态联邦学习框架，旨在解决异构客户端（不同模态、任务）的本地模型训练与全局知识共享的冲突问题，核心是通过 特征融合 和 对抗对齐 提升本地模型性能，同时利用服务器端知识蒸馏优化全局模型。

输入与输出

• 输入： • 数据：公共数据集（P）、服务器数据集（Ⅰ）、客户端数据集（Ic）。 • 模型组件： ◦ 服务器编码器（Φs） ◦ 客户端编码器（Φc） ◦ 自适应模块（M） ◦ 判别器（D） • 超参数：通信轮数（T）、本地训练轮数（E）。

• 输出：经过联邦优化后的最佳客户端模型（w_c^T）。

算法流程

1. 客户端本地训练（ClientUpdate）

• 步骤：每个客户端在每轮通信（t）中执行以下操作： • 特征融合（第3行）：使用公式6的线性加权方法，将 本地特征（Φc） 与 全局特征（Φs） 融合，生成增强后的特征表示： $f_{} = _c + (1-) M(_s) $（其中 β 控制融合权重，M 是自适应对齐模块）

• 模型更新（第4行）：通过本地数据（Ic）的损失函数（如分类或检索损失），更新客户端模型参数： $w^{(t,i+1)} \leftarrow w^{(t,i)} - \eta \cdot \nabla \mathcal{L}_{\text{local}}$

• 对抗训练（第5行）：使用判别器 D 和梯度反转层（GRL），最小化全局与本地特征的分布差异（公式4）： $\min_{\Phi_c} \max_D \mathbb{E}[\log D(\Phi_s)] + \mathbb{E}[\log (1-D(\Phi_c))]$

公共数据集 P在本地客户端模型中通过客户端编码器获得本地的图像特征和文本特征（第6行）

• 返回结果（第7行）：将本地训练后的模型参数（w^{{t,E}）和特征表示（I_c}T）传回服务器。

2. 服务器端全局优化（Server Executes）

• 步骤：服务器在每轮通信（t）中执行以下操作： • 聚合客户端参数（第10行）：根据客户端上传的模型参数，更新全局模型： $w^{t+1} \leftarrow w^t - \eta \cdot \nabla \mathcal{L}_{\text{global}}$

• 分发全局编码器（第11行）：将服务器编码器 Φs 发送给所有客户端，用于下一轮特征融合。

服务器接收客户端的特征表示和模型参数（第12行）
利用公共数据集 P，在全局模型通过编码器获得全局图像特征和全局文本特征（第13行）

• 知识蒸馏（14行）：将本地特征与全局特征融合后进行通过蒸馏提取知识，并更新全局模型。 $w^{t+1} (I_c^T, I^T) $（其中 $I^T$ 是服务器从 P 中提取的特征表示）$I_c$是客户端图像特征

4. 实验

论文中的实验使用了以下数据集：

CIFAR-100 • 用途：构建单模态图像客户端（分类任务） • 特点：包含100个类别的图像数据，用于模拟图像分类客户端。 • 划分：均匀划分为多个客户端本地数据集。
AGNEWS • 用途：构建单模态文本客户端（分类任务） • 特点：新闻文本分类数据集，包含4个类别，用于模拟文本分类客户端。 • 划分：均匀划分为多个客户端本地数据集。
Flickr30k • 用途：构建多模态客户端（跨模态检索任务） • 特点：包含图像-文本对，用于模拟多模态客户端的跨模态检索任务。 • 子集：随机选择2,000对图像-文本作为多模态客户端数据。
MSCOCO • 用途：构建服务器端测试集 • 特点：多模态数据集，包含图像-文本对，用于服务器模型的训练和测试。 • 子集：随机选择10,000对图像-文本作为服务器端数据。

补充说明：

• 单模态客户端： • 图像客户端使用CIFAR-100，文本客户端使用AGNEWS。 • 任务分别为图像分类和文本分类。

• 多模态客户端： • 使用Flickr30k的子集，任务为跨模态检索（如“图像到文本”或“文本到图像”检索）。

• 服务器端： • 使用MSCOCO的子集进行知识蒸馏和全局模型训练，测试集包含5,000张图像。

这些数据集的选择覆盖了单模态分类和多模态检索任务，符合论文中异构客户端（图像、文本、多模态）的联邦学习场景需求。

调整特征融合的参数实验：

4efb4310100755537226340d0c039b8b_4_Table_I_1411040368.png

消融实验

在论文中，作者提到了三个主要组件：特征融合（FedF）、特征对齐（FedMF）和对抗对齐（FedAF）。他们逐步将这些组件添加到基础联邦学习方法（Fed）上，观察性能变化。具体来说，消融实验分为以下几个步骤：

Fed：基础联邦学习方法，没有添加任何提出的组件。
FedF：在Fed基础上加入特征融合模块。
FedMF：在FedF基础上加入特征对齐模块。
FedAF：在FedMF基础上加入对抗对齐模块。

每个步骤都测试了不同客户端的性能指标，比如分类准确率和检索效果。通过比较这些步骤的结果，可以确定每个组件对模型性能的贡献。

用户可能想知道这些组件具体是如何工作的，以及为什么需要进行这样的测试。此外，用户可能希望了解消融实验的结果如何支持论文的结论，即FedAF的有效性。

需要注意的是，用户可能对消融实验不太熟悉，所以需要以简明的方式解释，同时结合论文中的具体例子。还要确保回答结构清晰，分点说明每个实验步骤和结果。

最后，需要确认引用的表格数据是否正确，比如表II中的结果，确保回答的准确性。可能还需要提到消融实验的结果显示，每个组件的加入都带来了性能提升，从而验证了它们的必要性。

论文中的消融实验（Ablation Studies）旨在验证提出的核心组件对模型性能的贡献，通过逐步移除或添加不同模块，分析各部分对整体效果的影响。以下是具体内容：

消融实验设计

作者通过逐步集成以下三个核心模块，验证其对性能的提升作用：

特征融合（FedF） • 功能：将全局特征（来自服务器模型）与本地特征（来自客户端模型）通过线性加权融合（公式6）。 • 作用：增强本地特征的鲁棒性，引入全局多模态信息。
特征对齐（FedMF） • 功能：通过自适应模块（公式5）对齐全局和本地特征空间，减少二者差异。 • 作用：解决特征空间不匹配问题，提升融合效果。
对抗对齐（FedAF） • 功能：引入梯度反转层（GRL）和判别器（公式4），通过对抗训练迫使本地特征与全局特征对齐。 • 作用：进一步缩小全局与本地特征的分布差异。

实验设置

• 基线方法：基础联邦学习方法（Fed），仅使用本地数据训练客户端模型。 • 逐步添加模块： • FedF = Fed + 特征融合 • FedMF = FedF + 特征对齐 • FedAF = FedMF + 对抗对齐

• 评估指标： • 单模态客户端：分类准确率（prec@1）。 • 多模态客户端：跨模态检索性能（rsum@R1）。 • 服务器模型：在MSCOCO数据集上的检索性能（rsum@R1）。

关键结果（见表II）

方法	CIFAR-100 (prec@1)	AGNEWS (prec@1)	Flickr30k (rsum@R1)	平均性能	服务器性能
Fed	63.41%	87.58%	58.48%	68.69%	55.20%
FedF	62.01%	89.10%	71.43%	73.91%	56.30%
FedMF	63.91%	89.86%	71.15%	74.59%	57.56%
FedAF	64.00%	89.81%	75.06%	76.17%	57.53%

结论

特征融合（FedF）： • 显著提升多模态客户端性能（rsum@R1从58.48%→71.43%），但对单模态图像客户端效果有限（因特征空间未对齐）。
特征对齐（FedMF）： • 解决特征空间不匹配问题，单模态客户端性能显著提升（CIFAR-100从62.01%→63.91%）。
对抗对齐（FedAF）： • 进一步优化特征分布对齐，多模态客户端性能提升至75.06%，同时保持服务器模型性能稳定。

消融实验的意义

通过逐步验证各模块的贡献，论文证明了：

特征融合是提升多模态任务性能的关键。
特征对齐和对抗学习是解决异构客户端特征差异的必要手段。
最终模型（FedAF）在本地客户端和服务器端均达到最优平衡。

与其他联邦多模态算法的比较，所有算法的总体性能。

5. 结论

在本文中，我们提出了一种名为 FedAF 的多模式联合学习算法，以应对在任务差异显著的多模式联合学习场景中提高异构客户端性能的挑战。 FedAF 旨在生成结合局部和全局特征的表征，以增强模型的整体鲁棒性和信息量。它结合了一个自适应模块和一个领域对抗学习框架，以有效地调整特征。具体来说，特征生成器将服务器编码器与自适应模块相结合，并与客户端判别器一起进行训练，以实现可靠的特征对齐。我们在三个公共数据集上进行了全面评估，证明 FedAF 可以有效提高异构客户端在各自本地任务中的性能。

优点（Advantages）

提升本地客户端模型性能 • 核心贡献：通过 局部-全局特征融合（公式6）和 对抗对齐（公式4），FedAF 显著提升了异构客户端（单模态分类+多模态检索）的本地任务性能。 • 实验证据：在消融实验中（表II），FedAF 的本地客户端平均性能（76.17%）远超基准方法 Fed（68.69%）和 LOCAL（68.85%）。
解决异构模态与任务的冲突 • 特征对齐模块（公式5）：通过自适应模块 $\mathcal{M}(\cdot)$ 对齐全局（服务器）与本地（客户端）特征空间，缓解了不同模态和任务间的分布差异。 • 对抗训练：引入梯度反转层（GRL）迫使本地特征分布逼近全局特征，增强模型对异构数据的适应能力。
保护数据隐私 • 联邦学习框架：客户端仅共享模型参数或特征表示，原始数据保留在本地，符合隐私保护需求（如 GDPR）。
全局模型性能稳定 • 服务器端蒸馏：通过公共数据集（MSCOCO）的知识蒸馏，FedAF 在提升本地模型的同时，保持了服务器模型的性能（表III中 Server rsum@R1=57.53% vs. CreamFL 57.06%）。

缺点（Limitations）

依赖公共数据集 • 服务器端训练：需要公共多模态数据集（如 MSCOCO）进行知识蒸馏，若公共数据与本地数据分布差异大，可能影响全局模型效果。
计算与通信开销较高 • 对抗训练复杂度：客户端需同时训练本地模型、自适应模块和判别器，增加了本地计算负担。 • 多轮通信：联邦学习框架需要多轮参数交换（20轮通信），可能影响实时性。
参数敏感性 • 融合权重β（公式6）：实验表明（表I），β的取值对性能影响显著（如β=0.6时最优），需通过调参确定，增加了部署成本。
对异构模态的泛化性有限 • 实验场景局限：论文仅验证了图像、文本和跨模态检索任务，未涉及更复杂的模态（如音频、视频）或动态时序数据。