Multimodal Federated Learning

作者: Yuchen Zhao,Payam Barnaghi,Hamed Haddadi
机构: Imperial College London

1. What does literature study?

  1. 在本文中,我们提出了一个多模态半监督联邦学习框架,该框架训练自动编码器从客户端不同的本地数据模式中提取共享或相关表示。此外,我们还提出了一种多模态FedAvg算法来聚合在不同数据模式下训练的本地自动编码器。

2. What’s the innovation?

  1. Past shortcomings
    a. 现有的联邦学习系统只处理来自单一模式的本地数据,这限制了系统的可伸缩性。
    b.现有的FL系统使用数据融合需要系统中的所有数据(训练和测试)都是对齐的多模态数据,不适用于单模态客户端。
    c.现有的系统需要客户端向服务器端发送数据表示(可以用来恢复本地数据)会打破FL的隐私保证。
    d.现有的研究忽略了FL中数据模型的异质性。

  2. innovation:
    a.提出多模态联邦学习框架,处理来自不同模态和单模态的数据。
    b.将更多模态数据引入联邦学习可以提高分类准确性。
    c.服务器上,只使用一种模态的标记数据进行训练,将学习到的模型来测试其他模态的数据,可以获得不错的准确性。
    d.将单模态和多模态客户端的贡献结合进一步提高了分类的准确性。

3. What was the methodology?

利用本地数据中对齐信息来学习从多个模态中提取共享或关联的隐藏表示,不需要将本地数据的表示发送给服务器。
对于多模态客户端,我们假设来自两种模态的数据之间存在对齐信息,基于这些信息我们可以对齐两种模态的隐藏表示。
Multimodal Federated Learning_第1张图片

  1. 提取表示
    a. 自动编码器。
    b. 拆分自动编码器SplitAE。
    c.深度正则相关自动编码器DCCAE。

  2. 多模态联邦平均
    Multimodal Federated Learning_第2张图片
    训练过程:多模态客户端更新两种模式的编码器和解码器,单模态客户端利用标准autoencoder训练。
    Multimodal Federated Learning_第3张图片
    多模态FedAvg算法用来聚合从单模态客户端和多模态客户端收到的自动编码器。
    聚合过程中,多模态客户端的贡献由权重参数 α \alpha α控制。

4. What are the conclusions?

Multimodal Federated Learning_第4张图片

5. others

  1. 我们使用学习到的全局自动编码器进行下游分类任务。
  2. 本文框架不要求客户端和服务器对齐所有模态的数据,而是对多模态和单模态客户端进行本地训练,只需要服务器上的单模态标记数据。
  3. 不同的客户端在计算能力、模型结构、数据分布或特征分布有所不同。
  4. 《Ensemble Distillation for Robust Model Fusion in Federated Learning》使用知识蒸馏根据本地模型的概率分布来训练FL的全局模型而不是直接平均其参数。
  5. 在客户端,从未标记的数据中提取隐藏表示。
  6. 《On Deep Multi-View Representation Learning》提出深度正则相关自动编码器(DCCAE)
  7. 全局多模态自动编码器 w t a g w_t^{a_g} wtag在第 t t t轮次表示为 ( f A , g A , f B , g B ) t (f_A,g_A,f_B,g_B)_t (fA,gA,fB,gB)t ( f A , g A ) t (f_A,g_A)_t (fA,gA)t为模态 A A A的编码器和解码器。客户端 k k k的本地多模态自动编码器为 w t a k w_t^{a_k} wtak,客户端的模态 m k m_k mk A , B , A B A,B,AB A,B,AB其中的一个。
  8. 服务器上标记的训练集是从训练集中随机抽样的,其大小与客户端本地数据的大小相同。
  9. 使用LSTM进行局部训练,服务器端使用分类器(有一个MLP层连接到一个Log-Softmax层)作为监督学习的模型。
  10. 评估:我们计算一个序列的准确性,即正确识别的样本占序列中所有样本的百分比。所有序列的平均精度就是分类器的精度。

你可能感兴趣的:(Xidian科研,经验谈,深度学习,人工智能,机器学习)