面向任务、多用户、VQA:Task-Oriented Multi-User Semantic Communications for VQA

目录

    • 论文简介
    • 动机:为什么作者想要解决这个问题?
    • 贡献:作者在这篇论文中完成了什么工作(创新点)?
    • 规划:他们如何完成工作?
    • 理由:通过什么实验验证它们的工作结果
    • 自己的看法


论文简介

  • 作者
    Huiqiang Xie
    Zhijin Qin
    Geoffrey Ye Li

  • 发表期刊or会议
    《IEEE WIRELESS COMMUNICATIONS LETTERS》

  • 发表时间
    2022.3


动机:为什么作者想要解决这个问题?

  现存的工作主要关注单模态数据,然而在实际通信中系统需要处理来此多个用户多种模态的数据。

多用户:两个用户;多模态:两个模态


贡献:作者在这篇论文中完成了什么工作(创新点)?

  • 提出了一个面向任务多模态语义通信框架MU-DeepSC(又是联合设计)。采用视觉问答任务(visual question answering ,VQA )来验证框架的有效性。

    视觉问答任务:发送端部分用户传输图像,其他用户传输文本查询图像信息,接收端直接预测答案 (有监督学习,监督是答案)

  • 语义解码器用了memory,attention, and composition (MAC)神经网络
    这个网络在当时比较新,所以算创新了

规划:他们如何完成工作?

  • 整体框架

    面向任务、多用户、VQA:Task-Oriented Multi-User Semantic Communications for VQA_第1张图片

    1. Image Transmitter:
      语义编码器采用ResNet-101,信道编码器采用不同单元的CNN来生成传输符号
    2. Text Transmitter:
      语义编码器采用双向长短期记忆(Bi-LSTM),信道编码器采用不同单元的dense层
    3. Receiver:
      图像信道解码器采用不同单元的卷积层,文本信道解码器采用不同单元的dense层,语义解码器采用MAC神经网络

      看的这些论文里,信道编码器有用CNN的,有用dense的,不尽相同
  • 具体来看一下MAC网络

    面向任务、多用户、VQA:Task-Oriented Multi-User Semantic Communications for VQA_第2张图片
      利用MAC网络作为语义解码器来合并文本和图像的语义信息,并且回答视觉问题。
      MAC网络包含多个MAC cell,每个包含 control unit,read unit和write unit:

    1. control unit首先根据接收到的文本语义信息,即问题对象和问题类型,通过注意力机制生成查询;
    2. 然后read unit通过另一个注意力机制模块,获取该查询并从图像语义信息中搜索对应的关键字。
    3. 最后,write unit整合信息并输出问题的预测答案。

      有一说一,我感觉换个网络也行

理由:通过什么实验验证它们的工作结果

面向任务、多用户、VQA:Task-Oriented Multi-User Semantic Communications for VQA_第3张图片
  第一行是传输的图像,第二行是传输的问题,最后四行分别是所提出的 MU-DeepSC、传统方法、仅包含文本的 MU-DeepSC 和仅包含图像的 MU-DeepSC 的预测答案。

具体描述见论文III


自己的看法

  面向的是多用户的场景,采用VQA问题来验证所提出框架的有效性。之所以能发表,更多的是因为场景的新颖,多用户多模态,并不是文章所用的深度学习神经网络有多新。
  通过这篇论文知道了VQA是什么


你可能感兴趣的:(智简网络&语义通信,文献阅读,6G,人工智能,语义通信,智简网络,无线通信)