Semi-supervised Multi-modal Emotion Recognition with Cross-Modal Distribution Matching 阅读笔记

Semi-supervised Multi-modal Emotion Recognition with Cross-Modal Distribution Matching 、

Semi-supervised Multi-modal Emotion Recognition with Cross-Modal Distribution Matching 阅读笔记_第1张图片

特征提取部分

  • BERT-large 1024维
  • DenseNet 342
  • OPENsmile 1582
  • z-normalization (怀疑就是这个导致准备率不高,测试一下)

DAE部分

  • 对于视觉和文字, 因为是一个关于时间的序列特征,所以使用Seq2Seq的 encoder (Transform), 加入卷积进行下取样
  • 对于声音, 使用全连接层即可 (对于声音,其实也是一个关于一组特征序列, 不知道为什么不使用Seq2Seq)

Loss设计部分

  • Reconstruction loss 重建loss

    • 减少encoder 的信息损失
  • Unsupervised Distribution Matching Loss

    • 因为同一样本不同模态的表示应该相近,所以可以进行半监督学习,具体方法是: 拿一些unlabeled的视频样本,然后提取出三个模态的特征,输入到encoder模块里,得到的表示应该相近(分布匹配
  • Supervised Emotion Classifcation Loss 分类loss

    • 没有特别的融合方法,把encoder出的表示拼接即可,算出分类、

Unpair 样本解决坍缩问题

全给匹配的样本反而会导致坍缩, 所以作者制造了一些不匹配的样品, 这些样本的三个模态的特征提取于不同的视频,所以它们的encoder表达必然距离远

其原因是:  因为一直给好的数据 模型只知道 变好的方向, 所以是单向的优化, 那么 肯定最后所有ecoder的结果都要向 零向量接近(距离最短), 所以要给一些坏的例子才行,  这样模型知道哪边是好,哪边是坏才比较好。

总结

这篇论文使用半监督学习,通过使用没有被标记的视频,来对自己的encoder进行训练,以得到更好的encoder表示,对于得到的每个模态的表示由于都是距离相近的一类向量,所以作者只是拼接起来,然后直接分类。

这篇文章没有注重模态的互补这一方向,没有share和private的概念,但是半监督学习的这一类方向是完全可以进行尝试的, 但这就意味着放弃模态的互补 这一方向,想看看能否进行结合。

你可能感兴趣的:(多模态,多模态,半监督学习,情感分析)