PhraseHOI阅读(记录)

没有细读,因为这篇文章并没有开源代码,且提到的很多名词仅做了个文献引用。

PhraseHOI阅读(记录)_第1张图片这篇文章像是HOItrans 的基础上增添了一个Phrase branch,其中HOI branch也是有5个MLP层,预测人的置信度,物体的类别,交互类别和两个边界框。
在PhraseHOI中,作者认为提出的Phrase branch,即对于输入的拥有全局信息的Knowledge embedding,将其通过映射到语言特征空间,能够有效解决长尾问题。在测试阶段,输入的knowledge embedding通过三层MLP得到 Prediction embedding,再通过LUT转换为关系短语
这里,没太清楚。这里提到的的标签合成方法作者引用了一篇论文Detecting Human-Object Interactions via Functional Generalization来解决的

但是,论文里说的能解决长尾问题,是因为相近语义的词,在语言特征空间中是相邻的,因此它根据这个,抽样K个相近的语义进行训练。

所谓长尾问题,即28定论,自然界中收集的样本通常呈长尾分布,即收集得到的绝大多数样本都属于常见的头部类别(例如猫狗之类的),而绝大部分尾部类别却只能收集到很少量的样本(例如熊猫、老虎),这造成收集得到的数据集存在着严重的类别不平衡问题(Class-Imbalanced),从而使得训练得到的模型严重的过拟合于头部类别。
PhraseHOI阅读(记录)_第2张图片
换句话来说,模型对不确定性很高的尾部类别样本都预测成头部类别了。
举个例子,我在训练阶段喂入模型100张猫的图片以及10张狗的图片,在测试阶段时会发现对于模型把握不准的狗的图片都会预测成猫,只有模型特别有把握的狗的图片才会预测成狗,此时会造成猫这个类别的 Recall 会非常高 Precision 却会非常低,反之狗这个类别的 Recall 会非常低但 Precision 却会非常高。

因为这个模型很多引用,且没有开源代码,因此这个在之后再认真细读。现做记录。

你可能感兴趣的:(HOI,机器学习,深度学习,人工智能)