论文阅读"Discovering New Intents with Deep Aligned Clustering"

@article{Zhang_Xu_Lin_Lyu_2021,
title={Discovering New Intents with Deep Aligned Clustering},
volume={35},
number={16},
journal={Proceedings of the AAAI Conference on Artificial Intelligence},
author={Zhang, Hanlei and Xu, Hua and Lin, Ting-En and Lyu, Rui},
year={2021},
month={May},
pages={14365-14373}
}

摘要阅读

发现新的意图是对话系统中的一项关键任务。大多数现有的方法在将先验知识从已知意图转移到新意图方面受到限制。他们还难以提供高质量的监督信号,因而无法学习聚类友好的特征来分组未标记的意图。本项提出了一种有效的方法,Deep Aligned Clustering---深度对齐聚类,在有限的已知意图数据的帮助下发现新的意图。首先,利用一些标记的已知意图样本作为先验知识,对模型进行预先训练。然后,执行k-means来生成作为伪标签的集群分配。此外,论文还提出了一种对齐策略来解决聚类分配过程中的标签不一致性问题。最后,在对齐的伪标签的监督下学习意图表示。对于未知数量的新意图,通过消除低置信度的意图集群来预测意图类别的数量。

任务引入
Task info
模型简述
Model

模型首先用BERT提取意图表示。然后,用有限的标记数据从已知的意图中转移知识。最后,提出了一种对齐策略来提供学习聚类友好表示的自监督信号。

  • Intent Representation
    将句子输入给BERT,得到最后一层隐含层的embedding表示(包含用于分类的cls vector和每个字的embedding),使用mean-pooling得到句子的平均特征表示

    token embedding

    并将输出的特征经过一个全连接层由tanh()激活,以得到意图特征表示
    intent feature

  • Transferring Knowledge from Known Intents
    为了有效地传递知识,论文使用有限的标记数据对模型进行预训练,并利用经过训练良好的意图特征来估计集群的数量。
    step-1. Pre-training
    作者希望结合有限的先验知识,以获得一个良好的表示初始化,以便分组已知和新的意图。具体地说,模型在交叉熵损失的监督下学习特征表示。经过预训练后,删除分类器(保留虚框中的结构),并在后续的无监督聚类过程中使用网络的其余部分作为特征提取器。

    labeled data for Pre-training

    step-2. Predict K
    为了更好的学习新意图的个数,作者设计了一个简单的方法。
    首先,将一个较大的分配为集群的数量(例如,意图类的真实数量的两倍)。由于一个良好的特性初始化有立于基于分区的聚类方法(例如,k-means),所以使用预先训练良好的模型来提取意图特征。将数据输入,通过BERT+Pre-training模型抽取意图特征表示。论文中假设,聚类中真实的簇往往很密集,并且高置信度的簇的大小大于某个阈值。
    由此,经过对抽取的意图特征进行K-Means聚类可以轻松估计值。一般令。

  • Deep Aligned Clustering
    在从已知意图得到转移知识后,模型首先进行聚类,并获得聚类分配和质心。然后,提出了一种原始的策略,为自我监督学习提供对齐的目标。
    step-1. Unsupervised Learning by Clustering
    首先从预训练的模型中提取所有训练数据的意图特征。然后,使用一个标准的聚类算法K-Means,以学习最优的聚类质心矩阵和聚类分配

    K-Means
    然后,利用聚类分配作为特征学习的伪标签。
    step-2. Self-supervised Learning with Aligned Pseudo-labels
    对于无监督聚类算法而言,对于同一批数据,每次得到的聚类分配标签是不一致的。
    由于每个嵌入的样本被分配到欧几里得空间中最近的质心,自然地采用作为先验知识来调整不同训练时期不一致的聚类分配。也就是说,作者将标签不一致的问题转换为质心对齐。虽然意图表示会不断更新,但类似的意图也会分布在附近的位置。质心合成了其聚类中所有相似的意图样本,因此它更稳定,更适合指导对齐过程。
    假设连续训练时期的质心在欧几里得空间中分布相对一致,并采用匈牙利算法得到最优映射。
    其中和分别表示当前和最后一个训练时期的质心矩阵。因此通过映射可以得到对齐后的pseudo-labels 。
    其中表示的逆映射,表示当前训练时期的伪标签。
    在进行标签对齐之后,就可以使用对齐的伪标签在软最大损失的监督下进行自监督学习:

    在最后,作者还提到了 cluster validity index (CVI)

我们使用聚类效度指数(CVI)来评估聚类后在每个训练阶段获得的聚类的质量。具体来说,我们采用无监督度量剪影系数进行评估:

盲猜这里应该用于判断当前的自监督训练停止的指标。


第一次分割线 --
以我不成熟的认识,我觉得模型的组成和运行分成了三个组成:
(1)

首先是紫色图的学习,这一部分和我在“Transferring Knowledge from Known Intents”下"step-1. Pre-training"给出的图一致。
主要是用labeled data对模型进行一个预训练,训练完成后移除分类层待用。
(2)
使用框标记的部分对数据的 值进行预测。
(3)
第三个组成包含几个模块:首先是左侧红框中,使用伪分类器得到分类标签;然后是水蓝色框中,使用固定的 对数据进行聚类,得到聚类分配的标签;对于分配的结果有两个分支选择,其一:得出伪标签计算聚类指标,查看是否停止自监督训练,其二:使用蓝圈内进行对齐得到对齐后的标签,与BERT输出的标签形成loss函数进行训练。

具体做法还需要查看源码。。

你可能感兴趣的:(论文阅读"Discovering New Intents with Deep Aligned Clustering")