BERT中的CLS效果怎么样

首先BERT中的CLS向量是通过自注意力机制将所有token向量加权求和,
原论文中这样说:每个序列的第一个标记始终是特殊分类嵌入([CLS])。该特殊标记对应的最终隐藏状态(即, Transformer 的输出)被用作分类任务中该序列的总表示。对于非分类任务,这个最终隐藏状态将被忽略。
那么如果是将该序列分类,用CLS接一个全连接是不错的选择;如果要提取sentence embedding,其效果还不如所有token embedding然后池化操作(mean or max),还有一个比较不错的trick,就是token embedding加cnn然后max pooling

你可能感兴趣的:(工程实践,bert,自然语言处理,深度学习)