【文献精读笔记】Explainability for Large Language Models: A Survey (大语言模型的可解释性综述)(五)
****非斜体正文为原文献内容(也包含笔者的补充),灰色块中是对文章细节的进一步详细解释!五、解释评估(ExplanationEvaluation)在前面的章节中,我们介绍了不同的解释技术和它们的用途,但评估它们如何忠实地反映模型的推理过程仍然是一个挑战。我们将评估大致分为两类:传统微调范式的局部解释评估(第5.1节)和提示范式中自然语言CoT解释的评估(第5.2节)。评估的两个关键维度是对人类的