会话推荐任务中的评价问题

1.开放域对话对话中的评价问题

以下为"Towards Unified Dialogue System Evaluation:A Comprehensive Analysis of Current Evaluation Protocols"阅读笔记

1.1开放域对话任务的分类

作者将开放域对话任务分为四类研究方向
会话推荐任务中的评价问题_第1张图片

1.2 评估指标的分类

评价指标主要有三种:
(1)自动评估(Automated Evaluation)
(2)人工评估
①Static Evaluation②Interactive Evaluation

1.3 自动评估方法分类

(1)Ground Truth Response Similarity
与标准回复的相似度。

①BLUE
②ROUGE:a subset of average, extrema, and greedy embedding similarity (Liu et al.,2016)
(2)Context Coherence
回复与上文的相关度
Embedding similarities between dialogue contexts and system responses have been used to quantitatively assess the relevance between the system responses and the preceding dialogue history

①Coherence:average word embedding similarity between dialogue context and generated
response (Xu et al., 2018)
②embedding:a subset of average, extrema,and greedy embedding similarity (Liu et al.,2016)

(3)Response Diversity
生成回复的丰富度。
①Distinct:a subset of Distinct-1, Distinct-2, and Distinct-sentence (Li et al., 2016)
②Entropy:average character-level entropy over all responses (Mou et al., 2016)
③Inertia:inertia on the clusters of embeddings of responses (Du and Black, 2019)
④Entity Score: average number of entities per response (Y oung et al., 2018)

(4)Language Model Fitness
Generative models are usually evaluated in terms of how well they learn to model the language of the dialogues in their training corpus
(这里还有些不懂,可以再参考一下:
博客1
博客2


Perplexity: inverse likelihood of predicting the responses of the test set (Chen et al.,
1998)

(5)Application-Specific

1.4人工评价方法的分类

不同文章中对于自己的人工指标表述上有很多区别,
去除了一些比较独立的维度比如Quality、 Humanness、Emotion、Empathy、Knowledge Relevance等,合并了一些相似的维度,作者最终将其分类如下
会话推荐任务中的评价问题_第2张图片
注:根据作者的调研,relevance、proactivity、informativeness和engagingness等维度可能是影响对话质量的整体感知的因素.

2.会话推荐任务中的评价问题

有一个精准的评估标准,评估维度对于提升对话系统来讲十分重要。
评估困难是阻碍会话推荐发展的一个重要因素。根据“2020-SIGIRTutorial-Conversational Recommendation Formulation, Methods, andEvaluation”:
(1)信息检索领域的reasearch评估会话推荐任务时主要侧重于“准”,也即推荐的准确度。可是他们对于用户的真实偏好实际上是基于假设的,也即将用户交互过的或者在对话中提到过的item(甚至是表述不喜欢?)作为推荐的ground truth。然而实际上很多对话中没有提到的item仍然很可能是用户所喜欢的。
(2)对话领域的reasearch评估强调生成的response与globel response生成的有多像显然是不合理的,但是现在的一些工作也认识到了这一点,因此不再采用BLUE指标,而是使用了distinct指标,但是仍然无法合理地评估这其中的对话任务。

你可能感兴趣的:(推荐系统,nlp)