人工智能能理解幽默吗?《Can Language Models Make Fun A Case Study in Chinese Comical Crosstalk》论文解读

文章的主要工作

(1)在文化上,对相声剧本进行了大规模的数字化和清洗,为NLP研究界和中国传统文化界做出了贡献。这将激发更多相声剧本的创作,从而保护这一非物质文化遗产。目前,大多数相声剧本似乎同质化,这是限制其广泛传播的主要瓶颈之一。这项工作将促进其多样性和创造性,这有利于防止其灭绝。
(2)在技术上,对各种方法进行了基准测试,包括 Seq2seq、从头开始训练 GPT、预训练 GPT 2 和 GPT-3,以生成相声。据所知,这是第一个评估预训练语言模型可以在多大程度上生成幽默文本的工作,作为计算机辅助创作乐趣的基准。
(3)进一步指出有关各种偏见、刻板印象,有时甚至是侮辱性的问题。

问题定义

以“对口”为例。双人表演通常涉及两个角色,称为“捧哏”(简称“Peng”)和“逗哏”(简称“Dou”)。Dou的目标是通过语言和动作以滑稽的方式进行表演。 Peng是支持角色,使对话更加流畅和清晰。对话由一系列迭代的话语组成:
Φ = { ( u 1 , v 1 ) , ( u 2 , v 2 ) , … , ( u K , v K ) } \Phi = \{ (u_1, v_1), (u_2, v_2), \ldots, (u_K, v_K) \} Φ={(u1,v1),(u2,v2),,(uK,vK)}
这是一个 K K K轮的双向串话对话,包含2K个话语,其中K个来自于Dou(记为 u u u)和 K K K个来自于Peng(记为 v v v)。请注意, u i u_i ui v i v_i vi都是由多个话语组成,具体来说, u i = { ϕ i , 1 , ϕ i , 2 , … , ϕ i , j , … , ϕ i , l i } u_i=\{\phi_{i,1}, \phi_{i,2}, \ldots, \phi_{i,j}, \ldots, \phi_{i,l_i}\} ui={ϕi,1,ϕi,2,,ϕi,j,,ϕi,li} ϕ i , j \phi_{i,j} ϕi,j是第 i i i个Dou/Peng话语中的第 j j j个词, l i l_i li是该话语中词的数量。

训练可以被构想为两种范式:
1)一个Seq2seq话语生成任务:它可以被视为一个序列到序列的任务来预测下一个话语,基于之前的话语;
2)一个下一个词生成任务:它也可以被看作是一个典型的不考虑话语边界的语言模型,即预测下一个词的原始语言模型。采用通常使用的生成度量标准来评估模型,使用一个自回归话语生成方式,即基于之前话语预测下一个话语,不管它是被训练在一个Seq2seq话语生成范式还是下一个词预测范式。

C 3 C^3 C3数据集

数据集规模

数据集的规模如表所示,收集了9,331个高质量脚本,663,305个话语。总共有 9,331 个对话和 16,481,376 个角色。
人工智能能理解幽默吗?《Can Language Models Make Fun A Case Study in Chinese Comical Crosstalk》论文解读_第1张图片
脚本和话语的长度 每个脚本平均包含 71 个话语。中等长度的话语约为16个单词。如果一个话语超过 128 个词,将其定义为长话语;如果少于 24 个词,将其定义为短话语。长语句有 8,717 条,短语句有 446,756 条。

**关于数据集讨论

典型的幽默理论定义了三种幽默:1)缓解理论:减少心理紧张;2)优越论:嘲笑他人的不幸,使自己产生优越感;3)不协调并置论:所涉及的概念之间的不协调在一定的情境和概念的真实对象中。这三种机制很容易在相声脚本中找到。例如,1)表演者将观众带入紧张的场景,突然讲一个轻松的笑话,2)表演者拿经历过不好的人(通常是台上的表演者或不在台上的其他相声表演者)开玩笑, 3)表演者有时会描述一些有趣的荒唐场景。相声中另一个特殊的幽默是“同形双关”,因为相声是一种言语表演艺术。这有时与汉语的某些方言有关。为了处理“同形双关语”,生成模型可能需要注入一些声学知识。

相声中的伦理问题:必须看到,相声中涉及到很多伦理问题。相声中涉及很多偏见,包括教育背景歧视、性别偏见、职业偏见。此外,相声剧本也放大了当地人的刻板印象。通常情况下,两位表演者也会互相取笑,有些甚至像是一种“侮辱”。幸运的是,这只是针对相声表演者本身的。认为,处理这些伦理问题应该是相声艺术发展的必要条件。

实验

自动评估

实验设置

人工智能能理解幽默吗?《Can Language Models Make Fun A Case Study in Chinese Comical Crosstalk》论文解读_第2张图片
实现了 LSTM Seq2seq,它是从头开始训练的,作为基线。为了利用现有的预训练语言模型,还以微调的方式包含预训练的 UniLM、GPT、T5。最近发布了 CPM、周文王、盘古-α 等大型中文预训练语言模型,因此以零样本的方式评估这些模型,因为这些模型的微调在经济上是昂贵的。此外,还验证了GPT-3的有效性。幸运的是,GPT-3 提供了用于微调的 API,使 GPT-3 成为唯一可以以可承受的成本进行微调的大规模 PLM。

LSTM Seq2seq: LSTM 网络由两层双向 LSTM 编码器和两层 LSTM 解码器组成。 LSTM 模型的嵌入大小和隐藏状态大小均设置为 300。编码器-解码器模型增强了注意力机制。对于对话中的第 k 个话语,编码器的输入是 k 之前的所有过去话语用 256 个标记截断的串联,而解码器的目标输出是第 k 个话语。

UniLM:统一语言模型(UniLM)采用多层 Transformer,还使用不同的掩码来控制可见上下文单词的数量,从而可以应用于自然语言理解(NLU)任务和自然语言生成(NLG)任务。的预训练模型是用维基百科数据和CLUE中的新闻语料数据进行预训练。本文使用的 UniLM 由 12 层组成,隐藏尺寸为 768,头数为 12。构建微调数据结构的方式与Seq2seq相同。

T5:是一个统一的框架,它将各种文本任务处理为文本到文本的格式。它由编码器组件和解码器组件组成,两者都是许多 Transformer 层的堆栈。使用中文版的T5预训练模型,同时使用T5Chinese-base7和T5-Chinese-small8模型进行训练。基础模型的参数为2.75亿,小模型的参数为9500万。

GPT :OpenAI 的生成式预训练 Transformer (GPT) 模型通过引入非常强大的语言模型,占领了自然语言处理社区。 GPT 模型基于单向变压器并进行了一些修改。在的实现中,GPT 模型是 12 层 Transformer,隐藏大小为 768,使用 LCCC Corpus Base 语料库 9 进行预训练,并通过串扰数据集进行微调。将对话分成多个话语,并按顺序将少于256个单词的话语组合为一个输入。

GPT-3:是一个单向语言模型,最大的GPT-3模型使用了45TB的数据进行训练,拥有1750亿个参数。同时,GPT-3主要关注于更通用的自然语言处理模型,以解决较少的领域数据问题,并且没有微调步骤。需要注意的是,GPT-3主要用于英语文本生成,但它也能生成流利的中文文本。应用了GPT-3的在线测试API进行评估相声生成。GPT3-Davinci是没有经过微调的搭载Davinci引擎的版本。Davinci引擎的真实规模是未知的,因为没有详细信息被公开;然而,有一些证据表明Davinci引擎可能是拥有1750亿参数的最大模型。GPT3-Davinci-finetuned是使用GPT-3 API进行微调的版本。在4个Epochs内对200个相声剧本进行了微调。

盘古-α: 是大规模自回归语言模型,参数高达 2000 亿个。它消耗了1.1TB来自广泛领域的高质量中文数据。 Pangu-α 的公开版本(具有 2.6B 参数)可以在 https://huggingface.co/imone/pangu_2_6B 中使用。

CPM :是在 100 GB 中文语料库上训练的生成式预训练模型。 CPM-Large具有36个Transfomer层,达到2.6B参数。

周文王:同时考虑了生成语言模型任务和掩码语言模型;它可以具有语言生成和自然语言理解的能力。更大的模型(Zhouwenwang-1.3B)有13亿个参数。

评估:随机选择200段中文相声对话进行测试,其余的用于训练。为了生成第k个话语,将所有k之前的过去话语连接起来,总长度为256作为输入。采用了几种广泛使用的指标来衡量生成响应的质量。BLEU-1/2/4是一个流行的指标,用于计算生成话语与参考话语之间的k-gram重叠。ROUGE-1/2/L以一种以召回为导向的方式测量单词和二元词的重叠,而ROUGE-L使用最长公共子序列Lin (2004)来测量单词的最长匹配序列。GLEU是对句子级流畅性的自动评估。Distinct-1/2提供了评估生成响应多样性的方法。

结果

  • GPT-3表现良好,结果如表5所示。在大多数指标上(除了ROUGE-L和Distinct-1/2之外),GPT-3的表现超过了其他模型;这是非凡的,因为GPT-3并没有在这个数据集上进行微调,换句话说,这个数据集(包括训练集和测试集)对GPT-3来说通常是不可见的。这可能是因为它是用大量的普通语料库训练的,因此它能够基于语料库中的相似文本生成流畅的文本。

人工智能能理解幽默吗?《Can Language Models Make Fun A Case Study in Chinese Comical Crosstalk》论文解读_第3张图片

  • 中文预训练语言模型(PLM)的表现相对较差。令人惊讶的是,纯粹用中文训练的大规模语言模型(例如,CPM、盘古-α和周文王)的表现并不如主要在英文语料库中训练、部分在中文语料库中训练的GPT-3。特别是,这些零样本的中文大型PLM(即CPM、盘古-α和周文王)的表现不如经过微调的相对较小规模的PLM(UniLM、GPT和T5)。这可能是因为多语言语料库可能是一个有益因素,因为幽默可能跨语言共享。此外,OpenAI没有公开GPT3-Davinci的规模,这使得直接比较它们与已发布的中文PLM的性能变得不公平。因为GPT3-Davinci可能比使用的中文PLM要大得多。也怀疑这些中文预训练语言模型可能没有经过足够的训练步骤;然而,这些细节并没有明确公开,因此很难验证这样的猜想。
  • 规模有助于提升性能。比较T5-small和T5-base的性能,更大的规模一致地带来了更好的表现。此外,观察到大规模的GPT-3在自动评估中几乎达到了最佳性能,相信大规模预训练显著提高了相声生成的质量。
  • 在大规模预训练语言模型上进行微调。有趣的是,从表5中的自动评估来看,相比于原始GPT-3,大多数指标上微调后的GPT-3的性能更差。怀疑微调机制可能导致了这样的结果,比如过度拟合训练数据集,损害了某些泛化能力。然而,在人类评估中,微调后的GPT-3能够生成比原始GPT-3更优质的剧本(见表7),这一点可以从表6中观察到;这表明对相声的自动评估可能与人类的感知不一致。
  • 在多样性指标方面,通过使用Dist-1和Dist-2进行的多样性测量表明,大规模预训练基础上的模型生成了更多样化的剧本。因为大规模预训练是提高模型泛化能力的一般方法。需要注意的是,在语言模型的解码阶段,多样性指标对超参数很敏感。请注意,在表5中,我们并不打算比较这些语言模型的一般性能,或得出一个语言模型的一般性能比另一个更好的结论。因为这些语言模型的一般性能也受到它们的模型规模、超参数选择、训练语料库等的影响。相反,我们仅仅是利用现有的两者都能处理中文生成并且公开可用的语言模型。

案例分析

人工智能能理解幽默吗?《Can Language Models Make Fun A Case Study in Chinese Comical Crosstalk》论文解读_第4张图片

人工评估

人工智能能理解幽默吗?《Can Language Models Make Fun A Case Study in Chinese Comical Crosstalk》论文解读_第5张图片

设置

在测试集中随机选择了50个剧本。我们取前十句话作为Seq2seq、GPT、GPT-3和UniLM的输入。这些模型将逐句或逐词生成接下来的十句话。我们评估的是在原始剧本的前10句话的条件下生成的10句话的剧本,详见附录C中的网络用户界面。对于每个剧本,我们向参与者展示20句话(包括原始的10句话和生成的10句话)。参与者需要:1)为每个生成的剧本的整体质量和幽默程度打分,五分制评分(‘5’分为最好,‘1’分为最差);以及2)对每个生成示例的连贯性和潜在的道德风险标志打二分制评分(‘1’为是,‘0’为否)。我们请求未付费的志愿者参与评价这些来自10个模型的生成结果(我们排除了T5-small,因为它太小,且包含原始剧本)。有15名参与者完成了所有评分。分数是根据所有对话和所有参与者对每个模型的平均得分计算的。这些参与者之间的Fleiss’ kappa是0.366。

人类评估的结果如表7所示。原始剧本的创造性和幽默感被证明是最佳的,可能证明了人类的创造力和幽默感远胜于目前最先进的预训练语言模型。在这些预训练模型中,GPT-3及其微调版本(GPT-3-Davinci-finetuned)在总体质量得分上显著优于其他模型。有趣的是,微调后的GPT-3在自动评估中虽然表现较差(见表5),但在总体质量得分上却优于零样本的GPT-3。与表5中的自动评估相似,零样本的大规模中文预训练语言模型(第三组)在性能上不及经过微调的中等规模PLM(如UniLM、T5和GPT)。Seq2seq表现最差,这可能是因为Seq2seq没有利用预训练。有趣的是,CPM-large产生了比其他模型更多的侮辱性内容;其原因需要进一步调查。

结论

基于人类评估,尽管采用大规模预训练语言模型可以在很大程度上提高相声生成的质量,我们可以初步得出结论,最佳生成方法能够生成具有相当好的相声,其总体质量与原始剧本相比为65%(2.27比3.52)。这与我们的预期相去甚远。

原因可能有两方面:首先,用于幽默生成的评估标准并不令人满意:它缺乏能够评估幽默生成的评估标准。观察到表5和表7之间的不一致性,使用BLEU和ROUGE评估得到的更好表现并不一定意味着对幽默感的提升,这可能表明BLEU或相关指标用于生成评估并不不适当。文本基础的评估标准对于幽默生成可能没有意义,因为幽默本身是多样化且主观的,没有文本基础的真相。换句话说,幽默是无参考的。人类评估成本高昂且无法在模型训练期间提供实时反馈。其次,当前方法没有考虑幽默的核心成分。幽默的核心成分包括不协调、惊喜、文化共鸣和人际效果,缺乏这些,仅仅基于数据训练是生成真正幽默的一种温和方式,它无法记忆训练数据,也无法生成真正的幽默。

笔者注:

作者这篇文章的意思是PLM似乎无法理解幽默,笔者任务作者的工作还可以进行改进,这篇文章作者的主要工作是使用相声数据集直接去微调各种PLM,得出了不太尽如人意的结果,我的想法是先让语言模型理解什么是幽默的句子,所以在训练集上是否可以加上一部分不幽默的数据,损失函数中加入判断句子是否幽默的损失。这样是否会让模型效果好一些。

另外, 关于中文预训练模型效果不好这一点,作者也没有做更深入的研究。

你可能感兴趣的:(论文笔记,人工智能,语言模型,自然语言处理)