机器学习揭示了莎士比亚戏剧中有多少是别人写的

文学分析家们很早便注意到莎士比亚《亨利八世》中有另一位作者的笔迹。现在，神经网络技术已经识别出了有问题的特定场景，以及这些场景是谁写的。

威廉·莎士比亚一生中大部分时间都是一家名为“国王的男人”（King’s Men）剧团的剧作家，该剧团在伦敦泰晤士河岸边演出他的戏剧。当莎士比亚在1616年去世时，该剧团需要一个人来接替他的工作，于是请来了当时最多产、最著名的剧作家之一约翰·弗莱彻(John Fletcher)。

此后，弗莱彻的名声便销声匿迹。但是在1850年，一位名叫詹姆斯·斯派丁（James Spedding）的文学分析家注意到弗莱彻的剧本和莎士比亚的《亨利八世》中的段落有惊人的相似之处。斯派丁断定弗莱彻和莎士比亚一定是合作演出的。

证据来自对每个作者的语言特质的研究，以及他们是如何在《亨利八世》中突然出现的。例如，弗莱彻经常用ye代替you，用em代替them。他还倾向于将sir、still和next等单词写在标准五步诗中，以创造额外的第六音节。

这些特征使得斯派丁和其他分析师认为弗莱彻一定参与了剧本创作。但是，该剧究竟是如何划分的，仍存在很大争议。还有一些评论家认为，另一位英国剧作家菲利普·马辛格(Philip Massinger)实际上是莎士比亚的合著者。

这就是为什么分析人士和历史学家都很想一劳永逸地确定是谁写了《亨利八世》的哪些部分。

在布拉格的捷克科学院，彼得•普莱查奇（Petr Plecháč）说，他使用机器学习解决了这个问题，从而确定了该剧中每一行内容的作者身份。普莱查奇说，“我们的结果高度支持斯派丁提出的莎士比亚和约翰·弗莱彻之间戏剧的规范划分。”

新方法原则上很简单。多年来，机器学习算法一直被用来识别作者写作的独特模式。

该技术使用作者的大量作品来训练算法，并使用一个不同的、更小的作品来测试它。然而，因为一个作家的文学风格在TA的一生中可能随时间等因素而改变，所以确保所有作品都有相同的风格是很重要的。

一旦算法学会了最常用的单词和节奏模式，它就能在从未见过的文本中识别出这种风格。

普莱查奇严格地遵循这种技术。他首先训练算法，通过与亨利八世同时创作的其他剧本来识别莎士比亚的风格。这些戏剧有《科里奥兰纳斯》、《辛白林》、《冬天的故事》和《暴风雨》。

然后，他训练算法识别约翰·弗莱彻的作品，使用的是他同时段写的一些剧本。

最后，他让算法在《亨利八世》上自由发挥，并让算法通过滚动窗口技术来浏览剧本，从而确定文本的作者。

结果很有趣。他们倾向于同意斯派丁的分析，弗莱彻写了几乎一半的场景。然而，该算法允许使用更细粒度的方法来揭示作者有时不仅在新场景中，而且在前一场景结束时是如何改变的。例如，在第3幕第2场，模型显示在第2081行之后出现了混合作者，又发现莎士比亚在第4幕第1场开始之前的第2200行再次完全独自完成了作品。

普莱查奇还训练他的模型识别菲利普·马辛格（Philip Massinger）的作品，但几乎没有发现表明他参与莎士比亚作品创作的证据。他总结道：“菲利普•马辛格参与几乎不可能。”

这是一项有趣的工作，它展示了语言学家和文学分析家如何使用机器学习来更好地了解我们的文学历史。

然而，还有许多工作要做。例如，当机器视觉算法被训练来识别艺术风格时，计算机科学家很快就想出了如何提取一种风格并将其应用到其他图像上，即使用一种称为神经风格转换的技术。一夜之间，一幅普通的照片就有了梵高或莫奈的风格。

这就提出了一个问题，类似的技术是否也适用于文本。有没有可能把一篇文章，比如木法沙和三傻的文章，变成莎士比亚或者约翰·弗莱彻的风格？

很遗憾的是，除了用“em”代替类似单词“them”等琐碎方法外，目前还没有更高级的文本风格化的技术。

机器学习揭示了莎士比亚戏剧中有多少是别人写的

你可能感兴趣的:(机器学习揭示了莎士比亚戏剧中有多少是别人写的)