是计算机语言学家还是Twitter惹的祸?

 

在文学史上,一本原本销量平平,无人问津的小说在一夜之间跃至畅销书榜首,应该不算罕有。但罗伯特.盖尔贝特(Robert Galbraith)的犯罪小说《布谷鸟的呼唤》(The Cuckoo's Calling)的背后,却有另外一个文学史上前所未有的新故事。

 

这本书描述了一个在伦敦处境不顺的私人侦探破案的故事,在最早发行之初,本书只卖出了1500本纸质版。而读书评论界几乎没人注意到这本书,更算不上畅销了,毕竟不是所有的英国犯罪小说都能像福尔摩斯系列那样脍炙人口。但作者罗伯特先生似乎也并没有着急而为本书作很多推广,按照他的原计划,本书只是该系列的第一本。

 

是计算机语言学家还是Twitter惹的祸?_第1张图片

本书第一版封面

 

出版社对作者的介绍为:一位前便衣警探,于2003年离职后工作于民间安全产业领域。这原本是对作者背景的简单介绍,但却引来了一些有心人的疑问:对于这样背景的盖尔贝特先生而言,第一次写作尽管在技术的角度可能能够保证真实性,但从文学角度而言,盖尔贝特先生不应该有这种完成一系列小说的自信。基于这样的疑问,来自The Sunday Times的记者找到了美国迪尤肯大学(Duquesne University)的计算机科学家帕特瑞克.朱博士(Dr. Patrick Juola)。朱博士专攻计算机语言分析和安全领域,记者希望他能够尝试确定盖尔贝特先生的真实身份。

 

朱博士一直在研究如何分辨不同作家的写作模式。当然基本的方法也许很直接,例如考察具体的词频,词的离散程度等等。但对于年代久远的一些作品而言,找到相应参考的样本的机会不多,如何在极端的条件下高精度地判别作家的写作模式,是更为有挑战性的研究方向,具体的方法也许会涉及到更为深奥的数学模型,例如隐马尔科夫法等。

The Sunday Times的记者将J.K. 罗琳(哈利波特的作者)的新书《偶发空缺》(The Casual Vacancy)和其他的一些非童话作品以及其他类似犯罪小说的作品给了朱博士,希望他对这些作品和《布谷鸟的呼唤》进行比对,以确定作者可能的身份。

 

对于这个任务,朱博士运行了四段程序,用以比对文章的:

  • 词频最高的100个词
  • 词频最高的四字缩写
  • 相互毗邻的词语组合
  • 词长的分布

我们可以把这个看做成有4个元素的特征向量,在样本足够大的条件下,区分少数特定作家的难度应该是不大的。

而最后的结论是,J.K. 罗琳的吻合程度最高,《布谷鸟的呼唤》要么就是J.K. 罗琳本人写的,要么就是刻意模仿J.K.罗琳的作家写的。

 

在得到另外一名英国语言学家相同的答复后,The Sunday Times发布了这一消息,怀疑《布谷鸟的呼唤》正是大名鼎鼎的J.K. 罗琳化名为罗伯特.盖尔贝特而作!此消息一出,该书由原亚马逊英国书籍榜4709名一跃为第一畅销书。

 

数日后,J.K. 罗琳发布声明,承认自己就是“前便衣探员”盖尔贝特先生。她略带遗憾地表示:“这个秘密本来可以保持更久的。”“用没有众人关注和期待的化名来发新书真是一种享受,可以听到人们关于作品最纯粹的想法。”

 

所以这种小仲马式的化名试验自己作品是否为盛名而负(当然小仲马是不想依仗他父亲的盛名,而J.K. 罗琳是不想被自己的名声所影响)的小游戏,在今后计算机拥有强大语言分析能力的背景下,乐趣全无。试想一个作家如果为了要通过以上四个实验,而拼命改变自己的笔调和语言风格,那必定是十分痛苦和别扭的。

 

在这次披露后,不少人认真阅读了这本书,并且给出了客观的好评。如果没有这样的分析,也许在整个小说系列全部出版后、甚至像梵高的向日葵般在J.K. 罗琳死后才能得到这种意义上的欣赏。当然,那又会是另外一段文学史上的轶事了。

 

故事本来到这里应该就告一段落了。可后来又有报道,原来盖尔贝特的真实身份是在Twitter上泄露的! 一位曾经为罗琳工作过的律师的老婆的朋友在Twitter上向The Sunday Times的记者泄露了这背后的故事!这多少好像暴露了人性的一些缺点,让本身纯粹的技术的方面的乐趣,变得有点卖弄和多余,但这却是不可拒绝的现实!

 

在现在的技术条件下,想要隐匿一些事情,无论是好的还是坏的,都是难上加难了,人的行为足迹(特别是语言文字,无论以电子为载体还是以纸质书籍为载体)想要得到科学的分析和鉴定并非难事,况且在这整个故事链条里,还时不时飞过蓝色的告密小鸟!

 

 

你可能感兴趣的:(twitter,linguistics,Computer)