统计学下的艺术分析

《纳博科夫最喜欢的词》| 陈章鱼解读

《纳博科夫最喜欢的词》| 陈章鱼解读

建议WiFi环境下播放

关于作者

本·布拉特(Ben Blatt)曾任《石板》《哈佛讽刺家》等杂志撰稿作家,文章散见于《华尔街日报》《波士顿环球报》等媒体。他曾将本书这种有趣的大数据分析、论证方法应用于广泛的艺术题材,包括音乐、影视剧、综艺节目,以及文学创作。

关于本书

作者收集了数千本书籍的数据库,和数百万个单词,并提出一些重要的问题来启发爱书人和怀有好奇心的人:我们最喜欢的作家最喜欢用的是什么词?男性与女性的写作会有不同吗?畅销书会变不畅销吗?当代哪位作家喜欢用“陈词滥调”?最棒的开篇第一个句子有何特征?如何从封面判断一本书?哪些写作建议值得遵守,哪些可以一笑置之?

作者运用现有的统计技巧,加上自己设计的适用方法,所有调查与实验都原创亲自执行,读者不需特殊数学知识也可以理解得出的结果。作者将发现以清晰幽默的语言、充满说服力的视觉呈现,提供了一个认识经典作家作品——不论是其中隐含的模式结构,或者令人难以忘怀的词藻——的全新观点,对写作者而言也能有所启发。

核心内容

1.用大数据分析文学作品,我们可以得到什么新奇的发现?

2.经过大数据的验证,什么样的写作技巧确实可以提升小说的质量?什么样的写作技巧其实并不管用?

3.根据大数据的统计,什么样的小说可以更受读者欢迎,并且卖得更好?

点击查看大图,保存到手机,也可以分享到朋友圈

前言

你好,欢迎每天听本书,我是陈章鱼。今天我为你解读的这本书叫《纳博科夫最喜欢的词》。这是一本文学评论,但是和其他的文学评论不同,这本书是利用大数据来研究文学。

大数据和文学,乍一听是风马牛不相及的两个领域。人们往往有一种观念,研究文学一定要从感性的角度出发。不论是写作者还是文学评论家,都倾向于个人的观感和经验。但是听完这本书你会发现,以往我们认为没有答案的文学问题,大数据竟然可以帮助我们找到答案。以往我们觉得神来之笔的文学作品,大数据竟然可以帮助我们发现规律。

这本书的作者本·布拉特,是美国著名的专栏作家,善于通过大数据分析音乐、影视剧、综艺节目。而这一次,他瞄准了文学作品,他分析了100多位英美作家的1500多部文学作品,还分析了上万部网络小说,在数以亿计的词语中,寻找文学写作的规律,验证文学写作准则的有效性,并将自己的发现写成这本《纳博科夫最喜欢的词》。

这本书的书名,就是一个非常有趣的问题。如果我们想要知道《洛丽塔》的作者,著名作家纳博科夫最喜欢的词,应该怎么办?你要知道,最喜欢的词并不等于最常用的词,像是“yes”和“no”每个作家都常用,可是并不代表这就是他们最喜欢的词。别的作家不常用,这位作家却常常使用,这才能看出他的偏爱。可是这样,不仅需要统计纳博科夫的作品,还要拿别的作家和他比较,要分析的单词数以万计。这件事如果我们手工去做,几乎是不可能实现的。可是如果依靠大数据,我们就能轻松得出答案。已经有学者收集了1810年到2009年间所有的英文小说,布拉特就先统计纳博科夫小说中最常用的词语,再拿这些词和过去200年的其他英文小说比较,找到了一个词,纳博科夫常常使用,可是别的作家却并不常用,这个词是“mauve”,意思是淡紫色。

“每天听本书”解读过纳博科夫的自传《说吧,记忆》,听完那本书你会发现,擅长观察并且情感细腻的纳博科夫,最喜欢“mauve”这个词还真的是合情合理。可是这一点,之前研究纳博科夫的文学评论家都没有注意到过。

你看,在文学领域,一些以前无解的问题,大数据却能帮我们找到答案。

需要说明的是,今天我们利用大数据的场景非常广泛,应用的方法也是多种多样。而这本书展现的,只是在文学研究这一个场景下,利用大数据的几种方法。具体有哪些方法,我会在后面详细说给你听。不过,只从这一个场景,我们也能看到,还有很多我们意想不到的领域,等待着大数据发挥自己的能量。

我从这本书中,选择了三个最值得你关心的问题来解读。

第一,用大数据分析文学作品,我们可以得到什么新奇的发现?

第二,经过大数据的验证,什么样的写作技巧确实可以提升小说的质量?什么样的写作技巧其实并不管用?

第三,根据大数据的统计,什么样的小说可以更受读者欢迎,并且卖得更好?

第一部分

我们先来看第一个问题:用大数据分析文学作品,我们可以得到什么新奇的发现?

最大的发现,是用大数据分析文学作品,可以挖掘作者深层次的写作风格。大数据和统计学,就像是给了我们一双X光透视眼,连文学评论家都不能发现的细微特点,大数据却能帮助我们找出来。

这要从美国历史上的一宗悬案说起。

1787年,美国召开制宪会议,颁布了宪法。为了号召民众支持宪法,三位美国政治家亚历山大·汉密尔顿、约翰·杰伊和詹姆斯·麦迪逊,共用一个笔名,在纽约报刊上发表了85篇文章,这些文章后来出版合集,就是美国历史上赫赫有名的《联邦党人文集》。

《联邦党人文集》的作者是汉密尔顿、杰伊和麦迪逊,这在当年就是公开的秘密。可是这85篇文章中,具体哪篇是汉密尔顿写的,哪篇是杰伊写的,哪篇是麦迪逊写的,却一直是个迷。连当事人的说法都不一致,文集中有12篇文章,汉密尔顿和麦迪逊都宣称自己才是作者。因为《联邦党人文集》是美国历史上极其重要的历史文献,所以一百多年来,一直有学者想要明确每篇文章的作者,大家尤其想知道,那12篇文章的作者,到底是汉密尔顿还是麦迪逊?

一直到1963年,哈佛大学的莫斯特勒教授和芝加哥大学的华莱士教授一起破解了这个谜。不过,这两位教授既不是历史学家,也不是政治学家,他们是统计学家。他们使用的方法,正是统计学的方法,简单来说,就是分析词语出现的频率。

每个人的写作都有自己的特点,体现到文章中,就是每个人使用词语的频率都是不一样的。莫斯特勒教授和华莱士教授研究了汉密尔顿和麦迪逊的文章,发现两个人在用词上有很多不同。比如,麦迪逊用“also”这个词的频率是汉密尔顿的两倍,而汉密尔顿使用“according”的频率则比麦迪逊高很多。再比如,“while”和“whilst”是同义词,麦迪逊在文章中,习惯用“whilst”,从来没有用过“while”,而汉密尔顿在文章中,习惯用“while”,从来没有用过“whilst”。

于是,两位教授选择了几十个普通单词,统计了麦迪逊和汉密尔顿使用这些词的频率,这两组数据,就像是他们两个人的文学指纹。比照指纹,就能确定“嫌疑人”的身份。两位教授就用这个文学指纹,去和那12篇有争议的文章对照,最终得出结论,这12篇文章的作者其实是麦迪逊。

两位教授用统计学的方法,解决了长达两个世纪的争论。

在1963年,两位教授研究的时候,计算机还没有普及。因此他们用的方法,在今天看来十分原始,完全是手工操作,他们把每篇文章复印下来,再一个单词、一个单词地剪下来,最后按照字母顺序排列,统计每篇文章的词频。两个人在论文中写道:“干这样的手工活,一个深呼吸就会搞得漫天纸屑,前功尽弃,让你的同事恨你一辈子。”

好在现在有了计算机,所以这本书的作者布拉特在做各种各样的词频统计时,不用再从纸上剪单词了。而且,他可以利用计算机分析更多的文本,做更多有意思的实验。

他做的第一件事,是进一步验证莫斯特勒教授和华莱士教授的理论,看看是不是每位作家都有自己的文学指纹。

他的思路和刑警一样,先建立一个指纹库,遇到陌生的指纹,就和指纹库对照,看看能不能找出指纹的主人。

布拉特搜集了50位作家的600部小说,圈定了250个基本单词,统计每个作家使用这些单词的频率,把这个数据当作每个作家的文学指纹。接下来,他把这600部小说和50位作家的文学指纹逐一对照,看看能不能用文学指纹检验出小说的原作者。

在将近3万次检验中,只有176次的结果是错误的。也就是说,用词频当作指纹来确定作者,准确率高达99.4%。

接下来,布拉特发现,即使用更少的单词,也能当作文学指纹。布拉特只用10个最常见的单词当作文学指纹,准确率就能达到96%。甚至,只用1个单词当作文学指纹,大多数时候也能得到还不错的结果。比如,只统计“the”这个单词,准确率就能达到71%,只统计“and”这个单词,准确率就能达到83%。你看,即使是最普通的单词,在这种统计手段下,也能体现每个人写作风格的差异。

你可能会说,好的作家本来就应该风格鲜明,而且这600部小说,很有可能类型不同,时代不同,故事也不一样,所以检验起来难度也不是很大吧?

布拉特也想知道,文学指纹能不能接受更难的挑战,他找到了一个完美的难题:网络同人小说。

所谓网络同人小说,指的是网文作者把一部著名小说当作基础,进行第二次创作,同人小说使用同样的主人公,故事也很类似,甚至会主动模仿原小说的风格。因为是网络小说,所以作者写作的年代也十分接近。可以说,用文学指纹辨别网络同人小说的作者,是对这个方法的终极挑战。

布拉特选择的是《暮光之城》系列的同人小说,原著一共60万字,在互联网上,有153位作者,他们的同人小说字数比原著还长。布拉特从中选出50位作者,建立文学指纹库,将《暮光之城》原著和这50位作者的文学指纹一一比对,他发现,没有一位同人小说作者,会被检验成原著作者。

接下来,布拉特又将同人小说作者和作品挨个比较,他一共做了两万多次检验,发现准确率高达99.7%。你看,即使主人公相同,故事相似,时代相近,把单词的频率当作文学指纹,依然能准确的区分每一个作者。

从莫斯特勒教授和华莱士教授,到布拉特的试验,我们可以看到,利用大数据和统计学方法,我们可以找到每个写作者独有的文学指纹,将他与其他作者区分开来。

第二部分

文学指纹确实让我们大开眼界,感受到大数据在文学领域的独特优势。不过,文学指纹的使用场景毕竟有限,大数据能不能对文学有更广泛的帮助呢?

接下来我们就来看第二个问题:经过大数据的验证,什么样的写作技巧确实可以提升小说的质量?什么样的写作技巧其实并不管用?

从古至今,无数作家都在探索写作的规律,从如何遣词造句,到怎样布局谋篇,都有前人总结出的写作心法。这些心法真的有用吗?作家自己的成功,真的是遵循了这些心法吗?现在,在大数据的帮助下,我们可以一一验证。

很多人相信,好的写作就应该文辞简洁。要说这其中最著名的代表人物,那就应该是海明威了。海明威一直以文辞简洁而闻名,他自己也坚信,好的文学作品应该是简洁的,作品应该尽可能精简,只保留最核心的部分,多余的文辞只会损害作品。

在英文写作中,作家们普遍认为,副词,尤其是以ly结尾的副词,是违反简洁原则的罪魁祸首。比如著名小说家斯蒂芬·金就曾经说过:这些副词不是你的朋友。

为了检验这一点,布拉特选择了西方公认的15位伟大作家,分析了他们的167部代表作。同时他也分析了一些畅销小说和网络小说,统计结果表明,单看副词的数量,确实就能看出作家的水平。

比如美国畅销小说《五十度灰》系列和《暮光之城》系列,每10000个单词中,使用ly结尾的副词分别是155个和134个。菲兹杰拉德的小说《了不起的盖兹比》,这个数字只有128个,而在狄更斯的作品里,这个数字是108个,海明威不愧是简洁风格的代言人,他的作品,每10000个单词中,ly结尾的副词数量只有80个。

布拉特还下载了9000多部网络小说,他把这些小说和《纽约时报》畅销书榜单上的作品,以及近年来重要文学奖的获奖作品进行比较。结果是,文学奖获奖作品使用的副词最少,畅销书使用副词多一些,而同人小说使用的副词最多。

由此可见,副词的数量,确实能体现英文作家的水平。

当然,如果单用这条来评判作品优劣,那就过于绝对了。就算是海明威,他的代表作《老人与海》,其实也并不是他最简洁的作品。但是从大数据来看,好的作品确实更简洁,专业的作家也比业余作者更少使用副词。也就是说,如果你想要成为一名更优秀的写作者,确实应该让自己的文风更加简洁。

还有的作家认为,一部小说的开头,也是越简洁越好。曾凭借《使女的故事》获得星云奖的玛格丽特·阿特伍德,她最喜欢《白鲸》的开头:“Call me Ishmael(叫我以实玛利)”,只有三个单词,却充满力量。斯蒂芬·金在接受采访时,曾引用过他最喜欢的三个开头,平均每个开头只有六个单词。

那么,好的作品是不是必须要有个简短有力的开头呢?

布拉特查阅了8份不同的榜单,挑选出了20部作品,包括《傲慢与偏见》《百年孤独》《双城记》等,这20部作品的开头都被读者津津乐道。他发现,这些小说的开头长短不一,其中只有不到三分之一的小说,开头第一句话比整部小说所有句子的平均长度要短。

通过观察这20部作品的开头,本·布拉特得出结论,它们的共同之处并不是长度,而是一定的独创性。

狄更斯的作品最能支持这个说法。《圣诞颂歌》的开头只有6个单词,而《双城记》的开头,也就是大家广为传颂的“那是最昌明的时世,那是最衰微的时世,那是睿智开化的岁月,那是混沌蒙昧的岁月……”这一大段排比句,总共有119个单词。而这两部小说,恰恰都是狄更斯的代表作。所以,并不是越短的开头越精彩。

作家们关于开头的另一个建议,是开头应该新颖,不能落入俗套。这个建议听起来很有道理,如果一部小说开头就没有新意,那这部小说应该也不会特别吸引人。

但是,布拉特使用大数据分析后发现,俗套的开头,也能成就好的小说。

在英美小说中,最俗套的开头是拿天气说事儿。据说这个传统开始于200年前,一位名叫爱德华·鲍沃尔-李敦的作家,在他的小说《保罗·克利福德》的开头写道:“这是一个黑暗的暴风雨之夜……气流猛烈地鼓动着正与黑暗斗争的微弱烟火。”

在当时,这是一个富有创意的开头,后来随着模仿的人多了,渐渐被当作一种很俗的套路。以至于有的写作指南干脆说,千万不要用天气来开头。

可是,根据布拉特的统计,很多伟大作家,也会用这样俗套的开头。像阿加莎·克里斯蒂、马克·吐温、D·H·劳伦斯、狄更斯、斯蒂芬·金,每位作家都有十分之一的小说,开头第一句提到天气。在86部普利策文学奖的获奖小说中,也有13部用天气来开头。布拉特猜测,这是因为用天气开头虽然老套,但是能快速把读者带入到场景中,挑起读者的期待,所以很多作家依然使用这种套路。

布拉特在大数据的帮助下,验证了三条广为流传的写作技巧。结果发现,“文风要简洁”这条建议确实有用。如果想要成为一名更优秀的写作者,确实应该力求让自己的文风更加简洁,最简单的办法,就是尽量少用ly结尾的副词。“开头要简洁”这条建议其实没有什么用,一部作品的开头,并不一定需要简洁,更需要的是独创性。“不要用天气来开头”这条建议要看实际情况,用天气作为开头,虽然很俗套,但是如果没有更好的方法把读者带入场景,这个套路也可以使用。

第三部分

前边我们提到,布拉特不仅用大数据分析了文学史上的伟大小说,也分析了畅销小说,那我们就来看第三个问题:根据大数据的统计,什么样的小说可以更受读者欢迎,卖得更好?

布拉特发现了一个大趋势,随着时代变化,畅销小说的阅读难度,变得越来越低。

在英文中,有一个弗莱施-金凯德公式,可以计算文本的难易程度。简单来说,就是使用这个公式,我们能给一篇文章算出一个得分,这个得分对应的是读者需要的水平。如果一篇文章算出来是3分,那么三年级以上的小学生就能看懂这篇文章。

布拉特搜集了1960年至今登上《纽约时报》畅销榜第一名的563部作品,用弗莱施-金凯德公式计算出难度分值。他发现,在20世纪60年代,《纽约时报》畅销榜的作品,有一半书的难度分值在7.2分到9.3分之间。在那个时候,7.2分的作品算是容易读的,而到了2014年,7.2分就成了最高难度,37部畅销书中,有36部难度都在7.2分以下。

在所有布拉特统计过的《纽约时报》畅销榜作品里,有8部难度最低,得分只有4.4分,而这8部作品无一例外,都是2000年以后创作的。

由此可见,畅销书的阅读门槛,变得越来越低。

其实,不仅是畅销小说,就连美国总统的国情咨文,也变得越来越通俗易懂。有人用弗莱施-金凯德公式计算了历年国情咨文的难度分值,发现19世纪是18分,20世纪是12分,而到了21世纪,已经低于10分。

这背后的原因有多种解释。悲观的人认为整个国家的智力水平在下降,乐观的人则认为传媒变得发达,让文学和政治降下身段,才能触达更多的民众。但是总的来说,我们可以看出一个趋势:如果想让小说更好卖,那么作者最好把小说写得更简单易懂一些。

需要说明的是,这个趋势只是畅销小说的趋势。布拉特分析了历年普利策文学奖的获奖作品,从20世纪60年代,到2014年,获奖作品的分数一直保持在7分以上,并没有大的变化。可以看出来,严肃文学并没有降低自己的阅读门槛。

我们在刚才聊写作技巧时说到,小说的开头并不是越短越精彩。有趣的是,布拉特通过大数据分析发现,对于很多畅销小说,小说每一章倒真的是结尾越短,就越好卖。

布拉特统计了将近200部英美畅销小说,包括斯蒂芬·金的作品、丹·布朗的作品、饥饿游戏三部曲、分歧者三部曲,他发现在这些小说中,有将近一半的章节,结尾都只有一句话。而且,这和作者的行文风格其实是矛盾的,比如饥饿游戏三部曲,平均每段有90个词,可以填满一页纸的三分之一,但是有60%的章节,结尾都是只用一句话。

为什么畅销小说更愿意用一句话作为一章的结尾呢?因为这样更能造成一种戛然而止的效果,更有悬念,更吊人胃口,这样就能吸引读者继续读下去。布拉特的大数据告诉我们,这种方式确实很有用。

布拉特在分析畅销小说时,还发现了一个有趣的现象,不止畅销小说的写法会影响销量,就连小说的封面,也能影响销量。

封面是一本书的脸,好的封面会激发读者购买的欲望。布拉特在封面样本中发现了一个十分有趣的现象,作家的名望越大,封面上的名字也越大。文坛新人主要靠实打实的文字功底征服读者,而对于一些已经成名的畅销作家,名字就是口碑。

比如斯蒂芬·金,1974年他出版了第一部小说《魔女嘉莉》,他的名字在封面上只占了3%的面积。到了1989年,已经广为人知的斯蒂芬·金出版《黑暗的另一半》时,他的名字已经占了封面的47%,比书名还要醒目。

借助大数据的帮助,布拉特甚至找到了作者名气和名字大小的对应规律。他统计了2005年到2014年十年间《纽约时报》畅销书排行榜第一名的作品,平均而言,初出茅庐的作者,名字只能占到封面很少的位置。如果有一部作品成为畅销榜第一名,下一部作品出版时,作者的名字就能占到封面面积的12%,如果有5部作品成为畅销榜的冠军,作者的名字就要占到封面面积的20%以上。畅销书作者真的是货真价实地享有“大名”,名气越大,名字就越大。

总结

到这里,这本《纳博科夫最喜欢的词》其中最精华的部分,我就为你解读完了。

用大数据分析文学,最神奇的功能,就是利用词频建立每个作者的文学指纹,让我们可以精准地找到每个作者深层次的独特风格,将他与其他作者区分开来。

大数据也能找到更多写作的规律,经过大数据的验证,我们发现,如果想要成为一名更优秀的写作者,确实应该力求让自己的文风更加简洁,最简单的办法,就是尽量少用ly结尾的副词。而一部作品的开头,并不一定需要简洁,更需要的是独创性。用天气作为开头,虽然很俗套,但是如果没有把读者带入场景中的更好方法,这个套路也可以使用。

大数据也能揭秘畅销小说的套路。如果想让小说变得更畅销,第一是要迎合读者的阅读习惯,降低阅读难度。第二是可以在每个章节的结尾,只用一句话制造悬念。甚至,作者名字在封面上的面积,也能影响小说的销量。

最后,你也许会关心一个问题:既然大数据在分析英美文学作品时,有这样独特的功效,那么,我们可不可以用这种方法分析中文,解决一些中国文学的问题呢?比如确定《金瓶梅》的作者,或者研究《红楼梦》的前八十回和后四十回到底有怎样的区别?

我的看法是,一定可以,只是还需要一点时间。中文和英文都有自己的特点,英文天然是以单词为单位,而中文是由单字组成词语,同一句中文,应该分成哪几个词,可能本身就会有争议,这就给统计词频增加了难度。好在,很多机构都在试图破解这个难题,相信在不远的将来,我们可以用更科学的方式来分析中文。那时,我们也能利用大数据,找到中文写作的底层规律。

撰稿、讲述:陈章鱼

脑图:刘艳导图工坊

打开得

你可能感兴趣的:(统计学下的艺术分析)