大数据量化分析下,J.k.罗琳的写作风格一看就是英国人

杰出儿童文学作家罗尔德·达尔有一篇鲜为人知的短篇小说《伟大的自动语法器》。故事讲述的是一个名叫阿道夫·奈普的工程师利用自己的专业知识,发明了一台名为“伟大的自动语法器”的机器。这台机器只需要根据一个的简单情节,就能写出完整的故事。

如果我们不看小说内容,只看故事设定的话,就会发现《伟大的自动语法器》很有意思,一个理工男发明了一台机器,不仅能利用算法来写小说,还能利用算法来预测什么样的作品会“火”。

这完全是用数学来探究如何写作嘛!

虽说小说是虚构的,但它提出的数学和写作相结合的方法却很有借鉴意义。因为现实生活中的工程师们也做出了一大推,类似“伟大的自动语法器”的软件。如果你打开一个浏览器,输入类似“小说生成器”的词语,你就能搜出它们。不过这些软件并不是真正意义上的自动写小说,只是简单的文字拼凑而已。

虽然现实中“伟大的自动语法器”们没法像小说中那么厉害,但是这也绝对是数学和写作的一次有趣尝试。和工程师们的小打小闹不同,1963年,统计学家哈佛大学教授莫斯特勒和芝加哥大学教授华莱士,就利用词频和概率的方式,解开了困扰人们2个多世纪的《联邦党人文集》中12篇作者未明的问题。给写作爱好者们打开了一扇用科学破解艺术、用数学揭露写作秘密的窗户。

基于莫斯特勒和华莱士两位统计学家的有趣尝试,美国作家本·布拉特在其作品《纳博科夫最喜欢的词》中以此为灵感分析了超过1500部经典文学作品,用数据帮我们找到了如何写作的秘密。

在《纳博科夫最喜欢的词》中本·布拉特用严谨的数字告诉了我们很多有趣的知识点,像海明威很讨厌副词、纳博科夫最喜欢的词是什么、从统计学上讲《麦田里的守护者》更像是女作家写的等等。

在《纳博科夫最喜欢的词》中本·布拉特用数字破解的写作密码还有很多,但我却对莫斯特勒和华莱士两位统计学家如何确定某篇文章究竟是谁写的更感兴趣。看完全书我发现,其实这都是由作家的写作风格决定的,而写作风格里面隐藏的文学“指纹”受个人用词规律、性别差异以及文化背景的影响。

统计学家利用用词规律破解文学疑案

从1787年开始,汉密尔顿、麦迪逊、杰伊为了政治抱负,在当时纽约的报纸上用同一个笔名“普布利乌斯”发表了85篇鼓吹新宪法的文章。3人用同一个笔名写文章的事,在当时是一个公开的秘密,人们也一直对文章的归属问题很好奇,但十几年间3人谁都没有站出来承认自己写过哪些文章。

直到1804年,汉密尔顿在给朋友的一封信中列出了这85篇文章的作者分别是谁,谜团就此破解。然而13年后,麦迪逊在总统任期结束后,列出了他的文章清单。这份清单与当年汉密尔顿所列出的清单有所出入,出入点在于:有12篇文章,汉密尔顿和麦迪逊都声称是自己所写。

此事引起了吃瓜群众的极大热情,历史学家也为此争论不休,但谁也没法拿出证据证明这12篇文章的归属权。直到1963年,这个问题才被莫斯特勒和华莱士两位统计学家给出了明确答案。是的,你没有看错,是统计学家,而不是历史学家。

两位统计学家究竟是怎么做到的哪?首先他们找出《联邦党人文集》中,汉密尔顿和麦迪逊没有争议的文章内容,然后系统地选出了几十个基本单词,计算它们的使用频率;最后在有争议的文章中同样统计这些基本单词的使用频率,最终确定了这12篇文章的主人。

两位统计学家选出的基本单词并不是随便选择的,它们代表着汉密尔顿和麦迪逊的用词习惯。比如,whilst和while意思虽然差不多,但是在麦迪逊的文章,超过一半使用了whilst,却从未使用过while;而汉密尔顿大约⅓的文章使用了while,却从未使用whilst。

这就相比我们汉字中的“却”和“但”,虽说都是转折词,但有的人喜欢用“却”,有的人喜欢用“但”是一样。只要你写东西,肯定会留下这些用词规律的痕迹,这就好比是你的“文学指纹”是独一无二,找到用词规律就能大致确定作者。

作品自带性别雷达,大数据告诉你作者作品中的性别偏向

大作家弗吉尼亚·伍尔夫在《一间自己的房间》中说:“任何作家,只要在写作时考虑自己的性别,就无药可救了。”真的是这样吗?

2003年,一个名叫尼尔·科拉维茨的程序员发表了一篇论文,他研发了一种快速计算方法,只要51个词就能预测性别。他的方法很简单:根据相对的预测能力,给每个词一个分值,而计算过程则是:男性分值的和÷总分值。

例如:The menthod is simple and crude这句话中,“the”代表男性分24,“is”代表男性分18,“and”代表女性分4,它的男性比值是91%,计算方法是(24+18)÷(24+18+4),根据计算结果上面这句话更可能为男性所写。而尼尔·科拉维茨给出的这个算法预测性别的准确率高达80%。本·布拉特根据这个方法在分析100部经典作品时,猜对了58部作品作者的性别,虽然准确率不高,但还是比随便猜的准确率高。

大数据的量化分析告诉我们,作者的作品中隐藏着性别用词差异,并不像弗吉尼亚·伍尔夫说的那样,写作时不能考虑自己的性别。比方说男性经常谈论的是科技、武器,而女性更喜欢谈论八卦、饰品。“人家”这个词你经常能从女性口中听到,但男性没少会说。

本·布拉特在《纳博科夫最喜欢的词》中还通过大数据量化分析举了一个“他她比”的例子,得出男性作家的经典作品压倒性地偏向于男性角色。女性作家的经典作品虽然稍偏重女性角色,但与平均值相差不远。

就拿最近很热的大IP来说,虽说女性网文作者中也有一些写大女主作品的,但在更多的女性作者的作品中男女主角色的份额都是差不多的,但男性网文作者却不同。在《2018年中国网络文学作家影响力榜单》中大多数的男作家都是大男主的钟爱者,像天蚕土豆的《武动乾坤》、《大主宰》;除了网文作者外,著名作家路遥在《平凡的世界》中对男性角色的刻画也远远多于女性角色。

虽然这都是个别例子,但这起码说明一点,同性别作家对同性别群体的思维、行动都大致了解。根据自身的性别经验来创作同性别角色能让作家写出他们熟悉的东西

文学作品需要“入乡随俗”,而排行榜更偏爱本国作家

为了融入一个地方,我们有“入乡随俗”之说。而“入乡随俗”除了在风土习俗中适用外,在文学作品中也适用。

虽然英美两国同样把英国作为常用语,但由于文化背景不同,两国的用词也存在差异。就拿bloke这个词来说,在英国就用的多,而在美国它就不是常用词。在英国的语料库里,每10万个词中,bloke平均出现1.2次,而在美国语料库中它只有0.045次。

本·布拉特通过大数据量化分析发现在英国作家J.K.罗琳的《哈利波特》系列中bloke在每10万词中差不多出现了3次。但是在英、美两国的《哈利波特》同人小说中,英国作者每10万词中使用bloke超过3次的只有10%,而在美国作家中这个比例却接近25%。甚至有一位美国作家,在每10万词中出现bloke的次数超过60次。

由此可见,文学作品中也有“入乡随俗”一说,小说的设定在英国,那其他国家的同人小说就需要写出英国腔。美国人把bloke这个词当成了一个带有英国腔的词,他们在写英国背景下的《哈利波特》同人小说时,用bloke表明小说的英国身份。

除了在撰写同人小说时,有“入乡随俗”外,各类图书排行榜也更偏爱本国籍作家。 在2014年亚马逊公布的一份“100部人生比读书”清单中,美国亚马逊的书单中有69部美国作家的作品,而英国亚马逊书单中有70部英国作家的作品。

这些文化背景下的“入乡随俗”,就好比说方言,一个说“小嫚”的青岛人到了北京,不管是为了入乡随俗还是为了装成一个北京人都会把“小嫚”说成“丫头片子”。

本·布拉特在《纳博科夫最喜欢的词》用大数据帮我们打开了一扇通往文学的大门,在这扇大门里,除了有写作密码,还有围绕书籍的各种奇特知识点。而大数据虽然无法帮我们制作一台“伟大的自动语法器”,它却从另一个角度告诉我们每个作品都有它独特的属性,人们无法篡改它作者、性别以及背景。

你可能感兴趣的:(大数据量化分析下,J.k.罗琳的写作风格一看就是英国人)