“横看成岭侧成峰,远近高低各不同。不识庐山真面目,只缘身在此山中”,古人早就知道我们太渺小,看一件事情只能看到它的某一个局面,很难窥其全貌,但是,在大数据的分析上,情况会不会有所改善呢?我们就请来看下面一个事例。
《联邦党人文集》为美国走向民主打下了基础,其中有12篇文章作者未明,好事的美国人最后锁定了三个嫌疑人汉密尔顿、麦迪逊和杰伊,但是历史学家们争论了150年,结果还是悬而未决。
直到1963年,莫斯特勒和华莱士两位统计学家,通过精密统计与分析,测算出了最终结果,麦迪逊是12篇文章的实际作者。你或许会好奇,这两位统计学家并非这些文章专业领域的专家,他们的判断凭什么让所有人信服?
其实说起来非常简单,它并不需要对专业知识领域的熟识,只是通过词频和概率来揭示隐秘:
1、根据确定是哪位作家所写的文章,分别统计某些常用词出现的频率。
2、在需要进行研究的文章里统计相同词语出现的频率。
3、通过比较上述两个频率,确定争议文章的作者。
也就是先选择样本,然后把需要确定的文章与样本对比,结果就一目了然了。显而易见,麦迪逊的文章中,超过一半使用了“whilsht”,但从未使用过“while”,而相反汉密尔顿大约1/3的文章中使用了“while”却并没有使用“whilst”。不仅如此,他们每个人都有自己的写作风格和用词习惯,比如麦迪逊用“also”这个词的频率是汉密尔顿的两倍,而汉密尔顿使用“according”的频率咋比麦迪逊高很多。
两位统计学家展示的数据毫不含糊,立论和措辞也十分谨慎,所有已知作者身份的文章的测试分析都毫无瑕疵,经过无数统计和非统计的研究后,莫斯特勒和华莱士的分析结果已经成为目前统计学家和历史学家们的共识。
既然他们的这一套方法这么先进,那么把它运用于优秀作家与作品的检验,让我们在大数据背景下,寻找出写出优秀作品的真正方法,情况将会是怎样的呢?
本.布拉特就用大数据分析的方法,写出了《纳博科夫最喜欢的词》这本书,帮助我们了解伟大作家有什么样的创作偏好,经典作品有哪些规律可寻,探究真正的黄金写作法则,让我们知道写作的那些事。
一、海明威:越简洁越好?
海明威曾在给编辑的一封信中写道:“写作的法则和飞行、数学、物理学一样是有章可循的”,而且他坚信,作品应尽可能地精简,只留最核心的部分,多余的文字只会损害作品。
那么,通过大数据分析,海明威真的与这些广为流传的说法一致吗?他的说法是否适合所有伟大作家以及他们的经典作品呢?
一篇文章要做到简洁,就必须减少副词的使用频率,但是比较下来本.布拉特发现,伟大作家的副词使用率并没有非常低,海明威是5.8%,斯蒂芬.金是5.5%,詹姆斯是4.8%,斯蒂芬妮.梅尔是5.7%。扩大研究范围之后,还发现海明威的副词使用率比斯坦贝克和冯内古特都要高,也高于童书作家罗尔德达尔和R.L.斯坦。这究竟是怎么回事呢?
斯蒂芬.金在《论写作》一书中说,该去掉的副词通常是汉ly结尾的词。那按这个说法去分析,结果会怎样呢?
研究结果显示,每10000个字中,詹姆斯用了155个副词,斯蒂芬妮.梅尔用了134个,斯蒂芬.金用了105个,而海明威确实没有辜负他简洁大师的荣誉,只用了区区80个。但是把海明威的所有作品拿来对比,情况还会是这样吗?
这张统计结果显示,《曙光示真》副词使用率每万字达到102个,不过事实也证明,评论家们对这部作品的评价甚低,有人甚至认为,比起海明威的其他经典作品,这本书其实没有什么出版的必要。但是曾获普利策文学奖,被称为海明威佳作中首位的《老人与海》,并不是他最简洁的一本书,副词使用率达到每万字92个。
在其他作家的个人作品比较当中也显示,越是以ly结尾的副词使用得更少,那部作品就越有可能是经典。斯坦贝克的《愤怒的葡萄》是他最受欢迎的作品,副词使用率排名第三,佛克纳最著名的作品《喧哗与骚动》副词使用率排在第二位,根据最佳文学作品20世纪最新榜单研究,结果是《了不起的盖茨比》为最佳。这是否说明,一部作品或一位作家想进入伟大之列,就一定要减少副词的使用量吗?
情况并不这么简单,有的作家在使用了许多副词之后,反而写出了成功的作品。比如纳博科夫的《洛丽塔》,其副词使用量就比他其它的8部小说都多出很多。
写作似乎有章可循,但是文学没有标准答案,每个人都要带有自己的鲜明的特色,在作品中留下自己独特的印迹,才有可能写出伟大的作品,成为一个伟大的作家。
二、伦纳德:感叹号和“突然”越少越好?
埃尔默.伦纳德在《写作十规》中提出:“在作品中,每十万字中的感叹号不能超过三个”,这真的是他践行的写作规则吗?
任纳德是个高产作家,在他整个职业生涯中写了40多部小说,这40多部小说一共有340万字,如果遵循他自己的意见,她的所有作品中只能用102个感叹号,而实际上,她用了1651个,是他自己建议的16倍!!!!!!!!!!!!!!!!!
而当我们把他的作品与其它作家相比的时候,确实发现他的感叹号使用得相当少。
但是,他还是有提醒,:“如果你有汤姆.沃尔夫那样摆弄感叹号的天赋,那你可以把一把把的感叹号扔进作品。”说明规则可以例外,只要你在某方面特别擅长。同时,他对沃尔夫的估算也特别准,沃尔夫每10万字使用929个感叹号,仅次于乔伊斯的1105个。
无独有偶,享利.华生.福勒也建议道:“诗歌以外的其他文体要少用感叹号。在记叙文中用过多感叹号,显然是写作者缺乏经验的特征,或是一个人想在平淡无奇的内容里加入一点虚假的刺激。”
统计结果显示,“富有经验的作者”和“缺乏经验的作者”在感叹号的使用上有着天壤之别。畅销榜作品中的每10万字使用81个感叹号,当代文学奖获奖作品为98个,同人小说则是392个,是“有经验”的4倍。
除了表惊叹的感叹号,“突然”也是被很多作家要求尽量少用的。恰克.帕拉尼克在一篇文章中说到:“不要写角色知道什么事情,而是写出细节来让读者自己去了解;不要让角色需要什么东西,而是对这样的东西进行描绘,让读者产生需要的感觉。”
也就是说,你的作品要让读者去慢慢体会,并不是什么东西都由你来揭示。就像绘画,我们要慢慢的画,一笔一笔的描,最后使我们要表达的意象清晰地显露出来,读者看过之后,会对你露出会心的一笑:哦,原来是这样啊。
三、越简单的书越畅销?
现在的人们普遍认为畅销书比不上经典,因为它们变得越来越“笨”了,情况真的是这样吗?
弗莱施出版了一本《为什么约翰尼不会阅读》的书,在书中他提出,阅读教学亟待改革,另外,他还提出了一个能够计算难度等级的数学公式:
0.39×(总单词数/总句子数)+11.8×(总音节数/总单词数)-15.59
根据弗莱施的说法,公式可以计算出分值,得出阅读这些文本所要求的学校年级水平。
通过计算得出,现在的畅销书排行榜上都是比以前更为简单的小说,远不如50年前的上榜作品。
上图中的黑线代表美十年里阅读水平的中位数,灰色竖条代表所有书中阅读难度的50%。我们看到20世记60年代的中位数是8,7.2是难度相当低的,然而到了2010年中位数是6,最高难度居然都还不能达到7.2。这说明了什么,难道我们变得越来越笨了吗?
现在大家都在追求短、平、快的阅读方式,要求报刊书籍都向通俗类语言发展,这样文学就会惠及到更多人,让更多人受益。但是,编辑没也做出过很多努力,推出“精印平装小说”,推广文学性经典著作。
其实相对而言,读比较难的严肃性文学作品的人并没有比以前少多少,而是人们普遍接受教育,整体文化素质提高,对通俗类读物有了更明显的需求,改变了书籍畅销版单的变化。但是,目前这种情况,是符合广大的、难度不一的读者们的需求的。
而且简单挺好的,可以让更多人阅读,蕴含力量或富有文学意味的作品不一定非得是复杂的。我们的生活都在向简约的方向发展,书籍也不例外,简约能让知识走进千家万户,使更多人能够得到文字的滋养,激发自己内心的能量。
四、尽量避免陈词滥调?
在写作时,老师总是谆谆教导不要重复、不要陈词滥调,这样写不出好作品,这是真的吗?
冯内古特在他的《五号屠场》中使用“So it goes(就那么回事)”106次,《冠军早餐》中使用“And so on(诸如此类)”35次,都被称为经典之作。“So it goes”甚至成了他的个人标鉴,被永久性的固定了下来。
他去世时,《时代周刊》的列弗.格罗斯曼为他写悼词,悼词的第一句话是:“冯内古特讣告的适当长度是三个词‘So it goes’”,查尔斯.J.希尔兹还用这个句子作了冯内古特传记的名字,“So it goes”不仅成了著名小说中不可或缺的一部分,也成了作者人生中不可或缺的一部分。
除冯内古特之外,狄更斯也是一位很喜欢重复陈词滥调的作家,甚至有很多人喜欢用特定的重复来进行修辞,以达到一种意想不到的效果。
如果说重复有什么不好的话,只是说明你还不能掌握这种技巧,当你把某种技巧练到炉火纯青的时候,它就不会是你人生中的败笔,而是点晴之处。但是对于大多数人来说,你还不具备掌握这种独门绝技的能力的时候,还是少涉险为妙。
关于写作,我们总是想知道更多的技巧,希望能像伟大的作家那样写出不朽的作品,但《纳博科夫最喜欢的词》告诉我们,写作本来是有迹可循的,但想写出不朽的作品,必然是带有你明显印迹、真正从你心里发出来的东西,是一种自然而然的流露,你擅长哪些技巧,都会在你的作品中得到体现。
每个人都有不同的行为模式和习惯,看待世界的方式也千差万别,每一个人都不可能是你,我们只能从大众的观点中寻找最普通的道理指导大家运用的方法,但方法不是千篇一律的,每个人运用的程度与角度也大不相同。
写作没有标准答案,也没有一种完全正确的方法,拿起笔舞出自己的线条那才是最好的。