随笔_从《芳华》影评到TF/IDF算法

 前两天看好多《芳华》的影评说:为什么好人没好报?于是感叹一堆世态炎凉,人性丑陋什么的。我觉得这问题是:为什么中央空调(对谁都温暖)往往不被看好。

 先说说TF/IDF算法,这是一种信息处理和数据挖掘的重要算法,属于统计类方法。比如说,找一篇文章的关键词,TF(词频)是某个词在这篇文章中出现的频率,频率越高越可能是关键字。IDF(逆向文件频率)是这个词出现在其它文章的频率,比如“的”字,它在任何文章都出现,因为必然不是关键字。把TF和IDF乘在一起,就是这个词在这篇文章中的重要程度。

 我们对一个人的态度也往往取决于:他对大家的态度IDF,和他对我的态度TF。刘峰对谁都很好,因此IDF是一个固定值,他对所有人都好这是个加分项吗?很遗憾,看公式:

其中分子是所有人,分母是刘峰给几个人送过温暖。也就是说他送温暖的人越多,分母越大,IDF值越低。不过也请注意log,它把这个值影响力给降低了。比如说,他给5个人送过温暖,再给第6个人送温暖时,分母变大,IDF降低,导致前5个人对他的好感度降低,不对呀?说好的“爱人者人恒爱之,敬人者人恒敬之”,于是我们的价值观受到了冲击。不过,与此同时,第6个人对他的好感度也增加了,而且idf公式里还有一个log降低了这种影响。

 再来看TF的算法,分子是刘峰送的温暖,分子来自周围人所有温暖之和。

对于林丁丁来说,尽管分子很大,但分母更大,所以tf值并不大;而对于何小萍,分母实在是太小了,即使分子不大,tf值也会很大。所以说女孩过于穷养,分母太小,别人稍微对她好点就以身相许了;过于富养,分母太大,看不到别人的善意,又是公主病。

 最终,刘峰在每人心中的分量由下式得出。

 心理价值主要源于比较,跟均值(或者基线值)的比较。这也许就是心里那杆称吧,谁也不是没良心的白眼儿狼,只是正常的心理现象。刘峰人生的不顺利,也不是一个简单的因果关系,其中有好人好报的概率问题,社会环境中的马太效应,以及他自己在关键点的选择等等,TF/IDF只是其中一个因素。至于电影,仁者见仁,智者见智吧。

你可能感兴趣的:(随笔_从《芳华》影评到TF/IDF算法)