且看看唐诗宋词都在写什么

       初学R与统计分析,恰巧在统计之都看到一篇运用R分析宋词的文章(统计词话),源于此,借鉴该方法分析了一下全唐诗与全宋词:

分析步骤主要由三部分构成:资料收集、词频统计、对比分析

且看看唐诗宋词都在写什么_第1张图片

      从网上共搜集唐诗4.8万首,宋词1400首;

      进过预处理过程之后,对其进行分词与词频统计,各取其词频数前50的词,罗列如下:

且看看唐诗宋词都在写什么_第2张图片

    再直观点,来个当今流行的词云图展示一下唐宋年代各自的流行词汇:

且看看唐诗宋词都在写什么_第3张图片

唐诗词云

且看看唐诗宋词都在写什么_第4张图片

宋词词云

好了,数据准备工作算是完成了,接下来开始分析工作:

诗词分析--诗人个人情感的显著特征1:

  古代文人多”相思”

  “相思”、“思家”等词在情感类词语中位居首位:4.8万首唐诗中共出现2100余次;1600首宋词中,更是出现了1200余次。

看来唐诗宋词是英雄难过“情关”的真实写照。

诗词分析--诗人个人情感的显著特征2:

唐诗:醉卧沙场君莫笑
宋词:做鬼也“风流”

    唐诗中,“将军”、“征战”、“战马”等词出现1200余次,爱国报国的典型代表。宋词中,战争相关词鲜有出现“风流”、“多情”、“鸳鸯”取而代之。

    在这方面,唐朝诗人和宋朝诗人存在着巨大的差异,差异的来源可能是:宋朝历代皇帝崇尚文人治国、武将的地位相对来说消弱很多,这个时期文人的地位升高、生活相对来说会过的更安逸;而在唐朝,习武参军、沙场成将对普通人来说仍然是通往仕途的一个不错选择。

诗词分析 -----地理位置差异:

   地理喜好各不同,唐代诗人偏爱长安:“长安”是地理位置中出现频率最高的地理词,共824次。宋代词人则独爱江南:“江南”在1600首宋词中累积出现760次。

   从长安到江南,是文人的迁徙,也是中国政治中心的南移。

那么问题来了,诗词歌赋哪家强?

   我收集整理了从先秦时期(公元前250左右)到晚清时期(公元1900年左右)的各朝代的诗词歌赋(注:这里不包含史料、小说等素材),具体数量可能和真实情况有所出入,比如朝代越久远,遗留下来的诗词可能越少,同时收集不一定全面准确,但大致应该可以反应一个朝代的数量。归一化后拟合成曲线图:

且看看唐诗宋词都在写什么_第5张图片


可以看到,诗词创作数量在各个时期差异巨大,并受到国家经济、内外部的政治影响。具体来说,个人认为存在以下几方面因素:

(1)在汉朝、宋朝由于北方游牧民族的南下入侵,对文人创作有一定的制约左右。但宋朝大兴科举制度,同时不轻杀读书人的政策鼓励了文人的发展。

(2)从先秦至隋朝,匈奴与汉民族持续进行战争。在公元4世纪左右匈奴人迁入中原,改汉族姓氏,并逐渐汉化。

(3)而唐朝稳定的社会环境、较少的战争,提供了文人创作的土壤。

(4)唐宋时期推崇文人治国,大兴科举制度。

(5)文字记录、传播方式的影响,在中国历史早期,文字主要记录靠竹片、布帛完成,记录昂贵且传播不易,因此,因此文人创作主要借助短小的诗词完成,在后期,印刷造纸发明后,记录和传播变得廉价方便,一部分文人创作开始由诗词转向小说,这一点在明清时期更为显著。以至于到了现在移动互联网发展成熟后,大部分人“创作”开始转变为发微博、写段子了。

综合以上,诗词歌赋哪家强,历朝历代看宋唐



关于词云的制作,有个在线制作工具,请看这里词云图制作(这个要翻出围墙才能用哦)
个人CSDN的第一篇博文,大家多多支持,欢迎批评指正。

你可能感兴趣的:(数据分析,大数据,r,统计)