数据分析曾国藩家书都写了啥

近日研究爬虫,于是闲着无聊爬了一下古诗文网,有了数据索性再来分析一波。目标选定了曾国藩家书

首先使用jieba分词对其进行分词,分词后使用wordcloud生出词云,看一下那些词使用的最多

wordcloud.png

拥有哪些信息呢?

  • 作为家书了,提到最多的当然是家人啦: 叔父、祖父母、弟兄,由于关心家里情况家中这个词的出现频率也很高
  • 时间: 四月、八月、九月、正月等,家书中落款需要写时间,所以出现月份的频率较高,但是同样是月份有的月份出现的频率高,有的出现的频率低,那说明啥呢, 说明出现频率高的月份写的信就多啦,那也可以思考一下,曾国藩没有写信的那段时间是在干嘛,也许比较忙,也许回家了,总之曾国藩的信没有像新闻联播那么准时。
  • 尽显老大哥的风范:作为家长长子,写的信满满的都是不可不知不能不必,哎呀简直是这也不可以那也不可以啊
  • 劝学: 大大的读书两个字,放佛在告诉我们,学霸的弟弟不想当学霸都难啊。

好了再看一下曾国藩提及最多的是谁?
这里专对书中出现的人名进行统计。

name第一版没有加载自定义词典.png

果然兄弟情深,国藩诸弟出现的是最多的,在加上各种各样的其他弟弟更加不得了了,不过这里也出现了一些问题: 比如 万福金安 显然是个问候语, 金陵应该是个地名, 高丽参 是一种人参之类的药物,显然分词不够准确, 于是改进一下。

name.png

这些好多了,比之前的更加合理。这里冯树堂出现的频率居然如此之高,害得我赶紧查一下到底是何许人也,居然在曾国藩的心中占有如此重要的位置,

待解决的问题

对于人名的解析不够准确,主要是信中会出现代词之类,比如: , 等,只是简单的对名字进行解析无法真实反应其出现的频率,需要进一步的解决这个问题

你可能感兴趣的:(数据分析曾国藩家书都写了啥)