数据透视之——李白诗集

上周看到产品经理用excel做的数据透视图很高大上,于是自己学了一下,并顺便用李白诗集做了原始数据,进行了分析。以下是整个过程。

1,下载网络上流传的李白诗集的原始文件txt。

2,使用Python,使用了结巴分词,对每一句话进行了分词处理。

3,将所有分词处理,去除符号等脏数据。

4,导入excel,进行数据透视。

以下是分析出来的统计图:

微信图片_20180722165758.png

图1——三字以上词语频次

图1为李白诗集中三字以上的词语出现频率前10名,第一的曲歌辞是诗名(没错,就是写了那么多首),其他如“君不见”,“天地间”,“悲来乎”“望长安”也很轻松的进了前十。这很李白。

微信图片_20180722165804.png

图2.1——两字词语出现频次


微信图片_20180722165807.png

图2.2——两字词语出现频次

图2.1图2.2 为两字词语,“相思”排名第一,“明主”,“何时”“何处”各出现近40次,看得出来李白对明主的渴望很迫切。不过呢,美酒是排在明主前面的,哈哈,诗仙李白,岂能无酒?

微信图片_20180722165810.png

图3——关于月份的频次

图3,写五月的诗远超其他,难道是五月天气好,不冷不热,正适合写诗?

“猿啸千溪合,松风五月寒。他年一携手,摇艇入新安。”

微信图片_20180722165812.png

图4——单字出现频次

单字中,出现最多是“不”,接着的“山天云风月”全是风景类词语,诗人李白先说不,其次再观天下景(我做的诗,哈哈)

“安能摧眉折腰事权贵,使我不得开心颜”

微信图片_20180722165815.png

图5——来与去的出现频次

来和去基本持平,有来有往。

微信图片_20180722165819.png

图6——东南西北方向词出现的频次

“东”和“西”最多,看来日出与日落的方向果然是比较容易让人有感而发。

微信图片_20180722165821.png

图7——天与地的出现频次

“天”的出现次数远高于“地”。想不到啥好的解释了。

以上,纯属自己玩玩,分析的可能没那么准确,看看就好~

你可能感兴趣的:(数据透视之——李白诗集)