三体作者刘慈欣作品集数据分析——数据准备

数据分析离不开数据,所以我们的第一步就是收集数据,下载了刘慈欣的小说集进行分析

数据集:刘慈欣(《三体》作者)的小说集

先看一下数据量

压缩文件大小:

解压后所有的文本大小:

六万行文本:

分词:(使用结巴分词)

分词后的文本大小:

分词结果,179w词:

分词结果去重,5.6w:

根据结巴分词词性总结停用词,以下为结巴分词词性,来源网络,(百度搜索更全):

Ag形语素形容词性语素。形容词代码为 a,语素代码g前面置以A。

a形容词取英语形容词 adjective的第1个字母。

ad副形词直接作状语的形容词。形容词代码 a和副词代码d并在一起。

an名形词具有名词功能的形容词。形容词代码 a和名词代码n并在一起。

b区别词取汉字“别”的声母。

c连词取英语连词 conjunction的第1个字母。

dg副语素副词性语素。副词代码为 d,语素代码g前面置以D。

。。。

根据词性选出停用词:

类似词性为x的选为停用词,再从连词、介词中选择出来一部分

测评词性是否应该成为停用词的代码(将抽样的数据填入写入abstrace.log)进行评估

ce

然后汇总成停用词表

下篇继续。。。

你可能感兴趣的:(三体作者刘慈欣作品集数据分析——数据准备)