利用weka对中文文本聚类

1.数据预处理

(docx格式转换为txt、命名更改)

源数据为42个word文档,批量转换为txt,转换方法见:https://www.jianshu.com/p/17943871c9f6。

将所有文件按数字(学号最后1或2位)进行命名,比如1.txt、2.txt,方便后面做分词。将所有txt文件保存在一个文件夹中,如命名为“原始数据”。

2. 中文分词

由于weka没有自带的中文分词包,因此我们分词后再导入到weka。

利用jieba分词工具,代码下载链接:https://pan.baidu.com/s/1Fde1W2pjippU6gcQZDWv8Q 密码:efx5


利用weka对中文文本聚类_第1张图片
分词源码

注意更改“原始数据”的路径和分词结果的路径、停用词表、文档数量。


利用weka对中文文本聚类_第2张图片
分词结果


3.待分析文本准备

weka支持csv格式数据,我们将所有分词结果存入到csv文件中,第一列为姓名,第二列为分词结果,格式如下:


csv数据示例

另外需要注意的是,直接导入中文会乱码,需要修改csv和weka的编码方式,我们采用UTF-8编码。

csv修改编码的方式为:excel另存为——工具——web选项——编码——UTF-8:


利用weka对中文文本聚类_第3张图片


利用weka对中文文本聚类_第4张图片

weka修改编码的方式为,在weka的安装目录下,用记事本(或notepad++)打开RunWeka.ini文件,将其中的fileEncoding改为UTF-8


weka修改编码方式

4.weka导入数据


利用weka对中文文本聚类_第5张图片
进入explorer页面


Filter——unsupervised——attribute


利用weka对中文文本聚类_第6张图片
利用weka对中文文本聚类_第7张图片



利用weka对中文文本聚类_第8张图片


利用weka对中文文本聚类_第9张图片
配置簇的数量


利用weka对中文文本聚类_第10张图片

你可能感兴趣的:(利用weka对中文文本聚类)