建立词库以及文档向量化

如何为自己的“项目”建立词库

    • 我自己的应用场景
    • 简要过程
    • 建立词库以及向量化
    • 最后

我自己的应用场景

我是因为毕设的原因接触到词库的应用。之所以需要词库是要对文献进行数据化,即将文献的关键词变成一个n维向量(这里的称为向量,其实并没有方向一说,就是n个数据)。因为我个人的“项目”
需要对文献进行聚类,所以需要将文献用数据表示。
本博客均为自己的经验之谈,应该会有很多错误吧=-=
如果有帮助最好了,否则~ 轻喷

简要过程

要得到文献的对应数据,需要先有一个对应的词库,然后再将文献中的关键词提取出来,根据词库将文献变为一个n维向量。再用PCA方法进行降维操作,从而得到每个文献的向量化数据。最后再对这些数据进行聚类等操作。
PCA实现代码搜一搜是有的。

建立词库以及向量化

我个人的方法是将所有文献中的关键词集合放在一起,通过词频统计,将出现最多的关键词从高到低排序,取前100个作为词库中的词(根据自己的需求可以自己决定需要多少个词)。
将每一篇文献的关键词+生成的词库得到一个1×n的数组,即n维向量。
这里在生成1×n的数组时候,可以添加一些权重,例如:“数字化”一词出现在某一篇文献的关键词中时,给对应位置赋值a*1,这里的a自己决定。
省事的话可以直接在对应位置直接赋1。
例如:词库:“数字化”,“教育”,…“软件”(100个词)
某文献关键词:“数字化”,“软件”
那么得到的向量,即数组:(1,0,…,1) 这里为1×100的数组。

最后

在进行PCA实现的时候,不要直接将文献向量化的数据一个个得进行PCA操作。应该用n个得出的向量化数据组成一个n×n维向量来训练PAC所需的变换矩阵。在这之后,将其矩阵保存下来,再对一个个的向量化数据进行操作。

你可能感兴趣的:(词库,文档向量化,其他)