K-means文本聚类使用自定义距离函数

问题

在使用K-means对文本聚类时,常用余弦距离,但是scikit-learn中的k-mean只支持欧氏距离,简单的解决办法就是将文本向量标准化(模长变为1),此时欧式距离与余弦距离是单调的,选择欧氏距离与选择余弦距离是等价的,需要注意的是余弦距离=1-余弦相似度,该解决方法详见博文《余弦距离与欧式距离》。但是,如果我们想在K-menas中使用自己定义的距离函数,该怎么办呢,计算文本相似度时,经常会遇到根据任务需求自定义相似度计算指标的情况哦,改scikit-learn的源代码或者自己实现一份支持自定义距离函数的K-means代码显然比较耗时且容易出错,最好是能找到已有的成熟实现。

解决方法

使用pyclustering包(github主页),它基于Python和C++实现了数据挖掘中常用的聚类算法,以及一些振荡网络、神经网络的方法,截止该博文写作之时,这个工具包一直在持续更新,其实现的K-means聚类支持自定义的距离函数。在Python 3环境中安装该工具包pip3 install pyclustering,kmeans使用自定义距离聚类的实例代码如下:

from pyclustering.utils.metric import distance_metric, type_metric
from pyclustering.cluster.kmeans import kmeans, kmeans_visualizer
from pyclustering.cluster.center_initializer import kmeans_plusplus_initializer
from pyclustering.samples.definitions import FCPS_SAMPLES
from pyclustering.utils import read_sample

# 1. Load list of points for cluster analysis.
sample = read_sample(FCPS_SAMPLES.SAMPLE_TWO_DIAMONDS)

# 2. Prepare initial centers using K-Means++ method.
initial_centers = kmeans_plusplus_initializer(sample, 2).initialize()

# 3. create metric that will be used for clustering
def my_manhattan(point1, point2):
	dimension = len(point1)
	result = 0.0
	for i in range(dimension):
		result += abs(point1[i] - point2[i]) * 0.1
	return result

my_metric = distance_metric(type_metric.USER_DEFINED, func=my_manhattan)
# distance = my_metric([2.0, 3.0], [1.0, 3.0])

# 4. create instance of K-Means using specific distance metric:
kmeans_instance = kmeans(sample, initial_centers, metric=my_metric)

# 5. Run cluster analysis and obtain results.
kmeans_instance.process()
clusters = kmeans_instance.get_clusters()
final_centers = kmeans_instance.get_centers()

# 6. Visualize obtained results
kmeans_visualizer.show_clusters(sample, clusters, final_centers)

在文本聚类中,上述示例中的数据点向量可以替换为向量空间模型中的文档向量、词向量、句子向量等文本的向量化表示。

参考资料

[1] 《余弦距离与欧式距离》
[2] 《Cosine Distance as Similarity Measure in KMeans》
[3] 《K-means聚类自定义距离计算》
[4] 《PyClustering HomePage》

你可能感兴趣的:(python,文本挖掘,自然语言处理,K均值自定义距离,Kmeans自定义距离,K均值文本聚类,Kmeans文本聚类,Kmeans文本聚类自定义距离)