Python实现Mean Shift算法

       声明:代码的运行环境为Python3。Python3与Python2在一些细节上会有所不同,希望广大读者注意。本博客以代码为主,代码中会有详细的注释。相关文章将会发布在我的个人博客专栏《Python从入门到深度学习》,欢迎大家关注~


       在K-Means算法中,聚类的类别个数需要提前指定,对于类别个数未知的数据集,K-Means算法和K-Means++算法将很难对其进行求解,所以需要一些能够处理未知类别个数的算法来处理此类问题。Mean Shift算法,又称作均值漂移算法,它跟K-Means算法一样,都是基于聚类中心的聚类算法,不同的是,它不需要提前指定聚类中心的个数,聚类中心是通过在给定区域中样本的均值来确定的,通过不断更新聚类中心,直至聚类中心不再改变为止。

一、Mean Shift向量与核函数

1、Mean Shift向量

       对于给定的n维空间中的m个样本点,对于其中的一个样本X,其Mean Shift的向量为:

       其中,指的是一个半径为h的高维球区域,定义为:

2、核函数

       通过上述方式求出的Mean Shift向量时存在问题的,即在区域内每一个对样本X的贡献是一样的,然而实际上,每一个样本对样本X的贡献是不一样的,我们可以通过核函数对每一个样本的贡献进行度量。

       核函数的定义如下:

       设Z是输入空间,H是特征空间,如果存在一个Z到H的映射:使得所有,函数满足条件:,则称为核函数,为映射函数。

       我们在Mean Shift算法中使用的是高斯核函数,这也是最常用的核函数之一,高斯核函数的表达式为:

       其中,h为带宽,当带宽一定时,样本点之间的距离越近,核函数的值越大;当样本点距离一定时,带宽越大,核函数的值越小。

       下面我们使用Python代码实现高斯核函数:

import numpy as np
import math

def gs_kernel(dist, h):
    '''
    高斯核函数
    :param dist: 欧氏距离
    :param h: 带宽
    :return: 返回高斯核函数的值
    '''
    m = np.shape(dist)[0]  # 样本个数
    one = 1 / (h * math.sqrt(2 * math.pi))
    two = np.mat(np.zeros((m, 1)))
    for i in range(m):
        two[i, 0] = (-0.5 * dist[i] * dist[i].T) / (h * h)
        two[i, 0] = np.exp(two[i, 0])
    
    gs_val = one * two
    return gs_val

二、Mean Shift原理

       在Mean Shift中通过迭代的方式找到最终的聚类中心,即对每一个样本点计算其漂移均值,以计算出来的漂移均值点作为新的起始点重复上述步骤,直到满足终止条件,得到的最终的漂移均值点即为最终的聚类中心。

       Mean Shift算法实现过程如下:

def mean_shift(points, h=2, MIN_DISTANCE=0.000001):
    '''
    训练Mean Shift模型
    :param points: 特征点
    :param h: 带宽
    :param MIN_DISTANCE: 最小误差
    :return: 返回特征点、均值漂移点、类别
    '''
    mean_shift_points = np.mat(points)
    max_min_dist = 1
    iteration = 0  # 迭代的次数
    m = np.shape(mean_shift_points)[0]  # 样本的个数
    need_shift = [True] * m  # 标记是否需要漂移

    # 计算均值漂移向量
    while max_min_dist > MIN_DISTANCE:
        max_min_dist = 0
        iteration += 1
        print("iteration : " + str(iteration))
        for i in range(0, m):
            if not need_shift[i]:  # 判断每一个样本点是否需要计算偏移均值
                continue
            point_new = mean_shift_points[i]
            point_new_start = point_new
            point_new  = shift_point(point_new, points, h)  # 对样本点进行漂移计算
            dist = distince(point_new, point_new_start)  # 计算该点与漂移后的点之间的距离
            
            if dist > max_min_dist:
                max_min_dist = dist
            if dist < MIN_DISTANCE:
                need_shift[i] = False
            
            mean_shift_points[i] = point_new
    # 计算最终的类别
    lb = lb_points(mean_shift_points)  # 计算所属的类别
    return np.mat(points), mean_shift_points, lb

       其中,shift_point()方法目的在于计算漂移量,lb_points()方法的目的在于计算最终所属分类,distance()方法用于计算欧氏距离,三个方法的实现过程分别如下:

(1)shift_point()方法

def shift_point(point, points, h):
    '''
    计算漂移向量
    :param point: 需要计算的点
    :param points: 所有的样本点
    :param h: 带宽
    :return: 返回漂移后的点
    '''
    points = np.mat(points)
    m = np.shape(points)[0]  # 样本的个数
    # 计算距离
    point_dist = np.mat(np.zeros((m, 1)))
    for i in range(m):
        point_dist[i, 0] = distince(point, points[i])

    # 计算高斯核函数
    point_weights = gs_kernel(point_dist, h)

    # 计算分母
    all_sum = 0.0
    for i in range(m):
        all_sum += point_weights[i, 0]

    # 计算均值偏移
    point_shifted = point_weights.T * points / all_sum
    return point_shifted

(2)lb_points()

def lb_points(mean_shift_points):
    '''
    计算所属类别
    :param mean_shift_points: 漂移向量
    :return: 返回所属的类别
    '''
    lb_list = []
    m, n = np.shape(mean_shift_points)
    index = 0
    index_dict = {}
    for i in range(m):
        item = []
        for j in range(n):
            item.append(str(("%5.2f" % mean_shift_points[i, j])))

        item_1 = "_".join(item)
        if item_1 not in index_dict:
            index_dict[item_1] = index
            index += 1

    for i in range(m):
        item = []
        for j in range(n):
            item.append(str(("%5.2f" % mean_shift_points[i, j])))

        item_1 = "_".join(item)
        lb_list.append(index_dict[item_1])
    return lb_list

(3)distince()方法

def distince(pointA, pointB):
    '''
    计算欧氏距离
    :param pointA: A点坐标
    :param pointB: B点坐标
    :return: 返回得到的欧氏距离
    '''
    return math.sqrt((pointA - pointB) * (pointA - pointB).T)

三、Mean Shift算法举例

1、数据集:数据集含有两个特征,如下图所示:

Python实现Mean Shift算法_第1张图片

2、加载数据集

       我们此处使用如下方法加载数据集,也可使用其他的方式进行加载,此处可以参考我的另外一篇文章《Python两种方式加载文件内容》。加载文件内容代码如下:

def load_data(path, feature_num=2):
    '''
    导入数据
    :param path: 路径
    :param feature_num: 特行总数
    :return: 返回数据特征
    '''
    f = open(path)
    data = []
    for line in f.readlines():
        lines = line.strip().split("\t")
        data_tmp = []
        if len(lines) != feature_num:  # 判断特征的个数是否正确,把不符合特征数的数据去除
            continue
        for i in range(feature_num):
            data_tmp.append(float(lines[i]))
        data.append(data_tmp)
    f.close()
    return data

3、保存聚类结果

       通过Mean Shift聚类后,我们使用一下方法进行聚类结果的保存

def save_result(file_name, data):
    '''
    保存聚类结果
    :param file_name: 保存的文件名
    :param data: 需要保存的文件
    :return:
    '''
    f = open(file_name, "w")
    m, n = np.shape(data)
    for i in range(m):
        tmp = []
        for j in range(n):
            tmp.append(str(data[i, j]))
        f.write("\t".join(tmp) + "\n")
    f.close()

4、调用Mean Shift算法

if __name__ == "__main__":
    data = load_data("F://data", 2)
    points, shift_points, cluster = mean_shift(data, 2)
    save_result("sub", np.mat(cluster))
    save_result("center", shift_points)

5、结果展示

       得到的聚类结果如下所示:

Python实现Mean Shift算法_第2张图片

        你们在此过程中遇到了什么问题,欢迎留言,让我看看你们都遇到了哪些问题。

你可能感兴趣的:(Python,机器学习,深度学习,python从入门到深度学习)