上一期的机器学习算法更新到岭回归,然后看完了非监督的聚类算法就进入到深度学习了,机器学习剩下几章没更新,这几天上课时候老师讲到Kmeans算法,于是我就觉得手写一下Kmeans算法,加深对聚类算法的理解。
K-means算法的思想:
def distance(a,b):#计算两点之间的欧式距离
dis=np.sqrt(((a[0]-b[0])**2)+((a[1]-b[1])**2))
return dis
def initCenterpoint(k):#用随机数生成K个2维的初始中心点
return np.random.random(k*2).reshape(k,2)
def owner(dot,centerpoint):#属于哪个簇
kclass=0
min_distance = np.inf#距离初始化为无限大
for i in range(len(centerpoint)):#分别计算各个点与中心点的距离,选取最小的距离的中心点作为分类
d=distance(dot,centerpoint[i])
if d<min_distance:
kclass=i
min_distance=d
return kclass#返回的是一个数
def newCenter2(point,new_kclass):#求每组的平均值以确定中心
k=max(new_kclass)+1#比如Kclass分类为(0,1,2)则K的取值为3
newCenter=np.zeros((k,2))#初始化一个(K,3)的矩阵,用来存放分类类别
point=pd.DataFrame(point,columns=["x","y"])#点的数据转化为dataframe
new_kclass=pd.DataFrame(new_kclass,columns=["kcalss"])#类别信息转化为dataframe类型
point2=point.join(new_kclass)#合并点的信息和点的分类信息
point2.columns=["x","y","kclass"]#将新的dataframe重新命名
for i in range(k):#分别计算类别为0,1的平均值,保存为一个(K,2)的二维数组
point3=point2[point2["kclass"]==i]
newCenter[i]=point3[["x","y"]].mean(axis=0)
return newCenter
def update_kcalss(point,centerpoint):#将获得的每个点的所属类的信息放在一个数组里
n=len(point)#点的个数为数组的长度
new_kclass = np.zeros((n))
for i,point in enumerate(point):#利用循环给数组添加数
new_kclass[i]=owner(point,centerpoint)
new_kclass=new_kclass.astype(int)
return new_kclass#返回数组
def kmeans(point):
centerpoint=initCenterpoint(2)#初始化K个类别,我这里是2个
kclass=update_kcalss(point,centerpoint)#初始化每个点所属的类别
old_kclsss = kclass#保留第一次的所属类别
for i in range(200):#循环一个很大次数
centerpoint=newCenter2(point,kclass)#更新新的中心点
kclass=update_kcalss(point,centerpoint)#计算新的类别
if np.array_equal(old_kclsss,kclass):#利用新的类别和旧类别进行比较,如果不同,说明分类没有结束,如果相同,分类结束。
print("循环多少次:",i)
break
else:
old_kclsss=kclass
return centerpoint,kclass#返回中心点和分类类别
#将c进行聚类
c = np.array([[1,2],[1,1],[2,2],[5,5],[-0.10,-2.10],[-0.8,-1.8],[-2.9,-0.9],[-3.1,-2.2],[2,6],[7,10]])
a,b=kmeans(c)
c2=pd.DataFrame(c)
plt.plot(c2[0],c2[1],"or")
print(b)
a1=pd.DataFrame(a)
print(a1)
plt.plot(a1[0],a1[1],"xb")
plt.show()
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
#二维数据Kmeans算法
def distance(a,b):#计算两点之间的欧式距离
dis=np.sqrt(((a[0]-b[0])**2)+((a[1]-b[1])**2))
return dis
def initCenterpoint(k):#用随机数生成K个2维的初始中心点
return np.random.random(k*2).reshape(k,2)
def owner(dot,centerpoint):#属于哪个簇
kclass=0
min_distance = np.inf
for i in range(len(centerpoint)):
d=distance(dot,centerpoint[i])
if d<min_distance:
kclass=i
min_distance=d
return kclass
def newCenter2(point,new_kclass):#求每组的平均值以确定中心
k=max(new_kclass)+1#比如Kclass分类为(0,1,2)则K的取值为3
newCenter=np.zeros((k,2))#初始化一个(K,3)的矩阵,用来存放分类类别
point=pd.DataFrame(point,columns=["x","y"])#点的数据转化为dataframe
new_kclass=pd.DataFrame(new_kclass,columns=["kcalss"])#类别信息转化为dataframe类型
point2=point.join(new_kclass)#合并点的信息和点的分类信息
point2.columns=["x","y","kclass"]#将新的dataframe重新命名
for i in range(k):#分别计算类别为0,1的平均值,保存为一个(K,2)的二维数组
point3=point2[point2["kclass"]==i]
newCenter[i]=point3[["x","y"]].mean(axis=0)
return newCenter
def update_kcalss(point,centerpoint):#将获得的每个点的所属类的信息放在一个数组里
n=len(point)
new_kclass = np.zeros((n))
for i,point in enumerate(point):
new_kclass[i]=owner(point,centerpoint)
new_kclass=new_kclass.astype(int)
return new_kclass
def kmeans(point):
centerpoint=initCenterpoint(2)#初始化K个类别,我这里是2个
kclass=update_kcalss(point,centerpoint)#初始化每个点所属的类别
old_kclsss = kclass#保留第一次的所属类别
for i in range(200):#循环一个很大次数
centerpoint=newCenter2(point,kclass)#更新新的中心点
kclass=update_kcalss(point,centerpoint)#计算新的类别
if np.array_equal(old_kclsss,kclass):#利用新的类别和旧类别进行比较,如果不同,说明分类没有结束,如果相同,分类结束。
print("循环多少次:",i)
break
else:
old_kclsss=kclass
return centerpoint,kclass#返回中心点和分类类别
#程序入口
c = np.array([[1,2],[1,1],[2,2],[5,5],[-0.10,-2.10],[-0.8,-1.8],[-2.9,-0.9],[-3.1,-2.2],[2,6],[7,10]])
#这个是主程序
a,b=kmeans(c)
c2=pd.DataFrame(c)
plt.plot(c2[0],c2[1],"or")
print(b)
a1=pd.DataFrame(a)
print(a1)
plt.plot(a1[0],a1[1],"xb")
plt.show()