存在～～

机器学习7—聚类算法之K-means算法

K-均值算法（K-means）

前言
- 聚类算法模型
- 常见的聚类算法
一、K-means算法描述
二、示例说明K-means算法流程
三、K-means算法中Kmean()函数说明
四、K-means算法分析篮球数据
- 1.K-means算法聚类
- 2.K-means算法聚类优化
- 3.K-means算法聚类中设置类簇质点
总结

前言

聚类是将数据集中某些方面相似的数据划分在一起，给定简单的规则，对数据集进行分堆，是一种无监督学习。聚类集合中，处于相同聚类中的数据彼此是相似的，处于不同聚类中的元素彼此是不同的。

由于在聚类中那些表示数据类别的分组信息或类标是没有的，即这些数据是没有标签的，所有聚类又被称为无监督学习（Unsupervised Learning）。

聚类算法模型

聚类是将本身没有类别的样本聚集成不同类型的组，每一组数据对象的集合都叫做簇。聚类的目的是让属于同一个类簇的样本之间彼此相似，而不同类簇的样本应该分离。

算法模型图为：

聚类模型的基本步骤包括：

训练：通过历史数据训练得到一个聚类模型，该模型用于后面的预测分析。需要注意的是，有的聚类算法需要预先设定类簇数，如KMeans聚类算法。
预测：输入新的数据集，用训练得到的聚类模型对新数据集进行预测，即分堆处理，并给每行预测数据计算一个类标值。
可视化操作及算法评价：得到预测结果之后，可以通过可视化分析反应聚类算法的好坏，如果聚类结果中相同簇的样本之间距离越近，不同簇的样本之间距离越远，其聚类效果越好。同时采用相关的评价标准对聚类算法进行评估。

常见的聚类算法模型有·：

K-Means聚类
层次聚类
DBSCAN
Affinity
Propagatio
MeanShift

常见的聚类算法

聚类算法在Scikit-Learn机器学习包中，主要调用sklearn.cluster子类实现。

1）K-means算法
K-Means聚类算法最早起源于信号处理，是一种最经典的聚类分析方法。sklearn包调用方法为：

from sklearn.cluster import KMeans
clf = KMeans(n_clusters=2)
# clf.fit(X,y)

2）Mini Batch K-Means
Mini Batch K-means是KMeans的一种变换，目的为了减少计算时间。sklearm包调用方法为：

from sklearn.cluster import MiniBatchKMeans
X= [[1],[2],[3],[4],[3],[2]]
mbk = MiniBatchKMeans(init='k-means++', n_clusters=3, n_init=10)
clf = mbk.fit(X)
print(clf.labels_) # 聚类后的label, 从0开始的数字
# 输出为
[2 2 0 1 0 2]

3）Birch
Birch是平衡迭代归约及聚类算法，全称为Balanced Iterative Reducing and Clustering using Hierarchies，是一种常用的层次聚类算法。该算法通过聚类特征（Clustering Feature，CF）和聚类特征树（Clustering Feature Tree，CFT）两个概念描述聚类。聚类特征树用来概括聚类的有用信息，由于其占用空间小并且可以存放在内存中，从而提高了算法的聚类速度，产生了较高的聚类质量，Birch算法适用于大型数据集。sklearm包调用方法为：

from sklearn.cluster import Birch
X = [[1],[2],[3],[4],[3],[2]]
clf = Birch(n_clusters=2)
clf.fit(X)
y_pred = clf.fit_predict(X)
print(clf)
print(y_pred)
# 输出为
Birch(n_clusters=2)
[1 1 0 0 0 1]

上述代码调用聚类算法Birch算法分成了两类，并对X数据进行训练，共6个点（1、2、3、4、3、2），然后预测其聚类后的类标，输出为0或1两类结果，其中点1、2、2输出类标为1，点3、4、3输出类标为0。将值较大的点（3、4）聚集为一类，将值较小的点（1、2）聚集为另一类。

4）DBSCAN
DBSCAN是一个典型的基于密度的聚类算法，它与划分聚类方法、层次聚类方法不同，它将簇定义为密度相连的点的最大集合，能够把具有足够高密度的区域划分为簇，并可在噪声的空间数据库中发现任意形状的聚类。sklearm包调用方法为：

from sklearn.cluster import dbscan
# core_samples, cluster_ids = dbscan(X, eps=0.2, min_samples=20)

5）Mean Shift
Mean Shift是均值偏移或均值漂移聚类算法，它是一种无参估计算法，沿着概率梯度的上升方向寻找分布的峰值。Mean Shift算法先算出当前点的偏移均值，移动该点到其偏移均值，然后以此为新的起始点，继续移动，直到满足一定的条件结束。

一、K-means算法描述

K-Means算法的思想首先随机指定类中心，根据样本与类中心的远近划分类簇，接着重新计算类中心，迭代直至收敛。但是其中迭代的过程并不是主观地想象得出，事实上，若将样本的类别看做为“隐变量”（latentvariable），类中心看作样本的分布参数，这一过程正是通过EM算法的两步走策略而计算出，其根本的目的是为了得到最小化平方误差函数E：

K-means算法流程：

第一步，确定K值，即将数据集聚集成K个类簇或小组。
第二步，从数据集中随机选择K个数据点作为质心（Centroid）或数据中心。
第三步，分别计算每个点到每个质心之间的距离，并将每个点划分到离最近质心的小组，跟定了那个质心。
第四步，当每个质心都聚集了一些点后，重新定义算法选出新的质心。
第五步，比较新的质心和老的质心，如果新质心和老质心之间的距离小于某一个阈值，则表示重新计算的质心位置变化不大，收敛稳定，则认为聚类已经达到了期望的结果，算法终止。
最后，如果新的质心和老的质心变化很大，即距离大于阈值，则继续迭代执行第三步到第五步，直到算法终止。

二、示例说明K-means算法流程

假设存在如下表1所示六个点，需要将其聚类成两堆：

坐标点	X	Y
P1	1	1
P2	2	1
P3	1	3
P4	6	6
P5	8	5
P6	7	8

算法流程：
第一步：随机选取质心。假设选择P1和P2点，以它们为聚类的中心。

第二步：计算其他所有点到质心的距离。采用勾股定理（取一位小数）可得：

坐标点	到P1点的距离	到P2点的距离
P3	2.0	2.2
P4	7.1	6.4
P5	8.1	7.2
P6	9.2	8.6

此时聚类分组为：

第一组为P1、P3
第二组为P2、P4、P5、P6

第三步：组内从新选择质心。
这里涉及到距离的计算方法，通过不同的距离计算方法可以对K-Means聚类算法进行优化。这里计算组内每个点X坐标的平均值和Y坐标的平均值，构成新的质心，它可能是一个虚拟的点。

第一组新质心：
第二组新质心：

第四步：再次计算各点到新质心的距离。可得表格为：

坐标点	到P1点的距离	到P2点的距离
P1	1.0	6.2
P2	1.4	5.5
P3	1.0	5.2
P4	6.4	1.0
P5	7.6	2.2
P6	8.5	3.2

则有P1、P2、P3离PN1比较近，P4、P5、P6离PN2比较近。故再次分组为：

第一组为P1、P2、P3
第二组为P4、P5、P6

第五步：同理，按照第三步计算新的质心。

第一组新质心：

第二组新质心：

第六步 ：继续计算点到新质点的距离，可得表格为：

坐标点	到P1点的距离	到P2点的距离
P1	1.0	6.2
P2	1.4	5.5
P3	1.0	5.2
P4	6.4	1.0
P5	7.6	2.2
P6	8.5	3.2

由于第四步和第六步分组情况都是一样的，说明聚类已经稳定收敛，算法就结束，其聚类结果P1、P2、P3一组，P4、P5、P6是另一组，这和我们最初预想的结果完全一致，说明聚类效果良好。

三、K-means算法中Kmean()函数说明

在Sklearn机器学习包中，调用cluster聚类子库的Kmeans()函数即可进行Kmeans聚类运算，该算法要求输入聚类类簇数。KMeans聚类构造方法如下：

clf = KMeans(n_clusters=8
	, init='k-means++'
	, n_init=10
	, max_iter=300
	, tol=0.0001
	, precompute_distances=True
	, verbose=0
	, random_state=None
	, copy_x=True
	, n_jobs=1)

参数说明：

n_clusters：表示K值，聚类类簇数。
init：是初始值选择的方式，可以为完全随机选择’random’，优化过的’k-means++‘或者自己指定初始化的K个质心，建议使用默认的’k-means++’。
n_init：表示用不同初始化质心运算的次数，由于K-Means结果是受初始值影响的局部最优的迭代算法，因此需要多运行几次算法以选择一个较好的聚类效果，默认是10，一般不需要更改，如果你的K值较大，则可以适当增大这个值。
max_iter：表示最大迭代次数，可以省略。
tol：float形，默认值= 1e-4。
precompute_distances：三个可选值，‘auto’，True 或者 False。
预计算距离，计算速度更快但占用更多内存。
（１）‘auto’：如果样本数乘以聚类数大于 12 million 的话则不予计算距离。This corresponds to about 100MB overhead per job using double precision.
（２）True：总是预先计算距离。
（３）False：永远不预先计算距离。
random_state：整形或 numpy.RandomState 类型，可选用于初始化质心的生成器（generator）。如果值为一个整数，则确定一个seed。此参数默认值为numpy的随机数生成器。
copy_x：布尔型，默认值=True。若为Ture的话则原始数据不会改变，若为False的话则直接在原始数据上修改并且在函数返回值时将其还原。
n_jobs：整形数。　指定计算所用的进程数。内部原理是同时进行n_init指定次数的计算。
（１）若值为 -1，则用所有的CPU进行运算。若值为1，则不进行并行运算，这样的话方便调试。
（２）若值小于-1，则用到的CPU数为(n_cpus + 1 + n_jobs)。因此如果 n_jobs值为-2，则用到的CPU数为总CPU数减1。

四、K-means算法分析篮球数据

篮球数据集下载地址：http://sci2s.ugr.es/keel/dataset.php?cod=1293

该数据集主要包括5个特征，共96行数据，特征包括运动员身高（height）、每分钟助攻数（assists_per_minute）、运动员出场时间（time_played）、运动员年龄（age）和每分钟得分数（points_per_minute）。其特征和值域如下图所示，比如每分钟得分数为0.45，一场正常的NBA比赛共48分钟，则场均能得21.6分。

1.K-means算法聚类

先读取篮球数据前20行数据：

f = open("basketballData.txt","r")   #设置文件对象
for i in range(20):
    print(f.readline().strip())
# 输出为
0.0888, 201, 36.02, 28, 0.5885
0.1399, 198, 39.32, 30, 0.8291
0.0747, 198, 38.8, 26, 0.4974
0.0983, 191, 40.71, 30, 0.5772
0.1276, 196, 38.4, 28, 0.5703
0.1671, 201, 34.1, 31, 0.5835
0.1906, 193, 36.2, 30, 0.5276
0.1061, 191, 36.75, 27, 0.5523
0.2446, 185, 38.43, 29, 0.4007
0.167, 203, 33.54, 24, 0.477
0.2485, 188, 35.01, 27, 0.4313
0.1227, 198, 36.67, 29, 0.4909
0.124, 185, 33.88, 24, 0.5668
0.1461, 191, 35.59, 30, 0.5113
0.2315, 191, 38.01, 28, 0.3788
0.0494, 193, 32.38, 32, 0.559
0.1107, 196, 35.22, 25, 0.4799
0.2521, 183, 31.73, 29, 0.5735
0.1007, 193, 28.81, 34, 0.6318
0.1067, 196, 35.6, 23, 0.4326

现在需要通过篮球运动员的数据，判断该运动员在比赛中属于什么位置。如果某个运动员得分能力比较强，他可能是得分后卫；如果身高比较高、篮板能力比较强，他可能是中锋；如果是运球能力比较强，他可能是控球后卫。

下面获取助攻数和得分数两列数据的20行，相当于20*2矩阵。主要调用Sklearn机器学习包的KMeans()函数进行聚类。代码如下：

from sklearn.cluster import KMeans  # 导入KMeans聚类模型

# 取上面读取20行文件数据的助攻数和得分数两列数据
X = [[0.0888, 0.5885],  
     [0.1399, 0.8291],  
     [0.0747, 0.4974],  
     [0.0983, 0.5772],  
     [0.1276, 0.5703],  
     [0.1671, 0.5835],  
     [0.1906, 0.5276],  
     [0.1061, 0.5523],  
     [0.2446, 0.4007],  
     [0.1670, 0.4770],  
     [0.2485, 0.4313],  
     [0.1227, 0.4909],  
     [0.1240, 0.5668],  
     [0.1461, 0.5113],  
     [0.2315, 0.3788],  
     [0.0494, 0.5590],  
     [0.1107, 0.4799],  
     [0.2521, 0.5735],  
     [0.1007, 0.6318],  
     [0.1067, 0.4326],  
     [0.1956, 0.4280]     
    ]  
# print(X)

# Kmeans聚类
clf = KMeans(n_clusters=3)  # 将数据集聚集成类簇数为3后的模型赋值给clf
y_pred = clf.fit_predict(X) # 将X数据集进行聚类分析，聚类为3类，对应类标分别为0，1，2
print("SSE = {0}".format(clf.inertia_))# SSE是误差平方和，这个值越接近0说明效果越好
# print(clf)   
print(y_pred) # 预测结果

# 可视化操作
import numpy as np  
import matplotlib.pyplot as plt  
#分别获取获取第1列和第2列值，并赋值给x和y变量。通过for循环获取，n[0]表示X第一列，n[1]表示X第2列。
x = [n[0] for n in X]  
y = [n[1] for n in X]

# x,y分别为第一、二列数据，c=y_pred为预测的聚类结果类标；marker='o’说明用点表示图形
plt.scatter(x, y, c=y_pred, marker='x')   
plt.title("Basketball Data")   
plt.xlabel("assists_per_minute")  # 助攻数
plt.ylabel("points_per_minute")  # 得分数
plt.legend(["Rank"])             # 设置右上角图例
plt.show()

输出为：
SSE = 0.07931375095238095
[2 1 2 2 2 2 2 2 0 0 0 2 2 2 0 2 2 2 2 0 0]

从图中可以看到聚集成三类，顶部绿色点所代表的球员比较厉害，得分和助攻都比较高，可能类似于NBA中乔丹、科比等得分巨星；中间黄色点代表普通球员那一类；右下角紫色表示助攻高得分低的一类球员，可能是控位。代码中y_pred表示输出的聚类类标，类簇数设置为3，则类标位0、1、2，它与20个球员数据一一对应。

2.K-means算法聚类优化

前面的代码定义了X数组（共20行、每行2个特征），再对其进行数据分析，而实际数据集通常存储在TXT、CSV、XLS等格式文件中，并采用读取文件的方式进行数据分析的。自己定义数组来聚类分析比较容易，如果是读取文件数据来进行聚类分析。如下：

将上面下载的数据存为.txt文件，再调用K-Means算法聚类分析，并将聚集的三类数据绘制成想要的颜色和形状。txt文件如图所示：

代码如下：

# 第一步 读取数据
import os

data = []
for line in open("basketballData.txt", "r").readlines():  
    line = line.rstrip()         #删除换行    
    result = ' '.join(line.split())  #删除多余空格，保存一个空格连接
    #获取每行的五个值，如'0 0.0888 201 36.02 28 0.5885'，并将字符串转换为小数  
    s = [float(x) for x in result.strip().split(' ')]  
    data.append(s)  #数据存储至data  
    #输出结果：['0', '0.0888', '201', '36.02', '28', '0.5885']  
    print(s)  
    
# print(data) # 输出完整数据集
print(type(data)) # 变量类型

# 第二步 获取两列数据
L2 = [n[0] for n in data]  # 第一列表示球员每分钟助攻数：assists_per_minute  
L5 = [n[4] for n in data]  # 第五列表示球员每分钟得分数：points_per_minute    
T = dict(zip(L2,L5))       # 两列数据生成二维数据字典
# print('第一列数据', L2)
# print('第五列数据', L5)
type(T)
print('字典=', T)

# 将T从dict类型转换为list    
X = list(map(lambda x,y: (x,y), T.keys(),T.values()))  
print(type(X)) 
print('坐标列表=', X)


# 第三步 聚类分析
from sklearn.cluster import KMeans 
clf = KMeans(n_clusters=3) # 将数据集聚集成类簇数为3后的模型赋值给clf
# 将X数据集进行聚类分析，聚类为3类，对应类标分别为0，1，2，并将预测赋给y_predict
y_predict = clf.fit_predict(X)
print("SSE = {0}".format(clf.inertia_))# SSE是误差平方和，这个值越接近0说明效果越好
# print(clf)   
print('预测结果=', y_predict)              # 输出预测结果

# 第四步 绘制图形
import numpy as np  
import matplotlib.pyplot as plt  

# 获取第一列和第二列数据，使用for循环获取，n[0]表示X第一列  
x = [n[0] for n in X]  
y = [n[1] for n in X]

# 坐标，初始化为空 
x1, y1 = [], []   
x2, y2 = [], [] 
x3, y3 = [], []   
  
# 分布获取类标为0、1、2的数据并赋值给(x1,y1) (x2,y2) (x3,y3)  
i = 0  
while i < len(X):  
    # 若y_predict[i]==0时(x1,y1)为（X[i][0]，X[i][1]）
    if y_predict[i]==0:  
        x1.append(X[i][0])  
        y1.append(X[i][1])  
    elif y_predict[i]==1:  
        x2.append(X[i][0])
        y2.append(X[i][1])  
    elif y_predict[i]==2:  
        x3.append(X[i][0])  
        y3.append(X[i][1])  
    i = i + 1  
  
# 三种颜色 红 绿 蓝，marker='x'表示类型，o表示圆点、*表示星型、x表示点   
plot1, = plt.plot(x1, y1, 'or', marker="x")    
plot2, = plt.plot(x2, y2, 'og', marker="o")    
plot3, = plt.plot(x3, y3, 'ob', marker="*")    
  
plt.title("Basketball Data")  # 绘制标题
plt.xlabel("assists_per_minute")     # 绘制x轴（助攻数）
plt.ylabel("points_per_minute")      # 绘制y轴（得分数）
plt.legend((plot1, plot2, plot3), ('A', 'B', 'C'), fontsize=10) # 设置右上角图例  
plt.show()

输出为：

[0.0888, 201.0, 36.02, 28.0, 0.5885]
[0.1399, 198.0, 39.32, 30.0, 0.8291]
[0.0747, 198.0, 38.8, 26.0, 0.4974]
[0.0983, 191.0, 40.71, 30.0, 0.5772]
[0.1276, 196.0, 38.4, 28.0, 0.5703]
[0.1671, 201.0, 34.1, 31.0, 0.5835]
[0.1906, 193.0, 36.2, 30.0, 0.5276]
[0.1061, 191.0, 36.75, 27.0, 0.5523]
[0.2446, 185.0, 38.43, 29.0, 0.4007]
[0.167, 203.0, 33.54, 24.0, 0.477]
[0.2485, 188.0, 35.01, 27.0, 0.4313]
[0.1227, 198.0, 36.67, 29.0, 0.4909]
[0.124, 185.0, 33.88, 24.0, 0.5668]
[0.1461, 191.0, 35.59, 30.0, 0.5113]
[0.2315, 191.0, 38.01, 28.0, 0.3788]
[0.0494, 193.0, 32.38, 32.0, 0.559]
[0.1107, 196.0, 35.22, 25.0, 0.4799]
[0.2521, 183.0, 31.73, 29.0, 0.5735]
[0.1007, 193.0, 28.81, 34.0, 0.6318]
[0.1067, 196.0, 35.6, 23.0, 0.4326]
[0.1956, 188.0, 35.28, 32.0, 0.428]
[0.1828, 191.0, 29.54, 28.0, 0.4401]
[0.1627, 196.0, 31.35, 28.0, 0.5581]
[0.1403, 198.0, 33.5, 23.0, 0.4866]
[0.1563, 193.0, 34.56, 32.0, 0.5267]
[0.2681, 183.0, 39.53, 27.0, 0.5439]
[0.1236, 196.0, 26.7, 34.0, 0.4419]
[0.13, 188.0, 30.77, 26.0, 0.3998]
[0.0896, 198.0, 25.67, 30.0, 0.4325]
[0.2071, 178.0, 36.22, 30.0, 0.4086]
[0.2244, 185.0, 36.55, 23.0, 0.4624]
[0.3437, 185.0, 34.91, 31.0, 0.4325]
[0.1058, 191.0, 28.35, 28.0, 0.4903]
[0.2326, 185.0, 33.53, 27.0, 0.4802]
[0.1577, 193.0, 31.07, 25.0, 0.4345]
[0.2327, 185.0, 36.52, 32.0, 0.4819]
[0.1256, 196.0, 27.87, 29.0, 0.6244]
[0.107, 198.0, 24.31, 34.0, 0.3991]
[0.1343, 193.0, 31.26, 28.0, 0.4414]
[0.0586, 196.0, 22.18, 23.0, 0.4013]
[0.2383, 185.0, 35.25, 26.0, 0.3801]
[0.1006, 198.0, 22.87, 30.0, 0.3498]
[0.2164, 193.0, 24.49, 32.0, 0.3185]
[0.1485, 198.0, 23.57, 27.0, 0.3097]
[0.227, 191.0, 31.72, 27.0, 0.4319]
[0.1649, 188.0, 27.9, 25.0, 0.3799]
[0.1188, 191.0, 22.74, 24.0, 0.4091]
[0.194, 193.0, 20.62, 27.0, 0.3588]
[0.2495, 185.0, 30.46, 25.0, 0.4727]
[0.2378, 185.0, 32.38, 27.0, 0.3212]
[0.1592, 191.0, 25.75, 31.0, 0.3418]
[0.2069, 170.0, 33.84, 30.0, 0.4285]
[0.2084, 185.0, 27.83, 25.0, 0.3917]
[0.0877, 193.0, 21.67, 26.0, 0.5769]
[0.101, 193.0, 21.79, 24.0, 0.4773]
[0.0942, 201.0, 20.17, 26.0, 0.4512]
[0.055, 193.0, 29.07, 31.0, 0.3096]
[0.1071, 196.0, 24.28, 24.0, 0.3089]
[0.0728, 193.0, 19.24, 27.0, 0.4573]
[0.2771, 180.0, 27.07, 28.0, 0.3214]
[0.0528, 196.0, 18.95, 22.0, 0.5437]
[0.213, 188.0, 21.59, 30.0, 0.4121]
[0.1356, 193.0, 13.27, 31.0, 0.2185]
[0.1043, 196.0, 16.3, 23.0, 0.3313]
[0.113, 191.0, 23.01, 25.0, 0.3302]
[0.1477, 196.0, 20.31, 31.0, 0.4677]
[0.1317, 188.0, 17.46, 33.0, 0.2406]
[0.2187, 191.0, 21.95, 28.0, 0.3007]
[0.2127, 188.0, 14.57, 37.0, 0.2471]
[0.2547, 160.0, 34.55, 28.0, 0.2894]
[0.1591, 191.0, 22.0, 24.0, 0.3682]
[0.0898, 196.0, 13.37, 34.0, 0.389]
[0.2146, 188.0, 20.51, 24.0, 0.512]
[0.1871, 183.0, 19.78, 28.0, 0.4449]
[0.1528, 191.0, 16.36, 33.0, 0.4035]
[0.156, 191.0, 16.03, 23.0, 0.2683]
[0.2348, 188.0, 24.27, 26.0, 0.2719]
[0.1623, 180.0, 18.49, 28.0, 0.3408]
[0.1239, 180.0, 17.76, 26.0, 0.4393]
[0.2178, 185.0, 13.31, 25.0, 0.3004]
[0.1608, 185.0, 17.41, 26.0, 0.3503]
[0.0805, 193.0, 13.67, 25.0, 0.4388]
[0.1776, 193.0, 17.46, 27.0, 0.2578]
[0.1668, 185.0, 14.38, 35.0, 0.2989]
[0.1072, 188.0, 12.12, 31.0, 0.4455]
[0.1821, 185.0, 12.63, 25.0, 0.3087]
[0.188, 180.0, 12.24, 30.0, 0.3678]
[0.1167, 196.0, 12.0, 24.0, 0.3667]
[0.2617, 185.0, 24.46, 27.0, 0.3189]
[0.1994, 188.0, 20.06, 27.0, 0.4187]
[0.1706, 170.0, 17.0, 25.0, 0.5059]
[0.1554, 183.0, 11.58, 24.0, 0.3195]
[0.2282, 185.0, 10.08, 24.0, 0.2381]
[0.1778, 185.0, 18.56, 23.0, 0.2802]
[0.1863, 185.0, 11.81, 23.0, 0.381]
[0.1014, 193.0, 13.81, 32.0, 0.1593]
<class 'list'>
字典= {0.0888: 0.5885, 0.1399: 0.8291, 0.0747: 0.4974, 0.0983: 0.5772, 0.1276: 0.5703, 0.1671: 0.5835, 0.1906: 0.5276, 0.1061: 0.5523, 0.2446: 0.4007, 0.167: 0.477, 0.2485: 0.4313, 0.1227: 0.4909, 0.124: 0.5668, 0.1461: 0.5113, 0.2315: 0.3788, 0.0494: 0.559, 0.1107: 0.4799, 0.2521: 0.5735, 0.1007: 0.6318, 0.1067: 0.4326, 0.1956: 0.428, 0.1828: 0.4401, 0.1627: 0.5581, 0.1403: 0.4866, 0.1563: 0.5267, 0.2681: 0.5439, 0.1236: 0.4419, 0.13: 0.3998, 0.0896: 0.4325, 0.2071: 0.4086, 0.2244: 0.4624, 0.3437: 0.4325, 0.1058: 0.4903, 0.2326: 0.4802, 0.1577: 0.4345, 0.2327: 0.4819, 0.1256: 0.6244, 0.107: 0.3991, 0.1343: 0.4414, 0.0586: 0.4013, 0.2383: 0.3801, 0.1006: 0.3498, 0.2164: 0.3185, 0.1485: 0.3097, 0.227: 0.4319, 0.1649: 0.3799, 0.1188: 0.4091, 0.194: 0.3588, 0.2495: 0.4727, 0.2378: 0.3212, 0.1592: 0.3418, 0.2069: 0.4285, 0.2084: 0.3917, 0.0877: 0.5769, 0.101: 0.4773, 0.0942: 0.4512, 0.055: 0.3096, 0.1071: 0.3089, 0.0728: 0.4573, 0.2771: 0.3214, 0.0528: 0.5437, 0.213: 0.4121, 0.1356: 0.2185, 0.1043: 0.3313, 0.113: 0.3302, 0.1477: 0.4677, 0.1317: 0.2406, 0.2187: 0.3007, 0.2127: 0.2471, 0.2547: 0.2894, 0.1591: 0.3682, 0.0898: 0.389, 0.2146: 0.512, 0.1871: 0.4449, 0.1528: 0.4035, 0.156: 0.2683, 0.2348: 0.2719, 0.1623: 0.3408, 0.1239: 0.4393, 0.2178: 0.3004, 0.1608: 0.3503, 0.0805: 0.4388, 0.1776: 0.2578, 0.1668: 0.2989, 0.1072: 0.4455, 0.1821: 0.3087, 0.188: 0.3678, 0.1167: 0.3667, 0.2617: 0.3189, 0.1994: 0.4187, 0.1706: 0.5059, 0.1554: 0.3195, 0.2282: 0.2381, 0.1778: 0.2802, 0.1863: 0.381, 0.1014: 0.1593}
<class 'list'>
坐标列表= [(0.0888, 0.5885), (0.1399, 0.8291), (0.0747, 0.4974), (0.0983, 0.5772), (0.1276, 0.5703), (0.1671, 0.5835), (0.1906, 0.5276), (0.1061, 0.5523), (0.2446, 0.4007), (0.167, 0.477), (0.2485, 0.4313), (0.1227, 0.4909), (0.124, 0.5668), (0.1461, 0.5113), (0.2315, 0.3788), (0.0494, 0.559), (0.1107, 0.4799), (0.2521, 0.5735), (0.1007, 0.6318), (0.1067, 0.4326), (0.1956, 0.428), (0.1828, 0.4401), (0.1627, 0.5581), (0.1403, 0.4866), (0.1563, 0.5267), (0.2681, 0.5439), (0.1236, 0.4419), (0.13, 0.3998), (0.0896, 0.4325), (0.2071, 0.4086), (0.2244, 0.4624), (0.3437, 0.4325), (0.1058, 0.4903), (0.2326, 0.4802), (0.1577, 0.4345), (0.2327, 0.4819), (0.1256, 0.6244), (0.107, 0.3991), (0.1343, 0.4414), (0.0586, 0.4013), (0.2383, 0.3801), (0.1006, 0.3498), (0.2164, 0.3185), (0.1485, 0.3097), (0.227, 0.4319), (0.1649, 0.3799), (0.1188, 0.4091), (0.194, 0.3588), (0.2495, 0.4727), (0.2378, 0.3212), (0.1592, 0.3418), (0.2069, 0.4285), (0.2084, 0.3917), (0.0877, 0.5769), (0.101, 0.4773), (0.0942, 0.4512), (0.055, 0.3096), (0.1071, 0.3089), (0.0728, 0.4573), (0.2771, 0.3214), (0.0528, 0.5437), (0.213, 0.4121), (0.1356, 0.2185), (0.1043, 0.3313), (0.113, 0.3302), (0.1477, 0.4677), (0.1317, 0.2406), (0.2187, 0.3007), (0.2127, 0.2471), (0.2547, 0.2894), (0.1591, 0.3682), (0.0898, 0.389), (0.2146, 0.512), (0.1871, 0.4449), (0.1528, 0.4035), (0.156, 0.2683), (0.2348, 0.2719), (0.1623, 0.3408), (0.1239, 0.4393), (0.2178, 0.3004), (0.1608, 0.3503), (0.0805, 0.4388), (0.1776, 0.2578), (0.1668, 0.2989), (0.1072, 0.4455), (0.1821, 0.3087), (0.188, 0.3678), (0.1167, 0.3667), (0.2617, 0.3189), (0.1994, 0.4187), (0.1706, 0.5059), (0.1554, 0.3195), (0.2282, 0.2381), (0.1778, 0.2802), (0.1863, 0.381), (0.1014, 0.1593)]
SSE = 0.5351299289171333
预测结果= [1 1 1 1 1 1 1 1 0 0 0 1 1 1 0 1 0 1 1 0 0 0 1 0 1 1 0 0 0 0 0 0 1 0 0 0 1
 0 0 0 0 2 2 2 0 0 0 2 0 2 2 0 0 1 0 0 2 2 0 2 1 0 2 2 2 0 2 2 2 2 0 0 1 0
 0 2 2 2 0 2 2 0 2 2 0 2 0 0 2 0 1 2 2 2 0 2]

生成三堆指定的图形和颜色散点图为：

3.K-means算法聚类中设置类簇质点

# 第一步 读取数据
import os

data = []
for line in open("basketballData.txt", "r").readlines():  
    line = line.rstrip()         #删除换行    
    result = ' '.join(line.split())  #删除多余空格，保存一个空格连接
    #获取每行的五个值，如'0 0.0888 201 36.02 28 0.5885'，并将字符串转换为小数  
    s = [float(x) for x in result.strip().split(' ')]  
    data.append(s)  #数据存储至data  
    #输出结果：['0', '0.0888', '201', '36.02', '28', '0.5885']  
    # print(s)  
    
# print(data) # 输出完整数据集
# print(type(data)) # 变量类型

# 第二步 获取两列数据
L2 = [n[0] for n in data]  # 第一列表示球员每分钟助攻数：assists_per_minute  
L5 = [n[4] for n in data]  # 第五列表示球员每分钟得分数：points_per_minute    
T = dict(zip(L2,L5))       # 两列数据生成二维数据字典
# print('第一列数据', L2)
# print('第五列数据', L5)
# type(T)
# print('字典=', T)

# 将T从dict类型转换为list    
X = list(map(lambda x,y: (x,y), T.keys(),T.values()))  
# print(type(X)) 
# print('坐标列表=', X)


# 第三步 聚类分析
from sklearn.cluster import KMeans 
clf = KMeans(n_clusters=3) # 将数据集聚集成类簇数为3后的模型赋值给clf
y_predict = clf.fit_predict(X)# 将X数据集进行聚类分析，聚类为3类，对应类标分别为0，1，2
print("SSE = {0}".format(clf.inertia_))# SSE是误差平方和，这个值越接近0说明效果越好
# print(clf)   
# print('预测结果=', y_predict)              # 输出预测结果

# 第四步 绘制图形
import numpy as np  
import matplotlib.pyplot as plt  

# 获取第一列和第二列数据，使用for循环获取，n[0]表示X第一列  
x = [n[0] for n in X]  
y = [n[1] for n in X]

# 坐标，初始化为空 
x1, y1 = [], []   
x2, y2 = [], [] 
x3, y3 = [], []   
  
# 分布获取类标为0、1、2的数据并赋值给(x1,y1) (x2,y2) (x3,y3)  
i = 0  
while i < len(X):  
    # 若y_predict[i]==0时(x1,y1)为（X[i][0]，X[i][1]）
    if y_predict[i]==0:  
        x1.append(X[i][0])  
        y1.append(X[i][1])  
    elif y_predict[i]==1:  
        x2.append(X[i][0])
        y2.append(X[i][1])  
    elif y_predict[i]==2:  
        x3.append(X[i][0])  
        y3.append(X[i][1])  
    i = i + 1  
  
# 三种颜色 红 绿 蓝，marker='x'表示类型，o表示圆点、*表示星型、x表示点   
plot1, = plt.plot(x1, y1, 'or', marker="x")    
plot2, = plt.plot(x2, y2, 'og', marker="o")    
plot3, = plt.plot(x3, y3, 'ob', marker="*")    
  
plt.title("Basketball Data")  # 绘制标题
plt.xlabel("assists_per_minute")     # 绘制x轴（助攻数）
plt.ylabel("points_per_minute")      # 绘制y轴（得分数）
plt.legend((plot1, plot2, plot3), ('A', 'B', 'C'), fontsize=10) # 设置右上角图例  
# plt.show()   

# 第五步 设置类簇中心 
centers = clf.cluster_centers_
print('输出类簇质点=', centers)
plt.plot(centers[:,0],centers[:,1],'r*',markersize=20)  #显示三个中心点
plt.show()

输出为：

SSE = 0.5351299289171333
输出类簇质点= [[0.1741069  0.29691724]
 [0.16596136 0.42713636]
 [0.13618696 0.56265652]]

散点图包含类簇质点为：三个红色的五角星为类簇质点

总结

K-means算法一种自下而上的聚类方法，是采用划分法来实现。

K-means算法的优缺点：

优点

简洁明了，计算复杂度低。
收敛速度较快。通常经过几个轮次的迭代之后就可以获得还不错的效果。

缺点

结果不稳定。由于初始值随机设定，以及数据的分布情况，每次学习的结果往往会有一些差异。
无法解决样本不均衡的问题。对于类别数据量差距较大的情况无法进行判断。
容易收敛到局部最优解。在局部最优解的时候，迭代无法引起中心点的变化，迭代将结束。
受噪声影响较大。如果存在一些噪声数据，会影响均值的计算，进而引起聚类的效果偏差。
必须提供聚类的数目，并且聚类结果与初始中心的选择有关，若不知道样本集要聚成多少个类别，则无法使用K-Means算法

你可能感兴趣的:(机器学习,机器学习,聚类,算法)

【打卡d5】快速排序归并排序吧啦吧啦吡叭卜排序算法算法 java
快速排序算法模板——模板题AcWing785.快速排序voidquick_sort(intq[],intl,intr){if(l>=r)return;inti=l-1,j=r+1,x=q[(l+r)/2];while(ix);if(i=r)return;intmid=（l+r）>>1;merge_sort(q,l,mid);merge_sort(q,mid+1,r);intk=0,i=l,j=mi
什么是机器视觉3D引导大模型视觉人机器视觉机器视觉3D 3d 数码相机机器人人工智能大数据
机器视觉3D引导大模型是结合深度学习、多模态数据融合与三维感知技术的智能化解决方案，旨在提升工业自动化、医疗、物流等领域的操作精度与效率。以下从技术架构、行业应用、挑战与未来趋势等方面综合分析：一、技术架构与核心原理多模态数据融合与深度学习3D视觉引导大模型通常整合RGB图像、点云数据、深度信息等多模态输入，通过深度学习算法（如卷积神经网络、Transformer）进行特征提取与融合。例如，油田机
探索AI知识库的无限潜力：定义、应用与未来展望知识库知识库管理知识库软件
一、AI知识库的定义AI知识库，作为人工智能技术与传统知识库概念的融合，是指利用人工智能算法和技术构建、管理和维护的信息存储系统。它不仅包含了大量的结构化、半结构化和非结构化数据，还具备智能检索、推理分析、自我学习和优化等高级功能。AI知识库通过模拟人类的认知过程，实现了对知识的有效组织和高效利用，为各种应用场景提供了强大的支持。二、AI知识库的应用1.客户服务与支持在电子商务领域，AI知识库的应
【Go基础】Go入门与实践资源帖小超人冲鸭 golang 开发语言后端
看到好的持续更新……Go系统教程从语法讲起：李文周博客七天快速上手项目Go测试驱动开发博客孔令飞项目开发实战课程，孔令飞图文教程《Go语言高级编程》书籍Go算法刷题模板Go实战项目KV系统crawlab分布式爬虫平台seaweedfs分布式文件系统Cloudreve云盘系统gfast后台管理系统（基于GoFrame）alist多存储文件列表（基于Gin、React）Yearning开源SQL审核平
【Hinton论文精读】The Forward-Forward Algorithm: Some Preliminary Investigations-202212 tyhj_sf 论文研读笔记 ML理论系列人工智能深度学习 FF算法
博文导航0引言1论文摘要2反向传播有什么问题呢？3Forward-Forward算法3.1使用逐层优化函数学习多层表示4Forward-Forward算法的实验4.1反向传播baseline4.2FF算法的一个简单的无监督的例子4.3FF算法的一个简单的监督例子4.4使用FF算法来模拟感知中自上而下的效应4.5作为教师使用空间环境的预测4.6CIFAR-10实验5睡眠6FF算法与其他对比性学习技术
基于粒子滤波与卡尔曼滤波的锂离子电池放电时间预测与使用特征研究算法如诗电池建模(RUL BC)粒子滤波锂离子电池放电时间预测
基于粒子滤波与卡尔曼滤波的锂离子电池放电时间预测与使用特征研究一、研究背景与意义锂离子电池作为现代储能系统的核心组件，其放电时间（End-of-DischargeTime,EOD）的准确预测对电池管理系统（BMS）的可靠性和安全性至关重要。传统方法（如安时积分法）易受噪声、温度漂移等因素干扰，而基于状态估计的滤波算法（粒子滤波/PF、卡尔曼滤波/KF）通过动态更新模型参数，能显著提升预测精度。二、
选择排序算法解析与代码实例展示程序员总部 java 排序算法算法 java
选择排序是一种简单、直观的排序算法，适合用来处理小规模的数据。它的基本思想是每次从待排序的元素中选择最小的元素，然后将其放到已排序序列的末尾。听起来挺简单吧？接下来，让我们详细了解一下选择排序的工作原理、代码实现和一些性能特点。选择排序的步骤可以分为几个关键部分：初始状态：假设我们有一个数组，里面存放了一系列的数字。比如说，数组是[64,25,12,22,11]。在排序之前，这些数字是无序的。选择
Ai斗地主智能出牌算法 zzzzzzzzzzzw___ ——灌水算法人工智能斗地主
去年有想写个斗地主的小游戏，自己玩玩。找了很多资料，后来好不容易在网上找到了一个AI算法。转过的的时候是贴在自己电脑的TXT文本上，再次感谢下原作者。现在借花献佛发给你参考下。我以前写过一个斗地主机器人。思路如下，希望对你有帮助。斗地主AI设计一、牌型1火箭：大小王在一起的牌型，即双王牌，此牌型最大，什么牌型都可以打。2炸弹：相同点数的四张牌在一起的牌型，比如四条A。除火箭外，它可以打任何牌型，炸
基于android平台的斗地主AI 清源Eamonmon cocos2d-x学习笔记
本软件是基于android平台的斗地主AI，我们在源代码的基础之上，旨在改进AI的算法，使玩家具有更丰富的体验感，让NPC可以更为智能。（一）玩法解析：（1）发牌和叫牌：一副扑克54张，先为每个人发17张，剩下的3张作为底牌，玩家视自己手中的牌来确定自己是否叫牌。按顺序叫牌，谁出的分多谁就是地主，一般分数有1分，2分，3分。地主的底牌需要给其他玩家看过后才能拿到手中，最后地主20张牌，农民分别17
Python 机器学习基础之学习基础环境搭建仙魁XAN Python 机器学习基础+实战案例 python 学习开发语言机器学习 machine learning
Python机器学习基础之学习基础环境搭建目录Python机器学习基础之学习基础环境搭建一、简单介绍二、什么是机器学习三、python环境的搭建1、Python安装包下载2、这里以下载Python3.10.9为例3、安装Python3.10.94、检验python是否安装成功，win+R快捷打开运行，输入cmd，打开cmd四、Pycharm环境搭建1、下载Pycharm安装包2、安装Pycharm
深度学习在医学影像分析中的应用：DeepSeek系统的实践与探索 Evaporator Core #深度学习 #DeepSeek快速入门 DeepSeek进阶开发与应用深度学习人工智能
随着人工智能技术的迅猛发展，深度学习在医学领域的应用逐渐成为研究热点。医学影像分析作为医疗诊断的重要组成部分，正受益于深度学习技术的突破。DeepSeek系统是一种基于深度学习的医学影像分析平台，旨在通过高效、精准的算法辅助医生进行疾病诊断和治疗决策。本文将深入探讨DeepSeek系统的技术原理、实现方法及其在医学影像分析中的实际应用，并结合代码示例展示其核心功能。1.DeepSeek系统的技术架
【机器学习】主成分分析法（PCA）若兰幽竹机器学习机器学习信息可视化人工智能
【机器学习】主成分分析法（PCA）一、摘要二、主成分分析的基本概念三、主成分分析的数学模型五、主成分分析法目标函数公式推导（`梯度上升法`求解目标函数）六、梯度上升法求解目标函数第一个主成分七、求解前n个主成分及PCA在数据预处理中的处理步骤（后续实现）一、摘要本文主要讲述了主成分分析法（PCA）的原理和应用。PCA通过选择最重要的特征，将高维数据映射到低维空间，同时保持数据间的关系，实现降维和去
STOPWATCH类抗争到底zhy 前端
在C#中，Stopwatch类属于System.Diagnostics命名空间，它的主要用途是精准测量代码块的执行时间。在性能分析、算法优化以及其他需要时间测量的场景里，这个类非常实用。下面为你详细介绍Stopwatch类。基本使用步骤1.引入命名空间usingSystem.Diagnostics;2.创建Stopwatch实例Stopwatchstopwatch=newStopwatch();3
华为OD机试题库清单以及考点说明，2025.3.16切换2025A卷（Python/JS/C/C++）哪吒搬砖工逆袭Java架构师华为od python javascript 2025A卷华为OD机试
专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。2024年8月14日，华为官方已经将华为OD机试（D卷）切换为E卷。目前正在考的是E卷，按照华为OD往常的操作，E卷题目是由往
Git 分支使用规范全解（附项目示例）滴答滴答滴嗒滴开发 Ai 入门指南 git elasticsearch 大数据个人开发
Git分支使用规范全解（附项目示例）本文结合实际项目开发，详细讲解如何在多人协作中使用Git分支，包括main、develop、feature/*、bugfix/*、release/*、hotfix/*等分支类型。场景背景：开发一个“智能垃圾分类系统”目标是开发一套运行于边缘设备上的垃圾识别系统，使用AI算法模型识别投放物，并分类投放，同时配有后台管理页面。分支说明与实际应用示例main分支（生产
华为OD机试 - 日志采集系统（Python/JS/C/C++ 2024 E卷 100分）哪吒华为od python javascript
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述日志采集是运维系统的的核心组件。日志是按行生成，每行记做一条，由
【优化选址】基于多目标遗传NSGAII、多目标免疫遗传算法求解考虑成本、救援时间和可靠性的海上救援选址多目标优化问题研究（Matlab代码实现）荔枝科研社 matlab 数据结构算法
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录⛳️赠与读者1概述基于多目标遗传NSGAII、多目标免疫遗传算法求解考虑成本、救援时间和可靠性的海上救援选址多目标优化问题研究一、引言二、海上救援选址多目标优化问题分析（一）成本因素（二）救援时间因素（三）可靠性因素三、多目标遗传NSGAII算法（一）算法原理（二）在
算法-动态规划-最大子数组和程序员南飞算法动态规划 leetcode java 开发语言数据结构职场和发展
力扣题目：53.最大子数组和53.描述：给你一个整数数组nums，请你找出一个具有最大和的连续子数组（子数组最少包含一个元素），返回其最大和。子数组是数组中的一个连续部分。示例1：输入：nums=[-2,1,-3,4,-1,2,1,-5,4]输出：6解释：连续子数组 [4,-1,2,1]的和最大，为 6。示例2：输入：nums=[1]输出：1示例3：输入：nums=[5,4,-1,7,8]输出：2
算法-合并区间程序员南飞算法数据结构职场和发展 java 动态规划
力扣题目：56.合并区间-力扣（LeetCode）题目描述：以数组intervals表示若干个区间的集合，其中单个区间为intervals[i]=[starti,endi]。请你合并所有重叠的区间，并返回一个不重叠的区间数组，该数组需恰好覆盖输入中的所有区间。示例1：输入：intervals=[[1,3],[2,6],[8,10],[15,18]]输出：[[1,6],[8,10],[15,18]]
面试经典算法150题系列-除自身以外数组的乘积 betterManchester 面试经典算法题150题算法面试 java
除自身以外数组的乘积给你一个整数数组nums，返回数组answer，其中answer[i]等于nums中除nums[i]之外其余各元素的乘积。题目数据保证数组nums之中任意元素的全部前缀元素和后缀的乘积都在32位整数范围内。请不要使用除法，且在O(n)时间复杂度内完成此题。示例1:输入:nums=[1,2,3,4]输出:[24,12,8,6]示例2:输入:nums=[-1,1,0,-3,3]输出
算法通关----除自己自身以外数组乘积 fang4084 算法通关算法
题目来源：leetcode--238题目内容：给你一个整数数组nums，返回数组answer，其中answer[i]等于nums中除nums[i]之外其余各元素的乘积。题目数据保证数组nums之中任意元素的全部前缀元素和后缀的乘积都在32位整数范围内。请不要使用除法，且在O(n)时间复杂度内完成此题。示例1:输入:nums=[1,2,3,4]输出:[24,12,8,6]示例2:输入:nums=[-
深入探索 PyTorch 在语音识别中的应用 Zoro｜ PyTorch Deep Learning 机器学习 pytorch 语音识别人工智能
深入探索PyTorch在语音识别中的应用在本篇博客中，我将分享如何使用PyTorch进行语音识别任务，重点围绕环境配置、数据预处理、特征提取、模型设计以及模型比较展开。本文基于最近一次机器学习作业（HW2）的任务内容，任务目标是对语音信号进行逐帧音素预测，从而完成多类别分类任务。一、介绍任务背景任务目标：利用深度神经网络对语音信号进行逐帧音素预测。音素定义：音素是语音中能够区分单词的最小语音单位。
MNIST数据集&手写数字识别 Zoro｜ keras tensorflow 人工智能机器学习
TensorFlow是一个开源的机器学习框架，由Google开发并发布。它提供了一种基于数据流图的编程模型，用于构建和训练机器学习模型。TensorFlow的核心概念是张量（Tensor）和流图（Graph）。张量是TensorFlow中的基本数据单位，可以理解为多维数组，可以是标量、向量、矩阵或更高维度的数组。流图是由一系列操作（Operation）和张量组成的。操作定义了计算和转换张量的方式。
算法模型从入门到起飞系列——八大排序算法（二）小小面试官算法模型算法排序算法 java
上篇文章详细的描述了四种简单的排序算法及其优化的一些方案，其实比起基本的排序算法，我觉得学习者更应该掌握优化后的排序算法甚至希望可以在评论区上看到更多不同的解法，只要是自己去深入研究的，都可以放到评论区一起探讨甚至给博主纠正。下面就是要详细刨析另外四种不常见的排序算法，性能更高，但是其实真正的使用场景偏少。文章目录一、常见八大排序算法性能对比二、归并排序(MergeSort)2.1归并排序核心思想
深入解析BM25：LangChain中的高效检索算法 AI Agent首席体验官 langchain 算法
1.BM25算法BM25是信息检索领域中一个重要的排序算法，它用来计算查询与文档之间的相关性。让我们通过一个图书馆的例子来理解：想象你是一个图书馆管理员，有人来问你：“我想找关于太空探索和火星的书”。传统TF-IDF方法：就像你先数一数每本书中"太空探索"和"火星"这些词出现的次数，然后优先推荐这些词出现最多的书。但这有个问题：如果一本1000页的书和一本100页的书都提到"火星"10次，按理说短
从经典到现代：BM25在LangChain中的应用与优势 AI Agent首席体验官 langchain
1.BM25算法BM25是信息检索领域中一个重要的排序算法，它用来计算查询与文档之间的相关性。让我们通过一个图书馆的例子来理解：想象你是一个图书馆管理员，有人来问你：“我想找关于太空探索和火星的书”。传统TF-IDF方法：就像你先数一数每本书中"太空探索"和"火星"这些词出现的次数，然后优先推荐这些词出现最多的书。但这有个问题：如果一本1000页的书和一本100页的书都提到"火星"10次，按理说短
蓝桥杯新手算法练习题单|冲击国一(三) 小咖拉眯蓝桥杯蓝桥杯 java 数据结构算法 dfs bfs
此题单为算法基础精选题单，包含蓝桥杯常考考点以及各种经典算法，可以帮助你打牢基础，查漏补缺。本题单目标是冲击蓝桥杯省一国一，团体程序天梯赛个人国三、XCPC区域赛铜/银奖前言本次题单重点关注模拟类问题，DFS问题，BFS问题目录模拟类题型一、最大子矩阵二、世纪末的星期三、图像相似度四、操作系统DFS题型五、老子的全排列呢六、皇后问题七、池塘BFS题型八、迷宫九、八数码问题十、字符变换一、最大子矩阵
D2D通信实现资源分配算法的有关代码 kkk1622245 matlab
D2D通信实现资源分配算法的有关代码，用于提高下一代蜂窝网络中的频谱利用率的解决方案是设备到设备D2D(DevicetoDevice）通信。列表d2d-master/README.md,2774d2d-master/applications/model/http-client.cc,5305d2d-master/applications/model/http-client.h,2470d2d-ma
3.14学习总结 2402_88131930 学习
今天完成了几道关于二叉树的算法题关于二叉树的最小最大深度和数据流中的第k大元素，用到优先队列，学习了有关java的基础知识，学习了双指针法。
OpenLSD是一个自适应开源数据集，旨在支持逻辑综合中的多种机器学习任务。数据集
2024-11-14，由中国科学院计算技术研究所、鹏城实验室和北京大学等联合创建OpenLSD数据集，目的为逻辑综合过程中的机器学习任务提供一个自适应的数据集生成框架。该数据集的核心研究问题是如何在逻辑综合的三个基本步骤——布尔表示、逻辑优化和技术映射中，通过机器学习方法提升效率和质量。一、研究背景：逻辑综合是电子设计自动化（EDA）流程中的关键环节，它负责将高级设计规范转化为门级网络列表。近年来
Enum用法不懂事的小屁孩 enum
以前的时候知道enum，但是真心不怎么用，在实际开发中，经常会用到以下代码: protected final static String XJ = "XJ"; protected final static String YHK = "YHK"; protected final static String PQ = "PQ";
【Spark九十七】RDD API之aggregateByKey bit1129 spark
1. aggregateByKey的运行机制 /** * Aggregate the values of each key, using given combine functions and a neutral "zero value". * This function can return a different result type
hive创建表是报错： Specified key was too long; max key length is 767 bytes daizj hive
今天在hive客户端创建表时报错，具体操作如下 hive> create table test2(id string); FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataSto
Map 与 JavaBean之间的转换周凡杨 java 自省转换反射
最近项目里需要一个工具类，它的功能是传入一个Map后可以返回一个JavaBean对象。很喜欢写这样的Java服务，首先我想到的是要通过Java 的反射去实现匿名类的方法调用，这样才可以把Map里的值set 到JavaBean里。其实这里用Java的自省会更方便，下面两个方法就是一个通过反射，一个通过自省来实现本功能。 1：JavaBean类 1 &nb
java连接ftp下载 g21121 java
有的时候需要用到java连接ftp服务器下载，上传一些操作，下面写了一个小例子。 /** ftp服务器地址 */ private String ftpHost; /** ftp服务器用户名 */ private String ftpName; /** ftp服务器密码 */ private String ftpPass; /** ftp根目录 */ private String f
web报表工具FineReport使用中遇到的常见报错及解决办法（二）老A不折腾 finereport web报表 java报表总结
抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、没有返回数据集：在存储过程中的操作语句之前加上set nocount on 或者在数据集exec调用存储过程的前面加上这句。当S
linux 系统cpu 内存等信息查看墙头上一根草 cpu 内存 liunx
1 查看CPU 　　1.1 查看CPU个数　　# cat /proc/cpuinfo | grep "physical id" | uniq | wc -l 　　2 　　**uniq命令：删除重复行;wc –l命令：统计行数** 　　1.2 查看CPU核数　　# cat /proc/cpuinfo | grep "cpu cores" | u
Spring中的AOP aijuans spring AOP
Spring中的AOP Written by Tony Jiang @ 2012-1-18 （转）何为AOP AOP，面向切面编程。在不改动代码的前提下，灵活的在现有代码的执行顺序前后，添加进新规机能。来一个简单的Sample: 目标类： [java] view plain copy print ? package&nb
placeholder(HTML 5) IE 兼容插件 alxw4616 JavaScript jquery jQuery插件
placeholder 这个属性被越来越频繁的使用. 但为做HTML 5 特性IE没能实现这东西. 以下的jQuery插件就是用来在IE上实现该属性的. /** * [placeholder(HTML 5) IE 实现.IE9以下通过测试.] * v 1.0 by oTwo 2014年7月31日 11:45:29 */ $.fn.placeholder = function
Object类,值域,泛型等总结(适合有基础的人看) 百合不是茶泛型的继承和通配符变量的值域 Object类转换
java的作用域在编程的时候经常会遇到,而我经常会搞不清楚这个问题,所以在家的这几天回忆一下过去不知道的每个小知识点变量的值域; package 基础; /** * 作用域的范围 * * @author Administrator * */ public class zuoyongyu { public static vo
JDK1.5 Condition接口 bijian1013 java thread Condition java多线程
Condition 将 Object 监视器方法（wait、notify和 notifyAll）分解成截然不同的对象，以便通过将这些对象与任意 Lock 实现组合使用，为每个对象提供多个等待 set （wait-set）。其中，Lock 替代了 synchronized 方法和语句的使用，Condition 替代了 Object 监视器方法的使用。条件（也称为条件队列或条件变量）为线程提供了一
开源中国OSC源创会记录 bijian1013 hadoop spark MemSQL
一.Strata+Hadoop World（SHW）大会是全世界最大的大数据大会之一。SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学以及最全面的大数据行业和趋势探讨。二.Hadoop &nbs
【Java范型七】范型消除 bit1129 java
范型是Java1.5引入的语言特性，它是编译时的一个语法现象，也就是说，对于一个类，不管是范型类还是非范型类，编译得到的字节码是一样的，差别仅在于通过范型这种语法来进行编译时的类型检查，在运行时是没有范型或者类型参数这个说法的。范型跟反射刚好相反，反射是一种运行时行为，所以编译时不能访问的变量或者方法(比如private)，在运行时通过反射是可以访问的，也就是说，可见性也是一种编译时的行为，在
【Spark九十四】spark-sql工具的使用 bit1129 spark
spark-sql是Spark bin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过 hive>输入的指令可以通过spark-sql>输入的指令来完成。 spark-sql可以使用内置的Hive metadata-store，也可以使用已经独立安装的Hive的metadata store 关于Hive build into Spark
js做的各种倒计时 ronin47 js 倒计时
第一种：精确到秒的javascript倒计时代码 HTML代码: <form name="form1"> <div align="center" align="middle"
java-37.有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接 bylijinnan java
public class MaxCatenate { /* * Q.37 有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接， * 问这n 个字符串最多可以连成一个多长的字符串，如果出现循环，则返回错误。 */ public static void main(String[] args){
mongoDB安装开窍的石头 mongodb安装基本操作
mongoDB的安装 1:mongoDB下载 https://www.mongodb.org/downloads 2:下载mongoDB下载后解压
[开源项目]引擎的关键意义 comsci 开源项目
一个系统，最核心的东西就是引擎。。。。。而要设计和制造出引擎，最关键的是要坚持。。。。。。现在最先进的引擎技术，也是从莱特兄弟那里出现的，但是中间一直没有断过研发的
软件度量的一些方法 cuiyadll 方法
软件度量的一些方法http://cuiyingfeng.blog.51cto.com/43841/6775/在前面我们已介绍了组成软件度量的几个方面。在这里我们将先给出关于这几个方面的一个纲要介绍。在后面我们还会作进一步具体的阐述。当我们不从高层次的概念级来看软件度量及其目标的时候，我们很容易把这些活动看成是不同而且毫不相干的。我们现在希望表明他们是怎样恰如其分地嵌入我们的框架的。也就是我们度量的
XSD中的targetNameSpace解释 darrenzhu xml namespace xsd targetnamespace
参考链接: http://blog.csdn.net/colin1014/article/details/357694 xsd文件中定义了一个targetNameSpace后，其内部定义的元素，属性，类型等都属于该targetNameSpace,其自身或外部xsd文件使用这些元素，属性等都必须从定义的targetNameSpace中找：例如：以下xsd文件，就出现了该错误，即便是在一
什么是RAID0、RAID1、RAID0+1、RAID5，等磁盘阵列模式? dcj3sjt126com raid
RAID 1又称为Mirror或Mirroring，它的宗旨是最大限度的保证用户数据的可用性和可修复性。 RAID 1的操作方式是把用户写入硬盘的数据百分之百地自动复制到另外一个硬盘上。由于对存储的数据进行百分之百的备份，在所有RAID级别中，RAID 1提供最高的数据安全保障。同样，由于数据的百分之百备份，备份数据占了总存储空间的一半，因而，Mirror的磁盘空间利用率低，存储成本高。 Mir
yii2 restful web服务快速入门 dcj3sjt126com PHP yii2
快速入门 Yii 提供了一整套用来简化实现 RESTful 风格的 Web Service 服务的 API。特别是，Yii 支持以下关于 RESTful 风格的 API：支持 Active Record 类的通用API的快速原型涉及的响应格式（在默认情况下支持 JSON 和 XML) 支持可选输出字段的定制对象序列化适当的格式的数据采集和验证错误
MongoDB查询(3)——内嵌文档查询（七） eksliang MongoDB查询内嵌文档 MongoDB查询内嵌数组
MongoDB查询内嵌文档转载请出自出处：http://eksliang.iteye.com/blog/2177301 一、概述有两种方法可以查询内嵌文档：查询整个文档；针对键值对进行查询。这两种方式是不同的，下面我通过例子进行分别说明。二、查询整个文档例如:有如下文档 db.emp.insert({ &qu
android4.4从系统图库无法加载图片的问题 gundumw100 android
典型的使用场景就是要设置一个头像，头像需要从系统图库或者拍照获得，在android4.4之前，我用的代码没问题，但是今天使用android4.4的时候突然发现不灵了。baidu了一圈，终于解决了。下面是解决方案： private String[] items = new String[] { "图库","拍照" }; /* 头像名称 */
网页特效大全 jQuery等 ini JavaScript jquery css html5 ini
HTML5和CSS3知识和特效 asp.net ajax jquery实例分享一个下雪的特效 jQuery倾斜的动画导航菜单选美大赛示例你会选谁 jQuery实现HTML5时钟功能强大的滚动播放插件JQ-Slide 万圣节快乐！！！向上弹出菜单jQuery插件 htm5视差动画 jquery将列表倒转顺序推荐一个jQuery分页插件 jquery animate
swift objc_setAssociatedObject block(version1.2 xcode6.4) 啸笑天 version
import UIKit class LSObjectWrapper: NSObject { let value: ((barButton: UIButton?) -> Void)? init(value: (barButton: UIButton?) -> Void) { self.value = value
Aegis 默认的 Xfire 绑定方式，将 XML 映射为 POJO MagicMa_007 java POJO xml Aegis xfire
Aegis 是一个默认的 Xfire 绑定方式，它将 XML 映射为 POJO, 支持代码先行的开发.你开发服务类与 POJO,它为你生成 XML schema/wsdl XML 和注解映射概览默认情况下，你的 POJO 类被是基于他们的名字与命名空间被序列化。如果
js get max value in (json) Array qiaolevip 每天进步一点点学习永无止境 max 纵观千象
// Max value in Array var arr = [1,2,3,5,3,2];Math.max.apply(null, arr); // 5 // Max value in Jaon Array var arr = [{"x":"8/11/2009","y":0.026572007},{"x"
XMLhttpRequest 请求 XML,JSON ,POJO 数据 Luob. POJO json Ajax xml XMLhttpREquest
在使用XMlhttpRequest对象发送请求和响应之前，必须首先使用javaScript对象创建一个XMLHttpRquest对象。 var xmlhttp； function getXMLHttpRequest(){ if(window.ActiveXObject){ xmlhttp:new ActiveXObject("Microsoft.XMLHTTP
jquery wuai jquery
以下防止文档在完全加载之前运行Jquery代码，否则会出现试图隐藏一个不存在的元素、获得未完全加载的图像的大小等等 $(document).ready(function(){ jquery代码; }); <script type="text/javascript" src="c:/scripts/jquery-1.4.2.min.js&quo