Annranshina

K-均值聚类学习思考

简述：

k-means算法是最为经典的基于划分的聚类方法，是十大经典数据挖掘算法之一。K-means算法的基本思想是：以空间中k个点为中心进行聚类，对最靠近他们的对象归类。通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果。

算法描述：
假设要把样本集分为c个类别，算法描述如下：
（1）适当选择c个类的初始中心；(也可以随机选择)

（2）在第k次迭代中，对任意一个样本，求其到c个中心的距离，将该样本归到距离最短的中心所在的类；

（3）利用均值等方法更新该类的中心值；

（4）对于所有的c个聚类中心，如果利用（2）（3）的迭代法更新后，值保持不变，则迭代结束，否则继续迭代。

例子：

图1：给定一个数据集；

图2：根据K= 5初始化聚类中心，保证　聚类中心处于数据空间内；

图3：根据计算类内对象和聚类中心之间的相似度指标，将数据进行划分；

图4：将类内之间数据的均值作为聚类中心，更新聚类中心。

最后判断算法结束与否即可，目的是为了保证算法的收敛。

该算法的最大优势在于简洁和快速。算法的关键在于初始中心的选择和距离公式。

注意：

K-means++ 算法在初始点选择上遵循一个基本原则: 初始聚类中心点相互之间的距离应该尽可能的远。

基本步骤如下:

第一步，从数据集 X 中随机选择一个点作为第一个初始点。

第二步，计算数据集中所有点与最新选择的中心点的距离 D(x)。

第三步，选择下一个中心点，使得最大。

第四步，重复 (二),(三) 步过程，直到 K 个初始点选择完成。

如何选择K

K 的选择是 K-means 算法的关键，computeCost 方法，该方法通过计算所有数据点到其最近的中心点的平方和来评估聚类的效果。一般来说，同样的迭代次数和算法跑的次数，这个值越小代表聚类的效果越好。但是在实际情况下，我们还要考虑到聚类结果的可解释性，不能一味的选择使 computeCost 结果值最小的那个 K。

KMeans优缺点

优点：原理比较容易理解，容易实现，并且聚类效果良好，有着广泛的使用
缺点：（1）K-means算法不适用于非球形簇的聚类，而且不同尺寸和密度的类型的簇，也不太适合。

（2）可能收敛到局部值。

存在问题

K均值聚类

存在的问题

K-means 算法的特点——采用两阶段反复循环过程算法，结束的条件是不再有数据元素被重新分配：

指定聚类

即指定数据到某一个聚类，使得它与这个聚类中心的距离比它到其它聚类中心的距离要近。

修改聚类中心

优点：本算法确定的K 个划分到达平方误差最小。当聚类是密集的，且类与类之间区别明显时，效果较好。对于处理大数据集，这个算法是相对可伸缩和高效的，计算的复杂度为O(NKt)，其中N是数据对象的数目，t是迭代的次数。一般来说，K<

用后处理来提高聚类性能

聚类算法中，k的值是由用户初始定义的，如何才能判断k值定义是否合适，就需要用误差来评价聚类效果的好坏，误差是各个点与其所属类别质心的距离决定的。K-均值聚类的方法效果较差的原因是会收敛到局部最小值，而且全局最小。一种评价聚类效果的方法是SSE（Sum of Squared Error）误差平方和的方法，取平方的结果是使得远离中心的点变得更加突出。
一种降低SSE的方法是增加簇的个数，即提高k值，但是违背了聚类的目标，聚类的目标是在不改变簇数目的前提下提高簇的质量。可选的改进的方法是对生成的簇进行后处理，将最大SSE值的簇划分成两个（K=2的K-均值算法），然后再进行相邻的簇合并。具体方法有两种：1、合并最近的两个质心（合并使得SSE增幅最小的两个质心）2、遍历簇合并两个然后计算SSE的值，找到使得SSE最小的情况。

下面将使用上述技术得到更好的聚类结果方法。

二分K-均值算法
二分K-均值类似后处理的切分思想，初始状态所有数据点属于一个大簇，之后每次选择一个簇切分成两个簇，这个切分满足使SSE值最大程度降低，直到簇数目达到k。另一种思路是每次选择SSE值最大的一个簇进行切分。
满足使SSE值最大程度降低伪代码如下：

将所有点看成一个簇

当簇数目小于k时

对于每一个簇：

计算总误差

在给定的簇上面进行K-均值聚类（k=2）

计算将该簇一分为二后的总误差

选择使得误差最小的那个簇进行划分操作

函数biKmeans是上面二分K-均值聚类算法的实现，首先创建clusterAssment储存数据集中每个点的分类结果和平方误差，用centList保存所有已经划分的簇，初始状态为整个数据集。while循环不停对簇进行划分，寻找使得SSE值最大程度减小的簇并更新，添加新的簇到centList中。

实例——对地图上的点进行聚类

简述：一晚上需要去70个目的地，你需要确定一个将这些地方聚类的最佳策略，然后安排交通工具去这些簇的中心。

辅助工具：

1.Yahoo！PlaceFinder API：免费的地址转换API，该API对给定地址返回其经纬度。

2.经纬度计算：地球是球体，不能简单地进行两点之间直线距离公式。而应该求其测地线距离。

注意：弧度制角度制换算。

球面余弦定理：

点A：纬度β1 ，经度α1 ；

点B ：纬度β2 ，经度α2。R：球半径

则距离

def distSLC(vecA, vecB):#Spherical Law of Cosines
    a = sin(vecA[0,1]*pi/180) * sin(vecB[0,1]*pi/180)
    b = cos(vecA[0,1]*pi/180) * cos(vecB[0,1]*pi/180) * \
                      cos(pi * (vecB[0,0]-vecA[0,0]) /180)
    return arccos(a + b)*6371.0 #pi is imported with numpy

运行结果：

分为5个簇

【详细见附录】

[[-122.68111442 45.43248857]

[-122.74038611 45.47046774]]

[[-122.64921011 45.45681567]

[-122.7055405 45.4645215 ]]

[[-122.63869656 45.47002711]

[-122.729196 45.43479575]]

sseSplit,and notSplit: 195.09086134986362 1460.9594095632215

thebestCentToSplit is: 1

thelen of bestClustAss is: 30

小结：

1 聚类是一种无监督的学习方法。聚类区别于分类，即事先不知道要寻找的内容，没有预先设定好的目标变量。

2 聚类将数据点归到多个簇中，其中相似的数据点归为同一簇，而不相似的点归为不同的簇。相似度的计算方法有很多，具体的应用选择合适的相似度计算方法

3 K-means聚类算法，是一种广泛使用的聚类算法，其中k是需要指定的参数，即需要创建的簇的数目，K-means算法中的k个簇的质心可以通过随机的方式获得，但是这些点需要位于数据范围内。在算法中，计算每个点到质心得距离，选择距离最小的质心对应的簇作为该数据点的划分，然后再基于该分配过程后更新簇的质心。重复上述过程，直至各个簇的质心不再变化为止。

4 K-means算法虽然有效，但是容易受到初始簇质心的情况而影响，有可能陷入局部最优解。为了解决这个问题，可以使用另外一种称为二分K-means的聚类算法。二分K-means算法首先将所有数据点分为一个簇；然后使用K-means（k=2）对其进行划分；下一次迭代时，选择使得SSE下降程度最大的簇进行划分；重复该过程，直至簇的个数达到指定的数目为止。实验表明，二分K-means算法的聚类效果要好于普通的K-means聚类算法。

参考文献：

百度百科. K-Means[EB/OL]. https://baike.baidu.com/item/K-means/4934806.
Yabea. 机器学习（二）——K-均值聚类（K-means）算法[EB/OL]. https://www.cnblogs.com/ybjourney/p/4714870.html.
修行的猫ZQ. 【机器学习实战-python3】K-均值聚类算法[EB/OL]. https://blog.csdn.net/sinat_17196995/article/details/70332664.
千寻千梦. Spark2.0机器学习系列之8：聚类(k-means,Bisecting k-means,Streaming k-means）[EB/OL]. https://blog.csdn.net/qq_34531825/article/details/52663428

附录：

"""
调用函数
Created on Tue Jun  5 13:49:39 2018
@author: Administrator
"""

from kMeans import *

clusterClubs(5)

'''
kMeans.py
来源：机器学习实战
且作者改写为适用于python3.0及以上版本
'''

from numpy import *

def loadDataSet(fileName):      #general function to parse tab -delimited floats
    dataMat = []                #assume last column is target value
    fr = open(fileName)
    for line in fr.readlines():
        curLine = line.strip().split('\t')
        fltLine = map(float,curLine) #map all elements to float()
        dataMat.append(fltLine)
    return dataMat

def distEclud(vecA, vecB):
    return sqrt(sum(power(vecA - vecB, 2))) #la.norm(vecA-vecB)

def randCent(dataSet, k):
    n = shape(dataSet)[1]
    centroids = mat(zeros((k,n)))#create centroid mat
    for j in range(n):#create random cluster centers, within bounds of each dimension
        minJ = min(dataSet[:,j]) 
        rangeJ = float(max(dataSet[:,j]) - minJ)
        centroids[:,j] = mat(minJ + rangeJ * random.rand(k,1))
    return centroids
    
def kMeans(dataSet, k, distMeas=distEclud, createCent=randCent):
    m = shape(dataSet)[0]
    clusterAssment = mat(zeros((m,2)))#create mat to assign data points 
                                      #to a centroid, also holds SE of each point
    centroids = createCent(dataSet, k)
    clusterChanged = True
    while clusterChanged:
        clusterChanged = False
        for i in range(m):#for each data point assign it to the closest centroid
            minDist = inf; minIndex = -1
            for j in range(k):
                distJI = distMeas(centroids[j,:],dataSet[i,:])
                if distJI < minDist:
                    minDist = distJI; minIndex = j
            if clusterAssment[i,0] != minIndex: clusterChanged = True
            clusterAssment[i,:] = minIndex,minDist**2
        print (centroids)
        for cent in range(k):#recalculate centroids
            ptsInClust = dataSet[nonzero(clusterAssment[:,0].A==cent)[0]]#get all the point in this cluster
            centroids[cent,:] = mean(ptsInClust, axis=0) #assign centroid to mean 
    return centroids, clusterAssment

def biKmeans(dataSet, k, distMeas=distEclud):
    m = shape(dataSet)[0]
    clusterAssment = mat(zeros((m,2)))
    centroid0 = mean(dataSet, axis=0).tolist()[0]
    centList =[centroid0] #create a list with one centroid
    for j in range(m):#calc initial Error
        clusterAssment[j,1] = distMeas(mat(centroid0), dataSet[j,:])**2
    while (len(centList) < k):
        lowestSSE = inf
        for i in range(len(centList)):
            ptsInCurrCluster = dataSet[nonzero(clusterAssment[:,0].A==i)[0],:]#get the data points currently in cluster i
            centroidMat, splitClustAss = kMeans(ptsInCurrCluster, 2, distMeas)
            sseSplit = sum(splitClustAss[:,1])#compare the SSE to the currrent minimum
            sseNotSplit = sum(clusterAssment[nonzero(clusterAssment[:,0].A!=i)[0],1])
            print ("sseSplit, and notSplit: ",sseSplit,sseNotSplit)
            if (sseSplit + sseNotSplit) < lowestSSE:
                bestCentToSplit = i
                bestNewCents = centroidMat
                bestClustAss = splitClustAss.copy()
                lowestSSE = sseSplit + sseNotSplit
        bestClustAss[nonzero(bestClustAss[:,0].A == 1)[0],0] = len(centList) #change 1 to 3,4, or whatever
        bestClustAss[nonzero(bestClustAss[:,0].A == 0)[0],0] = bestCentToSplit
        print ('the bestCentToSplit is: ',bestCentToSplit)
        print ('the len of bestClustAss is: ', len(bestClustAss))
        centList[bestCentToSplit] = bestNewCents[0,:].tolist()[0]#replace a centroid with two best centroids 
        centList.append(bestNewCents[1,:].tolist()[0])
        clusterAssment[nonzero(clusterAssment[:,0].A == bestCentToSplit)[0],:]= bestClustAss#reassign new clusters, and SSE
    return mat(centList), clusterAssment

import urllib
import json
def geoGrab(stAddress, city):
    apiStem = 'http://where.yahooapis.com/geocode?'  #create a dict and constants for the goecoder
    params = {}
    params['flags'] = 'J'#JSON return type
    params['appid'] = 'aaa0VN6k'
    params['location'] = '%s %s' % (stAddress, city)
    url_params = urllib.urlencode(params)
    yahooApi = apiStem + url_params      #print url_params
    print (yahooApi)
    c=urllib.urlopen(yahooApi)
    return json.loads(c.read())

from time import sleep
def massPlaceFind(fileName):
    fw = open('places.txt', 'w')
    for line in open(fileName).readlines():
        line = line.strip()
        lineArr = line.split('\t')
        retDict = geoGrab(lineArr[1], lineArr[2])
        if retDict['ResultSet']['Error'] == 0:
            lat = float(retDict['ResultSet']['Results'][0]['latitude'])
            lng = float(retDict['ResultSet']['Results'][0]['longitude'])
            print ("%s\t%f\t%f" % (lineArr[0], lat, lng))
            fw.write('%s\t%f\t%f\n' % (line, lat, lng))
        else: print( "error fetching")
        sleep(1)
    fw.close()
    
def distSLC(vecA, vecB):#Spherical Law of Cosines
    a = sin(vecA[0,1]*pi/180) * sin(vecB[0,1]*pi/180)
    b = cos(vecA[0,1]*pi/180) * cos(vecB[0,1]*pi/180) * \
                      cos(pi * (vecB[0,0]-vecA[0,0]) /180)
    return arccos(a + b)*6371.0 #pi is imported with numpy

import matplotlib
import matplotlib.pyplot as plt
def clusterClubs(numClust=5):
    datList = []
    for line in open('places.txt').readlines():
        lineArr = line.split('\t')
        datList.append([float(lineArr[4]), float(lineArr[3])])
    datMat = mat(datList)
    myCentroids, clustAssing = biKmeans(datMat, numClust, distMeas=distSLC)
    fig = plt.figure()
    rect=[0.1,0.1,0.8,0.8]
    scatterMarkers=['s', 'o', '^', '8', 'p', \
                    'd', 'v', 'h', '>', '<']
    axprops = dict(xticks=[], yticks=[])
    ax0=fig.add_axes(rect, label='ax0', **axprops)
    imgP = plt.imread('Portland.png')
    ax0.imshow(imgP)
    ax1=fig.add_axes(rect, label='ax1', frameon=False)
    for i in range(numClust):
        ptsInCurrCluster = datMat[nonzero(clustAssing[:,0].A==i)[0],:]
        markerStyle = scatterMarkers[i % len(scatterMarkers)]
        ax1.scatter(ptsInCurrCluster[:,0].flatten().A[0], ptsInCurrCluster[:,1].flatten().A[0], marker=markerStyle, s=90)
    ax1.scatter(myCentroids[:,0].flatten().A[0], myCentroids[:,1].flatten().A[0], marker='+', s=300)
    plt.show()

[[-122.4693261    45.47138674]

 [-122.38260849   45.44485082]]

[[-122.63543168   45.5135124 ]

 [-122.376304     45.430319 ]]

[[-122.63856419   45.51360033]

 [-122.4009285    45.46897  ]]

[[-122.64533773   45.51357016]

 [-122.4568086    45.4961344 ]]

[[-122.66149437   45.51440946]

 [-122.50322869   45.50324862]]

[[-122.67273274   45.51397274]

 [-122.52363268   45.50792237]]

[[-122.68917857   45.50793286]

 [-122.54222807   45.51911044]]

[[-122.69551477   45.50729503]

 [-122.54868607   45.51882187]]

sseSplit,and notSplit:  3043.2633161055337 0.0

thebestCentToSplit is:  0

thelen of bestClustAss is:  69

[[-122.66271847   45.5989936 ]

 [-122.75031153   45.44633864]]

[[-122.68405068   45.54862674]

 [-122.70640565   45.4680299 ]]

sseSplit,and notSplit:  1379.8222401289108851.4388885817106

[[-122.50822734   45.54632347]

 [-122.59885254   45.51279708]]

[[-122.50339758   45.50865767]

 [-122.57887839   45.525598 ]]

[[-122.50186825   45.49706533]

 [-122.57989794   45.53332622]]

[[-122.49860291   45.49496564]

 [-122.57768158   45.53263337]]

sseSplit,and notSplit:  464.72059834529512191.824427523823

thebestCentToSplit is:  0

thelen of bestClustAss is:  39

[[-122.65203517   45.63616677]

 [-122.78690864   45.55927426]]

[[-122.6587032    45.5646778 ]

 [-122.69310336   45.54289421]]

[[-122.67875743   45.57335714]

 [-122.68713842   45.53420067]]

[[-122.72070683   45.59796783]

 [-122.66713246   45.52585392]]

sseSplit,and notSplit:  214.884449737288381680.9549600857222

[[-122.48942004   45.48810764]

 [-122.60249884   45.55769838]]

[[-122.51686212   45.49922575]

 [-122.58505629   45.54121743]]

sseSplit,and notSplit:  477.91688463463291379.8222401289108

[[-122.79866092   45.496745 ]

 [-122.69545043   45.3955361 ]]

[[-122.76523086   45.49528114]

 [-122.67473054   45.45335615]]

[[-122.78043714   45.484453 ]

 [-122.66654254   45.45918669]]

sseSplit,and notSplit:  434.840788678321401.7450572066102

thebestCentToSplit is:  2

thelen of bestClustAss is:  20

[[-122.82866782   45.57344812]

 [-122.83042303   45.51450655]]

[[-122.72072414   45.59011757]

 [-122.66265783   45.52442375]]

[[-122.72070683   45.59796783]

 [-122.66713246   45.52585392]]

sseSplit,and notSplit:  214.884449737288381286.279677260031

[[-122.48141504   45.52471367]

 [-122.49251682   45.51358392]]

[[-122.4540165    45.5133815 ]

 [-122.55544818   45.51921046]]

[[-122.4568086    45.4961344 ]

 [-122.56706156   45.52335936]]

sseSplit,and notSplit:  505.61960820164956985.1469573032196

[[-122.80003038   45.50287617]

 [-122.7926128    45.47968729]]

[[-122.774       45.503195 ]

 [-122.783012   45.4769562]]

[[-122.77716225   45.4982345 ]

 [-122.78480367   45.46607767]]

[[-122.78288433   45.4942305 ]

 [-122.765754     45.425788 ]]

sseSplit,and notSplit:  8.038610743803597 1777.371493528319

[[-122.68111442   45.43248857]

 [-122.74038611   45.47046774]]

[[-122.64921011   45.45681567]

 [-122.7055405    45.4645215 ]]

[[-122.63869656   45.47002711]

 [-122.729196     45.43479575]]

sseSplit,and notSplit:  195.09086134986362 1460.9594095632215

thebestCentToSplit is:  1

thelen of bestClustAss is:  30

使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
跟着黑马学mysql（5）小杜不吃糖 mysql 数据库
17.DQL-聚合函数DQL-聚合函数介绍将一列数据作为一个整体，进行纵向计算。常见聚合函数函数功能count统计数量max最大值min最小值avg平均值sum求和语法SELECT聚合函数(字段列表)FROM表名;注意：所有的null值不参与聚合函数的运算18.DQL-分组查询语法SELECT字段列表FROM表名[WHERE条件]GROUPBY分组字段名[HAVING分组后的过滤条件];where
机器学习-------数据标准化罔闻_spider 数据分析算法机器学习人工智能
什么是归一化，它与标准化的区别是什么？一作用在做训练时，需要先将特征值与标签标准化，可以防止梯度防炸和过拟合；将标签标准化后，网络预测出的数据是符合标准正态分布的—StandarScaler()，与真实值有很大差别。因为StandarScaler()对数据的处理是（真实值-平均值）/标准差。同时在做预测时需要将输出数据逆标准化提升模型精度：标准化/归一化使不同维度的特征在数值上更具比较性，提高分类
chatgpt赋能python：如何在Python中计算平均值 tulingtest ChatGpt python chatgpt numpy 计算机
如何在Python中计算平均值计算平均值是数据分析、统计和机器学习等许多领域中的常见任务。Python作为一门功能强大且易于学习的编程语言，为计算平均值提供了多种方法。在本文中，我们将介绍如何在Python中计算平均值。什么是平均值简单来说，平均值是一组数字的总和除以数字的数量。例如，对于数字序列1，3，5，7，9，平均值是(1+3+5+7+9)/5=5。平均值在数据分析中非常有用，因为它可以提供
计算平均值python 暖风822 python
从键盘输入三个整数，分别存入x,y,z三个整型变量中，计算并输出三个数的和以及平均值。【输入形式】从键盘输入三个整数，整数之间以空格隔开。【输出形式】在屏幕上分两行显示结果：第一行为三个数的和，整数形式输出；第二行为三个数的平均值，浮点数形式输出，小数点后保留两位小数。【输入样例】3 2 3【输出样例】82.67【样例说明】3、2、3的和为8，所以第一行输出8；第二行输出3、2、3的平均值2.67
9.单细胞 RNA-seq：聚类分析 denghb001
学习目标：利用多种方法来评估聚类选择的PC基于重要的PC执行单细胞聚类单细胞RNA-seq聚类分析现在我们已经整合了高质量的细胞，我们想知道我们的细胞群中存在的不同细胞类型。image目标：为了生成特定细胞类型的簇，并使用已知的细胞类型的标志基因来确定的簇的身份。为了确定分群是否代表真实的细胞类型或由于生物或技术差异而形成的群集，如在细胞周期的S期的细胞群，特定批次的簇，或具有高线粒体含量的细胞。
很感兴趣的行为金融学奔跑的阿牛
「思考，快与慢」读后感1⃣️均值回归是对于前后没有关联的事情，比如多次扔飞镖结果。而对于每一步的选择，后一步选择建立在前一步基础上，是相关的。只要想，是可以一步步向上走。2⃣️事前验尸比如马云召开员工大会，谈论阿里巴巴为什么倒闭。就是在事前，讨论失败的细分因素，做到事前预警。3⃣️人思考的系统一和系统二系统一：大脑的自动行驶，不需要细想就能运作（比如慢走散步，可以想起他简单事情系统二：需要集中注意
『 MySQL数据库』聚合统计 Dio夹心小面包数据库数据库 mysql
文章目录前言聚合函数COUNT()查询数据数量SUM()查询数据总和AVG()查询数据平均值MAX()查询数据最大值MIN()查询数据最小值数据分组GROUPBY子句GROUPBY示例HAVING语句前言在MySQL中存在一种查询方式叫做聚合查询;聚合查询顾名思义就是将一组数据的同种类型进行聚合,那么既然是一组同类型的数据那么即必须要对该数据进行分组同时再对这组数据进行聚合;所以对于聚合查询来说时
K-means 算法的介绍与应用小魏冬琅 matlab 算法 kmeans 机器学习
目录引言K-means算法的基本原理表格总结：K-means算法的主要步骤K-means算法的MATLAB实现优化方法与改进K-means算法的应用领域表格总结：K-means算法的主要应用领域结论引言K-means算法是一种经典的基于距离的聚类算法，在数据挖掘、模式识别、图像处理等多个领域中得到了广泛应用。其核心思想是将相似的数据对象聚类到同一个簇中，而使得簇内对象的相似度最大、簇间的相似度最小
聚类分析 | Python密度聚类（DBSCAN）天天酷科研聚类分析算法（CLA）python 聚类机器学习 DBSCAN
密度聚类是一种无需预先指定聚类数量的聚类方法，它依赖于数据点之间的密度关系来自动识别聚类结构。本文中，演示如何使用密度聚类算法，具体是DBSCAN（Density-BasedSpatialClusteringofApplicationswithNoise）来对一个实际的数据集进行聚类分析。一、基本介绍密度聚类的核心思想是将数据点分为高密度区域和低密度区域。高密度区域内的数据点被认为属于同一簇，而低
机器学习实战笔记5——线性判别分析绍少阿机器学习笔记可视化机器学习 python 人工智能
任务安排1、机器学习导论8、核方法2、KNN及其实现9、稀疏表示3、K-means聚类10、高斯混合模型4、主成分分析11、嵌入学习5、线性判别分析12、强化学习6、贝叶斯方法13、PageRank7、逻辑回归14、深度学习线性判别分析（LDA）Ⅰ核心思想对于同样一件事，站在不同的角度，我们往往会有不同的看法，而降维思想，亦是如此。同上节课一样，我们还是学习降维的算法，只是提供了一种新的角度，由上
图计算：基于SparkGrpahX计算聚类系数妙龄少女郭德纲 Spark 图算法 Scala 聚类数据挖掘机器学习
图计算：基于SparkGrpahX计算聚类系数文章目录图计算：基于SparkGrpahX计算聚类系数一、什么是聚类系数二、基于SparkGraphX的聚类系数代码实现总结一、什么是聚类系数聚类系数（ClusteringCoefficient）是图计算和网络分析中的一个重要概念，用于衡量网络中节点的局部聚集程度。它有助于理解网络中节点之间的紧密程度和网络的结构特性。这是一种用来衡量图中节点聚类程度的
牛客周赛 Round 58 Pown_ShanYu 算法 c++开发语言
D好好好数题目大意：定义k-好数为：可以表示为若干个不同的k的整次幂之和的数字例如30=3^3+3^1,30是一个3-好数给定一个数n，n最少可以表示成几个k-好数的和赛事错误思路：将n转化为k进制，然后将数位上的数字求和，当时想的是求n转换为n个k的整次幂的数正解：k进制数位上的最大值即为解，因为一个k-好数可以表示为多个k的整次幂的和，比如三进制下1010，可用（1000+10）两个k的整次幂
好产品性能马唐
0902学习思考笔记：一款好产品必须拥有卓越的性能：好用、价格实惠、方便省事、减少麻烦。但，必须强调：功能本身并不能创造出市场。探索需求是一场非常复杂的博弈，需要同时从多个层面分别下手。好的关键，就在于实现了密度密度指的是：单品有效使用频次。人们是否对任何产品，都能产生同等的情感共鸣？密切关注新出现的行业趋势，并努力赶在前面。伟大的需求创造者，能够减少或消除产品与服务中的不便、昂贵、令人不快和厌烦
Python 数学建模——方差分析 Desire.984 Python 数学建模数学建模 python 概率论
文章目录前言单因素方差分析原理核心代码双因素方差分析数学模型分析依据典型代码前言方差分析也是概率论中非常重要的内容，有时数学建模需要用到。方差分析是干什么的？如果说假设检验用于分析两个总体之间的均值μ1,μ2\mu_1,\mu_2μ1,μ2是否存在显著的差别，那么方差分析就是分析两个以上总体之间的均值是否存在显著的差别。单因素方差分析用途：已知一个量AAA可能会影响XXX，AAA的不同取值可能
几何分布的期望和方差公式推导_算法数学基础-统计学最基础之均值、方差、协方差、矩... weixin_39848097 几何分布的期望和方差公式推导均值定理六个公式概率论方差公式
我们天天都可以接触很多随机现象，比如每天的天气不一样气温是我们最直接的感受，我们很难预测明天的精确问题，但是这些随机现象又体现出了一定的规律性。比如上海7月份平均35度左右，冬天的平均温度在5度左右。所以35、5这些数字体现了某种稳定性。所以除了前面几章中讲到的分布律和概率密度函数可以表征随机变量外，还可以用一组数字来表达随机变量的一般特性。这就是我们今天要讲到的随机变量的数字特征。通过对数字特征
数字图像处理（一系列对图像进行处理、分析和改进的技术）编程日记✧ 智能医疗计算机视觉图像处理人工智能
数字图像处理是指对图像进行一系列的数学和算法处理，以增强、分析或理解图像的内容。这些处理包括从基础的像素操作到复杂的高维变换和机器学习模型。1.图像降噪在图像获取和传输过程中，往往会引入噪声。降噪技术用于减少这些噪声，同时尽量保持图像的细节。常见方法有：均值滤波：将像素邻域内的像素值取平均值，从而平滑图像。这种方法简单但可能会模糊边缘。高斯滤波：使用高斯函数为权重对像素进行加权平均，可以更好地平滑
数模原理精解【8】叶绿先锋基础数学与应用数学人工智能统计分析概率论数学建模
文章目录协方差概述协方差的定义协方差的计算协方差的例子协方差矩阵协方差矩阵定义协方差矩阵的性质协方差矩阵的计算协方差矩阵的例子协方差矩阵的例题多元正态分布基础多元正态分布密度函数多元正态分布密度函数Julia实现详细解释定义计算例子例题参考文献协方差概述协方差是一种统计度量，用于描述两个变量之间的线性相关程度以及它们变化的趋势是否一致。具体来说，协方差计算的是两个变量同时偏离其均值的程度。如果两个
图像分割任务在设计模型损失函数时，高斯函数会被如何应用 Wils0nEdwards 计算机视觉人工智能深度学习
什么是高斯函数？Gaussianfunction，又称为高斯函数，是一种常见的数学函数，定义为一种特定形状的钟形曲线。其表达式通常为：f(x)=a⋅exp⁡(−(x−b)22c2)f(x)=a\cdot\exp\left(-\frac{(x-b)^2}{2c^2}\right)f(x)=a⋅exp(−2c2(x−b)2)其中：aaa决定了曲线的高度（峰值）。bbb是曲线中心位置的均值，决定曲线的对
点赋网络：淘宝店铺DSR评分具体含义分析点赋科技科技
淘宝店铺动态评分是指在淘宝网交易成功后，买家可以在本次交易中为卖家打分以下三项：宝贝匹配描述、卖家服务态度、物流服务质量。每个店铺评分是连续六个月内所有买家给出的评分的算术平均值（过去六个月内的数据每天计算）。只有使用支付宝的交易和交易成功才能计分，非支付宝的交易不能计分。下面点赋网络科技来为大家具体分析。淘宝店铺DSR评分卖家服务态度评分标准：1、5分——卖家服务很棒，很周到，完全超出预期；2、
Python 数学建模——假设检验 Desire.984 Python 数学建模 python 数学建模概率论
文章目录前言参数假设检验单个总体均值的假设检验σ\sigmaσ已知σ\sigmaσ未知两个总体均值的假设检验参考代码非参数假设检验分布拟合检验——卡方检验KS检验（Kolmogorov-Smirnov检验）Wilcoxon检验Wilcoxon符号秩检验Wilcoxon秩和检验前言假设检验是概率论中相当重要的内容。一般是先提出一个原假设H0H_0H0和一个对立的备择假设H1H_1H1，通过数学方
MATLAB数据建模Week10 WinterCruel matlab 算法人工智能
MATLAB数据建模Week10拿走不谢1、某校60名学生的一次考试成绩如下:937583939185848277767795948991888683968179977875676968848381756685709484838280787473767086769089716686738094797877635355(1)计算均值、标准差、极差、偏度、峰度，画出直方图；(2)检验分布的正态性；(3
悉尼大学COMP5216Assignment3课业解析 Artemis_666
悉尼大学COMP5216Assignment3课业解析悉尼大学COMP5216Assignment3课业解析题意：设计实现一个计步APP解析：要实现以下功能：1.能够让用户输入距离和时间计算步数和速度;2.通过捕获每个GPS记录点之间的距离和从开始到结束的时间，追踪用户在地图上的路线；3.记录跑步的信息，生成日志记录并计算州平均值；4.音乐播放器功能，允许用户播放、暂停本地歌曲；5.允许用户重置步
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，

K-均值聚类学习思考

你可能感兴趣的:(K-均值聚类学习思考)