走了又走

K-均值聚类算法

概述

聚类是一种无监督的学习，他将相似的对象归到同一个簇中，簇内的对象越相似，聚类的效果越好。聚类与分类的最大不同在于，分类的目标事先巳知，而聚类则不一样。因为其产生的结果与分类相同，而只是类别没有预先定义，聚类有时也被称为无监督分类
K均值聚类的算法：发现k个不同的簇，且每个簇的中心采用簇中所含值计算而成。
K-均值聚类的一般流程
(1)收集数据：使用任意方法。
⑵准备数据：需要数值型数据来计算距离，也可以将标称型数据映射为二值型数据再用
于距离计算。
(3)分析数据：使用任意方法。
(4)训练算法：不适用于无监督学习，即无监督学习没有训练过程。
(5)测试算法：应用聚类算法、观察结果。可以使用量化的误差指标如误差平方和（后面
会介绍）来评价算法的结果。
(6)使用算法：可以用于所希望的任何应用。通常情况下，簇质心可以代表整个簇的数据
来做出决策。

K-均值聚类算法

K-均值算法的工作流程是这样的。1、随机确定&个初始点作为质心。2、将数据集中的每个点分配到一个簇中，具体来讲，为每个点找距其最近的质心，并将其分配给该质心所对应的簇。3、每个簇的质心更新为该簇所有点的平均值。以下代码实现创建K均值聚类:

from numpy import *

def loadDataSet(fileName):
    dataMat =[]
    fr = open(fileName).readlines()
    for line in fr:
        curLine = line.strip().split('\t')
        # map 两个参数，第一个为函数，第二个为序列
        #  即rangeJ = float(max(dataSet[:, j]) - minJ)相减的是两个map类型的数据，经过查找，发现fltLine = map(float, curLine)
        # 在python2中返回的是一个list类型数据，而在python3中该语句返回的是一个map类型的数据。
        # fltLine = map(float,curLine)
        fltLine = list(map(float, curLine))
        dataMat.append(fltLine)
    return dataMat
#  计算欧式距离
def disEclud(vecA,vecB):
    return sqrt(sum(power(vecA - vecB,2)))

# 随机构造k个簇质心
def randCent(dataSet,k):
    n = shape(dataSet)[1]     #  列数
    centroids = mat(zeros((k,n)))   #  构建k行n列为0的矩阵，存放k个质心
    #  构建簇质心
    for j in range(n):
        minJ = min(dataSet[:,j])     #一列中最小数据
        rangeJ = float(max(dataSet[:,j])-minJ)      #  一列中最大值-最小值的差值
        centroids[:,j] = minJ + rangeJ * random.rand(k,1)
    return centroids
# dataMat = mat(loadDataSet('testSet.txt'))
# print(randCent(dataMat,2))

#  K均值聚类
def KMeans(dataSet,k,distMeans=disEclud,createCent=randCent):
    m = shape(dataMat)[0]   #  数据行数
    clusterAssment = mat(zeros((m,2)))    #   创建m行2列0矩阵，一列记录簇索引值，一列存储误差
    centroids = createCent(dataSet, k)    #随机构建k质心
    clusterChanged = True          #  簇分配改变标志，改变则继续迭代，否则退出while循环
    while clusterChanged:
        clusterChanged = False
        for i in range(m):         #  遍历数据所有行
            minDist = inf;  minIndex = -1  #  初始化最小值
            for j in range(k):    #  遍历所有质心
                distJI = distMeans(centroids[j,:],dataSet[i,:])   #  计算样本与质心
                if distJI < minDist:
                    minDist = distJI;  minIndex = j    #  找出样本距离最近的质心的索引
            if clusterAssment[i,0] != minIndex:      #  更新当前所属质心
                clusterChanged = True                 #  如果距离所属质心的距离不是最小，设置clusterChanged = True
            clusterAssment[i,:] = minIndex,minDist**2
        print(centroids)
        for cent in range(k):
            ptsInClust = dataSet[nonzero(clusterAssment[:,0].A==cent)[0]]   # 过滤来获得所给定簇的所有点
            centroids[cent,:] = mean(ptsInClust,axis=0)    #沿矩阵列方向进行均值计算
    return centroids,clusterAssment    #  返回所有类质心和点分配结果
dataMat = mat(loadDataSet('testSet.txt'))
centroids,clusterAssment = KMeans(dataMat,4)
print(centroids,'\n\n',clusterAssment)

返回K个质心坐标和簇分配结果，可以看到结果给出4个质心，经过4次迭代之后K-均值算法收敛。

二分K均值聚类算法
在^K均值聚类中簇的数目是一个用户预先定义的参数，那么用户如何才能知道乂的选择是否正确？如何才能知道生成的簇比较好呢？在包含簇分配结果的矩阵中保存着每个点的误差，即该点到簇质心的距离平方值。。K-均值算法收敛但聚类效果较差的原因是，K-均值算法收敛到了局部最小值，而非全局最小值。一种用于度量聚类效果的指标是SSE(SumofSquaredError,误差平方和）。SSE值越小表示数据点越接近于它们的质心，聚类效果也越好。因为对误差取了平方，因此更加重视那些远离中心的点。一种肯定可以降低SSE值的方法是增加簇的个数，但这违背了聚类的目标。聚类的目标是在保持族数目不变的情况下提高簇的质量。
可以对生成的簇进行后处理，一种方法是将具有最大SSE值的簇划分成两个簇。具体实现时可以将最大簇包含的点过滤出来并在这些点上运行尺-均值算法，其中的K为2。为克服K-均值算法收敛于局部最小值的问题，有人提出了另一个称为二分K均值（bisecting K-means)的算法K 该算法首先将所有点作为一个簇，然后将该簇一分为二。之后选择其中一个簇继续进行划分，选择哪一个簇进行划分取决于对"其划分是否可以最大程度降低SSE的值。上述基于SSE的划分过程不断重复，直到得到用户指定的簇数目为止。
二分K-均值算法的代码如下：

from numpy import *

def loadDataSet(fileName):
    dataMat =[]
    fr = open(fileName).readlines()
    for line in fr:
        curLine = line.strip().split('\t')
        # map 两个参数，第一个为函数，第二个为序列
        #  即rangeJ = float(max(dataSet[:, j]) - minJ)相减的是两个map类型的数据，经过查找，发现fltLine = map(float, curLine)
        # 在python2中返回的是一个list类型数据，而在python3中该语句返回的是一个map类型的数据。
        # fltLine = map(float,curLine)
        fltLine = list(map(float, curLine))
        dataMat.append(fltLine)
    return dataMat
#  计算欧式距离
def disEclud(vecA,vecB):
    return sqrt(sum(power(vecA - vecB,2)))

# 随机构造k个簇质心
def randCent(dataSet,k):
    n = shape(dataSet)[1]     #  列数
    centroids = mat(zeros((k,n)))   #  构建k行n列为0的矩阵，存放k个质心
    #  构建簇质心
    for j in range(n):
        minJ = min(dataSet[:,j])     #一列中最小数据
        rangeJ = float(max(dataSet[:,j])-minJ)      #  一列中最大值-最小值的差值
        centroids[:,j] = minJ + rangeJ * random.rand(k,1)
    return centroids
# dataMat = mat(loadDataSet('testSet.txt'))
# print(randCent(dataMat,2))

#  K均值聚类
def KMeans(dataSet,k,distMeans=disEclud,createCent=randCent):
    m = shape(dataSet)[0]   #  数据行数
    clusterAssment = mat(zeros((m,2)))    #   创建m行2列0矩阵，一列记录簇索引值，一列存储误差
    centroids = createCent(dataSet, k)    #随机构建k质心
    clusterChanged = True          #  簇分配改变标志，改变则继续迭代，否则退出while循环
    while clusterChanged:
        clusterChanged = False
        for i in range(m):         #  遍历数据所有行
            minDist = inf;  minIndex = -1  #  初始化最小值
            for j in range(k):    #  遍历所有质心
                distJI = distMeans(centroids[j,:],dataSet[i,:])   #  计算样本与质心
                if distJI < minDist:
                    minDist = distJI;  minIndex = j    #  找出样本距离最近的质心的索引
            if clusterAssment[i,0] != minIndex:      #  更新当前所属质心
                clusterChanged = True                 #  如果距离所属质心的距离不是最小，设置clusterChanged = True
                clusterAssment[i,:] = minIndex,minDist**2
        print(centroids)
        for cent in range(k):
            ptsInClust = dataSet[nonzero(clusterAssment[:,0].A==cent)[0]]   # 过滤来获得所给定簇的所有点
            centroids[cent,:] = mean(ptsInClust,axis=0)    #沿矩阵列方向进行均值计算
    return centroids,clusterAssment    #  返回所有类质心和点分配结果

#  二分K-均值聚类算法
def biKmeans(dataSet,K,distMeans=disEclud):
    m = shape(dataSet)[0]
    clusterAssment = mat(zeros((m,2)))
    centroid0 = mean(dataSet,axis=0).tolist()[0]
    centList = [centroid0]
    for j in range(m):
        clusterAssment[j,1] = distMeans(mat(centroid0),dataSet[j,:])**2
    while (len(centList) < K):
        lowestSSE = inf    #  初始化最小SSE为正无穷大
        for i in range(len(centList)):
            pstInCurrCluster = dataSet[nonzero(clusterAssment[:, 0].A == i)[0], :]    #  取出每个簇的数据集
            centroidMat,splitClustAss = KMeans(pstInCurrCluster,2,distMeans)   #  将一个簇划分2个簇，返回各个簇质心和簇分配结果

            sseSplit = sum(splitClustAss[:, 1])  # 簇的误差值
            sseNotSplit = sum(clusterAssment[nonzero(clusterAssment[:,0].A !=i)[0],:])   # 剩余数据集的误差
            #print("sseSplit,and notSplit:",sseSplit,sseNotSplit)
            if (sseSplit + sseNotSplit) < lowestSSE:
                bestCentToSplit = i           #   要分割的簇质心索引
                bestNewCents = centroidMat    #  确定新的簇质心
                bestClustAss = splitClustAss.copy()
                lowestSSE = sseSplit + sseNotSplit    #  划分误差和剩余数据集的误差之和
        #  更新簇的分配结果
        # 将需要分割的聚类中心下的点进行1划分
        # 新增的聚类中心编号为len(centList)
        bestClustAss[nonzero(bestClustAss[:,0].A==1)[0],0] = len(centList)
        bestClustAss[nonzero(bestClustAss[:,0].A==0)[0],0] = bestCentToSplit
        #print("the bestCentTosplit is:" ,bestNewCents)
        #print("the len of bestClustAss is:",len(bestClustAss))
        # 更新被分割的聚类中心的坐标
        centList[bestCentToSplit] = bestNewCents[0,:]
        # 增加聚类中心
        centList.append(bestNewCents[1,:])
        clusterAssment[nonzero(clusterAssment[:,0].A == bestCentToSplit)[0],:] = bestClustAss
    return centList,clusterAssment

dataMat3 = mat(loadDataSet('testSet2.txt'))
centList,clusterAssment = biKmeans(dataMat3,3)
print(centList,'\n\n',clusterAssment)

返回质心和质心分配结果：

对地理坐标进行聚类

现在我们有一个包含格式化地理坐标的列表，接下来可以对这些俱乐部进行聚类。这个例子中要聚类的俱乐部给出的信息为经度和维度，但这些信息对于距离计算还不够。在北极附近每走几米的经度变化可能达到数10度；而在赤道附近走相同的距离，带来的经度变化可能只是零点几。可以使用球面余弦定理来计算两个经纬度之间的距离<

from numpy import *

def loadDataSet(fileName):
    dataMat =[]
    fr = open(fileName).readlines()
    for line in fr:
        curLine = line.strip().split('\t')
        # map 两个参数，第一个为函数，第二个为序列
        #  即rangeJ = float(max(dataSet[:, j]) - minJ)相减的是两个map类型的数据，经过查找，发现fltLine = map(float, curLine)
        # 在python2中返回的是一个list类型数据，而在python3中该语句返回的是一个map类型的数据。
        # fltLine = map(float,curLine)
        fltLine = list(map(float, curLine))
        dataMat.append(fltLine)
    return dataMat
#  计算欧式距离
def disEclud(vecA,vecB):
    return sqrt(sum(power(vecA - vecB,2)))

# 随机构造k个簇质心
def randCent(dataSet,k):
    n = shape(dataSet)[1]     #  列数
    centroids = mat(zeros((k,n)))   #  构建k行n列为0的矩阵，存放k个质心
    #  构建簇质心
    for j in range(n):
        minJ = min(dataSet[:,j])     #一列中最小数据
        rangeJ = float(max(dataSet[:,j])-minJ)      #  一列中最大值-最小值的差值
        centroids[:,j] = minJ + rangeJ * random.rand(k,1)
    return centroids
# dataMat = mat(loadDataSet('testSet.txt'))
# print(randCent(dataMat,2))

#  K均值聚类
def KMeans(dataSet,k,distMeans=disEclud,createCent=randCent):
    m = shape(dataSet)[0]   #  数据行数
    clusterAssment = mat(zeros((m,2)))    #   创建m行2列0矩阵，一列记录簇索引值，一列存储误差
    centroids = createCent(dataSet, k)    #随机构建k质心
    clusterChanged = True          #  簇分配改变标志，改变则继续迭代，否则退出while循环
    while clusterChanged:
        clusterChanged = False
        for i in range(m):         #  遍历数据所有行
            minDist = inf;  minIndex = -1  #  初始化最小值
            for j in range(k):    #  遍历所有质心
                distJI = distMeans(centroids[j,:],dataSet[i,:])   #  计算样本与质心
                if distJI < minDist:
                    minDist = distJI;  minIndex = j    #  找出样本距离最近的质心的索引
            if clusterAssment[i,0] != minIndex:      #  更新当前所属质心
                clusterChanged = True                 #  如果距离所属质心的距离不是最小，设置clusterChanged = True
                clusterAssment[i,:] = minIndex,minDist**2
        # print(centroids)
        for cent in range(k):
            ptsInClust = dataSet[nonzero(clusterAssment[:,0].A==cent)[0]]   # 过滤来获得所给定簇的所有点
            centroids[cent,:] = mean(ptsInClust,axis=0)    #沿矩阵列方向进行均值计算
    return centroids,clusterAssment    #  返回所有类质心和点分配结果
#  二分K-均值聚类算法
def biKmeans(dataSet,K,distMeans=disEclud):
    m = shape(dataSet)[0]
    clusterAssment = mat(zeros((m,2)))
    centroid0 = mean(dataSet,axis=0).tolist()[0]
    centList = [centroid0]
    for j in range(m):
        clusterAssment[j,1] = distMeans(mat(centroid0),dataSet[j,:])**2
    while (len(centList) < K):
        lowestSSE = inf    #  初始化最小SSE为正无穷大
        for i in range(len(centList)):
            pstInCurrCluster = dataSet[nonzero(clusterAssment[:, 0].A == i)[0], :]    #  取出每个簇的数据集
            centroidMat,splitClustAss = KMeans(pstInCurrCluster,2,distMeans)   #  将一个簇划分2个簇，返回各个簇质心和簇分配结果

            sseSplit = sum(splitClustAss[:, 1])  # 簇的误差值
            sseNotSplit = sum(clusterAssment[nonzero(clusterAssment[:,0].A !=i)[0],:])   # 剩余数据集的误差
            #print("sseSplit,and notSplit:",sseSplit,sseNotSplit)
            if (sseSplit + sseNotSplit) < lowestSSE:
                bestCentToSplit = i           #   要分割的簇质心索引
                bestNewCents = centroidMat    #  确定新的簇质心
                bestClustAss = splitClustAss.copy()
                lowestSSE = sseSplit + sseNotSplit    #  划分误差和剩余数据集的误差之和
        #  更新簇的分配结果
        # 将需要分割的聚类中心下的点进行1划分
        # 新增的聚类中心编号为len(centList)
        bestClustAss[nonzero(bestClustAss[:,0].A==1)[0],0] = len(centList)
        bestClustAss[nonzero(bestClustAss[:,0].A==0)[0],0] = bestCentToSplit
        #print("the bestCentTosplit is:" ,bestNewCents)
        #print("the len of bestClustAss is:",len(bestClustAss))
        # 更新被分割的聚类中心的坐标
        centList[bestCentToSplit] = bestNewCents[0,:].tolist()[0]
        # 增加聚类中心
        centList.append(bestNewCents[1,:].tolist()[0] )
        clusterAssment[nonzero(clusterAssment[:,0].A == bestCentToSplit)[0],:] = bestClustAss
    return mat(centList),clusterAssment

# dataMat3 = mat(loadDataSet('testSet2.txt'))
# centList,clusterAssment = biKmeans(dataMat3,3)
# print(centList,'\n\n',clusterAssment)

"""
函数distSLC()返回地球表面两点间的距离，单位是英里。给定两个点的经纬度，可以使用
球面余弦定理来计算两点的距离。这里的纬度和经度用角度作为单位，但是sin()以及cos()以
弧度为输入。可以将角度除以180然后再乘以圆周率pi转换为弧度。导入NumPy的时候就会导
入pi
"""
def distSLC(vecA, vecB):#Spherical Law of Cosines
    a = sin(vecA[0,1]*pi/180) * sin(vecB[0,1]*pi/180)
    b = cos(vecA[0,1]*pi/180) * cos(vecB[0,1]*pi/180) * \
                      cos(pi * (vecB[0,0]-vecA[0,0]) /180)
    return arccos(a + b)*6371.0 #pi is imported with numpy

import matplotlib
import matplotlib.pyplot as plt
def clusterClubs(numClust=5):#参数：希望得到的簇数目
    datList = []
    for line in open('places.txt').readlines():#获取地图数据
        lineArr = line.split('\t')
        datList.append([float(lineArr[4]), float(lineArr[3])])#逐个获取第四列和第五列的经纬度信息
    datMat = mat(datList)
    myCentroids, clustAssing = biKmeans(datMat, numClust, distMeans=distSLC)
    #draw
    fig = plt.figure()
    rect=[0.1,0.1,0.8,0.8]#创建矩形
    #创建不同标记图案
    scatterMarkers=['s', 'o', '^', '8', 'p', \
                    'd', 'v', 'h', '>', '<']
    axprops = dict(xticks=[], yticks=[])
    ax0=fig.add_axes(rect, label='ax0', **axprops)
    imgP = plt.imread('Portland.png')#导入地图
    ax0.imshow(imgP)
    ax1=fig.add_axes(rect, label='ax1', frameon=False)
    for i in range(numClust):
        ptsInCurrCluster = datMat[nonzero(clustAssing[:,0].A==i)[0],:]
        markerStyle = scatterMarkers[i % len(scatterMarkers)]
        ax1.scatter(ptsInCurrCluster[:,0].flatten().A[0], ptsInCurrCluster[:,1].flatten().A[0], marker=markerStyle, s=90)
    ax1.scatter(myCentroids[:,0].flatten().A[0], myCentroids[:,1].flatten().A[0], marker='+', s=300)
    plt.show()

clusterClubs()

Z-score异常值检测法吴闹闹(●'◡'●) 人工智能算法
Z-score异常值检测法是一种基于统计学原理的异常值检测技术。它通过计算数据点与数据集平均值的标准化距离来判断该数据点是否为异常值。一、原理Z-score异常值检测法的原理是基于标准正态分布。它通过计算每个数据点与数据集平均值的差距，并将其转换为标准差的倍数，以此来评估数据点的异常程度。在标准正态分布中，大约68%的数据点位于平均值的一个标准差之内，95%的数据点位于两个标准差之内，而99.7%
数据分析-59-SPC统计过程控制XR图和XS图和IMR图和CPK分析图皮皮冰燃数据分析数据分析 SPC
文章目录1均值极差图XR1.1适用场景1.2构造步骤1.3代码示例2均值标准差图XS2.1适用场景2.2构造步骤2.3代码示例3IMR图3.1适用场景3.2构造步骤3.3代码示例4CPK分析图4.1CPK计算4.2创建步骤4.3代码示例XR控制图：子样本数量较小。XS控制图：子样本数量较大。IMR图。CPK分析图。1均值极差图XR均值-极差图（X̄-R图，Mean-RangeChart）是统计过程
OpenCV CUDA模块设备层-----高效地计算两个 uint 类型值的带权重平均值村北头的码农 OpenCV opencv 人工智能计算机视觉
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述OpenCV的CUDA模块（cudev）中的一个设备端内联函数，用于高效地计算两个uint类型值的带权重平均值。该函数返回两个无符号整数a和b的加权平均值，权重为：return(a*3+b)/4;函数原型__device____forceinline__uintc
PyTorch笔记3----------统计学相关函数 HuashuiMu花水木 PyTorch笔记 pytorch 笔记人工智能
1.基础函数importtorcha=torch.rand(2,2)print("a:\n",a)print('########################')print("平均值:\n",torch.mean(a,dim=0))print("总和:\n",torch.sum(a,dim=0))print("所有元素的积:\n",torch.prod(a,dim=0))print("最大值:\
样本量计算：配对样本定量资料——平均值法
今天介绍的是配对样本定量资料采用平均值法的样本量计算。先来看一下案例。一、案例为明确某种新的训练计划是否能显著提高运动员的100米短跑成绩，欲招募一批志愿者，分别记录运动员在进行新训练计划前后的100米短跑成绩（秒）。据早期研究，两配对样本差值的标准差为5秒，若接受新的训练计划前后的100米短跑成绩平均值差为3秒，问至少需要招募多少志愿者？运动员的100米短跑成绩属于连续性数据。经正态性检验，成绩
【机器学习&深度学习】多分类评估策略一叶千舟深度学习【理论】深度学习【应用必备常识】大数据人工智能
目录前言一、多分类3大策略✅宏平均（MacroAverage）✅加权平均（WeightedAverage）✅微平均（MicroAverage）二、类比理解2.1宏平均（MacroAverage）2.1.1计算方式2.1.2适合场景2.1.3宏平均不适用的场景2.1.4宏平均一般用在哪些指标上？2.1.5怎么看macroavg指标？2.1.6宏平均值低说明了什么？2.1.7从宏平均指标中定位模型短板
OpenCV教程——图像模糊。均值模糊，高斯模糊，中值模糊，双边模糊，高斯分布
1.图像模糊图像模糊是图像处理中最简单和常用的操作之一。⚠️使用该操作的原因之一是为了给图像预处理时降低噪声。图像模糊操作背后是数学的卷积计算。卷积操作的原理：常用的图像模糊的方法：均值模糊高斯模糊中值模糊双边模糊这四种模糊方式有时也被称为：均值滤波、高斯滤波、中值滤波和双边滤波。因为模糊属于一种滤波操作，具体关系可参照下图：其中，均值滤波、高斯滤波和中值滤波属于线性滤波；而双边滤波属于非线性滤波
机器学习宝典——第6章爱看烟花的码农机器学习人工智能
第6章：聚类算法(Clustering)你好，同学！欢迎来到无监督学习的世界。与监督学习不同，这里的我们没有“标准答案”（标签），我们的目标是在数据中发现隐藏的、内在的结构。聚类算法就是实现这一目标的核心工具，它试图将数据集中的样本划分为若干个不相交的子集，我们称之为“簇”(cluster)。本章我们将深入探讨三种最具代表性的聚类算法：K-均值(K-Means)、层次聚类(Hierarchical
数据分析全流程：从收集到可视化的高效实战晨曦543210 python
1.数据收集来源：数据库、API、传感器、日志文件、社交媒体、问卷调查等。工具：Python（requests、Scrapy）、SQL、Excel、Kafka（实时流数据）。2.数据清洗处理缺失、重复、错误或不一致的数据：缺失值：删除、填充（均值/中位数/众数）、插值或预测。异常值：使用箱线图、Z-score或IQR方法检测并处理。格式标准化：统一日期、单位、文本格式（如大小写、去除空格）。去重：
CHAIN（GAN的一种）训练自己的数据集这张生成的图像能检测吗优质GAN模型训练自己的数据集生成对抗网络人工智能神经网络深度学习 pytorch 算法
简介简介：作者针对数据有限场景下GANs训练中的判别器过拟合问题，提出了CHAIN（Lipschitz连续性约束归一化）方法。作者首先从理论角度分析了GAN泛化误差，发现减少判别器权重梯度范数对提升泛化能力至关重要。然后深入研究了批归一化（BN）在GAN判别器中应用困难的根本原因，通过理论分析证明BN的中心化和缩放步骤会导致梯度爆炸。基于这些发现，CHAIN设计了两个核心模块：用零均值正则化替代中
LeetCode643. 子数组最大平均数 I
题目分析本题要求找出一个长度为k的连续子数组，使其平均值最大。由于平均值由子数组和决定，问题转化为寻找最大子数组和（再除以k）。解题思路滑动窗口技巧：先计算第一个窗口（0到k-1）的元素和。将窗口向右滑动（每次移动一位）：减去窗口左侧离开的元素加上窗口右侧新增的元素在滑动过程中记录窗口和的最大值。数学优化：平均值=窗口和/k最大化平均值⇨最大化窗口和最终结果=最大窗口和÷k（注意转换为double
【信号去噪】基于NLM时间序列心电信号去噪附matlab代码天天Matlab科研工作室信号处理 Matlab各类代码 matlab 开发语言 fpga开发
1简介作为一种信号预处理手段,信号去噪在众多信号处理应用中发挥着重要的作用.到目前为止,信号去噪问题被大量研究,并取得了许多重要成果,涌现出了包括非局部均值(NLM)去噪算法在内的一批优秀的去噪方法.值得一提的是,相比于传统的局部去噪算法,非局部均值去噪算法有着更好的去噪性能和更好的信号细节保留能力.2部分代码function[denoisedSig,debug]=NLM_1dDarbon(sig
暑假算法日记第一天
目标：刷完灵神专题训练算法题单阶段目标：【算法题单】滑动窗口与双指针LeetCode题目:1456.定长子串中元音的最大数目643.子数组最大平均数I1343.大小为K且平均值大于等于阈值的子数组数目2090.半径为k的子数组平均值2379.得到K个黑块的最少涂色次数2841.几乎唯一子数组的最大和其他:今日总结1456.定长子串中元音的最大数目跳转:1456.定长子串中元音的最大数目学习:灵神：
关于信号降噪的一些方法我不是哆啦A梦故障诊断人工智能信号处理机器学习算法
在通信系统中传输信号或在接收信号的同时，一些不需要的信号被引入到通信中，使接收机信号变差，从而影响了通信质量，一般称这些干扰称为噪声。从而，可以理解噪声是一些没有模式的信号，其特点是没有恒定的频率或振幅，且随机性强，不能完全消除。常用的信号降噪方法有以下这些：（1）滑动平均法（movingaverage）也叫做移动平均法、移动平均值滤波法等等，是一种时间域思想上的信号光滑方法。算法思路为：将该点附
数字图像处理第二次实验愚戏师数字图像处理 python 图像处理
实验三技术点分析根据实验要求，需要实现以下图像空间域滤波技术：噪声生成：高斯噪声椒盐噪声空间域滤波：均值滤波（3×3,5×5,7×7）中值滤波（3×3,5×5,7×7）最大值滤波最小值滤波图像处理流程：读取原始图像添加噪声（高斯/椒盐）应用各种滤波器可视化对比结果完整示例代码importcv2importnumpyasnpimportmatplotlib.pyplotaspltfrommatplo
KNN（K-近邻算法)(上)--day05 扫把星133 机器学习 python 人工智能近邻算法算法
KNN（K-NearestNeighbors，K近邻算法）是一种用于分类和回归的非参数化方法。其基本思想是通过找出与新样本最接近的已标记数据中的K个最近邻居来进行预测或分类。注释：非参数化方法是指在统计学和机器学习中，不对数据分布做出严格假设（这些假设通常包括
查询时候，用case when生成新列，可在end 后为该列取别名 m0_46093829 学习 mysql mysql 数据库
查询时候，用casewhen生成新列，可在end后为该列取别名写一段SQL来找到表中每个国家在2019年11月的天气类型。天气类型的定义如下：当weather_state的平均值小于或等于15返回Cold，当weather_state的平均值大于或等于25返回Hot，否则返回Warm。你可以以任意顺序返回你的查询结果。查询结果格式如下所示：来源：力扣（LeetCode）链接：https://lee
Excel 如何进行多条件查找或求和？冰糖心书房 Excel excel
处理“多条件”的统计和查找是Excel数据分析中非常高频的场景。Excel提供了一系列强大的“IFS”家族函数来专门解决这类问题。这些函数的设计思想非常相似，一旦你学会一个，其他的就能触类旁通。SUMIFS:多条件求和COUNTIFS:多条件计数AVERAGEIFS:多条件求平均值此外，对于多条件查找，最强大的工具依然是XLOOKUP。一、多条件求和：SUMIFSSUMIFS函数可能是这个系列里最
序列求平均
题目描述有一个长度为n(nintmain(){intn,m;inti,j,sum;intavg;//序列为2468101214...while(scanf("%d%d",&n,&m)!=EOF){//输入n(序列总长度)，m:每m个数取一个平均值if(n>=1&&n=1){//判断n,m范围,注意：题目没说m
注意力机制还有招？混合注意力好发不卷
2025深度学习发论文&模型涨点之——混合注意力混合注意力是一种融合多种不同类型注意力机制的技术，旨在提升模型对数据中关键特征的识别与处理能力。以SENet为例，它通过对特征通道进行全局池化操作，随后利用两个全连接层对通道的重要性进行建模，从而实现通道级的注意力分配。而CBAM则先应用空间注意力，通过利用特征图的通道最大值和平均值来突出重要区域，之后再进行通道注意力操作，借助全连接层来强化特定通道
AD7606过采样模式零度随想嵌入式硬件 fpga开发
AD7606的过采样模式（OversamplingMode）是其重要特性之一，它可提升信噪比（SNR）、有效分辨率、降低系统噪声。✅一、什么是过采样（Oversampling）过采样是指ADC内部将每个通道采样多次，然后进行数字平均滤波，以减少随机噪声、提升信号质量。在AD7606中，过采样是由芯片内部硬件自动完成的：每次外部采样触发→芯片在内部进行多次转换→平均值输出对外仍只输出1个16位数据→
【SNN脉冲神经网络2】AdEx神经网络软件仿真 XvnNing SNN脉冲神经网络神经网络人工智能深度学习
本文使用AdEx神经元搭建一个完整的神经网络来进行生物神经脉冲现象的仿真。主要的目的是为了验证数学原理，因此只调用的numpy函数包。对应的代码例程如下：1.导入所需的Python函数库importnumpyasnpimportmatplotlib.pyplotaspltimportreimportos2.定义均值函数以及一些常用函数defbin_data(data):try:returnnp.m
《dlib库中的聚类》算法详解：从原理到实践 A小庞算法算法聚类数据挖掘机器学习 c++
一、dlib库与聚类算法的关联1.1dlib库的核心功能dlib是一个基于C++的机器学习和计算机视觉工具库，其聚类算法模块提供了多种高效的无监督学习工具。聚类算法在dlib中主要用于：数据分组：将相似的数据点划分为同一簇。特征分析：通过聚类结果发现数据潜在的结构。降维辅助：结合聚类结果进行特征选择或数据压缩。dlib支持的经典聚类算法包括K-Means和ChineseWhispers，适用于图像
「日拱一码」010 Python常用库——statistics 胖达不服输「日拱一码」python python常用库 statistics
目录平均值相关mean()：计算算术平均值，即所有数值相加后除以数值的个数fmean()：与mean()类似，但使用浮点运算，速度更快，精度更高geometric_mean()：计算几何平均值，即所有数值相乘后开n次方根（n为数值的个数）harmonic_mean()：计算调和平均值，即数值个数除以每个数值的倒数之和median()：计算中位数，即将一组数值按大小顺序排列后位于中间的数。如果数值个
计算机视觉 OpenCV Android | Mat像素操作（图像像素的读写、均值方差、算术、逻辑等运算、权重叠加、归一化等操作）... 凌川江雪
本文目录1.像素读写2.图像通道与均值方差计算3.算术操作与调整图像的亮度和对比度4.基于权重的图像叠加5.Mat的其他各种像素操作1.像素读写Mat作为图像容器，其数据部分存储了图像的像素数据，我们可以通过相关的API来获取图像数据部分；在获取图像数据的时候，知道Mat的类型与通道数目关重要，根据Mat的类型与通道数目，开辟适当大小的内存空间，然后通过get方法就可以循环实现每个像素点值的读取、
Excel 数据合并助手SheetDataMerge智能识别同类数据，销售报表处理提升效率小龙软件库电脑开源软件 windows
各位Excel小能手们！今天给大家介绍个超厉害的玩意儿——SheetDataMerge，这可是专注Excel数据处理的实用工具！它就像个数据小管家，核心功能就是智能合并工作表里的同类数据。软件下载地址安装包它有多牛呢？能自动识别表格里关键字段相同的行或者列，对数值型数据进行求和、求平均值这些数学运算，对文本型数据还能智能拼接。举个例子，处理销售数据的时候，如果好多行记录里“产品编号”和“日期”字段
day48 m0_62568655 python训练营 python
ai举例子通俗易懂理解@浙大疏锦行下面用例子帮你理解这几个知识点：1.随机张量的生成：torch.randn函数torch.randn会生成符合标准正态分布（均值为0，标准差为1）的随机数张量，形状由输入的参数决定。•比如torch.randn(2,3)，会生成一个2行3列的张量，里面的数是随机的，可能像这样：tensor([[0.52,-1.23,0.89],[-0.34,1.56,-0.71]
【python数据分析】数据建模之Kmeans聚类斑点鱼 SpotFish python 数据建模聚类 python 数据分析
K-means聚类：最常用的机器学习聚类算法，且为典型的基于距离的聚类算法。K均值：基于原型的、划分的距离技术，它试图发现用户指定个数(K)的簇以欧式距离作为相似度测度Kmeans聚类案例分析：make_blobs聚类数据生成器#导入模块from sklearn.cluster import KMeansfromsklearn.datasetsimportmake_blobs#创建数据x,y_tr
Python时域信号特征提取技术要点路怜涯
本文还有配套的精品资源，点击获取简介：在机器学习领域，时域信号特征提取是数据预处理的关键环节，特别是对于时间序列数据。时域信号特征包括信号的基本特性量，如平均值、中值、峰值、谷值、峰谷差、方差、标准差、极值点、峭度与峰度、自相关函数、滑动窗口统计、傅立叶变换和小波分析等。使用Python中的NumPy、Pandas和SciPy库可以帮助我们计算这些特征，并为机器学习模型训练准备数据。本文将介绍如何
推荐系统的视频特征-视频关键帧特征提取与向量生成
总体流程概览视频文件(.mp4)↓关键帧抽取（FFmpeg/SceneDetect）↓帧图像（.jpg）↓图像模型提取特征（CLIP/CNN/ViT）↓多帧聚合成视频向量（均值池化等）↓向量库/推荐系统模型特征提取推荐：使用OpenAI的CLIP模型CLIP（ContrastiveLanguage-ImagePretraining）适合推荐系统做跨模态建模，对视频封面帧或场景帧提取效果非常好。✅1
C/C++Win32编程基础详解视频下载择善Zach 编程 C++Win32
课题视频：C/C++Win32编程基础详解视频知识：win32窗口的创建 windows事件机制主讲：择善Uncle老师学习交流群：386620625 验证码：625 --
Guava Cache使用笔记 bylijinnan java guava cache
1.Guava Cache的get/getIfPresent方法当参数为null时会抛空指针异常我刚开始使用时还以为Guava Cache跟HashMap一样，get(null)返回null。实际上Guava整体设计思想就是拒绝null的，很多地方都会执行com.google.common.base.Preconditions.checkNotNull的检查。 2.Guava
解决ora-01652无法通过128（在temp表空间中） 0624chenhong oracle
解决ora-01652无法通过128（在temp表空间中）扩展temp段的过程一个sql语句后，大约花了10分钟，好不容易有一个结果，但是报了一个ora-01652错误，查阅了oracle的错误代码说明：意思是指temp表空间无法自动扩展temp段。这种问题一般有两种原因：一是临时表空间空间太小，二是不能自动扩展。分析过程：既然是temp表空间有问题，那当
Struct在jsp标签不懂事的小屁孩 struct
非UI标签介绍：控制类标签： 1：程序流程控制标签 if elseif else <s:if test="isUsed"> <span class="label label-success">True</span> </
按对象属性排序换个号韩国红果果 JavaScript 对象排序
利用JavaScript进行对象排序，根据用户的年龄排序展示 <script> var bob={ name;bob, age:30 } var peter={ name;peter, age:30 } var amy={ name;amy, age:24 } var mike={ name;mike, age:29 } var john={
大数据分析让个性化的客户体验不再遥远蓝儿唯美数据分析
顾客通过多种渠道制造大量数据，企业则热衷于利用这些信息来实现更为个性化的体验。分析公司Gartner表示，高级分析会成为客户服务的关键，但是大数据分析的采用目前仅局限于不到一成的企业。挑战在于企业还在努力适应结构化数据，疲于根据自身的客户关系管理（CRM）系统部署有效的分析框架，以及集成不同的内外部信息源。然而，面对顾客通过数字技术参与而产生的快速变化的信息，企业需要及时作出反应。要想实
java笔记4 a-john java
操作符 1，使用java操作符操作符接受一个或多个参数，并生成一个新值。参数的形式与普通的方法调用不用，但是效果是相同的。加号和一元的正号（+）、减号和一元的负号（-）、乘号（*）、除号（/）以及赋值号（=）的用法与其他编程语言类似。操作符作用于操作数，生成一个新值。另外，有些操作符可能会改变操作数自身的
从裸机编程到嵌入式Linux编程思想的转变------分而治之：驱动和应用程序 aijuans 嵌入式学习
笔者学习嵌入式Linux也有一段时间了，很奇怪的是很多书讲驱动编程方面的知识，也有很多书将ARM9方面的知识，但是从以前51形式的（对寄存器直接操作，初始化芯片的功能模块）编程方法，和思维模式，变换为基于Linux操作系统编程，讲这个思想转变的书几乎没有，让初学者走了很多弯路，撞了很多难墙。笔者因此写上自己的学习心得，希望能给和我一样转变
在springmvc中解决FastJson循环引用的问题 asialee 循环引用 fastjson
我们先来看一个例子： package com.elong.bms; import java.io.OutputStream; import java.util.HashMap; import java.util.Map; import co
ArrayAdapter和SimpleAdapter技术总结百合不是茶 android SimpleAdapter ArrayAdapter 高级组件基础
ArrayAdapter比较简单，但它只能用于显示文字。而SimpleAdapter则有很强的扩展性，可以自定义出各种效果 ArrayAdapter;的数据可以是数组或者是队列 // 获得下拉框对象 AutoCompleteTextView textview = (AutoCompleteTextView) this
九封信 bijian1013 人生励志
有时候，莫名的心情不好，不想和任何人说话，只想一个人静静的发呆。有时候，想一个人躲起来脆弱，不愿别人看到自己的伤口。有时候，走过熟悉的街角，看到熟悉的背影，突然想起一个人的脸。有时候，发现自己一夜之间就长大了。 2014，写给人
Linux下安装MySQL Web 管理工具phpMyAdmin sunjing PHP Install phpMyAdmin
PHP http://php.net/ phpMyAdmin http://www.phpmyadmin.net Error compiling PHP on CentOS x64 一、安装Apache 请参阅http://billben.iteye.com/admin/blogs/1985244 二、安装依赖包 sudo yum install gd
分布式系统理论 bit1129 分布式
FLP One famous theory in distributed computing, known as FLP after the authors Fischer, Lynch, and Patterson, proved that in a distributed system with asynchronous communication and process crashes,
ssh2整合(spring+struts2+hibernate)-附源码白糖_ eclipse spring Hibernate mysql 项目管理
最近抽空又整理了一套ssh2框架，主要使用的技术如下： spring做容器，管理了三层(dao,service,actioin)的对象 struts2实现与页面交互(MVC)，自己做了一个异常拦截器，能拦截Action层抛出的异常 hibernate与数据库交互 BoneCp数据库连接池，据说比其它数据库连接池快20倍，仅仅是据说 MySql数据库项目用eclipse
treetable bug记录 braveCS table
// 插入子节点删除再插入时不能正常显示。修改： //不知改后有没有错，先做个备忘 Tree.prototype.removeNode = function(node) { // Recursively remove all descendants of +node+ this.unloadBranch(node); // Remove
编程之美-电话号码对应英语单词 bylijinnan java 算法编程之美
import java.util.Arrays; public class NumberToWord { /** * 编程之美电话号码对应英语单词 * 题目： * 手机上的拨号盘，每个数字都对应一些字母，比如2对应ABC，3对应DEF.........，8对应TUV，9对应WXYZ， * 要求对一段数字，输出其代表的所有可能的字母组合
jquery ajax读书笔记 chengxuyuancsdn jQuery ajax
1、jsp页面 <%@ page language="java" import="java.util.*" pageEncoding="GBK"%> <% String path = request.getContextPath(); String basePath = request.getScheme()
JWFD工作流拓扑结构解析伪码描述算法 comsci 数据结构算法工作活动 J#
对工作流拓扑结构解析感兴趣的朋友可以下载附件，或者下载JWFD的全部代码进行分析 /* 流程图拓扑结构解析伪码描述算法 public java.util.ArrayList DFS(String graphid, String stepid, int j)
oracle I/O 从属进程 daizj oracle
I/O 从属进程　　I/O从属进程用于为不支持异步I/O的系统或设备模拟异步I/O.例如，磁带设备(相当慢)就不支持异步I/O.通过使用I/O 从属进程，可以让磁带机模仿通常只为磁盘驱动器提供的功能。就好像支持真正的异步I/O 一样，写设备的进程(调用者)会收集大量数据，并交由写入器写出。数据成功地写出时，写入器(此时写入器是I/O 从属进程，而不是操作系统)会通知原来的调用者，调用者则会
高级排序:希尔排序 dieslrae 希尔排序
public void shellSort(int[] array){ int limit = 1; int temp; int index; while(limit <= array.length/3){ limit = limit * 3 + 1;
初二下学期难记忆单词 dcj3sjt126com english word
kitchen 厨房 cupboard 厨柜 salt 盐 sugar 糖 oil 油 fork 叉；餐叉 spoon 匙；调羹 chopsticks 筷子 cabbage 卷心菜；洋白菜 soup 汤 Italian 意大利的 Indian 印度的 workplace 工作场所 even 甚至；更 Italy 意大利 laugh 笑 m
Go语言使用MySQL数据库进行增删改查 dcj3sjt126com mysql
目前Internet上流行的网站构架方式是LAMP，其中的M即MySQL, 作为数据库，MySQL以免费、开源、使用方便为优势成为了很多Web开发的后端数据库存储引擎。MySQL驱动Go中支持MySQL的驱动目前比较多，有如下几种，有些是支持database/sql标准，而有些是采用了自己的实现接口,常用的有如下几种: http://code.google.c...o-mysql-dri
git命令 shuizhaosi888 git
---------------设置全局用户名： git config --global user.name "HanShuliang" //设置用户名 git config --global user.email "[email protected]" //设置邮箱 ---------------查看环境配置 git config --li
qemu-kvm 网络 nat模式 (四) haoningabc kvm qemu
qemu-ifup-NAT #!/bin/bash BRIDGE=virbr0 NETWORK=192.168.122.0 GATEWAY=192.168.122.1 NETMASK=255.255.255.0 DHCPRANGE=192.168.122.2,192.168.122.254 TFTPROOT= BOOTP= function check_bridge()
不要让未来的你，讨厌现在的自己 jingjing0907 生活奋斗工作梦想
故事one 　23岁，他大学毕业，放弃了父母安排的稳定工作，独闯京城，在家小公司混个小职位，工作还算顺手，月薪三千，混了混，混走了一年的光阴。　　　　24岁，有了女朋友，从二环12人的集体宿舍搬到香山民居，一间平房，二人世界，爱爱爱。偶然约三朋四友，打扑克搓麻将，日子快乐似神仙；　　　　25岁，出了几次差，调了两次岗，薪水涨了不过百，生猛狂飙的物价让现实血淋淋，无力为心爱银儿购件大牌
枚举类型详解一路欢笑一路走 enum 枚举详解 enumset enumMap
枚举类型详解一.Enum详解 1.1枚举类型的介绍 JDK1.5加入了一个全新的类型的”类”—枚举类型，为此JDK1.5引入了一个新的关键字enum,我们可以这样定义一个枚举类型。 Demo:一个最简单的枚举类 public enum ColorType { RED
第11章动画效果（上） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Eclipse中jsp、js文件编辑时，卡死现象解决汇总 ljf_home eclipse jsp卡死 js卡死
使用Eclipse编辑jsp、js文件时，经常出现卡死现象，在网上百度了N次，经过N次优化调整后，卡死现象逐步好转，具体那个方法起到作用，不太好讲。将所有用过的方法罗列如下： 1、取消验证 windows–>perferences–>validation 把除了manual 下面的全部点掉，build下只留 classpath dependency Valida
MySQL编程中的6个重要的实用技巧 tomcat_oracle mysql
每一行命令都是用分号(;)作为结束对于MySQL，第一件你必须牢记的是它的每一行命令都是用分号(;)作为结束的，但当一行MySQL被插入在PHP代码中时，最好把后面的分号省略掉，例如： mysql_query("INSERT INTO tablename(first_name,last_name)VALUES('$first_name',$last_name')");
zoj 3820 Building Fire Stations(二分+bfs) 阿尔萨斯 Build
题目链接：zoj 3820 Building Fire Stations 题目大意：给定一棵树，选取两个建立加油站，问说所有点距离加油站距离的最大值的最小值是多少，并且任意输出一种建立加油站的方式。解题思路：二分距离判断，判断函数的复杂度是o(n)，这样的复杂度应该是o(nlogn)，即使常数系数偏大，但是居然跑了4.5s，也是醉了。判断函数里面做了3次bfs，但是每次bfs节点最多

K-均值聚类算法

概述

K-均值聚类算法

对地理坐标进行聚类

你可能感兴趣的:(K-均值聚类算法)