fanstuck

K-means聚类算法一文详解+Python代码实例

前言

一、聚类分析

二、K-means原理

1.距离度量算法

欧几里得距离（欧氏距离）

曼哈顿距离

切比雪夫距离

2.K-means算法思想

三.K-means算法实现

step1:选取K值

1.手肘法

python代码：

2.轮廓系数法

python代码：

step2:计算初始化K点

step3:迭代计算重新划分

step4:可视化展现

四、K-means优缺点

优点：

缺点：

点关注，防走丢，如有纰漏之处，请留言指教，非常感谢

参阅：

前言

博主共参与了数十场数学建模，其中对于未给出标签的数据进行分析时一般第一个想到的就是聚类算法。聚类算法分析又称群分析，它是研究（样品或指标）分类问题的一种统计分析方法，同时也是数据挖掘的一个重要算法。聚类（Cluster）分析是由若干模式（Pattern）组成的，通常，模式是一个度量（Measurement）的向量，或者是多维空间中的一个点。聚类分析以相似性为基础，在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。

K-means均值聚类算法作为最经典也是最基础的无标签分类学习算法，根据不断的迭代优化衍生出许多十分好用的算法，例如K-mean++、K-MEDOIDS等。因此学习K-means的底层原理和计算方法是十分有必要。

本篇博客的愿景是希望我或者读者通过阅读这篇博客能够学会方法并能实际运用，而且能够记录到你的思想之中。希望读者看完能够提出错误或者看法，博主会长期维护博客做及时更新。

一、聚类分析

我们知道我们是使用聚类算法的目的就是从大量数据中将他们具有相关性的特征输入，然后通过算法返回标签类型。也就是说该算法的目的就是将具有相同特性的数据归纳为一类。当然我们的算法是贪心的，尽可能将所有相同类型的数据归为一类，本质还在站在分类的角度上，只不过没有标签需要我们进行运算得出。

那么既然是找到具有相同性质的数据，那么回到原始的方法，例如KNN算法，我们只需要去根据两个数据点的距离去判断他们是否属于一类，其实聚类的思想也类似，只不过我们选择圆心的点不再是判断数据类型的点，而是划分为一类标签的最大范围半径的点，类似画一个最大的圆：

二、K-means原理

既然前面我们谈到了聚类分析也就是根据彼此的相关性来划分聚类，那么他们的相关性又以什么来衡量呢？这点和KNN算法类似，这设计到了距离度量算法。

1.距离度量算法

在不同情况维度下，我们计算两点之间的距离也不同，不过我们在初中高中学的两点之间的距离计算公式，为欧式距离：

欧几里得距离（欧氏距离）

衡量多维空间中的两点间距离，也是最常用的距离度量方法。

曼哈顿距离

对于曼哈顿距离大家可能会比较陌生，这是种使用在几何度量空间的几何学用语，用以标明两个点在标准坐标系上的绝对轴距总和。

图中红线代表曼哈顿距离，绿色代表欧氏距离，也就是直线距离，而蓝色和黄色代表等价的曼哈顿距离。曼哈顿距离——两点在南北方向上的距离加上在东西方向上的距离，即：

对于一个具有正南正北、正东正西方向规则布局的城镇街道，从一点到达另一点的距离正是在南北方向上旅行的距离加上在东西方向上旅行的距离，因此，曼哈顿距离又称为出租车距离。曼哈顿距离不是距离不变量，当坐标轴变动时，点间的距离就会不同。

切比雪夫距离

相信大家对于距离的了解，了解多的知道除了欧式距离以外还有个曼哈顿距离，但是除去曼哈顿距离之外还有个切比雪夫距离。在数学中，切比雪夫距离或是L∞度量，是向量空间中的一种度量，二个点之间的距离定义是其各坐标数值差绝对值的最大值。

国际象棋棋盘上二个位置间的切比雪夫距离是指王要从一个位子移至另一个位子需要走的步数。由于王可以往斜前或斜后方向移动一格，因此可以较有效率的到达目的的格子。图是棋盘上所有位置距f6位置的切比雪夫距离。一维空间中，所有的Lp度量都是一样的，即为二座标差的绝对值。

平面上两点 $A(x_{1},y_{1}),B({x_{2},y_{2})$ 的切比雪夫距离为：

n维空间上的切比雪夫距离：

n 维空间则有两点 $A(x_{11},x_{12},...x_{1n}),B({x_{21},x_{22},x_{2n}})$

2.K-means算法思想

K-means聚类算法思想可以看它设计诞生的伪代码看出：

我们发现这是一种迭代求解的聚类分析算法，其步骤是，预将数据分为K组，则随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本，聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有（或最小数目）对象被重新分配给不同的聚类，没有（或最小数目）聚类中心再发生变化，误差平方和局部最小。

三.K-means算法实现

我们将算法步骤细化来分析：

step1:选取K值

k 的选择一般是按照实际需求进行决定，或在实现算法时直接给定 k 值。这是基于项目你想要聚类的个数来决定的，但是也有不确定的情况，我们可能需要去一个最优的K值来将数据很好的归类达到最大化区分类别，这时候就需要思考从数据角度出发，应该进行怎么样的计算能够得到最优的K。

1.手肘法

手肘法是最常用的确定K-means算法K值的方法，所用到的衡量标准是SSE（sum of the squared errors，误差平方和）。

SEE各个计算在K-means里含义如下图：

误差平方和又称残差平方和，根据n个观察值拟合适当的模型后，余下未能拟合部份( $e_{i}=y_{i}- \bar y$ )称为残差，其中y平均表示n个观察值的平均值，所有n个残差平方之和称误差平方和。

残差我在最小二乘法已经做了详细解释，想要了解的可以去看我这篇文章：

一文速学-最小二乘法曲线拟合算法详解+项目代码

在回归分析中通常用SSE表示，其大小用来表明函数拟合的好坏。将残差平方和除以自由度n-p-1(其中p为自变量个数)可以作为误差方差σ2的无偏估计，通常用来检验拟合的模型是否显著也用来寻找K值。

主要思想：当k小于真实聚类数时，随着k的增大，会大幅提高类间聚合程度，SSE会大幅下降，当k达到真实聚类数时，随着k的增加，类间的聚合程度不会大幅提高，SSE的下降幅度也不会很大，所以k/SSE的折线图看起来像一个手肘，我们选取肘部的k值进行运算。

这里我们以欧几里德距离来计算两点之间的相关性：

python代码：

import matplotlib.pyplot as plt
import pandas as pd
from sklearn.metrics import silhouette_score
from sklearn.cluster import KMeans
data=pd.read_csv(r'C:\Users\10799\get_info\sklearn_try\series_gpstime_level.csv')
distortions=[]#簇内误差平方和  SSE
for i in range(2,10):
    Kmeans_model=KMeans(n_clusters=i)
    predict_=Kmeans_model.fit_predict(data)
    distortions.append(Kmeans_model.inertia_)
    print("簇内误差平方和：",distortions)
#SSE  手肘法
plt.plot(range(2,10),distortions,marker='x')
plt.xlabel('Number of clusters')
plt.ylabel('Distortion')
plt.title('distortions')
plt.show()

根据拟合图片我们知道选K为5时能够得到最效率的K值。

2.轮廓系数法

轮廓系数这一指标无需知道数据集的真实标签。取值范围[-1, 1]，值越大，聚类效果越好。旨在将某个对象与自己的簇的相似程度和与其他簇的相似程度作比较。轮廓系数最高的簇的数量表示簇的数量的最佳选择。

轮廓系数综合考虑了内聚度和分离度两种因素。

方法：轮廓系数公式：

$S(i)=\frac{b(i)-a(i)}{max(a(i),b(i))}$

1）计算样本i到同簇其他样本的平均距离a(i)。a(i) 越小，说明样本i越应该被聚类到该簇。将a(i)称为样本i的簇内不相似度。

python代码：

scores=[]  #存放轮廓系数
for i in range(2,10):
    Kmeans_model=KMeans(n_clusters=i)
    predict_=Kmeans_model.fit_predict(data)
    scores.append( silhouette_score(data,predict_))
    print("轮廓系数：",scores)
#轮廓系数法
plt.plot(range(2,10),scores,marker='x')
plt.xlabel('Number of clusters')
plt.ylabel('scores')
plt.title('scores')
plt.show()

step2:计算初始化K点

初始质心随机选择即可，每一个质心为一个类。对剩余的每个样本点，计算它们到各个质心的欧式距离，并将其归入到相互间距离最小的质心所在的簇。

def euclDistance(x1, x2):
    return np.sqrt(sum((x2 - x1) ** 2))

def initCentroids(data, k):
    numSamples, dim = data.shape
    # k个质心，列数跟样本的列数一样
    centroids = np.zeros((k, dim))
    # 随机选出k个质心
    for i in range(k):
        # 随机选取一个样本的索引
        index = int(np.random.uniform(0, numSamples))
        # 作为初始化的质心
        centroids[i, :] = data[index, :]
    return centroids

step3:迭代计算重新划分

计算各个新簇的质心。
在所有样本点都划分完毕后，根据划分情况重新计算各个簇的质心所在位置，然后迭代计算各个样本点到各簇质心的距离，对所有样本点重新进行划分
重复2. 和 3.，直到质心不在发生变化时或者到达最大迭代次数时

# 传入数据集和k值
def kmeans(data, k):
    # 计算样本个数
    numSamples = data.shape[0]
    # 样本的属性，第一列保存该样本属于哪个簇，第二列保存该样本跟它所属簇的误差
    clusterData = np.array(np.zeros((numSamples, 2)))
    # 决定质心是否要改变的质量
    clusterChanged = True
    # 初始化质心
    centroids = initCentroids(data, k)
    while clusterChanged:
        clusterChanged = False
        # 循环每一个样本
        for i in range(numSamples):
            # 最小距离
            minDist = 100000.0
            # 定义样本所属的簇
            minIndex = 0
            # 循环计算每一个质心与该样本的距离
            for j in range(k):
                # 循环每一个质心和样本，计算距离
                distance = euclDistance(centroids[j, :], data[i, :])
                # 如果计算的距离小于最小距离，则更新最小距离
                if distance < minDist:
                    minDist = distance
                    # 更新最小距离
                    clusterData[i, 1] = minDist
                    # 更新样本所属的簇
                    minIndex = j
            # 如果样本的所属的簇发生了变化
            if clusterData[i, 0] != minIndex:
                # 质心要重新计算
                clusterChanged = True
                # 更新样本的簇
                clusterData[i, 0] = minIndex
        # 更新质心
        for j in range(k):
            # 获取第j个簇所有的样本所在的索引
            cluster_index = np.nonzero(clusterData[:, 0] == j)
            # 第j个簇所有的样本点
            pointsInCluster = data[cluster_index]
            # 计算质心
            centroids[j, :] = np.mean(pointsInCluster, axis=0)
    return centroids, clusterData

step4:可视化展现

def showCluster(data, k, centroids, clusterData):
    numSamples, dim = data.shape
    if dim != 2:
        print('dimension of your data is not 2!')
        return 1
    # 用不同颜色形状来表示各个类别
    mark = ['or', 'ob', 'og', 'ok', '^r', '+r', 'dr', ' len(mark):
        print('your k is too large!')
        return 1
    # 画样本点
    for i in range(numSamples):
        markIndex = int(clusterData[i, 0])
        plt.plot(data[i, 0], data[i, 1], mark[markIndex])
    # 用不同颜色形状来表示各个类别
    mark = ['*r', '*b', '*g', '*k', '^b', '+b', 'sb', 'db', '

 
  最后结果根据 手肘法我们选取k为5： 
  k = 5
centroids, clusterData = kmeans(data, k)
if np.isnan(centroids).any():
    print('Error')
else:
    print('cluster complete!')
    # 显示结果
showCluster(data, k, centroids, clusterData)
 
    
  四、K-means优缺点 
  优点： 
   
   k‐均值算法原理简单，容易实现，且运行效率比较高 
   k‐均值算法聚类结果容易解释，适用于高维数据的聚类 
   
  缺点： 
   
   k‐均值算法采用贪心策略，导致容易局部收敛，在大规模数据集上求解较慢 
   k‐均值算法对离群点和噪声点非常敏感，少量的离群点和噪声点可能对算法求平均值产生极大影响，从而影响聚类结果 
   
  点关注，防走丢，如有纰漏之处，请留言指教，非常感谢 
  以上就是本期全部内容。我是fanstuck ，有问题大家随时留言讨论 ，我们下期见。 
   
  参阅： 
  曼哈顿距离 
  数据科学中常见的9种距离度量方法，内含欧氏距离、切比雪夫距离等 
  K均值聚类算法 
  K-means算法（知识点梳理） 
  误差平方和
K-means算法代码实现（python） 
  手撕K-means聚类算法

2018年4月12日双鱼儿0313
图片发自App图片发自App图片发自App图片发自App阴天，夜晚，独自在家品味孤独。杨同学今天开始为期三天的研学游，目的地嵩山少林寺，洛阳龙门石窟。早上四点半就起身，为女儿切了洗好的苹果，四点四十五喊她起床、穿了衣服，喝了几口热水就赶去学校。回家后，安静的图片发自App微信回来吐槽吃的团餐无法忍受，因为下雨，气温也不高，所以都是一肚子怨气。和我联系的话题也是不出所料，华晨宇，华晨宇～愿她今晚好梦
Node.js特训专栏-实战进阶：16. RBAC权限模型设计爱分享的程序员 Node.js node.js 安全算法前端
欢迎来到Node.js实战专栏！在这里，每一行代码都是解锁高性能应用的钥匙，让我们一起开启Node.js的奇妙开发之旅！Node.js特训专栏主页专栏内容规划详情我将从RBAC权限模型的基础概念、核心组件讲起，详细阐述其设计原则、数据库模型设计，还会结合代码示例展示在实际开发中的实现方式，以及探讨模型的扩展与优化。RBAC权限模型设计：从理论到实战的完整方案在现代应用系统中，权限管理是保障数据安全
python并发执行_Python的并发并行[0] -> 基本概念 weixin_39940253 python并发执行
基本概念/BasicConcept快速跳转0简介与动机/WhyMulti-Thread/Multi-Process/Coroutine在多线程(multithreaded,MT)编程出现之前，计算机程序的执行是由单个步骤序列组成的，该序列在主机的CPU中按照同步顺序执行。即无论任务多少，是否包含子任务，都要按照顺序方式进行。然而，假定子任务之间相互独立，没有因果关系，若能使这些独立的任务同时运行，
python线程嵌套线程_Python中的嵌套并行性 weixin_39923262 python线程嵌套线程
1)WhatamImissinghere;whyshouldn’taPoolbesharedbetweenprocesses?并不是所有的对象/实例都是可挑选的/可序列化的,在这种情况下,池使用的是不可挑剔的thread.lock：>>>importthreading,pickle>>>pickle.dumps(threading.Lock())Traceback(mostrecentcallla
移除 GIL，可显著提升 Python 多线程性能么？ AIGC开发者 python 1024程序员节 python 开发语言
近日，一位名叫SamGross的开发者提出了一个对全局解释器锁（GIL）进行重大修改的设想。其目标在于移除CPython中的GIL，以使得多线程能够并行执行Python代码。目前，该项目已经引起了Python核心开发团队的关注。我一直在对CPython进行修改，使其能够在没有全局解释器锁的情况下运行。我想与大家分享一个可以在没有GIL的情况下运行的概念验证。这个概念验证涉及到对CPython内部的
InfluxDB 数据模型：桶、测量、标签与字段详解（一）计算机毕设定制辅导-无忧 #InfluxDB db
一、引言**在大数据和物联网蓬勃发展的当下，时间序列数据的处理需求呈爆发式增长。InfluxDB作为一款高性能的开源时序数据库，凭借其卓越的特性，在时序数据库领域占据了重要地位，被广泛应用于各种场景。InfluxDB专为时间序列数据设计，拥有高效的存储和查询性能。它采用独特的存储引擎，能够快速写入大量带有时间戳的数据，并支持灵活的查询操作。其核心设计针对时间序列数据的特点进行了优化，包括时间索引、
InfluxDB 数据模型：桶、测量、标签与字段详解（二）计算机毕设定制辅导-无忧 #InfluxDB db
四、各组件在实际应用中的协作4.1数据写入过程以服务器性能监控场景为例，假设我们有一个包含多台服务器的集群，需要实时监控每台服务器的CPU使用率、内存使用率和磁盘I/O等性能指标。我们使用InfluxDB来存储这些监控数据，下面详细介绍数据写入过程。首先，确定数据存储的桶。我们创建一个名为“server_monitoring_bucket”的桶，专门用于存储服务器监控相关的数据。这个桶将作为所有服
驱动人类行为模型的公式妮可儿_
《福格行为模型》一书中作者提出，人类所有行为的驱动都有3个关键要素，既动机，能力，提示，每个因素在驱动人类行为中起到了重要作用。这个行为模型的公式=动机+能力+提示，用这个模型分析一下自己的生活会很有意思。比如，早上起来为什么要吃早餐呢？动机是饿了，能力是准备为早餐发几块钱？提示是街边的早餐店。如果应用在工作中，你可以把模型设想为:什么要去做一件事情？有好处，能做到，知道能具体怎么做。1.触发行为
python 利用多进程实现文件的拷贝 AI算法网奇 python宝典 python 开发语言
python利用多进程实现文件的拷贝版权声明：本文为博主原创文章，未经博主允许不得转载。https://blog.csdn.net/m0_37338590/article/details/78472103整个程序的流程可分为四步：第一步是提示用户输入要拷贝的文件夹;第二步是创建新文件夹;第三步是获取文件夹中所有文件的名字;最后一步是就是利用进程池创建进程完成复制。具体的分析在程序中都有了，不再做过
python 多线程拍照 NO1212 python 开发语言
相机为basler，logicbalser相机识别条码，进行拍照args[0]为logging的参数保证log实时传输到GUI界面调用方法:main_process(args[0]).camera_run()importsysimporterrnoimportcv2importnumpyasnpimportjsonimportloggingimportthreadingimportlogging.
python实现精确的四舍五入 mocobk
由于计算精度的问题，python无法实现真正的四舍五入round四舍五入时是遵循靠近0原则，所以-0.5和0.5进行0位四舍五入，返回的都是0round(2.135,2)-->2.13round(number[,ndigits])Returnthefloatingpointvaluenumberroundedtondigitsdigitsafterthedecimalpoint.Ifndigits
春种一粒粟，秋收成颗籽（第三稿） Dadupi123
春种一粒粟，秋收万颗籽——中华经典诵读专项培训感悟商都县第三中学赵玉2020年，对于中国人来说，无疑是个灾年。新冠病毒感染的肺炎肆虐大江南北，全国上下停工停产，居家防控，共同抗击疫情。到三月底，疫情得到有效控制，初三年级开学，学校工作逐渐转入正轨。五月份，接到工作室通知，登录国家数字化学习资源中心泛在学院报名参加中华经典诵读专项培训。5月25日至6月21日，每天戴个大耳机，守在电脑前听名家介绍背景
【Python】线程—GIL—asyncio 2401_84139049 程序员 python 开发语言
它们的特点和适用场景：工具特点适用场景Lock最基本的互斥锁，一次只允许一个线程访问共享资源不可重入，即同一线程再次获取会导致死锁简单的线程同步需求需要确保一段代码同一时间只能被一个线程执行RLock可重入锁，同一线程可以多次获取锁并释放允许同一线程多次调用acquire()复杂的递归线程同步需求某些情况下需要允许同一线程多次获取和释放锁Semaphore允许一定数量的线程同时访问共享资源控制并发
基于 Python/PHP/Node.js 的淘宝 API 商品数据抓取开发教程
在电商数据分析、竞品监控等场景中，抓取淘宝商品数据是常见需求。淘宝开放平台（OpenPlatform）提供了标准化的API接口，通过合法途径调用可高效获取商品信息。本文将分别基于Python、PHP、Node.js三种语言，详解淘宝API商品数据抓取的开发流程，并提供完整代码示例。一、淘宝API准备工作在开发前，需完成以下准备步骤：注册开发者账号访问注册账号并完成实名认证，创建应用（应用类型选择“
python的多线程无法并行只能并发，why？
标题python的多线程无法并行只能并发，why？python的多线程无法并行只能并发，why？在Python中，特别是使用CPython解释器时，由于存在全局解释器锁（GIL），即使在多核处理器上，只有一个线程在同一时刻可以执行Python字节码。GIL会导致CPU密集型任务的线程不能真正并行执行，即使在多核机器上。这种情况下，即使你创建多个线程，CPU也会轮流为每个线程分配执行时间。只有涉及到
图灵python从入门到实践浮点数_Python编程从入门到实践-图灵出品-pdf 巴黎巨星岬太郎
封面简介本书是一本针对所有层次的Python读者而作的Python入门书。全书分两部分：首部分介绍用Python编程所必须了解的基本概念，包括matplotlib、NumPy和Pygal等强大的Python库和工具介绍，以及列表、字典、if语句、类、文件与异常、代码测试等内容；第二部分将理论付诸实践，讲解如何开发三个项目，包括简单的Python2D游戏开发，如何利用数据生成交互式的信息图，以及创建
python从菜鸟到高手电子书下载_PYTHON从菜鸟到高手清华大学出版社逐码追风
推荐序...1前言...3本书配套资源...5第一篇Python基础知识第1章初识Python.31.1Python简介...31.2搭建Python开发环境...81.3第一个Python程序...261.4调试Python程序...261.5小结...291.6实战与练习...29第2章Python语言基础...302.1Python程序中的基本要素...302.2数字...342.3获取用户
Python从入门到高手9.1节-Python中的字典类型大神薯条老师 Python从入门到高手 python 数据分析机器学习爬虫网络爬虫深度学习
目录9.1.1理解字典类型9.1.2字典的类型名9.1.3字典的定义9.1.4字典的主要性质9.1.5好好学习，天天向上9.1.1理解字典类型在日常生活中，我们常常会接触到“字典”这种数据类型，例如一本书籍的目录结构，在目录结构中，通过查找页码，就可以快速翻到指定的页面。如果没有这样的页码，那么我们必须从书籍的第一页开始，一页一页地查找。有了页码以后，直接翻到指定的页面。在Python中，可以通过
第一章:再相遇 c6910821d417
今天是新生入学的第一天，许嘉瑜暗暗地下定决心这学期一定要好好学习，立志要成为一个博学多才的学霸。她仔细地在分班表里寻找着她自己的名字，指尖在分班表上轻轻地移动。突然，一只大手触碰到了她的手指，她抬头一看，原来是一个老熟人，不过和记忆中的小男孩却完全不同了。“顾子彦，怎么是你？”这不是小时候那个总爱嘤嘤嘤的邻家小男孩吗？不是已经搬走好多年了吗？难道又搬回来了？许嘉瑜心想。“自从你从隔壁搬走了以后我就
【LlamaIndex核心组件指南 | 数据加载篇】从原始数据到向量的全链路深度解析吴师兄大模型现代大模型技术与应用 llamaindex langchain 开发语言 python pytorch 人工智能大模型
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
在工作和生活中，不要“玻璃心” 明月书心堂
在工作和生活中，不要“玻璃心”这两天看儿子的状态不佳，昨天上午和儿子来了一场两个朋友之间的交流。他已经大学毕业了，就在今年六月份毕的业。毕业之后，他想要考研。因此这接下来的半年多时间里，他讲自己的精力全部集中在复习上。说实话，儿子的文化基础并不是很好，反正在学习方面他不是学霸。因此他的复习看起来要比别人困难的多。其实，关于他考研的事情，我在他上大学期间就已经跟他讲过了，也劝他抓住在学校学习的大好时
【深度学习-Day 36】CNN的开山鼻祖：从LeNet-5到AlexNet的架构演进之路吴师兄大模型深度学习入门到精通 python pytorch 开发语言人工智能 CNN 深度学习大模型
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
Github 2024-06-07开源项目日报 Top10
根据GithubTrendings的统计，今日(2024-06-07统计)共有10个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量Python项目3C++项目3JavaScript项目2JupyterNotebook项目1TypeScript项目1Vue项目1比特币核心：开源比特币软件创建周期：4919天开发语言：C++协议类型：MITLicenseStar数量：76760个F
【Agent的革命之路——LangGraph】人机交互中的四种决策设计模式乔巴先生24 人机交互设计模式人工智能 python
在现在强大的LLM应用程序中，最有用的无外乎就是人机交互工作流，它将人工输入集成到自动化流程中，允许在关键阶段做出决策、验证或更正，因为底层模型可能会偶尔产生不准确之处，在合规性、决策或内容生成等低容错场景中，人工参与可通过审查、更正或覆盖模型输出来确保可靠性。我么的应用程序在什么时候会使用人机交互工作流程呢？审查工具调用：人类可以在工具执行之前审查、编辑或批准LLM请求的工具调用。验证LLM输出
AI原生应用领域多租户的技术架构剖析 AI天才研究院 AI-native 架构人工智能 ai
AI原生应用领域多租户技术架构深度剖析元数据框架标题：AI原生应用多租户技术架构：从隔离性到智能化的分层设计与实践关键词：AI原生应用、多租户架构、数据隔离、模型共享、云原生租户管理摘要：本文系统解析AI原生应用场景下多租户技术架构的核心设计逻辑，覆盖从数据层到模型层的全栈隔离与共享机制。通过第一性原理推导，结合云原生、机器学习生命周期管理（MLOps）等技术范式，提出包含租户上下文管理、动态资源
LangGraph 教程：初学者综合指南（1）背太阳的牧羊人 langgraph langchain langgraph
关键概念图结构LangGraph设计的核心是基于图形的应用程序工作流程表示。该图包含两个主要元素：节点-工作的构建块：LangGraph中的每个节点代表应用程序中的一个不同的工作或操作单元。这些节点本质上是封装特定任务的Python函数。此任务可能涉及多种操作，例如：与LLM直接沟通，进行文本生成、摘要或其他基于语言的任务。与外部工具和API交互以获取数据或在现实世界中执行操作。通过格式化、过滤或
大数据集成方案对比：Kafka vs Flume vs Sqoop AI天才研究院计算 AI大模型应用入门实战与进阶 Agentic AI 实战大数据 kafka flume ai
大数据集成方案对比：KafkavsFlumevsSqoop关键词：大数据集成、Kafka、Flume、Sqoop、流处理、批量迁移、日志收集摘要：在大数据生态中，数据集成是连接数据源与数据处理平台的关键环节。本文深度对比Kafka、Flume、Sqoop三大主流集成工具，从核心架构、技术原理、适用场景到实战案例展开系统性分析。通过数学模型量化性能差异，结合实际项目经验总结选型策略，帮助开发者根据业
我们大多在食用二次知识――论知识的阶级性 Yo有灵L0
不论是《美丽新世界》，还是《未来简史》，对人类未来的预计都没有很美好。这其中包含了太多集权的观点。即：人类的绝大多数资源被极少数人所掌控，而绝大多数人沦为平庸。在《美丽新世界》里，阶级的划分直接由人为控制出生来决定；在《未来简史》里，当人们把越来越多的事情交给算法去处理之后，人类自身则降至被动的地位。这些看起来和知识不搭边？不，知识这条路，竟然也存在着阶级划分。这种阶级划分，有自身的因素，也有环境
再赠文友回眸一笑笑亮靓_27d5
掌勺当大厨，妙笔写诗文。回眸一笑笑，惊动简村人。图片发自App注1:此诗是我品读文友回眸一笑散文《酸奶蛋糕》一文时，写下的一首点评诗。注2:文友回眸一笑笑，不仅现代情诗写得特棒，厨艺也不错，《笑笑厨房》经常秀厨艺，而且歌声甜美,歌声也为简村文友所喜爱。我曾赠《回眸一笑笑》嵌名诗两首以表示对她的敬意。注3:附录我赠《回眸一笑笑》两首嵌名诗，以便与文友一起分享。其一回瞻简村美才女，波光盈盈撼歌房。一曲
LangGraph教程6：LangGraph工作流人机交互 Cachel wood LLM和AIGC 人机交互 java 前端 langchain langgraph 开发语言数据库
文章目录Human-in-the-loop(人机交互)interruptWarningHuman-in-the-loop(人机交互)人机交互（或称“在循环中”）工作流将人类输入整合到自动化过程中，在关键阶段允许决策、验证或修正。这在基于LLM的应用中尤其有用，因为基础模型可能会产生偶尔的不准确性。在合规、决策或内容生成等低误差容忍场景中，人类的参与通过允许审查、修正或覆盖模型输出来确保可靠性。使用
对于规范和实现，你会混淆吗？ yangshangchuan HotSpot
昨晚和朋友聊天，喝了点咖啡，由于我经常喝茶，很长时间没喝咖啡了，所以失眠了，于是起床读JVM规范，读完后在朋友圈发了一条信息： JVM Run-Time Data Areas：The Java Virtual Machine defines various run-time data areas that are used during execution of a program. So
android 网络百合不是茶网络
android的网络编程和java的一样没什么好分析的都是一些死的照着写就可以了,所以记录下来方便查找 , 服务器使用的是TomCat 服务器代码; servlet的使用需要在xml中注册 package servlet; import java.io.IOException; import java.util.Arr
[读书笔记]读法拉第传 comsci 读书笔记
1831年的时候,一年可以赚到1000英镑的人..应该很少的... 要成为一个科学家,没有足够的资金支持,很多实验都无法完成但是当钱赚够了以后....就不能够一直在商业和市场中徘徊......
随机数的产生沐刃青蛟随机数
c++中阐述随机数的方法有两种：一是产生假随机数（不管操作多少次，所产生的数都不会改变）这类随机数是使用了默认的种子值产生的，所以每次都是一样的。 //默认种子 for (int i = 0; i < 5; i++) { cout<<
PHP检测函数所在的文件名 IT独行者 PHP 函数
很简单的功能，用到PHP中的反射机制，具体使用的是ReflectionFunction类，可以获取指定函数所在PHP脚本中的具体位置。创建引用脚本。代码： [php] view plain copy // Filename: functions.php <?php&nbs
银行各系统功能简介文强chu 金融
银行各系统功能简介　业务系统核心业务系统业务功能包括：总账管理、卡系统管理、客户信息管理、额度控管、存款、贷款、资金业务、国际结算、支付结算、对外接口等清分清算系统以清算日期为准，将账务类交易、非账务类交易的手续费、代理费、网络服务费等相关费用，按费用类型计算应收、应付金额，经过清算人员确认后上送核心系统完成结算的过程国际结算系
Python学习1(pip django 安装以及第一个project) 小桔子 python django pip
最近开始学习python,要安装个pip的工具。听说这个工具很强大，安装了它，在安装第三方工具的话so easy!然后也下载了，按照别人给的教程开始安装，奶奶的怎么也安装不上！第一步：官方下载pip-1.5.6.tar.gz, https://pypi.python.org/pypi/pip easy! 第二部：解压这个压缩文件，会看到一个setup.p
php 数组 aichenglong PHP 排序数组循环多维数组
1 php中的创建数组 $product = array('tires','oil','spark');//array()实际上是语言结构而不是函数 2 如果需要创建一个升序的排列的数字保存在一个数组中，可以使用range()函数来自动创建数组 $numbers=range(1,10)//1 2 3 4 5 6 7 8 9 10 $numbers=range(1,10,
安装python2.7 AILIKES python
安装python2.7 1、下载可从 http://www.python.org/进行下载#wget https://www.python.org/ftp/python/2.7.10/Python-2.7.10.tgz 2、复制解压 #mkdir -p /opt/usr/python #cp /opt/soft/Python-2
java异常的处理探讨百合不是茶 JAVA异常
//java异常 /* 1，了解java 中的异常处理机制，有三种操作 a,声明异常 b,抛出异常 c,捕获异常 2，学会使用try-catch-finally来处理异常 3，学会如何声明异常和抛出异常 4，学会创建自己的异常 */ //2，学会使用try-catch-finally来处理异常
getElementsByName实例 bijian1013 element
实例1： <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/x
探索JUnit4扩展：Runner bijian1013 java 单元测试 JUnit
参加敏捷培训时，教练提到Junit4的Runner和Rule，于是特上网查一下，发现很多都讲的太理论，或者是举的例子实在是太牵强。多搜索了几下，搜索到两篇我觉得写的非常好的文章。文章地址：http://www.blogjava.net/jiangshachina/archive/20
[MongoDB学习笔记二]MongoDB副本集 bit1129 mongodb
1. 副本集的特性 1)一台主服务器(Primary),多台从服务器(Secondary) 2)Primary挂了之后，从服务器自动完成从它们之中选举一台服务器作为主服务器，继续工作，这就解决了单点故障，因此，在这种情况下，MongoDB集群能够继续工作 3)挂了的主服务器恢复到集群中只能以Secondary服务器的角色加入进来 2
【Spark八十一】Hive in the spark assembly bit1129 assembly
Spark SQL supports most commonly used features of HiveQL. However, different HiveQL statements are executed in different manners: 1. DDL statements (e.g. CREATE TABLE, DROP TABLE, etc.)
Nginx问题定位之监控进程异常退出 ronin47
nginx在运行过程中是否稳定，是否有异常退出过？这里总结几项平时会用到的小技巧。 1. 在error.log中查看是否有signal项，如果有，看看signal是多少。比如，这是一个异常退出的情况： $grep signal error.log 2012/12/24 16:39:56 [alert] 13661#0: worker process 13666 exited on s
No grammar constraints (DTD or XML schema).....两种解决方法 byalias xml
方法一：常用方法关闭XML验证工具栏：windows => preferences => xml => xml files => validation => Indicate when no grammar is specified:选择Ignore即可。方法二：（个人推荐）添加内容如下 <?xml version=
Netty源码学习-DefaultChannelPipeline bylijinnan netty
package com.ljn.channel; /** * ChannelPipeline采用的是Intercepting Filter 模式 * 但由于用到两个双向链表和内部类，这个模式看起来不是那么明显，需要仔细查看调用过程才发现 * * 下面对ChannelPipeline作一个模拟，只模拟关键代码： */ public class Pipeline {
MYSQL数据库常用备份及恢复语句 chicony mysql
备份MySQL数据库的命令，可以加选不同的参数选项来实现不同格式的要求。 mysqldump -h主机 -u用户名 -p密码数据库名 > 文件备份MySQL数据库为带删除表的格式，能够让该备份覆盖已有数据库而不需要手动删除原有数据库。 mysqldump -–add-drop-table -uusername -ppassword databasename > ba
小白谈谈云计算--基于Google三大论文 CrazyMizzz Google 云计算 GFS
之前在没有接触到云计算之前，只是对云计算有一点点模糊的概念，觉得这是一个很高大上的东西，似乎离我们大一的还很远。后来有机会上了一节云计算的普及课程吧，并且在之前的一周里拜读了谷歌三大论文。不敢说理解，至少囫囵吞枣啃下了一大堆看不明白的理论。现在就简单聊聊我对于云计算的了解。我先说说GFS &n
hadoop 平衡空间设置方法 daizj hadoop balancer
在hdfs-site.xml中增加设置balance的带宽，默认只有1M： <property> <name>dfs.balance.bandwidthPerSec</name> <value>10485760</value> <description&g
Eclipse程序员要掌握的常用快捷键 dcj3sjt126com 编程
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得
Android学习之路 dcj3sjt126com Android学习
转自：http://blog.csdn.net/ryantang03/article/details/6901459 以前有J2EE基础，接触JAVA也有两三年的时间了，上手Android并不困难，思维上稍微转变一下就可以很快适应。以前做的都是WEB项目，现今体验移动终端项目，让我越来越觉得移动互联网应用是未来的主宰。下面说说我学习Android的感受，我学Android首先是看MARS的视
java 遍历Map的四种方法 eksliang java HashMap java 遍历Map的四种方法
转载请出自出处： http://eksliang.iteye.com/blog/2059996 package com.ickes; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Map.Entry; /** * 遍历Map的四种方式
【精典】数据库相关相关 gengzg 数据库
package C3P0; import java.sql.Connection; import java.sql.SQLException; import java.beans.PropertyVetoException; import com.mchange.v2.c3p0.ComboPooledDataSource; public class DBPool{
自动补全 huyana_town 自动补全
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml&quo
jquery在线预览PDF文件，打开PDF文件天梯梦 jquery
最主要的是使用到了一个jquery的插件jquery.media.js，使用这个插件就很容易实现了。核心代码 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.
ViewPager刷新单个页面的方法 lovelease android viewpager tag 刷新
使用ViewPager做滑动切换图片的效果时，如果图片是从网络下载的，那么再子线程中下载完图片时我们会使用handler通知UI线程，然后UI线程就可以调用mViewPager.getAdapter().notifyDataSetChanged()进行页面的刷新，但是viewpager不同于listview，你会发现单纯的调用notifyDataSetChanged()并不能刷新页面
利用按位取反（~）从复合枚举值里清除枚举值草料场 enum
以 C# 中的 System.Drawing.FontStyle 为例。如果需要同时有多种效果，如：“粗体”和“下划线”的效果，可以用按位或（|） FontStyle style = FontStyle.Bold | FontStyle.Underline; 如果需要去除 style 里的某一种效果，
Linux系统新手学习的11点建议刘星宇编程工作 linux 脚本
　　随着Linux应用的扩展许多朋友开始接触Linux，根据学习Windwos的经验往往有一些茫然的感觉：不知从何处开始学起。这里介绍学习Linux的一些建议。　　一、从基础开始：常常有些朋友在Linux论坛问一些问题，不过，其中大多数的问题都是很基础的。例如：为什么我使用一个命令的时候，系统告诉我找不到该目录，我要如何限制使用者的权限等问题，这些问题其实都不是很难的，只要了解了 Linu
hibernate dao层应用之HibernateDaoSupport二次封装 wangzhezichuan DAO Hibernate
/** * 方法描述:sql语句查询返回List<Class> * 方法备注: Class 只能是自定义类 * @param calzz * @param sql * @return * 创建人：王川 * 创建时间：Jul

K-means聚类算法一文详解+Python代码实例

前言

一、聚类分析

二、K-means原理

1.距离度量算法

欧几里得距离（欧氏距离）

曼哈顿距离

切比雪夫距离

2.K-means算法思想

三.K-means算法实现

step1:选取K值

1.手肘法

python代码：

2.轮廓系数法

python代码：

step2:计算初始化K点

step3:迭代计算重新划分

step4:可视化展现

四、K-means优缺点

优点：

缺点：

点关注，防走丢，如有纰漏之处，请留言指教，非常感谢

参阅：

你可能感兴趣的:(一文速学-数学建模常用模型,python,聚类,算法,数据分析,机器学习)