SongpingWang

聚类分析（K-means算法）

- - - 1 聚类分析
      - 1.1 相似度与距离度量
        
        1.2 聚类算法及划分方法
    - 2 聚类模型评估（优缺点）
    - 3 K-means 在 sklearn方法
    - 4 确定K值–肘部法则–SSE
    - 5 模型评估指标–轮廓系数法–最近簇
      - 5.1 轮廓系数
        
        5.2 最近簇定义—平均轮廓系数 [0,1]：
        
        5.3、Canopy算法配合初始聚类
    - 6 K-mean 优化
      - 6.1 K-means++优化
        
        6.2 映射到高维（Kernel k-means）
        
        6.3 二分法（二分K-means）
        
        6.4 Mini Batch K-Means（分批处理）
        
        6.5 迭代自组织数据分析算法（ISODATA）
        
        6.6 基于MCMC采样的算法
        
        6.7 AFK-MC^2
        
        附：马尔可夫链蒙特卡洛方法
    - 7 以下代码演示：请点击
      - K-means 肘部法则（确定K值）
        
        K-means 轮廓系数法（验证K值）
        
        Mini Batch K-Means（适合大数据的聚类算法）

1 聚类分析

聚类：
    把相似数据并成一组（group）的方法。‘物以类聚，人以群分’
    不需要类别标注的算法，直接从数据中学习模式
    所以，聚类是一种 数据探索 的分析方法，他帮助我们在大量数据中探索和发现数据结构

1.1 相似度与距离度量

定义距离来度量表示相似度：
    欧式距离，曼哈顿距离，闵氏距离

距离与变量量纲的关系
    变量标准化方法：
        0-1 标准化
        区间缩放法 （a,b）=(0,1)
        类别变量onehot

1.2 聚类算法及划分方法

常见的两类聚类算法：
    层次聚类算法（Hierarchical）
    基于划分的方法（Partitional）
    基于密度 和 基于模型

基于划分的方法（Partitional）:K-means（K均值）
    1 随机选取K个数据点作为‘种子’
    2 根据数据点与‘种子’的距离大小进行类分配
    3 更新类中心点的位置，以新的类中心点作为‘种子’
    4 按照新的‘种子’对数据归属的类进行重新分配
    5 更新类中心点（-->3-->4），不断迭代，直到类中心点变得很小

2 聚类模型评估（优缺点）

优点： 算法原理简单，处理快
      当聚类密集时，类与类之间区别明显，效果好

缺点： K是事先给定的，K值选定难确定
      对孤立点、噪声敏感
      结果不一定是全局最优，只能保证局部最优。
      很难发现大小差别很大的簇及进行增量计算
      结果不稳定，初始值选定对结果有一定的影响
      计算量大

3 K-means 在 sklearn方法

sklearn.cluster.KMeans(
                        n_clusters = 8,         #聚类个数，K值，默认8
                        init = 'k-means++',     
                        n_init = 10,
                        max_iter = 300,
                        tol = 0.0001,
                        precompute_distances = 'auto',
                        verbose = 0,
                        random_state = None,
                        copy_x = True,
                        n_jobs = 1,
                        algorithm = 'auto'
                    )

一些重要的参数：
n_clusters = 8,          #聚类个数，K值，默认8
init = 'k-means++',      #初始化类中心点选择方法，可选：
        {
            'k-means++', #是一种优化选择方法，比较容易收敛
            'random',    #随机选择
            an ndarray   #可以通过输入ndarray数组手动指定中心点
        }
max_iter:                #最大迭代数         
precompute_distances：   #预计算距离，计算速度更快但占用更多内存。auto  True
copy_x                   # True,原始数据不变，False直接在原始数据上做更改

4 确定K值–肘部法则–SSE

最合适的K值
    肘部法则（Elbow method）：找到随着K值变大，损失函数的拐点。
    损失函数：各个类畸变程度（distortions）之和

肘方法的核心指标是 SSE (sum of the squared errors，误差平方和)， Ci 是第 i 个簇， p 是 Ci 中的样本点， mi 是 Ci 的质心（ Ci 中所有样本的均值），SSE是所有样本的聚类误差，代表了聚类效果的好坏。

S S E = \sum i = 1 K \sum p \in C i | p - m i | 2

SSE是每个属性的SSE之和：
    1. 对于所有的簇，某变量的SSE都很低，都意味着什么？
    2. 如果只对一个簇很低，意味着什么？
    3. 如果只对一个簇很高，意味着什么？
    4. 如果对所有簇都很高，意味着什么？
    5. 如何使用每个变量的SSE信息改进聚类？

    解答： 1. 说明该属性本质上为常量，不能作为聚类依据。
          2. 那么该属性有助于该簇的定义
          3. 那么该属性为噪声属性
          4. 那么该属性 与 定义该属性提供的信息不一致，也意味着该属性不利于簇的定义。
          5. 消除对于所有簇都是 低的SSE（高的SSE）的属性。因为这些属性对聚类没有帮助， 
             这些属性在SSE的总和计算中引入了噪声。

             也可以对其中某些属性用加权概率来计算，使该属性有助于该簇的定义， 
             去除某些不利于该簇定义的影响因子（那些可能是噪声）。从而更有利于簇的聚类。

K-means 附加问题
    1.处理空簇：如果数据量少，寻找替补质心，使SSE最小。如果数据量大，保留该空簇
    2.离群点：不能删除。建议聚类之前离群检测。分析看能否删除 
    3.降低SSE ：将大的分散的簇再次拆开；引入新的簇将之前的大簇拆分。 
    4.增量更新质心:再次在质心附近寻找测试点，看能否再次找到更优的质心。

5 模型评估指标–轮廓系数法–最近簇

聚类目的是让“组内数据尽量相似”，而“组间数据差异明显”，轮廓系数就是衡量方法。

针对每一条数据i: a(i)数据i与组内其它数据的平均距离; b(i)数据i与邻组的数据的平均距离

5.1 轮廓系数

S (i) = b ( i ) - a ( i ) m a x { a ( i ) , b ( i ) } \Rightarrow S (i) ⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ 1 - a ( i ) b ( i ), 0 a ( i ) b ( i ) - 1, a (i) < b (i) a (i) = b (i) a (i) > b (i) S (i) \to 1 S (i) \to - 1 S (i) \to 0

数据i的轮廓系数s(i): s(i) –> 1 样本i聚类合理; s(i) –> -1 样本i应该分到其它类; s(i) –> 0 样本i在两个轮廓的边界

5.2 最近簇定义—平均轮廓系数 [0,1]：

C j = a r g min C k 1 n \sum p \in C k | p - X i | 2

其中p是某个簇Ck中的样本。即，用Xi到某个簇所有样本平均距离作为衡量该点到该簇的距离后，
选择离Xi最近的一个簇作为最近簇。

sklearn.metrics.silhouette_score    
sklearn.metrics.silhouette_score(
                                    X,
                                    labels = 'euclidean',
                                    sample_size = None,
                                    random_state = None
                                    )
一些重要的参数：
    X:      聚类的输入特征数据
    labels：类标签数组
    metrics：
    sample_size:是否抽样计算

5.3、Canopy算法配合初始聚类

1.聚类最耗费计算的地方是计算对象相似性的时候，Canopy聚类在第一阶段选择简单、 
  计算代价较低的方法计算对象相似性，将相似的对象放在一个子集中，这个子集被叫做Canopy ， 
  通过一系列计算得到若干Canopy，Canopy之间可以是重叠的，但不会存在某个对象不属于任何Canopy的情况， 
  可以把这一阶段看做数据预处理； 

2.在各个Canopy 内使用传统的聚类方法(如K-means)，不属于同一Canopy 的对象之间不进行相似性计算。 
 （即，根据Canopy算法产生的Canopies代替初始的K个聚类中心点， 
 由于已经将所有数据点进行Canopies有覆盖划分， 
 在计算数据离哪个k-center最近时，不必计算其到所有k-centers的距离， 
 只计算和它在同一个Canopy下的k-centers这样可以提高效率。

算法过程：: 1，首先选择两个距离阈值：T1和T2，其中T1 > T2; 2，从list中任取一点P，用低计算成本方法快速计算点P与所有Canopy之间的距（如果当前不存在Canopy，则把点P作为一个Canopy），如果点P与某个Canopy距离在T1以内，则将点P加入到这个Canopy; 3，如果点P曾经与某个Canopy的距离在T2以内，则需要把点P从list中删除，这一步是认为点P此时与这个Canopy已经够近了，因此它不可以再做其它Canopy的中心了；; 4，重复步骤2、3，直到list为空结束。
优缺点: 1、Kmeans对噪声抗干扰较弱，通过Canopy对比，将较小的NumPoint的Cluster直接去掉有利于抗干扰。; 2、Canopy选择出来的每个Canopy的centerPoint作为K会更精确。; 3、只是针对每个Canopy的内做Kmeans聚类，减少相似计算的数量。

6 K-mean 优化

6.1 K-means++优化

◆ K-means算法的先决条件
    1）必须先行指定k的大小，及最终结果需要聚为几类。
    2）第一次分配数据点的时候需要选取起始质心（seeds），即初始化聚类中心点。 

k-means++是一种基于采样方法(称为D^2-sampling)的中心点选择方法。其核心为： 
    最开始的质心间两两的距离要尽可能远。 

K-means++算法改进了标准K-means算法随机选取初始质心的缺点，但其内在的有序性导致了它的可扩展型不足。 
    由于选择下一个中心点所需的计算依赖于已经选择的所有中心点，这种内在的顺序执行特性使得到k个聚类中心 
    必须遍历数据集 k 次，从而使得算法无法并行扩展而应用在超大规模数据集上。

6.2 映射到高维（Kernel k-means）

kernel k-means：
    将每个样本映射到高维空间的处理，
    然后再将处理后的数据使用普通的k-means算法思想进行聚类。

6.3 二分法（二分K-means）

首先将所有点作为一个簇，然后将该簇一分为二。 
之后选择能最大限度降低聚类代价函数（也就是误差平方和）的簇划分为两个簇。 
以此进行下去，直到簇的数目等于用户给定的数目k为止。

6.4 Mini Batch K-Means（分批处理）

该算法的迭代步骤有两步： 
    1：从数据集中随机抽取一些数据形成小批量，把他们分配给最近的质心 
    2：更新质心，适用大数据类型

6.5 迭代自组织数据分析算法（ISODATA）

类别数目随着聚类过程而变化； 
    对类别数的“合并”：（当聚类结果某一类中样本数太少，或两个类间的距离太近时） 
    “分裂”（当聚类结果中某一类的类内方差太大，将该类进行分裂）

6.6 基于MCMC采样的算法

MCMC的采样方法，k−MC2就是为了降低 k-means 算法的时间复杂度的改进算法。 

使用MCMC采样来近似 D2−sampling 这个过程 
    在选取候选种子节点时，随机选取一个seeding，然后用MCMC的方法采样出长为M的马尔科夫链，
    使得马尔科夫链的平稳分布为 p(x) ，从而马尔科夫链达到平稳状态后的那些状态就可以看作是以
    p(x) 进行采样的样本点。 

k-MC^2 算法有一个缺点：
    即由于在MCMC过程中，算法使用的提案分布 q(x) 为均匀分布，这导致了潜在的缺点，
    就是那些样本数较小的聚类中可能不会被选中为候选节点。

6.7 AFK-MC^2

AFK-MC^2关键之处：
    在于它使用马尔科夫链对k-Means++进行近似处理，也就是将数据点看做状态点。
    第一个状态是随机采样的数据点，通过一个随机过程来决定链的状态是否要转移到其他的随机数据点。
    状态是否转移与所有点的初始距离是相互独立的（马尔科夫链的稳定状态与初始状态无关）， 
    并且初始距离作为预处理的一部分只计算一次。与k-Means++不同的是，AFK-MC2算法只需要遍历一次数据集。

附：马尔可夫链蒙特卡洛方法

◆ 蒙特卡洛方法
    蒙特卡洛模拟只是一种通过不断地生成随机数来评估固定参数的方法。 
    通过生成随机数并对其做一些计算，蒙特卡洛模拟给出了一个参数的近似值（其中直接
    计算是不可能的或者计算量过大）

由于 15 个点落在了圆内，那么圆的面积可以近似地为 75 平方英寸，对于只有 20 个随机点 
的蒙特卡洛模拟来说，结果并不差。

现在，假设我们想要计算下图中由蝙蝠侠方程（Batman Equation）绘制的图形的面积：

我们从来没有学过一个方程可以求这样的面积。不管怎样，通过随机地放入随机点， 
蒙特卡洛模拟可以相当容易地为该面积提供一个近似值。

◆ 马尔可夫链 
    在十九世纪，人们观察到钟形曲线在自然中是一种很常见的模式。 
    （我们注意到，例如，人类的身高服从钟形曲线分布。） 
    Galton Boards 曾通过将弹珠坠落并通过布满木钉的板模拟了重复随机事件的平均值， 
    弹珠的最终数量分布中重现了钟形曲线：

给定一个确定的上述字母或空白，关于下一个字母将是 A、T 或者空白等，存在一个确定的概率。 
通过这些概率，Markov 可以模拟一个任意的长字符序列。这就是马尔科夫链。

7 以下代码演示：请点击

K-means 肘部法则（确定K值）

K-means 轮廓系数法（验证K值）

Mini Batch K-Means（适合大数据的聚类算法）

HCIA-AI人工智能笔记3：数据预处理噗老师华为认证人工智能笔记 wpf 数据处理 AI 华为认证
统讲解数据预处理的核心技术体系，通过Python/Pandas与华为MindSpore双视角代码演示，结合特征工程优化实验，深入解析数据清洗、标准化、增强等关键环节。一、数据预处理技术全景图graphTDA[原始数据]-->B{数据清洗}B-->B1[缺失值处理]B-->B2[异常值检测]B-->B3[重复值删除]A-->C{特征工程}C-->C1[标准化/归一化]C-->C2[离散化分箱]C--
AWE大会来袭：家电圈上演“无限战争” 互联网江湖人工智能大数据 microsoft
文：互联网江湖作者：刘致呈3月19日，一年一度的中国家电及消费电子博览会AWE如期而至。每次大会，大小品牌方都会携自己的新品亮相，是家电圈的“春晚”。这次的看点除了AI外，还有一个有意思的点，就是部分品牌开始向大家电进军。比如追觅科技，在高端扫地机器人市场上取得一番成绩之后，表示要开始做冰箱、空调、洗衣机了。无独有偶，主攻厨电赛道的方太，也开始进军冰箱板块；还有石头科技，也有洗烘一体的洗衣机。这些
滴滴2024年四季度财报：订单同比增长14.8% GTV增至1032亿元互联网江湖人工智能大数据
3月18日，滴滴在其官网发布2024年第四季度业绩及全年业绩。延续前三季度的增长趋势，四季度，滴滴包括中国出行和国际业务在内的核心平台交易量达42.66亿单，同比增长14.8%，同期核心平台GTV（交易总额）达1032亿元，同比增长14.5%。2024年全年滴滴核心平台交易量为160.05亿单，较2023年增长18.8%；2024全年滴滴核心平台GTV为3927亿元，较2023年增长16.2%。2
贪心算法（9）（java）最优除法奋进的小暄 java 贪心算法算法
题目：给定一正整数数组nums,nums中的相邻整数将进行浮点除法。例如，[2,3.4]->2/3/4.例如，nums=[2,3,4]，我们将求表达式的值“2/3/4"。但是，你可以在任意位置添加任意数目的括号，来改变算数的优先级。你需要找出怎么添加括号，以便计算后的表达式的值为最大值。以字符串格式返回具有最大值的对应表达式。注意:你的表达式不应该包含多余的括号。输入：【1000，100，10，2
解释CALL_FORM,NEW_FORM和OPEN_FORM之间有什么区别？思维导图代码示例（java 架构) 用心去追梦 java 架构开发语言
CALL_FORM,NEW_FORM和OPEN_FORM之间的区别在OracleForms中，CALL_FORM、NEW_FORM和OPEN_FORM是用于管理和启动表单的不同命令。每个命令的行为和用途都有所不同，理解它们的区别对于正确构建和管理Forms应用程序非常重要。1.CALL_FORM定义：调用并运行另一个表单，但不会关闭当前表单。被调用的表单以模式对话框的形式显示，即用户必须完成或取消
鸿蒙开发工程师简历项目撰写全攻略谢道韫689 鸿蒙随笔 harmonyos 华为
一、项目结构的黄金法则建议采用「4+1」结构：项目背景（业务价值）+技术架构（鸿蒙特性）+核心实现（技术难点）+个人贡献（量化成果）+附加价值（延伸影响）二、鸿蒙特色技术点提炼技巧鸿蒙核心技术技术维度具体实现案例量化成果示例分布式软总线自定义协议实现家电设备低功耗连接连接成功率从89%提升至97%ArkUI框架基于TS扩展实现动态UI模板引擎开发效率提升40%，代码量减少60%原子化服务实现天气服
浏览器渲染流程前端岳大宝前端核心知识总结前端 javascript
以下是关于浏览器渲染流程的系统梳理，涵盖基础原理、关键阶段、性能优化及进阶知识，帮助我们深入理解现代浏览器如何将代码转换为用户可见的像素：一、核心渲染流程（CriticalRenderingPath）浏览器渲染流程分为六个核心阶段，决定页面首次加载和更新的性能：1.构建DOM（DocumentObjectModel）过程：解析HTML生成DOM树（逐步解析，遇到可能阻塞）。阻塞因素：未添加asyn
Android Compose 线性布局（Row、Column）源码深度剖析(十) &有梦想的咸鱼& Androiod Compose原理 Android开发大全 android
AndroidCompose线性布局（Row、Column）源码深度剖析一、引言在Android应用开发的领域中，UI布局是构建用户界面的核心工作之一。良好的布局设计不仅能提升用户体验，还能使应用在不同设备上保持一致的视觉效果。随着Android开发技术的不断演进，JetpackCompose作为新一代的声明式UI框架应运而生。它以简洁的代码、高效的性能和强大的可维护性，逐渐成为开发者的首选。线性
六种方法教你将Python源代码打包成exe xuefeng_210 python 开发语言 linux
将Python源代码打包成可执行文件（exe）是一种常见的需求，它可以使我们的程序在没有安装Python解释器的环境中运行。在本文中，我们将介绍六种常用的方法来实现这个目标，并详细说明每种方法的使用过程。cx_Freezecx_Freeze是一个用于将Python脚本打包成可执行文件的工具。它可以将Python代码和依赖的库文件一起打包，并生成一个独立的可执行文件。使用cx_Freeze的步骤如下
从零搭建Pytorch模型教程（七）单机多卡和多机多卡训练 AI大模型探索者 pytorch 人工智能 python transformer 深度学习 ai 机器学习
前言本文主要介绍单机多卡训练和多机多卡训练的实现方法和一些注意事项。其中单机多卡训练介绍两种实现方式，一种是DP方式，一种是DDP方式。多机多卡训练主要介绍两种实现方式，一种是通过horovod库，一种是DDP方式。单机单卡训练前面我们已经介绍了一个完整的训练流程，但这里由于要介绍单机多卡和多机多卡训练的代码，为了能更好地理解它们之间的区别，这里先放一个单机单卡也就是一般情况下的代码流程。impo
PyTorch基础知识讲解（一）完整训练流程示例苏雨流丰机器学习 pytorch 人工智能 python 机器学习深度学习
文章目录Tutorial1.数据处理2.网络模型定义3.损失函数、模型优化、模型训练、模型评价4.模型保存、模型加载、模型推理Tutorial大多数机器学习工作流程涉及处理数据、创建模型、优化模型参数和保存训练好的模型。本教程向你介绍一个用PyTorch实现的完整的ML工作流程，并提供链接来了解这些概念中的每一个。我们将使用FashionMNIST数据集来训练一个神经网络，预测输入图像是否属于以下
Python连接StarRocks全流程实践: SQL文件调用与Pandas混合优化 ToreanonyTang python sql pandas 数据库开发语言
文章目录一环境准备与连接方法1.安装核心依赖库2.连接字符串配置3.多模式连接验证二SQL文件调用与动态执行1.外部SQL文件结构设计2.Python动态加载执行三Pandas混合使用技巧1.查询结果直接转DataFrame2.批量数据写入优化四深度性能优化策略1.StarRocks服务端优化2.Python客户端优化3.混合计算策略五完整业务场景示例1:用户转化漏斗业务场景实现代码公用表表达式(
机器学习中的贝叶斯网络：如何构建高效的风险预测模型 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术文章目录机器学习中的贝叶斯网络：如何构建高效的风险预测模型1.背景介绍2.基本概念术语说明2.1马尔科夫随机场（MarkovRandomField）2.2条件随机场（ConditionalRandomField，CRF）2.3变量elimination算法2.4贝叶斯网络3.核心算法原理和具体操作步骤以及数学公式讲解3.1原理介绍1.贝叶斯网络基础2.贝叶斯网络构建风险
【机会约束、鲁棒优化】机会约束和鲁棒优化研究优化【ccDCOPF】研究（Matlab代码实现）科研_G.E.M. matlab 概率论开发语言
‍个人主页欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录1概述机会约束、鲁棒优化与ccDCOPF研究综述1.机会约束规划（ChanceConstrainedProgramming,CCP）在电力系统中的应用2.鲁棒优化（RobustOptimization,RO）在电力系统中的应用3.机会约束与鲁棒优化的协同方法
yolov8实战第七天——pyqt5-yolov8实现车牌识别系统（参考论文（约7000字）+环境配置+完整部署代码+代码使用说明+训练好的模型）学术菜鸟小晨 yolov8实战100天 python YOLO pyqt5 车牌识别毕业设计论文
基于pyqt5-yolov8实现车牌识别系统，包括图片车牌识别，视频车牌识别，视频流车牌识别。效果展示（图片检测，检测到的内容添加到历史记录）：效果展示（视频检测，视频车辆只会添加一条记录，下文更多实际应用中的优化策略）：新增功能：批量图片检测（2024/5/7更新代码）
基于交替方向乘法（ADMM）的PAPR约束下传输波束成形器设计的方法研究（Matlab代码实现）创新优化代码学习 matlab 前端算法
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录1概述2运行结果3参考文献4Matlab代码、数据、文章下载1概述上一次介绍的是用Python代码编程的，这次用Matlab代码实现。回顾见：基于交替方向乘法（ADMM）的PAPR约束下传输波束成形器设计的方法研究（Python代码实现）摘要本文研究了峰值平均功率比(
红宝书第十一讲：超易懂版「ES6类与继承」零基础教程：用现实例子+图解实现 kovlistudio 前端 es6 javascript 开发语言前端学习
红宝书第十一讲：超易懂版「ES6类与继承」零基础教程：用现实例子+图解实现资料取自《JavaScript高级程序设计（第5版）》。查看总目录：红宝书学习大纲一、ES6类的核心语法：把事物抽象成“模板”想象你要设计一款「动物养成游戏」，需要创建多种动物对象。ES6的class就是一个代码模板：//基础类（Animal是模板，有名称和吃东西方法）classAnimal{constructor(name
GTC 2025 中文在线解读扫地的小何尚人工智能 NVIDIA GPU 深度学习机器学习
GTC2025中文在线解读｜CUDA最新特性与未来[WP72383]NVIDIAGTC大会火热进行中，一波波重磅科技演讲让人应接不暇，3月24日，NVIDIA企业开发者社区邀请KenHe、YipengLi两位技术专家，面向开发者，以中文深度拆解GTC2025四场重磅开发技术相关会议，直击AI行业应用痛点，破解前沿技术难题!作为GPU计算领域的基石，CUDA通过其编程语言、编译器、运行时环境及核心库
Flutter Dart 异步支持全面解析顾林海 Flutter系列教程 flutter android 开发语言 dart 前端
引言在Flutter开发中，Dart语言提供了强大的异步支持机制。异步编程能够让程序在执行耗时操作（如网络请求、文件读写等）时，不会阻塞主线程，从而保证用户界面的流畅性和响应性。本文将详细介绍Dart中常见的异步编程方式，包括Future、async/await和Stream，并结合代码示例进行说明。1.同步与异步的概念同步编程在同步编程中，程序按照代码的顺序依次执行，当遇到耗时操作时，程序会阻塞
本地运行Claude 3.7：成本与灵活性的双重优势真智AI python 数据库人工智能 RAG 开发语言
您可能会问：为什么要像Claude3.7这样的专有模型在本地运行，尤其是当我的数据仍需发送到Anthropic的服务器时？为什么还要费劲地将其集成到本地？其实，有两个主要原因。第一，成本。在本地运行模型可以让您只为实际使用量付费，而不是每月固定支付20美元。这对于使用频率低或有限的用户来说，更加经济实惠。第二，灵活性。通过本地使用API，您可以将模型无缝集成到代码编辑器中，构建适合您工作区的自定义
优化 Java 数据结构选择与使用，提升程序性能与可维护性 A-Kamen java 数据结构开发语言
引言在软件开发中，数据结构的选择是影响程序性能、内存使用以及代码可维护性的关键因素之一。Java作为一门广泛使用的编程语言，提供了丰富的内置数据结构，如数组、链表、栈、队列、树、图以及集合框架中的各种接口实现（如List,Set,Map等）。然而，面对不同的应用场景，如何合理地选择和优化数据结构，成为了一个值得深入探讨的话题。本文将介绍几种常见的Java数据结构，并探讨如何根据实际需求进行优化选择
用 pytorch 从零开始创建大语言模型（零）：汇总墨绿色的摆渡人用 pytorch 从零开始创建大语言模型 pytorch 语言模型人工智能
用pytorch从零开始创建大语言模型（零）：汇总本系列官方代码库：https://github.com/rasbt/LLMs-from-scratch/tree/main官方书籍：BuildaLargeLanguageModel(FromScratch)本系列文章：用pytorch从零开始创建大语言模型（一）：理解大型语言模型用pytorch从零开始创建大语言模型（二）：待更新用pytorch从
Next：Error: Image with src “https://via.placeholder.com/50“ is missing required “height“ property. dingcho 前端 SEO react 前端 mui
在Next.js中使用next/image组件时，需要同时提供width和height属性，或者使用fill属性。你遇到的错误提示表明缺少height属性，下面是修正后的代码：setIsLoading(false)}onError={()=>setIsLoading(false)}/>
【43】单片机编程核心技巧：指针基础与应用详解智木芯语【编程技巧】单片机嵌入式硬件 #STM32 #STC8 嵌入式
【43】单片机编程核心技巧：指针基础与应用详解七律·指针寻址指针寻址变量间，间接操作更灵活。数组处理显优势，常量绑定守规则。绑定卸装需谨慎，地址自增效率高。C语言魂在指针，编程精髓需掌握。摘要本文系统阐述C语言指针的基础概念、操作方法及应用场景，涵盖指针与普通变量的对比、数组处理、常量指针特性等内容。通过代码示例与流程图解析，阐明指针的间接操作优势及内存寻址机制。文档遵循模块化设计规范，结合嵌入式
企业微信机器人与DeepSeek结合实现交互的应用案例老胖闲聊办公自动化企业微信机器人交互
以下是一个结合企业微信机器人与深度求索（Deepseek）AIGC模型的交互式应用实现示例，包含完整代码及逐行注释：1.实现架构用户消息->企业微信服务器->自建服务端->DeepseekAPI->处理响应->返回企业微信群2.完整实现代码（deepseek_wechat_bot.py）#-*-coding:utf-8-*-importosimportjsonimportrequestsfromf
机器臂运动控制算法工程师面试道亦无名面试算法人工智能机器学习
大厂的经验总结：一、基础概念理解请解释机器臂运动学正解和逆解的概念，并分别说明其用途。正解：已知机器臂各关节的角度（或位移），通过运动学模型计算出机器臂末端执行器在笛卡尔空间中的位置和姿态。用途在于可以根据给定的关节驱动值，预测末端的实际位置，用于运动仿真、路径验证等，比如在工业生产前模拟机器臂的动作是否能准确到达加工位置。逆解：已知机器臂末端执行器在笛卡尔空间中的期望位置和姿态，求解出各关节应处
软件测试基础知识必备之浅谈单元测试程序员阿沐软件测试软件测试单元测试
什么是单元测试？单元测试是指，对软件中的最小可测试单元在与程序其他部分相隔离的情况下进行检查和验证的工作，这里的最小可测试单元通常是指函数或者类。单元测试都是以自动化的方式执行，所以在大量回归测试的场景下更能带来高收益。单元测试代码里提供函数的使用示例，因为单元测试的具体表现形式就是对函数以各种不同输入参数组合进行调用。如何做好单元测试？1）代码的基本特征与产生错误的原因无论是开发语言还是脚本语言
Java高并发容器的内核解析：从无锁算法到分段锁的架构演进猿享天开开发语言 java
《Java高并发容器的内核解析：从无锁算法到分段锁的架构演进》本文将以JUC包核心容器为切入点，深入剖析ConcurrentHashMap在Java8中的64位Hash分段技术，解密LinkedBlockingQueue双锁队列设计的吞吐量秘密，并给出各容器在亿级流量场景下的性能压测对比与选型决策矩阵。一、BlockingQueue体系：生产者-消费者模式的工业级实现1.阻塞队列的四大行为矩阵行为
开源文档管理系统教程戚逸玫Silas
开源文档管理系统教程document-management-systemOpenKMisaOpenSourceDocumentManagementSystem项目地址:https://gitcode.com/gh_mirrors/do/document-management-system1.项目的目录结构及介绍openkm/├──src/│├──main/││├──java/││└──resour
C++ 各种map对比越甲八千【道阻且长C++】c++哈希算法开发语言
文章目录特点比较1.`std::map`2.`std::unordered_map`3.`std::multimap`4.`std::unordered_multimap`5.`hash_map`（SGISTL扩展）C++示例代码代码解释特点比较1.std::map底层实现：基于红黑树（一种自平衡的二叉搜索树）。元素顺序：元素按照键（key）的升序排列。键的唯一性：每个键只能出现一次，插入重复键的
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><

聚类分析（K-means算法）

1 聚类分析

1.1 相似度与距离度量

1.2 聚类算法 及 划分方法

2 聚类模型评估（优缺点）

3 K-means 在 sklearn方法

4 确定K值–肘部法则–SSE

5 模型评估指标–轮廓系数法–最近簇

5.1 轮廓系数

5.2 最近簇定义—平均轮廓系数 [0,1]：

5.3、Canopy算法配合初始聚类

6 K-mean 优化

6.1 K-means++优化

6.2 映射到高维（Kernel k-means）

6.3 二分法（二分K-means）

6.4 Mini Batch K-Means（分批处理）

6.5 迭代自组织数据分析算法（ISODATA）

6.6 基于MCMC采样的算法

6.7 AFK-MC^2

附：马尔可夫链蒙特卡洛方法

7 以下代码演示：请点击

K-means 肘部法则（确定K值）

K-means 轮廓系数法（验证K值）

Mini Batch K-Means（适合大数据的聚类算法）

你可能感兴趣的:(机器学习—算法及代码)

1.2 聚类算法及划分方法