VernonJsn

无监督学习-K均值聚类

1. 聚类算法

1.1 聚类(Clustering)的定义

1.2 分类 vs. 聚类

1.3 外部准则

1.4 聚类的要求

1.5 偏平聚类 vs. 层次聚类

2. K-Means算法

2.1 扁平算法

2.2 K-均值聚类算法

2.3 实例

2.4 K-均值聚类算法步骤

2.5 实战

2.6 K-均值算法的决定性因素

3. 层次聚类算法

3.2 层次聚类算法分类

3.3 层次凝聚算法（HAC）

3.4 关键问题：如何定义簇相似度

3.5 实战--簇间相似度

3.6 实战

1. 聚类算法

1.1 聚类(Clustering)的定义

有一天老板给你一堆数据，然后他说，你给我分出几类来

        聚类目的在将相似的事物归类。聚类分析又称为“同质分组”或者“无监督的分类指把一组数据分成不同的“簇”，每簇中的数据相似而不同簇间的数据则距离较远。
        ●簇内文档之间应该彼此相似
        ●簇间文档之间差异大
无监督意味着没有已标注好的数据集

提出一个算法来寻找该例中的簇结构

1.2 分类 vs. 聚类

        ■分类:有监督的学习.
        ■聚类:无监督的学习
        ■分类:类别事先人工定义好，并且是学习算法的输入的一部分
        ■聚类:簇在没有人工输入的情况下从数据中推理而得
        但是，很多因素会影响聚类的输出结果:簇的个数、相似度计算方法、文档的表示方式，等等

1.3 外部准则

基于已有标注的标准数据集来进行聚类评价
目标:聚类结果和给定分类结果一致(当然，聚类中我们并不知道最后每个簇的标签，而只是关注如何将文档分到不同的组中)
一个评价指标:纯度(purity)

计算纯度公式：

$\Omega =\left \{ \omega _{1} , \omega _{2} ,..., \omega _{k} \right \}$ 是簇的集合
$C=\left \{ c_{1},c_{2},...c_{j}\right \}$ 是类别的集合
对每个簇 $\omega _{k}$ :找到一个类别 $c_{j}$ ，该类别包含 $\omega _{k}$ 中的元素最多，为 $n_{kj}$ 个,也就是说 $\omega _{k}$ 的元素最多分布在 $c_{j}$ 中
将所有 $n_{kj}$ 求和，然后除以所有的文档数目

计算纯度的例子：

为计算纯度：

        maxj| w1∩cj|= 5 (class x, cluster 1); ( 6个里面有5个叉叉)
        maxj |w2∩cj | =4 (class O, cluster 2);
        maxj |w3∩cj|= 3 (class $\lozenge$ , cluster 3)
        纯度为：(1/17) X (5+ 4+ 3)≈0.71.

1.4 聚类的要求

        一般目标:将相关文档放到- -个簇中，将不相关文档放到不同簇中如何对.上述目标进行形式化?
                ●簇的数目应该合适，以便与聚类的数据集相吻合
                ●一开始，我们假设给定簇的数目为K。
        聚类的其它目标
                ●避免非常小和非常大的簇
                ●定义的簇对用户来说很容易理解

1.5 偏平聚类 vs. 层次聚类

        扁平算法
                ●通过一开始将全部或部分文档随机划分为不同的组通过迭代方式不断修正
                ●代表算法: K-均值聚类算法
        层次算法.
                ●构建具有层次结构的簇
                ●自底向上(Bottom-up)的算法称为凝聚式(agglomerative)算法
                ●自顶向下(Top-down)的算法称为分裂式(divisive)算法

2. K-Means算法

2.1 扁平算法

        ➢扁平算法步骤
                ●扁平算法将N篇文档划分成K个簇
                ●给定一个文档集合及聚类结果簇的个数K
                ●寻找一个划分将这个文档集合分成K个簇,该结果满足某个最优划分准则
        ➢全局优化:穷举所有的划分结果，从中选择最优的那个划分结果
                ●无法处理
        ➢高效的启发式方法: K-均值聚类算法

         K平均聚类发明于1956年，该算法最常见的形式是采用被称为劳埃德算法(Lloyd algorithm)的迭代式改进探索法。
        ●劳埃德算法首先把输入点分成k个初始化分组，可以是随机的或者使用一些启发式数据。
        ●然后计算每组的中心点，根据中心点的位置把对象分到离它最近的中心，重新确定分组。
        ●继续重复不断地计算中心并重新分组。
        ●直到收敛，即对象不再改变分组( 中心点位置不再改变)。

2.2 K-均值聚类算法

        ➢或许是最著名的聚类算法
        ➢算法十分简单，但是在很多情况下效果不错
        ➢是文档聚类的默认或基准算法

K是什么? k是聚类算法当中类的个数。means是什么? means是均值算法。总而言之，Kmeans是用均值算法把数据分成K个类的算法!

K-均值聚类算法中的每个簇都定义为其质心向量
划分准则:使得所有文档到其所在簇的质心向量的平方和最小
质心向量的定义:其中w代表-个簇

        通过下列两步来实现目标优化:
                ●重分配(reassignment): 将每篇文档分配给离它最近的簇
                ●重计算(recomputation):重新计算每个簇的质心向量

2.3 实例

首先我们要把一下数据分成两类：

(1)我们随机选取两个种子（K-2)

（2)将文档分配给离它最近的质心向量(第一次)====>(3)分配后的簇(第一次)

           (4)重新计算质心向量;(5)将文档分配给离它最近的质心向量(第二次);(6)重新分配的结果;
           (7)重新计算质心向量;(8)再重新分配(第三次);(9)分配结果
                (10)重新计算质心向量;(11)再重新分配(第四次);(12)分配结果
                (13)重新计算质心向量;(14)再重新分配(第五次);(15)分配结果
                (16)重新计算质心向量;(17)再重新分配(第六次);(18)分配结果
                (19)重新计算质心向量;(20)再重新分配(第七次);(21)分配结果
        (22)重新计算质心向量;(23)质心向量和分配结果最终收敛

2.4 K-均值聚类算法步骤

    K-均值聚类算法- -定是收敛的
        ●但是不知道达到收敛所需要的时间!
        ●如果不太关心少许文档在不同簇之间来回交叉的话，收敛速度通常会很快(< 10-20次迭代)
        ●但是，完全的收敛需要多得多的迭代过程
        K-means的损失函数是平方误差:

总结：

        在已知簇的个数时，可很好地实现数据的聚类分析。
        基本思想:
                ●首先，随机选择k个数据点做为聚类中心
                ● 然后，计算其它点到这些聚类中心点的距离，通过对簇中距离平均值的计算，不断改变这些聚类中心的位置，直到这些聚类中心不再变化为止。如图所示：

2.5 实战

数据存在testSet.txt文件中，部分截图：（两列数据）

分析数据实现代码：

import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
#先分析数据
fr=open('testSet.txt')
numberOfLines=len(fr.readlines())#读出总行数
fr.close();

dataset= np.zeros((numberOfLines,2))#定义一个行数+2列的矩阵
fr = open('testSet.txt')
index = 0
for line in fr.readlines():
    listFromLine = line.split('\t')#文件以‘\t’进行分割
    dataset[index,0] = listFromLine [0]
    dataset[index,1] = listFromLine [1]
    index += 1
fr.close();
print(dataset)
plt.scatter(dataset[:,0], dataset[:,1])#通过绘图把数据显示出来

实现结果：

我们可以看出数据存在4中分类结果，然后我们使用K-Means算法去分类

实现代码：

model=KMeans(n_clusters=4)
model.fit(dataset)
print(model.cluster_centers_)#打印聚类中心
plt.scatter(dataset[:,0],dataset[:,1],c=model.labels_)

实现结果：

2.6 K-均值算法的决定性因素

        1）始中心点
        2）输入的数据及K值的选择
        3）距离度量

2.6.1 初始化

初始值敏感:初始化4个类别中心，左侧的全体数据仅与第-个类别中心相似。

        ➢种子的随机选择只是K-均值聚类算法的一种初始化方法之一
        ➢ 随机选择不太鲁棒：可能会获得一个次优的聚类结果
        ➢一些确定初始质心向量的更好办法：
                • 非随机地采用某些启发式方法来选择种子(比如，过滤掉一些离群点，或者寻找具有较好文档空间覆盖度的种子集合)
                 • 采用层级聚类算法寻找好的种子
                •选择 i (比如 i = 10) 次不同的随机种子集合，对每次产生的随机种子集合运行K-均值聚类算法，最后选择具有最小RSS值的聚类结果，即多做几次选最好的。

2.6.2 簇个数的确定

    • 在很多应用中，簇个数K是事先给定的，比如，可能存在对K的外部限制
    • 如果没有外部的限制会怎样?是否存在正确的簇个数?
    • 一种办法:定义一个优化准则（簇间距离大，簇内距离小）我们可以将簇间与簇内的距离量化。
连续值的相似度计算：

二值离散型的相似度计算：

1）二值离散型属性只有0和1两个取值。
●其中: 0表示该属性为空，1表示该属性存在。
●例如:描述病人的是否抽烟的属性(smoker)，取值为1表示病人抽烟，取值0表示病人不抽烟。

2）假设两个样本Xi和Xj分别表示成如下形式:
                ■ $X_{i}=\left ( x_{i1},x_{i2},...x_{ip} \right )$
                ■ $X_{j}=\left ( x_{j1},x_{j2},...x_{jp} \right )$
                ●它们都是p维的特征向量，并且每维特征都是一个二值离散型数值。

计算方式如下：

1)假设二值离散型属性的两个取值具有相同的权重，则可以得到一-个两行两列的可能性矩阵。

2)如果样本的属性都是对称的二值离散型属性，则样本间的距离可用简单匹配系数(Simple Matching Coefficients, SMC)计算: $SMC=\frac{b+c}{a+b+c+d}$ ，通俗来说就是不相同除以相同

●其中:对称的二值离散型属性是指属性取值为1或者0同等重要。
●例如:性别就是一个对称的二值离散型属性，即:用1表示男性，用0表示女性;或者用0表示男性，用1表示女性是等价的，属性的两个取值没有主次之分。

3)如果样本的属性都是不对称的二值离散型属性，则样本间的距离可用Jaccard系数计算(Jaccard Coefficients, JC): $JC=\frac{b+c}{a+b+c}$

●其中:不对称的二值离散型属性是指属性取值为1或者0不是同等重要。
●例如:血液的检查结果是不对称的二值离散型属性，阳性结果的重要程度高于阴性结果，因此通常用1来表示阳性结果，而用0来表示阴性结果。

为了更加了解这个计算过程，举个例子：

例:已知两个样本p=[1 00 0000000]和q= [000000100 1]，可以得出a=0，b=1，c=2，d=7
$SMC=\frac{b+c}{a+b+c+d}=\frac{1+2}{0+1+2+7}=0.3$ $JC=\frac{b+c}{a+b+c}=\frac{1+2}{0+1+2}=1$

3. 层次聚类算法

层次聚类的目标是生成类似于目录的一个层次结构:

这个层次结构是自动创建的，可以通过自顶向下或自底向上的方法来实现。

3.1 定义

3.2 层次聚类算法分类

对给定的数据集进行层次分解:
●自底向上方法(合并) :开始时，将每个样本作为单独的一个组;然后，依次合并相近的样本或组，直至所有样本或组被合并为一个组或者达到终止条件为止。
代表算法: AGNES算法

●自顶向下方法(分裂) :开始时，将所有样本置于一个簇中;然后，执行迭代，在迭代的每一步中，一个簇被分裂为多个更小的簇，直至每个样本分别在一-个单独的簇中或者达到终止条件为止。
代表算法: DIANA算法

3.3 层次凝聚算法（HAC）

HAC会生成一棵二叉树形式的类别层次结构，到目前为止，我们的相似度都定义在文档之间，现在我们假设相似度定义在两个簇之间，接下来我们考察不同的簇相似度计算方法。

        1)一开始每篇文档作为一个独立的簇
        2)然后，将其中最相似的两个簇进行合并
        3)重复上一步直至仅剩一个簇
        4)整个合并的历史构成一个二叉树
        5)一个标准的描述层次聚类合并历史的方法是采用树状图(dendrogram)

3.4 关键问题：如何定义簇相似度

        1）单连接(Single-link): 最大相似度
                ●计算任意两篇文档之间的相似度，取其中的最大值
        2）全连接(Complete-link): 最小相似度
                ●计算任意两篇文档之间的相似度，取其中的最小值
        3）质心法:平均的类间相似度
                ●所有的簇间文档对之间相似度的平均值(不包括同- -个簇内的文档之间的相似度)
                ●这等价于两个簇质心之间的相似度
        4）组平均(Group-average): 平均的类内和类间相似度
                所有的簇间文档对之间相似度的平均值(包括同一个簇内的文档之间的相似度)

簇间距离：

3.5 实战--簇间相似度

单链接步骤：最大相似度(最短距离)
        ●定义样品之间距离，计算样品的两两距离,得一距离阵记为D(0)，开始每个样品自成一类，显然这时Dij =dij。
        ●找出距离最小元素，设为Dpq,则将Gp和Gq合并成一个新类，记为Gr，即Gr= {Gp，Gq}。
        ●计算新类与其它类的距离。
        ●重复第2、3两步，直到所有元素。并成一类为止。如果某一步距离最小的元素不止一个，则对应这些最小元素的类可以同时合并

单连接:最大相似度(最短距离) 全连接:最小相似度，

质心法：组平均法：

3.6 实战

例子:采用单连接和全连接方法进行聚类

单连接 vs. 全连接

单连接方法的链化(Chaining)现象:

单连接聚类算法往往产生长的、凌乱的簇结构。对大部分应用来说，这些簇结构并不是所期望的。

全连接法:对离群点非常敏感

全连接聚类将d2和它的正确邻居分开----这显然不是我们所需要的；出现上述结果的最主要原因是存在离群点d1；这也表明单个离群点的存在会对全连接聚类的结果起负面影响；单连接聚类能够较好地处理这种情况。

目标检测YOLO实战应用案例100讲-基于深度学习的无人机目标检测算法轻量化研究（中）林聪木目标检测 YOLO 深度学习
目录基于改进YOLOv5的无人机图像实时目标检测4.1引言4.2基于改进YOLOv5的目标检测模型结构4.3消融实验及结果分析4.4算法迁移验证实验基于Jetson-Xavier的模型优化部署5.1引言5.2基于人在回路的目标检测模型裁剪5.3嵌入式实时目标检测交互软件基于深度学习的无人机目标检测算法轻量化研究知识拓展基于YOLOv8/YOLOv7/YOLOv6/YOLOv5的无人机目标检测1.数
「战友」变「对手」：Pump.fun 与 Raydium 正式打响争夺 Solana Memecoin 市场的战役比特币区块链web3
作者：Techub热点速递撰文：Yangz，TechubNews在关于Pump.fun将开发自家AMM的传闻发酵近一个月后，这一Solana生态龙头Memecoin发行平台今日正式宣布推出原生DEX——PumpSwap。加上本周早些时候Blockworks爆料的Raydium也将推出原生Memecoin发行平台LaunchLab的消息，曾经的「战友」已然变成了「对手」，争夺SolanaMemeco
云智慧：拥抱AI算法驱动的智能运维服务创新引擎
随着信息化、数字化、智能化的加码，企业对人工智能、大数据等技术应用呈现出明显兴趣，海笔研究对国内中型规模企业调研表明，在2020年，54.1%的企业选择购买人工智能类应用，41.9%的企业选择购买大数据及BI类应用，各类产品软件的应用大幅提升了企业信息系统复杂度，以及运维管理难度。业务发展催生服务需求从系统管理者角度出发，信息系统从“单机Excel表格”到“集中式单系统”再到“微服务、云架构”等，
双指针与二分算法打不了嗝蓝桥杯 c++算法
一.双指针1.基本介绍双指针算法是一种暴力枚举的优化算法，他也被叫做尺取法或者滑动窗口。当我们发现算法需要两次for循环时并且两个指针可以不回退，我们可以利用双指针来优化算法复杂度。2.例题详解题目描述企业家Emily有一个很酷的主意：把雪花包起来卖。她发明了一台机器，这台机器可以捕捉飘落的雪花，并把它们一片一片打包进一个包裹里。一旦这个包裹满了，它就会被封上送去发售。Emily的公司的口号是“把
算法刷题区域部分反转无敌的牛算法算法
不断创建数组，相加，利用cpp内字符串相加的性质即可。具体代码如下：classSolution{public:stringreverseStr(strings,intk){intsize=s.size();intcount=size/(2*k);stringa;inti=0;for(i=0;ik){reverse(a2.begin(),a2.begin()+k);}else{reverse(a2.
优选算法训练篇07--力扣LCR179.查找总价格为目标值的两个商品大胆飞猪算法训练篇算法 leetcode
目录1.题目链接：LCR179.查找总价格为目标值的两个商品2.题目描述：3.解法一(暴力解法，会超时)：4.解法二(双指针-对撞指针):1.题目链接：LCR179.查找总价格为目标值的两个商品2.题目描述：购物车内的商品价格按照升序记录于数组price。请在购物车中找到两个商品的价格总和刚好是target。若存在多种情况，返回任一结果即可。示例1：输入：price=[3,9,12,15],tar
LeetCode215. 数组中的第K个最大元素 techpupil 算法快速选择 leetcode
给定整数数组nums和整数k，请返回数组中第k个最大的元素。请注意，你需要找的是数组排序后的第k个最大的元素，而不是第k个不同的元素。你必须设计并实现时间复杂度为O(n)的算法解决此问题。示例1:输入:[3,2,1,5,6,4],k=2输出:5示例2:输入:[3,2,3,1,2,4,5,5,6],k=4输出:4分析：本题我们能想到最简单的方法就是直接给数组排序，然后取第第N-k个元素，但题目要求是
AI Agent赛道：昙花一现还是生态革命？6大咖拆解泡沫与未来人工智能比特币区块链web3
作者：CRYPTO币圈不设防币圈不设防第四期Space总结：AIAgent赛道还能火多久？在Web3华语主持人茄哥的主持下，第四期《币圈不设防》围绕“AIAgent赛道还能火多久？”展开深度探讨。本期嘉宾阵容强大，包括Uweb校长于佳宁、TradingBaseAI创始人Mr.Z、BuilderLogEarn、区块链爱好者flyawei、投研博主清风#BTC，以及社区领袖小智。以下是讨论的核心观点总
SM国密算法深度解析与技术实践安全
SM国密算法深度解析与技术实践一、算法体系概述SM系列密码算法是由中国国家密码管理局发布的商用密码标准体系，涵盖非对称加密、对称加密、杂凑算法、标识密码等多个领域。其核心组件包括：SM2：基于椭圆曲线的非对称加密算法（GB/T32918）SM3：密码杂凑算法（GB/T32905）SM4：分组对称加密算法（GB/T32907）与国际算法对比类型国密算法国际标准密钥长度安全强度非对称加密SM2RSA-
梯度下降法理论理解伶星37 机器学习人工智能
梯度下降法：看似原始却透露着机器学习的本质前提：在研究梯度下降方法之前，你要理解矩阵运算（解析解）的方法矩阵运算目前的缺点只能进行对线性函数经行分析，无法对复杂的函数经行分析什么是梯度，以及梯度向量梯度下降的形象例子以及基本思想有三个兄弟被困在山上，得要死，他们目标是看谁尽快找到山谷中的水源老大比较后选择最陡的方向随便探索一下，就朝较低处走去探测几下就走陡峭的方向梯度下降算法的核心思想就是沿着负梯
2.服务器负载均衡我是一条胖咸鱼华为安全HCIP 网络服务器安全负载均衡华为
1.服务器负载均衡概述负载均衡基本概念实服务器：处理业务流量的实体服务器，客户端发送的服务请求最终是由实服务器处理的。实服务器组：由多个实服务器组成的集群，对外提供特定的一种服务。虚拟服务器：实服务器组对外呈现的逻辑形态，客户端实际访问的是虚拟服务器。负载均衡算法：FW分配业务流量给实服务器时依据的算法，不同的算法可能得到不同的分配结果。服务健康检查：FW检查服务器状态是否正常的过程，可以增强为用
AI大模型产品经理学习路线，2025最新，从AI产品经理零基础入门到精通，非常详细收藏我这一篇够了！ AGI-杠哥人工智能产品经理学习语言模型 agi 自然语言处理
随着人工智能技术的发展，尤其是大模型（LargeModel）的兴起，越来越多的企业开始重视这一领域的投入。作为大模型产品经理，你需要具备一系列跨学科的知识和技能，以便有效地推动产品的开发、优化和市场化。以下是一份详细的大模型产品经理学习路线，旨在帮助你构建所需的知识体系，从零基础到精通。一、基础知识阶段1.计算机科学基础数据结构与算法：理解基本的数据结构（如数组、链表、树、图等）和常用算法（如排序
使用 Spring Security的一些常用功能代码代码快快显灵 springsecurity spring java 前端 SpringSecurity
在实际开发中，SpringSecurity常常涉及一些常用的功能。以下是一些在开发中经常使用的SpringSecurity功能：1.PasswordEncoderBean（密码加密）这段配置使用BCryptPasswordEncoder作为密码加密算法。它是SpringSecurity中常用的密码加密方式，通常用于存储和验证用户的密码。@BeanpublicPasswordEncoderpassw
Java 大视界 -- Java 大数据在智慧农业精准灌溉与施肥决策中的应用（144）青云交大数据新视界 Java 大视界 java 大数据智慧农业精准灌溉施肥决策数据分析机器学习
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Java 大视界 -- 基于 Java 的大数据机器学习模型的多模态融合技术与应用（143）青云交大数据新视界 Java 大视界 java 大数据机器学习多模态融合智能安防智能客服数据处理
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
最小生成树C He11o__Wor1d424 c语言算法图论
最小生成树是所有节点的最小连通子图，即：以最小的成本（边的权值）将图中所有节点链接到一起。图中有n个节点，那么一定可以用n-1条边将所有节点连接到一起。Primprim算法是从节点的角度采用贪心的策略每次寻找距离最小生成树最近的节点并加入到最小生成树中。prim算法核心就是三步：第一步，选距离生成树最近节点第二步，最近节点加入生成树第三步，更新非生成树节点到生成树的距离（即更新minDist数组）
2025年第二届机器学习与神经网络国际学术会议(MLNN 2025) 分享学术科研与论文的禁小默机器学习神经网络人工智能
重要信息官网：www.icmlnn.org时间：2025年4月22-24日地点：中国-重庆简介2025年第二届机器学习与神经网络国际学术会议（MLNN2025）围绕学习系统与神经网络的核心理论、关键技术和应用展开讨论，涵盖深度学习、计算机视觉、自然语言处理、强化学习等多个子领域，通过特邀报告、主题演讲、海报展示等形式，展示相关领域的最新研究成果和技术创新。征稿主题神经网络机器学习深度学习算法及应用
代码随想录算法训练营Day19| LeetCode 77 组合、216 组合总和 III、17 电话号码的字母组合今天也要早睡早起代码随想录算法训练营跟练算法 leetcode c++数据结构递归回溯
理论基础回溯的本质是穷举，也就是暴力求解，它是递归的一部分。所有回溯法解决的问题都可以抽象为树形结构，因为回溯法解决的都是在集合中递归查找子集，集合的大小构成了树的宽度，递归的深度就构成了树的深度（cr.代码随想录）。应用回溯一般被用于以下几种问题（cr.代码随想录）的求解中：组合问题：N个数里面按一定规则找出k个数的集合切割问题：一个字符串按一定规则有几种切割方式子集问题：一个N个数的集合里有多
Python进阶之-加密库cryptography使用详解夏天Aileft Python python 网络加密
✨前言cryptography库是一个强大的Python加密库，提供了对加密算法和协议的高层和低层访问。它是用来实现数据加密、签名、密钥管理等功能的。以下是一些常见用法的详解，帮助你理解如何使用这个库。✨安装首先，你需要确保安装了cryptography库：pipinstallcryptography✨1.对称加密对称加密是指加密和解密使用相同的密钥。Fernet是cryptography库中提供
Elasticsearch 搜索引擎原理与实践 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介Elasticsearch是开源分布式搜索引擎，提供搜素、分析、数据可视化等功能。它是一个基于Lucene的全文搜索服务器，能够把结构化或非结构化的数据经过索引生成一个索引库，使其可以被搜索到。在现代Web应用中，搜索功能已经成为不可或缺的一项功能。但是传统上，传统搜索方式需要依赖于数据库查询或者其他复杂的查询接口。而Elasticsearch提供了一种高效、稳
分享：Javascript开源桌面环境-Puter ac-er8888 javascript 开发语言 ecmascript
Puter这是一个运行在浏览器里的桌面操作系统，提供了笔记本、代码编辑器、终端、画图、相机、录音等应用和一些小游戏。该项目作者出于性能方面的考虑没有选择Vue和React技术栈，而是采用的JavaScript和jQuery构建，支持Docker一键部署和在线使用。简介：Puter是一个先进的开源项目，旨在为用户提供全新的云端体验。它可以在浏览器中运行，无需安装，即可提供丰富的功能和极快的速度。功能
Python密码学：cryptography库零度° python python 密码学
在数字时代，确保数据的安全性和隐私至关重要。Python中的cryptography库是一个全面的包，为Python开发者提供了密码学原语和配方。它支持高级配方和常见密码学算法的低级接口。cryptography库概述cryptography库旨在易于使用且默认安全。它包括各种密码学操作的高级和低级API，如：对称加密非对称加密哈希函数消息认证码（MAC）数字签名密钥管理cryptography库
(python)保障信息安全的加密库-cryptography Marst·Zhang 基础知识实用工具 python
前言cryptography是一个广泛使用的Python加密库，提供了各种加密、哈希和签名算法的实现。它支持多种加密算法，如AES、RSA、ECC等，以及哈希函数（如SHA-256、SHA-384等）和数字签名算法(如DSA、ECDSA等).目录常见用途密码学函数主要功能优点缺点总结常见用途数据加密使用对称加密算法（如AES）对数据进行加密，确保数据在传输或存储过程中的机密性。数字签名生成和验证数
R.E.D.算法：革新文本分类的半监督学习新范式真智AI 算法 r语言分类人工智能学习
随着大型语言模型（LLMs）在解决问题方面的应用进入新时代，只有少数问题仍然存在不尽如人意的解决方案。大多数分类问题（在概念验证层面）可以通过良好的提示工程技术和自适应的上下文学习（ICL）示例，利用LLMs以70-90%的精确度/F1分数来解决。当您希望持续实现高于此水平的性能时——当提示工程不再足够时，会发生什么？分类难题文本分类是监督学习中最古老且最易理解的示例之一。鉴于这一前提，构建能够处
Python文件加密库之cryptography使用详解 Rocky006 python 开发语言
概要在现代信息社会中，数据的安全性变得越来越重要。为了保护敏感信息，文件加密技术被广泛应用。Python的cryptography库提供了强大的加密功能，可以轻松实现文件加密和解密。本文将详细介绍如何使用cryptography库进行文件加密，包含具体的示例代码。cryptography库简介cryptography是Python中一个功能强大且易用的加密库，提供了对称加密、非对称加密、哈希算法、
数据结构：交换排序的实现 z_鑫数据结构数据结构排序算法算法 c语言
概要交换排序是一类通过比较和交换元素位置来实现排序的算法。其核心思想是在序列中进行两两比较，若元素顺序不符合排序要求，则交换它们的位置。常见的交换排序算法包括冒泡排序和快速排序，它们在不同场景下各有优劣。整体架构流程冒泡排序从数组的第一个元素开始，依次比较相邻的两个元素；如果前一个元素大于后一个元素（假设为升序排序），则交换这两个元素的位置；对数组中的每一对相邻元素都执行上述操作，经过一轮比较后，
cryptography，一个神奇的 Python 库！ Sitin涛哥 Python python 开发语言
更多资料获取个人网站：ipengtao.com大家好，今天为大家分享一个神奇的Python库-cryptography。Github地址：https://github.com/pyca/cryptography在当今数字化时代，信息安全越来越受到重视。数据加密是保护数据安全的重要手段之一，而Python的cryptography库提供了丰富的功能来支持各种加密算法和协议。本文将深入探讨crypto
深度讨论Python for循环观智能 python 开发语言
作者的其他文章推荐：强化学习再受关注！for循环使用于遍历可迭代对象的Python语句，工作原理如下：#for循环foriteminiterable:print(item)#等价于iterator=iter(iterable)#获取迭代器whileTrue:try:item=next(iterator)#获取下一个元素print(item)exceptStopIteration:break#迭代结
操作系统笔记-番外-操作系统经典书籍推荐 VioletCherry OS学习操作系统
最近整理以前的笔记，有人问关于操作系统的书籍。我有个爱好喜欢收集书籍，前后也收集了几百本高质量的书籍，这里给大家推荐基本关于操作系统的书籍OperatingSystemConcepts10thedition又称恐龙书，这本书已经出到第10版，可见其经典。作者是想从理论层面把问题的产生和解决思路阐述清楚，包含了操作系统各个方面，是一本非常不错的入门书籍。豆瓣书评下载地址：https://github
Leetcode-100 贪心算法 LuckyAnJo leetcode leetcode 贪心算法算法
贪心算法简介贪心算法（GreedyAlgorithm）是一种常见的优化算法，用于解决最优化问题。该算法的核心思想是每次选择当前情况下的最优解，并期望通过这些局部最优解得到全局最优解。贪心算法通常用于那些可以分解为若干个子问题，且每个子问题的最优解可以合成全局最优解的问题。贪心算法之所以有用，是因为它可以快速地做出决策，并能在某些问题上实现较高的效率，避免了回溯与暴力解法的复杂度。贪心算法思想贪心算
java类加载顺序 3213213333332132 java
package com.demo; /** * @Description 类加载顺序 * @author FuJianyong * 2015-2-6上午11:21:37 */ public class ClassLoaderSequence { String s1 = "成员属性"; static String s2 = "
Hibernate与mybitas的比较 BlueSkator sql Hibernate 框架 ibatis orm
第一章 Hibernate与MyBatis Hibernate 是当前最流行的O/R mapping框架，它出身于sf.net，现在已经成为Jboss的一部分。 Mybatis 是另外一种优秀的O/R mapping框架。目前属于apache的一个子项目。 MyBatis 参考资料官网：http:
php多维数组排序以及实际工作中的应用 dcj3sjt126com PHP usort uasort
自定义排序函数返回false或负数意味着第一个参数应该排在第二个参数的前面, 正数或true反之, 0相等usort不保存键名uasort 键名会保存下来uksort 排序是对键名进行的 <!doctype html> <html lang="en"> <head> <meta charset="utf-8&q
DOM改变字体大小周华华前端
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
c3p0的配置 g21121 c3p0
c3p0是一个开源的JDBC连接池，它实现了数据源和JNDI绑定，支持JDBC3规范和JDBC2的标准扩展。c3p0的下载地址是：http://sourceforge.net/projects/c3p0/这里可以下载到c3p0最新版本。以在spring中配置dataSource为例：  <bean name="prope
Java获取工程路径的几种方法 510888780 java
第一种： File f = new File(this.getClass().getResource("/").getPath()); System.out.println(f); 结果: C:\Documents%20and%20Settings\Administrator\workspace\projectName\bin 获取当前类的所在工程路径; 如果不加“
在类Unix系统下实现SSH免密码登录服务器 Harry642 免密 ssh
1.客户机 (1)执行ssh-keygen -t rsa -C "[email protected]"生成公钥，xxx为自定义大email地址 (2)执行scp ~/.ssh/id_rsa.pub root@xxxxxxxxx:/tmp将公钥拷贝到服务器上，xxx为服务器地址 (3)执行cat
Java新手入门的30个基本概念一 aijuans java java 入门新手
在我们学习Java的过程中,掌握其中的基本概念对我们的学习无论是J2SE,J2EE,J2ME都是很重要的,J2SE是Java的基础,所以有必要对其中的基本概念做以归纳,以便大家在以后的学习过程中更好的理解java的精髓,在此我总结了30条基本的概念。　　Java概述:　　目前Java主要应用于中间件的开发(middleware)---处理客户机于服务器之间的通信技术,早期的实践证明,Java不适合
Memcached for windows 简单介绍 antlove java Web windows cache memcached
1. 安装memcached server a. 下载memcached-1.2.6-win32-bin.zip b. 解压缩，dos 窗口切换到 memcached.exe所在目录，运行memcached.exe -d install c.启动memcached Server,直接在dos窗口键入 net start "memcached Server&quo
数据库对象的视图和索引百合不是茶索引 oeacle数据库视图
视图视图是从一个表或视图导出的表，也可以是从多个表或视图导出的表。视图是一个虚表，数据库不对视图所对应的数据进行实际存储，只存储视图的定义，对视图的数据进行操作时,只能将字段定义为视图,不能将具体的数据定义为视图为什么oracle需要视图; &
Mockito(一) --入门篇 bijian1013 持续集成 mockito 单元测试
Mockito是一个针对Java的mocking框架，它与EasyMock和jMock很相似，但是通过在执行后校验什么已经被调用，它消除了对期望行为（expectations）的需要。其它的mocking库需要你在执行前记录期望行为（expectations），而这导致了丑陋的初始化代码。 &nb
精通Oracle10编程SQL(5)SQL函数 bijian1013 oracle 数据库 plsql
/* * SQL函数 */ --数字函数 --ABS(n):返回数字n的绝对值 declare v_abs number(6,2); begin v_abs:=abs(&no); dbms_output.put_line('绝对值：'||v_abs); end; --ACOS(n):返回数字n的反余弦值，输入值的范围是-1~1，输出值的单位为弧度
【Log4j一】Log4j总体介绍 bit1129 log4j
Log4j组件：Logger、Appender、Layout Log4j核心包含三个组件：logger、appender和layout。这三个组件协作提供日志功能：日志的输出目标日志的输出格式日志的输出级别(是否抑制日志的输出) logger继承特性 A logger is said to be an ancestor of anothe
Java IO笔记白糖_ java
public static void main(String[] args) throws IOException { //输入流 InputStream in = Test.class.getResourceAsStream("/test"); InputStreamReader isr = new InputStreamReader(in); Bu
Docker 监控 ronin47 docker监控
目前项目内部署了docker，于是涉及到关于监控的事情，参考一些经典实例以及一些自己的想法，总结一下思路。 1、关于监控的内容监控宿主机本身监控宿主机本身还是比较简单的，同其他服务器监控类似，对cpu、network、io、disk等做通用的检查，这里不再细说。额外的，因为是docker的
java-顺时针打印图形 bylijinnan java
一个画图程序要求打印出： 1.int i=5; 2.1 2 3 4 5 3.16 17 18 19 6 4.15 24 25 20 7 5.14 23 22 21 8 6.13 12 11 10 9 7. 8.int i=6 9.1 2 3 4 5 6 10.20 21 22 23 24 7 11.19
关于iReport汉化版强制使用英文的配置方法 Kai_Ge iReport汉化英文版
对于那些具有强迫症的工程师来说，软件汉化固然好用，但是汉化不完整却极为头疼，本方法针对iReport汉化不完整的情况，强制使用英文版，方法如下：在 iReport 安装路径下的 etc/ireport.conf 里增加红色部分启动参数，即可变为英文版。 # ${HOME} will be replaced by user home directory accordin
[并行计算]论宇宙的可计算性 comsci 并行计算
现在我们知道,一个涡旋系统具有并行计算能力.按照自然运动理论,这个系统也同时具有存储能力,同时具备计算和存储能力的系统,在某种条件下一般都会产生意识...... 那么,这种概念让我们推论出一个结论 &nb
用OpenGL实现无限循环的coverflow dai_lm android coverflow
网上找了很久，都是用Gallery实现的，效果不是很满意，结果发现这个用OpenGL实现的，稍微修改了一下源码，实现了无限循环功能源码地址： https://github.com/jackfengji/glcoverflow public class CoverFlowOpenGL extends GLSurfaceView implements GLSurfaceV
JAVA数据计算的几个解决方案1 datamachine java Hibernate 计算
老大丢过来的软件跑了10天，摸到点门道，正好跟以前攒的私房有关联，整理存档。 -----------------------------华丽的分割线------------------------------------- 数据计算层是指介于数据存储和应用程序之间，负责计算数据存储层的数据，并将计算结果返回应用程序的层次。J &nbs
简单的用户授权系统,利用给user表添加一个字段标识管理员的方式 dcj3sjt126com yii
怎么创建一个简单的(非 RBAC)用户授权系统通过查看论坛，我发现这是一个常见的问题，所以我决定写这篇文章。本文只包括授权系统.假设你已经知道怎么创建身份验证系统(登录)。数据库首先在 user 表创建一个新的字段(integer 类型),字段名 'accessLevel',它定义了用户的访问权限扩展 CWebUser 类在配置文件(一般为 protecte
未选之路 dcj3sjt126com 诗
作者:罗伯特*费罗斯特黄色的树林里分出两条路, 可惜我不能同时去涉足, 我在那路口久久伫立, 我向着一条路极目望去, 直到它消失在丛林深处. 但我却选了另外一条路, 它荒草萋萋,十分幽寂; 显得更诱人,更美丽, 虽然在这两条小路上, 都很少留下旅人的足迹. 那天清晨落叶满地, 两条路都未见脚印痕迹. 呵,留下一条路等改日再
Java处理15位身份证变18位蕃薯耀 18位身份证变15位 15位身份证变18位身份证转换
15位身份证变18位，18位身份证变15位 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--应用上下文配置【AppConfig】 hanqunfeng springmvc4
从spring3.0开始，Spring将JavaConfig整合到核心模块，普通的POJO只需要标注@Configuration注解，就可以成为spring配置类，并通过在方法上标注@Bean注解的方式注入bean。 Xml配置和Java类配置对比如下： applicationContext-AppConfig.xml <!-- 激活自动代理功能参看：
Android中webview跟JAVASCRIPT中的交互 jackyrong JavaScript html android 脚本
在android的应用程序中,可以直接调用webview中的javascript代码,而webview中的javascript代码,也可以去调用ANDROID应用程序(也就是JAVA部分的代码).下面举例说明之: 1 JAVASCRIPT脚本调用android程序要在webview中,调用addJavascriptInterface(OBJ,int
8个最佳Web开发资源推荐 lampcy 编程 Web 程序员
Web开发对程序员来说是一项较为复杂的工作，程序员需要快速地满足用户需求。如今很多的在线资源可以给程序员提供帮助，比如指导手册、在线课程和一些参考资料，而且这些资源基本都是免费和适合初学者的。无论你是需要选择一门新的编程语言，或是了解最新的标准，还是需要从其他地方找到一些灵感，我们这里为你整理了一些很好的Web开发资源，帮助你更成功地进行Web开发。这里列出10个最佳Web开发资源，它们都是受
架构师之面试------jdk的hashMap实现 nannan408 HashMap
1.前言。如题。 2.详述。 (1)hashMap算法就是数组链表。数组存放的元素是键值对。jdk通过移位算法（其实也就是简单的加乘算法），如下代码来生成数组下标(生成后indexFor一下就成下标了）。 static int hash(int h) { h ^= (h >>> 20) ^ (h >>>
html禁止清除input文本输入缓存 Rainbow702 html 缓存 input 输入框 change
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; <input type="text" autocomplete="off" n
POJO和JavaBean的区别和联系 tjmljw POJO java beans
POJO 和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Pure Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比 POJO复杂很多， Java Bean 是可复用的组件，对 Java Bean 并没有严格的规
java中单例的五种写法 liuxiaoling java 单例
/** * 单例模式的五种写法： * 1、懒汉 * 2、恶汉 * 3、静态内部类 * 4、枚举 * 5、双重校验锁 */ /** * 五、双重校验锁，在当前的内存模型中无效 */ class LockSingleton { private volatile static LockSingleton singleton; pri

无监督学习-K均值聚类

1. 聚类算法

1.1 聚类(Clustering)的定义

1.2 分类 vs. 聚类

1.3 外部准则

1.4 聚类的要求

1.5 偏平聚类 vs. 层次聚类

2. K-Means算法

2.1 扁平算法

2.2 K-均值聚类算法

2.3 实例

2.4 K-均值聚类算法步骤

2.5 实战

2.6 K-均值算法的决定性因素

3. 层次聚类算法

3.2 层次聚类算法分类

3.3 层次凝聚算法（HAC）

3.4 关键问题：如何定义簇相似度

3.5 实战--簇间相似度

3.6 实战

你可能感兴趣的:(作者：饶吉盛,机器学习,聚类,均值算法,机器学习)