笃℃

【聚类指标】如何评估聚类算法：外部指标和内部指标、指标详解

文章目录

【聚类指标】如何评估聚类算法：外部指标和内部指标、指标详解
- 1. 前言
- 2. 外部指标
- - 2.1 P（Purity）
  - - 2.1.1 例子
  - 2.2 NMI（Normalized Mutual Information）
  - - 2.2.1 例子
  - 2.3 对混淆矩阵（RI、Precision、Recall、F）
  - - 2.3.1 RI（兰德系数）
    - 2.3.2 Precision（精确度）
    - 2.3.3 Recall（召回率）
    - 2.3.4 F值（平衡精确度与召回率）
    - 2.3.5 例子
  - 2.4 ARI（调整兰德系数）
  - 2.5 AC（Accuracy）
- 3. 内部指标
- - 3.1 紧密度（Compactness）
  - 3.2 分割度（Seperation）
  - 3.3 误差平方和（SSE：Sum of squares of errors）
  - 3.4 轮廓系数（SC）
  - 3.5 Calinski-Harabaz 指数（CH）
  - 3.6 Davies-Bouldin Index（DB）
- 4. 参考

1. 前言

一个好的聚类方法可以产生高品质簇，是的簇内相似度高，簇间相似度低。一般来说，评估聚类质量有两个标准，外部评价指标和内部评价指标。

外部指标，也就是有参考标准的指标，通常也可以称为有监督情况下的一种度量聚类算法和各参数的指标。具体就是聚类算法的聚类结果和已知的（有标签的、人工标准或基于一种理想的聚类的结果）相比较，从而衡量设计的聚类算法的性能、优劣。
内部指标是无监督的，无需基准数据集，不需要借助于外部参考模型，利用样本数据集中样本点与聚类中心之间的距离来衡量聚类结果的优劣。

2. 外部指标

外部质量评价指标是基于已知分类标签数据集进行评价的，这样可以将原有标签数据与聚类输出结果进行对比。

外部质量评价指标的理想聚类结果是：具有不同类标签的数据聚合到不同的簇中，具有相同类标签的数据聚合相同的簇中。外部质量评价准则通常使用熵，纯度等指标进行度量。

2.1 P（Purity）

在聚类结果的评估标准中，一种最简单最直观的方法就是计算它的聚类纯度（purity），别看纯度听起来很陌生，但实际上分类的准确率有着异曲同工之妙。因为聚类纯度也用聚类正确的样本数除以总的样本数。

但是对于聚类后的结果我们并不知道每个簇所对应的真实类别，因此需要取每种情况下的最大值。（注意与聚类准确率的区别：计算聚类准确率需要知道每个簇的真实类别，一一对应关系）。

具体的，纯度（Purity）的计算公式定义如下：

其中, N 表示总的样本个数， $\Omega = \{ w_1, w_2,...,w_K\}$ 表示聚类簇 (cluster) 划分， $C = \{ c_i, c_2,...,c_J\}$ 表示真实类别 (class) 划分。

上述过程即给每个「聚类簇」分配一个「类别」,且「为这个类别的样本」在该簇中「出现的次数最多」,然后计算所有 K 个聚类簇的这个次数之和再归一化即为最终值。
$\in [0, 1]$ ，越接近1表示聚类结果越好。
该值无法用于权衡聚类质量与簇个数之间的关系。

2.1.1 例子

2.2 NMI（Normalized Mutual Information）

NMI (Normalized Mutual Information) 即归一化互信息。

其中, $I$ 表示互信息(Mutual Information), H 为熵，当 log 取 2 为底时，单位为 bit，取 e 为底时单位为 nat。

其中, $P(w_k), P(c_j), P(w_k ∩ c_j)$ 可以分别看作样本 (document) 属于聚类簇 $w_k$ , 属于类别 $c_j$ , 和同时属于两者的概率。第二个等价式子则是由概率的极大似然估计推导而来。

互信息 $I(\Omega; C)$ 表示给定类簇信息 $C$ 的前提条件下，类别信息 $\Omega$ 的增加量，或者说其不确定度的减少量。直观地，互信息还可以写出如下形式：

互信息的最小值为 0，当类簇相对于类别只是随机的，也就是说两者独立的情况下, $\Omega$ 对于 $C$ 未带来任何有用的信息；
如果得到的 $\Omega$ 与 $C$ 关系越密切, 那么 $I(\Omega; C)$ 值越大。如果 $\Omega$ 完整重现了 $C$ ，此时互信息最大。
当 $K = N$ 时，即类簇数和样本个数相等，MI 也能达到最大值。所以 MI 也存在和纯度类似的问题，即它并不对簇数目较大的聚类结果进行惩罚，因此也不能在其他条件一样的情况下，对簇数目越小越好的这种期望进行形式化。

NMI则可以解决上述问题，因为熵会随着簇的数目的增长而增大。当 $K = N$ 时， $H(\Omega)$ 会达到其最大值 $l o g N$ ，此时就能保证 NMI 的值较低。之所以采用 $(H(\Omega) + H(C))/2$ 作为分母，是因为它是 $I(\Omega; C)$ 的紧上界，因此可以保证 NMI ∈[0, 1]。

2.2.1 例子

1）先计算联合概率分布 $p (g r p s, g n d)$
2）计算边际分布
3）计算熵和互信息
4）计算 NMI

2.3 对混淆矩阵（RI、Precision、Recall、F）

与分类问题中的混淆矩阵类似，对于聚类问题中的对混淆矩阵，我们可以做出如下定义：

TP：表示两个同类样本点在同一个簇（布袋）中的情况数量；
FP：表示两个非同类样本点在同一个簇中的情况数量；
TN：表示两个非同类样本点分别在两个簇中的情况数量；
FN：表示两个同类样本点分别在两个簇中的情况数量；
正确决策:
- TP 将两篇相似文档归入一个簇 (同 - 同)
- TN 将两篇不相似的文档归入不同的簇 (不同 - 不同)
错误决策:
- FP 将两篇不相似的文档归入同一簇 (不同 - 同)
- FN 将两篇相似的文档归入不同簇 (同- 不同) (worse)

2.3.1 RI（兰德系数）

2.3.2 Precision（精确度）

2.3.3 Recall（召回率）

2.3.4 F值（平衡精确度与召回率）

2.3.5 例子

1）计算TP、FP、TN、FN：
- TP 表示两个同类样本点在同一个簇中的情况数量，因此根据图1中的聚类结果有：
  其表示的含义是，对于簇1来说5个叉形中取2个的情况；对于簇2来说4个圆形中取2个的情况；对于簇3来说3个菱形中取2个；以及2个叉形中取2个的情况。
- 注意：在计算完成TP后，我们发现其它三种情况都无法单独的进行计算了（因为都是交叉混合的情况），因此我们可以同时计算多种组合下的情况数。
- 由四种情况的定义可知，TP+FP 表示的是同一簇中任取两个样本点的情况数（包含了同类和非同类），因此根据图中的聚类结果有：
- 同理，TP+TN 表示的就是任意两个同类样本点分布在同一个簇和非同一个簇的所有情况总和，所以有：
- 同时，根据前面的分析可知，对于聚类后的结果，不管你是在某一个簇中任取2个样本，还是说你在任意不同的2个簇中各取1个样本，所有可能出现的情况都只会有上面的四种，所以有：
- 由此，我们便可以分别计算出：
2）求RI、Precision、Recall、F

2.4 ARI（调整兰德系数）

调整兰德系数（ARI）是兰德系数（RI）的一个改进版本，目的是为了去掉随机标签对于兰德系数评估结果的影响。

例如对于图中的17个样本，你随机将每个样本都划到一个簇中（也就是17个簇）。那么其计算出来的兰德系数仍旧是0.68，此时的 TP=0, FP=0, FN=44, TN=92。

那具体的ARI该怎么计算呢？下面我们还是以上图中的聚类结果为例来进行讲解。

如上图所示， $X$ (cluster) 表示聚类算法认为的聚类结果，每个圆圈代表一个簇；而 $Y$ 表示我们根据正确标签对聚类结果标记后的结果（也就是每个样本的形状，形状一样则属于同一类）。因此，根据聚类得到的结果和真实标签我们便能得到如下所示的列联表（ contingency table）：

其中 $X = \{X_1,X_2,...,X_r\}$ 表示聚类得到 r 个簇的集合，而 $Y = \{Y_1,Y_2,...,Y_s\}$ 表示根据样本正确标签对聚类结果修正后的集合，
$n_{ij}$ 表示 $X_i$ 与 $Y_j$ 相交部分的样本数量，即 $n_{ij} = X_i ∩ Y_j$ 。

根据这张列联表我们便能够得到ARI的计算公式：

其中 ARI 的取值范围为[-1, 1]，越大也就表示聚类效果越好。

虽然上面这张表和公式开起来很复杂，但其实只要你看一遍具体的计算过程就会发现也就那么回事。我们就能够得到如下所示的列联表：

根据此表可得：

所以有：

同时，根据各部分的意义我们还可以将公式写成：

2.5 AC（Accuracy）

Purity, NMI, RI 等上述指标均需要给定 truth label 才能对 cluster label 进行评价，但是均不要求后者的类标与前者一致。那什么时候需要进行类标签的 best map 呢？例如，我们需要对预测结果和真实值之间统计聚类正确的比例时就需要进行最佳类标的重现分配，这样才能保证统计的正确。

聚类精确度 (Accuracy, AC) 用于比较获得标签和数据提供的真实标签。

其中， $r_i, s_i$ 分别表示数据 $x_i$ 所对应的获得的标签和真实标签， $n$ 为数据总的个数， $\delta$ 表示指示函数如下：

而式中的 map 则表示最佳类标的重现分配，以才能保证统计的正确。一般的该最佳重分配可以通过匈牙利算法 (Kuhn-Munkres or Hungarian Algorithm) 实现，从而在多项式时间内求解该任务（标签）分配问题。

3. 内部指标

内部评价指标是利用数据集的属性特征来评价聚类算法的优劣。通过计算总体的相似度，簇间平均相似度或簇内平均相似度来评价聚类质量。

评价聚类效果的高低通常使用聚类的有效性指标，所以目前的检验聚类的有效性指标主要是通过簇间距离和簇内距离来衡量。这类指标常用的有CH（Calinski-Harabasz）指标等。

3.1 紧密度（Compactness）

紧密度（Compactness）：每个聚类簇中的样本点到聚类中心的平均距离。对应聚类结果，需要使用所有簇的紧密度的平均值来衡量聚类算法和聚类各参数选取的优劣。紧密度越小，表示簇内的样本点越集中，样本点之间聚类越短，也就是说簇内相似度越高。

3.2 分割度（Seperation）

分割度（Seperation）：是个簇的簇心之间的平均距离。分割度值越大说明簇间间隔越远，分类效果越好，即簇间相似度越低。

3.3 误差平方和（SSE：Sum of squares of errors）

误差平方和（SSE：Sum of squares of errors）：类中数据聚类距离类中心的平方损失之和，即K-means算法的优化目标，表示为：

其中， $x_{ik}$ 表示第k个类中第i个样本点， $u_k$ 表示第k个类的中心点。

3.4 轮廓系数（SC）

轮廓系数（Silhouette Coefficient）是聚类效果好坏的一种评价方式。轮廓系数取值范围为[-1,1]，取值越接近1则说明聚类性能越好，相反，取值越接近-1则说明聚类性能越差。为了求SC，我们作出以下定义：

a：某个样本与其所在簇内其他样本的平均距离；
b：某个样本与其他簇样本的平均距离；

则，针对某个样本的轮廓系数s为：

而聚类总的轮廓系数SC为：

轮廓系数优点：
- 轮廓系数为-1时表示聚类结果不好，为+1时表示簇内实例之间紧凑，为0时表示有簇重叠。
- 轮廓系数越大，表示簇内实例之间紧凑，簇间距离大，这正是聚类的标准概念。
轮廓系数的缺点：
- 对于簇结构为凸的数据轮廓系数值高，而对于簇结构非凸需要使用DBSCAN进行聚类的数据，轮廓系数值低。
- 因此，轮廓系数不应该用来评估不同聚类算法之间的优劣，比如Kmeans聚类结果与DBSCAN聚类结果之间的比较。

3.5 Calinski-Harabaz 指数（CH）

Calinski-Harabasz指数的本质是：簇间距离与簇内距离的比值，且整体计算过程与方差计算方式类似，所以又将其称之为方差比准则。

将容量为 N 的数据集合 X 聚成 K 类，通过计算类内各点与类中心的距离平方和来度量类内的紧密度（类内距离），各个类中心点与数据集中心点距离平方和来度量数据集的分离度（类间距离）。

CH指标的计算公式为：

其中 $B_k$ 为类间的协方差矩阵， $W_k$ 类内数据的协方差矩阵，详细公式如下：

其中 $c_q$ 表示类q的中心点， $c_e$ 表示数据集的中心点， $n_q$ 表示类q中的数据的数目， $C_q$ 表示类q的数据集合。

Calinski-Harabasz指数的分数越大说明越好（类别内部协方差越小越好，类别之间协方差越大越好）。

3.6 Davies-Bouldin Index（DB）

Davies-Bouldin Index（由大卫L·戴维斯和唐纳德·Bouldin提出）是一种评估是一种评估度量的聚类算法。

DB计算任意两类别的类内距离平均之和除以该两类中心距离，并求最大值。DB越小意味着类内距离越小同时类间距离越大。

其中 $s_i$ 表示类中样本点分散度， $M_{ij}$ 则就是第 i 类与第 j 类中心的距离。计算公式如下所示：

其中 $X_{ij}$ 表示第 i 类中第 j 个数据点； $A_i$ 表示第 i 类的中心；n表示第i类中数据点的个数；

q取1表示：各点到中心的距离的均值，q取2时表示：各点到中心距离的标准差，它们都可以用来衡量分散程度。

其中 $a_{ki}$ 表示第i类的中心点的第K个属性的值。

4. 参考

【1】https://zhuanlan.zhihu.com/p/53840697
【2】https://zhuanlan.zhihu.com/p/343667804
【3】https://blog.csdn.net/xiaolong124/article/details/126345406

闲鱼监控助手：挖掘隐藏的宝藏商品
如何通过闲鱼监控助手挖掘隐藏的宝藏商品概述：在闲鱼这个二手交易平台上，有许多隐藏的宝藏商品等待着我们的发现。而要有效地挖掘这些宝藏商品，我们可以借助闲鱼监控助手。本文将详细介绍如何使用闲鱼监控助手来寻找并购买隐藏的宝藏商品。1.安装并设置闲鱼监控助手首先，我们需要在手机上安装并打开闲鱼监控助手应用。然后，在应用内的设置页面中，我们可以根据自己的需求进行一些个性化设置。例如，设置关键词、价格范围、筛
springboot集成Netty 墨_风开发笔记 spring boot java netty
一、Netty介绍Netty的系列文章，正在更新中二、Netty集成io.nettynetty-all2.1、配置文件#netty配置netty:boss:1#boss线程数量默认为cpu线程数*2worker:4#worker线程数量默认为cpu线程数*2timeout:6000#连接超时时间默认为30sport:7000#服务器主端口默认7000portSalve:7001#服务器备用端口默认
汽车功能安全-在系统层面验证TSR实例车载测试工程师 ISO 26262汽车功能安全专栏 -标准解读与工程指南汽车安全网络车载系统功能测试集成测试
文章目录1TSR需求分析2测试用例导出方法(基于四个维度)2.1测试用例导出方法2.2测试方法3系统层面测试用例设计(示例):3.1通用设置3.2测试用例列表4测试方法总结1TSR需求分析需求ID:TSR-CCU-TSR-001(示例)需求描述：CCU接收【IDCU_LowBeamOnOff_Set】信号时应采用CANE2E机制，用于检测CAN通信故障。具体实现详见profile1E2E通信保护规
闲鱼监控助手：让你的二手购物更加智能化(pb闲鱼监控) keji689 大数据
概述闲鱼监控助手是一款可以帮助用户更加智能化购买二手商品的应用程序。它可以自动监测商品价格变化、货源情况和评论评分等信息，并提供给用户最佳的购物建议。本文将介绍如何使用这个应用程序，以及它可以为你的二手购物带来的便利。如何使用闲鱼监控助手首先，你需要下载并安装这个应用程序。在安装完成后，你需要在设置页面中输入你的闲鱼账号信息。这样应用程序才能够获取你的购物历史和偏好信息，从而为你提供更加个性化的服
从现在开始，让闲鱼监控助手帮你省时省力找宝贝(闲鱼监控助手)
闲鱼监控助手：省时省力找宝贝的利器在如今这个信息爆炸的时代，网购已经成为我们获取商品和服务的主要途径之一。然而，随之而来的是琳琅满目的商品选择，如何在海量商品中快速找到符合自己需求的宝贝成为了一个挑战。幸运的是，闲鱼监控助手作为一款强大的工具，可以帮助我们省时省力地找到心仪的宝贝。功能介绍闲鱼监控助手具有多项实用功能，包括价格监控、关键词搜索、定时提醒等。通过设置价格监控功能，用户可以轻松追踪商品
京东店铺优惠券怎么领？在哪领京东优惠券？氧惠超好用
领取京东内部优惠券的方法有很多，下面为大家分享两种非常简单的方法，无需下载APP。也没有任何使用门槛，即领即用。在京东购物的朋友，可以试试这个方法。网上购物，推荐你使用【氧惠app】，氧惠app上不但有内部优惠券，还有返利佣金。支持淘宝天猫京东拼多多唯品会抖音快手等众多平台！氧惠的返利佣金是超级高的！我亲测对比过上百款返利app的，大家也可以自己去对比，好东西不怕你来比！手机应用商城搜索【氧惠】直
C++之vector类的代码及其逻辑详解（上）啊吧怪不啊吧 C++开发语言 C++c++
1.vetcor介绍及使用方法1.1什么是vector1.vetcor是一种可以自己扩容的数组（扩大后不会变小）。2.vector采用的连续存储空间来存储元素，这意味着我们可以小标的方式来对其进行访问。3.vetcor在进行扩容的时候会尝试直接在其后面的空间进行扩容，如果后面的空间被其他的数据给使用了，那么它会寻找一块足够存放的下扩容候的它的空间，然后把自己转移进那块空间（一般来说vetcor在设
免费版酒店押金原路退回系统——仙盟创梦IDE 未来之窗软件服务软件架构思维-阿雪技术观念仙盟创梦IDE 东方仙盟酒店管理系统
项目介绍东方仙盟开源酒店押金管理系统是一款面向中小型酒店、民宿、客栈的轻量级前台管理工具，专注于简化房态管理、订单处理和押金跟踪流程。作为完全开源的解决方案，它无需依赖任何第三方服务，所有数据存储在本地浏览器中，确保数据安全性与访问便捷性。核心功能房态实时管理：通过直观的卡片式界面展示房间状态（空房/在住），支持快速查看与操作订单全流程处理：从入住登记、押金收取到退房结算的完整流程管理基础资料维护
清理磁盘空间星星点点洲 Linux linux
你当前的磁盘使用情况如下：FilesystemSizeUsedAvailUse%Mountedon/dev/mapper/centos-root46G36G9.8G79%/当前根目录/已使用79%，空间已经较为紧张。以下是一些常用的清理磁盘空间的方法，你可以按需选择：✅1.清理系统缓存（最安全、推荐先做）清理PageCache、目录项和inode缓存：sync;echo3>/proc/sys/vm
蔚来汽车视觉算法面试30问全景精解
蔚来汽车视觉算法面试30问全景精解——智能电动×高阶辅助驾驶×视觉创新：蔚来汽车视觉算法面试核心考点全览前言蔚来汽车作为全球领先的智能电动汽车品牌，致力于通过AI与高阶辅助驾驶技术推动智能出行的未来。蔚来视觉算法团队专注于自动驾驶感知、智能座舱、车路协同、3D重建等领域，强调算法的工程落地、系统安全与创新突破。蔚来视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在自动驾驶、智能感知
深入解析Hadoop中的推测执行：原理、算法与策略码字的字节 hadoop布道师 hadoop 算法推测执行
Hadoop推测执行概述在分布式计算环境中，任务执行速度的不均衡是一个普遍存在的挑战。Hadoop作为主流的大数据处理框架，通过引入推测执行（SpeculativeExecution）机制有效缓解了这一问题。该技术本质上是一种乐观的容错策略，当系统检测到某些任务执行明显落后于预期进度时，会自动在其它计算节点上启动相同任务的冗余副本，最终选择最先完成的任务结果作为输出。核心设计动机推测执行的诞生源于
十元一千票几种方法：网上投票怎么弄，微信投票如何快速拉票1000票桃朵APP
十元一千票几种方法：网上投票怎么弄，微信投票如何快速拉票1000票教大家微信投票十元一千票几种方法：网上投票怎么弄，微信投票如何快速拉票1000票，在当今时代，网络投票活动已经成为各类评选、竞选的重要环节。而易企秀作为一款热门的投票活动平台，吸引了众多用户参与。那么，如何才能在易企秀投票活动中快速拉票涨票呢？本文将为您提供一份实用的拉票攻略，助您在投票活动中脱颖而出。在当前的微信投票活动中，拉票的
2023-09-20 a26ba155d68d
正念饮食让你实现更自在的人生如果你正面临减重或是增重或是健康饮食，《学会吃饭》这本书里关于正念饮食的方法会让你体会正念饮食所带来的健康和幸福感，会带给你更平衡、更满足、更自在的饮食态度。会让你通过训练逐渐养成平衡健康的生活方式，开心享受美食所带来的幸福感。一一认识正念饮食。正念饮食是利用一种全新的方式看待我们与进食及食物之间的关系。它的依据是从科学角度对身心自我调控，而不是意志力严格的自我控管。它
Python 线程优先队列 PriorityQueue - Python零基础入门教程猿说编程
目录一.Python线程队列Queue分类二.Python线程优先队列PriorityQueue简介三.Python线程优先队列PriorityQueue函数介绍四.Python线程优先队列PriorityQueue使用五.猜你喜欢零基础Python学习路线推荐:Python学习目录>>Python基础入门在线程队列Queue/线程队列LifoQueue文章中分别介绍了先进先出队列Queue和先进
2020北京大学西班牙语语言文学考研详情介绍、必看经验指导 xxxedu666
学习方式全日制招生人数2019拟招4人研究方向00.不区分研究方向考试科目①101思想政治理论②201英语一③620综合考试④844西班牙语语言文学复试线18年：总分330政治英语50/专业课9017年：总分330政治英语50/专业课9016年：总分340政治英语50/专业课902018录取闵逸菲初试分数386.5
阿里云态势感知和安骑士有什么区别？阿腾云
阿里云态势感知和安骑士均是阿里云云盾安全产品，态势感知属于安全管理类的产品，安骑士数据服务器安全类产品，阿里云百科网来详细说下阿里云态势感知和安骑士之间的区别：态势感知和安骑士的区别简单来说，安骑士是检测云服务器漏洞的，态势感知提供安全类的大数据分析服务。态势感知：安全大数据分析平台，通过机器学习和结合全网威胁情报，发现传统防御软件无法覆盖的网络威胁，溯源攻击手段、并且提供可行动的解决方案。安骑士
考科目三最笨的方法小淑文
认识我的人都知道我比较笨。比如考职称用的计算机五个模块，别人一天可以全部考完，而我却用了五年一个模块一个模块地考,有两科还得补考。然而，像我这么笨的人，最近补考好不容易给过了科目三。在此，有些心得想与大家分享。不过以下方法只适用于比较笨的人，聪明人可以到此为止。首先关于灯光我第一次考，因为太紧张，就是在灯光那里莫名其妙地挂了。至于为什么挂，目前我都还不知道错在哪。后来补考练车，教练让我们看看别人怎
使用Debug-View Kotlin，提升你的Android调试体验！侯深业Dorian
使用Debug-ViewKotlin，提升你的Android调试体验！去发现同类优质开源项目:https://gitcode.com/1、项目介绍Debug-ViewKotlin是一个专为Android开发者设计的高效、直观的浮层调试控制台。它会在应用界面的最上方提供实时的性能指标和日志信息，包括但不限于内存占用、帧率(FPS)、启动时间和各种自定义的日志数据。只需简单集成，就能让开发和测试过程变
射影几何的开端现在开始发呆
阿波罗尼奥斯《圆锥曲线》的重现引起了数学家的兴趣。应用如天文、透镜、绘制地图、算弹道射程、计算面积体积等推动人们对曲线的研究；此外人们感到希腊人的证明方法缺乏一般性。一个小变动是人们把曲线定义为平面上的轨迹，而非阿波罗尼奥斯所述的圆锥面截线。为了回答画家提出的透视法问题i，几何学者开展了新课题，这一分支到19世纪被称为射影几何。在十七世纪，人们把它视为欧氏几何的一部分。对射影几何做出贡献的第一个人
第六届研究所圆梦反击战分仓方案老姜（姜新宁）算力3.0虚假投资真实惨痛经历为大家揭开法律咨询维权
诈骗团伙成员根据“剧情需要”，扮演不同角色与股民聊天，“讲师”进行“炒股授课”，“水军”号假扮新手股民、资深股民在群内互动吹捧“老师”，诱导被害人在虚假平台投资。慈善投票网站买数字的等等都是骗局，广大市民对此要提高警惕，遇到此类情况一概不要相信。（注明：该文章出现名字为网上冒充行骗，跟当事人无关，如果涉及侵权，可以联系作者及时删除）Workplus六年级班云算力，云计算老姜，姜新宁云端算法骗局揭晓
大白话科普用数字人民币发工资有何不同？侯1984
4月22日，常熟市印发《关于实行工资全额数字人民币发放的通知》，称从5月开始，对常熟市在编公务员实行工资全额数字人民币发放。这一消息很快冲上热搜，我看了看评论，发现大家对数字人民币并不熟悉，我先用大白话介绍一下数字人民币，再来讨论此次常熟用数字人民币发工资的原因。为什么会出现数字人民币？数字人民币对标的是比特币，和比特币不同之处在于数字人民币有发行主体，即央行。在比特币蹿红的时期，数字人民币从研究
毕节最正规6家亲子鉴定机构（附2024年八大正规亲子鉴定医院名单）国医基因黄主任
毕节正规亲子鉴定机构：毕节国医基因、毕节司法亲子鉴定所、毕节无创亲子鉴定机构。"亲子鉴定是一种通过科学手段确认个体之间父母-子女关系的方法。此过程涉及提取和分析DNA样本，如口腔拭子、血液等。由于子女从父母那里继承一半的遗传物质，通过比较特定基因位点可以确定双方的生物学关联。亲子鉴定在法律案件、家庭疑问解决以及遗传病检测中起着关键作用。现代技术使得亲子鉴定准确度极高，一般可达99.9%以上。毕节最
深度强化学习 | 图文详细推导深度确定性策略梯度DDPG算法 Mr.Winter` 机器人人工智能数据挖掘深度学习神经网络强化学习具身智能
目录0专栏介绍1演员-评论家架构1.1Critic网络优化1.2Actor网络优化2深度确定性策略梯度算法0专栏介绍本专栏以贝尔曼最优方程等数学原理为根基，结合PyTorch框架逐层拆解DRL的核心算法(如DQN、PPO、SAC)逻辑。针对机器人运动规划场景，深入探讨如何将DRL与路径规划、动态避障等任务结合，包含仿真环境搭建、状态空间设计、奖励函数工程化调优等技术细节，旨在帮助读者掌握深度强化学
【Python练习】056. 编写一个函数，实现简单的CSV文件解析器视睿从零开始学习机器人 python 前端服务器
056.编写一个函数，实现简单的CSV文件解析器056.编写一个函数，实现简单的CSV文件解析器示例代码示例CSV文件内容示例运行代码说明扩展功能支持自定义分隔符的示例注意事项实现CSV文件解析的方法使用标准库csv模块解析使用pandas库解析手动实现基础解析器处理复杂CSV格式性能优化建议056.编写一个函数，实现简单的CSV文件解析器以下是一个简单的Python函数，用于解析CSV文件。这个
自制宝宝小零食：新鲜营养的虾片，香香脆脆超美味！瞧那一家子
这个季节的虾，特别新鲜，又肥又大只。虾的营养超级丰富，富含多种维生素，可以增强免疫力，给宝宝多吃一点没有坏处。这次买了半斤左右的虾，想着给娃做成虾片自己抓着吃，自己在家自制的零食干净又卫生，不怕里面有各种添加剂，还能练习宝宝的抓握能力。香香脆脆，超美味！做法超级简单，赶紧为宝宝做起来吧。【准备材料】：虾肉100g，低筋面粉35g，玉米淀粉30g，凉水30g，开水70g【制作方法】：1️、将新鲜的虾
淘宝积分有什么用？介绍淘宝积分可以干什么高省张导师
支付宝、淘宝、飞猪等都是很多人购物、支付的常用工具，虽然它们同属阿里巴巴旗下，但会员和积分体系却是「各自为政」，很多人平时也懒得花心思研究其区别和用途。事实上，了解这些会员的权益和积分的用法，可以让我们从中获取一些福利。本文将带你深入了解支付宝、淘宝、飞猪这三大产品的会员及其积分用法。大家好，我是高省APP最大团队，高省APP，是2022年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，
【前端】ikun-pptx编辑器前瞻问题二： pptx的压缩包结构，以及xml正文树及对应元素介绍
文章目录PPTX文件本质：一个压缩包核心文件解析1.幻灯片内容文件(ppt/slides/slideX.xml)2.元素类型解析文本框元素(p:sp)图片元素(p:pic)单位系统开发注意事项参考工具pptx渲染路线图PPTX文件本质：一个压缩包PPTX文件实际上是一个遵循OpenXML标准的ZIP压缩包，包含多个XML文件和其他资源。我们可以通过解压工具查看其内部结构：pptx文件├──[Con
主播快速变现的技巧是什么？抖音快手主播变现的6种方法（建议收藏）好项目高省
不管是抖音平台，还是快手平台，我们发展粉丝，有了粉丝基础那么下一步就是变现，那么变现的几种方法都有哪些？今天盘点6种变现方式，最后一种及其重要，实现被动收益，相信各位直播见过有人推广软件，推广游戏吧，只要他们玩，或使用软件就有源源不断的收益，甚至有的主播月收益高达百万！1、带货模式主播通过视频直播展示和介绍商品，让卖货可以不受时间和空间的限制，并且可以让用户更直观的看到和体验到产品。用户看直播时可
大模型软件的多租户架构设计 AI天才研究院 AI人工智能与大数据 ChatGPT java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
大模型软件的多租户架构设计关键词：大模型软件、多租户架构、设计、性能优化、安全性摘要：随着大数据和人工智能技术的迅猛发展，大模型软件在各个领域得到了广泛应用。然而，如何在大模型软件中实现高效的多租户架构设计，成为当前技术领域的一个关键挑战。本文将深入探讨大模型软件的多租户架构设计，包括其背景、核心概念、算法原理、系统架构、项目实战以及最佳实践等，旨在为开发者提供一套系统化、全面化的设计指南。设计过
【Spark征服之路-3.7-Spark-SQL核心编程（六）】 qq_46394486 spark sql ajax
数据加载与保存：通用方式：SparkSQL提供了通用的保存数据和数据加载的方式。这里的通用指的是使用相同的API，根据不同的参数读取和保存不同格式的数据，SparkSQL默认读取和保存的文件格式为parquet加载数据：spark.read.load是加载数据的通用方法。如果读取不同格式的数据，可以对不同的数据格式进行设定。spark.read.format("…")[.option("…")].
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio

【聚类指标】如何评估聚类算法：外部指标和内部指标、指标详解

【聚类指标】如何评估聚类算法：外部指标和内部指标、指标详解

文章目录

1. 前言

2. 外部指标

2.1 P（Purity）

2.1.1 例子

2.2 NMI（Normalized Mutual Information）

2.2.1 例子

2.3 对混淆矩阵（RI、Precision、Recall、F）

2.3.1 RI（兰德系数）

2.3.2 Precision（精确度）

2.3.3 Recall（召回率）

2.3.4 F值（平衡精确度与召回率）

2.3.5 例子

2.4 ARI（调整兰德系数）

2.5 AC（Accuracy）

3. 内部指标

3.1 紧密度（Compactness）

3.2 分割度（Seperation）

3.3 误差平方和 （SSE：Sum of squares of errors）

3.4 轮廓系数（SC）

3.5 Calinski-Harabaz 指数（CH）

3.6 Davies-Bouldin Index（DB）

4. 参考

你可能感兴趣的:(方法介绍,聚类,算法,机器学习)

3.3 误差平方和（SSE：Sum of squares of errors）