weixin_40008339

聚类算法评价指标python实现_聚类算法及其评估指标

聚类(Clustering)-----物以类聚，人以群分。

1.Finding groups of objects

Objects similar to each other are in the same group

Objects are different from those in other groups

2.Unsupervised Learning

No labels

Data driven

3.Requirements:arbitrary shape,noise and outliers

4.K-means、K-mediods、DBSCAN、EM(Expectation Maximization)

聚类是观察式学习，而不是示例式的学习。

聚类能够作为一个独立的工具获得数据的分布状况，观察每一簇数据的特征，集中对特定的聚簇集合作进一步地分析。

聚类分析还可以作为其他数据挖掘任务(如分类、关联规则)的预处理步骤。

聚类分析的方法

划分方法：

Construct various partitions and then evaluate them by some criterion,e.g.,minimizing the sum of square errors

Typical methods:k-means,k-medoids,CLARANS

层次方法：

Create a hierarchical decomposition of the set of data (or objects) using some criterion

Typical methods:Diana,Agnes,BIRCH,CAMELEON

基于密度的方法：

Based on connectivity and density functions

Typical methods:DBSCAN,OPTICS,DenClue

基于网格的方法：

Based on multiple-level granularity structure

Typical methods:STING,WaveCluster,CLIQUE

基于模型的方法：

A model is hypothesized for each of the clusters and tries to find the best fit of that model to each other

Typical methods:EM,SOM,COBWEB

基于频繁模式的方法：

Based on the analysis of frequent patterns

Typical methods:p-Cluster

基于约束的方法：

Clustering by considering user-specified or application-specific constraints

Typical methods:COD(obstacles),constrained clustering

基于链接的方法：

Objects are often linked together in various ways

Massive links can be used to cluster objects:SimRank,LinkClus

距离需要满足的性质：

非负性：d(i, j) > 0 if i ≠ j, and d(i, i) = 0

对称性：d(i, j) = d(j, i)

三角不等式：d(i, j)<= d(i, k) + d(k, j)

闵可夫斯基距离(Minkowski Distance): 计算距离的通用的公式：

i = (xi1, xi2, …, xip) 和 j = (xj1, xj2, …, xjp) 是p维数据对象

曼哈顿距离(或城市块距离Manhattan distance):h=1

欧几里德距离(用的最多的):h=2

K-Means:

k-均值聚类算法的核心思想是通过迭代把数据对象划分到不同的簇中，以求目标函数最小化，从而使生成的簇尽可能地紧凑和独立。

首先，随机选取k个对象作为初始的k个簇的质心；

然后，将其余对象根据其与各个簇质心的距离分配到最近的簇；再求新形成的簇的质心。

这个迭代重定位过程不断重复，直到目标函数最小化为止。

输入:期望得到的簇的数目k，n个对象的数据库。

输出:使得平方误差准则函数最小化的k个簇。

方法:

选择k个对象作为初始的簇的质心；

repeat

计算对象与各个簇的质心的距离，将对象划分到距离其最近的簇；

重新计算每个新簇的均值；

until 簇的质心不再变化。

优点

相对高效: O(tkn), 当 n 是对象数, k 是簇数, 并且 t 是叠代数 . 通常地, k, t << n.

通常终止在局部最优，但可用全局最优技术改进。(模拟退火和遗传算法)

不足

只有当中心可计算时才适用, 无法处理分类/标称数据

需要事先指定簇的个数K

无法处理噪声的数据

不能发现非凸形状簇

K-Mediods:

k-均值算法采用簇的质心来代表一个簇，质心是簇中其他对象的参照点。因此，k-均值算法对孤立点是敏感的，如果具有极大值，就可能大幅度地扭曲数据的分布。

k-中心点算法是为消除这种敏感性提出的，它选择簇中位置最接近簇中心的对象(称为中心点)作为簇的代表点，目标函数仍然可以采用平方误差准则。

处理过程：首先，随机选择k个对象作为初始的k个簇的代表点，将其余对象根据其与代表点对象的距离分配到最近的簇；然后，反复用非代表点来代替代表点，以改进聚类质量，聚类质量用一个代价函数来估计，该函数度量对象与代表点对象之间的平均相异度。

输入:n个对象的数据库，期望得到的簇的数目k

输出:使得所有对象与其最近中心点的偏差总和最小化的k个簇

方法

选择k个对象作为初始的簇中心

repeat

对每个对象，计算离其最近的簇中心点，并将对象分配到该中心点代表的簇

随机选取非中心点Orandom

计算用Orandom 代替Oj 形成新集合的总代价S

如果S<0，用Orandom代替Oj，形成新的k个中心点的集合

until 不再发生变化

采用k-中心点算法有两个好处：

对属性类型没有局限性；

通过簇内主要点的位置来确定选择中心点，对孤立点的敏感性小

不足：

处理时间要比k-mean更长；

用户事先指定所需聚类簇个数k。

DBCSAN：

DBSCAN(Density Based Spatial Clustering of Applications with Noise，具有噪声应用的基于密度的空间聚类)

一种基于密度的聚类算法，它将足够高密度的区域划分为簇，能够在含有“噪声”的空间数据库中发现任意形状的簇

两个全局参数：Eps:领域半径，MinPts:在领域中点的最少个数

核心点：领域半径对象个数大于密度阈值MinPts

边界点：领域半径对象个数小于密度阈值MinPts

点p的Eps-邻域记为NEps(p),NEps(p)={qєD|dist(p,q)≤Eps}

直接密度可达:点p从点q是直接密度可达的，则Eps，MinPts要满足：p是属于NEps(q);|NEps(q)|>=MinPts(核心条件)

密度可达:如果存在一个点的序列p1, p2,…, pn，p1 = q， pn =p，其中pi+1 是从pi直接密度可达的，则称点p是从点q关于Eps和MinPts密度可达的。

密度相连:如果存在一个点o，p和q都是从点o关于Eps和MinPts密度可达的，则称点p是从点q关于Eps和MinPts密度相连的。

输入D:一个包含n个对象的数据集

Ɛ:半径参数

MinPts:邻域密度阈值

输出:基于密度的簇的集合

方法：

标记所有对象为unvisited;

随机选择一个unvisited对象p

标记p为visited

if p的Ɛ-邻域至少有MinPts个对象

创建一个新簇C，并把p添加到C

令N为p的Ɛ-邻域中的对象的集合

for N中的每个点p’

if p'是unvisited

标记p’为visited

if p’的Ɛ-邻域至少有MinPts个点，把这些点添加到N

if p’还不是任何簇的成员，把p’添加到C

endfor

输出C

else 标记p为噪声

Until 没有标记为unvisited的对象

时间复杂度O(n2) ，若使用空间索引，则时间复杂度为O(nlogn) ，即便对于高维数据，DBSCAN的空间也是O(n)

优点：可以在带有噪声的空间数据库中发现任意形状的簇

不足：参数需要由用户确定，算法对参数敏感，在具体实施时困难很大，当簇的密度变化太大以及高维数据，DBSCAN会有麻烦。

EM算法是一种框架，它逼近统计模型参数的最大似然或最大后验估计。在模糊或基于概率模型的聚类的情况下，EM算法从初始参数集出发，并且迭代直到不能改善聚类，即直到聚类收敛或改变充分小(小于一个预先设定的阈值)。每次迭代由两步组成：

期望步(E-步):根据当前的模糊聚类或概率簇的参数，把对象指派到簇中。

最大化步(M-步):发现新的聚类或参数，最小化模糊聚类的SSE或基于概率模型的聚类的期望似然。

形象说法：比如说食堂的大师傅炒了一份菜，要等分成两份给两个人吃，显然没有必要拿来天平一点一点的精确的去称分量，最简单的办法是先随意的把菜分到两个碗中，然后观察是否一样多，把比较多的那一份取出一点放到另一个碗中，这个过程一直迭代地执行下去，直到大家看不出两个碗所容纳的菜有什么分量上的不同为止。

最大似然估计(https://blog.csdn.net/zengxiantao1994/article/details/72787849)

Jensen(琴生)不等式：函数的期望大于等于期望的函数，即 E(f(x))≥f(E(x))

算法推导：http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006936.html

聚类评估

聚类评估估计在数据集上进行聚类的可行性和被聚类方法产生的结果的质量。聚类评估主要包括：估计聚类趋势、确定数据集中的簇数、测定聚类质量。

估计聚类趋势：对于给定的数据集，评估该数据集是否存在非随机结构。盲目地在数据集上使用聚类方法将返回一些簇，所挖掘的簇可能是误导。数据集上的聚类分析是有意义的，仅当数据中存在非随机结构。

聚类趋势评估确定给定的数据集是否具有可以导致有意义的聚类的非随机结构。一个没有任何非随机结构的数据集，如数据空间中均匀分布的点，尽管聚类算法可以为该数据集返回簇，但这些簇是随机的，没有任何意义。聚类要求数据的非均匀分布。

霍普金斯统计量(Hopkins Statistic)是一种空间统计量，检验空间分布的变量的空间随机性。

计算步骤：

(1) 均匀地从D的空间中抽取n个点p1,p2,...pn,对每个点pi(1≤i≤n),找出pi在D中的最近邻，并令xi为pi与它在D中的最近邻之间的距离，即

(2) 均匀地从D的空间中抽取n个点q1,q2,...qn,对每个点qi(1≤i≤n),找出qi在D-{qi}中的最近邻，并令yi为qi与它在D-{qi}中的最近邻之间的距离,即

(3) 计算霍普金斯统计量H

如果D是均匀分布的，则

将会很接近，H大约为0.5.而如果D是高度倾斜的，则

，因而H将会接近与0.

确定数据集中的簇数：K-均值这样的算法需要数据集的簇数作为参数，簇数也可以看作是数据集的有趣并且重要的概括统计量。因此，在使用聚类算法导出详细的簇之前，估计簇数是可取的。

经验方法：

肘方法(elbow method)：给定k>0,使用像K-均值这样的算法对数据集聚类，并计算簇内方差和var(k)。然后，绘制var关于k的曲线。曲线的第一个(或最显著的)拐点暗示“正确的”簇数。

交叉验证法：将数据分为m部分；用m-1部分获得聚类模型，余下部分评估聚类质量(测试样本与类中心的距离和)；对k>0重复m次，比较总体质量，选择能获得最好聚类质量的k

测定聚类质量：在数据集上使用聚类方法之后，需要评估结果簇的质量。

两类方法：外在方法和内在方法

外在方法：有监督的方法，需要基准数据。用一定的度量评判聚类结果与基准数据的符合程度。(基准是一种理想的聚类，通常由专家构建)

Jaccard系数(Jaccard Coefficient, JC)

FM指数(Fowlkes and Mallows Index, FMI)

Rand指数(Rand Index, RI)

( a+b+c+d=m(m-1)/2 )

上述性能度量的结果值均在[0,1]区间，值越大越好。

用Q(C,Cg)表示聚类C在给定基准数据Cg条件下的质量度量

Q的好坏取决于四个条件：

簇的同质性：簇内越纯越好

簇的完整性：能够将基准数据中属于相同类的样本聚类为相同的类

碎布袋：把一个异种数据加入纯类应该比放入碎布袋受到更大的“处罚”

小簇的保持性：把小簇划分成更小簇比把大簇划分为小簇的危害更大

BCubed精度和召回率：一个对象的精度指示同一个簇中有多少个其他对象与该对象同属一个类别。一个对象的召回率反映有多少同一类别的对象被分配在相同的簇中。

设D={o1,o2,...on}是对象的集合，C是D中的一个聚类。设L(oi)(1≤i≤n)是基准确定的oi的类别，C(oi)是C中oi的cluster_ID,对于两个对象oi和oj(1≤i,j≤n,i≠j),它们之间在聚类C中的关系的正确性由

给出。

BCubed精度定义为

BCubed召回率定义为

内在方法：无监督的方法，无需基准数据。类内聚集程度和类间离散程度。

考虑聚类结果的簇划分C={C1,C2,...,Ck},定义簇C内样本间的平均距离

簇C内样本间的最远距离：

簇Ci与簇Cj最近样本间的距离：

簇Ci与簇Cj中心点间的距离：

DB指数(Davies-Bouldin Index,DBI)

Dunn指数(Dunn Index,DI)

DBI值越小越好，而DI则相反，值越大越好。

轮廓系数(silhouette coefficient)：

对于D中的每个对象o,计算o与o所属的簇内其他对象之间的平均距离a(o):

b(o)是o到不包含o的所有簇的最小平均距离：

轮廓系数定义为：

轮廓系数的值在-1和1之间。

a(o)的值反映o所属的簇的紧凑性。该值越小，簇越紧凑。

b(o)的值捕获o与其他簇的分离程度。b(o)的值越大，o与其他簇越分离。

当o的轮廓系数值接近1时，包含o的簇是紧凑的，并且o远离其他簇，这是一种可取的情况。

当轮廓系数的值为负时，这意味在期望情况下，o距离其他簇的对象比距离与自己同在簇的对象更近，许多情况下，这很糟糕，应当避免。

超简单|Python实现机器学习算法——KNN birdcome python 机器学习 KNN算法
超简单|Python实现机器学习算法——KNNKNN算法简介算法实现步骤如何用python实现KNN算法Scikit-learn算法库实现KNN分类器Sklearn建模流程KNN算法简介KNN算法（k近邻算法）是一种有监督分类算法，它的原理非常简单，下面以一个简单的例子引入。已知两种酒的标签：赤霞珠和黑皮诺，在这个情景中，我们对酒进行分类的依据是酒精浓度和颜色深度，如下图所示：红色代表赤霞珠，紫色
《提示工程的科学化探索与大语言模型交互革新》 XianxinMao 语言模型交互
文章信息摘要主题：提示工程的科学化与大语言模型交互革新核心内容：提示工程的科学化与系统化建立可复现的方法论形成系统性知识体系构建标准化流程和评估体系大语言模型带来的交互变革从指令驱动到对话驱动从单一输出到多轮复杂交互从工具到协作伙伴的转变提示对模型行为的影响机制认知层面：引导思考路径语言层面：控制输出风格任务层面：定义问题边界关键要点：强调数据驱动和理论构建的重要性提出具体的技术路线和评估框架探讨
三款顶级开源RAG (检索增强生成)工具：Verba、Unstructured 和 Neum XianxinMao 人工智能自然语言处理 RAG
三款顶级开源RAG(检索增强生成)工具：Verba、Unstructured和Neum概述随着企业对话式数据处理需求的提升，面临的挑战是数据隐私性和缺乏企业级解决方案。虽然类似LangChain能在短时间内构建RAG应用，但忽视了文档解析、多来源数据ETL、批量处理、访问控制等问题。此文评估了三款开源RAG工具的潜力，专为生产环境设计。Verba：理想的RAG选择Weaviate提供的Verba项
Swift语言的语法糖 java熊猫包罗万象 golang 开发语言后端
Swift语言的语法糖引言在软件开发中，程序员经常会面临语法的复杂性与代码的可读性之间的权衡。Swift语言作为一种现代编程语言，注重于简洁性和高效性，提供了多种语法糖，使得代码既简洁又易于理解。本文将深入探讨Swift语言中的语法糖，及其对提高程序员生产力的重要意义。1.什么是语法糖在编程语言中，"语法糖"指的是一些语法特性，它们使得代码更加易读和易写，但并不提供新的功能。换句话说，语法糖仅仅是
ACL 2024 | 美团技术团队精选论文解读美团算法人工智能
本文精选了美团技术团队被ACL2024收录的4篇论文进行解读，论文内容覆盖了训练成本优化、投机解码、代码生成优化、指令微调（IFT）等技术领域。这些论文是美团技术团队跟高校、科研机构合作的成果。希望能给从事相关研究工作的同学带来一些帮助或启发。ACL是计算语言学和自然语言处理领域最重要的顶级国际会议，由国际计算语言学协会组织，每年举办一次。据谷歌学术计算语言学刊物指标显示，ACL影响力位列第一，是
星环科技×恒生电子，联合打造反洗钱解决方案人工智能
随着反洗钱行为更具隐蔽性、多样性和跨区域性，金融机构的反洗钱能力也相应面临新一轮升级。将大数据技术应用于反洗钱领域，可借助大数据平台高效整合、分析海量客户身份信息和交易数据，保障反洗钱系统有效开展客户风险等级评定、可疑交易筛查、黑名单监测等工作，为反洗钱工作赋能。近日，星环科技与恒生电子联合发布反洗钱解决方案，系统覆盖金融机构全业务全客户全流程，满足客户尽调、大额可疑交易检测、名单筛查、自评估等各
敏捷开发领域里的 Epic 以及和 User Story 的关联关系项目管理敏捷开发
在敏捷软件开发领域，Epic（史诗）通常是指一个大型的、跨越多个迭代周期的用户需求或者业务功能。Epic通常包含多个相关的故事（UserStory），这些故事描述了Epic所包含的具体功能和需求。Epic是敏捷开发中用于管理大型需求和复杂业务的一种方式。它可以帮助团队更好地理解用户需求、制定相应的开发计划和迭代计划、评估开发成本和资源等，从而更好地组织和管理软件开发工作。在实践中，团队通常会将Ep
Node.js Express与MongoDB博客系统开发实战凯二七
本文还有配套的精品资源，点击获取简介：本项目采用Node.js及其Express框架，结合MongoDB非关系型数据库，构建一个基于RESTfulAPI的Web博客服务。通过CRUD操作实现文章的发布、阅读、编辑和删除功能。项目强调了Node.js的异步I/O和事件驱动特性，以及MongoDB处理大规模、复杂数据集的能力，适合进行毕业设计等综合性开发任务。1.Node.js技术介绍与应用Node.
Python怎么开发Unity Jacob Piao unity c#游戏引擎开发语言
你可以使用Python来开发Unity游戏引擎的脚本。要在Unity中使用Python，你需要安装一个能够将Python代码转换为可以在Unity中运行的C#代码的工具。有几种方法可以实现这一点：使用IronPython：IronPython是一个基于.NET的Python实现，它可以在Unity中直接运行Python代码。使用PyUnity：PyUnity是一个能够将Python代码转换为Uni
掌握 React 高阶组件与高阶函数：构建可复用组件的新境界风茫 React react.js javascript
一、引言在React开发中，代码复用性和逻辑分离是提高开发效率和维护性的重要手段。高阶组件（Higher-OrderComponent,HOC）和高阶函数（Higher-OrderFunction,HOF）是实现这一目标的两种强大工具。本文将详细介绍这两种技术的概念、应用场景及其实现方式，并通过具体示例帮助你更好地理解和应用它们。二、高阶函数（HOF）1.概念高阶函数是指以函数作为参数或返回值的函
设计模式01：创建型设计模式之单例、简单工厂的使用情景及其基础Demo 我是苏苏设计模式 java 开发语言
一、单例模式1.情景连接字符串管理2.好处代码简洁：可全局访问连接字符串。性能优化：一个程序一个连接实例，避免反复创建对象（连接）和销毁对象（连接）。线程安全：连接对象不会被重复创建，从而避免并发冲突。3.DemousingSystem;usingSqlSugar;publicclassSqlSugarSingleton{//使用Lazy来保证延迟初始化和线程安全//Lazy通过内部的机制确保在多
npm install 报错常见的解决方法 dami_king 随笔 npm 前端 node.js
npminstall报错的情况有很多种，每种错误的具体解决方案也有所不同。这里我将汇总一些常见的npminstall报错及其解决办法：1.下载速度慢/网络问题解决办法：更换npm包的镜像源至国内镜像，如淘宝npm镜像：npmconfigsetregistryhttps://registry.npm.taobao.org2.缓存问题解决办法：清理npm缓存：npmcacheclean--force3
简化云上操作，阿里云客户端——您的云端全能助手运维云计算客户端
背景当您创建了云服务器或容器实例之后，以下操作往往是非常常见的：连接并登陆到服务器，大展身手一番，比如配置基础开发环境、部署应用服务、查看各种性能指标等等；可见连接并登陆到服务器是多么高频而基础的操作。而在使用业界通用的登陆工具时，这样的场景是否熟悉。场景一登陆密码忘了，试了几个常用的密码都是错的，奔溃啊。还好我吃一堑，长一智，把每台实例的密码经过加密算法加密后，记在了宝贝笔记本上，并放在了神秘加
如何定义需求的优先级需求管理工具需求分析需求优先级
如何定义需求的优先级包括：需求的重要性、紧急性、资源可用性、利益相关者的影响力。需求的重要性是评估需求优先级的第一步。一个项目的成功很大程度上取决于正确理解哪些需求是关键的，哪些是次要的。重要性的评估通常依赖于需求对业务目标的直接影响，以及这些需求如果不被满足，对项目整体成果的潜在负面效应。这个过程需要项目团队、利益相关者以及可能的终端用户的密切合作和沟通。一、理解和识别需求首先，项目团队需要完全
P1824 进击的奶牛 zty郑桐羽呀洛谷算法开发语言数据结构 zty 二分查找 c++
前言今天zty带来的是P1824进击的奶牛，大家给个赞呗，zty还要上学，发作品会少一点先赞后看养成习惯先赞后看养成习惯演示用编译器及其标准DevC++6.7.5RedpandaC++14正文进击的奶牛题目描述FarmerJohn建造了一个有NNN（2≤N≤1052\leqN\leq10^52≤N≤105)个隔间的牛棚，这些隔间分布在一条直线上，坐标是x1,x2,⋯ ,xNx_1,x_2,\cdo
Time-LLM ：超越了现有时间序列预测模型的学习器福安德信息科技 AI预测大模型学习人工智能 python 大模型时序预测
AI预测相关目录AI预测流程，包括ETL、算法策略、算法模型、模型评估、可视化等相关内容最好有基础的python算法预测经验EEMD策略及踩坑VMD-CNN-LSTM时序预测对双向LSTM等模型添加自注意力机制K折叠交叉验证optuna超参数优化框架多任务学习-模型融合策略Transformer模型及Paddle实现迁移学习在预测任务上的tensoflow2.0实现holt提取时序序列特征TCN时
Pandas数据处理基础6---插值填充及其用法阳光下的米雪 Pandas数据处理 python
插值填充插值是数值分析中一种方法。简而言之，就是借助于一个函数（线性或非线性），再根据已知数据去求解未知数据的值。插值在数据领域非常常见，它的好处在于，可以尽量去还原数据本身的样子。我们可以通过interpolate()方法完成线性插值。当然，其他一些插值算法可以阅读官方文档了解。#生成一个DataFramedf=pd.DataFrame({'A':[1.1,2.2,np.nan,4.5,
如何监控和优化缓存性能?思维导图代码示例（java 架构) 用心去追梦缓存 java 架构
为了监控和优化缓存性能，需要采取一系列策略和技术手段来确保缓存系统的高效运行。以下是一个思维导图结构，以及一个简化的Java架构代码示例，展示了如何通过设计和技术手段来实现这一目标。思维导图结构监控和优化缓存性能性能指标命中率缓存命中次数缓存未命中次数响应时间平均响应时间响应时间分布（如P95,P99）吞吐量每秒请求数每秒处理的数据量资源使用内存占用CPU使用率监控工具Prometheus+Gra
PSNR、SSIM等图像质量评估指标详解 ballball~~ CV cv 图像处理图像质量评估指标
简介：个人学习分享，如有错误，欢迎批评指正。一、PSNR（PeakSignal-to-NoiseRatio）峰值信噪比1.定义PSNR是一种用于衡量两幅图像之间差异的客观指标。它主要用于评估图像压缩、传输或重建算法的效果。PSNR值越高，表示两幅图像越相似，质量损失越小。PSNR基于信号与噪声的概念，其理论基础来自信息论中的信噪比（SNR，Signal-to-NoiseRatio）。PSNR将图像
干货！传统工厂数字化转型，从规划到落地的实战要点 RPAdaren 人工智能
在数字化浪潮的推动下，传统工厂的转型已成为必然趋势。本文将为你梳理传统工厂数字化转型的关键步骤，助力企业顺利迈向数字化新征程。一、全局规划：明确转型方向1.现状评估传统工厂设备和技术陈旧，转型前需全面评估现有生产设备、物资管理系统等，明确与数字化技术的差距。例如，某机械厂通过评估发现自动化程度低、数据采集难，从而确定了转型的起点。2.战略规划数字化转型需顶层规划引领，明确战略目标和实施手段。以汽车
UI Automation 中所有Patterns 听我俩天 ui
在UIAutomation中，所有的自动化模式（Patterns）都定义在System.Windows.Automation命名空间中。这些模式用于描述控件的行为和交互方式，允许你与应用程序的UI进行自动化操作。每个模式都有其特定的功能，例如点击按钮、输入文本、选择菜单项等。所有支持的自动化模式以下是UIAutomation中所有标准的自动化模式及其简要说明：InvokePattern用途：用于执
冯·诺依曼体系结构简介：计算机历史的奠基石方歧 LInux linux
冯·诺依曼体系结构（VonNeumannArchitecture）是现代计算机设计的基础模型，它深刻影响了当代计算机系统的开发与演变。1945年，著名数学家和计算机科学家约翰·冯·诺依曼提出了这一革命性概念，奠定了现代计算机的工作方式。在这篇博客中，我们将详细介绍冯·诺依曼体系结构的背景、核心原理、主要组成部分及其重要性。一、背景与历史在20世纪40年代，计算机技术仍处于早期阶段。当时的计算机主要
Python如何批量提取Word文档中的表格内容并保存到Excel？详细教程与示例代码 q446687967 python python word excel
在日常工作中，我们经常需要从大量的Word文档中提取表格数据，然后汇总到一个Excel文件中。手动操作不仅耗时，而且容易出错。那么，有没有一种高效的方法能够自动化这个过程呢？答案是肯定的！利用Python，我们可以批量提取Word中的表格内容，并将其存入Excel。本文将详细介绍如何使用Python实现这一功能，包括所需的库、具体的代码示例，以及可能遇到的问题和解决方法。前言大家好！今天我们一起来
什么是.NET中的反射，它有哪些应用场景 AitTech C#.net
反射是.NET框架提供的一种强大的机制，它允许程序在运行时查询和操作对象的类型信息。以下是对.NET中反射的详细解释及其应用场景：一、反射的定义在.NET中，所有类型的信息（包括类、结构、委托、接口、枚举等以及它们的成员信息）最终都是存储在元数据中的。反射就是.NET提供的一组API，允许我们在运行时访问这些元数据，从而获得关于程序集、模块、类型、成员等的详细信息。二、反射的应用场景动态类型创建：
分布式数据库：技术深度解析与应用实践我的运维人生分布式数据库运维开发技术共享
分布式数据库：技术深度解析与应用实践随着数据量的爆炸性增长和用户访问量的不断增加，传统的单机数据库系统逐渐暴露出在高可用性、高并发性和高扩展性方面的不足。分布式数据库作为一种将数据存储于多台服务器上的数据库系统，通过分布式技术保障系统的一致性和可用性，成为当今数据管理领域的重要方向。本文将深入探讨分布式数据库的基本概念、关键技术、典型架构及其应用场景，并结合代码实例和实际应用案例，为开发者和研究者
python训练模型损失值6000多_机器学习中的 7 大损失函数实战总结（附Python演练）... weixin_39700394
介绍想象一下-你已经在给定的数据集上训练了机器学习模型，并准备好将它交付给客户。但是，你如何确定该模型能够提供最佳结果?是否有指标或技术可以帮助你快速评估数据集上的模型?当然是有的，简而言之，机器学习中损失函数可以解决以上问题。损失函数是我们喜欢使用的机器学习算法的核心。但大多数初学者和爱好者不清楚如何以及在何处使用它们。它们并不难理解，反而可以增强你对机器学习算法的理解。那么，什么是损失函数，你
Java 内存锁的实现方式、性能比较及使用场景分析 nbsaas-boot java 开发语言
在多线程编程中，内存锁是控制多个线程对共享资源访问的关键机制。Java提供了多种内存锁的实现方式，常见的有synchronized、ReentrantLock、StampedLock和ReadWriteLock等。为了更好地解决分布式系统中的并发问题，我们可以将这些锁实现方式封装成一个基础的服务，并根据需要在不同的场景下使用它们。本文将讨论Java内存锁的实现方式、性能比较及其适用场景，同时介绍如
设计模式02：结构型设计模式之适配器模式使用情景及其基础Demo 我是苏苏设计模式适配器模式 java
1.适配器模式用途：接口兼容评价：复杂、冗余、难以调试，个人认为直接在旧系统那里封装一个新实现调用旧实现就好了场景：系统A、B、C想调用同一个功能接口，但是实现细节存在差异时（其实就是入参和出参转化处理，封装在一个新的类）//旧系统接口publicinterfaceIOldSystem{stringGetData();}//旧系统实现publicclassOldSystem:IOldSystem{
java中如何在集合遍历过程中删除元素（5种方法对比、案例、常见的错误及其后果）小胡说技书 Java+SSM+DB java List 开发语言
文章目录一、问题背景二、不同解决方案的对比1.使用`Iterator.remove()`2.`for-each`+手动删除3.`for`循环反向遍历4.`List.removeIf()`(Java8+)5.使用`Stream.filter()`(Java8+)三、常见的错误及其后果四、通过案例展示具体应用案例：删除列表中的偶数五、总结与补充在Java开发中，集合遍历过程中删除元素是一个常见但容易出
如何利用CodeMeter保护您的物联网设备 Dola_Zou 加密狗软件加密工业自动化物联网 iot 安全
世界经济论坛最近发布了《2023年连接世界状况报告》，这是一份关于物联网（IoT）治理差距的报告。报告采访了270多名国际专家，评估了6个关注领域：道德与诚信、网络安全、平等获取、环境可持续性、财务与运营可行性以及互操作性和系统架构。这份报告揭示了一些有趣的数据、结论和建议，值得认真阅读。在这篇文章中，我们将关注威步最关心的领域——网络安全。报告指出，连接设备的激增使得组织、政府和终端用户越来越容
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1

聚类算法评价指标python实现_聚类算法及其评估指标

你可能感兴趣的:(聚类算法评价指标python实现_聚类算法及其评估指标)