K24B;

机器学习聚类

聚类

在“无监督学习”任务中研究最多、应用最广。
聚类目标：将数据集中的样本划分为若干个通常不相交的子集(“簇”，cluster):
聚类既可以作为一个单独过程（用于找寻数据内在的分布结构)，也可作为分类等其他学习任务的前驱过程

一、聚类的目的

聚类（Clustering）是一种发现数据中的相似群（聚类，clusters）的技术。聚类是一个将数据集中在某些方面相似的数据成员进行分类组织的过程。一个聚类就是一些数据实例的集合，这个集合中的元素彼此相似；与其他聚类中的元素不同。

二、聚类性能的度量

我们希望“物以类聚” ，即同一簇的样本尽可能彼此相似，不同簇的样本尽可能不同。换言之，聚类结果的“簇内相似度”（ $in t r a$ - $c l u s t ers imi l a r i t y$ ）高，且“簇间相似度”（ $in t er$ - $c l u s t ers imi l a r i t y$ ）低，这样的聚类效果较好。聚类的性能度量与其他不太一样，分为外部指标和内部指标。

外部指标：将聚类结果与某个“参考模型”(reference model) 进行比较。

在此基础上定义了几个指标：

Jaccard系数（Jaccard Coefficient, JC）：
$\frac {a}{a+b+c}$
FM指数（Fowlkes and Mallows Index, FMI）:
$FMI=\sqrt{\frac{a}{a+b}\cdot \frac{a}{a+c}}$
Rand指数（Rand Index, RI）:
$RI=\frac {a+d}{a+b+c+d} = \frac {a+d}{m(m-1)/2} = \frac {2(a+d)}{m(m-1)}\\ \\ m为样本的个数$

内部指标：考虑聚类结果的簇划分 $C=\left\{ C_1,C_2,\cdot \cdot \cdot C_k \right\}$ 定义：

簇C内样本间的平均距离：
$\frac {2}{|C|(|C|-1)} \underset{1<=i<=j<=|C|}{\max}dist( x_ {i} , x_ {j} )$
簇C内样本间的最远距离：
$=\underset{1<=i<=j<=|C|}{\max}dist( x_ {i} , x_ {j} )。$
簇 $C_i$ 与簇 $C_j$ 最近样本间的距离：
$d_{\min}\left( C \right) =\underset{x_i\epsilon C_i,x_j\epsilon C_j}{\min}dist\left( x_i,x_j \right)$
簇 $C_i$ 与簇 $C_j$ 中心点间的距离：
$d_ {cen} (C)=dist( \mu _ {i} , \mu _ {j} )$
$D B$ 指数 $（ D a v i es - B o u l d in I n d e x, D B I ）$ ：
$\frac {1}{k} \sum _ {i=1}^ {k} \frac {avg(C_ {i})+avg(C_ {j})}{d_ {cen}(\mu _ {i},\mu _ {j})}$
$D u nn$ 指数 $（ D u nn I n d e x, D I ）$ ：
$DI=\underset{1<=i<=j}{\min}\left\{ \underset{j!=1}{\min}\left( \frac{d_{\min}\left( C_i,C_j \right)}{\underset{1<=l<=k}{\max}diam\left( C_l \right)} \right) \right\}$
分析公式可得， $D B$ 指数越小越好，而Dunn指数越大越好。
距离计算

闵可夫斯基距离：
$x_ {i} , x_ {j} )=( \sum _ {u=1}^ {n} |x_ {iu} - x_ {ju} |^p)^\frac{1}{p}$
当 p=1时，曼哈顿距离，当p=2时，欧式距离。

三.原型聚类

3.1 K均值聚类算法K-Means Clustering Algorithm

3.1.1快速理解：

有四个牧师去郊区布道，一开始牧师们随意选了几个布道点，并且把这几个布道点的情况公告给了郊区所有的居民，于是每个居民到离自己家最近的布道点去听课。
听课之后，大家觉得距离太远了，于是每个牧师统计了一下自己的课上所有的居民的地址，搬到了所有地址的中心地带，并且在海报上更新了自己的布道点的位置。
牧师每一次移动不可能离所有人都更近，有的人发现A牧师移动以后自己还不如去B牧师处听课更近，于是每个居民又去了离自己最近的布道点.…就这样，牧师每个礼拜更新自己的位置，居民根据自己的情况选择布道点，最终稳定了下来。

3.1.2基本思想

通过迭代把数据集划分为不同的类别（或称簇），使得评价聚类性能的准则函数达到最优，使得每个聚类类内紧凑，类间独立。

3.1.3 K-Means 算法实现步骤:

先定义总共有多少个类/簇（cluster) （这就是 K 均值聚类中的 K ，有几个类 K 就是多少）。
将每个簇心 (cluster centers)随机定在一个点上。
将每个数据点关联到最近簇中心所属的簇上。
对于每一个簇找到其所有关联点的中心点（取每一个点坐标的平均值）。
将上述点变为新的簇心。
不停重复，直到每个簇所拥有的点不变。

3.1.4评价聚类性能的准则函数

平方误差和准则函数SSE（sum of the squared error）
$SSE=\sum_{i=1}^k{\sum_{p\epsilon C_i}{\lVert p-m_i \rVert ^2}}$
一共有 $k$ 个划分的簇，即有 $k$ 个中心点， $p$ 为属于第 $i$ 个簇的样本， $m_i$ 为簇 $C_i$ 的中心点。

这个准则函数使得生成的簇尽可能的紧凑和独立。

3.1.5算法实现伪代码

3.1.6 simple example

3.1.7 影响聚类效果的因素

初始样本点的选择
k值的选择
评价聚类性能的准则函数的选择（一般采用欧氏距离、曼哈顿距离或者明考斯基距离的一种，作为样本间的相似性度量）

3.1.8 K-均值算法有哪些不足之处

k-means算法只有在簇的平均值被定义的情况下才能使用。
k-means算法的不足之处在于它要多次扫描数据，效率低。
k-means算法只能找出球形的类，而不能发现任意形状的类。
初始质心的选择对聚类结果有较大的影响。
k-means算法对于噪声和孤立点数据是敏感的，少量的该类数据能够对平均值产生极大的影响

3.2 模糊C均值聚类（fuzzy c-means）

3.2.1思路：

将聚类问题中的类定义为模糊集合，用模糊集的隶属度函数定量描述样本点与类之间的从属关系，并通过寻找使目标函数最小化的隶属度函数，实现聚类。

3.2.2定义

3.2.3 目标函数

3.2.4 具体步骤

3.3 K-中心点聚类算法（ $K$ - $M e d o i d e$ ）

3.3.1 PAM (Partitioning Around Medoide )

与K-均值算法的联系和区别

K-中心点算法也是一种常用的聚类算法，K-中心点聚类的基本思想和 K-means 的思想相同，实质上是对 K-means 算法的优化和改进。在 K-means 中，一些极值点对距离的计算影响比较大。在 K-means 算法执行过程中，可以通过随机的方式选择初始质心，也只有初始时通过随机方式产生的质心才是实际需要聚簇集合的中心点，而后面通过不断迭代产生的新的质心很可能并不是在聚簇中的点。如果某些异常点距离质心相对较大时，很可能导致重新计算得到的质心偏离了聚簇的真实中心。

PAM算法和K-Means不同的点就在，重新获得新的类聚中心这一步，K-Means 是通过计算类簇的均值来获得新的中心点，PAM是通过让类簇的每个点替代该类簇的中心点获得新的中心点的组合，然后计算代价，代价小显然就更加优秀，代价大显然就该舍弃。

PAM 算法实现步骤

确定聚类的个数 K。
在所有数据集合中选择 K 个点作为各个聚簇的中心点。
计算其余所有点到 K 个中心点的距离，并把每个点到 K 个中心点最短的聚簇作为自己所属的聚簇。
在每个聚簇中按照顺序依次选取点，计算该点到当前聚簇中所有点距离之和，最终距离之和最小的点，则视为新的中心点。
重复2，3步骤，直到各个聚簇的中心点不再改变。

PAM 算法的评价

PAM算法的时间复杂度是O（ $N^2$ ）,所以对于大数据量是不可接受的，但是PAM算法的精确度是相当的高，因为PAM算法从某种意义上来讲是类似穷举法的，是从所有的数据点中，计算大部分的点的组合来获得最优的代价。

PAM算法可以得到更加稳定和可靠的聚类结果，但是处理大规模数据集时会比较耗时。

3.3.2 CLARA (Clustering LARge Applications)

与PAM 算法的联系和区别

该算法就是在PAM的基础上提出的进行大规模数据的聚类的算法。该算法的思想就是通过在大规模数据中进行随机抽样，然后对每个抽样的样本使用PAM算法，最后在每个样本聚类出的最佳中心点中寻找一个代价最小的聚类中心作为当前的大数据样本的最佳聚类。

CLARA算法实现步骤

对数据集中进行多次随机采样，得到多个子集（采样的子集分布最好能够与原始数据集分布相似）
对每个子集进行PAM算法，选取中心，即每一个子集中都有k个中心点；
用每一个子集中的k个中心点对大数据样本进行聚类，选择最好的一组中心点，作为大样本数据的中心点。

伪代码

3.3.2.3 CLARA算法的评价

CLARA算法的时间复杂度是O（ $Nl o g N$ ）,缺点是无法找出最优解。

3.3.3 CLARANS (Clustering Large Applications based on Randomized Search)

与 CLARA算法和PAM算法的联系和区别

该算法就是在CLARA算法的基础上提出的，目的就是为了克服CLARA算法在采样上面的缺陷，使得能够找出最优解。该算法其实和PAM算法类似，但是通过两个阀值来对PAM两层循环进行控制，从而可以控制速度和精度。

CLARANS 算法的特点

CLARANS 在结果空间动态采样
一个结果就是一个 k个中心集合
结果空间共包含 $C_{n}^{k}$ 个组合
结果空间可以用一个图来表示，图上的一个节点表示一个可能的结果，即一个结点有k个中心点

CLARANS 算法的理解

图上每一个节点都是一个可能的结果，而每一个结果就是一个k个中心集合
每一个节点都有一个聚类误差（即总的类内距离和）
每一个相邻的节点定义为：节点中k个中心点中只有一个不同
每个节点都有k（n-k）个相邻的节点

CLARANS 算法的步骤

从图上随机选一个节点，即随机选一组k个中心点，然后检测m次邻居节点；
如果当前邻居节点的k个中心聚类效果比现有节点好，则转移到当前邻居节点，并重复上述过程直至m次；否则返回当前节点作为局部最优节点；
从图上再选择其他节点，重复上述过程h次；
当h个局部最优解发现后，返回其中最好的解。

CLARANS 算法的伪代码

CLARANS 算法的评价

优点： $C L A R A NS$ 比 $P A M$ 和 $C L A R A$ 效率要高主要是因为在结果空间上进行采样，而且可以处理离群点

缺点：聚类的质量依赖于采样方法

3.4 学习向量量化（ $L e a r nin g V ec t or Q u an t i z a t i o n, L V Q$ ）

3.4.1 $L V Q$ 的思想

$L V Q$ 是一种有监督学习的聚类方法，和其他的原型聚类的思想一样，可以用于多类别分类问题上，就是将数据映射到一个离散的输出空间上面，通过计算欧几里得距离或者是余弦相似度来作为度量样本向量到原型向量（即前文提到的中心点）的距离，并根据距离分配标签，即样本标签就是离它距离最近的原型向量的标签。

给定样本集： $\{(x_1,y_1)，(x_2,y_2)，\cdots，(x_m,y_m) \}$ ，m个样本

$L V Q$ 的目标就是学的一组q维向量 $\{p_1，p_2，\cdots，p_q \}$ ，每个原型向量代表一个聚类簇， $y_i$ 有多少种取值， $q$ 就为多少。

3.4.2 $L V Q$ 的伪代码

算法的理解，算法的关键在与第6-10行

可以看到当前向量的标签如果与离它最近的原型向量的标签一致则，

$p’=p_{i*}+\eta \cdot \left( x_j-p_{i*} \right)$
中心点更新为p’之后，他们之间的距离变为
$|p'-x_j|=|(1-\eta)(p_{i*}-x_j)|$
令学习率 $\eta∈(0,1)$ ，则原型向量 $p_{i*}$ 在更新为 $p^{'}$ 之后更接近心 $x_j,$ 他们之间的距离比之前要更小。

当前向量的标签与它最近的原型向量的标签不一致时，则同理，更新之后的 $p^{'}$ ，他们之间的距离更远了。

四.密度聚类（DBSCAN ）

将类看作数据空间中由低密度区域分隔开的高密度对象区域。

这是基于密度的聚类方法的主要策略。

4.1什么是密度聚类

一张图带你看明白密度聚类

上面分别是采用K-Means，Gaussian Mixture ，DBSCAN（密度聚类）的方式来对样本进行分类的结果。

可以直观看到，密度聚类的优势在于能够发现任何形状的类。

4.2密度聚类的一些基本的概念

核心对象(Core object)：一个对象的 $ε -$ 邻域至少包含最小数目 $M in Pt s$ 个对象。( $M in Pt s$ 是人为规定的)。
噪声：不属于任何类的对象为噪声。
边界对象：对于空间中的一个对象，如果它在给定半径-的邻域中的对象个数大于密度阀值 $M in Pt s$ ，则该对象被称为核心对象，否则称为边界对象。
密度直达(Directly density reachable,.DDR )：给定对象集合 $D$ ,如果 $p$ 是在 $q$ 的 $ε -$ 邻域内，而 $q$ 是核心对象，我们说对象p是从对象q密度直达的（如果q是一个核心对象， $p$ 属于 $q$ 的邻域，那么称 $p$ 密度直达 $q$ )。
密度可达(density reachable)：存在一个从 $p$ 到 $q$ 的 $DD R$ 对象链（如果存在一条链 $< p_{l} ， p_{2} ， \dots ， p_{i} >$ ），满足 $p_1=p，p_i=q，p_i$ 直接密度可达 $p_i+1$ ，则称 $p$ 密度可达 $q$ )。由一个核心对象和其密度可达的所有对象构成一个聚类。
密度相连：如果存在 $o$ ， $o$ 密度可达 $q$ 和 $p$ ，则称 $p$ 和 $q$ 是密度连通的。

4.3、密度聚类的步骤

DBSCAN通过检查数据集中每个对象的ε邻域来寻找聚类。
如果一个点p的ε邻域包含多于MinPts个对象，则创建一个p作为核心对象的新类C。
然后，DBSCAN从C中寻找未被处理对象q的ε邻域，如果q的ε邻域包含多与MinPts个对象，则还未包含在C中的q的邻点被加入到类中，并且这些点的ε邻域将在下一步中进行检测。这个过程反复执行，当没有新的点可以被添加到任何类时，该过程结束。具体如下：

4.4、密度聚类的伪代码

4.4密度聚类的特点

优点：

能克服基于距离的算法只能发现“类圆形”类的缺点，可发现任意形状的聚类有效地处理数据集中的噪声数据，数据输入顺序不敏感

缺点：

输入参数敏感.确定参数ε，MinPts困难，若选取不当，将造成聚类质量下降.
由于在DBSCAN算法中，变量MinPts是全居唯一的，当空间聚类的密度不均匀、聚类间距离相差很大时，聚类质量较差。
计算密度单元的计算复杂度大，需要建立空间索引来降低计算量，且对数据维数的伸缩性较差。这类方法需要扫描整个数据库，每个数据对象都可能引起一次查询，因此当数据量大时会造成频繁的/O操作。

如下图：

对参数的选择很敏感举例

五.层次聚类

5.1 什么是层次聚类

层次聚类试图在不同层次对数据集进行划分，从而形成树形的聚类结构。数据集划分既可采用“自底向上”的聚合策略，也可采用“自顶向下”的分拆策略。

AGNES算法(agglomerative nesting,自底向上的层次聚类算法)是比较常用的一种层次聚类算法。

首先，将样本中的每一个样本看做一个初始聚类簇，然后在算法运行的每一步中找出距离最近的两个聚类簇进行合并，该过程不断重复，直到达到预设的聚类簇的个数。

5.2两个聚类簇之间的距离的衡量方式

最小距离： $ d_ {\min } ( C_ {i} , C_ {j} )=\underset{x\epsilon C_i\ y\epsilon C_j}{\min}dist\left( x,y \right)$ .

最大距离：$ d_ {\max } ( C_ {i} , C_ {j} )=\underset{x\epsilon C_i\ y\epsilon C_j}{\max}dist\left( x,y \right)$ .

平均距离： $d_ {avg } ( C_ {i} , C_ {j} )=\frac{1}{\left| C_i \right|\left| C_j \right|}\sum_{x\epsilon C_i}{\sum_{y\epsilon C_j}{dist\left( x,y \right)}}$

5.3 AGNES算法

伪代码实现

5.4.层次聚类的评价

优点：

可以处理不同类型的数据集
可以处理大型的数据集

缺点：

对于大量数据，计算成本很高；
对于具有不同大小、密度和形状的簇，效果不佳；
对于噪声和异常值敏感；
算法的结果高度依赖于所选的相似性度量和聚类算法；
无法处理非凸簇。

蓝桥杯备赛计划 laitywgx 蓝桥杯职场和发展
1-2小时的蓝桥杯PythonB组冲刺日程表（持续1个月，聚焦高频考点）：第一周：核心算法突破Day1（周一）学习重点：动态规划（01背包问题）学习资源：AcWing《蓝桥杯辅导课》第8讲（背包问题模板）代码模板速记：#一维01背包模板n,V=map(int,input().split())dp=[0]*(V+1)for_inrange(n):w,v=map(int,input().split()
机器学习怎么做特征工程全栈你个大西瓜人工智能机器学习人工智能特征工程数据预处理特征变换特征降维特征构造
一、特征工程通俗解释特征工程就像厨师做菜前的食材处理：原始数据是“生肉和蔬菜”，特征工程是“切块、腌制、调料搭配”，目的是让机器学习模型（食客）更容易消化吸收，做出更好预测（品尝美味）。二、为什么要做特征工程？数据质量差：原始数据常有缺失、噪声、不一致问题（如年龄列混入“未知”）。模型限制：算法无法直接理解原始数据（如文本、日期需要数值化）。提升效果：好特征能显著提升模型性能（准确率提升10%~5
【机器学习】机器学习四大分类藓类少女机器学习机器学习分类人工智能
机器学习的方法主要可以分为四大类，根据学习方式和数据标注情况进行分类：1.监督学习（SupervisedLearning）特点：有标注数据（即训练数据有明确的输入(X)和输出(Y)）。学习目标是找到一个映射(f(X)\approxY)。适用于分类和回归问题。主要算法：分类（Classification）：逻辑回归（LogisticRegression）支持向量机（SVM）朴素贝叶斯（NaïveBa
机器学习——KNN超参数练习AI两年半机器学习人工智能深度学习
sklearn.model_selection.GridSearchCV是scikit-learn中用于超参数调优的核心工具，通过结合交叉验证和网格搜索实现模型参数的自动化优化。以下是详细介绍：一、功能概述GridSearchCV在指定参数网格上穷举所有可能的超参数组合，通过交叉验证评估每组参数的性能，最终选择最优参数组合。其核心价值在于：自动化调参：替代手动参数调试，提升效率3。交叉验证支持：通
高频交易：当速度与智慧在金融市场中“飙车”（策略＋算法）西蒙斯.果 python numpy pandas
高频交易：当速度与智慧在金融市场中“飙车”高频交易（High-FrequencyTrading,HFT）就像金融市场的“闪电侠”，利用强大的计算机和复杂的算法，在毫秒甚至微秒内完成交易。它的目标是抓住市场中的微小机会，赚取“快钱”。以下是对高频交易策略和算法的详细介绍，带点幽默感，让你在了解金融科技的同时也能会心一笑。---一、高频交易策略：金融市场的“快闪族”1\.做市策略：买卖价差的“中间商”
Github上神仙级大模型项目：大语言模型(LLM)入门学习路线图，三个月让你从大模型基础到精通！ AI大模型-大飞 github 语言模型学习人工智能 AI大模型程序员 AI
Github项目上有一个大语言模型学习路线笔记，它全面涵盖了大语言模型的所需的基础知识学习，LLM前沿算法和架构，以及如何将大语言模型进行工程化实践。这份资料是初学者或有一定基础的开发/算法人员入门活深入大型语言模型学习的优秀参考。这份资料重点介绍了我们应该掌握哪些核心知识，并推荐了一系列优质的学习视频和博客，旨在帮助大家系统性地掌握大型语言模型的相关技术。大语言模型（LargeLanguageM
AtCoder备赛冲刺必刷题（C++） | 洛谷 AT_abc396_a Triple Four 热爱编程的通信人 c++算法开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】洛谷：AT_abc396_a[ABC396A]
算法及数据结构系列 - 滑动窗口诺亚凹凸曼算法及数据结构算法数据结构 java
系列文章目录算法及数据结构系列-二分查找算法及数据结构系列-BFS算法算法及数据结构系列-动态规划算法及数据结构系列-双指针算法及数据结构系列-回溯算法算法及数据结构系列-树文章目录滑动窗口框架思路经典题型76.最小覆盖子串567.字符串的排列438.找到字符串中所有字母异位词3.无重复字符的最长子串滑动窗口框架思路/*滑动窗口算法框架*/voidslidingWindow(strings,str
QHDBO基于量子计算和多策略融合的蜣螂优化算法算法小狂人算法改进智能优化算法量子计算算法
2.DBO基本的蜣螂算法通过模拟蜣螂在自然界中的四种行为（滚动、产卵、觅食和偷窃）来执行种群位置更新。2.1滚动蜣螂在自然界中，蜣螂必须通过太阳导航，使其球滚动的路线尽可能直线。方程(1)用于原始论文中更新滚动蜣螂的位置：xi(t+1)=xi(t)+α⋅k⋅xi(t−1)+b⋅Δx(1)x_i(t+1)=x_i(t)+\alpha\cdotk\cdotx_i(t-1)+b\cdot\Deltax\
H800能效架构实战解析智能计算研究中心其他
内容概要H800能效架构以异构计算资源调度与动态功耗控制为核心，通过系统级协同设计实现算力密度与能耗优化的双重目标。其核心技术覆盖智能负载分配、电压频率动态调节及热管理三大模块，形成从芯片级到数据中心级的垂直优化链路。在架构设计中，异构资源调度算法通过实时分析任务特征与硬件状态，动态分配CPU、GPU及专用加速器资源，最大化硬件利用率；动态功耗模块则基于负载波动自适应调整供电策略，结合多级电压频率
模型优化驱动产业应用创新智能计算研究中心其他
内容概要当前模型优化技术的迭代正沿着多维路径快速演进，其核心驱动力在于突破算法性能与产业需求间的适配瓶颈。以自适应学习机制与迁移学习框架为基础的优化策略，显著提升了模型在跨场景应用中的泛化能力，而超参数自动调优技术则通过PyTorch、TensorFlow等主流框架的接口标准化，降低了复杂模型的开发门槛。在部署层面，边缘计算与联邦学习的协同应用不仅缩短了金融预测、医疗影像分析等场景的响应延迟，更通
算力网协同创新与多场景应用实践智能计算研究中心其他
内容概要算力网协同创新正通过技术融合与场景适配，驱动算力资源的高效整合与跨域调度。核心突破方向涵盖异构计算架构优化、边缘计算实时响应能力提升，以及智能算力在工业互联网、数字孪生等场景的动态供给。随着“东数西算”工程推进，算力网络需兼顾性能与可持续性，在芯片制程优化、模型压缩算法及能耗管理等领域形成技术闭环。技术方向应用场景关键指标异构计算架构工业检测任务延迟<10ms模型压缩算法医疗影像分析计算资
算力技术创新与多场景应用突破智能计算研究中心其他
内容概要算力技术创新正成为驱动数字经济发展的核心引擎，其演进路径呈现出多维度突破态势。从量子计算颠覆性架构到光子计算超高速特性，从异构计算资源动态整合到边缘计算实时响应机制，技术革新持续突破物理边界与能耗瓶颈。应用层面，工业互联网实时控制、元宇宙沉浸式交互、生物计算精准建模等场景对算力提出差异化需求，推动智能调度算法与能效管理体系的协同优化。与此同时，全国一体化算力网络建设加速芯片制程迭代、数据中
搜索插入位置(力扣题）风继续吹.. LeetCode算法题 leetcode 算法职场和发展前端
题目：给定一个排序数组和一个目标值，在数组中找到目标值，并返回其索引。如果目标值不存在于数组中，返回它将会被按顺序插入的位置。来源：力扣（LeetCode）请必须使用时间复杂度为O(logn)的算法示例以及输出结果来源：力扣（LeetCode）示例1:输入:nums=[1,3,5,6],target=5输出:2示例2:输入:nums=[1,3,5,6],target=2输出:1示例3:输入:num
MMO基础双端架构（五）：如何O(1)的处理心跳消息晴空～蓝兮 MMO双端游戏架构游戏算法 c#
更多代码细节，球球各位观众老爷给鄙人的开源项目点个Star，持续更新中~Free项目开源地址5.LRU算法淘汰超时心跳消息采用双向链表+线程安全哈希字典处理心跳消息的超时和检查机制仿照了经典算法LRU（也就是最少关注移除算法，当容器内的size大于最大容许size时，最少关注的那个单位就会被移除）这样的设计可以实现，平均o(1)插入删除，整个链表的长度只与客户端连接的数量有关，每一次查询都会均摊超
重要重要！！fisher矩阵是怎么计算和更新的，以及计算过程中参数的物理含义 ZhangJiQun&MXP 教学 2021 论文 2024大模型以及算力矩阵概率论线性代数 windows 微信机器学习
fisher矩阵是怎么计算和更新的，以及计算过程中参数的物理含义Fisher信息矩阵（FisherInformationMatrix,FIM）用于衡量模型参数估计的不确定性，其计算和更新在统计学、机器学习和优化中具有重要作用。以下是其计算和更新的关键步骤：一、Fisher矩阵的计算定义Fisher矩阵的元素表示对数似然函数关于参数的二阶导数的期望值的负数，即：Fi,j=−
PX4飞控之位置控制（1）整体架构 Felix_ZL px4飞控 PX4 位置控制架构
位置控制是无人机飞控的核心算法之一，一方面根据commander中的flag标志位和Navigator中提供的航点信息进行控制（自主模式下），另一方面得到期望姿态角（setpoint）的四元数信息，给到姿态控制模块进行姿态控制。本文重点PX4飞控的位置控制的代码整体架构（mc_pos_control）,具体的控制算法将在后续文章中陆续奉上。位置控制模块的主函数：task_main()1.订阅结构体
C++徒手造国密SM算法！码农の头发消失术实录 skyksksksksks C++个人杂记物联网国密算法国密算法密码学 c++开发语言
【开场暴击：程序员的修仙之路】各位在秃头边缘疯狂试探的代码战士！今天我们要挑战史诗级成就——用纯C++手搓国家密码管理局钦定的SM2/SM3/SM4算法！没有现成库！没有外挂！只有头铁和即将离你而去的头发！(ง•̀_•́)ง【SM2加密：和椭圆曲线谈恋爱の玄学】这玩意儿就像追女神——你永远猜不透她的心思！来看加密の奥义三连：SM2加密vs追妹子对比表行为SM2加密流程追妹子流程第一步生成随机数k制
C++ 用ECC算法 Curve为EC_NIST_FP_521写个示例签名和验签。PCI认证小黄人软件经验分享 ssl 学习
以下是一个使用OpenSSL实现ECC(椭圆曲线密码)签名和验签的C++示例，曲线使用secp521r1（即NISTP-521）。这个程序：生成NISTP-521曲线的EC密钥。使用SHA-512进行哈希并签名数据。验证签名的正确性。编译：g++-oecc_signecc_sign.cpp-lssl-lcrypto运行：./ecc_sign你可以试试看，看看签名和验签是否成功！
计算机视觉总结 Trank-Lw 计算机视觉深度学习人工智能
以下是针对上述问题的详细解答，并结合代码示例进行说明：1.改进YOLOv5人脸检测模块，复杂光照场景准确率从98.2%提升至99.5%优化具体过程：光照补偿：在数据预处理阶段，采用自适应光照补偿算法，对图像进行实时增强，以减少光照变化对人脸检测的影响。数据增强：在训练数据中增加复杂光照场景下的样本，如强光、弱光、背光等，通过数据增强提高模型对不同光照条件的适应性。模型调整：对YOLOv5模型的网络
每日一题一一Leetcode128. 最长连续序列 - 力扣 Blue.ztl 写写算法 leetcode 算法数据结构
每日一题一一Leetcode128.最长连续序列-力扣作者：blue时间：2025.3.14128.最长连续序列-力扣（LeetCode）本题的要求是：给定一个未排序的整数数组nums，找出其中数字连续的最长序列（不要求序列元素在原数组中连续）的长度。本题用排序加遍历的方法非常容易解决，但是算法的效率太低。本题正真的解题思路如下，首先，数组中是有可能出现重复的数字，但是重复的数字其实并不影响我们找
DeepSeek关键RL算法GRPO，有人从头跑通了，贡献完整代码强化学习曾小健2 大语言模型LLM 算法
DeepSeek关键RL算法GRPO，有人从头跑通了，贡献完整代码机器之心2025年03月02日11:54北京选自GitHub作者：AndriyBurkov机器之心编译GRPO（GroupRelativePolicyOptimization）是DeepSeek-R1成功的基础技术之一，我们之前也多次报道过该技术，比如《DeepSeek用的GRPO占用大量内存？有人给出了些破解方法》。简单来说，GR
深度学习 Deep Learning 第8章深度学习优化 odoo中国 AI编程人工智能深度学习人工智能优化
深度学习第8章深度学习的优化章节概述本章深入探讨了深度学习中的优化技术，旨在解决模型训练过程中面临的各种挑战。优化是深度学习的核心环节，直接关系到模型的训练效率和最终性能。本章首先介绍了优化在深度学习中的特殊性，然后详细讨论了多种优化算法，包括随机梯度下降（SGD）、动量法、Nesterov动量法、AdaGrad、RMSProp和Adam等。此外，还探讨了参数初始化策略、自适应学习率方法以及二阶优
DAY33 贪心算法Ⅱ Useee 贪心算法算法
122.买卖股票的最佳时机II-力扣（LeetCode）想到把整体利润分解为每天的利润，就豁然开朗了。classSolution{public:intmaxProfit(vector&prices){intresult=0;for(inti=1;i&nums){intcover=0;if(nums.size()==1)returntrue;for(inti=0;i=nums.size()-1)re
众数(masses)（c++）羊蜜不是羊 c++算法数据结构
题目描述由文件给出N个1到30000间无序数正整数，其中1≤N≤10000，同一个正整数可能会出现多次，出现次数最多的整数称为众数。求出它的众数及它出现的次数。输入描述输入文件第一行是正整数的个数N，第二行开始为N个正整数。输出描述输出文件有若干行，每行两个数，第1个是众数，第2个是众数出现的次数。（两个数之间由一个空格间隔，行末无多余空格）样例输入12242325372343输出2434来源算法
简单密码破解（c++）羊蜜不是羊 c++算法开发语言
题目描述密码是我们生活中非常重要的东东，我们的那么一点不能说的秘密就全靠它了。哇哈哈.接下来渊子要在密码之上再加一套密码，虽然简单但也安全。假设渊子原来一个BBS上的密码为zvbo941987,为了方便记忆，他通过一种算法把这个密码变换成YUANzi1987，这个密码是他的名字和出生年份，怎么忘都忘不了，而且可以明目张胆地放在显眼的地方而不被别人知道真正的密码。他是这么变换的，大家都知道手机上的字
HTML语言的贪心算法宇瞳月包罗万象 golang 开发语言后端
HTML语言的贪心算法：理论与实践引言在编程和算法研究中，贪心算法是一种广泛应用的解决问题的方法。它通过对每一阶段选择最优解的方式来构建整个问题的解决方案。贪心算法不一定能在所有情况下得到最优解，但在许多实际问题中，它能够提供一个足够好的近似解。本文将探讨贪心算法的基本概念、典型应用、优缺点，并结合HTML语言的特点，提出一些具体的实现示例和思考。一、贪心算法的基本概念贪心算法是一种求解最优化问题
景联文科技提供高质量文本标注服务，驱动AI技术发展景联文科技科技人工智能
文本标注是指在原始文本数据上添加标签的过程，这些标签可以用来指示特定的实体、关系、事件等信息，以帮助计算机理解和处理这些数据。文本标注是自然语言处理（NLP）领域的一个重要环节，它通过为文本的不同部分提供具体的含义和上下文信息，增强机器学习和深度学习模型对文本内容的理解能力。标注类型情感分析情感极性：确定文本表达的情感倾向，如正面、负面或中立。强度评估：衡量情感的强烈程度，从轻微到极端不等。命名实
《Hello 算法》火了！！！一本写给算法初学者的入门算法书籍遇码分享算法 hello hello算法算法书籍
曾经也放出豪言壮语，决心要刷遍力扣上的所有算法题目。然而现实就很快啪啪的打脸。不知道多少人和我有过一样的经历。在读到《Hello算法》的序中，作者靳宇栋给了我们一个“台阶”。随后就表达了针对我们的现状，他特地写了《Hello算法》这本书，代表广大算法初学者表示感激涕零。《Hello算法》为什么适合入门动画图解、一键运行的数据结构与算法教程全书采用动画图解，内容清晰易懂、学习曲线平滑，引导初学者探索
景联文科技：以高质量数据标注推动人工智能领域创新与发展景联文科技科技人工智能数据标注
在当今这个由数据驱动的时代，高质量的数据标注对于推动机器学习、自然语言处理（NLP）、计算机视觉等领域的发展具有不可替代的重要性。数据标注过程涉及对原始数据进行加工，通过标注特定对象的特征来生成能够被机器学习模型识别和使用的编码格式，从而使数据更具有意义和可解读性。数据标注的主要类型包括：图像标注：指在图片中标识出目标物体的位置、形状或类别等信息，如自动驾驶技术中的行人、车辆及交通标志的识别。文本
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1

机器学习 聚类

聚类