酱懵静

【机器学习】聚类算法（理论）

聚类算法（理论）

一、概论

聚类分析，即聚类（Clustering），是指在一大推数据中采用某种方式或准则来将一些具有相同或相似性质和特征的数据划分为一类。聚类是无监督学习的典型算法，相较于有监督学习，由于聚类针对的大多是无标签数据，因此对于最终构建的模型而言，在进行模型评估时会比较麻烦。同时，在对算法进行调参时也会因为这种不确定性而稍带困难。

1、聚类算法的分类

聚类算法的分类有：

划分法
划分法(Partitioning Methods)，给定一个有N个元组或者纪录的数据集，分裂法将构造K个分组，每一个分组就代表一个聚类，K小于N。而且这K个分组满足下列条件：
（1）每一个分组至少包含一个数据纪录；
（2）每一个数据纪录属于且仅属于一个分组（注意：这个要求在某些模糊聚类算法中可以放宽）；
层次法
层次法(Hierarchical Methods)，这种方法对给定的数据集进行层次似的分解，直到某种条件满足为止。具体又可分为“自底向上”和“自顶向下”两种方案。例如，在“自底向上”方案中，初始时每一个数据纪录都组成一个单独的组，在接下来的迭代中，它把那些相互邻近的组合并成一个组，直到所有的记录组成一个分组或者某个条件满足为止。
密度算法
基于密度的方法(Density-Based Methods)，基于密度的方法与其它方法的一个根本区别是：它不是基于各种各样的距离的，而是基于密度的。这样就能克服基于距离的算法只能发现“类圆形”的聚类的缺点。
图论聚类法
图论聚类方法解决的第一步是建立与问题相适应的图，图的节点对应于被分析数据的最小单元，图的边（或弧）对应于最小处理单元数据之间的相似性度量。因此，每一个最小处理单元数据之间都会有一个度量表达，这就确保了数据的局部特性比较易于处理。图论聚类法是以样本数据的局域连接特征作为聚类的主要信息源，因而其主要优点是易于处理局部数据的特性。
网格算法
基于网格的方法(Grid-Based Methods)，这种方法首先将数据空间划分成为有限个单元（cell）的网格结构，所有的处理都是以单个的单元为对象的。这么处理的一个突出的优点就是处理速度很快，通常这是与目标数据库中记录的个数无关的，它只与把数据空间分为多少个单元有关。
代表算法有：STING算法、CLIQUE算法、WAVE-CLUSTER算法；
模型算法
基于模型的方法(Model-Based Methods)，基于模型的方法给每一个聚类假定一个模型，然后去寻找能够很好的满足这个模型的数据集。这样一个模型可能是数据点在空间中的密度分布函数或者其它。它的一个潜在的假定就是：目标数据集是由一系列的概率分布所决定的。
通常有两种尝试方向：基于统计、基于神经网络。

2、欧氏空间的引入

世间万物，皆为混沌。为此，人类世界经历了原始社会、奴隶社会、封建社会、资本主义社会到共产主义社会，这是人类社会从低级到高级的发展过程。但从哲学的角度看来，这实际上是一种从无序到有序的过程。人类社会如此，数学亦是如此。
数字的无穷尽给它的使用带来了极大不便，为此，在一维空间建立了“数轴”，以将这些数字按序列在一条直线上，既便于比较也便于查找与定位，如：。一维空间最经典的用例，莫过于尺子：用以测量长度。但是地图的出现让人们陷入苦恼，要如何精准地定位一个人的位置呢？“坐标轴”似乎是一个可行的方案：通过在二维平面中，额外增加一条与一维空间中的数轴所垂直的纵向数轴，便能建立一个能海纳百川的空间，此时可用 (, ) 定位任意位置。二维空间最典型的用例，莫过于用于进行全球定位的经纬度。在建筑、设计类软件中，处理目标更多的是立体图形，此时，二维空间便显得余力不足。很自然地想到，可采取从一维到二维的相同提升方式，即添加一条与二维平面相垂直的数轴，这样一来就能构建一个涵盖三维空间全部位置的坐标轴，以达到从二维空间到三维空间的提升，此时可用 (, , ) 定位任意位置。

现在让我们回忆下不同空间中与距离相关的一些定义：

在一维空间，两个点 , 之间的距离可以用 $distance(a,b)=\sqrt{(x_a-x_b)^2}=|x_a-x_b|$ 来表示；
在二维空间，两个点 (, ) , (, ) 之间的距离可以用 $distance(a,b)=\sqrt{(x_a-x_b)^2+(y_a-y_b)^2}$ 来表示；
在三维空间，两个点 (, , ) , (, , ) 之间的距离可以用 $distance(a,b)=\sqrt{(x_a-x_b)^2+(y_a-y_b)^2+(z_a-z_b)^2}$ 来表示；

有关（内）积的定义：

在一维空间，两数 , 之积为 Mul(, ) = ；
在二维空间，两个点 (, ) , (, ) 之间的（内）积可以用 Mul(, ) = + 来表示；
在三维空间，两个点 (, , ) , (, , ) 之间的（内）积可以用 Mul(, ) = + + 来表示。

在二维及以上空间，基于两点 (₁, ₂, … , ) , (₁, ₂, … , ) 可定义一个具有方向的指标，称其为向量，则可得到：
$\vec{\xi} = \{ a_1, a_2, … ,a_n \} = \{ x_1, x_2, …, x_n \} - \{ y_1, y_2, …, y_n \} = \{ x_1 - y_1, x_2 - y_2, …, x_n - y_n \}$
对于高维空间，定义两向量的内积为： $\vec{\xi}·\vec{\eta}=\sum_{i=1}^na_ib_i=a_1b_1+a_2b_2+…+a_nb_n$ 这个内积和两点之间的内积算法是一致的。
有时候，我们需要通过两个向量之间的夹角来判断与其相关的一些性质，为此定义了方向余弦，其定义为：
$\theta=\frac{\vec{\xi}·\vec{\eta}}{|\vec{\xi}|·|\vec{\eta}|}$
以上就是在低维空间（一维、二维、三维）构建的一系列“秩序”，以帮助我们理解与使用，而高维空间却因它的抽象性显得较有难度。但是，依然可采取与前面的相同的思路来进行拓展。此时，若将在低纬空间总结的有关距离、（内）积、角相关的定理推广至有限的更高维空间，那这些符合定义的空间则被统称为欧几里得空间（亦即欧式空间，Euclidean Space）。

二、K-Means算法

1、算法思路

K-Means 算法是一种典型的基于划分的聚类算法，它的核心思想是：若将指定数据集的特征投影至 n 维欧氏空间，则数据之间的相似性应当与这些数据的欧氏距离成反比。说简单点就是：越相似的数据，彼此之间离得越近。
其算法流程如下：首先从数据集中随机选取个初始聚类中心 (1 ≤ ≤ ) ，接下来对每个其余数据对象，均计算出该数据对象与个聚类中心的的欧式距离，并将离目标数据对象最近的聚类中心作为该数据对象所属的类别。经过这样一次迭代，就完成了一次 K-Means 聚类。接着计算每个簇中数据对象的平均值作为新的聚类中心，进行下一次迭代，直到聚类中心不再变化或达到最大的迭代次数时停止。

上图给出了 K-Means 算法的执行流程（通过观察，显然可将该数据集划分为 2 类，因此取 k = 2）：

(a) 算法开始，将指定数据集的特征投影至 n 维欧氏空间；
(b) 随机选取 k = 2 个初始聚类中心；
(c) 对任意数据 x⁽⁾ ，算出其与 k 个聚类中心的欧式距离，取其中距离最近的那个类簇作为数据 x⁽⁾ 的所属类别（第一次 k-means）；
(d) 基于新的类簇分布，算出每个簇中数据对象的平均值作为新的聚类中心；
(e) 对任意数据 x⁽⁾ ，算出其与 k 个聚类中心的欧式距离，取其中距离最近的那个类簇作为数据 x⁽⁾ 的所属类别（第二次 k-means）；
(f) 基于新的类簇分布，算出每个簇中数据对象的平均值作为新的聚类中心；

(f) 之后，算法将执行第三次 k-means，接着当再次计算新的类簇中心时，会发现类簇中心不再发生变化（或变化
范围很小），此时算法停止并返回最终的分类结果。

总的来看，K-Means 算法需要预先指定初始类簇个数和聚类中心，然后再按照样本与类簇中心的距离进行归类与迭代更新。在迭代过程中， K-Means 算法会不断降低各类簇的误差平方和SSE（Sum of Squared Error，SSE），当SSE不再变化或目标函数收敛时，聚类结束，得到最终结果。下面给出 K-Means 算法计算某个数据对象 ⁽⁾ 与某类簇中心的欧氏距离公式：
$\left( x^{(i)},C_j \right)=\sqrt{\sum_{t-1}^m{\left( x_t^{(i)}-C_{jt} \right)^2}}$
其中， $x_t^{(i)}$ 为第个数据对象在第个特征上的取值，为第个数据对象在第个特征上的取值。
整个数据集的误差平方和 SSE 计算公式为（SSE的大小衡量了聚类结果的好坏）：
$SSE=\sum_{j=1}^k\sum_{x^{(i)}∈C_j} \left( distance( x^{(i)},C_j) \right)^2$

2、算法总结

自此，可总结出 K-Means 算法的步骤：

① 随机选择 k 个样本作为初始簇类的均值向量
② 将每个样本数据划分给离它距离最近的簇；
③ 根据每个样本所属的簇，更新簇类的均值向量；
④ 重复 ②③ 步，当达到设置的迭代次数或类簇的均值向量不再改变时，模型构建完成，输出聚类算法结果。

K-Means 算法非常简单且使用广泛，但是主要存在以下四个缺陷：

K 值需要人为给定，属于预先知识，大多情况下 K 值的估计非常困难。对于“可以确定 K 值不会太大但不明确具体取值”的场景，可以进行多次迭代运算，然后找出 SSE 值最小的的 K 值作为最终的类簇个数；
K-Means 算法对初始选取的聚类中心点是敏感的，不同的随机种子点得到的聚类结果完全不同；
该算法并不适合所有的数据类型。它不能处理非球形簇、不同尺寸和不同密度的簇；
易陷入局部最优解。

从上图不难看出，K-Means算法对于环形簇的分类效果非常糟糕！

三、DBSCAN算法

1、相关概念

DBSCAN(Density-Based Spatial Clustering of Applications with Noise)，翻译是“基于密度的带噪声聚类算法”，DBSCAN 将簇定义为“密度相连的点的最大集合”，它把具有足够高密度的区域划分为簇，能在带噪声的数据中发现任意形状的类簇。为理解 DBSCAN 的算法原理，下面先介绍一些相关概念（假设样本集为 = {⁽¹⁾, ⁽²⁾, … , ⁽⁾}）：

− 领域：对于某个样本点 ⁽⁾ ∈ ，其 − 领域包含样本集 D 中与 ⁽⁾ 的距离不大于的子样本集。即： (⁽⁾)= { ⁽⁾ ∈ | (⁽⁾, ⁽⁾) ≤ } ，用 | (⁽⁾) |表示该子样本集中的样本点个数。注：上述距离的计算通常采用欧式距离、曼哈顿距离等。
核心对象：对于任意样本 ⁽⁾ ∈ ，如果它的 − 领域中包含的样本点个数至少包含个样本，即： | (⁽⁾) | ≥ ，则称 ⁽⁾ 为一个核心对象。
密度直达：如果 ⁽⁾ 位于 ⁽⁾ 的 − 邻域中，且 ⁽⁾ 是核心对象，则称 ⁽⁾ 由 ⁽⁾ 密度直达。反之不一定成立，即此时不能说 ⁽⁾ 由 ⁽⁾ 密度直达, 除非 ⁽⁾ 也是核心对象，即密度直达不具有对称性。
密度可达：对于 ⁽⁾ 和 ⁽⁾ ，如果存在样本序列 ⁽¹⁾, ⁽²⁾, … , ⁽⁾，使得任意 ⁽⁾ 均可由 ⁽⁻¹⁾ 密度直达（其中 2 ≤ ≤ ）且 ⁽⁾= ⁽¹⁾, ⁽⁾= ⁽⁾，则称 ⁽⁾ 由 ⁽⁾ 密度可达。也就是说密度可达具有传递性。此时序列中的传递样本 ⁽¹⁾, ⁽²⁾, … , ^(-1) 均为核心对象，因为只有核心对象才能使其他样本密度直达。同时，由密度直达不具有对称性可知，密度可达也不具有对称性。
密度相连：对于 ⁽⁾ 和 ⁽⁾，如果存在核心对象样本 ⁽⁾ ，使 ⁽⁾ 和 ⁽⁾ 均由 ⁽⁾ 密度可达，则称 ⁽⁾ 和 ⁽⁾ 密度相连。密度相连关系满足对称性。

基于下图可以很容易理解上述定义，图中 = 4，红色的点都是核心对象，因为其 − 邻域至少有 4 个样本。黑色的样本是非核心对象。所有核心对象密度直达的样本都在以红色核心对象为中心的圆内，如果不在圆内，则不能密度直达。图中用蓝色箭头连起来的核心对象组成了密度可达的样本序列，此序列是一个簇集。在这些密度可达的样本序列的 − 邻域内所有的样本相互都是密度相连的 (注意，此图中有两个簇集)。

2、算法思路

DBSCAN 的聚类定义很简单：由密度可达关系导出最大密度相连的样本集合，即为我们最终聚类的一个簇。簇里面可以有一个或者多个核心对象。如果只有一个核心对象，则簇里其他的非核心对象样本都在这个核心对象的 − 邻域里；如果有多个核心对象，则簇里的任意一个核心对象的 − 邻域中一定至少有一个其他核心对象，否则这两个核心对象无法密度可达。这些核心对象的 − 邻域里的所有样本集合就组成了一个DBSCAN 聚类簇。

现在我们讨论下如何根据 DBSCAN 的聚类定义来对数据集进行聚类。首先，在样本集中选出所有的核心对象并构成一个集合；然后，在中任意选择一个数据点作为根，并标记该数据点作为一个新类簇；接下来，寻找所有这个核心对象能够密度可达的样本集合，并将这个集合中的所有点都归类到根所在类簇中，这便找到了一个类（这样得到的所有数据点肯定都是密度相连的）。之后，不断按这样的方式寻找新类簇，直到集合中的所有核心对象都有类别为止。最终，剩余未被归类的数据点即被称为“噪声点”或“离群点”。因此，DBSCAN 算法也可用于识
别噪声点。

基于以上讨论，下面给出 DBSCAN 算法的具体流程：
① 初始化核心对象集合 = ∅ ，待查子集合 = ∅ ，初始化类簇个数 = 0；
② 遍历样本集的元素，如果是核心对象，则将其加入到核心对象集合中；
③ 接下来遍历核心对象集；
④ 若核心对象集中所有元素都已被访问，则算法结束，否则转入步骤 ⑤；
⑤ 在核心对象集中，随机选择一个未被访问的核心对象。首先将其标记为已访问，然后将所属类别标记为，最后再将的 − 邻域中的所有未被访问数据存放到待查子集合中；
⑥ 如果待查子集合 = ∅，则当前类簇生成完毕，令 = + 1，并跳转到 ③。否则，从待查子集合中选出一个数据点。首先将其标记为已访问，并标记所属类别为，然后判断是否为核心对象，如果是，则将包含的未被访问的数据点加入到待查子集合中，并跳转到 ⑥。

上图展示了 DBSCAN 算法的执行流程（图中 =4）：

(a) 算法开始，将指定数据集的特征投影至维欧氏空间，并构建核心对象集 = ∅ 、待查子集 = ∅ 、令初始类簇个数 = 0。
(b) 遍历样本数据集，选出所有的核心对象，并存放至核心对象集合中，即有 = {,,,}。
(c) 接下来遍历核心对象集，直到所有的核心对象都被访问过。开始时，可任意选出一个核心对象，如。首先将其标记为已访问，然后将所属类别标记为 = 0 ，最后再将的 − 邻域中的所有未被访问数据存放进待查子集合中，即有 = {₁,₂,₃,}。
接着，对进行遍历，直到为空。第一次，从中取出数据点 ₁ ，首先将₁ 标记为已访问，然后将 ₁ 归类至 =0，最后判断 ₁ 不是核心对象，不做处理；第二次，从中取出数据点 ₂ ，首先将 ₂ 标记为已访问，然后将 ₂ 归类至 = 0，最后判断 ₂ 不是核心对象，不做处理；第三次，从中取出数据点 ₃，首先将 ₃ 标记为已访问，然后将 ₃ 归类至 = 0，最后判断 ₃ 不是核心对象，不做处理；第四次，从中取出数据点，首先将标记为已访问，然后将归类至 = 0，最后判断是核心对象，因此，将
包含的未被访问的数据点加入到待查子集合中，此时 = {₁,₂,}。（如图(d)所示）。
(d) 不空，继续对进行遍历，直到为空。第一次，从中取出数据点 ₁，首先将 ₁ 标记为已访问，然后将 ₁ 归类至 =0，最后判断 ₁ 不是核心对象，不做处理；第二次，从中取出数据点 ₂ ，首先将 ₂ 标记为已访问，然后将 ₂ 归类至 = 0 ，最后判断 ₂ 不是核心对象，不做处理；第三次，从中取出数据点，首先将标记为已访问，然后将归类至 = 0 ，最后判断是核心对象，因此，将包含的未被访问的数据点加入到待查子集合中，此时 = {₁} （如图(e)所示）。
(e) 不空，继续对进行遍历，直到为空。第一次，从中取出数据点 ₁，首先将 ₁ 标记为已访问，然后将 ₁ 归类至 = 0 ，最后判断 ₁ 不是核心对象，不做处理。此时，待查子集 = ∅，表示当前类簇 ₀ 已经生成完毕，令 = +1 = 0+1 = 1，开始寻找下一个类簇。即退至核心对象集合，继续遍历以寻找尚未被访问过的核心对象。
(f) = {A,,,} 中，A、、均已被访问，此时仅剩，将其选出。首先将其标记为已访问，然后将所属类别标记为 = 1，最后再将的 − 邻域中的所有未被访问数据存放进待查子集合中，即有 = {₁,₂,₃,₄}。
接着，对进行遍历，直到为空。第一次，从中取出数据点 ₁，首先将 ₁ 标记为已访问，然后将 ₁ 归类至 = 1，最后判断 ₁ 不是核心对象，不做处理；第二次，从中取出数据点 ₂，首先将 ₂ 标记为已访问，然后将 ₂ 归类至 = 1，最后判断 ₂ 不是核心对象，不做处理；第三次，从中取出数据点 ₃ ，首先将 ₃ 标记为已访问，然后将 ₃ 归类至 = 1，最后判断₃ 不是核心对，不做处理；第四次，从中取出数据点 ₄，首先将 ₄ 标记为已访问，然后将 ₄ 归类至 = 1，最后判断 ₄ 不是核心对象，不做处理。
此时，待查子集 = ∅，表示当前类簇 ₁ 已经生成完毕，令 = +1 = 1+1 = 2，开始寻找下一个类簇。即退至核心对象集合，继续遍历以寻找尚未被访问过的核心对象。
= {,,,} 中，所有元素均已被访问，退出算法。

输出所有类簇：₀、₁。

3、算法总结

DBSCAN 算法不是一个完全稳定的算法。例如某些样本可能到两个核心对象的距离都小于，但是，由于这两个核心对象不是密度直达，且又不属于同一个类簇，那么如果界定这些样本的类别呢？此时，DBSCAN 通常会采用先来后到的准则，即在算法执行过程中，这些样本先被归到哪一类则最终就隶属于那一类。所以，同一数据集在 DBSCAN 的执行过程中，某些样本最终的归类并不一定严格一致。

DBSCAN 的主要优点：

可以对任意形状的稠密数据集进行聚类，而 K-means 聚类算法一般只适用于凸数据集；
不需要指定簇的个数；
可以在聚类的同时发现异常点，对数据集中的异常点不敏感；
聚类结果较稳定（K-means 聚类算法的初始值对聚类结果有很大影响）。

DBSCAN 的主要缺点：

当数据集密度不均匀、聚类间距差相差很大时， DBSCAN 的聚类效果较差。
当数据集维度较高（即特征较多）时，聚类收敛时间较长（此时可先对数据集进行降维处理）。
调参相对于 K-means 算法稍复杂，需要对距离阈值，邻域样本数阈值联合调参，不同的参数组合对最终的聚类效果有较大影响

四、实战部分…

END

求是网：“内卷式”竞争的突出表现和主要危害有哪些？加百力财经研究科技知识人工智能大数据
"内卷式"竞争主要表现为：企业层面的低价竞争、同质化竞争和营销"逐底竞争"；地方政府层面的违规优惠政策、盲目重复建设和设置市场壁垒。危害体现在三个层面：微观上导致"劣币驱逐良币"，损害消费者利益；中观上破坏行业生态，挤压产业链利润空间；宏观上扭曲资源配置，抑制创新活力。什么是“内卷式”竞争？概括其一般特征，是指经济主体为了维持市场地位或争夺有限市场，不断投入大量精力和资源，却没有带来整体收益增长的
【LeetCode 热题 100】24. 两两交换链表中的节点——（解法一）迭代+哨兵 xumistore LeetCode leetcode 链表算法 java
Problem:24.两两交换链表中的节点题目：给你一个链表，两两交换其中相邻的节点，并返回交换后链表的头节点。你必须在不修改节点内部的值的情况下完成本题（即，只能进行节点交换）。文章目录整体思路完整代码时空复杂度时间复杂度：O(N)空间复杂度：O(1)整体思路这段代码旨在解决一个经典的链表操作问题：两两交换链表中的节点(SwapNodesinPairs)。问题要求将链表中每两个相邻的节点进行交换
LeetCode 148. 排序链表：归并排序的细节解析进击的小白菜 2025 Top100 详解 leetcode 链表算法
文章目录题目描述一、方法思路：归并排序的核心步骤二、关键实现细节：快慢指针分割链表1.快慢指针的初始化问题2.为什么选择`fast=head.next`？示例1：链表长度为偶数（`1->2->3->4`）三、完整代码实现四、复杂度分析五、总结题目描述LeetCode148题要求对链表进行排序，时间复杂度需为O(nlogn)，且空间复杂度为O(logn)。由于链表的特殊结构（无法随机访问），归并排序
嵌入式系统LCD显示模块编程实践
本文还有配套的精品资源，点击获取简介：本文档提供了一个具有800x480分辨率的3.5英寸液晶显示模块LW350AC9001的驱动程序代码，以及嵌入式系统中使用C/C++语言进行硬件编程的实践指南。该模块的2mm厚度使其适用于空间受限的便携式设备。内容包括驱动程序源代码、硬件控制接口使用方法，以及如何在嵌入式系统中进行图形处理、电源管理与性能优化。1.嵌入式系统原理1.1嵌入式系统概念嵌入式系统是
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
Shader面试题100道之（81-100）还是大剑师兰特 #Shader 综合教程100+大剑师 shader面试题 shader教程
Shader面试题（第81-100题）以下是第81到第100道Shader相关的面试题及答案：81.Unity中如何实现屏幕空间的热扭曲效果（HeatDistortion）？热扭曲效果可以通过GrabPass抓取当前屏幕图像，然后在片段着色器中使用噪声或动态UV偏移模拟空气扰动，再结合一个透明通道控制扭曲强度来实现。82.Shader中如何实现物体轮廓高亮（OutlineHighlight）？轮廓
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求可曾去过倒悬山 java 前端架构
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求三年经验是Java程序员的分水岭，技术栈深度决定你成为“业务码农”还是“架构师候选人”。本文整合阿里、美团、滴滴等大厂招聘要求，为你绘制可落地的进阶路线。一、Java核心：从语法糖到JVM底层三年经验与初级的核心差异在于系统级理解，大厂面试常考以下能力：JVM与性能调优内存模型（堆外内存、元空间）、GC算法（G1/ZGC适用场
javascript高级程序设计第3版——第12章 DOM2与DOM3 weixin_30687587 javascript 数据结构与算法 ViewUI
12章——DOM2与DOM3为了增强D0M1，DOM级规范定义了一些模块。DOM2核心：为不同的DOM类型引入了一些与XML命名空间有关的方法，还定义了以编程方式创建Document实例的方法；DOM2级样式：针对操作元素的样式而开发；其特性总结：1.每个元素都有一个关联的style对象，可用来确定和修改行内样式；2.要确定某个元素的计算样式，可使用getComgetComputedStyle（）
Linux中LVM逻辑卷扩容
在Linux系统中对根目录所在的LVM逻辑卷进行扩容，需要依次完成物理卷扩容➔卷组扩容➔逻辑卷扩容➔文件系统扩容四个步骤。以下是详细操作流程：一、确认当前磁盘和LVM状态#1.查看磁盘空间使用情况df-h/#2.查看块设备及LVM层级关系lsblk#3.查看LVM详细信息（物理卷PV、卷组VG、逻辑卷LV）pvdisplayvgdisplaylvdisplay二、扩容物理卷（PV）场景1：已有未分
【unity编辑器开发与拓展EditorGUILayoyt和GUILayoyt】死也不注释 Unity编辑器开发与拓展笔记 unity 编辑器游戏引擎
EditorGUILayout与GUILayout的核心区别及使用场景详解一、对比表特性GUILayoutEditorGUILayout命名空间UnityEngineUnityEditor使用场景运行时UI+编辑器扩展仅限编辑器扩展控件风格基础游戏风格（无编辑器优化）原生Unity编辑器风格布局复杂度基础流式布局高级自动布局（带标签对齐/间距优化）序列化支持❌不支持✅直接支持SerializedP
【DBC】DBC中CAN信号多路复用徐饼干 DBC 程序人生其他经验分享
DBC文件信号多路复用详解1何时定义有些信号比较长，但是又不常用，就可以定义多路复用信号以节约空间。2具体定义2.1定义一个短信号来当做“控制开关”。【若定义1bit，则有2种可能0x00和0x01，复用两路】【若定义2bit，则有4种可能0x00和0x01和0x10和0x11，复用四路】…所以说，这个短信号的长度和你想复用多少路有关，多长？放在什么位置？由定义者决定2.2节约空间是如何体现的现在
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
C++函数签名
C++函数签名-CSDN博客函数签名的组成部分函数名称函数的名字（如calculate、print）。参数列表（ParameterList）参数的类型、顺序和数量。参数的名字不影响签名（如intfunc(inta)和intfunc(intb)是同一签名）。所属的类或命名空间成员函数属于特定类（如MyClass::method）。自由函数属于全局或某个命名空间。成员函数的const/volatile
【运维实战】解决 K8s 节点无法拉取 pause:3.6 镜像导致 API Server 启动失败的问题 gs80140 各种问题运维 kubernetes 容器
目录【运维实战】解决K8s节点无法拉取pause:3.6镜像导致APIServer启动失败的问题问题分析✅解决方案：替代拉取方式导入pause镜像Step1.从私有仓库拉取pause镜像Step2.重新打tag为Kubernetes默认命名Step3.导出镜像为tar包Step4.拷贝镜像到目标节点Step5.在目标节点导入镜像到containerd的k8s.io命名空间Step6.验证镜像是否导
redis管道 -redis pipeline -redis pipelining shuair redis redis bootstrap 数据库
redis管道文档redis单机安装redis常用的五种数据类型redis数据类型-位图bitmapredis数据类型-基数统计HyperLogLogredis数据类型-地理空间GEOredis数据类型-流Streamredis数据类型-位域bitfieldredis持久化-RDBredis持久化-AOFredis持久化-RDB+AOF混合模式redis事务官方文档官网操作命令指南页面：https
数据结构：导论梁辰兴数据结构学习笔记数据结构导论算法时间复杂度空间复杂度
目录一，数据结构的研究内容二，基本概念与术语（一）数据、数据元素、数据项与数据对象（二）数据结构（三）数据类型与抽象数据类型️三，抽象数据类型的表示与实现⚙️四，算法与算法分析⚖️（一）算法的定义及特性（二）评价算法优劣的基本标准⏱️（三）算法的时间复杂度（四）算法的空间复杂度章结一，数据结构的研究内容数据结构是计算机科学的核心基础，其研究内容可概括为三大维度：数据组织形式：探索如何将现实世界中的
redis中什么是bigkey？会有什么影响？ Vic2334 redis
什么是bigkey？会有什么影响？bigkey是指key对应的value所占的内存空间比较大，例如一个字符串类型的value可以最大存到512MB，一个列表类型的value最多可以存储23-1个元素。如果按照数据结构来细分的话，一般分为字符串类型bigkey和非字符串类型bigkey。字符串类型：体现在单个value值很大，一般认为超过10KB就是bigkey，但这个值和具体的OPS相关。非字符串
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
《C++性能优化指南》 linux版代码及原理解读第四章 v俊逸 C++性能优化指南性能优化 C++性能优化指南性能优化
目录概述为什么字符串很麻烦字符串是动态分配的字符串赋值背后的操作如何面对字符串会进行大量复制写时复制COW（copyonwrite）尝试优化字符串避免临时字符串通过预留存储空间减少内存分配通过传递引用减少实参复制使用迭代器操作减少循环中的比较操作减少返回值的复制还没有结束，使用字符数组代替字符串再次优化字符串尝试其他的算法叠加以前的优化方式使用其他的编译器使用其他字符串的库功能丰富的字符串库使用s
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
Ollama平台里最流行的embedding模型： nomic-embed-text 模型介绍和实践 skywalk8163 人工智能 embedding 人工智能服务器
nomic-embed-text模型介绍nomic-embed-text是一个基于SentenceTransformers库的句子嵌入模型，专门用于特征提取和句子相似度计算。该模型在多个任务上表现出色，特别是在分类、检索和聚类任务中。其核心优势在于能够生成高质量的句子嵌入，这些嵌入在语义上非常接近，从而在相似度计算和分类任务中表现优异。之所以选用这个模型，是因为在Ollama网站查找这个模型，发现
docker常见问题解决方法小王聊技术 docker
目录迁移至其他服务器清理Docker占用的磁盘空间常见问题：迁移至其他服务器1.将docker容器导出dockerexport-o保存路径/xxx.tar容器id2.将容器tar远程拷贝到新的服务器(从新的服务器上向老服务器上请求复制)scproot@服务器地址:/data/xxx.tar/root3.将导入的tar包转为镜像dockerimport-cxxx.tarimage_name:tag
如何将音乐从 iPhone 传输到Mac ？ 5种有效方法解决 Coolmuster iPhone iOS 苹果手机 iphone macos ios
有时，无论是要释放iPhone上的存储空间、备份音乐文件还是在计算机上欣赏iPhone音乐，您都需要将音乐从iPhone传输到Mac。那么，如何将音乐从iPhone传输到Mac呢？虽然不像将照片传输到Mac那么简单，但仍然有很多方法可以做到。现在让我们来看看它们吧！第1部分：如何在没有iTunes的情况下将音乐从iPhone传输到Mac（包括未购买的歌曲）许多人说，由于iTunes的限制，很难将音
如何将大视频文件从 iPhone 传输到 PC？ Coolmuster iPhone iOS 苹果手机 iphone ios
假设您的iPhone充满了大视频文件（超过1GB），这可能会迅速消耗存储空间并导致设备运行缓慢。幸运的是，您可以将这些大型视频文件从iPhone传输到PC，以释放存储空间或在上传到社交媒体之前进行编辑。方式1：如何通过专业工具将iPhone中的大视频传输到电脑CoolmusteriOSAssistant是一款多功能且用户友好的软件，旨在促进从计算机高效管理iOS设备。它提供了一系列功能来简化iOS
LLM Agent在多模态任务中的推理机制详解
文章目录一、引言二、多模态LLMAgent的基本架构2.1系统组成2.2工作流程图三、多模态表示与对齐3.1跨模态嵌入空间3.2模态对齐技术四、多模态推理策略4.1基于提示的推理(Prompt-basedReasoning)4.2多模态思维链(CoT)推理4.3多模态工具使用五、实现案例：多模态问答系统5.1系统架构5.2示例应用六、高级多模态推理技术6.1多模态递归推理6.2多模态记忆与检索6.
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
资源分享-FPS, 矩阵, 骨骼, 绘制, 自瞄, U3D, UE4逆向辅助实战视频教程小零羊矩阵 3d ue4
文章底部获取资源教程概述本视频教程专为游戏开发者和安全研究人员设计，涵盖FPS游戏设计、矩阵运算、骨骼绘制、自瞄算法、U3D和UE4逆向辅助等实战内容。通过102节详细视频教程，您将掌握从基础到高级的游戏开发与安全防护技能。教程内容1.FPS类型游戏的设计研究和游戏安全,反外挂研究2.二维向量和平面距离3.atan2和tan4.三维向量和空间距离5.补充向量乘法6.矩阵和矩阵的运算7.矩阵的特性8
Spring 声明式事务管理（注解方式） LMGD Spring spring
注解方式实现声明式事务管理1、在Spring配置文件中配置事务管理器2、在Spring配置文件中，开启事务注解（1）在Spring配置文件引入名称空间tx（2）开启事务注解3、在server类上(或方法上)添加事务注解@Transactional（1）@Transactional，这个注解可以添加到类上、方法上（2）如果把这个注解添加到类上，这个类里所有方法都添加事务（3）如果把这个注解添加到方法
如何从性能菜鸟变性能大咖之------jvm 内存颜挺锐 jvm 性能测试压力测试性能优化
理解JVM（Java虚拟机）内存的性能优化，需要从JVM内存模型、垃圾回收机制、以及如何通过参数调优来提高应用程序的性能等方面入手。以下是对JVM内存性能优化的详细解读：一、JVM内存模型JVM内存模型主要包括以下几个区域：堆内存（Heap）：堆内存是JVM管理的最大一块内存空间，用于存放对象实例和数组。堆内存分为年轻代（YoungGeneration）和老年代（OldGeneration）。年轻
【机器学习笔记Ⅰ】9 特征缩放巴伦是只猫机器学习机器学习笔记人工智能
特征缩放（FeatureScaling）详解特征缩放是机器学习数据预处理的关键步骤，旨在将不同特征的数值范围统一到相近的尺度，从而加速模型训练、提升性能并避免某些特征主导模型。1.为什么需要特征缩放？(1)问题背景量纲不一致：例如：特征1：年龄（范围0-100）特征2：收入（范围0-1,000,000）梯度下降的困境：量纲大的特征（如收入）会导致梯度更新方向偏离最优路径，收敛缓慢。量纲小的特征（如
Js函数返回值 _wy_ js return
一、返回控制与函数结果，语法为：return 表达式;作用: 结束函数执行，返回调用函数，而且把表达式的值作为函数的结果二、返回控制语法为：return;作用: 结束函数执行，返回调用函数，而且把undefined作为函数的结果在大多数情况下,为事件处理函数返回false,可以防止默认的事件行为.例如,默认情况下点击一个<a>元素,页面会跳转到该元素href属性
MySQL 的 char 与 varchar bylijinnan mysql
今天发现，create table 时，MySQL 4.1有时会把 char 自动转换成 varchar 测试举例： CREATE TABLE `varcharLessThan4` ( `lastName` varchar(3) ) ; mysql> desc varcharLessThan4; +----------+---------+------+-
Quartz——TriggerListener和JobListener eksliang TriggerListener JobListener quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208624 一.概述 listener是一个监听器对象，用于监听scheduler中发生的事件，然后执行相应的操作；你可能已经猜到了，TriggerListeners接受与trigger相关的事件，JobListeners接受与jobs相关的事件。二.JobListener监听器 j
oracle层次查询 18289753290 oracle；层次查询；树查询
.oracle层次查询(connect by) oracle的emp表中包含了一列mgr指出谁是雇员的经理，由于经理也是雇员，所以经理的信息也存储在emp表中。这样emp表就是一个自引用表，表中的mgr列是一个自引用列，它指向emp表中的empno列，mgr表示一个员工的管理者， select empno,mgr,ename,sal from e
通过反射把map中的属性赋值到实体类bean对象中酷的飞上天空 javaee 泛型类型转换
使用过struts2后感觉最方便的就是这个框架能自动把表单的参数赋值到action里面的对象中但现在主要使用Spring框架的MVC，虽然也有@ModelAttribute可以使用但是明显感觉不方便。好吧，那就自己再造一个轮子吧。原理都知道，就是利用反射进行字段的赋值，下面贴代码主要类如下： import java.lang.reflect.Field; imp
SAP HANA数据存储：传统硬盘的瓶颈问题蓝儿唯美 HANA
SAPHANA平台有各种各样的应用场景，这也意味着客户的实施方法有许多种选择，关键是如何挑选最适合他们需求的实施方案。在《Implementing SAP HANA》这本书中，介绍了SAP平台在现实场景中的运作原理，并给出了实施建议和成功案例供参考。本系列文章节选自《Implementing SAP HANA》，介绍了行存储和列存储的各自特点，以及SAP HANA的数据存储方式如何提升空间压
Java Socket 多线程实现文件传输随便小屋 java socket
高级操作系统作业，让用Socket实现文件传输，有些代码也是在网上找的，写的不好，如果大家能用就用上。客户端类： package edu.logic.client; import java.io.BufferedInputStream; import java.io.Buffered
java初学者路径 aijuans java
学习Java有没有什么捷径?要想学好Java，首先要知道Java的大致分类。自从Sun推出Java以来，就力图使之无所不包，所以Java发展到现在，按应用来分主要分为三大块：J2SE,J2ME和J2EE,这也就是Sun ONE(Open Net Environment)体系。J2SE就是Java2的标准版，主要用于桌面应用软件的编程；J2ME主要应用于嵌入是系统开发，如手机和PDA的编程；J2EE
APP推广 aoyouzi APP 推广
一，免费篇 1，APP推荐类网站自主推荐最美应用、酷安网、DEMO8、木蚂蚁发现频道等,如果产品独特新颖，还能获取最美应用的评测推荐。PS：推荐简单。只要产品有趣好玩，用户会自主分享传播。例如足迹APP在最美应用推荐一次，几天用户暴增将服务器击垮。 2，各大应用商店首发合作老实盯着排期，多给应用市场官方负责人献殷勤。 3，论坛贴吧推广百度知道，百度贴吧，猫扑论坛，天涯社区，豆瓣（
JSP转发与重定向百合不是茶 jsp servlet Java Web jsp转发
在servlet和jsp中我们经常需要请求,这时就需要用到转发和重定向; 转发包括;forward和include 例子;forwrad转发; 将请求装法给reg.html页面关键代码; req.getRequestDispatcher("reg.html
web.xml之jsp-config bijian1013 java web.xml servlet jsp-config
1.作用：主要用于设定JSP页面的相关配置。 2.常见定义： <jsp-config> <taglib> <taglib-uri>URI(定义TLD文件的URI,JSP页面的tablib命令可以经由此URI获取到TLD文件)</tablib-uri> <taglib-location> TLD文件所在的位置
JSF2.2 ViewScoped Using CDI sunjing CDI JSF 2.2 ViewScoped
JSF 2.0 introduced annotation @ViewScoped; A bean annotated with this scope maintained its state as long as the user stays on the same view(reloads or navigation - no intervening views). One problem w
【分布式数据一致性二】Zookeeper数据读写一致性 bit1129 zookeeper
很多文档说Zookeeper是强一致性保证，事实不然。关于一致性模型请参考http://bit1129.iteye.com/blog/2155336 Zookeeper的数据同步协议 Zookeeper采用称为Quorum Based Protocol的数据同步协议。假如Zookeeper集群有N台Zookeeper服务器(N通常取奇数，3台能够满足数据可靠性同时
Java开发笔记白糖_ java开发
1、Map<key,value>的remove方法只能识别相同类型的key值 Map<Integer,String> map = new HashMap<Integer,String>(); map.put(1,"a"); map.put(2,"b"); map.put(3,"c"
图片黑色阴影 bozch 图片
.event{ padding:0; width:460px; min-width: 460px; border:0px solid #e4e4e4; height: 350px; min-heig
编程之美-饮料供货-动态规划 bylijinnan 动态规划
import java.util.Arrays; import java.util.Random; public class BeverageSupply { /** * 编程之美饮料供货 * 设Opt（V’，i）表示从i到n-1种饮料中，总容量为V’的方案中，满意度之和的最大值。 * 那么递归式就应该是：Opt（V’，i）=max{ k * Hi+Op
ajax大参数（大数据）提交性能分析 chenbowen00 Web Ajax 框架浏览器 prototype
近期在项目中发现如下一个问题项目中有个提交现场事件的功能，该功能主要是在web客户端保存现场数据（主要有截屏，终端日志等信息）然后提交到服务器上方便我们分析定位问题。客户在使用该功能的过程中反应点击提交后反应很慢，大概要等10到20秒的时间浏览器才能操作，期间页面不响应事件。根据客户描述分析了下的代码流程，很简单，主要通过OCX控件截屏，在将前端的日志等文件使用OCX控件打包，在将之转换为
[宇宙与天文]在太空采矿,在太空建造 comsci
我们在太空进行工业活动...但是不太可能把太空工业产品又运回到地面上进行加工,而一般是在哪里开采,就在哪里加工,太空的微重力环境,可能会使我们的工业产品的制造尺度非常巨大.... 地球上制造的最大工业机器是超级油轮和航空母舰,再大些就会遇到困难了,但是在空间船坞中,制造的最大工业机器,可能就没
ORACLE中CONSTRAINT的四对属性 daizj oracle CONSTRAINT
ORACLE中CONSTRAINT的四对属性 summary:在data migrate时,某些表的约束总是困扰着我们,让我们的migratet举步维艰,如何利用约束本身的属性来处理这些问题呢?本文详细介绍了约束的四对属性: Deferrable/not deferrable, Deferred/immediate, enalbe/disable, validate/novalidate,以及如
Gradle入门教程 dengkane gradle
一、寻找gradle的历程一开始的时候，我们只有一个工程，所有要用到的jar包都放到工程目录下面，时间长了，工程越来越大，使用到的jar包也越来越多，难以理解jar之间的依赖关系。再后来我们把旧的工程拆分到不同的工程里，靠ide来管理工程之间的依赖关系，各工程下的jar包依赖是杂乱的。一段时间后，我们发现用ide来管理项程很不方便，比如不方便脱离ide自动构建，于是我们写自己的ant脚本。再后
C语言简单循环示例 dcj3sjt126com c
# include <stdio.h> int main(void) { int i; int count = 0; int sum = 0; float avg; for (i=1; i<=100; i++) { if (i%2==0) { count++; sum += i; } } avg
presentModalViewController 的动画效果 dcj3sjt126com controller
系统自带(四种效果)： presentModalViewController模态的动画效果设置： [cpp] view plain copy UIViewController *detailViewController = [[UIViewController al
java 二分查找 shuizhaosi888 二分查找 java二分查找
需求：在排好顺序的一串数字中，找到数字T 一般解法：从左到右扫描数据，其运行花费线性时间O(N)。然而这个算法并没有用到该表已经排序的事实。 /** * * @param array * 顺序数组 * @param t * 要查找对象 * @return */ public stati
Spring Security（07）——缓存UserDetails 234390216 ehcache 缓存 Spring Security
Spring Security提供了一个实现了可以缓存UserDetails的UserDetailsService实现类，CachingUserDetailsService。该类的构造接收一个用于真正加载UserDetails的UserDetailsService实现类。当需要加载UserDetails时，其首先会从缓存中获取，如果缓存中没
Dozer 深层次复制 jayluns VO maven po
最近在做项目上遇到了一些小问题，因为架构在做设计的时候web前段展示用到了vo层，而在后台进行与数据库层操作的时候用到的是Po层。这样在业务层返回vo到控制层，每一次都需要从po-->转化到vo层，用到BeanUtils.copyProperties(source, target)只能复制简单的属性，因为实体类都配置了hibernate那些关联关系，所以它满足不了现在的需求，但后发现还有个很
CSS规范整理（摘自懒人图库） a409435341 html UI css 浏览器
刚没事闲着在网上瞎逛，找了一篇CSS规范整理，粗略看了一下后还蛮有一定的道理，并自问是否有这样的规范，这也是初入前端开发的人一个很好的规范吧。一、文件规范 1、文件均归档至约定的目录中。具体要求通过豆瓣的CSS规范进行讲解：所有的CSS分为两大类：通用类和业务类。通用的CSS文件，放在如下目录中：基本样式库 /css/core
C++动态链接库创建与使用你不认识的休道人 C++dll
一、创建动态链接库 1.新建工程test中选择”MFC [dll]”dll类型选择第二项"Regular DLL With MFC shared linked"，完成 2.在test.h中添加 extern “C” 返回类型 _declspec(dllexport)函数名(参数列表); 3.在test.cpp中最后写 extern “C” 返回类型 _decls
Android代码混淆之ProGuard rensanning ProGuard
Android应用的Java代码，通过反编译apk文件（dex2jar、apktool）很容易得到源代码，所以在release版本的apk中一定要混淆一下一些关键的Java源码。 ProGuard是一个开源的Java代码混淆器（obfuscation）。ADT r8开始它被默认集成到了Android SDK中。官网： http://proguard.sourceforge.net/
程序员在编程中遇到的奇葩弱智问题 tomcat_oracle jquery 编程 ide
　　现在收集一下：　　排名不分先后，按照发言顺序来的。 1、Jquery插件一个通用函数一直报错，尤其是很明显是存在的函数，很有可能就是你没有引入jquery。。。或者版本不对 2、调试半天没变化：不在同一个文件中调试。这个很可怕，我们很多时候会备份好几个项目，改完发现改错了。有个群友说的好：在汤匙
解决maven-dependency-plugin (goals "copy-dependencies","unpack") is not supported xp9802 dependency
解决办法：在plugins之前添加如下pluginManagement，二者前后顺序如下： [html] view plain copy <build> <pluginManagement