norah2

聚类分析-K-means、层次聚类、DBSCAN、簇评估

聚类分析基本概念

聚类分析定义

聚类分析是一种数据分析技术，对大量未知标注的数据集，通过将具有相似数据特性的数据对象分组到一起，使得类别内的数据相似度较大而类别间的数据相似度较小，以便对这些数据对象进行更好的理解和分析。总的来说，聚类分析就是将数据划分成有意义或有用的组（簇）。

注：聚类分析是无监督学习。

聚类类型

划分聚类（Partitional Clustering）
层次聚类（Hierarchical Clustering）
互斥聚类（exclusive clustering）
非互斥（重叠）聚类（non-exclusive）
模糊聚类（fuzzy clustering）
完全聚类（complete clustering）
部分聚类（partial clustering）

划分聚类（Partitional Clustering）

划分聚类简单地将数据对象集划分成不重叠的子集，使得每个数据对象恰在一个子集。

层次聚类（Hierarchical Clustering）

层次聚类是嵌套簇的集族，组织成一棵树。

互斥的、重叠的、模糊的

互斥的（Exclusive）
- 每个对象都指派到单个簇
重叠的（overlapping）或非互斥的（non-exclusive）
- 聚类用来反映一个对象。同时属于多个组（类）这一事实
- 例如：在大学里，一个人可能既是学生，又是雇员
模糊聚类（Fuzzy clustering ）
- 每个对象以一个0（绝对不属于）和1（绝对属于）之间的隶属权值属于每个簇。换言之，簇被视为模糊集
部分的（Partial）
- 部分聚类中数据集某些对象可能不属于明确定义的组。如：一些对象可能是离群点、噪声
完全的（complete）
- 完全聚类将每个对象指派到一个簇

簇类型

明显分离的
基于原型的
基于图的
基于密度的
概念簇

明显分离的（Well-Separated）

每个点到同簇中任一点的距离比到不同簇中所有点的距离更近。

基于原型的

每个对象到定义该簇的原型的距离比到其他簇的原型的距离更近。对于具有连续属性的数据，簇的原型通常是质心，即簇中所有点的平均值。当质心没有意义时，原型通常是中心点，即簇中最有代表性的点。
基于中心的（ Center-Based）的簇：每个点到其簇中心的距离比到任何其他簇中心的距离更近。

基于图的

如果数据用图表示，其中节点是对象，而边代表对象之间的联系。
簇可以定义为连通分支（connected component）：互相连通但不与组外对象连通的对象组。
基于近邻的（ Contiguity-Based）：其中两个对象是相连的，仅当它们的距离在指定的范围内。这意味着，每个对象到该簇某个对象的距离比到不同簇中任意点的距离更近。

基于密度的（Density-Based）

簇是对象的稠密区域，被低密度的区域环绕。

概念簇（Conceptual Clusters）

可以把簇定义为有某种共同性质的对象的集合。例如：基于中心的聚类。还有一些簇的共同性质需要更复杂的算法才能识别出来。

K-Means聚类

K-Means算法，被成为k-平均或k-均值，是一种广泛使用的聚类算法，或者成为其他聚类算法的基础。

K-means算法步骤

假定输入样本为 $S=x_1, x_2, \dots, x_m$ , 则算法步骤为：

选择初始的k个类别中心 $\mu_1, \mu_2, \dots, \mu_k$
对于每个样本 $x_i$ , 将其标记为距离类别中心最近的类别，即 $label_i=\argmin_{1\leq{j}\leq{k}}\|x_i-\mu_{j}\|$
将每个类别中心更新为隶属该类别的所有样本的均值： $\mu_j=\frac{1}{\|c_j\|}\sum_{i\in{c}_j}{x_j}$
重复最后两步，直到类别中心的变化小于某阈值。
中止条件：迭代次数/簇中心变化率/最小平方误差MSE(Minimum Squared Error)

K-Means过程：

K-means的公式化解释：

记K个簇中心为 $\mu_1, \mu_2, \dots, \mu_k$ , 每个簇的样本数目为 $N_1, N_2, \dots, N_k$
使用平方误差作为目标函数： $J(\mu_1, \mu_2, \dots, \mu_k)=\frac{1}{2}\sum_{j=1}^{K}\sum_{i=1}^{N_j}(x_i-\mu_j)^2$
该函数为关于 $\mu_1, \mu_2, \dots, \mu_k$ 的凸函数，其驻点为： $\frac{\partial{J}}{\partial{\mu_j}}=-2\sum_{i=1}^{N_j}{(x_i-\mu_j)}\to0\Longrightarrow\mu_j=\frac{1}{N_j}\sum_{i=1}^{N_j}{x_i}$

K-Means是初值敏感的

选择适当的初始质心是基本K均值过程的关键步骤。常见的方法是随机地选取初始质心，但是簇的质量常常很差。

随机地选取初始质心可能很糟糕。第一张图和第二张图使用相同的数据集。两张图显示了两种选定的初始质心获得的。(对于这两个图，各次迭代的簇质心位置由“+”指出。) 第一张图中尽管所有的初始质心都在自然簇中但是仍然找到了最小 SSE 聚类。而在第二张图中，尽管初始质心的分布看上去较好，但是仅得到了一个次最优聚类，具有较高的平方误差。

随机初始化的局限 处理选取初始质心问题的一种常用技术是: 多次运行，每次使用一组不同的随机初始质心，然后选取具有最小SSE的簇集。该策略虽然简单，但是效果可能不好，这取决于数据集和寻找的簇的个数。

使用下图所示的数据集进行解释。该数据由两个族对组成，其中，每个簇对(上、下)中的簇更靠近，而离另一对中的簇较远。

如果对每个簇对用两个初始质心，则即使两个质心在一个簇中，质心也会自己重新分布，从而找到“真正的”簇。如果一个簇对只用一个初始质心，而另一对有三个，这将会造成两个真正的簇将合并、一个真正的簇被分裂的结果。

注意: 只要两个初始质心落在簇对的任何位置，就能得到最优聚类，因为质心将自己重新分布，每个簇一个。不幸的是，随着簇的个数增加，至少一个簇对只有一个初始质心的可能性也逐步增大。在这种情况下，由于对相距较远，K 均值算法不能在对之间重新分布质心，这样就只能得到局部最优。

随机选择初始质心存在的问题即使重复运行多次也不能克服，因此常常使用其他技术进行初始化。一种有效的方法是，取一个样本，并使用层次聚类技术对它聚类。从层次聚类中提取 K个簇，并用这些簇的质心作为初始质心。该方法通常很有效，但仅对下列情况有效:(1)样本相对较小，例如数百到千(层次聚开销较);(2)K相对于样本大小较小。

下面的过程是另一种选择初始质心的方法。随机地选择第一个点，或取所有点的质心作为第1个点。然后，对于每个后继初始质心，选择离已经选取过的初始质心最远的点。使用这种办法我们得到初始质心的集合，确保不仅是随机的，而且是散开的。然而，这种方法可能选中离群点。而不是稠密区域(簇)中的点。此外，求离当前初始质心集最远的点开销也非常大。为了克服这些问题，通常将该方法用于点样本。由于离群点很少，它们多半不会在随机样本中出现。相比之下，除非样本非常小，否则来自稠密区域中的点很可能包含在样本中。此外，找出初始质心所需要的计算量也大幅度减少，因为样本的大小通常远小于点的个数。

时间复杂性和空间复杂性

K 均值的空间需求是适度的，因为只需要存放数据点和质心。具体地说，所需要的存储量为 $O ((m + K) n)$ ，其中 $m$ 是点数， $n$ 是属性数。K 均值的时间需求也是适度的——基本上与数据点个数线性相关。具体地说，所需要的时间为 $O (l \times K \times m \times n)$ ，其中l是收所需要的选代次数。如前所述，l 通常很小，可以是有界的，因为大部分变化通常出现在前几次迭代。因此，只要簇个数 $K$ 显著小于 $m$ ，则K 均值的计算时间与 $m$ 线性相关，并且是有效的和简单的。

二分K均值

二分K均值算法是基本K均值算法的直接扩充，它基于一种简单想法: 为了得到K个簇将所有点的集合分裂成两个簇，从这些簇中选取一个继续分裂，如此下去，直到产生K个簇。

二分K均值算法：

初始化簇表，使之包含由所有的点组成的簇；
repeat
$\quad$ 从簇表中取出一个簇；
$\quad$ {对选定的簇进行多次二分“试验”}；
$\quad$ for i = 1 to 试验次数 do
$\quad\quad$ 使用基本K均值，二分选定的簇；
$\quad$ end for
$\quad$ 从二分试验中选择具有最小总SSE的两个簇；
$\quad$ 将这两个簇添加到簇表中；
until 簇表中包含K个簇。

待分裂的簇有许多不同的选择方法。可以选择最大的簇，选择具有最大 SSE 的簇，或者使用一个基于大小和 SSE 的标准进行选择。不同的选择导致不同的簇。

通常使用结果簇的质心作为基本 K 均值的初始质心，对结果簇逐步求精。这是必要的因为尽管 K 均值算法可以确保找到使 SSE 局部小的聚类但是在二分 K 值算法中，我们“局部地”使用了 K 均值算法，即二分个体簇。因此，最终的簇集并不代表使 SSE 局部最小的聚类。

K均值和不同的簇类型

对于发现不同的簇类型，K均值和它的变种都具有一些局限性。具体地说，当簇具有非球形形状或具有不同尺寸或密度时，K均值很难检测到“自然的”簇。

具有不同尺寸的簇

在下图中，K均值不能发现那三个自然簇，因为其中一个簇比其他两个大得多，因此较大的簇被分开，而一个较小的簇与较大簇的一部分合并到一起。

具有不同密度的簇

在下图中，K均值未能发现那三个自然簇，因为两个较小的簇比较大的簇稠密得多。

非球形的簇

在下图中，K均值发现了两个簇(两个自然簇的混合体)，因为两个自然簇的形状不是球形的。

这三种情况的问题在于 K 均值的目标函数与我们试图发现的簇的类型不匹配，因为 K均值目标函数是最小化等尺寸和等密度的球形簇，或者明显分离的簇。

优点和缺点

优点：

算法简单
适合球形簇
二分k均值等变种算法运行良好，不受初始化问题的影响

缺点：

不能处理非球形簇、不同尺寸和不同密度的簇
对离群点、噪声敏感

对于非数值型数据或混合类型数据的替代方法：K-modes，K-medoids，K-prototypes

层次聚类

层次聚类按数据分层建立簇，形成一棵以簇为节点的树，成为聚类图；
按自底向上层次分解，则称为凝聚的层次聚类；
按自顶向下层次分解，就称为分裂的层次聚类。

凝聚的层次聚类采用自底向上的策略，开始时把每个对象作为一个单独的簇，然后逐次对各个簇进行适当合并，直到满足某个终止条件。

分裂的层次聚类采用自顶向下的策略，与凝聚的层次聚类相反，开始时将所有对象置于同一个簇中，然后逐次将簇分裂为更小的簇，直到满足某个终止条件。

传统的算法利用相似性或相异性的邻近度矩阵进行凝聚的或分裂的层次聚类。

基本凝聚层次聚类算法:

计算邻近度矩阵；
让每个点作为一个cluster；
Repeat
$\quad$ 合并最近的两个类；
$\quad$ 更新邻近度矩阵，以反映新的簇与原来的簇之间的邻近性；
Utile仅剩下一个簇。

关键的操作是两个簇的林进度计算：不同的邻近度的定义区分了各种不同的凝聚层次技术。

cluster间的相似性度量

MIN
MAX
Group Average
Distance Between Centroids
Other methods driven by an objective function: Ward’s Method利用平方误差增量

MIN or 单链

单链意义下两个簇的相似性定义为：这两个簇中任意两点之间距离的最短值，即由一对最近邻点决定。

MIN (单链法) 在层次聚类中的应用：

单链的优势： 单链技术可以处理非椭圆形状的簇。

单链的局限性： 对噪音和离群点很敏感。

MAX or 全链

全链意义下两个簇的相似性定义为：这两个簇中任意两点之间距离的最大值。

MAX (全链法) 在层次聚类中的应用：

全链的优势： 对噪音和离群点不敏感。

全链的局限性： 可能使大的簇破裂；偏好球形簇。

组平均

两个簇的邻近度定义为不同的所有点对的平均逐对邻近度，是一种单链与全链的折中算法。

$proximity(Cluster_i, Cluster_j)=\frac{\sum_{p_i\in{Cluster_i} \atop p_j\in{Cluster_j}}{proximity(p_i, p_j)}}{\|Cluster_i\|*\|Cluster_j\|}$

组平均法在层次聚类中的应用：

组平均的优势： 对噪音和极端值影响小。

组平均的局限性： 偏好球形簇。

Ward’s Method

两个簇的邻近度定义为两个簇合并时导致的平方误差增量
- 当邻近度取它们之间的平方时，ward与组平均类似
- 对噪音和极端值影响小
偏好球型簇

优点：

某些应用领域需要层次结构；
有些研究表明，这种算法能够产生较高质量的聚类；
简单，易于理解。

缺点：

计算量、存储量大；
对噪声、高维数据敏感；
一旦一组对象被合并，不能撤销，类之间成员不能交换。

四种相似性度量方式的比较

时间和空间复杂性

基本凝聚层次聚类算法使用邻近度矩阵。这需要存储 $m^2/2$ 个邻近度 (假定邻近度矩阵是对称的)，其中 $m$ 是数据点的个数。记录簇所需要的空间正比于簇的个数为 $m - 1$ ，不包括单点簇因此总的空间复杂度为 $O(m^2)$ 。

基本凝聚层次聚类算法的计算复杂度分析也是很明确的，即需要 $O(m^2)$ 时间计算邻近度矩阵。之后，步骤4 和5（步骤4：合并最接近的两个簇；步骤5：更新邻近性矩阵）涉及 $m - 1$ 次迭代，因为开始有m个簇，而每次选代合并两个簇。如果邻近度矩阵采用线性搜索，则对于第i次迭代，步骤 4 需要 $O((m-i+1)^2)$ 时间，这正比于当前个数的平方。步骤 5只需要 $O (m - i + 1)$ 时间，在合并两个簇后更新邻近度矩阵。(对于我们考虑的技术，簇合并只影响 $O (m - i + 1)$ 个邻近度。）不作修改，时间复杂度将为 $O(m^3)$ 。如果某个簇到其他所有簇的距离存放在一个有序表或堆中，则查找两个最近簇的开销可能降低到 $O (m - i + 1)$ 。然而，由于维护有序表或堆的附加开销，基于基本凝聚层次聚类算法的层次聚类所需要的总时间为 $O(m^2\log{m})$ 。

DBSCAN

DBSCAN (Density-Based Spatial Clustering of Applications with Noise) 将具有足够高密度的区域划分为簇，并可以发现任何形状的聚类。因此DBSCAN是一个典型的基于密度的聚类算法（其他聚类方法大都是基于对象之间的距离进行聚类，聚类结果是球状的簇）。基于密度的聚类是寻找被低密度区域分离的高密度区域。

对于点的分类

稠密区域内部的点（核心点）：在扫描半径eps内含有超过最小包含点数minPts数目的点。
稠密区域边缘的点（边界点）：在扫描半径eps内点的数量小于最小包含点数minPts，但是落在核心点的邻域内，也就是说该点不是核心点，但是与其他核心点的距离小于eps。
稠密区域中的点（噪声或背景点）：既不是核心点也不是边界点的点，该类点的周围数据点非常少。

例如，设MinPts=4：

DBSCAN: 核心点、边界点和噪音点

DBSCAN相关名词概念

Eps邻域：给定对象半径Eps内的邻域称为该对象的Eps邻域，用 $N_{Eps}(p)$ 标识点p的Eps-半径内的点的集合，即：

$N_{Eps}(p)=\{q|q在数据集D中，distance(p, q)\leq {Eps}\}$

核心对象：如果对象的Eps邻域至少包含最小数目MinPts的对象，则称该对象为核心对象。
边界点：边界点不是核心点，但落在某个核心点的邻域内。
噪音点：既不是核心点，也不是边界点的任何点。
直接密度可达：给定一个对象集合D，如何p在q的Eps邻域内，而q是一个核心对象，则称对象p从对象q出发时是直接密度可达的（directly density-reachable）。
密度可达：如果存在一个对项链 $p_1, p_2, \dots, p_n, p_1=q, p_n=p$ , 对于 $p_i\in{D}(1\leq{i}\leq{n})$ , $p_{i+1}$ 是从 $p_i$ 关于Eps和MinPts直接密度可达的，则对象p是从对象q关于Eps和MinPts密度可达的（density-reachable）。
密度相连：如果存在对象 $O\in{D}$ , 使对象p和q都是从O关于Eps和MinPts密度可达的，那么对象p到q是关于Eps和MinPts密度相连的（density-connected）。

DBSCAN算法概念示例

如图所示，Eps用一个相应的半径表示，设MinPts=3，请分析Q,M,P,S,O,R这5个样本点之间的关系。

**解答：**根据以上概念知道：由于有标记的各点M、P、O和R的Eps近邻均包含3个以上的点，因此它们都是核对象；M是从P“直接密度可达”；而Q则是从M“直接密度可达”；基于上述结果，Q是从P“密度可达”；但P从Q无法“密度可达”(非对称)。类似地，S和R从O是“密度可达”的；O、R和S均是“密度相连”的。

DBSCAN算法原理

DBSCAN通过检查数据集中每点的Eps邻域来搜索簇，如果点p的Eps邻域包含的点多于MinPts个，则创建一个以p为核心对象的簇。
然后，DBSCAN迭代地聚集从这些核心对象直接密度可达的对象，这个过程可能涉及一些密度可达簇的合并。
当没有新的点添加到任何簇时，该过程结束。

DBSCAN示例

从上述示例可知：DBSCAN对噪音不敏感，并且可以处理不同形状和大小的数据。

DBSCAN算法的优缺点

优点：

基于密度定义，相对抗噪音，能处理任意形状和大小的簇。

缺点：

当簇的密度变化太大时，会有麻烦；
对于高维问题，密度定义是个比较麻烦的问题；
当近邻计算需要计算所有的点对近邻度时，DBSCAN可能是开销很大的。

时间复杂性和空间复杂度

DBSCAN 的基本时间复杂度是 $O (m x 找出 Ep s 邻域中的点所需要的时间)$ ，其中 $m$ 是点的个数。在最坏情况下，时间复杂度是 $O(m^2)$ 。然而，在低维空间，有一些数据结构，如 kd 树，可以有效地检索特定点给定距离内的所有点，时间复杂度可以降低到 $O(m \log{m})$ 。即便对于高维数据，DBSCAN 的空间也是 $O (m)$ ，因为对每个点，它只需要维持少量数据，即簇标号和每个点是核心点、边界点还是噪声点的标识。

簇评估（=簇确认）

为何评价聚类分析结果：

避免发现噪声产生的模式
比较不同的聚类算法
比较不同的簇集合
簇之间的比较

三种聚类方式在随机点上的表现：

概述

簇评估的重要问题：

确定数据集的聚类趋势 clustering tendency ，即是否存在非随机结构；
确定正确的簇的个数；
评估聚类分析结果对数据的拟合情况 - Use only the data；
将聚类分析的结果跟已知的客观结果（如，外部提供的类标号）比较；
比较不同的聚类方法的优劣。

簇评估的度量

用于评估簇的各方面的评估度量或指标一般分成如下三类。

外部指标 External Index: 监督的 度量聚类算法发现的聚类结构与某种外部结构的匹配程度。例如，监督指标的熵，它度量簇标号与外部提供的标号的匹配程度。监督度量通常称为外部指标 (externalindex)，因为它们使用了不在数据集中出现的信息。
内部指标 Internal Index: 非监督的 聚类结构的优良性度量，不考虑外部信息。例如，SSE(Sum of Squared Error)。簇的有效性的非监督度量常常可以进一步分成两类: 簇的凝聚性(cluster cohesion)(紧凑性，紧致性)度量确定中对象如何密切相关，簇的分离性 (cluster separation)(孤立性度量确定某个簇不同于其他簇的地方。非监督度量通常称为内部指标 (intermal index)，因为它们仅使用出现在数据集中的信息。
相对指标 Relative Index: 比较不同的聚类或簇。相对簇评估度量是用于比较的监督或非监督评估度量。因而，相对度量实际上不是一种单独的簇评估度量类型，而是度量的一种具体使用。例如，两个 K 均值聚类可以使用 SSE 或进行比较。

非监督簇评估：邻近性矩阵

理想簇的点与簇内所有点的相似度为 1，而与其他中的所有点的相似度为0。将相似度矩阵的行和列排序，使得属于相同簇的对象在一起，则理想的相似度矩阵具有**块对角(block diagonal)**结构。

使用K-means聚类方法对两种数据集分别进行聚类(右边是随机数据点)：

将上面左图的聚类结果的相似性矩阵按照聚类标签排序并进行可视化的结果如下：

将随机点数据集的DBSCAN聚类结果的相似性矩阵按照聚类标签排序并进行可视化的结果如下：

将随机点数据集的K-means聚类结果的相似性矩阵按照聚类标签排序并进行可视化的结果如下：

将随机点数据集的全链聚类结果的相似性矩阵按照聚类标签排序并进行可视化的结果如下：

非监督簇评估：SSE

SSE 适合评估多个簇集或者多个簇 (average SSE)，并且SSE属于内部指标，并不需要除数据集外的信息。

SSE曲线可以使用更为复杂的数据集：

非监督簇评估：凝聚度和分离度

通常，将K个簇的集合的总体簇有效性表示成个体簇有效性的加权和:

$=\sum_{i=1}^{K}{\omega_i{validity(C_i)}}$

其中，validity 函数可以是凝聚度、分离度，或者这些量的某种组合。权值将因簇有效性度量而异。在某些情况下，权值可以简单地取 1 或者簇的大小；而在其他情况下，它们反映更复杂的性质，如凝聚度的平方根。如果有效性函数是凝聚度，则值越高越好。如果是分离度，则值越低越好。

凝聚度和分离度的基于图的观点

对于基于图的簇，簇的凝聚度可以定义为连接簇内点的邻近度图中边的加权和。邻近度图以数据对象为结点，每对数据对象之间一条边，并且每条边指派一个权值它是边所关联的两个数据对象之间的邻近度。两个簇之间的分离度可以用从一个簇的点到另一个簇的点的边的加权和来度量。

基于图的簇的凝聚度和分离度的公式如下：

$cohesion(C_i)=\sum_{x\in{C_i} \atop y\in{C_i}}{proximity(x, y)}$
$separation(C_i, C_j)=\sum_{x\in{C_i} \atop y\in{C_j}}{proximity(x, y)}$

凝聚度和分离度的基于原型的观点

对于基于原型的簇，簇的凝聚度可以定义为关于簇原型(质心或中心点)的邻近度的和。同理，两个簇之间的分离度可以用两个簇原型的邻近性度量(其中族的质心用“+”标记)。

基于原型的凝聚度公式如下(注意，如果取邻近度为平方欧几里得距离，则该公式是簇的SSE)：

$cohesion(C_i)=\sum_{x\in{C_i}}{proximity(x, c_i)}$

对于分离性，存在两种度量，这是因为簇原型与总原型的分离度有时与簇原型之间的分离度直接相关。基于原型的凝聚度公式如下：

$separation(C_i, C_j)=proximity(c_i, c_j)$
$seperation(C_i)=proximity(c_i, c)$

两种基于原型的分离性度量方法

当邻近度用欧几里得距离度量时，簇之间分离性的传统度量是组平方和 (SSB)，即簇质心 $c_i$ 到所有数据点的总均值c的距离的平方和。通过在所有簇上对 SSB 求和，我们得到总 SSB，公式如下：

$总SSB=\sum_{i=1}^{K}{m_i{dist}(c_i, c)^2}$

其中 $c_i$ 是第i个簇的均值，而c是总均值。总SSB 越高，簇之间的分离性越好。

总 SSB 与质心之间的逐对距离有直接关系。特殊地，如果簇的大小相等，即 $m_i = m/K$ ，则该关系取公式如下：

$总SSB=\frac{1}{2K}\sum_{i=1}^{K}{\sum_{j=1}^{K}{\frac{m}{K}{dist(c_i, c_j)^2}}}$

凝聚度和分离度之间的联系

在某些情况下，凝聚度和分离度之间也存在很强的联系。具体地说，可以证明总 SSE 和总SSB 之和是一个常数，它等于总平方和(TSS)——每个点到数据的总均值的距离的平方和。这个结果的重要性在于：最小化 SSE(凝聚度)等价于最大化 SSB(分离度)。

轮廓系数

流行的轮廓系数(silhouette coffcient)方法结合了凝聚度和分离度。下面的步骤解释如何计算个体点的轮廓系数（这里使用距离，可以使用相似度）：

对第i个对象，计算它到簇中所有其他对象的平均距离。该值记作 $a_i$ ;
对于第i个对象和不含该对象的任意簇，计算该对象到给定中有对象的平均距离。关于所有的簇，找出最小值；该值记作 $b_i$ ;
对于第i个对象，轮廓系数是 $S_i=(b_i-a_i)/\max{(a_i, b_i)}$ 。

轮廓系数的值在-1 和 1之间变化。负值表示点到内点的平均距离 $a_i$ 大于点到其他的最小平均距离 $b_i$ ，因此轮廓系数最好是正的 $(a_i(ai<bi)$

一般来说，可以简单地取簇中点的轮廓系数的平均值，计算簇的平均轮廓系数。通过计算所有点的平均轮廓系数，可以得到聚类优良性的总度量。

你可能感兴趣的:(聚类,机器学习,python)

使用Spire.Doc.Free在Python中为Word文档添加批注 Ven% python python word 批注
文章目录技术背景环境准备完整实现代码功能说明：注意事项：总结在文档协作和审阅过程中，批注是极其重要的功能。本文将详细介绍如何使用Python的Spire.Doc.Free库为Word文档添加批注，并提供一个完整的解决方案。技术背景Spire.Doc.Free是一个功能强大且免费的Python库，用于处理Word文档。虽然免费版本有一些限制（如文档处理页数限制等），但它提供了丰富的API用于文档操作
深入TA-Lib：量化技术指标详解
深入TA-Lib：量化技术指标详解本文系统讲解TA-Lib技术指标分析，涵盖基础、数据处理、趋势与动量指标、均量线、布林线等，并结合Python代码与大数据、机器学习实战案例，助力读者掌握量化交易实战技巧。本文系统梳理了TA-Lib技术指标分析的核心内容，包括TA-Lib基础、数据处理、趋势与动量指标、均量线、布林线等关键技术指标分析方法，并结合Python代码示例与大数据、机器学习的融合实战案例
【python做接口测试的学习记录day6——pytest+yaml+allure自动化测试框架之URL拼接】小丫么小二郎~ 学习 pytest python 功能测试测试工具
在之前的测试框架中，可以发现的是，我们的yaml数据中所有的url中的除了路径不同外，其余都是相同的，我们想办法将这一部分自动化，这样的yaml中写用例url的时候就不用再每次都写上域名，只需要输入路径即可首先我们需要更改下之前的用例yaml文件中的url，将域名删除只留下路径即可，例如：接下来我们在根目录创建一个config.yam文件，用于存储我们的URL中的公共部分，这里由于公司相关，我隐藏
【python做接口测试的学习记录day9——pytest自动化测试框架之yaml数据驱动封装】小丫么小二郎~ pytest python pycharm 接口测试用例
之前我们的框架中，如果有多个测试用例，则需要在yaml文件中写入多个用例，而每个用例可能不同的仅仅只是个别参数值，这就导致很多重复代码，现在我们使用数据驱动就可以解决这个问题了。我依旧采用之前的登录接口为例，简单记录一下数据驱动封装的全过程一、DDT数据驱动yaml文件在根目录下创建包datas，用来存放我们的数据驱动yaml文件，在datas下新建一个get_token_data.yaml文件，
AI 人工智能与 Copilot 的融合发展策略 AI天才研究院 AI人工智能与大数据人工智能 copilot ai
AI人工智能与Copilot的融合发展策略关键词：人工智能、Copilot、代码生成、人机协作、机器学习、自然语言处理、软件开发摘要：本文探讨了人工智能与Copilot技术的融合发展策略。我们将从技术原理、实现方法、应用场景等多个维度深入分析，提出一套完整的融合框架和发展路径。文章首先介绍背景和核心概念，然后详细讲解关键技术，包括自然语言处理、代码生成算法等，接着通过实际案例展示应用效果，最后讨论
AI 人工智能与 Copilot 碰撞出的火花 AI天才研究院 AI大模型企业级应用开发实战人工智能 copilot ai
AI人工智能与Copilot碰撞出的火花关键词：AI人工智能、Copilot、代码辅助、智能编程、人机协作、软件开发、技术创新摘要：本文深入探讨了AI人工智能与Copilot碰撞所产生的一系列效应。首先介绍了相关背景，包括目的、预期读者、文档结构和术语表。接着阐述了核心概念与联系，展示了其原理和架构的示意图及流程图。详细讲解了核心算法原理和具体操作步骤，并通过Python代码进行说明。同时给出了数
毕业设计基于python + flask +mysql + Layui新闻系统项目源码 love0everything flask python 课程设计
毕业设计基于python+flask+mysql+Layui新闻系统项目源码介绍该项目采用Flask框架开发，数据库采用mysql。这是一个作业项目。该项目采用Flask框架开发的一个新闻、论坛、博客系统。。前端采用的是layui框架，后端模板是X-admin下载地址：毕业设计基于python+flask+mysql+Layui新闻系统项目源码模块版本PyMysql1.0.2Flask1.1.2M
测试学习之——Pytest Day3 别在内卷了测试学习 pytest python
引言Pytest作为Python中最受欢迎的测试框架之一，以其简洁的语法、强大的功能和丰富的插件生态系统，极大地提升了自动化测试的效率和可维护性。在本文中，我们将深入探讨Pytest的两大核心特性：Fixture和插件管理，帮助您更高效地编写和管理您的测试用例。一、夹具fixtureFixture是Pytest中一个非常强大的特性，它允许您定义在测试用例执行之前或之后自动运行的代码。这对于设置测试
#Datawhale组队学习#7月-强化学习Task1 fzyz123 Datawhale组队学习强化学习人工智能 AI
这里是Datawhale组织的组队学习《强化学习入门202507》，Datawhale是一个开源的社区。第一章绪论1.1为什么要学习强化学习？强化学习（ReinforcementLearning,RL）是机器学习中专注于智能体（Agent）如何通过与环境交互学习最优决策策略的分支。与监督学习依赖静态数据集、无监督学习聚焦数据内在结构不同，强化学习的核心在于序贯决策：智能体通过试错探索环境，根据行动
微算法科技技术突破：用于前馈神经网络的量子算法技术助力神经网络变革 MicroTech2025 量子计算算法神经网络
随着量子计算和机器学习的迅猛发展，企业界正逐步迈向融合这两大领域的新时代。在这一背景下，微算法科技（NASDAQ:MLGO）成功研发出一套用于前馈神经网络的量子算法，突破了传统神经网络在训练和评估中的性能瓶颈。这一创新性的量子算法以经典的前馈和反向传播算法为基础，借助量子计算的强大算力，极大提升了网络训练和评估效率，并带来了对过拟合的天然抗性。前馈神经网络是深度学习的核心架构，广泛应用于图像分类、
图机器学习（13）——图相似性检测
图机器学习（13）——图相似性检测0.前言1.基于图嵌入的方法2.基于图核的方法3.基于GNN的方法4.应用0.前言图机器学习(machinelearning,ML)方法能广泛应用于各类任务，其应用场景涵盖从药物设计到社交网络推荐系统等多个领域。值得注意的是，由于这类方法在设计上具有通用性，同一算法可用于解决不同问题。学习图之间相似性的定量度量是一个关键问题。事实上，这是网络分析的重要步骤，同时也
linux安装Node.js 环境，Docker 环境，Ruby 环境，MongoDB 环境，PostgreSQL 数据库，Go 开发环境，Python 虚拟环境 2401_87017622 数据库 linux node.js
在Linux上安装其他常见的开发环境可以根据具体需求而定，以下是一些常见的安装步骤：1.Node.js环境Node.js是一个基于ChromeV8引擎的JavaScript运行环境，适用于服务器端开发。安装Node.js：通过包管理器安装：sudoyuminstall-ygcc-c++makecurl-sLhttps://rpm.nodesource.com/setup_14.x|sudo-Eba
Mac 下 python 安装 virtualenv 出错 stay_f_h
如果是安装了anaconda的机器，直接用pipinstallvirtualenv可能会由于版本的问题出错，建议使用sudocondainstallvirtualenv安装。
Python 数据分析与可视化：从基础到进阶的技术实现与优化策略女码农的重启 python 数据分析开发语言
数据分析与可视化是数据科学领域的核心技能，Python凭借其丰富的库生态和灵活的编程范式，成为该领域的首选工具。本文将系统讲解Python数据分析与可视化的技术栈实现，从基础操作到性能优化，结合实战场景提供可复用的解决方案。数据分析核心库技术解析Pandas数据处理引擎原理Pandas作为数据分析的基石，其核心优势在于基于NumPy的矢量运算和高效的内存管理。与Excel的单元格级操作不同，Pan
Python 字典(dict)和集合(set)新手指南
一、字典(dict)基础什么是字典？字典就像现实中的字典一样，通过"键(key)"快速查找对应的"值(value)"。#创建字典student_scores={"小明":90,"小红":85,"小刚":92}#查找成绩print(student_scores["小明"])#输出:90为什么字典查找快？字典使用哈希表实现，查找速度是O(1)级别，不会随着数据量增加而变慢。二、字典常用操作1.添加/修
Python函数参数`*args`和`**kwargs`详解：区别与使用指南北辰alk python python 服务器数据库
文章目录一、基本概念与区别概述1.1`*args`（非关键字参数收集）1.2`**kwargs`（关键字参数收集）1.3主要区别对比表二、深入理解`*args`2.1基本用法2.2工作原理2.3与其他参数配合使用2.4解包序列作为参数三、深入理解`**kwargs`3.1基本用法3.2工作原理3.3与其他参数配合使用3.4解包字典作为参数四、组合使用`*args`和`**kwargs`4.1完整参
【Leetcode】3201. 找出有效子序列的最大长度 I 想要AC的dly 练习题(记录做题想法)leetcode 算法职场和发展
文章目录题目题目描述示例提示思路分析核心观察有效子序列的四种模式算法思路代码实现Java版本C++版本Python版本优化版本复杂度分析时间复杂度空间复杂度示例验证总结题目题目链接题目描述给你一个整数数组nums。nums的子序列sub的长度为x，如果其满足以下条件，则称其为有效子序列：(sub[0]+sub[1])%2==(sub[1]+sub[2])%2==...==(sub[x-2]+sub
算法竞赛备考冲刺必刷题（C++） | 洛谷 P1179 数字统计
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】洛谷：P1179[NOIP2010普及组]数字
算法竞赛备考冲刺必刷题（C++） | 洛谷 P1109 学生分组热爱编程的通信人算法 c++开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】洛谷：P1109学生分组-洛谷【题目描述】有n
算法竞赛备考冲刺必刷题（C++） | 洛谷 P1449 后缀表达式热爱编程的通信人算法 c++开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】洛谷：P1449后缀表达式-洛谷【题目描述】所
Python 内存分析方法 focksorCr python 开发语言 linux
概述本文档描述了如何分析Python应用中各部分内存使用量的方法，不含削减方法（如果你知道问题出在哪里，那你就应该知道如何解决）。内存分析统计分析Python的tracemalloc模块可以跟踪Python应用中的内存开销情况。阅读链接上的文档可以解决你所有问题。下面是上述文档的一些摘抄。尽早开始跟踪要追踪Python所分配的大部分内存块，模块应当通过将PYTHONTRACEMALLOC环境变量设
Java 大视界 -- Java 大数据机器学习模型在金融市场情绪指数构建与投资决策支持中的应用（339）青云交大数据新视界 Java 大视界 java 大数据机器学习金融情绪指数投资决策量化策略情绪分析
Java大视界--Java大数据机器学习模型在金融市场情绪指数构建与投资决策支持中的应用（339）引言：正文：一、Java构建的金融市场情绪数据采集与预处理体系1.1多源异构数据接入引擎1.2数据采集延迟测试报告1.3情绪数据预处理管道二、Java驱动的金融市场情绪指数构建模型2.1多维度情绪指数计算框架2.2情绪指数与投资决策的映射模型三、Java在金融投资决策支持中的实战应用3.1量化私募情绪
解决Python爬虫访问HTTPS资源时Cookie超时问题
一、问题背景：Cookie15秒就失效了？很多互联网图片站为了防止盗链，会把图片地址放在HTTPS接口里，并且给访问者下发一个带Path=/的Cookie，有效期极短（15s～60s）。常规Requests脚本在下载第二张图时就会401或403。本文以某壁纸站https://example-pics.com为例，演示如何：自动化获取并刷新Cookie；在下载高并发图片时维持Cookie活性；把方案
Python - 数据分析三剑客之Pandas MinggeQingchun Python Python Pandas
阅读前可参考NumPy文章https://blog.csdn.net/MinggeQingchun/article/details/148253682https://blog.csdn.net/MinggeQingchun/article/details/148253682‌Pandas是Python中一个强大的开源数据分析库，专门用于处理结构化数据（如表格、时间序列等），其核心数据结构为Seri
python网络爬虫(第一章/共三章：网络爬虫库、robots.txt规则（防止犯法）、查看获取网页源代码)
python网络爬虫(第一章/共三章：网络爬虫库、robots.txt规则（防止犯法）、查看获取网页源代码)学习python网络爬虫的完整路径：（第一章即此篇文章）（第二章）python网络爬虫(第二章/共三章：安装浏览器驱动，驱动浏览器加载网页、批量下载资源)-CSDN博客https://blog.csdn.net/2302_78022640/article/details/149431071?
mac mlx大模型框架的安装和使用 liliangcsdn python java 前端人工智能 macos
mlx是apple平台的大模型推理框架，对macm1系列处理器支持较好。这里记录mlx安装和运行示例。1安装mlx框架condacreate-nmlxpython=3.12condaactivatemlxpipinstallmlx-lm2运行mlx测试例以下是测试程序，使用方法和hf、vllm等推理框架基本一致。importosos.environ['HF_ENDPOINT']="https://
系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后