虚心求知的熊

Lesson 7.1 无监督学习算法与 K-Means 快速聚类

文章目录

一、聚类算法与无监督学习
二、K-Means 快速聚类的算法原理
- 1. K-Means 快速聚类的基本执行流程
- 2. K-Means 快速聚类的背后的数学意义
三、K-Means 快速聚类的 sklearn 实现方法
- 1. sklearn 中实现 K-Means 快速快速聚类
- 2. 轮廓系数基本概念与 sklearn 中实现方法

从现在开始，我们将学习无监督学习领域内最重要的一类算法——聚类算法。

# 科学计算模块
import numpy as np
import pandas as pd

# 绘图模块
import matplotlib as mpl
import matplotlib.pyplot as plt

# 自定义模块
from ML_basic_function import *

一、聚类算法与无监督学习

在此前的学习中，无论是回归问题还是分类问题，本质上其实都属于有监督学习范畴：即算法的学习是在标签的监督下进行有选择规律学习，也就是学习那些能够对标签分类或者数值预测起作用的规律。
而无监督学习，则是在没有标签的数据集中进行规律挖掘，既然没有标签，自然也就没有了规律是否对预测结果有效一说，也就失去了对挖掘规律的“监督”过程，这也就是无监督算法的由来。
而如果一个数据集没有标签，我们就只能围绕特征矩阵进行规律挖掘，更具体的来说，面对没有标签的数据集，我们只能去尽可能的探索特征矩阵中的数值分布规律，当然这些规律肯定是需要符合一定的业务场景、拥有一定的现实意义。
而在所有的无监督学习算法中，最著名的两类算法就是聚类算法和关联规则算法。
其中聚类算法是去探索特征矩阵中那些样本更加相似、更有可能是同一类（注意不是更加接近），并据此对数据集中的样本进行分类（当然有时我们也会针对数据集的列进聚类），著名的如 RFM 用户价值划分，就是通过三个维度的评估对不同类型用户进行价值划分的聚类过程。

而关联规则算法则更加聚焦于一个具体的业务场景——即针对一个购物篮数据进行频繁项的挖掘，并据此进一步探索不同数据之间是否存在一定的关联性，也就是所谓的关联规则，典型的如啤酒和尿布（尽管已经被证伪），就是在进行关联性的挖掘。
当然，相比之下，聚类算法的使用场景会更多。

当然我们也可以换个角度来理解，那就是如果数据没有标签，那么我们就只能从数据内部结构入手，探索数据的分布规律、并对其进行类别的划分。
总的来说，我们可以将聚类算法的使用场景划分成两类，其一是独力解决一个无监督问题，如上对客户价值进行划分，或者，有时我们也会利用聚类算法来辅助有监督学习的过程、
通常来说是辅助进行特征工程方面的工作，如进行样本的合并、进行特征的合并等。此外，在极少情况下，我们会利用聚类算法去解决有监督学习问题。
当然，围绕样本进行分群的聚类算法并不是一个算法，而是一类算法。
所谓无监督学习最核心的算法类，当前流行的聚类算法也有数十种之多，而不同的聚类算法在进行分群的过程中实际效果也各不相同，在 sklearn 中就有一个著名的、不同聚类算法的效果比较图：

其中就列举了 10 种不同的聚类针对不同分布形态的数据最终的聚类效果。能够看出，尽管聚类是尝试对数据进行分群，但聚类算法（计算流程）不同，分群效果也是截然不同的。
不过尽管聚类算法看起来数量不少，但实际上对聚类算法的掌握难度其实要远远低于有监督学习算法，由于没有规律的选择环节，因此无监督学习算法并不存在类似模型泛化能力评估以及模型调参的过程。
另外，在实际解决问题的过程中，机器学习类算法的主流应用还是在于预测，因此聚类算法的实际使用场景也要远少于有监督类算法。
正是因为上述种种，我们将挑选最为常用三类聚类算法来进行学习，即 K-Means 快速聚类、小批量快速聚类（Mini Batch K-Means）以及 BDSCAN 基于密度的聚类，并据此深入学习聚类算法的算法共性与使用共性。

二、K-Means 快速聚类的算法原理

首先是 K-Means 快速聚类，这是一种能够对数据集进行指定类别数量分群的聚类算法，同时也是目前最常用的一类聚类算法。
我们此前说到，聚类算法其实就是对数据进行分群，而不同聚类算法流程不同、对应的分群规则也有所不同，对聚类算法流程的掌握，实际上也就是对数据分群规则的掌握。
而对于 K-Means 快速聚类来说，我们可以通过如下实例来介绍该算法的聚类流程。

1. K-Means 快速聚类的基本执行流程

首先进行数据准备，我们借助此前定义的 arrayGenCla 函数创建一组数据，注意，无监督算法的执行流程不需要标签，也不会从标签中提取任何信息，因此其实我们核心是需要 arrayGenCla 函数所创建的特征矩阵。‘而为了更好的展示聚类算法对特征矩阵的分群功能，我们创建一组包含两个特征的数据，在二维特征空间内对其进行聚类：

np.random.seed(23)
X, y = arrayGenCla(num_examples = 20, num_inputs = 2, num_class = 2, deg_dispersion = [2, 0.5])

plt.scatter(X[:, 0],X[:, 1],c=y)

聚类的类别数量
接下来，围绕已经生成 X，我们尝试对其进行聚类。
对于 K-Means 来说，首先需要确定的是需要将分成几个群，尽管我们从样本的分布来看分成两个群更加合适，但实际上 K-Means 聚类的类别数量根本上由实际业务来决定，并且由于没有标签的引导。
例如上述在围绕用户价值进行分群时，将用户分为高价值、低价值两类还是分成高、中、低价值三类，实际上是由业务端来决定。
从算法原理层面来说，由于聚类算法缺少了标签的指引，所以分成几类其实也没有非常严谨的数值指标进行引导。此处我们假定需要对上述数据聚成两类，然后执行后续的操作。
此处有两个点需要进行拓展讨论：
（1）首先，尽管一般来说没有非常严谨的指标来指导 K-Means 应该聚成几类，但却有很多用于评估聚类结果的指标，有的时候，我们也可以从这些指标中反推应该聚成几类更加合适。
（2）其次，并非所有的聚类算法都需要在聚类开始前设置聚类的类别数量，如后续将要介绍的 DBSCAN。
需要知道的是，聚成几类，实际上就是 K-Means 中的 K。
创建初始中心点
在确定了聚类的类别数量（也就是两类）之后，接下来，我们需要在特征空间中随机生成两个点，作为初始中心点。
这里需要注意，在 K-Means 快速聚类过程中，这类中心点其实起到了至关重要的作用，中心点会随着迭代逐步发生变化，而每个点应该属于哪一类，其实也都是由这些中心点决定的。
这里的相关概念我们可以类比此前的内容进行理解，中心点可以类比于此前逻辑回归/线性回归中的参数，刚开始给予一组初始随机值，并且 K-Means 的计算过程实际上也是一轮一轮进行迭代的，并且每一轮迭代的过程都会修改中心点的位置。
这就类似于梯度下降的计算过程中，通过一轮一轮的迭代来不断的修改参数。
无论如何，我们先在特征空间中创建两个点作为初始中心点，相关过程如下：

np.random.seed(23)
center = np.random.randn(2, 2)
center
#array([[ 0.66698806,  0.02581308],
#       [-0.77761941,  0.94863382]])

plt.scatter(X[:, 0],X[:, 1])
plt.plot(center[0, 0], center[0, 1], 'o', c='red')         # 令第一个点为红色
plt.plot(center[1, 0], center[1, 1], 'o', c='cyan')        # 令第二个点为蓝色

依据中心点，对数据进行类别划分
首先给出聚类算法分群结束后分得的每个群的定义，为了区分分类算法分类别这一概念，我们成聚类算法分出来的“群”为一个簇。
在给出两个中心点之后，我们就能够依据这两个中心点将数据分成两个簇，划分的过程也非常简单。
计算每个点到两个中心点的距离，如果距离红色中心点更近，则该点属于红色点代表的簇（以下简称红色点簇），而如果该点距离蓝色中心点更近，则应该属于蓝色点代表的簇（以下简称蓝色点簇）。
当然，关于距离的计算其实有很多种，我们在 Lesson 4.1 中曾介绍了多种距离的计算方法，此处我们以欧式距离为例，来进行距离计算，相关计算过程可以由如下代码实现：
欧式距离计算公式如下： $\sqrt{\sum_{i = 1}^{n}(x_i-y_i)^2}$

center
#array([[ 0.66698806,  0.02581308],
#       [-0.77761941,  0.94863382]])

# 计算每条样本距离红色中心点距离
np.power((X - center[0]), 2).sum(1)
#array([2.80418598, 4.53045247, 4.13895531, 5.96788755, 5.43938343,
#       3.865367  , 3.25889336, 7.13376456, 2.30412925, 8.92312473,
#       3.37863704, 2.33823889, 4.64766873, 3.16445859, 5.17815242,
#       1.55545174, 1.69836706, 5.6316741 , 9.43394061, 2.93573695,
#       2.1952354 , 1.68759248, 0.99370862, 1.5880287 , 0.50250126,
#       1.21754799, 1.4285248 , 0.052919  , 0.64128333, 2.52979672,
#       0.53203112, 1.17477822, 2.55720201, 7.04514128, 1.0019926 ,
#       2.98793165, 3.17855917, 0.55893052, 1.00322863, 0.55888205])

# 对比距离中心点远近情况
res_bool = np.power((X - center[0]), 2).sum(1) < np.power((X - center[1]), 2).sum(1)
res_bool
#array([ True, False,  True,  True, False, False,  True, False, False,
#       False, False,  True,  True, False,  True,  True, False, False,
#       False,  True,  True,  True,  True,  True,  True,  True,  True,
#        True,  True,  True,  True,  True,  True,  True,  True,  True,
#        True,  True,  True,  True])

res = res_bool*1
res
#array([1, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 1, 1, 0, 0, 0, 1, 1, 1,
#       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

根据代码可知，1 代表该样本距离红色中心点更近，应该属于红色点簇，而 0 则代表该样本距离蓝色中心点更近，应该属于蓝色点簇。
我们可以通过可视化的方式进行呈现，令红色点簇中的点都着上红色，令蓝色点簇中的点都着上蓝色：

# 选取红色点簇
X_red = X[(res_bool)]
X_red
#array([[-0.66650597, -0.98709346],
#       [-0.6491641 , -1.52554078],
#       [-1.18377406, -1.56872985],
#       [-0.83886424, -0.96982853],
#       [-0.73091902, -0.59394067],
#       [-0.87944685, -1.47625477],
#       [-0.91318318, -1.61162739],
#       [-0.29234001, -0.77114451],
#       [-0.69690225, -1.01126945],
#       [ 1.00671113,  1.46797245],
#       [ 1.21031133,  1.20580982],
#       [ 0.96433804,  0.97728121],
#       [ 1.52044299,  0.95298263],
#       [ 0.78957802,  0.72400572],
#       [ 0.93945123,  1.09507068],
#       [ 1.2560687 ,  1.06576923],
#       [ 0.83419144,  0.18380686],
#       [ 1.30955704,  0.50371311],
#       [ 0.91932681,  1.59620217],
#       [ 1.12536828,  0.59319188],
#       [ 1.35181182,  0.86592893],
#       [ 0.75872026,  1.62230524],
#       [ 1.33843006,  2.59375134],
#       [ 0.45971762,  1.00511465],
#       [ 1.21891484,  1.66389381],
#       [ 0.87442748,  1.79655531],
#       [ 1.08540885,  0.64537305],
#       [ 0.9334877 ,  0.99132153],
#       [ 0.94945354,  0.71798019]])

# 选取蓝色点簇
X_blue = X[(~res_bool)]
X_blue
#array([[-1.38880971, -0.52568309],
#       [-1.66107376, -0.11387086],
#       [-1.1737295 , -0.66492992],
#       [-1.521725  , -1.50497094],
#       [-0.77913181, -0.43556157],
#       [-1.91903388, -1.46938432],
#       [-1.10092026, -0.47731436],
#       [-1.06813338, -0.3663759 ],
#       [-0.63556208, -0.01578263],
#       [-1.273894  , -1.33970914],
#       [-2.25311516, -0.92651975]])

plt.plot(X_red[:, 0],X_red[:, 1], 'o', c='lightcoral')
plt.plot(center[0, 0], center[0, 1], 'o', c='red')
plt.plot(X_blue[:, 0],X_blue[:, 1], 'o', c='c')
plt.plot(center[1, 0], center[1, 1], 'o', c='cyan')

至此，我们就根据两个中心点，对上述数据集进行了两个簇的划分。由此我们也可得知，只要给出一组中心点，就能够对数据集进行一次分群。
重新计算中心点
尽管上述过程确实将所有的点分成了两个簇，但划分结果却并不理想。
对于 K-Means 来说，其聚类的核心目的是将类似的划分成一类，而上面的划分结果很明显无法满足要求。
比如对于左下方的一些点来说，明明彼此距离更近，却有些点和右上方的点属于同一类，这并不符合挨得越近越有可能属于同一类的初衷。
因此我们还需要进行进一步的计算，也就是换中心点，再进行簇的划分。
而新的中心点应该如何计算？对于 K-Means 来说，我们会根据上述划分结果，通过计算不同簇的质心来重新计算中心点。
此时我们将红色点簇的中心点改为红色点簇的质心，而蓝色点簇的中心点改为蓝色点簇的质心。
注意，在上述表述中，中心点表示 K-Means 的建模含义，即据此划分数据集，而质心其实表示的中心点的计算方法。
对于利用欧式距离进行计算的 K-Means 快速聚类来说，质心是采用均值来进行计算的： $x_{cen} = \frac{x_1+x_2+...+x_n}{n}$ $y_{cen} = \frac{y_1+y_2+...+y_n}{n}$
为什么说利用欧式距离进行 K-Means 的聚类算法才是用均值计算质心，稍后在解释 K-Means 的数学原理时会详细探讨。
而对于上述点簇，我们可以通过如下方法计算各簇的质心：

X_red.mean(0)
#array([0.48257302, 0.40526208])

X_blue.mean(0)
#array([-1.3431935 , -0.71273659])

而这两个点，就构成了新的中心点，其中第一个点就是红色点簇新的中心点、第二个点就是蓝色点簇新的中心点。接下来围绕这两个点再来进行下一轮划分：

center = np.array([X_red.mean(0), X_blue.mean(0)])
center
#array([[ 0.48257302,  0.40526208],
#       [-1.3431935 , -0.71273659]])

plt.plot(X_red[:, 0],X_red[:, 1], 'o', c='lightcoral')
plt.plot(center[0, 0], center[0, 1], 'o', c='red')
plt.plot(X_blue[:, 0],X_blue[:, 1], 'o', c='c')
plt.plot(center[1, 0], center[1, 1], 'o', c='cyan')

第二次迭代
接下来，重复上述依据中心点划分数据集的方法，根据新的中心点对数据集进行再一次的划分：

# 距离计算结果
res_bool = np.power((X - center[0]), 2).sum(1) < np.power((X - center[1]), 2).sum(1)
res = res_bool*1

# 新的簇的划分
X_red = X[(res_bool)]
X_blue = X[(~res_bool)]

# 展示划分结果
plt.plot(X_red[:, 0],X_red[:, 1], 'o', c='lightcoral')
plt.plot(center[0, 0], center[0, 1], 'o', c='red')
plt.plot(X_blue[:, 0],X_blue[:, 1], 'o', c='c')
plt.plot(center[1, 0], center[1, 1], 'o', c='cyan')

在本轮计算结束后，我们发现聚类的结果已经更贴近于 K-Means 所要求的距离更近更有可能属于同一个簇的目标。
当然，前面所有的计算我们可以将其视为两轮运算，每一轮计算中都包含以下三步：
（1）确定中心点，第一轮是随机生成的，其他情况都是通过质心计算得到；
（2）根据中心点，计算每个点到中心点的距离；
（3）根据距离计算结果，对数据集进行划分。
并且后一轮的中心点的位置，实际上是由前一轮计算结果（也就是数据集的划分结果）决定的，也就是当前计算条件其实是上一轮的计算结果（所决定）。
因此上述过程本质上也是在迭代，即整个 K-Means 的计算过程实际上是迭代计算过程。
K-Means 迭代停止条件
那何时迭代停止呢？一般来说有两个等价的条件：
（1）相邻两次迭代过程中质心位置不发生变化；
（2）相邻两次迭代过程中各点所属类别不发生变化；
注意，这两个条件是等价的，如果质心位置不变，则数据集划分情况就不会发生变化，而如果数据集划分情况不发生变化，则质心也就不变。
当然，迭代停止也就等价于模型收敛了，因此对于 K-Means 来说，和梯度下降求解参数一样，都存在模型收敛这一说法。
接下来，我们就尝试继续进行计算，看下数据集划分情况或者中心点是否发生变化。首先继续计算心的质心：

center = np.array([X_red.mean(0), X_blue.mean(0)])
plt.plot(X_red[:, 0],X_red[:, 1], 'o', c='lightcoral')
plt.plot(center[0, 0], center[0, 1], 'o', c='red')
plt.plot(X_blue[:, 0],X_blue[:, 1], 'o', c='c')
plt.plot(center[1, 0], center[1, 1], 'o', c='cyan')

然后进行数据集的重新划分：

# 距离计算结果
res_bool = np.power((X - center[0]), 2).sum(1) < np.power((X - center[1]), 2).sum(1)
res = res_bool*1

# 新的簇的划分
X_red = X[(res_bool)]
X_blue = X[(~res_bool)]

# 展示划分结果
plt.plot(X_red[:, 0],X_red[:, 1], 'o', c='lightcoral')
plt.plot(center[0, 0], center[0, 1], 'o', c='red')
plt.plot(X_blue[:, 0],X_blue[:, 1], 'o', c='c')
plt.plot(center[1, 0], center[1, 1], 'o', c='cyan')

我们发现数据集划分方式并为发生变化，说明已经达到 K-Means 模型收敛条件，模型将不再进行迭代，而上述过程就是一整个 K-Means 快速聚类的过程。
当然，如果将上述代码封装为一个完整函数，该函数就是 K-Means 快速聚类的手动实现方法。

2. K-Means 快速聚类的背后的数学意义

不难看出，相比很多有监督学习算法，K-Means 的计算过程相对简单，并且稍后在进行 sklearn 的实现过程中，我们也会发现 K-Means 评估器的参数也不算多。
不过尽管如此，我们还是需要稍微深入点儿来讨论 K-Means 快速聚类过程背后的数学意义，在这个过程中，我们会发现 K-Means 作为一个无监督学习算法，其背后有非常多的原理都和我们此前介绍的一系列算法的原理是相通的。
K-Means 建模目标的数学等价表示
尽管我们此前一直说，K-Means 快速聚类的目标是让更接近的点划分为同一个簇，以达到“物以类聚、人以群分”的效果，但实际上这一目标背后其实有更加严谨的数学表示，那就是在给定 K（簇的个数）的情况下，找到一种最优的划分情况，使得组内误差平方和尽可能的小。
这里所谓的组内误差平方和，指的是每个点到当前簇的中心点的距离的平方和，我们可以通过如下数学计算符号来进行表示：

Name	Description
$x$	单独样本
$C_i$	第i个簇
$c_i$	簇 $C_i$ 的质心
$c$	所有点的质心
$m_i$	第i个簇中数据个数
$m$	数据集总个数
$K$	簇的个数

则组内误差为： $\sum^K_{i=1}\sum_{x\in C_i}(c_i-x)^2$
这点其实不难理解，如果每个点都距离各自中心点更近，肯定聚类效果会更好。而由此，则可进一步衍生出原型和质心计算公式的数学意义这两个至关重要的点。
原型与 SSE
在 K-Means 快速聚类中，中心点、质心其实还有另一个叫法：原型，即当前簇中所有点的原型。
换而言之，很多时候我们在进行聚类分析时，最后实际上是要利用这个中心点、质心或者原型来代表一个簇的数据的。
例如此前介绍的 RFM 客户价值划分模型中，如果我们将客户划分成高、中、低价值三类，最终我们还是需要从这三类中找到具有代表性的“典型”，才能为后续的诸如产品设计环节提供数据支持。
也就是说，我们其实是希望通过原型来“代表”一个簇中的点，也就是说，我们希望通过原型来预测这个簇中数据的表现。
那既然是预测，就肯定会有误差，而这里用原型预测一个簇中其他所有点的误差，就是上述的组内平方和误差，也就是簇内所有点到这个原型之间距离的平方和。
而在线性回归中我们曾介绍，预测值和真实值之间的距离，被称为 SSE，因此对于 K-Means 快速聚类来说，其组内误差平方和也就是 SSE： $\sum^K_{i=1}\sum_{x\in C_i}(c_i-x)^2$
质心的最佳计算公式
当然，上述 SSE 其实就是对当前聚类状况的一个评估，SSE 越大，则说明当前聚类效果较差，而 SSE 较小，则说明当前聚类效果较好。回顾上述聚类过程，能够明显看到 SSE 下降趋势：

# 第一轮SSE
# 确定中心点
np.random.seed(23)
center = np.random.randn(2, 2)

# 计算距离
res_bool = np.power((X - center[0]), 2).sum(1) < np.power((X - center[1]), 2).sum(1)
res = res_bool*1

# 划分数据集
X_red = X[(res_bool)]
X_blue = X[(~res_bool)]

# 计算SSE
np.power((X_red - center[0]), 2).sum()
#66.26098649489376

# 第二轮SSE
# 确定中心点
center = np.array([X_red.mean(0), X_blue.mean(0)])

# 计算距离
res_bool = np.power((X - center[0]), 2).sum(1) < np.power((X - center[1]), 2).sum(1)
res = res_bool*1

# 划分数据集
X_red = X[(res_bool)]
X_blue = X[(~res_bool)]

# 计算SSE
np.power((X_red - center[0]), 2).sum()
#23.256673490142994

而更进一步，可以借助数学证明，选取质心作为中心点，实际上是有利于让 SSE 下降速度最快的迭代方法。
在梯度下降中我们曾提到，令损失函数导函数取值为 0 的方向，就是损失函数值下降最快的方向，此处也类似，由于原型概念的引入，使得我们可以将 K-Means 视作预测模型，而上述 SSE 就是其损失函数，并且该损失函数中变量为 $c_k$ ，也就是质心，对其求导可得： $\begin{aligned} \frac{\partial}{\partial c_k}SSE &= \sum^K_{i=1}\sum_{x\in C_i}\frac{\partial}{\partial c_i}(c_i-x)^2 \\ &=\sum^K_{i=1}\sum_{x\in C_i}2(c_i-x) = 0 \end{aligned}$
因此，对于给定的 i，上式的必要条件是： $\sum_{x\in C_i}(c_i-x) = 0$
由该式可以进一步推导得出： $\sum_{x \in C_i}x = m_ic_i$
即 $c_i = \frac{1}{m_i}\sum_{x \in C_i}x$
即中心是由质心计算得出。
换而言之，中心点采用每个点各维度均值的计算方式，能够让 SSE 下降速度最快。当然如果样本距离的计算方式发生变化，则质心对应的计算方式也必须发生变化，例如，如果采用曼哈顿距离进行距离计算，则需要采用中位数作为质心的计算方法。

三、K-Means 快速聚类的 sklearn 实现方法

接下来，我们尝试在 sklearn 中进行 K-Means 快速聚类，并尝补充讲解K-Means 聚类算法在使用过程中的注意事项，同时补充介绍关于 Mini Batch K-Means 的相关内容。

1. sklearn 中实现 K-Means 快速快速聚类

首先，作为聚类的评估器，K-Means 在 sklearn.cluster 模块下，通过如下方式进行导入，并查看 K-Means 的超参数。

from sklearn.cluster import KMeans

KMeans?

除了通用的 verbose、random_state 和 copy_x 外，我们重点介绍其他各参数：

Name	Description
n_clusters	聚类类别总数
init	初始中心点创建方法
n_init	初始化几次中心点
max_iter	最大迭代次数
tol	收敛条件
precompute_distances	是否提前预计算距离
algorithm	优化距离计算的方法选取

围绕上述参数，需要重点解释的是关于 K-Means 迭代不平稳的问题。
尽管此前例子中 K-Means 的迭代过程快速高效，但实际上，当面对复杂数据集时，K-Measn 很有可能陷入“局部最小值陷进”或者“震荡收敛”。
所谓落入局部最小值陷进，指的是尽管可能有更好的划分数据集的方法（SSE 取值更小），但根据 K-Means 的收敛条件却无法达到，算法会在另外一种划分情况时停止迭代。
而所谓“震荡收敛”，指的是算法会在两种不同的划分方法中来回震荡（尽管 SSE 取值可能有差别）。
前种情况非常类似于参数进行梯度下降求解过程中，如果采用 BGD，并且参数在一个局部最小值点附近，则最终参数会收敛到局部最小值点类似，而后面一种情况则非常类似于学习率过大导致无法收敛、一直处于震荡状态。
而出现这种问题的根本原因，其实在于初始中心点的随机选取。
因此 sklearn 中其实集成了两种技术手段来避免上述两种问题的出现。
其一是采用 k-means++ 算法来计算初始中心点，经过这种算法生成的中心点，能够大概率在后续的迭代过程中让模型保持平稳。
而无论 k-means++ 是否生效，为了保险起见，sklearn 中都采用了多次初始化中心点、多次训练模型、然后找到最优数据集划分的方法，这就是 n_init 参数的意义。
在这双重保证下，sklearn 的 K-means 快速聚类能够整体保持非常平稳的状态。
接下来，尝试调用sklearn中快速聚类方法对数据集进行聚类：

km = KMeans(n_clusters=2)
km.fit(X)
#KMeans(n_clusters=2)

注意，对于无监督学习算法，只需要带入特征矩阵进行计算即可。
在训练完成后，我们即可调用评估器的相关属性来查看聚类结果：

# 查看中心点
km.cluster_centers_
#array([[-1.08131141, -0.91777659],
#       [ 1.04228586,  1.11340149]])

# 查看每条数据属于哪一类
km.labels_
#array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1,
#       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], dtype=int32)

# 借助图像进行验证
plt.scatter(X[:, 0], X[:, 1], c=km.labels_)
plt.plot(km.cluster_centers_[0, 0], km.cluster_centers_[0, 1], 'o', c='red')
plt.plot(km.cluster_centers_[1, 0], km.cluster_centers_[1, 1], 'o', c='cyan')

# 收敛时SSE
km.inertia_
#16.352095518854334

注意，此处和手动实现过程 SSE 计算结果不同，原因是手动实现时 SSE 是上一轮迭代完的中心点，若在手动实现部分将中心点改为两次迭代后的质心，则计算结果相同。

# 迭代次数
km.n_iter_
#3

能够发现，和此前手动实现结果一致。
此外，K-Means 评估器也支持 predict 方法，对于新的数据，K-Means 模型能够依据其距离各中心点的远近来对其类别所属情况进行判别：

X_new = np.random.randn(2, 2)
km.predict(X_new)
#array([0, 0], dtype=int32)

当然，正因如此，我们可以绘制 K-Means 的决策边界，类似于有监督学习算法，决策边界的形状其实一定程度将决定聚类算法针对不同分布的数据集时聚类的“性能”。

plot_decision_boundary(X, km.labels_, km)

2. 轮廓系数基本概念与 sklearn 中实现方法

轮廓系数基本概念
尽管我们可以通过 SSE 来表示当前 K-Means 聚类模型效果好坏（甚至作为损失函数），但 SSE 却不能作为模型超参数（K）的选取依据。
其实我们不难发现，伴随 K 增加，模型整体 SSE 将会逐渐下降。不过，尽管如此，其实 K-Means 快速聚类中，还是有部分指标可以一定程度上给出聚成几类的指导意见，其中最有名的就是轮廓系数（silhouette coefficient，简称 sc）。
注意，对于 K-Means 来说，这些指标只能参考，最终聚成几类，还应该主要参考模型的业务背景。
轮廓系数的计算过程如下：
（1）对于第 i 条数据（以下简称 i），计算该对象到所属簇的平均距离，记为 $a_i$ ；
（2）如果还存在其他簇（不包含第 i 个对象的簇，如 A、B 两个簇），分不同的簇，计算该对象到这些簇的所有点的平均距离（例如计算 i 到 A 簇中所有点的平均距离，以及计算 i 到 B 簇中所有点的平均距离），并在这些距离中找到最小值记为 $b_i$ ；
（3）则对于 i，轮廓系数计算结果为： $s_i=\frac{b_i-a_i}{max(a_i, b_i)}$ ；
（4）而对于聚类中的所有 N 条数据，最终轮廓系数为单个 $s_i$ 的均值，即 $s=mean(s_i)$ 。
尽管轮廓系数可以在 [-1, 1] 区间内取值，但我们并不希望轮廓系数出现负值，此时代表组内的平均距离要大于组外平均距离的最小值，此时说明聚类算法无效。
我们希望 $b_i>a_i$ ，并且希望 $a_i$ 尽可能的小，此时 $s_i$ 也就趋近于 1，而当轮廓系数趋于 0 时，则说明各簇重叠现象明显。
并且，非常重要的一点是，轮廓系数取值的大小一定程度上能够给 K 的取值提供建议，当轮廓系数比较大时，往往说明数据在特征空间中本身的分布情况就和聚类的类别数量相同。
和 SSE 不同，轮廓系数受到K的影响相对较小，这也是轮廓系数相对可靠的原因之一。
轮廓系数的 sklearn 中实现方法
当然，我们也可以借助 sklearn 中 metrics 模块下的 silhouette_score 函数来进行轮廓系数的计算：

from sklearn.metrics import silhouette_score

silhouette_score(X, km.labels_)
#0.7241755028408805

而更进一步的，轮廓系数如何指导 K 值的选取，我们可以通过如下实例来进行说明。此处手动生成一组三分类明显的数据集，观察 K 取值不同时轮廓系数的变化情况。

np.random.seed(23)
X, y = arrayGenCla(num_examples = 50, num_inputs = 2, num_class = 3, deg_dispersion = [2, 0.5])
plt.scatter(X[:, 0], X[:, 1], c=y)

ss = []

for i in range(2, 12):
    km = KMeans(n_clusters=i).fit(X)
    ss.append(silhouette_score(X, km.labels_))

ss
#[0.5917969390803755,
# 0.6753180189915984,
# 0.580872808406484,
# 0.47687683047050644,
# 0.3685113521594094,
# 0.3653820829962011,
# 0.3639995054273048,
# 0.3524637605205039,
# 0.3579462241667135,
# 0.3682450219445942]

能够发现，当 K 取值为 3 时轮廓系数取值最高，也就是说明从特征空间的数据分布来看，整体呈现聚成三类的趋势。当然，这个我们创建数据集时赋予的规律一致。
不过，仍然需要强调的是，除非特征矩阵在特征空间的“分界”非常明显，才能在轮廓系数上有明显差异。而聚类算法在分类上的性能，其实也远远弱于有监督学习算法。

你可能感兴趣的:(机器学习,python)

使用PyTorch搭建Transformer神经网络:入门篇 DASA13 pytorch transformer 神经网络
1.简介Transformer是一种强大的神经网络架构,在自然语言处理等多个领域取得了巨大成功。本教程将指导您使用PyTorch框架从头开始构建一个Transformer模型。我们将逐步解释每个组件,并提供详细的代码实现。2.环境设置首先,确保您的系统中已安装Python(推荐3.7+版本)。然后,安装PyTorch和其他必要的库:pipinstalltorchnumpymatplotlib3.P
openai-agents 中custom example agent ZHOU_CAMP oi_agents 人工智能
代码pipshowopenai-agentsName:openai-agentsVersion:0.0.4Summary:OpenAIAgentsSDKHome-page:https://github.com/openai/openai-agents-pythonAuthor:Author-email:OpenAILicense-Expression:MITLocation:d:\soft\ana
Python 向量检索库Faiss使用懒大王爱吃狼 python python 开发语言自动化 Python基础 python教程
Faiss（FacebookAISimilaritySearch）是一个由FacebookAIResearch开发的库，它专门用于高效地搜索和聚类大量向量。Faiss能够在几毫秒内搜索数亿个向量，这使得它非常适合于实现近似最近邻（ANN）搜索，这在许多应用中都非常有用，比如图像检索、推荐系统和自然语言处理。以下是如何使用Faiss的基本步骤和示例：1.安装Faiss首先，你需要安装Faiss。你可
Python 应用部署云端实战指南 —— AWS、Google Cloud 与 Azure 全解析清水白石008 python Python题库 python aws azure
Python应用部署云端实战指南——AWS、GoogleCloud与Azure全解析在当下云计算飞速发展的时代，将Python应用部署到云平台已成为大多数开发者和企业的首选。无论是构建Web服务、API接口，还是自动化任务调度，云平台都能为我们提供高可靠性、弹性伸缩与简便管理的优势。本文将详细阐述如何将Python应用分别部署到AWS、GoogleCloud与Azure，并介绍各平台下涉及的部署工
Python编程：为什么使用同步原语林十一npc Python语言 python 开发语言
Python编程：为什么使用同步原语1.同步原语同步原语：计算机科学中用于实现进程或线程之间同步的机制。目的：提供一种方法来控制多个进程或线程的执行顺序，确保他们以一致的方式访问共享资源在多线程/多进程编程中，多个执行单元可能同时访问共享资源，导致竞态条件。同步原语通过协调执行顺序，确保数据一致性和操作原子性2.Python核心同步原语同步原语作用适用场景模块Lock（互斥锁）确保同一时间只有一个
小白零基础学数学建模系列-引言与课程目录川川菜鸟数学建模小白到精通系列数学建模
目录引言一、我们的专辑包含哪些内容？第一周：数学建模基础与工具第二周：高级数学建模技巧与应用第三周：机器学习基础与数据处理第四周：监督学习与无监督学习算法第五周：神经网络二、学完本专辑能收获到什么？三、适合什么样的人群学习？四、如何学习本专辑？课程目录第1周：数学建模基础与工具第1天：数学建模入门介绍第2天：数学建模工具介绍第3天：线性回归与曲线拟合第4天：线性规划第5天：动态规划第2周：高级数学
python函数闭包和递归_闭包和递归_个人文章 - SegmentFault 思否 weixin_39830313 python函数闭包和递归
js变量的作用域:全局作用域(全局变量):在函数外面声明的变量**生命周期(变量从声明到销毁)：页面从打开到关闭.局部作用域(局部变量):在函数里面声明的变量**生命周：开始调用函数到函数执行完毕1.闭包使用介绍1.闭包介绍(closure)1.1闭包：是一个可以在函数外部访问函数内部变量的函数->闭包是函数1.2闭包作用：可以在函数外部访问函数内部变量->延长局部变量的生命周期1.3闭包语法：-
python函数闭包和递归_python函数基础3--闭包 + 递归 + 函数回调 weixin_39532019 python函数闭包和递归
一、闭包1.函数嵌套defouter():print("外层函数")definner():print("内层函数")returninner()outer()函数嵌套流程图2.闭包闭包的表现形式：函数里面嵌套函数，外层函数返回内层函数的函数名，这种情况就称之为闭包defouter():print("外层函数")definner():print("内层函数")returninnerret=outer(
python中的递归、回调函数以及闭包总结敲代码敲到头发茂密 Python成长之路 python 开发语言
这里写目录标题一、递归例1：利用递归函数计算1到10的和例2：利用递归函数计算10的阶乘二、回调函数特别注意：在函数中的调用函数分为以下情况：1、同步回调2、异步回调三、闭包一、递归作用：在函数内部调用自己若干次例1：利用递归函数计算1到10的和defsum_num(num):ifnum>=1:sum=num+sum_num(num-1)else:sum=0returnsumprint(sum_n
使用Pygame实现记忆拼图游戏点我头像干啥 Ai pygame python 开发语言
引言记忆拼图游戏是一种经典的益智游戏，玩家需要通过翻转卡片来匹配相同的图案。这类游戏不仅能够锻炼玩家的记忆力，还能带来很多乐趣。本文将详细介绍如何使用Pygame库来实现一个简单的记忆拼图游戏。我们将从Pygame的基础知识开始，逐步构建游戏的各个部分，最终完成一个完整的游戏。1.Pygame简介Pygame是一个用于编写视频游戏的Python库，它基于SDL库（SimpleDirectMedia
《Python实战进阶》No28: 使用 Paramiko 实现远程服务器管理带娃的IT创业者 Python实战进阶 python 服务器开发语言
No28:使用Paramiko实现远程服务器管理摘要在现代开发与运维中，远程服务器管理是必不可少的一环。通过SSH协议，我们可以安全地连接到远程服务器并执行各种操作。Python的Paramiko模块是一个强大的工具，能够帮助我们实现自动化任务，如代码部署、批量命令执行和文件传输。本集将深入讲解Paramiko的核心功能，并通过实战案例展示如何高效管理远程服务器。核心概念和知识点SSH协议的基本原
python八股（—） --FBV，CBV suohanfjiusbis 数据库 python
引言FBV是面向函数的视图。defFBV(request):ifrequest.method=='GET':returnHttpResponse("GET")elifrequest.method=='POST':returnHttpResponse("POST")CBV是面向类的视图。classCBV(View):defget(self,request):returnHttpResponse("G
初始OpenCV 指尖下的技术 OpenCV opencv 人工智能计算机视觉
OpenCV是一个功能强大、应用广泛的计算机视觉库，它为开发人员提供了丰富的工具和算法，可以帮助他们快速构建各种视觉应用。随着计算机视觉技术的不断发展，OpenCV也将会继续发挥重要的作用。OpenCV提供了大量的计算机视觉算法和图像处理工具，广泛应用于图像和视频的处理、分析以及机器学习领域。所以学习人计算机视觉或者图像处理方面的知识，OpenCV是一个要重点学习的工具库。首先介绍一下OpenCV
【纯职业小组——思维】 Kent_J_Truman 蓝桥杯算法
题目思路第十五届蓝桥杯省赛PythonB组H题【纯职业小组】题解（AC）_蓝桥杯纯职业小组-CSDN博客代码#includeusingnamespacestd;usingll=longlong;intmain(){ios::sync_with_stdio(0);cin.tie(0);intt;cin>>t;while(t--){intn;llk;cin>>n>>k;unordered_maph;f
第十五届蓝桥杯省赛PythonB组B题【数字串个数】题解（AC）信奥郭老师蓝桥杯职场和发展
设n=10000n=10000n=10000。法一枚举333的个数以及777的个数，假设333的个数为iii，777的个数为jjj，那么非3,73,73,7的个数即为n−i−jn-i-jn−i−j。在长度为nnn的字符串中选取iii的方案数为CniC^i_nCni，在剩余n−in-in−i个位置选取jjj个的方案数为Cn−ijC^j_{n-i}Cn−ij，剩余位置个数为n−i−jn-i-jn−i−
ModuleNotFoundError: No module named ‘h5py‘ Hardess-god python
到ModuleNotFoundError:Nomodulenamed'h5py'错误表明Python环境中没有安装h5py模块。h5py是一个用于处理HDF5二进制数据格式的Python接口，广泛用于大规模存储和操纵数据。解决方案：安装h5py要解决这个问题，你需要在你的Python环境中安装h5py。以下是如何在不同环境中安装h5py的步骤：使用pip安装如果你使用的是pip包管理器，可以通过以
CSP-J备考冲刺必刷题（C++） | AcWing 1253 家谱热爱编程的通信人 c++开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】Acwing：1253.家谱-AcWing题库
蓝桥杯2024年第十五届省赛真题-魔法巡游（Python）罄竹_ python刷题 python 蓝桥杯算法
前言本文参考了FJ_EYoungOneC的文章思路，并且修改了该文章的某些理解上的偏差。一、题目题目来源：dotcpp题目描述在蓝桥王国中，两位魔法使者，小蓝与小桥，肩负着维护时空秩序的使命。他们每人分别持有N个符文石，这些石头被赋予了强大的力量，每一块上都刻有一个介于1到109之间的数字符号。小蓝的符文石集合标记为s1,s2,...,sN，小桥的则为t1,t2,...,tN。两位魔法使者的任务是
机器学习结合伏羲模型高精度多尺度气象分析与降尺度实现 Hardess-god WRF 算法人工智能
随着人工智能的发展，机器学习技术在气象预报领域展现出巨大潜力。本文详细探讨如何结合机器学习（ML）和伏羲模型进行高精度多尺度气象模拟分析，并提供详细的实现步骤和相关代码。1.研究目标与技术路线目标：结合机器学习模型与伏羲气象模式，实现区域和局地高精度降尺度。技术路线：伏羲模型提供大尺度气象数据和预报使用机器学习模型（如CNN、LSTM、XGBoost）进行降尺度2.数据准备与处理2.1气象数据获取
想使用dify实现docx文档的自动生成？试了一圈，感觉还是根据python-docx更靠谱几道之旅人工智能智能体及数字员工人工智能
前言：文档自动生成的需求痛点在软件开发过程中，需求文档、设计文档等材料的编写是每个开发者都绕不开的工作。最近笔者接到一个需要批量生成标准化需求文档的任务，尝试了目前热门的低代码工具Dify后，发现对于稍微复杂格式的文档生成需求（例如文本居中这么简单的需求），最终还是回归到基于python-docx库的解决方案。本文将分享两种技术路线的对比实践。一、Dify的踩坑经历我尝试了markdown转doc
python中列表排序 hedgehog" python python list
Python中列表的排序方法1.sort()方法2.sorted()方法========================================1.sort()函数，无返回值主要参数：（1）key:用来进行比较的元素，指定可迭代对象的一个元素作为参数来进行排序。（2）reverse:排序规则。reverse=True降序排序reverse=False升序排序（默认）示例1：list1=[5
python 列表排序 rainynights Python
在我们实际使用中，对于列表的操作是十分常见的。对于列表的数据，在很多特殊的情况下我们需要对列表内的数据进行排列以达到我们特定的显示需求。今天，我们一起看一下python中关于列表排序的一些知识。有些时候我们希望对列表进行排序后，列表可以保存我们排序后的结果，但是很多情况下我们只是希望通过列表的排序，临时的显示排序结果而已。所以对于列表的排序可以分为永久性的排序和临时性的排序。sort()sort(
使用Python和LangChain构建检索增强生成（RAG）应用的详细指南 m0_57781768 python langchain 搜索引擎
使用Python和LangChain构建检索增强生成（RAG）应用的详细指南引言在人工智能和自然语言处理领域，利用大语言模型（LLM）构建复杂的问答（Q&A）系统是一个重要应用。检索增强生成（RetrievalAugmentedGeneration，RAG）是一种技术，通过将模型知识与额外数据结合来增强LLM的能力，使其能够回答关于特定源信息的问题。这些应用不仅限于公开数据，还可以处理私有数据和模
华为OD机试 - 相对开音节 - 正则表达式（Python/JS/C/C++ 2024 E卷 100分）哪吒华为od 正则表达式 python
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述相对开音节构成的结构为辅音+元音（aeiou）+辅音(r除外)+
华为OD机试 - 数列描述 - 动态规划（Python/JS/C/C++ 2024 B卷 100分）哪吒华为od 动态规划 python
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述有一个数列a[N](N=60)，从a[0]开始，每一项都是一个数
华为OD机试 - 输出单向链表中倒数第k个结点 - 双指针（Python/JS/C/C++ 2024 B卷 100分）哪吒华为od 链表 python
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述输入一个单向链表，输出该链表中倒数第k个结点，链表的倒数第1个结
华为OD机试 - 图片整理（Python/JS/C/C++ 2024 B卷 100分）哪吒华为od python javascript
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述Lily上课时使用字母数字图片教小朋友们学习英语单词，每次都需要
华为OD机试 - 宜居星球改造计划 - 图的多源BFS（Python/JS/C/C++ 2023 B卷 100分）哪吒华为od 宽度优先 python
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述2XXX年，人类通过对火星的大气进行宜居改造分析，使得火星已在理
华为OD机试 - 红黑图（Python/JS/C/C++ 2023 B卷100分）哪吒华为od python javascript
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述众所周知红黑树是一种平衡树，它最突出的特性就是不能有两个相邻的红
华为OD机试 - DNA序列（Python/JS/C/C++ 2023 B卷 100分）哪吒华为od python javascript
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述一个DNA序列由A/C/G/T四个字母的排列组合组成。G和C的比
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，