pipisorry

聚类算法

http://blog.csdn.net/pipisorry/article/details/23567065

划分算法Partitioning Methods

基于划分的方法（Partition-based methods）：其原理简单来说就是，想象你有一堆散点需要聚类，想要的聚类效果就是“类内的点都足够近，类间的点都足够远”。首先你要确定这堆散点最后聚成几类，然后挑选几个点作为初始中心点，再然后依据预先定好的启发式算法（heuristicalgorithms）给数据点做迭代重置（iterativerelocation），直到最后到达“类内的点都足够近，类间的点都足够远”的目标效果。
Partition-based methods聚类多适用于中等体量的数据集，但我们也不知道“中等”到底有多“中”，所以不妨理解成，数据集越大，越有可能陷入局部最小。

主要方法有

k-means

k-medoids

Kmeans算法的原理

k-means算法以k为参数，把n个对象分成k个簇，使簇内具有较高的相似度，而簇间的相似度较低。k-means算法的处理过程如下：首先，随机地选择k个对象，每个对象初始地代表了一个簇的平均值或中心，即选择K个初始质心;对剩余的每个对象，根据其与各簇中心的距离，将它赋给最近的簇;然后重新计算每个簇的平均值。这个过程不断重复，直到准则函数收敛，直到质心不发生明显的变化。通常，采用平方误差准则，误差的平方和SSE作为全局的目标函数，即最小化每个点到最近质心的欧几里得距离的平方和。此时，簇的质心就是该簇内所有数据点的平均值。
选择K个点作为初始质心
repeat
将每个点指派到最近的质心，形成K个簇
重新计算每个簇的质心
until 簇不发生变化或达到最大迭代次数
时间复杂度：O(tKmn)，其中，t为迭代次数，K为簇的数目，m为记录数，n为维数
空间复杂度：O((m+K)n)，其中，K为簇的数目，m为记录数，n为维数

K-Means 算法的详细过程

从上图中，我们可以看到，A, B, C, D, E 是五个在图中点。而灰色的点是我们的种子点，也就是我们用来找点群的点。有两个种子点，所以K=2。
然后，K-Means的算法如下：
①随机在图中取K（这里K=2）个种子点。
②然后对图中的所有点求到这K个种子点的距离，假如点Pi离种子点Si最近，那么Pi属于Si点群。（我们可以看到A,B属于上面的种子点，C,D,E属于下面中部的种子点）
③接下来，我们要移动种子点到属于他的“点群”的中心。（见图上的第三步）
④然后重复第2）和第3）步，直到，种子点没有移动（我们可以看到图中的第四步上面的种子点聚合了A,B,C，下面的种子点聚合了D，E）。
聚类的效果如下图，折线是历次循环时3个簇的质心的更新轨迹，黑点是初始质心：

我们查看基本K均值算法实现步骤及上面的聚类效果可以发现，该聚类算法将所有数据点都进行了指派，不识别噪音点。另外选择适当的初试质心是基本K均值过程的关键。

k均值的优缺点及分类

优点：1，简单，易于理解和实现；2，时间复杂度低
缺点：
1）kmeans要手工输入类数目，对初始值的设置很敏感；所以有了k-means++、intelligent k-means、genetic k-means；
2）k-means对噪声和离群值非常敏感，所以有了k-medoids和k-medians；
3）k-means只用于numerical类型数据，不适用于categorical类型数据，所以k-modes；
4）k-means不能解决非凸（non-convex）数据，所以有了kernel k-means。
5）k-means主要发现圆形或者球形簇，不能识别非球形的簇。
3、k-means与DBSCAN的区别
k-means聚类算法的初始点选择不稳定，是随机选取的，这就引起聚类结果的不稳定。k-means属于动态聚类，往往聚出来的类有点圆形或者椭圆形。kmeans对于圆形区域聚类效果较好，dbscan基于密度，对于集中区域效果较好。对于不规则形状，kmeans完全无法用，dbscan可以起到很好的效果。

k-means注意问题

1）K如何确定
kmenas算法首先选择K个初始质心，其中K是用户指定的参数，即所期望的簇的个数。这样做的前提是我们已经知道数据集中包含多少个簇，但很多情况下，我们并不知道数据的分布情况，实际上聚类就是我们发现数据分布的一种手段。如何有效的确定K值，这里大致提供几种方法：
①与层次聚类结合[2]
经常会产生较好的聚类结果的一个有趣策略是，首先采用层次凝聚算法决定结果粗的数目，并找到一个初始聚类，然后用迭代重定位来改进该聚类。
②稳定性方法[3]
稳定性方法对一个数据集进行2次重采样产生2个数据子集，再用相同的聚类算法对2个数据子集进行聚类，产生2个具有k个聚类的聚类结果，计算2个聚类结果的相似度的分布情况。2个聚类结果具有高的相似度说明k个聚类反映了稳定的聚类结构，其相似度可以用来估计聚类个数。采用次方法试探多个k，找到合适的k值。
③系统演化方法[3]
系统演化方法将一个数据集视为伪热力学系统，当数据集被划分为K个聚类时称系统处于状态K。系统由初始状态K=1出发，经过分裂过程和合并过程，系统将演化到它的稳定平衡状态Ki，所对应的聚类结构决定了最优类数Ki。系统演化方法能提供关于所有聚类之间的相对边界距离或可分程度，适用于明显分离的聚类结构和轻微重叠的聚类结构。
④使用canopy算法进行初始划分[4]
基于CanopyMethod的聚类算法将聚类过程分为两个阶段
Stage1、聚类最耗费计算的地方是计算对象相似性的时候，CanopyMethod在第一阶段选择简单、计算代价较低的方法计算对象相似性，将相似的对象放在一个子集中，这个子集被叫做Canopy，通过一系列计算得到若干Canopy，Canopy之间可以是重叠的，但不会存在某个对象不属于任何Canopy的情况，可以把这一阶段看做数据预处理；
Stage2、在各个Canopy内使用传统的聚类方法(如K-means)，不属于同一Canopy 的对象之间不进行相似性计算。
从这个方法起码可以看出两点好处：首先，Canopy 不要太大且Canopy 之间重叠的不要太多的话会大大减少后续需要计算相似性的对象的个数；其次，类似于K-means这样的聚类方法是需要人为指出K的值的，通过Stage1得到的Canopy 个数完全可以作为这个K值，一定程度上减少了选择K的盲目性。
其他方法如贝叶斯信息准则方法（BIC）可参看文献[5]。

ml学习课程中的方法：

What is the right value of K?

Note:there actually isn't a great way of answering this or doing this automatically and by far the most common way of choosing the number of clusters, is still choosing it manually by looking at visualizations or by looking at the output of the clustering algorithm or something else.

Choosing the value of K

Note:

1. Elbow: distortion goes down rapidly until K equals 3, really goes down very slowly after that.So let's pick K equals 3.
2. 这种方法不是对所有聚类案例有效：but just as often, you end up with a plot that looks like the one on the right and is not clear where the ready location of the elbow is. It makes it harder to choose a number of clusters using this method.

3. Too many clusters will still overfit the data, as it will find "structure" that is purely ficticious and not truly present in the data.

Note:

1. if that later, downstream purpose,such as market segmentation.then often, a better way to determine the number of clusters, is to see how well different numbers of clusters serve that later downstream purpose.

2. 衣服大小越细分，成本越高；这就取决于市场。
总结：

the better way to think about how to choose the number of clusters is to ask, for what purpose are you running K-means?And then to think, what is the number of clusters K that serves that, you know, whatever later purpose that you actually run the K-means for.

还可以定义一个指标「例如簇平均直径」，通过二分搜索来确定最佳k。

[(stackoverflow)k-means聚类k值的确定： How do I determine k when using k-means clustering?]

[用parametric bootstrap寻找K-means最佳K值]

[Machine Learning - XIII. Clustering聚类 (Week 8)]

2）初始质心的选取
选择适当的初始质心是基本kmeans算法的关键步骤。常见的方法是随机的选取初始质心，但是这样簇的质量常常很差。处理选取初始质心问题的一种常用技术是：多次运行，每次使用一组不同的随机初始质心，然后选取具有最小SSE（误差的平方和）的簇集。这种策略简单，但是效果可能不好，这取决于数据集和寻找的簇的个数。
第二种有效的方法是，取一个样本，并使用层次聚类技术对它聚类。从层次聚类中提取K个簇，并用这些簇的质心作为初始质心。该方法通常很有效，但仅对下列情况有效：（1）样本相对较小，例如数百到数千（层次聚类开销较大）；（2）K相对于样本大小较小
第三种选择初始质心的方法，随机地选择第一个点，或取所有点的质心作为第一个点。然后，对于每个后继初始质心，选择离已经选取过的初始质心最远的点。使用这种方法，确保了选择的初始质心不仅是随机的，而且是散开的。但是，这种方法可能选中离群点。此外，求离当前初始质心集最远的点开销也非常大。为了克服这个问题，通常该方法用于点样本。由于离群点很少（多了就不是离群点了），它们多半不会在随机样本中出现。计算量也大幅减少。
第四种方法就是上面提到的canopy算法。
3）距离的度量
常用的距离度量方法包括：欧几里得距离和余弦相似度。两者都是评定个体间差异的大小的。欧几里得距离度量会受指标不同单位刻度的影响，所以一般需要先进行标准化，同时距离越大，个体间差异越大；空间向量余弦夹角的相似度度量不会受指标刻度的影响，余弦值落于区间[-1,1]，值越大，差异越小。但是针对具体应用，什么情况下使用欧氏距离，什么情况下使用余弦相似度？
从几何意义上来说，n维向量空间的一条线段作为底边和原点组成的三角形，其顶角大小是不确定的。也就是说对于两条空间向量，即使两点距离一定，他们的夹角余弦值也可以随意变化。感性的认识，当两用户评分趋势一致时，但是评分值差距很大，余弦相似度倾向给出更优解。举个极端的例子，两用户只对两件商品评分，向量分别为(3,3)和(5,5)，这两位用户的认知其实是一样的，但是欧式距离给出的解显然没有余弦值合理。
4）质心的计算
对于距离度量不管是采用欧式距离还是采用余弦相似度，簇的质心都是其均值，即向量各维取平均即可。
5）算法停止条件
一般是目标函数达到最优或者达到最大的迭代次数即可终止。对于不同的距离度量，目标函数往往不同。当采用欧式距离时，目标函数一般为最小化对象到其簇质心的距离的平方和。
当采用余弦相似度时，目标函数一般为最大化对象到其簇质心的余弦相似度和。
6）空聚类的处理
如果所有的点在指派步骤都未分配到某个簇，就会得到空簇。如果这种情况发生，则需要某种策略来选择一个替补质心，否则的话，平方误差将会偏大。一种方法是选择一个距离当前任何质心最远的点。这将消除当前对总平方误差影响最大的点。另一种方法是从具有最大SSE的簇中选择一个替补的质心。这将分裂簇并降低聚类的总SSE。如果有多个空簇，则该过程重复多次。另外，编程实现时，要注意空簇可能导致的程序bug。

皮皮blog

分层聚类算法Hierarchical Clustering

层次法（Hierarchicalmethods）先计算样本之间的距离。每次将距离最近的点合并到同一个类。然后，再计算类与类之间的距离，将距离最近的类合并为一个大类。不停的合并，直到合成了一个类。其中类与类的距离的计算方法有：最短距离法，最长距离法，中间距离法，类平均法等。比如最短距离法，将类与类的距离定义为类与类之间样本的最短距离。
层次聚类算法根据层次分解的顺序分为：自下底向上和自上向下，即凝聚的层次聚类算法和分裂的层次聚类算法（agglomerative和divisive），也可以理解为自下而上法（bottom-up）和自上而下法（top-down）。自下而上法就是一开始每个个体（object）都是一个类，然后根据linkage寻找同类，最后形成一个“类”。自上而下法就是反过来，一开始所有个体都属于一个“类”，然后根据linkage排除异己，最后每个个体都成为一个“类”。这两种路方法没有孰优孰劣之分，只是在实际应用的时候要根据数据特点以及你想要的“类”的个数，来考虑是自上而下更快还是自下而上更快。至于根据Linkage判断“类”的方法就是最短距离法、最长距离法、中间距离法、类平均法等等（其中类平均法往往被认为是最常用也最好用的方法，一方面因为其良好的单调性，另一方面因为其空间扩张/浓缩的程度适中）。为弥补分解与合并的不足，层次合并经常要与其它聚类方法相结合，如循环定位。

Hierarchical methods中比较新的算法有

BIRCH（Balanced Iterative Reducingand Clustering Using Hierarchies利用层次方法的平衡迭代规约和聚类）主要是在数据量很大的时候使用，而且数据类型是numerical。首先利用树的结构对对象集进行划分，然后再利用其它聚类方法对这些聚类进行优化；

ROCK（A Hierarchical ClusteringAlgorithm for Categorical Attributes）主要用在categorical的数据类型上；

Chameleon（A Hierarchical ClusteringAlgorithm Using Dynamic Modeling）里用到的linkage是kNN（k-nearest-neighbor）算法，并以此构建一个graph，Chameleon的聚类效果被认为非常强大，比BIRCH好用，但运算复杂度很高，O(n^2)。

AGNES

DIANA

BIRCH: integrated hierarchical clustering

聚类算法之BIRCH

CURE: Clustering Using Representatives

层次聚类的流程

凝聚型层次聚类的策略是先将每个对象作为一个簇，然后合并这些原子簇为越来越大的簇，直到所有对象都在一个簇中，或者某个终结条件被满足。绝大多数层次聚类属于凝聚型层次聚类，它们只是在簇间相似度的定义上有所不同。这里给出采用最小距离的凝聚层次聚类算法流程：
(1) 将每个对象看作一类，计算两两之间的最小距离；
(2) 将距离最小的两个类合并成一个新类；
(3) 重新计算新类与所有类之间的距离；
(4) 重复(2)、(3)，直到所有类最后合并成一类。

聚类的效果如下图，黑色是噪音点：

另外我们可以看出凝聚的层次聚类并没有类似基本K均值的全局目标函数，没有局部极小问题或是很难选择初始点的问题。合并的操作往往是最终的，一旦合并两个簇之后就不会撤销。当然其计算存储的代价是昂贵的。

层次聚类的优缺点

优点：1，距离和规则的相似度容易定义，限制少；2，不需要预先制定聚类数；3，可以发现类的层次关系；4，可以聚类成其它形状
缺点：1，计算复杂度太高；2，奇异值也能产生很大影响；3，算法很可能聚类成链状

层次聚类的使用

r语言中使用hclust(d,method = "complete", members=NULL) ：进行层次聚类。d为距离矩阵；method表示类的合并方法，single最短距离法，complete最长距离法，median中间距离法，mcquitty 相似法，average 类平均法，centroid重心法，ward离差平方和法；members为NULL或d长度的矢量。

皮皮blog

基于密度的聚类算法Density-Based Clustering Methods

DBSCAN等

基于密度的方法（Density-based methods）：k-means解决不了不规则形状的聚类。于是就有了Density-based methods来系统解决这个问题。该方法同时也对噪声数据的处理比较好。基于密度聚类的思想：思路就是定一个距离半径，最少有多少个点，然后把可以到达的点都连起来，判定为同类。其原理简单说画圈儿，其中要定义两个参数，一个是圈儿的最大半径，一个是一个圈儿里最少应容纳几个点。最后在一个圈里的，就是一个类。DBSCAN（Density-Based Spatial Clustering ofApplications with Noise）就是其中的典型，可惜参数设置也是个问题，对这两个参数的设置非常敏感。DBSCAN的扩展叫OPTICS（OrderingPoints To Identify Clustering Structure）通过优先对高密度（high density）进行搜索，然后根据高密度的特点设置参数，改善了DBSCAN的不足。

DBSCAN的概念

dbscan基于密度，对于集中区域效果较好，为了发现任意形状的簇，这类方法将簇看做是数据空间中被低密度区域分割开的稠密对象区域；一种基于高密度连通区域的基于密度的聚类方法，该算法将具有足够高密度的区域划分为簇，并在具有噪声的空间数据中发现任意形状的簇。
DBSCAN中的几个定义：
Ε邻域：给定对象半径为Ε内的区域称为该对象的Ε邻域；
核心对象：如果给定对象Ε领域内的样本点数大于等于MinPts，则称该对象为核心对象；
直接密度可达：对于样本集合D，如果样本点q在p的Ε领域内，并且p为核心对象，那么对象q从对象p直接密度可达。
密度可达：对于样本集合D，给定一串样本点p1,p2….pn，p= p1,q= pn,假如对象pi从pi-1直接密度可达，那么对象q从对象p密度可达。注意：密度可达是单向的，密度可达即可容纳同一类。
密度相连：存在样本集合D中的一点o，如果对象o到对象p和对象q都是密度可达的，那么p和q密度相联。

密度可达是直接密度可达的传递闭包，并且这种关系是非对称的。密度相连是对称关系。DBSCAN目的是找到密度相连对象的最大集合。
有了以上的概念接下来就是算法描述了：DBSCAN通过检查数据库中每点的r邻域来搜索簇。如果点p的r邻域包含的点多于MinPts个，则创建一个以p为核心对象的新簇。然后，DBSCAN迭代的聚集从这些核心对象直接密度可达的对象，这个过程可能涉及一些密度可达簇的合并。当没有新的点可以添加到任何簇时，该过程结束。

例如：Eg: 假设半径Ε=3，MinPts=3，点p的E领域中有点{m,p,p1,p2,o}, 点m的E领域中有点{m,q,p,m1,m2},点q的E领域中有点{q,m},点o的E领域中有点{o,p,s},点s的E领域中有点{o,s,s1}.
那么核心对象有p,m,o,s(q不是核心对象，因为它对应的E领域中点数量等于2，小于MinPts=3)；
点m从点p直接密度可达，因为m在p的E领域内，并且p为核心对象；
点q从点p密度可达，因为点q从点m直接密度可达，并且点m从点p直接密度可达；
点q到点s密度相连，因为点q从点p密度可达，并且s从点p密度可达。

簇的生成原理及过程

1）DBSCAN聚类算法原理的基本要点：确定半径eps的值
①DBSCAN算法需要选择一种距离度量，对于待聚类的数据集中，任意两个点之间的距离，反映了点之间的密度，说明了点与点是否能够聚到同一类中。由于DBSCAN算法对高维数据定义密度很困难，所以对于二维空间中的点，可以使用欧几里德距离来进行度量。
②DBSCAN算法需要用户输入2个参数：一个参数是半径（Eps），表示以给定点P为中心的圆形邻域的范围；另一个参数是以点P为中心的邻域内最少点的数量（MinPts）。如果满足：以点P为中心、半径为Eps的邻域内的点的个数不少于MinPts，则称点P为核心点。
③DBSCAN聚类使用到一个k-距离的概念，k-距离是指：给定数据集P={p(i);i=0,1,…n}，对于任意点P(i)，计算点P(i)到集合D的子集S={p(1), p(2), …, p(i-1), p(i+1), …, p(n)}中所有点之间的距离，距离按照从小到大的顺序排序，假设排序后的距离集合为D={d(1), d(2), …, d(k-1), d(k), d(k+1),…,d(n)}，则d(k)就被称为k-距离。也就是说，k-距离是点p(i)到所有点（除了p(i)点）之间距离第k近的距离。对待聚类集合中每个点p(i)都计算k-距离，最后得到所有点的k-距离集合E={e(1), e(2), …, e(n)}。
④根据经验计算半径Eps：根据得到的所有点的k-距离集合E，对集合E进行升序排序后得到k-距离集合E’，需要拟合一条排序后的E’集合中k-距离的变化曲线图，然后绘出曲线，通过观察，将急剧发生变化的位置所对应的k-距离的值，确定为半径Eps的值。
⑤根据经验计算最少点的数量MinPts：确定MinPts的大小，实际上也是确定k-距离中k的值，DBSCAN算法取k=4，则MinPts=4。
⑥另外，如果觉得经验值聚类的结果不满意，可以适当调整Eps和MinPts的值，经过多次迭代计算对比，选择最合适的参数值。可以看出，如果MinPts不变，Eps取得值过大，会导致大多数点都聚到同一个簇中，Eps过小，会导致一个簇的分裂；如果Eps不变，MinPts的值取得过大，会导致同一个簇中点被标记为噪声点，MinPts过小，会导致发现大量的核心点。
我们需要知道的是，DBSCAN算法，需要输入2个参数，这两个参数的计算都来自经验知识。半径Eps的计算依赖于计算k-距离，DBSCAN取k=4，也就是设置MinPts=4，然后需要根据k-距离曲线，根据经验观察找到合适的半径Eps的值。

2）连通核心点生成簇
核心点能够连通（有些书籍中称为：“密度可达”），它们构成的以Eps长度为半径的圆形邻域相互连接或重叠，这些连通的核心点及其所处的邻域内的全部点构成一个簇。假设MinPts=4，则连通的核心点示例，如下图所示：

计算连通的核心点的思路是，基于广度遍历与深度遍历集合的方式：从核心点集合S中取出一个点p，计算点p与S集合中每个点（除了p点）是否连通，可能会得到一个连通核心点的集合C1，然后从集合S中删除点p和C1集合中的点，得到核心点集合S1；再从S1中取出一个点p1，计算p1与核心点集合S1集中每个点（除了p1点）是否连通，可能得到一个连通核心点集合C2，再从集合S1中删除点p1和C2集合中所有点，得到核心点集合S2，……最后得到p、p1、p2、……，以及C1、C2、……就构成一个簇的核心点。最终将核心点集合S中的点都遍历完成，得到所有的簇。

参数eps的设置，如果eps设置过大，则所有的点都会归为一个簇，如果设置过小，那么簇的数目会过多。如果MinPts设置过大的话，很多点将被视为噪声点。

根据数据点的密度分为三类点：

(1)核心点：该点在邻域内的密度超过给定的阀值MinPs。
(2)边界点：该点不是核心点，但是其邻域内包含至少一个核心点。
(3)噪音点：不是核心点，也不是边界点。
有了以上对数据点的划分，聚合可以这样进行：各个核心点与其邻域内的所有核心点放在同一个簇中，把边界点跟其邻域内的某个核心点放在同一个簇中。

聚类的效果如下图，黑色是噪音点：初识聚类算法:

因为DBSCAN使用簇的基于密度的定义，因此它是相对抗噪音的，并且能处理任意形状和大小的簇。但是如果簇的密度变化很大，例如ABCD四个簇，AB的密度大大大于CD，而且AB附近噪音的密度与簇CD的密度相当，这是当MinPs较大时，无法识别簇CD，簇CD和AB附近的噪音都被认为是噪音；当MinPs较小时，能识别簇CD，但AB跟其周围的噪音被识别为一个簇。这个问题可以基于共享最近邻(SNN)的聚类结局。

DBSCAN的优缺点

优点：
1. 与K-means方法相比，DBSCAN不需要事先知道要形成的簇类的数量。
2. 与K-means方法相比，DBSCAN可以发现任意形状的簇类。
3. 同时，DBSCAN能够识别出噪声点。
4.DBSCAN对于数据库中样本的顺序不敏感，即Pattern的输入顺序对结果的影响不大。但是，对于处于簇类之间边界样本，可能会根据哪个簇类优先被探测到而其归属有所摆动。
缺点：
1. DBScan不能很好反映高尺寸数据。
2. DBScan不能很好反映数据集变化的密度。
3.对于高维数据，点之间极为稀疏，密度就很难定义了。

皮皮blog

基于网格的聚类算法Grid-Based Clustering Method

STING: A Statistical Information Grid Approach

from: http://blog.csdn.net/pipisorry/article/details/23567065

ref:聚类算法综述

聚类算法总结

基于改进ISODATA算法的负荷场景曲线聚类（matlab代码）电力程序小学童聚类 matlab ISODATA算法风电光伏
目录1主要内容聚类中心选取步骤核方法2部分代码3程序结果4程序链接1主要内容程序复现文献《基于机器学习的短期电力负荷预测和负荷曲线聚类研究》第三章《基于改进ISODATA算法的负荷场景曲线聚类》模型，该方法不止适用于负荷聚类，同样适用于风光等可再生能源聚类，只需要改变聚类的数据即可，该方法的通用性和可创新性强。该代码实现一种基于改进ISODATA算法的负荷场景曲线聚类方法，代码中，主要做了四种聚类
《基于机器学习的负荷曲线聚类算法对比与改进：K-L-isodata的创新性研究》 TWHiwhjig 机器学习算法聚类
基于机器学习的负荷曲线聚类包括kmeansisodata和改进的L-isodata以及在其基础上再次进行改进的K-L-isodata(有创新性)，四者通过评价指标进行了对比精品代码可修改性极高有参考文献ID:93150688324967700自律的电气人基于机器学习的负荷曲线聚类是一种基于数据分析和模式识别的技术，它可以帮助我们对系统的负荷变化进行分类和理解。在负荷曲线聚类的研究中，K-means
PostgreSQL vs MySQL——哪种关系数据库更好? 全能资料库 postgresql mysql 数据库
PostgreSQL和MySQL是世界上最流行的两种关系数据库管理系统(RDMS)。包括商业企业和开源基金会在内的所有市场人口都在使用它们。它们的共同点是强大的网络容错能力和对数据聚类的支持。这篇文章的主题是将它们区分开来。RDMS起源和历史1973年,加州大学伯克利分校启动了一个名为“Ingres”的项目,为关系数据库管理系统制定新标准。该项目是用C编写的,并根据开源许可证向公众发布。根据[Wi
数据挖掘导论——第七章：聚类 Wis4e 数据挖掘聚类人工智能
什么是聚类？数据间的相似性和距离的测量方式有哪些？数据标准化如何进行距离计算？层次聚类的思想和流程？K-均值聚类的思想和流程？距离的计算方式如何影响聚类结果？聚类的要素，包括数据，差异性/相似性测量方式，聚类算法（标准化执行程序或流程）理解相似性和差异性的度量（p40）。Jaccard和余弦相似性度量。以下内容由AI生成：余弦相似度（CosineSimilarity）是一种衡量两个向量在方向上相似
【sklearn 05】sklearn功能模块 @金色海岸 sklearn 人工智能 python
sklearn功能模块分类：识别某个对象属于那个类别回归：预测与对象相关联的连续值属性聚类：将相似对象自动分组降维：减少要考虑的随机变量的数量模型选择：比较、验证、选择参数和模型预处理：特征提取和归一化
【sklearn 02】监督学习、非监督下学习、强化学习 @金色海岸 sklearn 学习人工智能
监督学习、非监督学习、强化学习**机器学习通常分为无监督学习、监督学习和强化学习三类。-第一类：无监督学习（unsupervisedlearning），指的是从信息出发自动寻找规律，分析数据的结构，常见的无监督学习任务有聚类、降维、密度估计、关联分析等。-第二类：监督学习（supervisedlearning），监督学习指的是使用带标签的数据去训练模型，并预测未知数据的标签。监督学习有两种，当预测
新手村：数据预处理-异常值检测方法嘉羽很烦机器学习机器学习
机器学习中异常值检测方法一、前置条件知识领域要求编程基础Python基础（变量、循环、函数）、JupyterNotebook或PyCharm使用。统计学基础理解均值、中位数、标准差、四分位数、正态分布、Z-score等概念。机器学习基础熟悉监督/无监督学习、分类、聚类、回归等基本概念。数据预处理数据清洗、特征缩放（标准化/归一化）、数据可视化（Matplotlib/Seaborn）。二、渐进式学习
Python精进系列： K-Means 聚类算法调用库函数和手动实现对比分析进一步有进一步的欢喜 Python 精进系列算法 python kmeans
一、引言在机器学习领域，聚类分析是一种重要的无监督学习方法，用于将数据集中的样本划分为不同的组或簇，使得同一簇内的样本具有较高的相似性，而不同簇之间的样本具有较大的差异性。K-Means聚类算法是最常用的聚类算法之一，它以其简单性和高效性在数据挖掘、图像分割、模式识别等领域得到了广泛应用。本文将详细介绍K-Means聚类算法，并分别给出调用现成函数和不调用任何现成函数实现K-Means聚类的代码示
【Python机器学习】2.2. 聚类分析算法理论：K均值聚类(KMeans Analysis)、KNN(K近邻分类)、均值漂移聚类(MeanShift) SomeB1oody Python机器学习机器学习算法 python 聚类分类算法
喜欢的话别忘了点赞、收藏加关注哦（关注即可查看全文），对接下来的教程有兴趣的可以关注专栏。谢谢喵！(=･ω･=)2.2.1.K均值聚类(KMeansAnalysis)K均值算法是以空间中K个点为中心进行聚类，对最靠近他们的对象归类，是聚类算法中最为基础但也最为重要的算法。数学原理计算数据点与各簇中心点的距离：dist(xi,ujt){dist}(x_i,u_j^t)dist(xi,ujt)然后根据
python手写kmeans算法菜鸟懿机器学习聚类算法 python
kmean聚类是最基础和常见的算法，工程上使用比较常见，spark,sklearn都有实现，本文手写实现kmeans#!/usr/bin/pythonimportsysimportrandomimportmathdefcreate_rand_points(max_x,max_y,count):"""Createcountpoints(0-x),(0-y)."""points=[]foriinran
数据挖掘技术介绍柒柒钏数据挖掘数据挖掘人工智能
数据挖掘技术介绍分类聚类关联规则挖掘预测异常检测特征选择与降维文本挖掘序列模式挖掘深度学习集成学习数据挖掘（DataMining）是一种从大量数据中提取有用信息和模式的技术，旨在从数据中发现隐藏的规律、趋势或关系，从而为决策提供支持。分类定义：是一种监督学习方法，用于将数据分为不同的类别。功能：根据已标记的训练数据，学习一个模型，用于预测新数据的类别。方法：决策树、支持向量机、神经网络、逻辑回归、
手写机器学习算法系列——K-Means聚类算法(一) 木有鱼丸223 手写机器学习算法系列机器学习算法聚类
代码仓库(数字空间项目，GN可上)不想看的话，我也将代码上传到本博客中。1.聚类算法简介在数据科学和机器学习领域，聚类(Clustering)算法是一种无监督学习方法，它将相似的对象分到同一个组，而不同的对象则被分到不同的组。这种算法的主要目标是根据数据的特征进行分组，以此找出数据的内在结构。聚类算法的一个核心特点就是它并不需要预先知道数据的类别，而是通过算法自动进行分组。在实际应用中，我们常见的
文本挖掘+情感分析+主题建模+K-Meas聚类+词频统计+词云（景区游客评论情感分析）请为小H留灯聚类机器学习支持向量机人工智能深度学习
本文通过情感分析技术对景区游客评论进行深入挖掘，结合数据预处理、情感分类和文本挖掘，分析游客评价与情感倾向。利用朴素贝叶斯和SVM等模型进行情感预测，探讨满意度与情感的关系。通过KMeans聚类和LDA主题分析，提取游客关心的话题，提供优化建议，为未来研究提供方向。1.引言1.1背景与目的1.2旅游业发展与游客评论的重要性2.数据处理与分析2.1数据加载与预处理2.2游客评分与点赞量分析3.评论内
自然语言处理：文本聚类老赵爱学习 python 文本聚类 k均值聚类算法高斯混合模型的最大期望值算法无监督朴素贝叶斯模型自然语言处理人工智能
介绍大家好，博主又来和大家分享自然语言处理领域的知识了。今天给大家分享的内容是自然语言处理中的文本聚类。文本聚类在自然语言处理领域占据着重要地位，它能将大量无序的文本按照内容的相似性自动划分成不同的类别，极大地提高了文本处理和信息提取的效率。就好比在一个大型图书馆中，文本聚类能够像智能管理员一样，把各种书籍按照主题分类摆放，方便读者快速找到所需资料。而实现文本聚类的方法有很多，其中k均值聚类算法、
从零开始：基于LLM大模型构建智能应用程序的完整指南 AI天才研究院 ChatGPT 人工智能
目录从零开始：基于LLM大模型构建智能应用程序的完整指南什么是LLM大模型如何利用LLM大模型构建智能应用程序1.收集和准备数据2.构建LLM大模型3.集成和部署4.监测和维护使用特定于私有领域的数据增强LLM检索增强生成(RAG)数据预处理、分块和检索技术零射击与少量射击提示和指导LLM大模型使用LLM进行推荐和聚类任务改善组织内的搜索体验考虑以上所有解锁的利基应用程序参考最近，围绕大型语言模型
C++ 实现 ROS 2 点云欧几里得聚类 c++
C++实现ROS2点云欧几里得聚类在LivoxMid-360采集的sensor_msgs::msg::PointCloud2点云数据上进行欧几里得聚类（EuclideanClusterExtraction），具体流程如下：✅1.订阅PointCloud2并转换为pcl::PointCloud解释：sensor_msgs::msg::PointCloud2是ROS2点云消息格式，PCL不能直接处理。
sparkML入门，通俗解释机器学习的框架和算法 Tometor spark-ml 机器学习算法回归数据挖掘人工智能 scala
一、机器学习的整体框架（类比烹饪）假设你要做一道菜，机器学习的过程可以类比为：步骤-->烹饪类比-->机器学习对应1.确定目标|想做什么菜（红烧肉/沙拉）|明确任务(分类/回归/聚类)2.准备食材|买菜、洗菜、切菜|数据收集与预处理3.设计食谱|决定烹饪步骤和调料|选择算法和模型设计4.试做并尝味道|调整火候和调味|模型训练与调参5.最终成品|端上桌的菜|模型部署与应用二、机器学习的核心流程1.数
KMeans实战——聚类和轮廓系数评估啤酒数据集巷955 机器学习人工智能
原理：在数据分析和机器学习中，聚类是一种常用的无监督学习方法，用于将数据集中的样本划分为若干个簇，使得同一簇内的样本相似度较高，而不同簇之间的样本相似度较低。KMeans算法是其中最常用的聚类算法之一。本文将介绍如何使用KMeans算法对啤酒数据集进行聚类，并使用轮廓系数（SilhouetteScore）来评估聚类结果的质量。1.数据准备首先，我们需要导入必要的库并加载数据集。本文使用的数据集是一
【AI论文】SEAP: 无训练稀疏专家激活修剪，解锁大型语言模型的潜力东临碣石82 人工智能语言模型深度学习
摘要：大型语言模型在各种自然语言处理任务中取得了显著成功，然而其在推理过程中的高计算成本仍然是一个主要瓶颈。本文介绍了稀疏专家激活修剪（SEAP）方法，这是一种无需训练的修剪方法，通过选择性地保留与任务相关的参数来降低推理开销。受大型语言模型中隐藏状态和激活值的聚类模式启发，SEAP识别出特定于任务的专家激活模式，并在保持任务性能和提高计算效率的同时对模型进行修剪。实验结果表明，SEAP在保持竞争
数据挖掘导论Pangaea-Ning Tan 读书笔记——（第一，二，三章）小黄人的黄数据挖掘数据挖掘
《数据挖掘导论》Pang-NingTan，MichaelSteinbach，VipinKumar读书笔记，第一章绪论数据挖掘任务预测任务描述任务分类任务回归任务聚类分析关联分析异常检测章节导读数据挖掘数据处理第2章第3章分类第4章决策树过拟合性能评估等第5章
人工智能机器学习算法分类全解析 power-辰南人工智能人工智能机器学习算法 python
目录一、引言二、机器学习算法分类概述（一）基于学习方式的分类1.监督学习（SupervisedLearning）2.无监督学习（UnsupervisedLearning）3.强化学习（ReinforcementLearning）（二）基于任务类型的分类1.分类算法2.回归算法3.聚类算法4.降维算法5.生成算法（三）基于模型结构的分类1.线性模型2.非线性模型3.基于树的模型4.基于神经网络的模型
机器学习中的谱方法（Spectral Methods）与核方法（Kernel Methods） Cachel wood python机器学习和数据挖掘机器学习人工智能 django sklearn python 开发语言
文章目录机器学习中的谱方法（SpectralMethods）与核方法（KernelMethods）1.谱方法（SpectralMethods）核心思想关键技术示例：谱聚类2.核方法（KernelMethods）核心思想关键技术示例：核SVM3.谱方法与核方法的对比4.核心联系5.如何选择？6.总结机器学习中的谱方法（SpectralMethods）与核方法（KernelMethods）谱方法和核方
【时间序列聚类】从数据中发现隐藏的模式 T-I-M 机器学习人工智能时间序列
在大数据时代，时间序列数据无处不在。无论是股票市场的价格波动、天气的变化趋势，还是用户的点击行为，这些数据都随着时间推移而产生。然而，面对海量的时间序列数据，我们如何从中提取有价值的信息？答案之一就是时间序列聚类。本文将以通俗易懂的方式，带你了解时间序列聚类的基本概念、应用场景以及实现思路，并希望能为你提供一些启发。什么是时间序列聚类？简单来说，时间序列聚类是一种将相似的时间序列归为一类的技术。它
机器学习之KMeans算法 Mr终游机器学习机器学习算法 kmeans
目录一、KMeans的核心思想二、KMeans算法流程三、KMeans的关键点1.优点：2.缺点：四、如何确定最佳k值1.肘部法则2.轮廓系数五、Kmeans的典型应用场景六、代码示例KMeans是一种广泛使用的无监督学习算法，主要用于聚类分析（Clustering）。它的目标是将数据集划分为K个互不重叠的子集（簇，Cluster），使得同一簇内的数据点尽可能相似，不同簇之间的数据点尽可能差异显著
聚类分析|k-means聚类方法及其Python实现皖山文武数据挖掘商务智能 kmeans 聚类 python 数据挖掘机器学习
k-means聚类方法及其Python实现0.k-means算法简介1.k-means算法工作原理2.k-means算法流程3.k–means算法的Python实现0.k-means算法简介k-means算法由MacQueen在1967年提出。是一种经典的基于划分的聚类方法。划分方法（PartitioningMethod）是基于距离判断样本相似度，通过不断迭代将含有多个样本的数据集划分成若干个簇，
k-Shape：高效准确的聚类方法优化算法侠Swarm-Opti 信号处理故障诊断聚类机器学习人工智能 matlab 数据挖掘
引言时间数据在许多学科中的扩散和无处不在，已经对时间序列的分析和挖掘产生了极大的兴趣。聚类是最流行的数据挖掘方法之一，不仅因为它的探索性，而且作为其他技术的预处理步骤或子程序。常用的有-means聚类算法。本文介绍了一种新的时间序列聚类算法k-Shape。k-Shape依赖于一个可扩展的迭代优化过程，它创建同质和良好分离的集群。作为距离度量，k-Shape使用标准化的交叉相关。基于距离度量的性质，
无监督AI训练:机遇与挑战并存 AI天才研究院计算 ChatGPT DeepSeek R1 &大数据AI人工智能大模型 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
无监督AI训练：机遇与挑战并存关键词：无监督学习、AI训练、机器学习、聚类算法、降维技术、深度学习摘要：本文深入探讨无监督AI训练这一新兴领域，首先介绍了其基本概念与原理，然后详细解析了无监督AI训练的核心技术，如聚类算法和降维技术，以及无监督深度学习。接着，本文通过实际项目案例分析，展示了无监督AI训练的应用实践。最后，本文分析了无监督AI训练面临的挑战，并展望了其未来发展趋势。通过本文的阅读，
Triplet Loss原理及 Python实现 AIGC_ZY Diffusion Models python 深度学习机器学习
Tripletloss最初是谷歌在FaceNet:AUnifiedEmbeddingforFaceRecognitionandClustering论文中提出的，可以学到较好的人脸的embeddingTripletLoss是一种用于训练特征嵌入（featureembedding）的损失函数，广泛应用于人脸识别、图像检索等需要度量相似性的任务。其核心思想是通过学习将同类样本的嵌入距离拉近，不同类样本的
机器学习与深度学习里生成模型和判别模型的理解程序员羊羊机器学习深度学习人工智能 php 学习 chatgpt 前端
两个模型是啥我们从几句话进入这两个概念：1、机器学习分为有监督的机器学习和无监督的机器学习；2、有监督的机器学习就是已知训练集数据的类别情况来训练分类器，无监督的机器学习就是不知道训练集的类别情况来训练分类器；3、所以说，有监督的机器学习可以抽象为一个分类task，而无监督的基本完成的是聚类；4、有监督的机器学习中，我们可以概述为通过很多有标记的数据，训练出一个模型，然后利用这个，对输入的X进行预
蚂蚁集团可转正实习算法岗内推-自然语言飞300 业界资讯自然语言处理
具备极佳的工程实现能力，精通C/C++、Java、Pvthon、Perl等至少一门语言:对目前主流的深度学习平台:tensorflow、pytorch、mxnet等，至少对其中一个有上手经验;熟悉深度学习以及常见机器学习算法的原理与算法，能熟练运用聚类、分类、回归、排序等模型解决有挑战性的问题，有大数据处理的实战经验;有强烈求知欲，对人工智能领域相关技术有热情，内推链接：https://u.ali
java责任链模式 3213213333332132 java 责任链模式村民告县长
责任链模式，通常就是一个请求从最低级开始往上层层的请求，当在某一层满足条件时，请求将被处理，当请求到最高层仍未满足时，则请求不会被处理。就是一个请求在这个链条的责任范围内，会被相应的处理，如果超出链条的责任范围外，请求不会被相应的处理。下面代码模拟这样的效果：创建一个政府抽象类,方便所有的具体政府部门继承它。 package 责任链模式; /** *
linux、mysql、nginx、tomcat 性能参数优化 ronin47
一、linux 系统内核参数 /etc/sysctl.conf文件常用参数 net.core.netdev_max_backlog = 32768 #允许送到队列的数据包的最大数目 net.core.rmem_max = 8388608 #SOCKET读缓存区大小 net.core.wmem_max = 8388608 #SOCKET写缓存区大
php命令行界面 dcj3sjt126com PHP cli
常用选项 php -v php -i PHP安装的有关信息 php -h 访问帮助文件 php -m 列出编译到当前PHP安装的所有模块执行一段代码 php -r 'echo "hello, world!";' php -r 'echo "Hello, World!\n";' php -r '$ts = filemtime("
Filter&Session 171815164 session
Filter HttpServletRequest requ = (HttpServletRequest) req; HttpSession session = requ.getSession(); if (session.getAttribute("admin") == null) { PrintWriter out = res.ge
连接池与Spring,Hibernate结合 g21121 Hibernate
前几篇关于Java连接池的介绍都是基于Java应用的，而我们常用的场景是与Spring和ORM框架结合，下面就利用实例学习一下这方面的配置。 1.下载相关内容： &nb
[简单]mybatis判断数字类型 53873039oycg mybatis
昨天同事反馈mybatis保存不了int类型的属性,一直报错，错误信息如下: Caused by: java.lang.NumberFormatException: For input string: "null" at sun.mis
项目启动时或者启动后ava.lang.OutOfMemoryError: PermGen space 程序员是怎么炼成的 eclipse jvm tomcat catalina.sh eclipse.ini
在启动比较大的项目时，因为存在大量的jsp页面，所以在编译的时候会生成很多的.class文件，.class文件是都会被加载到jvm的方法区中，如果要加载的class文件很多，就会出现方法区溢出异常 java.lang.OutOfMemoryError: PermGen space. 解决办法是点击eclipse里的tomcat，在
我的crm小结 aijuans crm
各种原因吧，crm今天才完了。主要是接触了几个新技术： Struts2、poi、ibatis这几个都是以前的项目中用过的。 Jsf、tapestry是这次新接触的，都是界面层的框架，用起来也不难。思路和struts不太一样，传说比较简单方便。不过个人感觉还是struts用着顺手啊，当然springmvc也很顺手，不知道是因为习惯还是什么。jsf和tapestry应用的时候需要知道他们的标签、主
spring里配置使用hibernate的二级缓存几步 antonyup_2006 java spring Hibernate xml cache
．在spring的配置文件中 applicationContent.xml，hibernate部分加入 xml 代码 <prop key="hibernate.cache.provider_class">org.hibernate.cache.EhCacheProvider</prop> <prop key="hi
JAVA基础面试题百合不是茶抽象实现接口 String类接口继承抽象类继承实体类自定义异常
/* * 栈（stack）：主要保存基本类型（或者叫内置类型）（char、byte、short、 *int、long、 float、double、boolean）和对象的引用，数据可以共享，速度仅次于 * 寄存器（register），快于堆。堆（heap）：用于存储对象。 */ &
让sqlmap文件 "继承" 起来 bijian1013 java ibatis sqlmap
多个项目中使用ibatis , 和数据库表对应的 sqlmap文件（增删改查等基本语句)，dao, pojo 都是由工具自动生成的, 现在将这些自动生成的文件放在一个单独的工程中，其它项目工程中通过jar包来引用，并通过"继承"为基础的sqlmap文件，dao,pojo 添加新的方法来满足项
精通Oracle10编程SQL(13)开发触发器 bijian1013 oracle 数据库 plsql
/* *开发触发器 */ --得到日期是周几 select to_char(sysdate+4,'DY','nls_date_language=AMERICAN') from dual; select to_char(sysdate,'DY','nls_date_language=AMERICAN') from dual; --建立BEFORE语句触发器 CREATE O
【EhCache三】EhCache查询 bit1129 ehcache
本文介绍EhCache查询缓存中数据，EhCache提供了类似Hibernate的查询API，可以按照给定的条件进行查询。要对EhCache进行查询，需要在ehcache.xml中设定要查询的属性数据准备 @Before public void setUp() { //加载EhCache配置文件 Inpu
CXF框架入门实例白糖_ spring Web 框架 webservice servlet
CXF是apache旗下的开源框架，由Celtix + XFire这两门经典的框架合成，是一套非常流行的web service框架。它提供了JAX-WS的全面支持，并且可以根据实际项目的需要，采用代码优先（Code First）或者 WSDL 优先（WSDL First）来轻松地实现 Web Services 的发布和使用，同时它能与spring进行完美结合。在apache cxf官网提供
angular.equals boyitech AngularJS AngularJS API AnguarJS 中文API angular.equals
angular.equals 描述: 比较两个值或者两个对象是不是相等。还支持值的类型，正则表达式和数组的比较。两个值或对象被认为是相等的前提条件是以下的情况至少能满足一项：两个值或者对象能通过=== （恒等）的比较两个值或者对象是同样类型，并且他们的属性都能通过angular
java-腾讯暑期实习生-输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A[0]*A[1]*...*A[i-1]*A[i+1] bylijinnan java
这道题的具体思路请参看何海涛的微博：http://weibo.com/zhedahht import java.math.BigInteger; import java.util.Arrays; public class CreateBFromATencent { /** * 题目：输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A
FastDFS 的安装和配置修订版 Chen.H linux fastDFS 分布式文件系统
FastDFS Home:http://code.google.com/p/fastdfs/ 1. 安装 http://code.google.com/p/fastdfs/wiki/Setup http://hi.baidu.com/leolance/blog/item/3c273327978ae55f93580703.html 安装libevent (对libevent的版本要求为1.4.
[强人工智能]拓扑扫描与自适应构造器 comsci 人工智能
当我们面对一个有限拓扑网络的时候,在对已知的拓扑结构进行分析之后,发现在连通点之后,还存在若干个子网络,且这些网络的结构是未知的,数据库中并未存在这些网络的拓扑结构数据....这个时候,我们该怎么办呢? 那么,现在我们必须设计新的模块和代码包来处理上面的问题
oracle merge into的用法 daizj oracle sql merget into
Oracle中merge into的使用 http://blog.csdn.net/yuzhic/article/details/1896878 http://blog.csdn.net/macle2010/article/details/5980965 该命令使用一条语句从一个或者多个数据源中完成对表的更新和插入数据. ORACLE 9i 中，使用此命令必须同时指定UPDATE 和INSE
不适合使用Hadoop的场景 datamachine hadoop
转自：http://dev.yesky.com/296/35381296.shtml。　　Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。当人们提到“大数据”或是“数据分析”等相关问题的时候，会听到脱口而出的回答：Hadoop! 实际上Hadoop被设计和建造出来，是用来解决一系列特定问题的。对某些问题来说，Hadoop至多算是一个不好的选择，对另一些问题来说，选择Ha
YII findAll的用法 dcj3sjt126com yii
看文档比较糊涂，其实挺简单的： $predictions=Prediction::model()->findAll("uid=:uid",array(":uid"=>10)); 第一个参数是选择条件：”uid=10″。其中:uid是一个占位符，在后面的array(“:uid”=>10)对齐进行了赋值；更完善的查询需要
vim 常用 NERDTree 快捷键 dcj3sjt126com vim
下面给大家整理了一些vim NERDTree的常用快捷键了，这里几乎包括了所有的快捷键了，希望文章对各位会带来帮助。切换工作台和目录 ctrl + w + h 光标 focus 左侧树形目录ctrl + w + l 光标 focus 右侧文件显示窗口ctrl + w + w 光标自动在左右侧窗口切换ctrl + w + r 移动当前窗口的布局位置 o 在已有窗口中打开文件、目录或书签，并跳
Java把目录下的文件打印出来蕃薯耀列出目录下的文件文件夹下面的文件目录下的文件
Java把目录下的文件打印出来 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 11:02:
linux远程桌面----VNCServer与rdesktop hanqunfeng Desktop
windows远程桌面到linux，需要在linux上安装vncserver，并开启vnc服务，同时需要在windows下使用vnc-viewer访问Linux。vncserver同时支持linux远程桌面到linux。 linux远程桌面到windows，需要在linux上安装rdesktop，同时开启windows的远程桌面访问。下面分别介绍，以windo
guava中的join和split功能 jackyrong java
guava库中，包含了很好的join和split的功能，例子如下： 1）将LIST转换为使用字符串连接的字符串 List<String> names = Lists.newArrayList("John", "Jane", "Adam", "Tom");
Web开发技术十年发展历程 lampcy android Web 浏览器 html5
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
架构师之mima-----------------mina的非NIO控制IOBuffer(说得比较好) nannan408 buffer
1.前言。如题。 2.代码。 IoService IoService是一个接口，有两种实现：IoAcceptor和IoConnector；其中IoAcceptor是针对Server端的实现，IoConnector是针对Client端的实现；IoService的职责包括： 1、监听器管理 2、IoHandler 3、IoSession
ORA-00054:resource busy and acquire with NOWAIT specified Everyday都不同 oracle session Lock
[Oracle] 今天对一个数据量很大的表进行操作时，出现如题所示的异常。此时表明数据库的事务处于“忙”的状态，而且被lock了，所以必须先关闭占用的session。 step1，查看被lock的session： select t2.username, t2.sid, t2.serial#, t2.logon_time from v$locked_obj
javascript学习笔记 tntxia JavaScript
javascript里面有6种基本类型的值:number、string、boolean、object、function和undefined。number：就是数字值，包括整数、小数、NaN、正负无穷。string:字符串类型、单双引号引起来的内容。boolean:true、false object:表示所有的javascript对象，不用多说function:我们熟悉的方法，也就是
Java enum的用法详解 xieke90 enum 枚举
Java中枚举实现的分析：示例： public static enum SEVERITY{ INFO,WARN,ERROR } enum很像特殊的class，实际上enum声明定义的类型就是一个类。而这些类都是类库中Enum类的子类 (java.l

聚类算法

划分算法Partitioning Methods

Kmeans算法的原理

K-Means 算法的详细过程

k均值的优缺点及分类

k-means注意问题

分层聚类算法Hierarchical Clustering

层次聚类的流程

层次聚类的优缺点

层次聚类的使用

基于密度的聚类算法Density-Based Clustering Methods

DBSCAN的概念

簇的生成原理及过程

根据数据点的密度分为三类点：

DBSCAN的优缺点

基于网格的聚类算法Grid-Based Clustering Method

你可能感兴趣的:(聚类,clustering)