weixin_30802273

Weka数据挖掘——聚类

如果你渴望得到某样东西，你得让它自由，如果它回到你身边，它就是属于你的，如果它不回来，你就从未拥有过它。——大仲马《基督山伯爵》

生活是一面镜子，我们努力追求的第一件事，就是从中辨认出自己。——尼采

1 聚类概念

关于聚类的一些相关的概念请看这里。
聚类是对物理对象或者抽象对象的集合进行分组的过程，所生成的组称为簇，簇是数据对象的集合。簇内部两个对象之间应该具有较高的相似度，而对于不同簇的两个对象之间应该具有较高的相异度。相异度一般是根据描述对象的两个属性值进行计算，最常采用的度量指标是对象间的距离。

2 聚类算法的介绍

2-1 KMeans（K均值）

KMens是基于原型的、划分的聚类技术，试图划分用户指定个数k 的簇。
K-means算法的基本思想是：以空间中k个点为中心进行聚类，对最靠近他们的对象归类。通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果。

算法：

选择k个点作为初始质心
repeat 
    将每个点指派给最近的质心，形成k个簇
    重新计算每个簇的质心
until 质心不再发生变化

相似度的计算可以使用欧氏距离或者曼哈顿距离。

考虑临近度是欧氏距离的数据，通常使用误差平方和SSE（Sum of the Qquares Error）作为度量聚类质量的目标函数。SSE的定义如下所示：

S S E = \sum i = 1 K \sum x \in C i d i s t (c i, x)

2-2 EM（期望最大化）

EM（Expectation Maximization）是KMeans方法的一个扩展，它不是把对象分配给一个确定的簇，而是根据对象与簇之间的隶属关系发生的概率来分配对象。EM算法是解决数据缺失问题的一种出色的算法。
EM算法使用两个步骤交替计算：
第一步是计算期望（E），利用对隐藏变量的现有估计值，计算其最大似然估计值；
第二步是最大化（M），最大化在 E 步上求得的最大似然值来计算参数的值。
然后将M 步上找到的参数估计值被用于下一个 E 步计算中，这个过程不断交替进行。
参考链接从最大似然到EM算法浅解
比较复杂的概率理论知识…… 目前我还没有彻底理解。

2-3 DBSCAN（具有噪声的基于密度的聚类方法）

DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种基于密度的聚类算法，簇的个数由算法自动确定。将低密度区域中的点视为噪声而忽略，因此DBSCAN不产生完全聚类。
常用术语的定义：

半径(Eps)：用户指定的距离
核心点（Core Point）：位于基于密度的簇的内部。点的邻域由距离函数和用户指定的距离Eps共同决定。核心点的定义是，如果该点的给定邻域内的点的个数超过给定的阈值MinPts,MinPts由用户指定。
边界点（Border Point）：边界点不是核心点，但是落在核心点的邻域内。
噪声点（Noise Point）：既不是核心点也不是边界点的点称为噪声点。
DBSCAN算法描述:

输入: 包含n个对象的数据库，半径e，最少数目MinPts;
输出:所有生成的簇，达到密度要求。
(1)Repeat
(2)从数据库中抽出一个未处理的点；
(3)IF抽出的点是核心点 THEN 找出所有从该点密度可达的对象，形成一个簇；
(4)ELSE 抽出的点是边缘点(非核心对象)，跳出本次循环，寻找下一个点；
(5)UNTIL 所有的点都被处理。

DBSCAN对用户定义的参数很敏感，细微的不同都可能导致差别很大的结果，而参数的选择无规律可循，只能靠经验确定。

其伪代码描述如下：

//输入：数据对象集合D，半径Eps，密度阈值MinPts
//输出：聚类C

DBSCAN（D, Eps, MinPts）{
 //未处理的当前集合
 unprocessSet=null;
 for each unvisited point p in D{
    mark p as visited; //将p标记为已访问

    N = getNeighbours (p, Eps);
    unprocessSet(N);//候选集合构建

    if sizeOf(N) < MinPts then
        mark p as Noise; //如果满足sizeOf(N) < MinPts，则将p标记为噪声
    else
        C= next cluster; //建立新簇C        
        ExpandCluster (p, N, C, Eps, MinPts，unprocessSet);
 }
}
//其中ExpandCluster算法伪码如下：
ExpandCluster(p, N, C, Eps, MinPts，unprocessSet){
    add p to cluster C; //首先将核心点加入C
    for each point p’ in unprocessSet N{
        mark p' as visited;//标记为已经访问
        N’ = getNeighbours (p’, Eps); //对N邻域内的所有点在进行半径检查
        if sizeOf(N’) >= MinPts then
            N = N+N’; //如果大于MinPts，就扩展N的数目
            //扩大候选集
            unprocessSet(N);
        //如果当前不属于任何的簇，那么就将这个对象添加到当前的簇中
        if p’ is not member of any cluster
            add p’ to cluster C; //将p' 加入簇C
    }
}

参考：百度百科：DBSCAN

3 Weka聚类案例

3-1 SimpleKMeans算法

weka.clusterers.SimpleKMeans
使用weather.numeric.arrf文件中的数据来测试运行结果如下：

=== Run information ===

Scheme:       weka.clusterers.SimpleKMeans -init 0 -max-candidates 100 -periodic-pruning 10000 -min-density 2.0 -t1 -1.25 -t2 -1.0 -N 2 -A "weka.core.EuclideanDistance -R first-last" -I 500 -num-slots 1 -S 10
Relation:     weather
Instances:    14
Attributes:   5
              outlook
              temperature
              humidity
              windy
              play
Test mode:    evaluate on training data


=== Clustering model (full training set) ===


kMeans
======

Number of iterations: 3
Within cluster sum of squared errors: 16.237456311387238

Initial starting points (random):

Cluster 0: rainy,75,80,FALSE,yes
Cluster 1: overcast,64,65,TRUE,yes

Missing values globally replaced with mean/mode

Final cluster centroids:
                           Cluster#
Attribute      Full Data          0          1
                  (14.0)      (9.0)      (5.0)
==============================================
outlook            sunny      sunny   overcast
temperature      73.5714    75.8889       69.4
humidity         81.6429    84.1111       77.2
windy              FALSE      FALSE       TRUE
play                 yes        yes        yes




Time taken to build model (full training data) : 0 seconds

=== Model and evaluation on training set ===

Clustered Instances

0       9 ( 64%)
1       5 ( 36%)

聚类结果以表格的形式显示，行对应属性名，列对应簇中心。如果是数值属性则显示平均值，如果是标称属性，则显示簇所在列对应的属性标签。

Attribute	Full Data	0	1
-	(14.0)	(9.0)	(5.0)
outlook	sunny	sunny	overcast
temperature	73.5714	75.8889	69.4
humidity	81.6429	84.1111	77.2
windy	FALSE	FALSE	TRUE
play	yes	yes	yes

3-2 EM算法

与上面的不同的是，这里的表头并没有显示实例的数量，只是在表头的括号内显示其先验概率。表中单元格显示数值属性正态分布的参数或者是标称属性的频率计数。小数，揭示了EM算法的“Soft”的特性，任何实例都可以在若干个簇之间分割。在输出的最后，显示了模型的对数似然值，这是相对于训练数据。

运行结果如下：

=== Run information ===

Scheme:       weka.clusterers.EM -I 100 -N 2 -X 10 -max -1 -ll-cv 1.0E-6 -ll-iter 1.0E-6 -M 1.0E-6 -K 10 -num-slots 1 -S 100
Relation:     weather
Instances:    14
Attributes:   5
              outlook
              temperature
              humidity
              windy
              play
Test mode:    evaluate on training data


=== Clustering model (full training set) ===


EM
==

Number of clusters: 2
Number of iterations performed: 7


              Cluster
Attribute           0       1
               (0.35)  (0.65)
==============================
outlook
  sunny         3.8732  3.1268
  overcast      1.7746  4.2254
  rainy         2.1889  4.8111
  [total]       7.8368 12.1632
temperature
  mean         76.9173 71.8054
  std. dev.     5.8302  5.8566

humidity
  mean         90.1132 77.1719
  std. dev.     3.8066  9.1962

windy
  TRUE            3.14    4.86
  FALSE         3.6967  6.3033
  [total]       6.8368 11.1632
play
  yes           2.1227  8.8773
  no            4.7141  2.2859
  [total]       6.8368 11.1632


Time taken to build model (full training data) : 0 seconds

=== Model and evaluation on training set ===

Clustered Instances

0       4 ( 29%)
1      10 ( 71%)
//对数似然值
Log likelihood: -9.13037

3-3 DBSCAN（具有噪声的基于密度的聚类方法）

DBSCAN使用欧式距离度量，以确定哪些实例属于同一个簇。不同于划分的方法，DBSCAN可以自动的确定簇的数量，发现任意形状的簇，并引入离群的概念。在用户指定的最小距离 ε 和簇的最小值minPts的约束下，完成聚簇。某些不属于任何簇的实例，称为离群值。
OPTICS算法是DBSCAN算法在层次聚类方面的扩展。OPTICS规定了实例的顺序，这些实例进行二维可视化，揭示簇的层次结构，排序过程根据距离度量，以及在列表中彼此相邻的位置，按照顺序排列彼此最接近的实例。

OPTICS算法最后的生成结果是有顺序的可以自由选择可达距离的聚簇方法。

/////OPTICS算法额外存储了每个对象的核心距离和可达距离。
////基于OPTICS产生的排序信息来提取类簇。
算法描述如下：
算法：OPTICS
输入：样本集D, 邻域半径E, 给定点在E领域内成为核心对象的最小领域点数MinPts
输出：具有可达距离信息的样本点输出排序
方法：
 1. 创建两个队列，有序队列和结果队列。（有序队列用来存储核心对象及其该核心对象的直接可达对象，并按可达距离升序排列；结果队列用来存储样本点的输出次序）；

 2. 如果所有样本集D中所有点都处理完毕，则算法结束。否则，选择一个未处理（即不在结果队列中）且为核心对象的样本点，找到其所有直接密度可达样本点，如果该样本点不存在于结果队列中，则将其放入有序队列中，并按可达距离排序；
 3. 如果有序队列为空，则跳至步骤2，否则，从有序队列中取出第一个样本点（即可达距离最小的样本点）进行拓展，并将取出的样本点保存至结果队列中，如果它不存在结果队列当中的话.
    3.1 判断该拓展点是否是核心对象，如果不是，回到步骤3，否则找到该拓展点所有的直接密度可达点；
    3.2 判断该直接密度可达样本点是否已经存在结果队列，是则不处理，否则下一步；
    3.3 如果有序队列中已经存在该直接密度可达点，如果此时新的可达距离小于旧的可达距离，则用新可达距离取代旧可达距离，有序队列重新排序；
    3.4 如果有序队列中不存在该直接密度可达样本点，则插入该点，并对有序队列
   重新排序；
4. 算法结束，输出结果队列中的有序样本点。

OPTICS的WEKA执行结果

=== Run information ===

Scheme:       weka.clusterers.OPTICS -E 0.2 -M 5 -A "weka.core.EuclideanDistance -R first-last" -db-output .
Relation:     iris
Instances:    150
Attributes:   5
              sepallength
              sepalwidth
              petallength
              petalwidth
Ignored:
              class
Test mode:    evaluate on training data


=== Clustering model (full training set) ===

OPTICS clustering results
============================================================================================

Clustered DataObjects: 150
Number of attributes: 4
Epsilon: 0.2; minPoints: 5
Write results to file: no
Distance-type: 
Number of generated clusters: 0
Elapsed time: .02

(  0.) 5.1,3.5,1.4,0.2                           -->  c_dist: 0.05         r_dist: UNDEFINED   
( 17.) 5.1,3.5,1.4,0.3                           -->  c_dist: 0.061        r_dist: 0.05
( 39.) 5.1,3.4,1.5,0.2                           -->  c_dist: 0.05         r_dist: 0.05
(  4.) 5,3.6,1.4,0.2                             -->  c_dist: 0.071        r_dist: 0.05
( 27.) 5.2,3.5,1.5,0.2                           -->  c_dist: 0.053        r_dist: 0.05
( 28.) 5.2,3.4,1.4,0.2                           -->  c_dist: 0.058        r_dist: 0.05
(  7.) 5,3.4,1.5,0.2                             -->  c_dist: 0.058        r_dist: 0.05
( 40.) 5,3.5,1.3,0.3                             -->  c_dist: 0.068        r_dist: 0.053
( 49.) 5,3.3,1.4,0.2                             -->  c_dist: 0.069        r_dist: 0.053
( 11.) 4.8,3.4,1.6,0.2                           -->  c_dist: 0.077        r_dist: 0.058
( 35.) 5,3.2,1.2,0.2                             -->  c_dist: 0.083        r_dist: 0.069
( 26.) 5,3.4,1.6,0.4                             -->  c_dist: 0.085        r_dist: 0.073
( 20.) 5.4,3.4,1.7,0.2                           -->  c_dist: 0.09         r_dist: 0.075
( 24.) 4.8,3.4,1.9,0.2                           -->  c_dist: 0.107        r_dist: 0.077
(  6.) 4.6,3.4,1.4,0.3                           -->  c_dist: 0.103        r_dist: 0.077
( 34.) 4.9,3.1,1.5,0.1                           -->  c_dist: 0.053        r_dist: 0.083
( 12.) 4.8,3,1.4,0.1                             -->  c_dist: 0.053        r_dist: 0.053
( 37.) 4.9,3.1,1.5,0.1                           -->  c_dist: 0.053        r_dist: 0.053
(  9.) 4.9,3.1,1.5,0.1                           -->  c_dist: 0.053        r_dist: 0.053
( 30.) 4.8,3.1,1.6,0.2                           -->  c_dist: 0.053        r_dist: 0.053
( 29.) 4.7,3.2,1.6,0.2                           -->  c_dist: 0.053        r_dist: 0.053
(  2.) 4.7,3.2,1.3,0.2                           -->  c_dist: 0.071        r_dist: 0.053
(  3.) 4.6,3.1,1.5,0.2                           -->  c_dist: 0.06         r_dist: 0.053
( 47.) 4.6,3.2,1.4,0.2                           -->  c_dist: 0.058        r_dist: 0.053
(  1.) 4.9,3,1.4,0.2                             -->  c_dist: 0.06         r_dist: 0.053
( 42.) 4.4,3.2,1.3,0.2                           -->  c_dist: 0.083        r_dist: 0.058
( 25.) 5,3,1.6,0.2                               -->  c_dist: 0.067        r_dist: 0.06
( 45.) 4.8,3,1.4,0.3                             -->  c_dist: 0.083        r_dist: 0.06
( 38.) 4.4,3,1.3,0.2                             -->  c_dist: 0.083        r_dist: 0.077
( 13.) 4.3,3,1.1,0.1                             -->  c_dist: 0.123        r_dist: 0.083
(  8.) 4.4,2.9,1.4,0.2                           -->  c_dist: 0.126        r_dist: 0.083
( 23.) 5.1,3.3,1.7,0.5                           -->  c_dist: 0.128        r_dist: 0.085
( 48.) 5.3,3.7,1.5,0.2                           -->  c_dist: 0.088        r_dist: 0.088
( 10.) 5.4,3.7,1.5,0.2                           -->  c_dist: 0.1          r_dist: 0.088
( 19.) 5.1,3.8,1.5,0.3                           -->  c_dist: 0.081        r_dist: 0.088
( 21.) 5.1,3.7,1.5,0.4                           -->  c_dist: 0.095        r_dist: 0.081
( 44.) 5.1,3.8,1.9,0.4                           -->  c_dist: 0.099        r_dist: 0.081
( 46.) 5.1,3.8,1.6,0.2                           -->  c_dist: 0.095        r_dist: 0.081
( 36.) 5.5,3.5,1.3,0.2                           -->  c_dist: 0.095        r_dist: 0.09
( 31.) 5.4,3.4,1.5,0.4                           -->  c_dist: 0.103        r_dist: 0.09
( 43.) 5,3.5,1.6,0.6                             -->  c_dist: 0.132        r_dist: 0.093
(  5.) 5.4,3.9,1.7,0.4                           -->  c_dist: 0.108        r_dist: 0.099
( 18.) 5.7,3.8,1.7,0.3                           -->  c_dist: 0.129        r_dist: 0.108
( 16.) 5.4,3.9,1.3,0.4                           -->  c_dist: 0.123        r_dist: 0.108
( 22.) 4.6,3.6,1,0.2                             -->  c_dist: 0.143        r_dist: 0.115
( 14.) 5.8,4,1.2,0.2                             -->  c_dist: 0.168        r_dist: 0.129
( 32.) 5.2,4.1,1.5,0.1                           -->  c_dist: 0.164        r_dist: 0.136
( 33.) 5.5,4.2,1.4,0.2                           -->  c_dist: 0.154        r_dist: 0.154
( 15.) 5.7,4.4,1.5,0.4                           -->  c_dist: UNDEFINED    r_dist: 0.154
(100.) 6.3,3.3,6,2.5                             -->  c_dist: 0.153        r_dist: UNDEFINED   
(115.) 6.4,3.2,5.3,2.3                           -->  c_dist: 0.119        r_dist: 0.153
(136.) 6.3,3.4,5.6,2.4                           -->  c_dist: 0.127        r_dist: 0.119
(140.) 6.7,3.1,5.6,2.4                           -->  c_dist: 0.095        r_dist: 0.119
(120.) 6.9,3.2,5.7,2.3                           -->  c_dist: 0.108        r_dist: 0.095
(143.) 6.8,3.2,5.9,2.3                           -->  c_dist: 0.103        r_dist: 0.095
(145.) 6.7,3,5.2,2.3                             -->  c_dist: 0.114        r_dist: 0.095
(144.) 6.7,3.3,5.7,2.5                           -->  c_dist: 0.122        r_dist: 0.095
(124.) 6.7,3.3,5.7,2.1                           -->  c_dist: 0.13         r_dist: 0.103
(139.) 6.9,3.1,5.4,2.1                           -->  c_dist: 0.11         r_dist: 0.108
(102.) 7.1,3,5.9,2.1                             -->  c_dist: 0.144        r_dist: 0.11
(112.) 6.8,3,5.5,2.1                             -->  c_dist: 0.106        r_dist: 0.11
(104.) 6.5,3,5.8,2.2                             -->  c_dist: 0.114        r_dist: 0.106
(147.) 6.5,3,5.2,2                               -->  c_dist: 0.11         r_dist: 0.106
(141.) 6.9,3.1,5.1,2.3                           -->  c_dist: 0.11         r_dist: 0.11
(110.) 6.5,3.2,5.1,2                             -->  c_dist: 0.132        r_dist: 0.11
(116.) 6.5,3,5.5,1.8                             -->  c_dist: 0.11         r_dist: 0.11
(103.) 6.3,2.9,5.6,1.8                           -->  c_dist: 0.128        r_dist: 0.11
( 77.) 6.7,3,5,1.7                               -->  c_dist: 0.133        r_dist: 0.11
(137.) 6.4,3.1,5.5,1.8                           -->  c_dist: 0.119        r_dist: 0.11
(128.) 6.4,2.8,5.6,2.1                           -->  c_dist: 0.119        r_dist: 0.114
(132.) 6.4,2.8,5.6,2.2                           -->  c_dist: 0.141        r_dist: 0.114
(111.) 6.4,2.7,5.3,1.9                           -->  c_dist: 0.11         r_dist: 0.119
(123.) 6.3,2.7,4.9,1.8                           -->  c_dist: 0.123        r_dist: 0.11
(146.) 6.3,2.5,5,1.9                             -->  c_dist: 0.163        r_dist: 0.11
(126.) 6.2,2.8,4.8,1.8                           -->  c_dist: 0.117        r_dist: 0.117
(127.) 6.1,3,4.9,1.8                             -->  c_dist: 0.102        r_dist: 0.117
(138.) 6,3,4.8,1.8                               -->  c_dist: 0.1          r_dist: 0.102
(149.) 5.9,3,5.1,1.8                             -->  c_dist: 0.128        r_dist: 0.1
( 70.) 5.9,3.2,4.8,1.8                           -->  c_dist: 0.131        r_dist: 0.1
(148.) 6.2,3.4,5.4,2.3                           -->  c_dist: 0.175        r_dist: 0.119
( 83.) 6,2.7,5.1,1.6                             -->  c_dist: 0.129        r_dist: 0.12
(133.) 6.3,2.8,5.1,1.5                           -->  c_dist: 0.13         r_dist: 0.129
(134.) 6.1,2.6,5.6,1.4                           -->  c_dist: 0.193        r_dist: 0.129
( 54.) 6.5,2.8,4.6,1.5                           -->  c_dist: 0.103        r_dist: 0.13
( 58.) 6.6,2.9,4.6,1.3                           -->  c_dist: 0.097        r_dist: 0.103
( 74.) 6.4,2.9,4.3,1.3                           -->  c_dist: 0.106        r_dist: 0.097
( 75.) 6.6,3,4.4,1.4                             -->  c_dist: 0.083        r_dist: 0.097
( 65.) 6.7,3.1,4.4,1.4                           -->  c_dist: 0.103        r_dist: 0.083
( 86.) 6.7,3.1,4.7,1.5                           -->  c_dist: 0.099        r_dist: 0.083
( 76.) 6.8,2.8,4.8,1.4                           -->  c_dist: 0.136        r_dist: 0.097
( 52.) 6.9,3.1,4.9,1.5                           -->  c_dist: 0.11         r_dist: 0.099
( 51.) 6.4,3.2,4.5,1.5                           -->  c_dist: 0.11         r_dist: 0.099
( 50.) 7,3.2,4.7,1.4                             -->  c_dist: 0.148        r_dist: 0.102
( 97.) 6.2,2.9,4.3,1.3                           -->  c_dist: 0.084        r_dist: 0.106
( 63.) 6.1,2.9,4.7,1.4                           -->  c_dist: 0.093        r_dist: 0.084
( 71.) 6.1,2.8,4,1.3                             -->  c_dist: 0.112        r_dist: 0.084
( 91.) 6.1,3,4.6,1.4                             -->  c_dist: 0.097        r_dist: 0.084
( 78.) 6,2.9,4.5,1.5                             -->  c_dist: 0.106        r_dist: 0.093
( 73.) 6.1,2.8,4.7,1.2                           -->  c_dist: 0.123        r_dist: 0.093
( 61.) 5.9,3,4.2,1.5                             -->  c_dist: 0.108        r_dist: 0.097
( 66.) 5.6,3,4.5,1.5                             -->  c_dist: 0.11         r_dist: 0.108
( 96.) 5.7,2.9,4.2,1.3                           -->  c_dist: 0.066        r_dist: 0.108
( 55.) 5.7,2.8,4.5,1.3                           -->  c_dist: 0.106        r_dist: 0.066
( 88.) 5.6,3,4.1,1.3                             -->  c_dist: 0.094        r_dist: 0.066
( 95.) 5.7,3,4.2,1.2                             -->  c_dist: 0.106        r_dist: 0.066
( 99.) 5.7,2.8,4.1,1.3                           -->  c_dist: 0.073        r_dist: 0.066
( 82.) 5.8,2.7,3.9,1.2                           -->  c_dist: 0.09         r_dist: 0.073
( 94.) 5.6,2.7,4.2,1.3                           -->  c_dist: 0.086        r_dist: 0.073
( 90.) 5.5,2.6,4.4,1.2                           -->  c_dist: 0.107        r_dist: 0.086
( 92.) 5.8,2.6,4,1.2                             -->  c_dist: 0.095        r_dist: 0.088
( 67.) 5.8,2.7,4.1,1                             -->  c_dist: 0.114        r_dist: 0.09
( 89.) 5.5,2.5,4,1.3                             -->  c_dist: 0.094        r_dist: 0.094
( 53.) 5.5,2.3,4,1.3                             -->  c_dist: 0.141        r_dist: 0.094
( 69.) 5.6,2.5,3.9,1.1                           -->  c_dist: 0.089        r_dist: 0.094
( 80.) 5.5,2.4,3.8,1.1                           -->  c_dist: 0.099        r_dist: 0.089
( 81.) 5.5,2.4,3.7,1                             -->  c_dist: 0.141        r_dist: 0.089
( 79.) 5.7,2.6,3.5,1                             -->  c_dist: 0.119        r_dist: 0.094
( 64.) 5.6,2.9,3.6,1.3                           -->  c_dist: 0.12         r_dist: 0.094
( 84.) 5.4,3,4.5,1.5                             -->  c_dist: 0.144        r_dist: 0.11
( 56.) 6.3,3.3,4.7,1.6                           -->  c_dist: 0.146        r_dist: 0.11
( 59.) 5.2,2.7,3.9,1.4                           -->  c_dist: 0.154        r_dist: 0.126
( 72.) 6.3,2.5,4.9,1.5                           -->  c_dist: 0.145        r_dist: 0.13
( 85.) 6,3.4,4.5,1.6                             -->  c_dist: 0.181        r_dist: 0.131
(142.) 5.8,2.7,5.1,1.9                           -->  c_dist: 0.135        r_dist: 0.135
(101.) 5.8,2.7,5.1,1.9                           -->  c_dist: 0.135        r_dist: 0.135
(113.) 5.7,2.5,5,2                               -->  c_dist: 0.172        r_dist: 0.135
(121.) 5.6,2.8,4.9,2                             -->  c_dist: 0.148        r_dist: 0.135
( 68.) 6.2,2.2,4.5,1.5                           -->  c_dist: UNDEFINED    r_dist: 0.145
( 87.) 6.3,2.3,4.4,1.3                           -->  c_dist: 0.17         r_dist: 0.145
(130.) 7.4,2.8,6.1,1.9                           -->  c_dist: 0.155        r_dist: 0.148
(108.) 6.7,2.5,5.8,1.8                           -->  c_dist: UNDEFINED    r_dist: 0.151
(119.) 6,2.2,5,1.5                               -->  c_dist: UNDEFINED    r_dist: 0.151
(125.) 7.2,3.2,6,1.8                             -->  c_dist: 0.181        r_dist: 0.154
(105.) 7.6,3,6.6,2.1                             -->  c_dist: 0.164        r_dist: 0.155
(107.) 7.3,2.9,6.3,1.8                           -->  c_dist: 0.158        r_dist: 0.155
(122.) 7.7,2.8,6.7,2                             -->  c_dist: 0.16         r_dist: 0.155
(129.) 7.2,3,5.8,1.6                             -->  c_dist: 0.184        r_dist: 0.158
( 93.) 5,2.3,3.3,1                               -->  c_dist: 0.16         r_dist: 0.16
( 57.) 4.9,2.4,3.3,1                             -->  c_dist: 0.18         r_dist: 0.16
( 60.) 5,2,3.5,1                                 -->  c_dist: UNDEFINED    r_dist: 0.16
( 98.) 5.1,2.5,3,1.1                             -->  c_dist: 0.18         r_dist: 0.16
(118.) 7.7,2.6,6.9,2.3                           -->  c_dist: UNDEFINED    r_dist: 0.16
(135.) 7.7,3,6.1,2.3                             -->  c_dist: UNDEFINED    r_dist: 0.164
( 62.) 6,2.2,4,1                                 -->  c_dist: 0.173        r_dist: 0.17
(114.) 5.8,2.8,5.1,2.4                           -->  c_dist: UNDEFINED    r_dist: 0.179
(109.) 7.2,3.6,6.1,2.5                           -->  c_dist: UNDEFINED    r_dist: 0.199
(106.) 4.9,2.5,4.5,1.7                           -->  c_dist: UNDEFINED    r_dist: 0.2
(117.) 7.7,3.8,6.7,2.2                           -->  c_dist: UNDEFINED    r_dist: UNDEFINED   
(131.) 7.9,3.8,6.4,2                             -->  c_dist: UNDEFINED    r_dist: UNDEFINED   
( 41.) 4.5,2.3,1.3,0.3                           -->  c_dist: UNDEFINED    r_dist: UNDEFINED   



Time taken to build model (full training data) : 0.17 seconds

=== Model and evaluation on training set ===

Clustered Instances


Unclustered instances : 150

可以比DBSCAN传递出更多的层次化聚类的信息。

转载于:https://www.cnblogs.com/mrzhang123/p/5365813.html

使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
Python实现关联规则推荐这孩子谁懂哈 Python Machine Learning python 关联规则机器学习
1.什么关联规则关联规则（AssociationRules）是反映一个事物与其他事物之间的相互依存性和关联性，如果两个或多个事物之间存在一定的关联关系，那么，其中一个事物就能通过其他事物预测到。关联规则是数据挖掘的一个重要技术，用于从大量数据中挖掘出有价值的数据项之间的相关关系。关联规则挖掘的最经典的例子就是沃尔玛的啤酒与尿布的故事，通过对超市购物篮数据进行分析，即顾客放入购物篮中不同商品之间的关
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
【机器学习与R语言】1-机器学习简介苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
1.基本概念机器学习：发明算法将数据转化为智能行为数据挖掘VS机器学习：前者侧重寻找有价值的信息，后者侧重执行已知的任务。后者是前者的先期准备过程：数据——>抽象化——>一般化。或者：收集数据——推理数据——归纳数据——发现规律抽象化：训练：用一个特定模型来拟合数据集的过程用方程来拟合观测的数据：观测现象——数据呈现——模型建立。通过不同的格式来把信息概念化一般化：一般化：将抽象化的知识转换成可用
系统架构师软考历年论文题目（2009-2024年）及分析 pccai-vip 系统架构师系统架构
时间题目20091.论基于DSSA的软件架构设计与应用；2.论信息系统建模方法；3.论基于REST服务的Web应用系统设计；4.论软件可靠性设计与应用20101.论软件的静态演化和动态演化及其应用；2.论数据挖掘技术的应用；3.论大规模分布式系统缓存设计策略；4.论软件可靠性评价20111.论模型驱动架构在系统开发中的应用；2.论企业集成平台的架构设计；3.论企业架构管理与应用；4.论软件需求获取
大数据新视界 --大数据大厂之数据挖掘入门：用 R 语言开启数据宝藏的探索之旅青云交大数据新视界数据库大数据数据挖掘 R 语言算法案例未来趋势应用场景学习建议大数据新视界
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
9.单细胞 RNA-seq：聚类分析 denghb001
学习目标：利用多种方法来评估聚类选择的PC基于重要的PC执行单细胞聚类单细胞RNA-seq聚类分析现在我们已经整合了高质量的细胞，我们想知道我们的细胞群中存在的不同细胞类型。image目标：为了生成特定细胞类型的簇，并使用已知的细胞类型的标志基因来确定的簇的身份。为了确定分群是否代表真实的细胞类型或由于生物或技术差异而形成的群集，如在细胞周期的S期的细胞群，特定批次的簇，或具有高线粒体含量的细胞。
大数据之flink与hive 星辰_mya 大数据 flink hive
其实吧我不太想写flink，因为线上经验确实不多，这也是我需要补的地方，没有条件创造条件，先来一篇吧flink：高性能低延迟流批一体的分布式计算框架基于事件时间对实时数据精准处理快速响应支持批处理，高效离线分析和数据挖掘数据仓库的引擎丰富数据源/接收器，集成多种数据存储格式和源，比较常见就是咱们今天的主题hive了checkpoint恢复机制，故障恢复快速恢复计算任务分布式弹性扩展，据业务灵活增加
纯生信很难发表？只是你没有及时抓住研究热点 SCI狂人团队
当你还做meta分析的时候，你会发现meta分析很难发或者单位已经不承认了，而聪明的人已经开始做常规的生信GEO、TCGA数据挖掘这些（这个时候生信比较好发）。当你开始做常规的生信GEO、TCGA数据挖掘的时候，你会发现这些一样也是比较难发了，而聪明的人已经开始抓免疫评分这个热点进行生信数据挖掘（这个时候免疫评分比较好发）。当你开始对免疫评分这个热点进行生信数据挖掘的时候，你会发现自己的研究方向差
K-means 算法的介绍与应用小魏冬琅 matlab 算法 kmeans 机器学习
目录引言K-means算法的基本原理表格总结：K-means算法的主要步骤K-means算法的MATLAB实现优化方法与改进K-means算法的应用领域表格总结：K-means算法的主要应用领域结论引言K-means算法是一种经典的基于距离的聚类算法，在数据挖掘、模式识别、图像处理等多个领域中得到了广泛应用。其核心思想是将相似的数据对象聚类到同一个簇中，而使得簇内对象的相似度最大、簇间的相似度最小
聚类分析 | Python密度聚类（DBSCAN）天天酷科研聚类分析算法（CLA）python 聚类机器学习 DBSCAN
密度聚类是一种无需预先指定聚类数量的聚类方法，它依赖于数据点之间的密度关系来自动识别聚类结构。本文中，演示如何使用密度聚类算法，具体是DBSCAN（Density-BasedSpatialClusteringofApplicationswithNoise）来对一个实际的数据集进行聚类分析。一、基本介绍密度聚类的核心思想是将数据点分为高密度区域和低密度区域。高密度区域内的数据点被认为属于同一簇，而低
Matlab,Python,Java,C++的比较 Codefengfeng python java c++
Matlabmatlab是一个大型计算机，擅长矩阵计算与科学计算，适合构建模型；然而，编译软件的运行效率低，不适合大型软件开发。Pythonpython的优势是简单，入门快。适合做数据挖掘、数据分析、机器学习、人工智能、自然语言处理、爬虫、批量文件处理等，此外，Python开源免费，有很多的库，开发环境开发社区都比较友好；不过，Python是动态型的语言，需要更多的测试，并且错误仅仅是在运行的时候
机器学习实战笔记5——线性判别分析绍少阿机器学习笔记可视化机器学习 python 人工智能
任务安排1、机器学习导论8、核方法2、KNN及其实现9、稀疏表示3、K-means聚类10、高斯混合模型4、主成分分析11、嵌入学习5、线性判别分析12、强化学习6、贝叶斯方法13、PageRank7、逻辑回归14、深度学习线性判别分析（LDA）Ⅰ核心思想对于同样一件事，站在不同的角度，我们往往会有不同的看法，而降维思想，亦是如此。同上节课一样，我们还是学习降维的算法，只是提供了一种新的角度，由上
图计算：基于SparkGrpahX计算聚类系数妙龄少女郭德纲 Spark 图算法 Scala 聚类数据挖掘机器学习
图计算：基于SparkGrpahX计算聚类系数文章目录图计算：基于SparkGrpahX计算聚类系数一、什么是聚类系数二、基于SparkGraphX的聚类系数代码实现总结一、什么是聚类系数聚类系数（ClusteringCoefficient）是图计算和网络分析中的一个重要概念，用于衡量网络中节点的局部聚集程度。它有助于理解网络中节点之间的紧密程度和网络的结构特性。这是一种用来衡量图中节点聚类程度的
如何搞定数据挖掘？这篇文章告诉你！ isNotNullX 数据挖掘人工智能
在数字化的时代，数据是我们日常生活中不可或缺的一部分。数据所蕴含的信息具有重要价值，而数据挖掘和数据分析就是解读这些信息的重要工具。本文从明晰数据概念入手，再探讨数据挖掘。一·什么是数据？数据定义：数据（Data）是指对客观事物的属性、数量、位置、关系等进行记录和描述的原始材料或信息。数据可以是数字、文字、图像、声音等多种形式，它们是信息的载体，用于表示、传递和存储信息。简单来说，数据就是观测值。
一些机器学习不错的书籍 jimmyleeee 机器学习人工智能
最近，在学习一些机器学习的相关知识，在Github上居然找到了一个可以下载一些不错的介绍机器学习和大数据挖掘和分析的书籍。具体的书籍的信息可以参考一下链接：Books/DataSciencefromScratch.pdfatmaster·varunkashyapks/Books·GitHub
使用SparkSql进行表的分析与统计 xingyuan8 大数据 java
背景我们的数据挖掘平台对数据统计有比较迫切的需求，而Spark本身对数据统计已经做了一些工作，希望梳理一下Spark已经支持的数据统计功能，后期再进行扩展。准备数据在参考文献6中下载鸢尾花数据，此处格式为iris.data格式，先将data后缀改为csv后缀（不影响使用，只是为了保证后续操作不需要修改）。数据格式如下：SepalLengthSepalWidthPetalLengthPetalWid
从零开始学python数据分析-从零开始学Python数据分析与挖掘 PDF 扫描版 weixin_37988176
给大家带来的一篇关于数据挖掘相关的电子书资源，介绍了关于Python、数据分析、数据挖掘方面的内容，本书是由清华大学出版社出版，格式为PDF，资源大小67.8MB，刘顺祥编写，目前豆瓣、亚马逊、当当、京东等电子书综合评分为：7.5。内容介绍从零开始学Python数据分析与挖掘本书以Python3版本作为数据分析与挖掘实战的应用工具，从Pyhton的基础语法开始，陆续介绍有关数值计算的Numpy、数
废字承晔儿
u额堵不堵不断进步数据挖掘额v也得分发的大跳脱衣舞一个月肚饿肚饿金额见到你的就不会预计不不会吧菊花怪下班v触宝电话代表大会素冠荷鼎厚度还是v四川饭馆有电梯的但丁地狱冬天的多点多发发动态鼎泰丰饭地方放多放房东鹅二房方圆大厦？而他得让让热厄尔热水器…
大数据分析与安全分析 Zh&&Li 网络安全运维数据分析安全数据挖掘运维数据库
大数据分析一、大数据安全威胁与需求分析1.1大数据相关概念发展大数据：是指非传统的数据处理工具的数据集大数据特征：海量的数据规模、快速的数据流转、多样的数据类型和价值密度低等大数据的种类和来源非常多，包括结构化、半结构化和非结构化数据有关大数据的新兴网络信息技术应用不断出现，主要包括大规模数据分析处理、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和存储系统1.2大数据安全威胁分析“数
千万级规模高性能、高并发的网络架构经验分享搬砖养女人网络架构经验分享
主题：INTO100沙龙时间：2015年11月21日下午地点：梦想加联合办公空间分享人：卫向军（毕业于北京邮电大学，现任微博平台架构师，先后在微软、金山云、新浪微博从事技术研发工作，专注于系统架构设计、音视频通讯系统、分布式文件系统和数据挖掘等领域。）架构以及我理解中架构的本质在开始谈我对架构本质的理解之前，先谈谈对今天技术沙龙主题的个人见解，千万级规模的网站感觉数量级是非常大的，对这个数量级我们
pandas/numpy数据结构算法（之行列变换）(二) （tag:行列转换，迪卡尔积，内置函数，数据结构） MrStubborn_aebe
目录：****1.Numpy-diag矩阵变换stack()/unstack()pd.pivot_table()pd.melt()groupby聚类算法mapping小技巧numpy.vectorize()**在这**里插入图片描述前言最近遇到很多需要迭代和归并数据的情况，一直以来的做法，都是循环主要的键，去进行后续操作。这是最典型的Python操作，然而还是上次提到的效率问题。记得之前朋友和我讲
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本