ann_hp

关于聚类算法Kmeans/K-mediods/层次聚类/OPTICS较为详细的介绍

K-means算法

将一群物理对象或者抽象对象的划分成相似的对象类的过程。其中类簇是数据对象的集合，在类簇中所有的对象都彼此相似，而类簇与类簇之间的对象是彼此相异。

聚类除了可以用于数据分割（data segmentation）,也可以用于离群点检测（outlier detection）,所谓的离群点指的是与“普通”点相对应的“异常”点，而这些“异常”点往往值的注意。

很多人在学习聚类之初，容易将聚类和分类搞混淆。其实聚类属于无监督学习范畴（unsupervised learning），也可称作观察式学习过程，与分类不同，聚类并不依赖已有既定的先验知识。举个例子，我们成年后，很清楚世界是由男人和女人组成的，所以我们在建厕所的时候，会把厕所分为男厕所和女厕所，这就是“分类”；而当我们刚生下来，我们并不知道什么是男人，什么是女人，通过后天对生活的观察，我们发现有一类人他们有胡子，而有一类人她们头发比较长（当然，我的这个举例已经显然不符合当今世界的发展了，你们明白就行），于是我们就把有胡子的人分为一类人，把长头发的分为另一类人，然后“研究”发现，原来有胡子的叫男人，有长头发的叫女人，这个过程就是“聚类”。

数据挖掘对聚类的典型要求如下：

1）可伸缩性：当聚类对象由几百上升到几百万，我们希望最后的聚类结果的准确度能一致。

2）处理不同类型属性的能力：有些聚类算法，其处理对象的属性的数据类型只能为数值类型，但是实际应用场景中，我们往往会遇到其他类型的数据，比如二元数据，分类数据等等。当然，在处理过程我们是可以将这些其他类型的数据预处理成数值型数据的，但是在聚类效率上或者聚类准确度上往往会有折损

3）发现任意形状的类簇：因为许多聚类算法是用距离（eg:欧几里得距离或者曼哈顿距离）来量化对象之间的相似度的，基于这种方式，我们往往只能发现相似尺寸和密度的球状类簇或者成为凸形类簇。但是，类簇的形状可能是任意的。

4）对聚类算法初始化参数的知识需求的最小化：很多算法在分析过程中需要用户提供一定的初始参数，比如期望的类簇个数，类簇初始质点的设定。聚类结果对这些参数是十分敏感的。这不仅加重了用户的负担，也非常影响聚类结果的准确性

5）处理噪声数据的能力：所谓的噪声数据，可以理解为影响聚类结果的干扰数据，这些噪声数据的存在会造成聚类结果的畸变，最终导致低质量的聚类。

6）增量聚类和对输入次序的不敏感：一些聚类算法不能将新加入的数据插入到已有的聚类结果；输入次序的敏感是指，对于给定的数据对象集合，以不同的次序提供输入对象时，最终产生的聚类结果的差异会比较大。

7）高维性：有些算法只适合处理2维或者3维的数据，而对高维数据的处理能力很弱，因为在高维空间中数据分布可能十分稀疏，而且高度倾斜。

8）基于约束的聚类：现实应用中可能需要在各种条件下进行聚类。因为同一个聚类算法，在不同的应用场景中所带来的聚类结果也是各异的，因此找到满足特定约束的具有良好聚类特性的数据分组是十分有挑战性的。

9）可解释性和可用性：我们希望得到的聚类结果都能用特定的语义、知识进行解释，和实际的应用场景相联系。

一般情况，聚类算法可以划分为以下几类：划分方法（partitioning method）、层次方法（hierarchical methods）、基于密度的方法（density-based methods）、基于网格的方法（grid-based methods）、基于模型的方法（model-based methods）.k-means算法属于划分方法中的一种。

K-means算法的整个流程：首先从聚类对象中随机选出K个对象作为类簇的质心（当然了，初始参数的K代表聚类结果的类簇数），对剩余的每个对象，根据它们分别到这个K个质心的距离，将它们指定到最相似的簇（因为K-means是利用距离来量化相似度的，所以我们这里可以理解为是“将它们指定到离最近最近距离的质心所属类簇”）。然后重新计算质心位置。以上过程不断反复，直到准则函数收敛为止。通常采用平方误差准则，定义如下：

其中，E代表的意思是所有类簇中各对象到其所属类簇质点平方误差和.

K:聚类结果类簇个数

Ci:第i个类簇

P：类簇中聚类对象

mi:第i个类簇的质心

K-means的优点和不足：能处理大型数据集，结果簇相当紧凑，并且簇和簇之间明显分离。计算复杂性O(tkn) t:迭代次数、K ：聚类数 n:样本数；但是

1）该算法必须事先给定类簇数和质点，簇数和质点的初始值设定往往会对聚类的算法影响较大。

2 ) 通常会在获得一个局部最优值时停止，

3 ) 并且只适合对数值型数据聚类，

4) 只适用于聚类结果为凸形的数据集，K-means方法不适合发现非凸面形状的类簇，或者大小差别很大的簇。

5) 对“噪音”和孤立点数据敏感，少量的该类数据对质点的计算会产生极大的影响。

关于K-means的代码实现网上有很多。

K中心点算法（K-medoids）

前面介绍了k-means算法，并列举了该算法的缺点。而K中心点算法（K-medoids）正好能解决k-means算法中的 “噪声”敏感这个问题。

如何解决的呢？

首先，我们得介绍下k-means算法为什么会对“噪声”敏感。还记得K-means寻找质点的过程吗？对某类簇中所有的样本点维度求平均值，即获得该类簇质点的维度。当聚类的样本点中有“噪声”（离群点）时，在计算类簇质点的过程中会受到噪声异常维度的干扰，造成所得质点和实际质点位置偏差过大，从而使类簇发生“畸变”。

Eg: 类簇C1中已经包含点A(1,1)、B(2,2)、 C(1,2)、 D(2,1)，假设N(100,100)为异常点，当它纳入类簇C1时，计算质点Centroid((1+2+1+2+100)/5,(1+2+2+1+100)/5)=centroid(21,21),此时可能造成了类簇C1质点的偏移，在下一轮迭代重新划分样本点的时候，将大量不属于类簇C1的样本点纳入，因此得到不准确的聚类结果。

为了解决该问题，K中心点算法（K-medoids）提出了新的质点选取方式，而不是简单像k-means算法采用均值计算法。在K中心点算法中，每次迭代后的质点都是从聚类的样本点中选取，而选取的标准就是当该样本点成为新的质点后能提高类簇的聚类质量，使得类簇更紧凑。该算法使用绝对误差标准来定义一个类簇的紧凑程度。

(p是空间中的样本点，Oj是类簇Cj的质点)

如果某样本点成为质点后，绝对误差能小于原质点所造成的绝对误差，那么K中心点算法认为该样本点是可以取代原质点的，在一次迭代重计算类簇质点的时候，我们选择绝对误差最小的那个样本点成为新的质点。

Eg：样本点A –>E1=10

样本点B –>E2=11

样本点C –>E3=12

原质点O–>E4=13，那我们选举A作为类簇的新质点。

与K-means算法一样，K-medoids也是采用欧几里得距离来衡量某个样本点到底是属于哪个类簇。终止条件是，当所有的类簇的质点都不在发生变化时，即认为聚类结束。

该算法除了改善 K-means 的“噪声”敏感以后，其他缺点和 K-means 一致，并且由于采用新的质点计算规则，也使得算法的时间复杂度上升： O （ k(n-k)² ）

Java实现代码如下：

package com.kmedoids;
import java.util.ArrayList;
public class Cluster {
    private String clusterName; // 类簇名
    private Medoid medoid; // 类簇的质点
    private ArrayList dataPoints; // 类簇中各样本点

    public Cluster(String clusterName) {
        this.clusterName = clusterName;
        this.medoid = null; // will be set by calling setCentroid()
        dataPoints = new ArrayList();
    }

    public void setMedoid(Medoid c) {
        medoid = c;
    }

    public Medoid getMedoid() {
        return medoid;
    }


    public void addDataPoint(DataPoint dp) { // called from CAInstance
        dp.setCluster(this);// 标注该类簇属于某点,计算欧式距离
        this.dataPoints.add(dp);
    }

    public void removeDataPoint(DataPoint dp) {
        this.dataPoints.remove(dp);
    }

    public int getNumDataPoints() {
        return this.dataPoints.size();
    }

    public DataPoint getDataPoint(int pos) {
        return (DataPoint) this.dataPoints.get(pos);
    }

    public String getName() {
        return this.clusterName;
    }

    public ArrayList getDataPoints() {
        return this.dataPoints;
    }
}

------------------------------------

package com.kmedoids;
import java.util.ArrayList;

public class DataPoint {
    private double dimension[]; //样本点的维度
    private String pointName; //样本点名字
    private Cluster cluster; //类簇
    private double euDt;//样本点到质点的距离

    public DataPoint(double dimension[], String pointName) {
        this.dimension = dimension;
        this.pointName = pointName;
        this.cluster = null;
    }

    public void setCluster(Cluster cluster) {
        this.cluster = cluster;
    }


    public double calEuclideanDistanceSum() {
        double sum=0.0;
        Cluster cluster=this.getCluster();
        ArrayList dataPoints=cluster.getDataPoints();

        for(int i=0;i             double[] dims=dataPoints.get(i).getDimensioin();
            for(int j=0;j                  double temp=Math.pow((dims[j]-this.dimension[j]),2);
                 sum=sum+temp;
            }
        }

        return Math.sqrt(sum);
    }


    public double testEuclideanDistance(Medoid c) {
        double sum=0.0;
        double[] cDim=c.getDimensioin();

        for(int i=0;i            double temp=Math.pow((dimension[i]-cDim[i]),2);
           sum=sum+temp;
        }

        return Math.sqrt(sum);
    }

    public double[] getDimensioin() {
        return this.dimension;
    }

    public Cluster getCluster() {
        return this.cluster;
    }

    public double getCurrentEuDt() {
        return this.euDt;
    }

    public String getPointName() {
        return this.pointName;
    }
}
-------------------------------

package com.kmedoids;
import java.util.ArrayList;

public class Medoid{

    private double dimension[]; // 质点的维度
    private Cluster cluster; //所属类簇
    private double etdDisSum;//Medoid到本类簇中所有的欧式距离之和

    public Medoid(double dimension[]) {
        this.dimension = dimension;
    }

    public void setCluster(Cluster c) {
        this.cluster = c;
    }

    public double[] getDimensioin() {
        return this.dimension;
    }

    public Cluster getCluster() {
        return this.cluster;
    }

    public void calcMedoid() {// 取代价最小的点
        calcEtdDisSum();
        double minEucDisSum = this.etdDisSum;
        ArrayList dps = this.cluster.getDataPoints();
        for (int i = 0; i < dps.size(); i++) {
            double tempeucDisSum = dps.get(i).calEuclideanDistanceSum();
            if (tempeucDisSum < minEucDisSum) {
                dimension = dps.get(i).getDimensioin();
                minEucDisSum=tempeucDisSum;
            }
        }
    }

    // 计算该Medoid到同类簇所有样本点的欧斯距离和
    private void calcEtdDisSum() {
        double sum=0.0;
        Cluster cluster=this.getCluster();
        ArrayList dataPoints=cluster.getDataPoints();

        for(int i=0;i             double[] dims=dataPoints.get(i).getDimensioin();
            for(int j=0;j                  double temp=Math.abs(dims[j]-this.dimension[j]);
                 sum=sum+temp;
            }
        }
        etdDisSum= sum;
    }
}

--------------------------

package com.kmedoids;

import java.util.ArrayList;

public class ClusterAnalysis {

    private Cluster[] clusters;// 所有类簇
    private int miter;// 迭代次数
    private ArrayList dataPoints = new ArrayList();// 所有样本点
    private int dimNum;//维度

    public ClusterAnalysis(int k, int iter, ArrayList dataPoints,int dimNum) {
        clusters = new Cluster[k];// 类簇种类数
        for (int i = 0; i < k; i++) {
            clusters[i] = new Cluster("Cluster:" + i);
        }
        this.miter = iter;
        this.dataPoints = dataPoints;
        this.dimNum=dimNum;
    }

    public int getIterations() {
        return miter;
    }

    public ArrayList[] getClusterOutput() {
        ArrayList v[] = new ArrayList[clusters.length];
        for (int i = 0; i < clusters.length; i++) {
            v[i] = clusters[i].getDataPoints();
        }
        return v;
    }


    public void startAnalysis(double[][] medoids) {

        setInitialMedoids(medoids);

        double[][] newMedoids=medoids;
        double[][] oldMedoids=new double[medoids.length][this.dimNum];

        while(!isEqual(oldMedoids,newMedoids)){
            for(int m = 0; m < clusters.length; m++){//每次迭代开始情况各类簇的点
                clusters[m].getDataPoints().clear();
            }
            for (int j = 0; j < dataPoints.size(); j++) {
                int clusterIndex=0;
                double minDistance=Double.MAX_VALUE;

                for (int k = 0; k < clusters.length; k++) {//判断样本点属于哪个类簇
                    double eucDistance=dataPoints.get(j).testEuclideanDistance(clusters[k].getMedoid());
                    if(eucDistance                         minDistance=eucDistance;
                        clusterIndex=k;
                    }
                }

               //将该样本点添加到该类簇
                clusters[clusterIndex].addDataPoint(dataPoints.get(j));

            }

            for(int m = 0; m < clusters.length; m++){
                clusters[m].getMedoid().calcMedoid();//重新计算各类簇的质点
            }

            for(int i=0;i                 for(int j=0;j                     oldMedoids[i][j]=newMedoids[i][j];
                }
            }

            for(int n=0;n                 newMedoids[n]=clusters[n].getMedoid().getDimensioin();
            }

            this.miter++;
        }

    }

    private void setInitialMedoids(double[][] medoids) {
        for (int n = 0; n < clusters.length; n++) {
            Medoid medoid = new Medoid(medoids[n]);
            clusters[n].setMedoid(medoid);
            medoid.setCluster(clusters[n]);
        }
    }


    private boolean isEqual(double[][] oldMedoids,double[][] newMedoids){
        boolean flag=false;
        for(int i=0;i             for(int j=0;j                 if(oldMedoids[i][j]!=newMedoids[i][j]){
                    return flag;
                }
            }
        }
        flag=true;
        return flag;
    }
}
--------------------------------------------

package com.kmedoids;

import java.util.ArrayList;
import java.util.Iterator;

public class TestMain {
    public static void main (String args[]){
        ArrayList dataPoints = new ArrayList();


        double[] a={2,3};
        double[] b={2,4};
        double[] c={1,4};
        double[] d={1,3};
        double[] e={2,2};
        double[] f={3,2};

        double[] g={8,7};
        double[] h={8,6};
        double[] i={7,7};
        double[] j={7,6};
        double[] k={8,5};

        double[] l={100,2};//孤立点

        double[] m={8,20};
        double[] n={8,19};
        double[] o={7,18};
        double[] p={7,17};
        double[] q={7,20};

        dataPoints.add(new DataPoint(a,"a"));
        dataPoints.add(new DataPoint(b,"b"));
        dataPoints.add(new DataPoint(c,"c"));
        dataPoints.add(new DataPoint(d,"d"));
        dataPoints.add(new DataPoint(e,"e"));
        dataPoints.add(new DataPoint(f,"f"));

        dataPoints.add(new DataPoint(g,"g"));
        dataPoints.add(new DataPoint(h,"h"));
        dataPoints.add(new DataPoint(i,"i"));
        dataPoints.add(new DataPoint(j,"j"));
        dataPoints.add(new DataPoint(k,"k"));

        dataPoints.add(new DataPoint(l,"l"));

        dataPoints.add(new DataPoint(m,"m"));
        dataPoints.add(new DataPoint(n,"n"));
        dataPoints.add(new DataPoint(o,"o"));
        dataPoints.add(new DataPoint(p,"p"));
        dataPoints.add(new DataPoint(q,"q"));

        ClusterAnalysis ca=new ClusterAnalysis(3,0,dataPoints,2);
       double[][] cen={{8,7},{8,6},{7,7}};
       ca.startAnalysis(cen);

       ArrayList[] v = ca.getClusterOutput();
        for (int ii=0; ii             ArrayList tempV = v[ii];
            System.out.println("-----------Cluster"+ii+"---------");
            Iterator iter = tempV.iterator();
            while(iter.hasNext()){
                DataPoint dpTemp = (DataPoint)iter.next();
                System.out.println(dpTemp.getPointName());
            }
        }
    }

}

层次聚类算法：

前面介绍的K-means算法和K中心点算法都属于划分式（partitional）聚类算法。层次聚类算法是将所有的样本点自底向上合并组成一棵树或者自顶向下分裂成一棵树的过程，这两种方式分别称为凝聚和分裂。

凝聚层次算法:

初始阶段，将每个样本点分别当做其类簇，然后合并这些原子类簇直至达到预期的类簇数或者其他终止条件。

分裂层次算法:

初始阶段，将所有的样本点当做同一类簇，然后分裂这个大类簇直至达到预期的类簇数或者其他终止条件。

两种算法的代表：

传统的凝聚层次聚类算法有AGENES，初始时，AGENES将每个样本点自为一簇，然后这些簇根据某种准则逐渐合并，例如，如果簇C1中的一个样本点和簇C2中的一个样本点之间的距离是所有不同类簇的样本点间欧几里得距离最近的，则认为簇C1和簇C2是相似可合并的。

传统的分裂层次聚类算法有DIANA，初始时DIANA将所有样本点归为同一类簇，然后根据某种准则进行逐渐分裂，例如类簇C中两个样本点A和B之间的距离是类簇C中所有样本点间距离最远的一对，那么样本点A和B将分裂成两个簇C1和C2，并且先前类簇C中其他样本点根据与A和B之间的距离，分别纳入到簇C1和C2中,例如，类簇C中样本点O与样本点A的欧几里得距离为2，与样本点B的欧几里得距离为4，因为Distance(A，O)那么O将纳入到类簇C1中。

如图所示：

算法：AGENES。传统凝聚层次聚类算法

输入：K：目标类簇数 D：样本点集合

输出：K个类簇集合

方法：1) 将D中每个样本点当做其类簇；

2) repeat

3) 找到分属两个不同类簇，且距离最近的样本点对；

4) 将两个类簇合并；

5) util 类簇数=K

算法：DIANA。传统分裂层次聚类算法

输入：K：目标类簇数 D：样本点集合

输出：K个类簇集合

方法：1) 将D中所有样本点归并成类簇；

2) repeat

3) 在同类簇中找到距离最远的样本点对；

4) 以该样本点对为代表，将原类簇中的样本点重新分属到新类簇

5) util 类簇数=K

缺点：

传统的层次聚类算法的效率比较低O(tn²) t:迭代次数 n:样本点数，最明显的一个缺点是不具有再分配能力，即如果样本点A在某次迭代过程中已经划分给类簇C1，那么在后面的迭代过程中A将永远属于类簇C1，这将影响聚类结果的准确性。

改进：

一般情况下，层次聚类通常和划分式聚类算法组合，这样既可以解决算法效率的问题，又能解决样本点再分配的问题，在后面将介绍BIRCH算法。首先把邻近样本点划分到微簇(microcluseters)中，然后对这些微簇使用K-means算法。

----------------贴上本人实现的AGENES算法，大家有兴趣可以把DIANA算法自己实现下---------------

package com.agenes;

public class DataPoint {
    String dataPointName; // 样本点名
    Cluster cluster; // 样本点所属类簇
    private double dimensioin[]; // 样本点的维度

    public DataPoint(){

    }

    public DataPoint(double[] dimensioin,String dataPointName){
         this.dataPointName=dataPointName;
         this.dimensioin=dimensioin;
    }

    public double[] getDimensioin() {
        return dimensioin;
    }

    public void setDimensioin(double[] dimensioin) {
        this.dimensioin = dimensioin;
    }

    public Cluster getCluster() {
        return cluster;
    }

    public void setCluster(Cluster cluster) {
        this.cluster = cluster;
    }

    public String getDataPointName() {
        return dataPointName;
    }

    public void setDataPointName(String dataPointName) {
        this.dataPointName = dataPointName;
    }
}

package com.agenes;

import java.util.ArrayList;
import java.util.List;

public class Cluster {
    private List dataPoints = new ArrayList(); // 类簇中的样本点
    private String clusterName;

    public List getDataPoints() {
        return dataPoints;
    }

    public void setDataPoints(List dataPoints) {
        this.dataPoints = dataPoints;
    }

    public String getClusterName() {
        return clusterName;
    }

    public void setClusterName(String clusterName) {
        this.clusterName = clusterName;
    }

}

package com.agenes;

import java.util.ArrayList;
import java.util.List;

public class ClusterAnalysis {
   public List startAnalysis(List dataPoints,int ClusterNum){
      List finalClusters=new ArrayList();

      List originalClusters=initialCluster(dataPoints);
      finalClusters=originalClusters;
      while(finalClusters.size()>ClusterNum){
          double min=Double.MAX_VALUE;
          int mergeIndexA=0;
          int mergeIndexB=0;
          for(int i=0;i               for(int j=0;j                   if(i!=j){
                      Cluster clusterA=finalClusters.get(i);
                      Cluster clusterB=finalClusters.get(j);

                      List dataPointsA=clusterA.getDataPoints();
                      List dataPointsB=clusterB.getDataPoints();

                      for(int m=0;m                           for(int n=0;n                               double tempDis=getDistance(dataPointsA.get(m),dataPointsB.get(n));
                              if(tempDis                                   min=tempDis;
                                  mergeIndexA=i;
                                  mergeIndexB=j;
                              }
                          }
                      }
                  }
              } //end for j
          }// end for i
          //合并cluster[mergeIndexA]和cluster[mergeIndexB]
          finalClusters=mergeCluster(finalClusters,mergeIndexA,mergeIndexB);
      }//end while

      return finalClusters;
   }

   private List mergeCluster(List clusters,int mergeIndexA,int mergeIndexB){
        if (mergeIndexA != mergeIndexB) {
            // 将cluster[mergeIndexB]中的DataPoint加入到 cluster[mergeIndexA]
            Cluster clusterA = clusters.get(mergeIndexA);
            Cluster clusterB = clusters.get(mergeIndexB);

            List dpA = clusterA.getDataPoints();
            List dpB = clusterB.getDataPoints();

            for (DataPoint dp : dpB) {
                DataPoint tempDp = new DataPoint();
                tempDp.setDataPointName(dp.getDataPointName());
                tempDp.setDimensioin(dp.getDimensioin());
                tempDp.setCluster(clusterA);
                dpA.add(tempDp);
            }

            clusterA.setDataPoints(dpA);

            // List clusters中移除cluster[mergeIndexB]
            clusters.remove(mergeIndexB);
        }

        return clusters;
   }

   // 初始化类簇
   private List initialCluster(List dataPoints){
       List originalClusters=new ArrayList();
       for(int i=0;i            DataPoint tempDataPoint=dataPoints.get(i);
           List tempDataPoints=new ArrayList();
           tempDataPoints.add(tempDataPoint);

           Cluster tempCluster=new Cluster();
           tempCluster.setClusterName("Cluster "+String.valueOf(i));
           tempCluster.setDataPoints(tempDataPoints);

           tempDataPoint.setCluster(tempCluster);
           originalClusters.add(tempCluster);
       }

       return originalClusters;
   }

   //计算两个样本点之间的欧几里得距离
   private double getDistance(DataPoint dpA,DataPoint dpB){
        double distance=0;
        double[] dimA = dpA.getDimensioin();
        double[] dimB = dpB.getDimensioin();

        if (dimA.length == dimB.length) {
            for (int i = 0; i < dimA.length; i++) {
                 double temp=Math.pow((dimA[i]-dimB[i]),2);
                 distance=distance+temp;
            }
            distance=Math.pow(distance, 0.5);
        }

       return distance;
   }

   public static void main(String[] args){
       ArrayList dpoints = new ArrayList();

       double[] a={2,3};
       double[] b={2,4};
       double[] c={1,4};
       double[] d={1,3};
       double[] e={2,2};
       double[] f={3,2};

       double[] g={8,7};
       double[] h={8,6};
       double[] i={7,7};
       double[] j={7,6};
       double[] k={8,5};

//       double[] l={100,2};//孤立点

       double[] m={8,20};
       double[] n={8,19};
       double[] o={7,18};
       double[] p={7,17};
       double[] q={8,20};

       dpoints.add(new DataPoint(a,"a"));
       dpoints.add(new DataPoint(b,"b"));
       dpoints.add(new DataPoint(c,"c"));
       dpoints.add(new DataPoint(d,"d"));
       dpoints.add(new DataPoint(e,"e"));
       dpoints.add(new DataPoint(f,"f"));

       dpoints.add(new DataPoint(g,"g"));
       dpoints.add(new DataPoint(h,"h"));
       dpoints.add(new DataPoint(i,"i"));
       dpoints.add(new DataPoint(j,"j"));
       dpoints.add(new DataPoint(k,"k"));

//       dataPoints.add(new DataPoint(l,"l"));

       dpoints.add(new DataPoint(m,"m"));
       dpoints.add(new DataPoint(n,"n"));
       dpoints.add(new DataPoint(o,"o"));
       dpoints.add(new DataPoint(p,"p"));
       dpoints.add(new DataPoint(q,"q"));

       int clusterNum=3; //类簇数

       ClusterAnalysis ca=new ClusterAnalysis();
       List clusters=ca.startAnalysis(dpoints, clusterNum);

       for(Cluster cl:clusters){
           System.out.println("------"+cl.getClusterName()+"------");
           List tempDps=cl.getDataPoints();
           for(DataPoint tempdp:tempDps){
               System.out.println(tempdp.getDataPointName());
           }
       }

   }
}

基于密度的聚类算法OPTICS

1 什么是OPTICS算法

在前面介绍的DBSCAN算法中，有两个初始参数E（邻域半径）和minPts(E邻域最小点数)需要用户手动设置输入，并且聚类的类簇结果对这两个参数的取值非常敏感，不同的取值将产生不同的聚类结果，其实这也是大多数其他需要初始化参数聚类算法的弊端。

为了克服DBSCAN算法这一缺点，提出了OPTICS算法（Ordering Points to identify the clustering structure）。OPTICS并不显示的产生结果类簇，而是为聚类分析生成一个增广的簇排序（比如，以可达距离为纵轴，样本点输出次序为横轴的坐标图），这个排序代表了各样本点基于密度的聚类结构。它包含的信息等价于从一个广泛的参数设置所获得的基于密度的聚类，换句话说，从这个排序中可以得到基于任何参数E和minPts的DBSCAN算法的聚类结果。

2 OPTICS两个概念

核心距离：

对象p的核心距离是指是p成为核心对象的最小E’。如果p不是核心对象，那么p的核心距离没有任何意义。

可达距离：

对象q到对象p的可达距离是指p的核心距离和p与q之间欧几里得距离之间的较大值。如果p不是核心对象，p和q之间的可达距离没有意义。

例如：假设邻域半径E=2, minPts=3，存在点A(2,3),B(2,4),C(1,4),D(1,3),E(2,2),F(3,2)

点A为核心对象，在A的E领域中有点{A,B,C,D,E,F}，其中A的核心距离为E’=1，因为在点A的E’邻域中有点{A,B,D,E}>3;

点F到核心对象点A的可达距离为，因为A到F的欧几里得距离，大于点A的核心距离1.

3 算法描述

OPTICS算法额外存储了每个对象的核心距离和可达距离。基于OPTICS产生的排序信息来提取类簇。

算法描述如下：

算法：OPTICS

输入：样本集D, 邻域半径E, 给定点在E领域内成为核心对象的最小领域点数MinPts

输出：具有可达距离信息的样本点输出排序

方法：1 创建两个队列，有序队列和结果队列。（有序队列用来存储核心对象及其该核心对

象的直接可达对象，并按可达距离升序排列；结果队列用来存储样本点的输出次

序）；

2 如果所有样本集D中所有点都处理完毕，则算法结束。否则，选择一个未处理（即

不在结果队列中）且为核心对象的样本点，找到其所有直接密度可达样本点，如

过该样本点不存在于结果队列中，则将其放入有序队列中，并按可达距离排序；

3 如果有序队列为空，则跳至步骤2，否则，从有序队列中取出第一个样本点（即可

达距离最小的样本点）进行拓展，并将取出的样本点保存至结果队列中，如果它不

存在结果队列当中的话。

3.1 判断该拓展点是否是核心对象，如果不是，回到步骤3，否则找到该拓展点所

有的直接密度可达点；

3.2 判断该直接密度可达样本点是否已经存在结果队列，是则不处理，否则下一

步；

3.2 如果有序队列中已经存在该直接密度可达点，如果此时新的可达距离小于旧

的可达距离，则用新可达距离取代旧可达距离，有序队列重新排序；

3.3 如果有序队列中不存在该直接密度可达样本点，则插入该点，并对有序队列

重新排序；

4 算法结束，输出结果队列中的有序样本点。

大家或许会很疑惑，这里不也有输入参数E和MinPts吗？其实这里的E和MinPts只是起到算法辅助作用，也就是说E和MinPts的细微变化并不会影响到样本点的相对输出顺序，这对我们分析聚类结果是没有任何影响。

我们采用与先前DBSCAN相同的样本点集合，

对于样本点

a={2,3};b={2,4};c={1,4};d={1,3};e={2,2};f={3,2};

g={8,7};h={8,6};i={7,7};j={7,6};k={8,5};

l={100,2};//孤立点

m={8,20};n={8,19};o={7,18};p={7,17};q={8,21};

并且使用相同的E=2 MinPts=4时，输出序列为

1->a:1.0

2->e:1.0

3->b:1.0

4->d:1.0

5->c:1.4142135623730951

6->f:1.4142135623730951

------

7->g:1.4142135623730951

8->j:1.4142135623730951

9->k:1.4142135623730951

10->i:1.4142135623730951

11->h:1.4142135623730951

------

12->n:2.0

13->q:2.0

14->o:2.0

15->m:2.0

如图，按照算法，分三个阶段输出了三波值

{a,e,b,d,c,f} ,{g,j,k,I,h},{n,q,o,m}

这和DBSCAN的类簇结果是一样的。不仅如此，我们通过分析有序图还能直接得到当参数E=1.5,minPts=4时DBSCAN的类簇结果，只要在坐标图中找到Y值小于1.5的样本点即可，只有两类{a,e,b,d,c,f} ,{g,j,k,I,h},其他点被认为是孤立点，和DBSCAN聚类算法取E=1.5,minPts=4时的结果一致。

所以说，这个OPTICS聚类算法所得的簇排序信息等价于一个广泛的参数设置所获得的基于密度的聚类结果。

具体实现算法如下：

package com.optics;

public class DataPoint {
    private String name; // 样本点名
    private double dimensioin[]; // 样本点的维度
    private double coreDistance; //核心距离，如果该点不是核心对象，则距离为-1
    private double reachableDistance; //可达距离

    public DataPoint(){
    }

    public DataPoint(DataPoint e){
        this.name=e.name;
        this.dimensioin=e.dimensioin;
        this.coreDistance=e.coreDistance;
        this.reachableDistance=e.reachableDistance;
    }

    public DataPoint(double dimensioin[],String name){
        this.name=name;
        this.dimensioin=dimensioin;
        this.coreDistance=-1;
        this.reachableDistance=-1;
    }

    public String getName() {
        return name;
    }
    public void setName(String name) {
        this.name = name;
    }
    public double[] getDimensioin() {
        return dimensioin;
    }
    public void setDimensioin(double[] dimensioin) {
        this.dimensioin = dimensioin;
    }
    public double getCoreDistance() {
        return coreDistance;
    }
    public void setCoreDistance(double coreDistance) {
        this.coreDistance = coreDistance;
    }
    public double getReachableDistance() {
        return reachableDistance;
    }
    public void setReachableDistance(double reachableDistance) {
        this.reachableDistance = reachableDistance;
    }
}
package com.optics;

import java.util.ArrayList;
import java.util.Collections;
import java.util.Comparator;
import java.util.List;

public class ClusterAnalysis {
    class ComparatorDp implements Comparator{
        public int compare(DataPoint arg0, DataPoint arg1) {
            double temp=arg0.getReachableDistance()-arg1.getReachableDistance();
            int a = 0;
            if (temp < 0) {
                a = -1;
            } else {
                a = 1;
            }
            return a;
        }
    }


    public List startAnalysis(List dataPoints,
            double radius, int ObjectNum) {
        List dpList = new ArrayList();
        List dpQue = new ArrayList();

        int total = 0;
        while (total < dataPoints.size()) {
            if (isContainedInList(dataPoints.get(total), dpList) == -1 ) {
                List tmpDpList = isKeyAndReturnObjects(dataPoints.get(total),
                        dataPoints, radius, ObjectNum);
                if(tmpDpList != null && tmpDpList.size() > 0){
                    DataPoint newDataPoint=new DataPoint(dataPoints.get(total));
                   dpQue.add(newDataPoint);
                }
            }
            while (!dpQue.isEmpty()) {
                DataPoint tempDpfromQ = dpQue.remove(0);
                DataPoint newDataPoint=new DataPoint(tempDpfromQ);
                dpList.add(newDataPoint);
                List tempDpList = isKeyAndReturnObjects(tempDpfromQ,
                        dataPoints, radius, ObjectNum);
               System.out.println(newDataPoint.getName()+":"+newDataPoint.getReachableDistance());
                if (tempDpList != null && tempDpList.size() > 0) {
                    for (int i = 0; i < tempDpList.size(); i++) {
                        DataPoint tempDpfromList = tempDpList.get(i);
                        int indexInList = isContainedInList(tempDpfromList,
                                dpList);
                        int indexInQ = isContainedInList(tempDpfromList, dpQue);
                        if (indexInList == -1) {
                            if (indexInQ > -1) {
                                int index = -1;
                                for (DataPoint dataPoint : dpQue) {
                                    index++;
                                    if (index == indexInQ) {
                                        if (dataPoint.getReachableDistance() > tempDpfromList
                                                .getReachableDistance()) {
                                            dataPoint
                                                    .setReachableDistance(tempDpfromList
                                                            .getReachableDistance());
                                        }
                                    }
                                }
                            } else {
                                dpQue.add(new DataPoint(tempDpfromList));
                            }
                        }
                    }

                    // TODO：对Q进行重新排序
                    Collections.sort(dpQue, new ComparatorDp());
                }
            }
            System.out.println("------");
            total++;

        }

        return dpList;
    }


    public void displayDataPoints(List dps){
        for(DataPoint dp: dps){
            System.out.println(dp.getName()+":"+dp.getReachableDistance());
        }
    }


    private int isContainedInList(DataPoint dp, List dpList) {
        int index = -1;
        for (DataPoint dataPoint : dpList) {
            index++;
            if (dataPoint.getName().equals(dp.getName())) {
                return index;
            }
        }
        return -1;
    }


   private List isKeyAndReturnObjects(DataPoint dataPoint,List dataPoints,double radius,int ObjectNum){
       List arrivableObjects=new ArrayList(); //用来存储所有直接密度可达对象
       List distances=new ArrayList(); //欧几里得距离
       double coreDistance; //核心距离

        for (int i = 0; i < dataPoints.size(); i++) {
            DataPoint dp = dataPoints.get(i);
            double distance = getDistance(dataPoint, dp);
            if (distance <= radius) {
                distances.add(distance);
                arrivableObjects.add(dp);
            }
        }

       if(arrivableObjects.size()>=ObjectNum){
           List newDistances=new ArrayList(distances);
           Collections.sort(distances);
           coreDistance=distances.get(ObjectNum-1);
           for(int j=0;j                 if (coreDistance > newDistances.get(j)) {
                    if(newDistances.get(j)==0){
                        dataPoint.setReachableDistance(coreDistance);
                    }
                    arrivableObjects.get(j).setReachableDistance(coreDistance);
                }else{
                    arrivableObjects.get(j).setReachableDistance(newDistances.get(j));
                }
           }
           return arrivableObjects;
       }

       return null;
   }


    private double getDistance(DataPoint dp1,DataPoint dp2){
        double distance=0.0;
        double[] dim1=dp1.getDimensioin();
        double[] dim2=dp2.getDimensioin();
        if(dim1.length==dim2.length){
            for(int i=0;i                 double temp=Math.pow((dim1[i]-dim2[i]), 2);
                distance=distance+temp;
            }
            distance=Math.pow(distance, 0.5);
            return distance;
        }
        return distance;
    }

    public static void main(String[] args){
         ArrayList dpoints = new ArrayList();

         double[] a={2,3};
         double[] b={2,4};
         double[] c={1,4};
         double[] d={1,3};
         double[] e={2,2};
         double[] f={3,2};

         double[] g={8,7};
         double[] h={8,6};
         double[] i={7,7};
         double[] j={7,6};
         double[] k={8,5};

         double[] l={100,2};//孤立点

         double[] m={8,20};
         double[] n={8,19};
         double[] o={7,18};
         double[] p={7,17};
         double[] q={8,21};

         dpoints.add(new DataPoint(a,"a"));
         dpoints.add(new DataPoint(b,"b"));
         dpoints.add(new DataPoint(c,"c"));
         dpoints.add(new DataPoint(d,"d"));
         dpoints.add(new DataPoint(e,"e"));
         dpoints.add(new DataPoint(f,"f"));

         dpoints.add(new DataPoint(g,"g"));
         dpoints.add(new DataPoint(h,"h"));
         dpoints.add(new DataPoint(i,"i"));
         dpoints.add(new DataPoint(j,"j"));
         dpoints.add(new DataPoint(k,"k"));

         dpoints.add(new DataPoint(l,"l"));

         dpoints.add(new DataPoint(m,"m"));
         dpoints.add(new DataPoint(n,"n"));
         dpoints.add(new DataPoint(o,"o"));
         dpoints.add(new DataPoint(p,"p"));
         dpoints.add(new DataPoint(q,"q"));

         ClusterAnalysis ca=new ClusterAnalysis();
         List dps=ca.startAnalysis(dpoints, 2, 4);
         ca.displayDataPoints(dps);
    }

}

DBSCAN

一什么是基于密度的聚类算法

由于层次聚类算法和划分式聚类算往往只能发现凸形的聚类簇。为了弥补这一缺陷，发现各种任意形状的聚类簇，开发出基于密度的聚类算法。这类算法认为，在整个样本空间点中，各目标类簇是由一群的稠密样本点组成的，而这些稠密样本点被低密度区域（噪声）分割，而算法的目的就是要过滤低密度区域，发现稠密样本点。

二 DBSCAN（Density-based Spatial Clustering of Applications with Noise）

是一种基于高密度联通区域的聚类算法，它将类簇定义为高密度相连点的最大集合。它本身对噪声不敏感，并且能发现任意形状的类簇。

DBSCAN中的的几个定义：

Ε领域：给定对象半径为Ε内的区域称为该对象的Ε领域

核心对象：如果给定对象Ε领域内的样本点数大于等于MinPts，则称该对象为核心对象。

直接密度可达：对于样本集合D，如果样本点q在p的Ε领域内，并且p为核心对象，那么对象q从对象p直接密度可达。

密度可达：对于样本集合D，给定一串样本点p₁,p₂….p_n，p= p₁,q= p_n,假如对象p_i从p_i-1直接密度可达，那么对象q从对象p密度可达。

密度相连：对于样本集合D中的任意一点O，如果存在对象p到对象o密度可达，并且对象q到对象o密度可达，那么对象q到对象p密度相连。

可以发现，密度可达是直接密度可达的传递闭包，并且这种关系是非对称的。密度相连是对称关系。DBSCAN目的是找到密度相连对象的最大集合。

Eg: 假设半径Ε=3，MinPts=3，点p的E领域中有点{m,p,p1,p2,o}, 点m的E领域中有点{m,q,p,m1,m2},点q的E领域中有点{q,m},点o的E领域中有点{o,p,s},点s的E领域中有点{o,s,s1}.

那么核心对象有p,m,o,s(q不是核心对象，因为它对应的E领域中点数量等于2，小于MinPts=3)；

点m从点p直接密度可达，因为m在p的E领域内，并且p为核心对象；

点q从点p密度可达，因为点q从点m直接密度可达，并且点m从点p直接密度可达；

点q到点s密度相连，因为点q从点p密度可达，并且s从点p密度可达。

三算法描述

算法：DBSCAN

输入：E — 半径

MinPts — 给定点在E领域内成为核心对象的最小领域点数

D — 集合

输出：目标类簇集合

方法：repeat

1) 判断输入点是否为核心对象

2) 找出核心对象的E领域中的所有直接密度可达点

util 所有输入点都判断完毕

repeat

针对所有核心对象的E领域所有直接密度可达点找到最大密度相连对象集合，

中间涉及到一些密度可达对象的合并。

Util 所有核心对象的E领域都遍历完毕

算法：DBSCAN

输入：E — 半径

MinPts — 给定点在E领域内成为核心对象的最小领域点数

D — 集合

输出：目标类簇集合

方法：repeat

1) 判断输入点是否为核心对象

2) 找出核心对象的E领域中的所有直接密度可达点

util 所有输入点都判断完毕

repeat

针对所有核心对象的E领域所有直接密度可达点找到最大密度相连对象集合，

中间涉及到一些密度可达对象的合并。

Util 所有核心对象的E领域都遍历完毕

四算法实现

package com.dbscan;

public class DataPoint {
    private String dataPointName; // 样本点名
    private double dimensioin[]; // 样本点的维度
    private boolean isKey; //是否是核心对象

    public DataPoint(){

    }

    public DataPoint(double[] dimensioin,String dataPointName,boolean isKey){
         this.dataPointName=dataPointName;
         this.dimensioin=dimensioin;
         this.isKey=isKey;
    }

}

------------

package com.dbscan;

import java.util.ArrayList;
import java.util.List;

public class Cluster {
    private List dataPoints = new ArrayList(); // 类簇中的样本点
    private String clusterName; //簇名

    public List getDataPoints() {
        return dataPoints;
    }

    public void setDataPoints(List dataPoints) {
        this.dataPoints = dataPoints;
    }

    public String getClusterName() {
        return clusterName;
    }

    public void setClusterName(String clusterName) {
        this.clusterName = clusterName;
    }

}

------------

package com.dbscan;

import java.util.ArrayList;
import java.util.List;

public class ClusterAnalysis {


    public List doDbscanAnalysis(List dataPoints,
            double radius, int ObjectNum) {
         List clusterList=new ArrayList();
         for(int i=0; i
             DataPoint dp=dataPoints.get(i);
             List arrivableObjects=isKeyAndReturnObjects(dp,dataPoints,radius,ObjectNum);
             if(arrivableObjects!=null){
                  Cluster tempCluster=new Cluster();
                  tempCluster.setClusterName("Cluster "+i);
                  tempCluster.setDataPoints(arrivableObjects);
                  clusterList.add(tempCluster);
             }
         }

         for(int i=0;i
             for(int j=0;j
                  if(i!=j){
                      Cluster clusterA=clusterList.get(i);
                      Cluster clusterB=clusterList.get(j);

                      List dpsA=clusterA.getDataPoints();
                      List dpsB=clusterB.getDataPoints();

                      boolean flag=mergeList(dpsA,dpsB);
                      if(flag){
                          clusterList.set(j, new Cluster());
                      }
                  }
             }
         }

         return clusterList;
    }



    public void displayCluster(List clusterList){
        if(clusterList!=null){
            for(Cluster tempCluster:clusterList){
               if(tempCluster.getDataPoints()!=null&&tempCluster.getDataPoints().size()>0){
                    System.out.println("----------"+tempCluster.getClusterName()+"----------");
                    for(DataPoint dp:tempCluster.getDataPoints()){
                       System.out.println(dp.getDataPointName());
                    }
                }
            }
        }
    }


    private double getDistance(DataPoint dp1,DataPoint dp2){
        double distance=0.0;
        double[] dim1=dp1.getDimensioin();
        double[] dim2=dp2.getDimensioin();
        if(dim1.length==dim2.length){
            for(int i=0;i
                double temp=Math.pow((dim1[i]-dim2[i]), 2);
                distance=distance+temp;
            }
            distance=Math.pow(distance, 0.5);
            return distance;
        }
        return distance;
    }


   private List isKeyAndReturnObjects(DataPoint dataPoint,List dataPoints,double radius,int ObjectNum){
       List arrivableObjects=new ArrayList(); //用来存储所有直接密度可达对象

       for(DataPoint dp:dataPoints){
          double distance=getDistance(dataPoint,dp);
          if(distance<=radius){
              arrivableObjects.add(dp);
          }
       }

       if(arrivableObjects.size()>=ObjectNum){
           dataPoint.setKey(true);
           return arrivableObjects;
       }

       return null;
   }


   private boolean isContain(DataPoint dp,List dps){
      boolean flag=false;
      String name=dp.getDataPointName().trim();
      for(DataPoint tempDp:dps){
         String tempName=tempDp.getDataPointName().trim();
         if(name.equals(tempName)){
             flag=true;
             break;
         }
      }

      return flag;
   }


   private boolean mergeList(List dps1,List dps2){
       boolean flag=false;

       if(dps1==null||dps2==null||dps1.size()==0||dps2.size()==0){
           return flag;
       }

       for(DataPoint dp:dps2){
          if(dp.isKey()&&isContain(dp,dps1)){
             flag=true;
             break;
          }
       }

       if(flag){
           for(DataPoint dp:dps2){
              if(!isContain(dp,dps1)){
                  DataPoint tempDp=new DataPoint(dp.getDimensioin(),dp.getDataPointName(),dp.isKey());
                  dps1.add(tempDp);
              }
           }
       }

       return flag;
   }

   public static void main(String[] args){
       ArrayList dpoints = new ArrayList();

       double[] a={2,3};
       double[] b={2,4};
       double[] c={1,4};
       double[] d={1,3};
       double[] e={2,2};
       double[] f={3,2};

       double[] g={8,7};
       double[] h={8,6};
       double[] i={7,7};
       double[] j={7,6};
       double[] k={8,5};

       double[] l={100,2};//孤立点

       double[] m={8,20};
       double[] n={8,19};
       double[] o={7,18};
       double[] p={7,17};
       double[] q={8,21};

       dpoints.add(new DataPoint(a,"a",false));
       dpoints.add(new DataPoint(b,"b",false));
       dpoints.add(new DataPoint(c,"c",false));
       dpoints.add(new DataPoint(d,"d",false));
       dpoints.add(new DataPoint(e,"e",false));
       dpoints.add(new DataPoint(f,"f",false));

       dpoints.add(new DataPoint(g,"g",false));
       dpoints.add(new DataPoint(h,"h",false));
       dpoints.add(new DataPoint(i,"i",false));
       dpoints.add(new DataPoint(j,"j",false));
       dpoints.add(new DataPoint(k,"k",false));

       dpoints.add(new DataPoint(l,"l",false));

       dpoints.add(new DataPoint(m,"m",false));
       dpoints.add(new DataPoint(n,"n",false));
       dpoints.add(new DataPoint(o,"o",false));
       dpoints.add(new DataPoint(p,"p",false));
       dpoints.add(new DataPoint(q,"q",false));

       ClusterAnalysis ca=new ClusterAnalysis();
       List clusterList=ca.doDbscanAnalysis(dpoints, 2, 4);
       ca.displayCluster(clusterList);

   }
}


}

所有均转载自：http://www.360doc.com/userhome.aspx?userid=7000788&cid=9

你可能感兴趣的:(聚类)

国自然青年项目｜基于多模态影像组学的乳腺癌分子分型预测研究｜基金申请·25-01-20 罗小罗同学基金申请医学人工智能人工智能国自然
小罗碎碎念今天和大家分享一份国自然青年项目，项目执行期为2021-2023年，直接费用为24万。项目聚焦乳腺癌分子分型预测，综合运用多模态组学数据、影像组学技术和深度学习技术。研究内容包括跨模态医学图像分割、多模态特征提取与融合、模型设计与系统研发。通过提出一系列创新算法，如基于类别中心原型对齐器的图像分割算法、基于自注意力机制与生成对抗网络的聚类算法等，实现了对乳腺癌分子分型的高精度预测，并开发
K-means聚类：解锁数据隐藏结构的钥匙陈辰学长 kmeans 聚类机器学习
K-means聚类：解锁数据隐藏结构的钥匙在机器学习的广阔领域中，无监督学习以其独特的魅力吸引了众多研究者和实践者。其中，K-means聚类作为一种经典且实用的无监督学习算法，以其简单高效的特点，广泛应用于市场细分、图像分割和基因聚类等领域。本文将深入探讨K-means聚类的工作原理、应用实例及其在这些领域中的具体应用，旨在揭示其如何智能划分数据，解锁隐藏结构，为相关领域提供精准导航。一、K-me
【Python机器学习】无监督学习——K-均值聚类算法 zhangbin_237 Python机器学习机器学习算法 python kmeans k-means 均值算法
聚类是一种无监督的学习，它将相似的对象归到同一簇中，它有点像全自动分类。聚类方法几乎可以应用于所有的对象，簇内的对象越相似，聚类的效果越好。K-均值聚类算法就是一种典型的聚类算法，之所以称之为K-均值是因为它可以发现k个不同的簇，且每个簇的中心采用簇中所含值的均值计算而成。簇识别给出聚类结果的含义，假定有一些数据，现在将相似数据归到一起，簇识别会告诉我们这些簇到底都是些什么。聚类与分类的最大不同在
PCL 基于法线微分（DoN）的点云分割【2025最新版】点云侠 PCL学习算法可视化聚类 c++开发语言计算机视觉 3d
法线微分一、算法原理1、DoN定义2、DoN算法3、DoN分割步骤4、参考文献5、论文描述二、代码实现三、结果展示1、法线可视化结果2、对应曲率信息可视化3、利用曲率分类结果可视化4、欧式聚类分割结果本文由CSDN点云侠原创，原文链接，首发于：2020年07月27日。抄袭狗把自己当个狗加油抄，抄袭狗抄哪一篇进自己的付费专栏，我就哪一篇永久免费开放。博客长期更新，本文最新更新时间为：2025年1月1
【机器学习】聚类【Ⅰ】基础知识与距离度量不牌不改【机器学习】聚类机器学习算法
主要来自周志华《机器学习》一书，数学推导主要来自简书博主“形式运算”的原创博客，包含自己的理解。有任何的书写错误、排版错误、概念错误等，希望大家包含指正。由于字数限制，分成五篇博客。【机器学习】聚类【Ⅰ】基础知识与距离度量【机器学习】聚类【Ⅱ】原型聚类经典算法【机器学习】聚类【Ⅲ】高斯混合模型讲解【机器学习】聚类【Ⅳ】高斯混合模型数学推导【机器学习】聚类【Ⅴ】密度聚类与层次聚类聚类1聚类任务在“无
层次聚类算法数小模. 算法数学建模算法聚类机器学习
层次聚类算法是通过将数据组织为若干组并形成一个相应的树来进行聚类。根据层次是自底向上还是自顶向下形成的，层次聚类算法可以进一步分为凝聚型的聚类算法（AGENES）算法和分裂型的聚类（DIANA）算法。一个完全层次聚类的质量由于无法对已经做的合并或分解进行调整而受到影响。但是层次聚类算法没有使用准则函数，它所含的对数据结构的假设更少，所以它的通用性更强。这种自底向上的策略首先将每个对象作为一个簇，然
【机器学习：二十九、K-means算法：原理与应用】 KeyPan 机器学习机器学习算法 kmeans 人工智能神经网络深度学习数据挖掘
1.K-means概述K-means是一种经典的无监督学习算法，广泛应用于数据聚类任务。其核心思想是将数据集划分为kkk个簇，使得每个簇内的样本尽可能相似，同时不同簇之间尽可能不同。K-means的简单性和高效性使其在模式识别、图像处理、市场分析等领域具有广泛应用。核心思想基于欧几里得距离度量数据点之间的相似性。不断优化簇中心位置，最小化簇内样本与其中心点之间的总距离（即误差平方和，SSE）。适用
多维偏好分析及其在实际决策中的应用：基于PCA-KMeans的数据降维与模式识别方法
多维偏好分析（MultidimensionalPreferenceAnalysis,MPA）是一种在市场营销、心理学和公共政策等领域广泛应用的分析工具，用于研究多维度下的复杂偏好决策过程。在高维数据集中，当属性与偏好之间存在非线性关系或维度重叠时，偏好的理解和可视化呈现出显著的技术挑战。本文本将研究采用主成分分析（PrincipalComponentAnalysis,PCA）和K均值聚类算法对鸢尾
[Python数据分析]最通俗入门Kmeans聚类分析，可视化展示代码。 William数据分析 python kmeans 数据分析分类机器学习 python
什么是k-means分析？【头条@William数据分析，看原版】想象一下，你有一堆五颜六色的糖果，你想把它们按照颜色分成几堆。k-means分析就是这么一个自动分类的过程。它会根据糖果的颜色特征，把它们分成若干个组，每个组里的糖果颜色都比较相似。更专业一点说，k-means分析是一种常用的聚类算法，它会将数据集中的数据点分成k个不同的簇。每个簇都有一个中心点，这个中心点就是簇中所有数据点的平均值
C++：实现聚类算法（附带源码） Katie。 c c++实现算法算法聚类支持向量机
项目介绍聚类是无监督学习中一种常用的算法，用于将数据集中的对象分组（称为簇），使得同一簇中的对象相似度较高，而不同簇之间的对象相似度较低。在许多领域，如数据挖掘、图像处理和模式识别等，聚类算法都有广泛应用。在本项目中，我们将实现最常见的聚类算法之一——K均值聚类（K-MeansClustering）。该算法的目标是通过迭代的方式将数据集划分为K个簇，每个簇由其中心（均值）表示。项目实现思路输入参数
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
9.单细胞 RNA-seq：聚类分析 denghb001
学习目标：利用多种方法来评估聚类选择的PC基于重要的PC执行单细胞聚类单细胞RNA-seq聚类分析现在我们已经整合了高质量的细胞，我们想知道我们的细胞群中存在的不同细胞类型。image目标：为了生成特定细胞类型的簇，并使用已知的细胞类型的标志基因来确定的簇的身份。为了确定分群是否代表真实的细胞类型或由于生物或技术差异而形成的群集，如在细胞周期的S期的细胞群，特定批次的簇，或具有高线粒体含量的细胞。
K-means 算法的介绍与应用小魏冬琅 matlab 算法 kmeans 机器学习
目录引言K-means算法的基本原理表格总结：K-means算法的主要步骤K-means算法的MATLAB实现优化方法与改进K-means算法的应用领域表格总结：K-means算法的主要应用领域结论引言K-means算法是一种经典的基于距离的聚类算法，在数据挖掘、模式识别、图像处理等多个领域中得到了广泛应用。其核心思想是将相似的数据对象聚类到同一个簇中，而使得簇内对象的相似度最大、簇间的相似度最小
聚类分析 | Python密度聚类（DBSCAN）天天酷科研聚类分析算法（CLA）python 聚类机器学习 DBSCAN
密度聚类是一种无需预先指定聚类数量的聚类方法，它依赖于数据点之间的密度关系来自动识别聚类结构。本文中，演示如何使用密度聚类算法，具体是DBSCAN（Density-BasedSpatialClusteringofApplicationswithNoise）来对一个实际的数据集进行聚类分析。一、基本介绍密度聚类的核心思想是将数据点分为高密度区域和低密度区域。高密度区域内的数据点被认为属于同一簇，而低
机器学习实战笔记5——线性判别分析绍少阿机器学习笔记可视化机器学习 python 人工智能
任务安排1、机器学习导论8、核方法2、KNN及其实现9、稀疏表示3、K-means聚类10、高斯混合模型4、主成分分析11、嵌入学习5、线性判别分析12、强化学习6、贝叶斯方法13、PageRank7、逻辑回归14、深度学习线性判别分析（LDA）Ⅰ核心思想对于同样一件事，站在不同的角度，我们往往会有不同的看法，而降维思想，亦是如此。同上节课一样，我们还是学习降维的算法，只是提供了一种新的角度，由上
图计算：基于SparkGrpahX计算聚类系数妙龄少女郭德纲 Spark 图算法 Scala 聚类数据挖掘机器学习
图计算：基于SparkGrpahX计算聚类系数文章目录图计算：基于SparkGrpahX计算聚类系数一、什么是聚类系数二、基于SparkGraphX的聚类系数代码实现总结一、什么是聚类系数聚类系数（ClusteringCoefficient）是图计算和网络分析中的一个重要概念，用于衡量网络中节点的局部聚集程度。它有助于理解网络中节点之间的紧密程度和网络的结构特性。这是一种用来衡量图中节点聚类程度的
pandas/numpy数据结构算法（之行列变换）(二) （tag:行列转换，迪卡尔积，内置函数，数据结构） MrStubborn_aebe
目录：****1.Numpy-diag矩阵变换stack()/unstack()pd.pivot_table()pd.melt()groupby聚类算法mapping小技巧numpy.vectorize()**在这**里插入图片描述前言最近遇到很多需要迭代和归并数据的情况，一直以来的做法，都是循环主要的键，去进行后续操作。这是最典型的Python操作，然而还是上次提到的效率问题。记得之前朋友和我讲
R可视化之ComplexHeatmap【四】：热图小方格个性化修饰、提取亚集及热图信息 Bio_Infor
特别声明：本部分（系列）内容均来自顾祖光博士对ComplexHeatmap的介绍，仅为学习交流，尊重原创。热图系列我们已经有：R可视化之ComplexHeatmap【一】：颜色、标题、聚类R可视化之ComplexHeatmap【二】：行（列）顺序、行（列）名R可视化之ComplexHeatmap【三】：拆分今天分享：热图小方格个性化修饰、提取亚集及热图信息。热图小方格个性化修饰前段时间很多平台都在
【人工智能】大话什么是神经网络路上阳光
什么是人工智能？通俗来讲，就是让机器能像人一样思考。这个无需解释太多，因为通过各种科幻电影我们已经对人工智能很熟悉了。大家现在感兴趣的应该是——如何实现人工智能？从1956年夏季首次提出“人工智能”这一术语开始，科学家们尝试了各种方法来实现它。这些方法包括专家系统，决策树、归纳逻辑、聚类等等，但这些都是假智能。直到人工神经网络技术的出现，才让机器拥有了“真智能”。为什么说之前的方法都是假智能呢？因
机器学习之 K-均值聚类算法维生素￥机器学习机器学习算法均值算法
K-均值（K-means）聚类算法是一种常用的无监督学习算法，用于将数据集划分为K个不同的簇。该算法通过迭代的方式将数据点分配到最近的簇中，并更新簇的中心，直到收敛为止。一、K-均值聚类算法的基本步骤：初始化K个簇的中心点（可以随机选择或者根据数据集初始化）。将每个数据点分配到最近的簇中。更新每个簇的中心点为该簇所有数据点的平均值。重复步骤2和3，直到簇的中心点不再改变或达到指定的迭代次数。二、K
机器学习中的 K-均值聚类算法及其优缺点安科瑞蒋静机器学习算法均值算法
K-均值聚类算法是一种常用的无监督学习算法，用于将一组数据点划分为K个不同的聚类。该算法的主要思想是将数据点分配给最接近的聚类中心，并通过迭代优化聚类中心位置，使得聚类内部的数据点之间的距离最小化。算法流程如下：初始化K个聚类中心，可以是随机选择的数据点或者通过其他方法选择。分别计算每个数据点到K个聚类中心的距离，并将其分配给距离最近的聚类中心。更新每个聚类的中心位置为其内部所有数据点的平均值。重
三国演义python分析系统_Python之三国演义(上) weixin_40002692 三国演义python分析系统
一、设计实现详细说明1.1任务详细描述以中国四大名著之一——《三国演义》为蓝本，结合python数据分析知识进行本次的文本分析。《三国演义》全书共120回。本次的分析主要基于统计分析、文本挖掘等知识。1.2设计思路详细描述数据准备、数据预处理、分词等全书各个章节的字数、词数、段落等相关方面的关系整体词频和词云的展示全书各个章节进行聚类分析并可视化，主要进行了根据IF-IDF的系统聚类和根据词频的L
GraphRAG入门:基本概念、应用场景及学习方法学习中的程序媛~ 学习方法
一、GraphRAG的用途是什么GraphRAG用于复杂信息分析,适合处理跨文档、有噪音或主题抽象的数据.二、GraphRAG能做什么GraphRAG能连接大量信息,回答普通难搜索难以解答的问题.她可以回答跨文档的问题,也能总结数据集的主要主题.三、GraphRAG的特点1.知识图谱提取:使用llm自动从输入文本文档中创建知识图谱,表示数据中的实体、关系和关键声明2.层次聚类使用leiden技术对
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite iwindyforest vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统，安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章，只能提供大概的思路，但是实际安装起来由于版本问题，走了不少弯路，所以我尝试写以下总结，希望能给有兴趣安装OSX的人提供一点帮助。写在前面的话：其实安装好后发现，由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？ deathwknight JavaScript java 框架
本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：[email protected]）一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下平台
如何把maven项目转成web项目 Kai_Ge maven MyEclipse
创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管？？？ Array_06 工作
转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 很久以前跟同事参加的培训，同事整理得很详细，必须得转！前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
python内置函数大全 2002wmj python
最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行 357029540 JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 function mergeCell(){ var trs = $("#table tr"); &nb
Java基础冰天百华 java基础
学习函数式编程 package base; import java.text.DecimalFormat; public class Main { public static void main(String[] args) { // Integer a = 4; // Double aa = (double)a / 100000; // Decimal
unix时间戳相互转换 adminjun 转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？ Java time JavaScript Math.round(new Date().getTime()/1000) getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事 aijuans 程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 2、考虑自己明天应该做的主要工作把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法出错不要紧，最重
由html5视频播放引发的总结 ayaoxinchao html5 视频 video
前言项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。视频结构本该直接介绍html5的<video>的，但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat bewithme httpclient
如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用 bijian1013 redis redis数据库 jedis
Jedis连接池操作步骤如下： a.获取Jedis实例需要从JedisPool中获取； b.用完Jedis实例需要返还给JedisPool； c.如果Jedis在使用过程中出错，则也需要还给JedisPool； packag
变与不变 bingyingao 不变变亲情永恒
变与不变周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在，各种店铺都换了好几茬，这些是变的。三年前还很流行的一款手机在今天看起来已经落后的不像样子。三年前还运行的好好的一家公司，今天也已经不复存在。一座座高楼拔地而起，
【Scala十】Scala核心四：集合框架之List bit1129 scala
Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b
Nested Functions in C bookjovi c closure
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap BrokenDreams Collections
总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象 * * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值 * 多
After Effects操作&快捷键 cherishLC After Effects
1、快捷键官方文档中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html 2、常用快捷键
Maven 常用命令 crabdave maven
Maven 常用命令 mvn archetype:generate mvn install mvn clean mvn clean complie mvn clean test mvn clean install mvn clean package mvn test mvn package mvn site mvn dependency:res
shell bad substitution daizj shell 脚本
#!/bin/sh /data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲（原生数据类型 Primitive Data Type） dcj3sjt126com java
Java SE 第二讲： 1. Windows: notepad, editplus, ultraedit, gvim Linux: vi, vim, gedit 2. Java 中的数据类型分为两大类： 1）原生数据类型（Primitive Data Type） 2）引用类型（对象类型）（R
CGridView中实现批量删除 dcj3sjt126com PHP yii
1，CGridView中的columns添加 array( 'selectableRows' => 2, 'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用 dyy_gusi java 泛型
Java中的泛型的使用：1.普通的泛型使用在使用类的时候后面的<>中的类型就是我们确定的类型。 public class MyClass1<T> {//此处定义的泛型是T private T var; public T getVar() { return var; } public void setVa
Web开发技术十年发展历程 gcq511120594 Web 浏览器数据挖掘
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
openSession()与getCurrentSession()区别： hetongfei java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134 1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。这里getCurrentSession本地事务(本地
第一章安装Nginx+Lua开发环境 jinnianshilongnian nginx lua openresty
首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库 liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。先睹为快！下面是一个In-Process方式访问内存数据库的代码示例：下面代码需要引入hsqldb.jar包（hsqldb-2.2.8） import java.s
Java线程的5个使用技巧 pda158 java 数据结构
Java线程有哪些不太为人所知的技巧与用法？　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。
开发资源大整合：编程语言篇——JavaScript（1） shoothao JavaScript
概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。程序包管理器管理javascript库并提供对这些库的快速使用与打包的服务。 Bower - 用于web的程序包管理。 component - 用于客户端的程序包管理，构建更好的web应用程序。 spm - 全新的静态的文件包管
避免使用终结函数 vahoa.ma java jvm C++
终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。我自己总结了一下这一条的综合性结论是这样的： 1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方