pr310762957

谱聚类算法

一、什么是谱聚类算法

聚类的直观解释是根据样本间相似度，将它们分成不同组。谱聚类的思想是将样本看作顶点，样本间的相似度看作带权的边，从而将聚类问题转为图分割问题：找到一种图分割的方法使得连接不同组的边的权重尽可能低（这意味着组间相似度要尽可能低），组内的边的权重尽可能高（这意味着组内相似度要尽可能高）。根据相似度将这些顶点连起来，最后进行分割。分割后还连在一起的顶点就是同一类了。

谱聚类算法是数据挖掘中的一种聚类算法。

谱聚类算法是一种基于图论的算法：谱聚类算法将聚类问题转化为一个无向图的多路划分问题，数据点看成无向图G(V,E)中的顶点V，加权边的集合E={Sij}表示基于某一点相似性度量的两点间的相似度，用S表示待聚类数据点之间的相似性矩阵，图G中把聚类问题转变为在图G上的图划分问题，即将图G(V,E)划分为K个互不相交的子集Ｖ１，Ｖ２，．．．Ｖｋ，划分后每个子集Ｖｉ和Ｖｊ之间的相似程度较低，每个子集内部相似度较高。

记G=(V,E)表示一个无向加权图，V表示所有顶点的集合V={v1,...,vn}，E表示所有边的集合，并且任意两点vi和vj的边具有非负权值wij≥0。图的邻接矩阵为W=(wij)i,j=1,...,n，如果wij=0则表示点vi和vj之间没有连接。由于G为无向图，所以其邻接矩阵具有对称性，即wij=wij。图中任一点vi的度为di=∑nj=1wij，表示一个点与其他所有点的连接情况，图的度矩阵D为每个点的度所构成的对角矩阵D=diag{d1,...,dn}。

二、谱聚类算法原理

谱聚类的思想就是要转化为图分割问题。因此，第一步就是将原问题转化为图。转为图有两个问题要解决：一是两个顶点的边要怎样定义；二是要保留哪些边。

对于第一个问题，如果两个点在一定程度上相似，就在两个点之间添加一条边。相似的程度由边的权重表示。因此，只要是计算相似度的公式都可用。要保留部分边的原因有：边太多了不好处理；权重太低的边是多余的。样本数据转化成图以后再求出样本无向完全图对应的矩阵，前面已经介绍了。接下来就是谱聚类中如何来处理矩阵模型（就是图的划分）。

提到图的划分下面我们就来介绍下谱聚类中用到的图的划分准则：谱聚类算法的思想来源于谱图划分，假定将每个数据样本看作图中的顶点V，根据样本间的相似度将顶点间的边E赋权重值W，这样就得到一个基于样本相似度的无项加权图G=（V,E）。那么在图G中就可将聚类问题转化为在图G上的图划分问题。

划分的要求：

子图内部相似度高，

图之间的相似度小。

•对于聚类，关键的一步是要告诉计算机怎样计算两个数据点的“相似性”，不同的算法需要的“相似性”是不一样的。

•例如给出了每个数据点的空间坐标，我们就可以用数据点之间的欧式距离来判断，距离越近，数据点可以认为越“相似”。当然，也可以用其它的度量方式，这跟所涉及的具体问题有关。

下面我们来看一个例子：按照上述的划分我们来看看下面的例图划分，图上的权值根据上面的欧式距离求得

图中一共有6个顶点，顶点之间的连线表示两个顶点的相似度，现在要将这图分成两半（两个类），要怎样分割（去掉哪边条）？根据谱聚类的思想，应该去掉的权值为0.1的边和0.2的边。最后，剩下的两半就分别对应两个类了。

聚类算法关键就是对图的划分，那怎么进行最优的划分？

一般有以下几种划分准则：

1、最小割集准则

2、规范割集准则

3、比例割集准则

4、平均割集准则

5、最小最大割集准则

6、多路规范割集准则

有上面这六个划分准则，以最小割集为例老说明下划分原理：

如果我们想把一幅图像分割成Ｋ个子区域，那么我们可以通过递归调用最小割集的方法来实现，但是这个图像的分割方法有一个弊端；最小割集准则容易分割出图像中的孤立点集合。如下图所示：

最小割集准则：谱图理论中，将图G划分为A，B两个子图。通过最小化上述剪切值来划分图G，这一划分准则被称为最小割集准则。用这个准则对一些图像进行分割，产生较好的效果，但是这个准则容易出现歪斜（即偏向小区域）分割。规范割集准则及比例割集准则均可避免这种情况的发生。

以下是几个划分准则的比较

划分准则有很多，那该怎样选取一个最优的划分？

对于图的划分就是要找到一个最优解，这样我们便可以将问题转化成求解相似矩阵或Laplacian矩阵的谱分解，谱聚类将图划分准则优化问题转换成求解相似矩阵或者Laplacian矩阵特征问题，可将此类方法统称为谱聚类方法，也可以认为谱聚类方法是对图划分准则的逼近。

三、谱聚类算法中的的数学模型

上面我们介绍了引入矩阵来辅助求解，转化成矩阵的模型后我们就要用到以下这些概

首先将对应的样本转化成完全图并存在矩阵中：

double sample[N][2]; //存放所有样本点（2维的）

void readSample(char *filename){

FILE *fp;

if((fp=fopen(filename,"r"))==NULL){

perror("fopen");

exit(0);

}

char buf[50]={0};

int i=0;

while(fgets(buf,sizeof(buf),fp)!=NULL){

char *w=strtok(buf," \t");

double x=atof(w);

w=strtok(NULL," \t");

double y=atof(w);

sample[i][0]=x;

sample[i][1]=y;

i++;

memset(buf,0x00,sizeof(buf));}

assert(i==N);

fclose(fp);

}念：相似矩阵、度矩阵、 Laplacian 矩阵。

这里我们要讲到谱聚类中的关键内容——拉普拉斯矩阵，其定义为L=D–W，其中D和W就是上文定义的图的度矩阵和邻接矩阵。下面我们给出谱聚类中用到的拉普拉斯矩阵的一些性质。下面我们一上面的图为例来看看拉普拉斯矩阵。

拉普拉斯矩阵有两种形式：规范化的拉普拉斯矩阵和非规范化的拉普拉斯矩阵

１、非规范的拉普拉斯矩阵：

其中Ｄ为度矩阵，Ｗ为权值矩阵（对称的）

２、规范的拉普拉斯矩阵：

设有ｎ个样本点Ｘ１，Ｘ２，．．．Ｘｎ，由某个相似函数（可以用计算欧式距离的公式）Ｓｉｊ＝Ｓ（Ｘｉ，Ｘｊ），Ｓｉｊ非负，相似矩阵为Ｓ＝（Ｓｉｊ）ｎｘｍ

非规范谱聚类算法：　　　　

规范化谱聚类算法：

上面两个谱聚类算法都用到拉普拉斯矩阵，那么规范的拉普拉斯和非规范的拉普拉斯有什么区别？

谱聚类的算法都要计算拉普拉斯矩阵的特征值和特征向量，但是在实践中规范的拉普拉斯矩阵在实际的聚类效果中更好，能够获得更好的聚类性能。

四、谱聚类算法的实现

建立样本模型和求拉普拉斯矩阵的实现（C++代码）：

首先将对应的样本转化成完全图并存在矩阵中：

double sample[N][2]; //存放所有样本点（2维的）
void readSample(char *filename){
FILE *fp;
if((fp=fopen(filename,"r"))==NULL){
perror("fopen");
exit(0);
}
char buf[50]={0};
int i=0;
while(fgets(buf,sizeof(buf),fp)!=NULL){
char *w=strtok(buf," \t");
double x=atof(w);
w=strtok(NULL," \t");
double y=atof(w);
sample[i][0]=x;
sample[i][1]=y;
i++;
memset(buf,0x00,sizeof(buf));}
assert(i==N);
fclose(fp);
}
根据距离公式来计算出各点之间的相似度，计算拉普拉斯矩阵
double** getSimMatrix(){
//为二维矩阵申请空间
double **matrix=getMatrix(N,N);
//计算样本点两两之间的相似度，得到矩阵W
int i,j;
for(i=0;i matrix[i][i]=1;
for(j=i+1;j double dist=sqrt(pow(sample[i][0]-sample[j][0],2)+pow(sample[i][1]-sample[j][1],2));
double sim=1.0/(1+dist);
if(sim>T){
matrix[j][i]=sim;
matrix[i][j]=sim;
}}}
//计算L=D-W 求拉普拉斯矩阵
for(j=0;j double sum=0;
for(i=0;i sum+=matrix[i][j];
if(i!=j)
matrix[i][j]=0-matrix[i][j];
}
matrix[j][j]=matrix[j][j]-sum;
}
return matrix;
}

谱聚类算法的应用：

谱聚类算法是一种基于图论的算法，它在图像分割领域中应用非常广泛，对于图像处理的步骤一般分为四步：1、将待分割的图像映射为无向带权完全图。2、计算图对应的矩阵。3、求特征值特征向量。4、聚类。得出分割结果。算法中相似度矩阵由图中各像素之间的相似度构成，在计算彩色图像像素之间的相似度时，通常将图像的颜色特征值与空间距离结合起来求出各像素之间的相似度。

谱聚类算法的不足：

谱聚类算法是基于谱图理论的一类新的聚类算法,能对任意形状的数据样本进行划分,已经被成功应用到图像分割、图像识别（人脸识别）等领域。

但是谱聚类算法自身也有不足的地方：算法的时间复杂度和空间复杂度都是比较大的。

附源代码：

#include
#include
#include"matrix.h"
#include"svd.h"

#define N 19 //样本点个数
#define K 4 //K-Means算法中的K
#define T 0.1 //样本点之间相似度的阈值

double sample[N][2]; //存放所有样本点的坐标（2维的）

void readSample(char *filename){
FILE *fp;
if((fp=fopen(filename,"r"))==NULL){
perror("fopen");
exit(0);
}
char buf[50]={0};
int i=0;
while(fgets(buf,sizeof(buf),fp)!=NULL){
char *w=strtok(buf," \t");
double x=atof(w);
w=strtok(NULL," \t");
double y=atof(w);
sample[i][0]=x;
sample[i][1]=y;
i++;
memset(buf,0x00,sizeof(buf));
}
assert(i==N);
fclose(fp);
}

double** getSimMatrix(){
//为二维矩阵申请空间
double **matrix=getMatrix(N,N);
//计算样本点两两之间的相似度，得到矩阵W
int i,j;
for(i=0;i matrix[i][i]=1;
for(j=i+1;j double dist=sqrt(pow(sample[i][0]-sample[j][0],2)+pow(sample[i][1]-sample[j][1],2));
double sim=1.0/(1+dist);
if(sim>T){
matrix[j][i]=sim;
matrix[i][j]=sim;
}
}
}
//计算L=D-W
for(j=0;j double sum=0;
for(i=0;i sum+=matrix[i][j];
if(i!=j)
matrix[i][j]=0-matrix[i][j];
}
matrix[j][j]=matrix[j][j]-sum;
}
return matrix;
}

int main(){
char *file="/home/orisun/data";
readSample(file);
double **L=getSimMatrix();
printMatrix(L,N,N);

double **M=singleVector(L,N,N,5);
printMatrix(M,N,5);

freeMatrix(L,N);

return 0;
}

L已是对称矩阵，直接奇异值分解的得到的就是特征向量
#ifndef _MATRIX_H
#define _MATRIX_H

#include
#include
#include

//初始化一个二维矩阵
double** getMatrix(int rows,int columns){
double **rect=(double**)calloc(rows,sizeof(double*));
int i;
for(i=0;i rect[i]=(double*)calloc(columns,sizeof(double));
return rect;
}

//返回一个单位矩阵
double** getIndentityMatrix(int rows){
double** IM=getMatrix(rows,rows);
int i;
for(i=0;i IM[i][i]=1.0;
return IM;
}

//返回一个矩阵的副本
double** copyMatrix(double** matrix,int rows,int columns){
double** rect=getMatrix(rows,columns);
int i,j;
for(i=0;i for(j=0;j rect[i][j]=matrix[i][j];
return rect;
}

//从一个一维矩阵得到一个二维矩阵
void getFromArray(double** matrix,int rows,int columns,double *arr){
int i,j,k=0;
for(i=0;i for(j=0;j matrix[i][j]=arr[k++];
}
}
}

//打印二维矩阵
void printMatrix(double** matrix,int rows,int columns){
int i,j;
for(i=0;i for(j=0;j printf("%-10f\t",matrix[i][j]);
}
printf("\n");
}
}

//释放二维矩阵
void freeMatrix(double** matrix,int rows){
int i;
for(i=0;i free(matrix[i]);
free(matrix);
}

//获取二维矩阵的某一行
double* getRow(double **matrix,int rows,int columns,int index){
assert(index double *rect=(double*)calloc(columns,sizeof(double));
int i;
for(i=0;i rect[i]=matrix[index][i];
return rect;
}

//获取二维矩阵的某一列
double* getColumn(double **matrix,int rows,int columns,int index){
assert(index double *rect=(double*)calloc(rows,sizeof(double));
int i;
for(i=0;i rect[i]=matrix[i][index];
return rect;
}

//设置二维矩阵的某一列
void setColumn(double **matrix,int rows,int columns,int index,double *arr){
assert(index int i;
for(i=0;i matrix[i][index]=arr[i];
}

//交换矩阵的某两列
void exchangeColumn(double **matrix,int rows,int columns,int i,int j){
assert(i assert(j int row;
for(row=0;row double tmp=matrix[row][i];
matrix[row][i]=matrix[row][j];
matrix[row][j]=tmp;
}
}

//得到矩阵的转置
double** getTranspose(double **matrix,int rows,int columns){
double **rect=getMatrix(columns,rows);
int i,j;
for(i=0;i for(j=0;j rect[i][j]=matrix[j][i];
}
}
return rect;
}

//计算两向量内积
double vectorProduct(double *vector1,double *vector2,int len){
double rect=0.0;
int i;
for(i=0;i rect+=vector1[i]*vector2[i];
return rect;
}

//两个矩阵相乘
double** matrixProduct(double **matrix1,int rows1,int columns1,double **matrix2,int columns2){
double **rect=getMatrix(rows1,columns2);
int i,j;
for(i=0;i for(j=0;j double *vec1=getRow(matrix1,rows1,columns1,i);
double *vec2=getColumn(matrix2,columns1,columns2,j);
rect[i][j]=vectorProduct(vec1,vec2,columns1);
free(vec1);
free(vec2);
}
}
return rect;
}

//得到某一列元素的平方和
double getColumnNorm(double** matrix,int rows,int columns,int index){
assert(index double* vector=getColumn(matrix,rows,columns,index);
double norm=vectorProduct(vector,vector,rows);
free(vector);
return norm;
}

//打印向量
void printVector(double* vector,int len){
int i;
for(i=0;i printf("%-15.8f\t",vector[i]);
printf("\n");
}

#endif
#include"matrix.h"

#define ITERATION 100 //单边Jacobi最大迭代次数
#define THREASHOLD 0.1

//符号函数
int sign(double number) {
if(number<0)
return -1;
else
return 1;
}

//两个向量进行单边Jacobi正交变换
void orthogonalVector(double *Ci,double *Cj,int len1,double *Vi,double *Vj,int len2,int *pass){
double ele=vectorProduct(Ci,Cj,len1);
if(fabs(ele) return; //如果两列已经正交，不需要进行变换，则返回true
*pass=0;
double ele1=vectorProduct(Ci,Ci,len1);
double ele2=vectorProduct(Cj,Cj,len1);

double tao=(ele1-ele2)/(2*ele);
double tan=sign(tao)/(fabs(tao)+sqrt(1+pow(tao,2)));
double cos=1/sqrt(1+pow(tan,2));
double sin=cos*tan;

int row;
for(row=0;row double var1=Ci[row]*cos+Cj[row]*sin;
double var2=Cj[row]*cos-Ci[row]*sin;
Ci[row]=var1;
Cj[row]=var2;
}
for(row=0;row double var1=Vi[row]*cos+Vj[row]*sin;
double var2=Vj[row]*cos-Vi[row]*sin;
Vi[row]=var1;
Vj[row]=var2;
}
}

//矩阵的两列进行单边Jacobi正交变换。V是方阵，行/列数为columns
void orthogonal(double **matrix,int rows,int columns,int i,int j,int *pass,double **V){
assert(i
double* Ci=getColumn(matrix,rows,columns,i);
double* Cj=getColumn(matrix,rows,columns,j);
double* Vi=getColumn(V,columns,columns,i);
double* Vj=getColumn(V,columns,columns,j);
orthogonalVector(Ci,Cj,rows,Vi,Vj,columns,pass);

int row;
for(row=0;row matrix[row][i]=Ci[row];
matrix[row][j]=Cj[row];
}
for(row=0;row V[row][i]=Vi[row];
V[row][j]=Vj[row];
}
free(Ci);
free(Cj);
free(Vi);
free(Vj);
}

//循环正交，进行奇异值分解
void hestens_jacobi(double **matrix,int rows,int columns,double **V)
{
int iteration = ITERATION;
while (iteration-- > 0) {
int pass = 1;
int i,j;
for (i = 0; i < columns; ++i) {
for (j = i+1; j < columns; ++j) {
orthogonal(matrix,rows,columns,i,j,&pass,V); //经过多次的迭代正交后，V就求出来了
}
}
if (pass==1) //当任意两列都正交时退出迭代
break;
}
printf("迭代次数:%d\n",ITERATION - iteration);
}

//获取矩阵前n小的奇异向量
double **singleVector(double **A,int rows,int columns,int n){
double **V=getIndentityMatrix(columns);
hestens_jacobi(A,rows,columns,V);

double *singular=(double*)calloc(columns,sizeof(double)); //特征值
int i,j;
for(i=0;i double *vector=getColumn(A,rows,columns,i);
double norm=sqrt(vectorProduct(vector,vector,rows));
singular[i]=norm;
}

int *sort=(int*)calloc(columns,sizeof(int));
for(i=0;i sort[i]=i;
for(i=0;i int minIndex=i;
int minValue=singular[i];
for(j=i+1;j if(singular[j] minValue=singular[j];
minIndex=j;
}
}
//交换sigular的第i个和第minIndex个元素
singular[minIndex]=singular[i];
singular[i]=minValue;
//交换sort的第i个和第minIndex个元素
int tmp=sort[minIndex];
sort[minIndex]=sort[i];
sort[i]=tmp;
}

double **rect=getMatrix(rows,n);
for(i=0;i for(j=0;j rect[i][j]=V[i][sort[j]];
}
}

freeMatrix(V,columns);
free(sort);
free(singular);

return rect;
}

最后是运行KMeans的Java代码
package ai;

public class Global {
//计算两个向量的欧氏距离
public static double calEuraDist(double[] arr1,double[] arr2,int len){
double result=0.0;
for(int i=0;i result+=Math.pow(arr1[i]-arr2[i],2.0);
}
return Math.sqrt(result);
}
}
package ai;

public class DataObject {

String docname;
double[] vector;
int cid;
boolean visited;

public DataObject(int len){
vector=new double[len];
}

public String getName() {
return docname;
}

public void setName(String docname) {
this.docname = docname;
}

public double[] getVector() {
return vector;
}

public void setVector(double[] vector) {
this.vector = vector;
}

public int getCid() {
return cid;
}

public void setCid(int cid) {
this.cid = cid;
}

public boolean isVisited() {
return visited;
}

public void setVisited(boolean visited) {
this.visited = visited;
}

}
package ai;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileReader;
import java.io.IOException;
import java.util.ArrayList;
import java.util.Iterator;
public class DataSource {

ArrayList objects;
int row;
int col;

public void readMatrix(File dataFile) {
try {
FileReader fr = new FileReader(dataFile);
BufferedReader br = new BufferedReader(fr);
String line = br.readLine();
String[] words = line.split("\\s+");
row = Integer.parseInt(words[0]);
// row=1000;
col = Integer.parseInt(words[1]);
objects = new ArrayList(row);
for (int i = 0; i < row; i++) {
DataObject object = new DataObject(col);
line = br.readLine();
words = line.split("\\s+");
for (int j = 0; j < col; j++) {
object.getVector()[j] = Double.parseDouble(words[j]);
}
objects.add(object);
}
br.close();
} catch (IOException e) {
e.printStackTrace();
}
}

public void readRLabel(File file) {
try {
FileReader fr = new FileReader(file);
BufferedReader br = new BufferedReader(fr);
String line = null;
for (int i = 0; i < row; i++) {
line = br.readLine();
objects.get(i).setName(line.trim());
}
} catch (IOException e) {
e.printStackTrace();
}
}

public void printResult(ArrayList objects, int n) {
//DBScan是从第1类开始，K-Means是从第0类开始
// for (int i =0; i for(int i=1;i<=n;i++){
System.out.println("=============属于第"+i+"类的有：===========================");
Iterator iter = objects.iterator();
while (iter.hasNext()) {
DataObject object = iter.next();
int cid=object.getCid();
if(cid==i){
System.out.println(object.getName());
// switch(Integer.parseInt(object.getName())/1000){
// case 0:
// System.out.println(0);
// break;
// case 1:
// System.out.println(1);
// break;
// case 2:
// System.out.println(2);
// break;
// case 3:
// System.out.println(3);
// break;
// case 4:
// System.out.println(4);
// break;
// case 5:
// System.out.println(5);
// break;
// default:
// System.out.println("Go Out");
// break;
// }
}
}
}
}
}
package ai;

import java.io.File;
import java.util.ArrayList;
import java.util.Iterator;
import java.util.Random;

public class KMeans {

int k; // 指定划分的簇数
double mu; // 迭代终止条件，当各个新质心相对于老质心偏移量小于mu时终止迭代
double[][] center; // 上一次各簇质心的位置
int repeat; // 重复运行次数
double[] crita; // 存放每次运行的满意度

public KMeans(int k, double mu, int repeat, int len) {
this.k = k;
this.mu = mu;
this.repeat = repeat;
center = new double[k][];
for (int i = 0; i < k; i++)
center[i] = new double[len];
crita = new double[repeat];
}

// 初始化k个质心，每个质心是len维的向量，每维均在left--right之间
public void initCenter(int len, ArrayList objects) {
Random random = new Random(System.currentTimeMillis());
int[] count = new int[k]; // 记录每个簇有多少个元素
Iterator iter = objects.iterator();
while (iter.hasNext()) {
DataObject object = iter.next();
int id = random.nextInt(10000)%k;
count[id]++;
for (int i = 0; i < len; i++)
center[id][i] += object.getVector()[i];
}
for (int i = 0; i < k; i++) {
for (int j = 0; j < len; j++) {
center[i][j] /= count[i];
}
}
}

// 把数据集中的每个点归到离它最近的那个质心
public void classify(ArrayList objects) {
Iterator iter = objects.iterator();
while (iter.hasNext()) {
DataObject object = iter.next();
double[] vector = object.getVector();
int len = vector.length;
int index = 0;
double neardist = Double.MAX_VALUE;
for (int i = 0; i < k; i++) {
double dist = Global.calEuraDist(vector, center[i], len); // 使用欧氏距离
if (dist < neardist) {
neardist = dist;
index = i;
}
}
object.setCid(index);
}
}

// 重新计算每个簇的质心，并判断终止条件是否满足，如果不满足更新各簇的质心,如果满足就返回true.len是数据的维数
public boolean calNewCenter(ArrayList objects, int len) {
boolean end = true;
int[] count = new int[k]; // 记录每个簇有多少个元素
double[][] sum = new double[k][];
for (int i = 0; i < k; i++)
sum[i] = new double[len];
Iterator iter = objects.iterator();
while (iter.hasNext()) {
DataObject object = iter.next();
int id = object.getCid();
count[id]++;
for (int i = 0; i < len; i++)
sum[id][i] += object.getVector()[i];
}
for (int i = 0; i < k; i++) {
if (count[i] != 0) {
for (int j = 0; j < len; j++) {
sum[i][j] /= count[i];
}
}
// 簇中不包含任何点,及时调整质心
else {
int a=(i+1)%k;
int b=(i+3)%k;
int c=(i+5)%k;
for (int j = 0; j < len; j++) {
center[i][j] = (center[a][j]+center[b][j]+center[c][j])/3;
}
}
}
for (int i = 0; i < k; i++) {
// 只要有一个质心需要移动的距离超过了mu，就返回false
if (Global.calEuraDist(sum[i], center[i], len) >= mu) {
end = false;
break;
}
}
if (!end) {
for (int i = 0; i < k; i++) {
for (int j = 0; j < len; j++)
center[i][j] = sum[i][j];
}
}
return end;
}

// 计算各簇内数据和方差的加权平均，得出本次聚类的满意度.len是数据的维数
public double getSati(ArrayList objects, int len) {
double satisfy = 0.0;
int[] count = new int[k];
double[] ss = new double[k];
Iterator iter = objects.iterator();
while (iter.hasNext()) {
DataObject object = iter.next();
int id = object.getCid();
count[id]++;
for (int i = 0; i < len; i++)
ss[id] += Math.pow(object.getVector()[i] - center[id][i], 2.0);
}
for (int i = 0; i < k; i++) {
satisfy += count[i] * ss[i];
}
return satisfy;
}

public double run(int round, DataSource datasource, int len) {
System.out.println("第" + round + "次运行");
initCenter(len,datasource.objects);
classify(datasource.objects);
while (!calNewCenter(datasource.objects, len)) {
classify(datasource.objects);
}
datasource.printResult(datasource.objects, k);
double ss = getSati(datasource.objects, len);
System.out.println("加权方差：" + ss);
return ss;
}

public static void main(String[] args) {
DataSource datasource = new DataSource();
datasource.readMatrix(new File("/home/orisun/test/dot.mat"));
datasource.readRLabel(new File("/home/orisun/test/dot.rlabel"));
int len = datasource.col;
// 划分为4个簇，质心移动小于1E-8时终止迭代，重复运行7次
KMeans km = new KMeans(4, 1E-10, 7, len);
int index = 0;
double minsa = Double.MAX_VALUE;
for (int i = 0; i < km.repeat; i++) {
double ss = km.run(i, datasource, len);
if (ss < minsa) {
minsa = ss;
index = i;
}
}
System.out.println("最好的结果是第" + index + "次。");
}
}

谢谢！

Python中的 redis keyspace 通知_python 操作redis psubscribe(‘__keyspace@0__ ‘) 2301_82243733 程序员 python 学习面试
最后Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习Python门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的Pytho
机器学习:支持向量机小源学AI 人工智能支持向量机机器学习算法
基本概念1.什么是支持向量机支持向量机是一种二分类模型,在机器学习、计算机视觉、数据挖掘中广泛应用,主要用于解决数据分类问题,它的目的是寻找一个超平面对样本进行分割,分割的原则是间隔最大化(也就是数据集的边缘点到分界点的距离d最大)最终转化成一个凸二次规划问题来求解。通常的SVM用于二元分类问题,对于多元分类问题可将其分解为多个二元分类问题,在进行分类。2.最优分类边界什么才是最优分类边界?什么条
K-means聚类：解锁数据隐藏结构的钥匙小村学长毕业设计 kmeans 聚类机器学习
K-means聚类：解锁数据隐藏结构的钥匙在机器学习的广阔领域中，无监督学习以其独特的魅力吸引了众多研究者和实践者。其中，K-means聚类作为一种经典且实用的无监督学习算法，以其简单高效的特点，广泛应用于市场细分、图像分割和基因聚类等领域。本文将深入探讨K-means聚类的工作原理、应用实例及其在这些领域中的具体应用，旨在揭示其如何智能划分数据，解锁隐藏结构，为相关领域提供精准导航。一、K-me
机器学习基本篇胖胖的小肥猫机器学习
1基本概念机器学习，分为回归，分类，聚类，降维有监督学习回归，分类，有特征，有标签，进行训练，然后对新数据进行预测无监督学习聚类，降维。题目越多，训练越好，2基本流程数据预处理——模型训练与评估可以优化为获取数据——数据预处理——EDA分析——特征工程——模型训练——可解释性分析2.0数据获取利用kaggle,天池等平台的开源数据，2.1预处理目的：让数据更符合逻辑让数据更容易计算借助函数实现变换
解锁机器学习核心算法 | 支持向量机：机器学习中的分类利刃紫雾凌寒 AI 炼金厂机器学习算法支持向量机 python 深度学习分类人工智能
一、引言在机器学习的庞大算法体系中，有十种算法被广泛认为是最具代表性和实用性的，它们犹如机器学习领域的“十大神器”，各自发挥着独特的作用。这十大算法包括线性回归、逻辑回归、决策树、随机森林、K-近邻算法、K-平均算法、支持向量机、朴素贝叶斯算法、降维算法、梯度增强算法。它们涵盖了回归、分类、聚类、降维等多个机器学习任务领域，是众多机器学习应用的基础和核心。而在这十大算法中，支持向量机（Suppor
【论文精读】MotionLM EEPI 自动驾驶深度学习论文阅读
【论文精读】MotionLM1背景2存在的问题3具体方案轨迹转运动序列模型轨迹去重和聚类loss1背景团队：Waymo时间：2023.9代码：简介：采用自回归的方式做轨迹生成，能够更好地建模交互，且避免模态坍缩，在数据集达到了SOTA。2存在的问题轨迹回归方面：原本xy预测认为空间过大，有的xy很大（t大速度快的时候），有的xy很小（t小速度慢的时候）。3具体方案Encoder采用了之前的论文Wa
Py的Pandas：Python pandas库的详细介绍、安装和使用方法追逐程序梦想者 pandas python 数据分析
Py的Pandas：Pythonpandas库的详细介绍、安装和使用方法Pandas是一个Python的数据处理库，它提供了快速、灵活、易用且高效的数据结构来进行数据操作。在数据挖掘、数据分析等领域中，Pandas被广泛应用。本文主要介绍Pandas的安装、基本数据结构、数据读写、数据统计以及数据可视化等方面。安装在命令行中使用pip工具安装Pandas：pipinstallpandas基本数据结
机器学习：k均值 golemon. ML 机器学习均值算法人工智能
所有代码和文档均在golitter/Decoding-ML-Top10:使用Python优雅地实现机器学习十大经典算法。(github.com)，欢迎查看。在“无监督学习”中，训练样本的标记信息是未知的，目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律，为进一步的数据分析提供基础，较为经典的是聚类。**聚类试图将数据集中的样本划分为若干个通常是不相交的子集，每个子集称为一个“簇”。**聚
调用DeepSeek API接口：实现智能数据挖掘与分析 IT·小灰灰数据挖掘人工智能 python java javascript
在当今数据驱动的时代，企业和开发者越来越依赖高效的数据挖掘与分析工具来获取有价值的洞察。DeepSeek作为一款先进的智能数据挖掘平台，提供了强大的API接口，帮助用户轻松集成其功能到自己的应用中。本文将详细介绍如何调用DeepSeekAPI接口，并探讨其在数据挖掘与分析中的应用。目录一、DeepSeekAPI接口概述二、调用DeepSeekAPI的基本步骤2.1获取API密钥2.2构建HTTP请
大数据专业毕业设计选题118例：数据挖掘数据分析可视化 HaiLang_IT 毕设选题教程毕业设计大数据数据挖掘
目录前言毕设选题开题指导建议更多精选选题选题帮助最后前言大家好,这里是海浪学长毕设专题!大四是整个大学期间最忙碌的时光，一边要忙着准备考研、考公、考教资或者实习为毕业后面临的升学就业做准备,一边要为毕业设计耗费大量精力。学长给大家整理了大数据专业最新精选选题，如遇选题困难或选题有任何疑问，都可以问学长哦(见文末)!对毕设有任何疑问都可以问学长哦!更多选题指导:最新最全计算机专业毕设选题精选推荐汇总
【机器学习】无监督学习算法之：K均值聚类 Carl_奕然机器学习算法学习
K均值聚类1、引言2、K均值聚类2.1定义2.2原理2.3实现方式2.4算法公式2.4.1距离计算公式2.4.1中心点计算公式2.5代码示例3、总结1、引言小屌丝：鱼哥，K均值聚类我不懂，能不能给我讲一讲？小鱼：行，可以小屌丝：额…今天咋直接就答应了？小鱼：不然呢？小屌丝：有啥条件，直接说，小鱼：没有小屌丝：这咋的了，不提条件，我可不踏实小鱼：你看看你，我不提条件，你还不踏实，那你这是非让我提条件
Python：第三方库衍生星球 python 第三方库
1.第三方Python库库名用途pip安装指令NumPy矩阵运算pipinstallnumpyMatplotlib产品级2D图形绘制pipinstallmatplotlibPIL图像处理pipinstallpillowsklearn机器学习和数据挖掘pipinstallsklearnRequestsHTTP协议访问pipinstallrequestsJieba中文分词pipinstalljieba
AI驱动的知识发现：程序员的新机遇 AI大模型应用之禅计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
AI驱动的知识发现：程序员的新机遇关键词：知识发现,AI驱动,数据挖掘,数据分析,算法优化,数据可视化,机器学习1.背景介绍1.1问题由来在当今信息化时代，数据量呈爆炸性增长，各行各业都面临着海量数据挖掘和知识发现的巨大挑战。传统的统计分析方法已难以满足需求，而人工智能（AI）技术的兴起为这一问题提供了新的解决方案。AI驱动的知识发现，即利用机器学习、深度学习等技术手段，从海量数据中自动提取有用信
k均值聚类python实现小尤笔记均值算法聚类 python 开发语言 Python基础
K均值聚类（K-MeansClustering）是一种常用的无监督学习算法，用于将数据分成K个簇。以下是一个简单的Python实现K均值聚类的代码讲解，包括数据准备、初始化、迭代更新簇心和分配簇标签等步骤。CSDN大礼包：《2025年最新全套学习资料包》免费分享代码实现importnumpyasnpimportmatplotlib.pyplotasplt#生成示例数据np.random.seed(
机器学习里的逻辑回归Logistic Regression基本原理与应用硅基创想家 AI-人工智能与大模型机器学习逻辑回归人工智能
LogisticRegression即逻辑回归，是一种广泛应用于机器学习和数据挖掘领域的有监督学习算法，以下从原理、应用、算法优缺点等方面进行介绍：基本原理线性回归基础：逻辑回归基于线性回归模型，其基本形式为：z=w1x1+w2x2+⋯+wnxn+bz=w_1x_1+w_2x_2+\cdots+w_nx_n+bz=w1x1+w2x2+⋯+wnxn+b其中xix_ixi是特征变量，wiw_iwi是对
python电商数据挖掘_Python 爬取淘宝商品数据挖掘分析实战 weixin_39946996 python电商数据挖掘
作者孙方辉本文为CDA志愿者投稿作品，转载需授权项目内容本案例选择>>商品类目：沙发；数量：共100页4400个商品；筛选条件：天猫、销量从高到低、价格500元以上。项目目的1.对商品标题进行文本分析词云可视化2.不同关键词word对应的sales的统计分析3.商品的价格分布情况分析4.商品的销量分布情况分析5.不同价格区间的商品的平均销量分布6.商品价格对销量的影响分析7.商品价格对销售额的影响
数据仓库与数据挖掘记录二匆匆整棹还数据仓库数据挖掘人工智能
1.数据仓库的产生从20世纪80年代初起直到90年代初,联机事务处理一直是关系数据库应用的主流。然而,应用需求在不断地变化,当联机事务处理系统应用到一定阶段时,企业家们便发现单靠拥有联机事务处理系统已经不足以获得市场竞争的优势,他们需要对其自身业务的运作以及整个市场相关行业的态势进行分析,进而做出有利的决策。这种决策需要对大量的业务数据包括历史业务数据进行分析才能得到。把这种基于业务数据的决策分析
数据仓库与数据挖掘记录三匆匆整棹还数据挖掘
数据仓库的数据存储和处理数据的ETL过程数据ETL是用来实现异构数据源的数据集成,即完成数据的抓取/抽取、清洗、转换.加载与索引等数据调和工作,如图2.2所示。1）数据提取（Extract）从多个数据源中获取原始数据（如数据库、日志文件、API、云存储等）。数据源可能是结构化（如MySQL）、半结构化（如JSON）、非结构化（如文本）。关键技术：SQL查询、Web爬虫、日志采集工具（如Flume）
【论文阅读】Revisiting the Assumption of Latent Separability for Backdoor Defenses 开心星人论文阅读论文阅读
https://github.com/Unispac/Circumventing-Backdoor-Defenses摘要和介绍在各种后门毒化攻击中，来自目标类别的毒化样本和干净样本通常在潜在空间中形成两个分离的簇。这种潜在的分离性非常普遍，甚至在防御研究中成为了一种默认假设，我们称之为潜在分离性假设。基于这一假设设计的防御方法通过在潜在空间中进行聚类分析来识别毒化样本。具体来说，这些防御方法首先在
DeepSeek与核货宝订货系统的协同进化：智能商业范式重构多用户商城系统订货系统源码 deepseek 人工智能核货宝订货系统
数据处理与分析方面深度数据洞察：利用Deepseek强大的智能数据挖掘与分析能力，处理核货宝订货系统中的海量订单数据、客户数据、商品数据等。比如分析不同地区、不同时间、不同客户群体的订货偏好和趋势，为批发订货企业制定精准的采购、库存和销售策略提供依据。建立行业知识图谱：Deepseek可基于核货宝系统的数据及行业信息，构建批发行业知识图谱，清晰呈现企业、产品、客户、供应商等之间的关系和关联信息，帮
机器学习算法工程师笔试选择题（1） Ash Butterfield 机器学习算法人工智能
1.关于梯度下降的说法正确的是：A.梯度下降法可以确保找到全局最优解。B.随机梯度下降每次使用所有数据来更新参数。C.批量梯度下降（BatchGradientDescent）通常收敛更快。D.学习率过大会导致梯度下降过程震荡。答案：D（学习率过大会导致不稳定，可能震荡或无法收敛）2.在以下算法中，哪种算法属于无监督学习？A.逻辑回归B.K-近邻算法C.支持向量机D.K-均值聚类答案：D（K-均值聚
探索Python爬虫：获取淘宝商品详情与订单API接口的深度解析不爱搞技术的技术猿 Python 淘宝API python 爬虫开发语言
引言在数字化时代，电子商务平台的数据挖掘和分析已成为企业获取市场洞察的重要手段。淘宝，作为中国最大的电商平台之一，拥有海量的商品数据和订单信息。对于商家和市场分析师来说，如何高效、合规地获取这些数据，成为了一个迫切需要解决的问题。本文将深入探讨如何利用Python爬虫技术，通过淘宝提供的API接口，合法合规地获取商品详情和订单数据。淘宝API接口概览淘宝开放平台提供了丰富的API接口，允许开发者在
Python爬虫框架Scrapy入门指南健胃消食片片片片 python 爬虫 scrapy
Scrapy是一个高效、灵活、开放的Python爬虫框架，它可以帮助开发者快速地开发出高质量的网络爬虫，而不需要太多的编码工作。以下是对Scrapy的入门指南：一、Scrapy简介Scrapy是一个用于抓取网站和提取结构化数据的应用程序框架，可用于各种有用的应用程序，如数据挖掘、信息处理或历史存档。尽管Scrapy最初是为网络抓取而设计的，但它也可用于使用API提取数据或用作通用网络爬虫。Scra
MINITAB中文教程：统计分析与质量管理聚合收藏
本文还有配套的精品资源，点击获取简介：MINITAB作为一款强大的统计分析工具，在质量控制、数据挖掘和实验设计等领域广受欢迎。该教程旨在为初学者提供一个友好的起点，通过详细的界面介绍、数据管理、基本统计分析、图形制作、质量控制、回归分析、过程能力分析、假设检验、多元统计和质量改进工具等内容的学习，使用户能够通过实例和练习，提高数据分析和质量管理的实际操作技能。教程采用PPT格式，以直观高效的方式呈
DataSet：数据挖掘与机器学习应用 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
DataSet：数据挖掘与机器学习应用作者：禅与计算机程序设计艺术1.背景介绍1.1.数据挖掘与机器学习的兴起近年来，随着互联网、物联网、云计算等技术的快速发展，全球数据量呈现爆炸式增长，数据的积累为数据挖掘和机器学习提供了丰富的素材。数据挖掘和机器学习作为从数据中提取有用信息和知识的关键技术，正在各个领域发挥着越来越重要的作用，例如商业智能、金融分析、医疗诊断、网络安全等等。1.2.DataSe
聚类算法概念、分类、特点及应用场景【机器学习】【无监督学习】飞火流星02027 云计算机器学习算法聚类人工智能聚类算法
概念机器学习聚类算法‌是一种无监督学习方法，旨在将数据集分割成不同的类或簇，使得同一簇内的数据对象相似性尽可能大，而不同簇之间的数据对象差异性也尽可能大。聚类算法广泛应用于新闻自动分组、用户分群、图像分割等领域。‌主要聚类算法及其特点‌层次聚类算法‌层次法(hierarchicalmethods)通过构建数据点之间的层次结构来进行聚类，可以是自底向上的凝聚方法或自顶向下的分裂方法。代表算法包括CU
企业智能分析BI：洞察数据，驱动未来用友协同与数据服务大数据
在数据驱动的今天，企业运营不再仅仅依赖于直觉和经验，而是越来越多地依赖于深入的数据分析和精准的商业洞察。企业智能分析BI（BusinessIntelligence）系统，作为企业数据管理的得力助手，正在以其卓越的数据分析能力，帮助企业解锁数据潜能，驱动业务增长。企业智能分析BI系统，是一种运用数据仓库、在线分析和数据挖掘技术来处理和分析数据的崭新技术，目的是帮助企业决策者做出更好的决策。它像一把钥
KMeans聚类实战2 浊酒南街 #kmeans 聚类 python
目录NBA球员聚类--未知k值的情况NBA球员聚类–未知k值的情况#导入第三方模块importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.clusterimportKMeansfromsklearnimportmetricsimportseabornassnsfromsklearnimportpreprocess
KMeans聚类实战1 浊酒南街 #kmeans 聚类算法
目录iris聚类--已知k值的情况iris聚类–已知k值的情况#导入第三方模块importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.clusterimportKMeansfromsklearnimportmetricsimportseabornassns#读取iris数据集iris=pd.read_csv(r'
使用MATLAB实现SMOTE算法 PixelLancer matlab 算法人工智能 Matlab
在数据挖掘和机器学习中，合成少数类过采样技术（SyntheticMinorityOver-samplingTechnique，简称SMOTE）是一种常用的处理类别不平衡问题的方法。本文将介绍如何使用MATLAB实现SMOTE算法，并提供相应的源代码。SMOTE算法通过合成新的少数类样本来平衡类别不平衡的数据集。它通过在少数类样本之间插入合成样本，以增加少数类样本的数量。这些合成样本是通过在少数类样
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag

谱聚类算法

你可能感兴趣的:(数据挖掘,聚类)