还好是你

基于flink使用K-Means算法对KDD CUP99数据集进行聚类分析

1、算法简介

kmeans算法又称k均值算法，是一种聚类算法，属于无监督学习算法。
对于给定的样本集，kmeans将其中相似的样本成员分类组织到一起，最终将样本集划分成K个簇，每个簇内的样本成员相似度比较高。

2、基本功能

使用K-Means算法对KDD CUP99网络入侵检测数据集进行聚类分析。本程序先对输入数据集进行特征转换、归一化处理，然后基于flink通过kmeans将数据集聚成两类，实现对正常点和异常点的区分，用于检测入侵异常数据。

3、环境依赖

flink-1.9.1

4、算法流程

1.随机选取K个聚类中心。（本例中两个，用于区分正常点和异常点）。
2.计算每个样本成员到聚类中心的距离，并将其分配到最近的聚类中。
3.计算每个聚类的样本均值，并将样本均值更新为新的聚类中心。
4.重复步骤2、3，直到聚类中心移动的距离小于给定阈值。
5.输出最终的聚类中心及其样本成员。

5、提交任务时可指定命令行参数

pointFile: 入侵检测数据点文件路径
outputPath: 结果输出目录
maxIterations: 算法最大迭代次数
disDiff: 迭代终止条件，即：每次迭代前后，簇中心的距离差
kNum: K值，即簇的个数。
注意： 如果没有指定将使用KMeansConstant类中的默认参数

6、代码实现

多维数据点

package cn.xsy.algorithm.kmeans;

import java.io.Serializable;
import java.util.ArrayList;
import java.util.Arrays;
import java.util.List;

/**
 * 多维数据点
 */
public class Point implements Serializable {
    //源特征值
    public List<String> sourceFields;
    //处理后的特征值
    public List<Double> handledFields;
    //特征最大值,用于归一化处理
    public List<Double> fieldsMaxValue = new ArrayList<Double>(42);
    //特征最小值,用于归一化处理
    public List<Double> fieldsMinValue = new ArrayList<Double>(42);
    //记录当前簇中数据点的个数，用于求新的簇类中心点的除法运算
    public Long number = 1L;

    public Point(){}

    public Point(List<String> list){
        sourceFields = list;
    }

    //将字符型特征转换为数值型特征
    public Point featureHandled(){
        handledFields = new ArrayList<Double>();
        for (int i = 0; i < sourceFields.size(); i++) {
            if(i == 1){
                //协议类型特征转换
                handledFields.add((double)(Arrays.asList(KMeansConstant.PROTOCOLS).indexOf(sourceFields.get(i))));
            }else if(i == 2){
                //网络服务类型特征转换
                List<String> sercices = new ArrayList<String>(Arrays.asList(KMeansConstant.SERVICES));
                int index = sercices.indexOf(sourceFields.get(i));
                if(index == -1){
                    sercices.add(sourceFields.get(i));
                    handledFields.add((double) (sercices.indexOf(sourceFields.get(i))));
                } else {
                    handledFields.add((double)(index));
                }
            }else if(i == 3){
                //连接状态特征转换
                handledFields.add((double)(Arrays.asList(KMeansConstant.FLAGS).indexOf(sourceFields.get(i))));
            }else if(i == 41){
                //标识类型特征转换
                List<String> labels = new ArrayList<String>(Arrays.asList(KMeansConstant.LABELS));
                int index = labels.indexOf(sourceFields.get(i));
                if(index == -1){
                    labels.add(sourceFields.get(i));
                    handledFields.add((double) (labels.indexOf(sourceFields.get(i))));
                } else {
                    handledFields.add((double)(index));
                }
            }else {
                handledFields.add(Double.parseDouble(sourceFields.get(i)));
            }
        }
        return this;
    }

    //求每一个特征的最大值和最小值
    public Point MaxMinValue(Point point){

        if(fieldsMaxValue.size() == 0){
            fieldsMaxValue.addAll(handledFields);
        }
        if(fieldsMinValue.size() == 0){
            fieldsMinValue.addAll(handledFields);
        }
        if(point.fieldsMaxValue.size() == 0){
            point.fieldsMaxValue.addAll(point.handledFields);
        }
        if(point.fieldsMinValue.size() == 0){
            point.fieldsMinValue.addAll(point.handledFields);
        }
        //求两个数据点各个特征值的最大值和最小值
        for(int i = 0; i< handledFields.size(); i++){

            if(point.fieldsMaxValue.get(i) > this.fieldsMaxValue.get(i)){
                fieldsMaxValue.set(i,point.fieldsMaxValue.get(i));
            }
            if(point.fieldsMinValue.get(i) < this.fieldsMinValue.get(i)){
                fieldsMinValue.set(i,point.fieldsMinValue.get(i));
            }
        }
        return this;
    }

    //归一化
    public Point standardHandled(Point point){

        for(int i = 0; i< handledFields.size(); i++){
            double max = point.fieldsMaxValue.get(i);
            double min = point.fieldsMinValue.get(i);
            double value = handledFields.get(i);
            handledFields.set(i, max == min ? min : (value - min) / (max - min));
        }
        return this;
    }

    //加法器
    public Point add(Point other){
        //特征值相加
        for (int i = 0; i < handledFields.size(); i++) {
            handledFields.set(i,handledFields.get(i) + other.handledFields.get(i));
        }
        //数据点个数相加
        number += other.number;
        return this;
    }

    //除法器
    public Point div(long val){
        for (int i = 0; i < handledFields.size(); i++) {
            handledFields.set(i,handledFields.get(i) / val);
        }
        return this;
    }
    //计算两点之间的欧式距离
    public double euclideanDistance(Point other){
        double sum = 0;
        for (int i = 0; i < handledFields.size(); i++) {
            sum += Math.pow((handledFields.get(i) - other.handledFields.get(i)),2);
        }
        return Math.sqrt(sum);
    }

    @Override
    public String toString() {
        return "Point{" +
                "sourceFields=" + sourceFields +
                '}';
    }
}

聚类中心

package cn.xsy.algorithm.kmeans;

import java.io.Serializable;

/**
 * 簇中心
 */
public class Cluster implements Serializable {
    //簇id
    public int id;
    //簇中心点
    public Point centre;

    public Cluster(int id, Point centre) {
        this.id = id;
        this.centre = centre;
    }

    public Cluster() {
    }

    @Override
    public String toString() {
        return "Cluster{" +
                "id=" + id +
                ", centre=" + centre +
                '}';
    }
}

kmeans常量

package cn.xsy.algorithm.kmeans;


public final class KMeansConstant {

    //入侵检测数据点文件
    //0,tcp,http,SF,228,896,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,23,24,0.00,0.00,0.00,0.00,1.00,0.00,0.08,255,255,1.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,normal.
    public static final String POINTFILE = "C:\\Users\\xsy\\Desktop\\KDD99入侵检测数据集\\Test data with corrected labels\\corrected\\corrected";
    //结果输出目录
    public static final String OUTPUTPATH = "C:\\Users\\xsy\\Desktop\\KDD99入侵检测数据集\\output";
    //最大迭代次数
    public static final int MAXITERATIONS = 10;
    //迭代终止条件，每次迭代前后，簇中心的距离差
    public static final double DISDIFF = 1.0E-13;
    //K值，即簇的个数
    public static final int KNUM = 2;

    /**  特征转换数据相关  **/
    //协议类型
    public static final String[] PROTOCOLS = new String[]{"tcp","udp","icmp"};
    //目标主机的网络服务类型
    public static final String[] SERVICES = new String[]{"aol","auth","bgp","courier","csnet_ns","ctf","daytime","discard","domain","domain_u",
            "echo","eco_i","ecr_i","efs","exec","finger","ftp","ftp_data","gopher","harvest","hostnames",
            "http","http_2784","http_443","http_8001","imap4","IRC","iso_tsap","klogin","kshell","ldap",
            "link","login","mtp","name","netbios_dgm","netbios_ns","netbios_ssn","netstat","nnsp","nntp",
            "ntp_u","other","pm_dump","pop_2","pop_3","printer","private","red_i","remote_job","rje","shell",
            "smtp","sql_net","ssh","sunrpc","supdup","systat","telnet","tftp_u","tim_i","time","urh_i","urp_i",
            "uucp","uucp_path","vmnet","whois","X11","Z39_50"};
    //连接正常或错误的状态
    public static final String[] FLAGS = new String[]{"OTH","REJ","RSTO","RSTOS0","RSTR","S0","S1","S2","S3","SF","SH"};
    //标识类型
    public static final String[] LABELS = new String[]{"normal.", "buffer_overflow.", "loadmodule.", "perl.", "neptune.", "smurf.",
            "guess_passwd.", "pod.", "teardrop.", "portsweep.", "ipsweep.", "land.", "ftp_write.",
            "back.", "imap.", "satan.", "phf.", "nmap.", "multihop.", "warezmaster.", "warezclient.",
            "spy.", "rootkit.",
            "mscan.", "saint.", "apache2.", "mailbomb.", "processtable.", "udpstorm.", "httptunnel.", "ps.",
            "sqlattack.", "xterm.", "named.", "sendmail.", "snmpgetattack.", "snmpguess.", "worm.", "xlock.", "xsnoop."};
}

KMeans主程序入口

package cn.xsy.algorithm.kmeans;

import org.apache.flink.api.common.JobExecutionResult;
import org.apache.flink.api.common.accumulators.IntCounter;
import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.api.common.functions.ReduceFunction;
import org.apache.flink.api.common.functions.RichFilterFunction;
import org.apache.flink.api.common.functions.RichMapFunction;
import org.apache.flink.api.java.DataSet;
import org.apache.flink.api.java.ExecutionEnvironment;
import org.apache.flink.api.java.aggregation.Aggregations;
import org.apache.flink.api.java.operators.DataSource;
import org.apache.flink.api.java.operators.IterativeDataSet;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.api.java.tuple.Tuple3;
import org.apache.flink.api.java.utils.ParameterTool;
import org.apache.flink.configuration.Configuration;
import org.apache.flink.core.fs.FileSystem;

import java.util.*;

/**
 * KMeans主程序入口
 */
public class KMeans {

    public static void main(String[] args) throws Exception {

        //解析命令行参数
        ParameterTool params = ParameterTool.fromArgs(args);
        //构建执行环境
        ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();
        //使参数在web界面可用
        env.getConfig().setGlobalJobParameters(params);

        //从提供的文件路径读取数据点
        DataSource<String> sourcePoints = getPointDataSet(params, env);
        //从数据点中随机选取簇中心点
        List<String> pointCollect = sourcePoints.collect();
        Set<String> sourceClusterSet = getSourceClusterCollection(pointCollect, params);
        DataSource<String> sourceCluster = env.fromCollection(sourceClusterSet);

        //对数据点进行字符型特征装换
        DataSet<Point> featurePoints = sourcePoints.map(new FeatureHandledPoint());
        //对数据点求每一个特征的最大值和最小值
        DataSet<Point> maxMinPoint = featurePoints.reduce(new MaxMinHandledPoint());
        //对数据点进行归一化处理
        DataSet<Point> points = featurePoints.map(new StandardHandledPoint()).withBroadcastSet(maxMinPoint, "maxMinPoint");

        //对簇中心数据进行字符型特征装换以及归一化处理
        DataSet<Cluster> clusters = sourceCluster.map(new HandledCluster()).withBroadcastSet(maxMinPoint, "maxMinPoint");

        //设置KMeans的最大迭代次数
        IterativeDataSet<Cluster> loop = clusters.iterate(params.getInt("maxIterations", KMeansConstant.MAXITERATIONS));
        //KMeans迭代过程
        DataSet<Cluster> newClusters = points
                //将每个数据点分配到最近的簇中心
                .map(new SelectNearestCluster()).withBroadcastSet(loop, "clusters")
                //每个簇内的点坐标求和以及点个数求和
                .groupBy(0).reduce(new ClusterAccumulator())
                //计算新的簇中心
                .map(new ClusterAverager());
        //迭代终止条件
        DataSet<Tuple2<Cluster, Cluster>> termination = loop
                //将每次迭代前后的簇中心连接起来
                .join(newClusters).where("id").equalTo("id")
                //根据每次迭代前后簇中心的距离差过滤簇中心
                .filter(new TerminationCriterion());
        //将新的簇中心数据反馈到下一个迭代中
        DataSet<Cluster> finalClusters = loop.closeWith(newClusters, termination);
        //将point分派到最后的簇中
        DataSet<Tuple2<Integer, Point>> clusterPoints = points.map(new SelectNearestCluster()).withBroadcastSet(finalClusters, "clusters");

        //统计每一个簇中心每一个labels的point个数
//        DataSet> clusterLabelsCount = clusterPoints.map(new CountClusterLabels()).groupBy(0,1).aggregate(Aggregations.SUM, 2);
        //统计每一个簇中心的point个数
        DataSet<Tuple2<Integer, Long>> clusterCount = clusterPoints.map(new CountCluster()).groupBy(0).aggregate(Aggregations.SUM, 1);

        // 输出结果
        String outputPath = params.has("outputPath") ? params.get("outputPath") : KMeansConstant.OUTPUTPATH;
        clusterPoints.writeAsText(outputPath, FileSystem.WriteMode.OVERWRITE);
        clusterCount.print();
//        env.execute("KDD CUP99 KMeans");
        //一些统计结果以及算KMeans的Purity指数
        JobExecutionResult lastJobExecutionResult = env.getLastJobExecutionResult();
        double purity = getPurity(lastJobExecutionResult);
        System.out.println("purity: " + purity);
    }

    /**
     * 计算KMeans的Purity指数
     *
     * @param lastJobExecutionResult
     * @return
     */
    private static double getPurity(JobExecutionResult lastJobExecutionResult) {
        //数据点总数
        int pointCount = lastJobExecutionResult.getAccumulatorResult("pointCount");
        //簇中心1的正常点
        int cluster1Normal = lastJobExecutionResult.getAccumulatorResult("cluster1Normal");
        //簇中心1的异常点
        int cluster1Abnormal = lastJobExecutionResult.getAccumulatorResult("cluster1Abnormal");
        //簇中心2的正常点
        int cluster2Normal = lastJobExecutionResult.getAccumulatorResult("cluster2Normal");
        //簇中心2的异常点
        int cluster2Abnormal = lastJobExecutionResult.getAccumulatorResult("cluster2Abnormal");

        double purity;
        if(cluster1Abnormal > cluster2Abnormal){
            purity = (double) (cluster1Abnormal + cluster2Normal) / pointCount;
        } else if(cluster1Abnormal < cluster2Abnormal){
            purity = (double) (cluster2Abnormal + cluster1Normal) / pointCount;
        }else {
            if(cluster1Normal > cluster2Normal){
                purity = (double) (cluster2Abnormal + cluster1Normal) / pointCount;
            }else {
                purity = (double) (cluster1Abnormal + cluster2Normal) / pointCount;
            }
        }

        System.out.println("数据点总个数: " + pointCount);
        System.out.println("簇中心1正常点个数: " + cluster1Normal);
        System.out.println("簇中心1异常点个数: " + cluster1Abnormal);
        System.out.println("簇中心2正常点个数: " + cluster2Normal);
        System.out.println("簇中心2异常点个数: " + cluster2Abnormal);
        return purity;
    }

    /**
     * 得到输入点数据集
     *
     * @param params
     * @param env
     * @return
     */
    private static DataSource<String> getPointDataSet(ParameterTool params, ExecutionEnvironment env) {
        String pointFile = params.has("pointFile") ? params.get("pointFile") : KMeansConstant.POINTFILE;
        DataSource<String> sourcePoints = env.readTextFile(pointFile);
        return sourcePoints;
    }

    /**
     * 从数据点中随机选取簇中心点，构建簇中心数据集
     *
     * @param sourcePointList
     * @param params
     * @return
     */
    private static Set<String> getSourceClusterCollection(List<String> sourcePointList, ParameterTool params) {

        int kNum = params.has("kNum") ? Integer.parseInt(params.get("kNum")) : KMeansConstant.KNUM;
        Set<String> clusterSet = new HashSet<String>();
        Random random = new Random();
        for (int id = 1; id <= kNum; ) {
            String point = sourcePointList.get(random.nextInt(sourcePointList.size()));
            //用于标记是否已经选择过该数据
            boolean flag =true;
            for (String cluster : clusterSet) {
                String[] split = cluster.split(" ");
                if (split[0].equals(point)) {
                    flag = false;
                }
            }
            //如果随机选取的点没有被选中过，则加入到SET中
            if (flag) {
                String cluster = point + " " + id;
                clusterSet.add(cluster);
                System.out.println("簇中心" + id + ": " + cluster);
                id++;
            }
        }
        return clusterSet;
    }

    /**
     * 对数据点进行字符型特征装换
     */
    public static final class FeatureHandledPoint implements MapFunction<String, Point> {

        public Point map(String s) throws Exception {
            String[] split = s.split(",");
            Point point = new Point(Arrays.asList(split));
            //字符型特征转换为数值型特征
            Point featurePoint = point.featureHandled();
            return featurePoint;
        }
    }

    /**
     * 对数据点求每个特征的最大值和最小值
     */
    public static final class MaxMinHandledPoint implements ReduceFunction<Point> {

        public Point reduce(Point p1, Point p2) throws Exception {
            //求每一个特征的最大值和最小值
            return p1.MaxMinValue(p2);
        }
    }

    /**
     * 对簇中心数据进行字符型特征装换、归一化处理
     */
    public static final class HandledCluster extends RichMapFunction<String, Cluster> {

        private List<Point> maxMinPoints;

        @Override
        public void open(Configuration parameters) throws Exception {
            this.maxMinPoints = getRuntimeContext().getBroadcastVariable("maxMinPoint");
        }

        public Cluster map(String s) throws Exception {
            String[] fields = s.split(" ");
            String[] splits = fields[0].split(",");
            Point centre = new Point(Arrays.asList(splits));
            //字符型特征转换为数值型特征
            Point featureCentre = centre.featureHandled();
            //归一化
            Point standardCentre = featureCentre.standardHandled(maxMinPoints.get(0));
            return new Cluster(Integer.parseInt(fields[1]), standardCentre);
        }
    }

    /**
     * 对数据点进行归一化处理
     * X(norm) = (X - min) / (max - min)
     */
    public static final class StandardHandledPoint extends RichMapFunction<Point, Point> {

        //point条数
        private IntCounter pointCount = new IntCounter();

        private List<Point> maxMinPoints;

        @Override
        public void open(Configuration parameters) throws Exception {
            getRuntimeContext().addAccumulator("pointCount", pointCount);
            this.maxMinPoints = getRuntimeContext().getBroadcastVariable("maxMinPoint");
        }

        public Point map(Point point) throws Exception {
            //对每一个point进行归一化
            Point standardPoint = point.standardHandled(maxMinPoints.get(0));
            pointCount.add(1);
            return standardPoint;
        }
    }

    /**
     * 对每一个数据点，找到距离最近的簇中心
     */
    public static final class SelectNearestCluster extends RichMapFunction<Point, Tuple2<Integer, Point>> {

        private Collection<Cluster> clusters;

        @Override
        public void open(Configuration parameters) throws Exception {
            this.clusters = getRuntimeContext().getBroadcastVariable("clusters");
        }

        @Override
        public Tuple2<Integer, Point> map(Point point) throws Exception {

            double minDistance = Double.MAX_VALUE;
            int closestClusterId = -1;

            for (Cluster cluster : clusters) {
                double distance = point.euclideanDistance(cluster.centre);

                if (distance < minDistance) {
                    minDistance = distance;
                    closestClusterId = cluster.id;
                }
            }
            return new Tuple2<Integer, Point>(closestClusterId, point);
        }
    }

    /**
     * 对每一个簇内点计数以及对簇内点的坐标进行累加
     */
    public static final class ClusterAccumulator implements ReduceFunction<Tuple2<Integer, Point>> {

        public Tuple2<Integer, Point> reduce(Tuple2<Integer, Point> val1, Tuple2<Integer, Point> val2) {
            // 对簇内点坐标累加，然后对簇内元素个数计数
            return new Tuple2<Integer, Point>(val1.f0, val1.f1.add(val2.f1));
        }
    }

    /**
     * 从簇内点的个数和这些点的坐标和计算出新的簇中心
     */
    public static final class ClusterAverager implements MapFunction<Tuple2<Integer, Point>, Cluster> {

        public Cluster map(Tuple2<Integer, Point> value) {
            // 新的簇中心id和簇中心坐标
            return new Cluster(value.f0, value.f1.div(value.f1.number));
        }
    }

    /**
     * 根据每次迭代前后簇中心的距离差过滤簇中心
     */
    public static final class TerminationCriterion extends RichFilterFunction<Tuple2<Cluster, Cluster>> {

        public boolean filter(Tuple2<Cluster, Cluster> value) throws Exception {

            ParameterTool params = (ParameterTool) getRuntimeContext().getExecutionConfig().getGlobalJobParameters();
            double disDiff = params.has("disDiff") ? Double.parseDouble(params.get("disDiff")) : KMeansConstant.DISDIFF;
            double moveDistance = value.f0.centre.euclideanDistance(value.f1.centre);
            System.out.println("簇中心" + value.f0.id + "移动距离： " + moveDistance);
            return moveDistance > disDiff;
        }
    }

    /**
     * 将Tuple2转换为 Tuple3
     */
    public static final class CountClusterLabels implements MapFunction<Tuple2<Integer, Point>, Tuple3<Integer, String, Long>> {

        public Tuple3<Integer, String, Long> map(Tuple2<Integer, Point> integerPointTuple2) throws Exception {
            //对每一个簇，每一个LABELS的点进行计数
            return new Tuple3<Integer, String, Long>(integerPointTuple2.f0, integerPointTuple2.f1.sourceFields.get(41), 1L);
        }
    }

    /**
     * 将Tuple2转换为 Tuple2
     */
    public static final class CountCluster extends RichMapFunction<Tuple2<Integer, Point>, Tuple2<Integer, Long>> {

        //簇中心1的正常点
        private IntCounter cluster1Normal = new IntCounter();
        //簇中心1的异常点
        private IntCounter cluster1Abnormal = new IntCounter();
        //簇中心2的正常点
        private IntCounter cluster2Normal = new IntCounter();
        //簇中心2的异常点
        private IntCounter cluster2Abnormal = new IntCounter();

        @Override
        public void open(Configuration parameters) throws Exception {
            getRuntimeContext().addAccumulator("cluster1Normal", cluster1Normal);
            getRuntimeContext().addAccumulator("cluster1Abnormal", cluster1Abnormal);
            getRuntimeContext().addAccumulator("cluster2Normal", cluster2Normal);
            getRuntimeContext().addAccumulator("cluster2Abnormal", cluster2Abnormal);
        }

        public Tuple2<Integer, Long> map(Tuple2<Integer, Point> t2) throws Exception {

            if (t2.f0 == 1) {
                if ("normal.".equals(t2.f1.sourceFields.get(41))) {
                    cluster1Normal.add(1);
                } else {
                    cluster1Abnormal.add(1);
                }
            } else if (t2.f0 == 2) {
                if ("normal.".equals(t2.f1.sourceFields.get(41))) {
                    cluster2Normal.add(1);
                } else {
                    cluster2Abnormal.add(1);
                }
            }
            //对每一个簇内的点进行计数
            return new Tuple2<Integer, Long>(t2.f0, 1L);
        }
    }

}

7、输出结果

簇中心1: 0,tcp,http,SF,236,314,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,4,4,0.00,0.00,0.00,0.00,1.00,0.00,0.00,255,255,1.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,normal. 1
簇中心2: 0,icmp,ecr_i,SF,1032,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,120,120,0.00,0.00,0.00,0.00,1.00,0.00,0.00,255,255,1.00,0.00,1.00,0.00,0.00,0.00,0.00,0.00,smurf. 2
簇中心2移动距离： 0.826594231159133
簇中心1移动距离： 1.2939328884752181
簇中心1移动距离： 0.04597443790175165
簇中心2移动距离： 0.06020607832667806
簇中心2移动距离： 0.0022798932582670174
簇中心1移动距离： 0.0025190908117799595
簇中心1移动距离： 2.0983487049015966E-4
簇中心2移动距离： 1.841180332519695E-4
簇中心2移动距离： 1.5844853826986143E-5
簇中心1移动距离： 1.808769339554904E-5
簇中心1移动距离： 2.1330751274520463E-16
簇中心2移动距离： 1.1775693753296206E-16
(1,145222)
(2,165807)
数据点总个数: 311029
簇中心1正常点个数: 59337
簇中心1异常点个数: 85885
簇中心2正常点个数: 1256
簇中心2异常点个数: 164551
purity: 0.7198299836992692

8、参考

https://blog.csdn.net/asialee_bird/article/details/80491256

https://blog.csdn.net/hxcaifly/article/details/86496243

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
全面指南：用户行为从前端数据采集到实时处理的最佳实践数字沉思营销流量运营系统架构前端内容运营大数据
引言在当今的数据驱动世界，实时数据采集和处理已经成为企业做出及时决策的重要手段。本文将详细介绍如何通过前端JavaScript代码采集用户行为数据、利用API和Kafka进行数据传输、通过Flink实时处理数据的完整流程。无论你是想提升产品体验还是做用户行为分析，这篇文章都将为你提供全面的解决方案。设计一个通用的ClickHouse表来存储用户事件时，需要考虑多种因素，包括事件类型、时间戳、用户信
详解 Flink 的常见部署方式文刀小桂 Flink flink 大数据
一、常见部署模式分类1.按是否依赖外部资源调度1.1Standalone模式独立模式(Standalone)是独立运行的，不依赖任何外部的资源管理平台，只需要运行所有Flink组件服务1.2Yarn模式Yarn模式是指客户端把Flink应用提交给Yarn的ResourceManager,Yarn的ResourceManager会在Yarn的NodeManager上创建容器。在这些容器上，Flink
大数据之flink与hive 星辰_mya 大数据 flink hive
其实吧我不太想写flink，因为线上经验确实不多，这也是我需要补的地方，没有条件创造条件，先来一篇吧flink：高性能低延迟流批一体的分布式计算框架基于事件时间对实时数据精准处理快速响应支持批处理，高效离线分析和数据挖掘数据仓库的引擎丰富数据源/接收器，集成多种数据存储格式和源，比较常见就是咱们今天的主题hive了checkpoint恢复机制，故障恢复快速恢复计算任务分布式弹性扩展，据业务灵活增加
Java中的大数据处理框架对比分析省赚客app开发者 java 开发语言
Java中的大数据处理框架对比分析大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入探讨Java中常用的大数据处理框架，并对它们进行对比分析。大数据处理框架是现代数据驱动应用的核心，它们帮助企业处理和分析海量数据，以提取有价值的信息。本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的
一文搞懂 Flink Task 数据交互之数据写源码 mn_kw flink 交互 java
一文搞懂FlinkTask数据交互之数据写源码1.RecordWriterOutput2.RecordWriter3.数据分区器ChannelSelector4.数据输出模型ResultPartition5.子模型ResultSubpartition6.本地buffer池LocalBufferPool7.获取buffer8.将buffer添加到ResultSubpartitionFlink重要源码
概率图模型（PGM）综述医学影像处理概率图模型概率图模型综述
RefLink:http://www.sigvc.org/bbs/thread-728-1-1.htmlGraphicalModel的基本类型基本的GraphicalModel可以大致分为两个类别：贝叶斯网络(BayesianNetwork)和马尔可夫随机场(MarkovRandomField)。它们的主要区别在于采用不同类型的图来表达变量之间的关系：贝叶斯网络采用有向无环图(DirectedAc
Python基础知识进阶之正则表达式_头歌python正则表达式进阶前端陈萨龙程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
大数据新视界 --大数据大厂之Flink强势崛起：大数据新视界的璀璨明珠青云交大数据新视界 Flink 大数据数据类型实时处理流处理框架对比应用场景数据处理大数据新视界数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
flink增量检查点降低状态依赖实现的详细步骤 goTsHgo Flink 大数据分布式 flink 大数据
增量检查点启动恢复的时间是很久的，业务上不能接受，所以可以通过降低状态依赖来减少恢复的时间。降低状态依赖尽可能减少状态的复杂性和依赖关系，通过拆分状态或将状态外部化到其他服务中，从而降低恢复的开销。实施措施：将状态分割为更小的单元，减少每次恢复的状态量。使用外部状态存储服务，减少Flink状态后端的负担。拆分状态和将状态外部化到其他服务可以帮助减少作业的状态依赖，从而降低恢复时间和复杂度。以下是详
flink table factory基础知识 loukey_j
一、概述在flink中很多组件都是TableFactory的子类。比如序列化，反序列化，tableSinkFactory,tableSourceFactory.TableFactory是用来创建序列化，反序列器，tableSource和tableSink的工厂。二、TableFactory源码在flink框架中，TableFactory的子类并不是程序员自己随心new出来的。flink的提供给程序
2024年最全使用Python求解方程_python解方程(1)，字节面试官迟到 2401_84569545 程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
01-Flink安装部署及入门案例（仅供学习），音视频时代你还不会NDK开发小猪佩琪962 2024年程序员学习 flink 学习大数据
先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！因此收集整理了一份《2024年最新大数据全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵
比较Spark与Flink 傲雪凌霜，松柏长青大数据后端 spark flink 大数据
ApacheSpark和ApacheFlink都是目前非常流行的大数据处理引擎，但它们在架构、处理模式、应用场景等方面有一些显著的区别。下面是二者的对比：1.处理模式Spark:主要支持批处理（BatchProcessing），也能通过SparkStreaming处理流式数据，但SparkStreaming本质上是通过微批（micro-batching）的方式处理流数据，延迟相对较高。SparkS
Apache Flink：实时流处理与批处理的统一框架小码快撩 flink 大数据
导语在大数据处理领域，流处理和批处理是两种主要的处理方式。然而，传统的系统通常将这两者视为独立的任务，需要不同的工具和框架来处理。ApacheFlink是一个开源的流处理框架，它打破了这种界限，提供了一个统一的平台来处理实时流数据和批处理数据。一、基本概念与架构ApacheFlink的基本概念与架构主要包括以下几个核心组成部分：基本概念1.流处理模型：无界流(UnboundedStreams):数
flink独立集群部署嘎子吱吱吱吱 flink hadoop linux
#flink独立集群部署说明安装环境三台服务器47.106.23.1（master）47.112.173.2（worker1）47.115.162.3（worker1）提前装好jdk和ssh,以下操作最好不要用root账号提前下载好flink的包并解压设置三台服务器之间ssh免密登录生成本机秘钥以47.106.23.1为例（其他两台参考本服务器）#生成本机秘钥cd;ssh-keygen-trsa-
Flink的时间与watermarks详解大数据技术与数仓
当我们在使用Flink的时候，避免不了要和时间(time)、水位线(watermarks)打交道，理解这些概念是开发分布式流处理应用的基础。那么Flink支持哪些时间语义？Flink是如何处理乱序事件的？什么是水位线？水位线是如何生成的？水位线的传播方式是什么？让我们带着这些问题来开始本文的内容。时间语义基本概念时间是Flink等流处理中最重要的概念之一，在Flink中Time可以分为三种：Eve
实时数仓之实时数仓架构(Hudi)(1) 2401_84164527 程序员架构
目前比较流行的实时数仓架构有两类，其中一类是以Flink+Doris为核心的实时数仓架构方案；另一类是以湖仓一体架构为核心的实时数仓架构方案。本文针对Flink+Hudi湖仓一体架构进行介绍，这套架构的特点是可以基于一套数据完全实现Lambda架构。实时数仓架构图如下：技术框架Kafka：用于接入数据源；FlinkCDC：如果直接接入业务数据源可以考虑CDC方式，如果通过Kafka缓冲接入业务数据
2024年大数据最新实时数仓之实时数仓架构(Hudi) 2401_84185556 程序员大数据架构
技术框架Kafka：用于接入数据源；FlinkCDC：如果直接接入业务数据源可以考虑CDC方式，如果通过Kafka缓冲接入业务数据可以忽略;Flink：用于数据ETL，包括接入数据、处理数据及输出数据全链路数据计算任务；Spark：用于数据ETL，包括处理数据及输出数据全链路数据计算任务；Hudi：湖仓一体数据管理框架，用来管理模型数据，包括ODS/DWD/DWS/DIM/ADS等；Doris：O
实时数仓之实时数仓架构(Hudi)(1)，2024年最新熬夜整理华为最新大数据开发笔试题 2401_84181221 程序员架构大数据
+Hudi：湖仓一体数据管理框架，用来管理模型数据，包括ODS/DWD/DWS/DIM/ADS等；+Doris：OLAP引擎，同步数仓结果模型，对外提供数据服务支持；+Hbase：用来存储维表信息，维表数据来源一部分有Flink加工实时写入，另一部分是从Spark任务生产，其主要作用用来支持FlinkETL处理过程中的LookupJoin功能。这里选用Hbase原因主要因为Table的HbaseC
Flink - CEP kikiki1
Hadoop3.2集群新版本的搭建详细讲解过程，从下面第一张官方的图来看，最新版是3.2，所以大猪将使用3.2的版本来演示，过程中遇到的坑留给自己，把路留给你们，IT之路还有大猪。大猪为了把文章压缩极简方便小伙伴阅读，将使用root帐号进行所有操作。准备两台主机10.211.55.11、10.211.55.12对应的hostname为m1.example.com、m2.example.com具体命
chapter01 Java语言概述知识点Note 月下绯烟 Java java 开发语言
JavaSEJavaEEJavaME大数据Java基础常用技术栈mysqlJDBCSSMspring+springmvc+mybatisLinuxnacosHadoopFlinkJAVAEE消息队列rabbitMQdocker数据库redisspringbootspringcloudsshstruts+spring+hibernate过时技术栈很少用JAVA虚拟机jvm分布式微服务高并发常见dos
【无标题】大数据之批处理，流处理，批流一体概念数字天下大数据
批处理批处理是将一定量的数据集合在一起，形成一个数据批次，然后对这个批次中的数据进行处理。Spark和Flink都支持批处理，其中Spark使用的是批处理模型，即将一批数据一次性读入内存，然后对其进行处理，处理完成后再将结果写入磁盘。Flink也支持批处理，但使用的是基于流处理的批处理模式，即将一批数据分成多个数据流进行处理，可以实现更高效的内存管理和更低的延迟。流处理流式处理是一种将数据流式地处
python flink_《Flink官方文档》Python 编程指南测试版 weixin_39846361 python flink
原文链接译者：hjjxd校对：清英Flink中的分析程序实现了对数据集的某些操作(例如，数据过滤，映射，合并，分组)。这些数据最初来源于特定的数据源(例如来自于读文件或数据集合)。操作执行的结果通过数据池以写入数据到(分布式)文件系统或标准输出(例如命令行终端)的形式返回。Flink程序可以运行在不同的环境中，既能够独立运行，也可以嵌入到其他程序中运行。程序可以运行在本地的JVM上，也可以运行在服
flink---window 搞数据的小杰 flink 大数据
Window介绍DataStream:https://nightlies.apache.org/flink/flink-docs-release-1.17/zh/docs/dev/datastream/operators/windows/SQL:https://nightlies.apache.org/flink/flink-docs-release-1.17/zh/docs/dev/table/
Flink(1.13) 的window机制(一) 万事万物
窗口概述在流处理应用中，数据是连续不断的，因此我们不可能等到所有数据都到了才开始处理。当然我们可以每来一个消息就处理一次，但是有时我们需要做一些聚合类的处理，例如：在过去的1分钟内有多少用户点击了我们的网页。在这种情况下，我们必须定义一个窗口，用来收集最近一分钟内的数据，并对这个窗口内的数据进行计算。流式计算是一种被设计用于处理无限数据集的数据处理引擎，而无限数据集是指一种不断增长的本质上无限的数
pyflink 自定义函数 scan724 Flink实时计算 python 开发语言
frompyflink.datastreamimportStreamExecutionEnvironmentfrompyflink.common.typeinfoimportTypesfrompyflink.datastreamimportStreamExecutionEnvironmentfrompyflink.tableimportStreamTableEnvironmentfrompyfli
flink 问题记录 Jhon_yh flink flink hadoop 大数据
文章目录1.Causedby:java.lang.UnsatisfiedLinkError:org.apache.hadoop.util.NativeCrc32.nativeComputeChunkedSums(IILjava/nio/ByteBuffer;ILjava/nio/ByteBuffer;IILjava/lang/String;JZ)V原因java.util.concurrent.Ex
Pyflink教程(三)：自定义函数 yuxj记录学习学习笔记学习 pyflink
该文章例子pyflink环境是apache-flink==1.13.6Python自定义函数是PyFlinkTableAPI中最重要的功能之一，其允许用户在PyFlinkTableAPI中使用Python语言开发的自定义函数，极大地拓宽了PythonTableAPI的使用范围。简单来说就是有的业务逻辑和需求是sql语句满足不了或太麻烦的，需要用过函数来实现。PythonUDFPythonUDF，即
pyflink 滚动窗口实例菜鸟社长菜鸟的大数据进阶之路大数据进阶之路 kafka big data python flink
写在前头：更多大数据相关精彩内容请进我的知识星球，每周定期更新正篇技术路线：模拟kafka生产者发送数据——>flink对kafka数据实时计算处理——>处理后的数据发送到kafka1、模拟客流数据的生产者，参考https://blog.csdn.net/qq_22611181/article/details/1199002502、flink聚合操作原理介绍，参考https://blog.csdn
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟