回炉重造P

基于mapreduce的DBSCAN算法实现

东拼西凑拿mapreduce实现了下DBSCAN，很多地方其实并没有很并行，
密度聚类确实不太适合用MR来实现，写都写了整理一下。

算法流程

基于hadoop的MapReduce api实现的分布式DBSCAN算法。该算法实现流程分为七步：

Similarity相似度计算部分，寻找满足阈值的点对组合。
FindCore寻找核心点，找到满足最小邻域要求的核心点及其邻域信息。
CoreList生成核心点列表。
OnlyCore转换领域信息，将其变为只有核心点的组合。
FirstCoreMerge按序排列，实现核心点组合第一步合并。
CoreMerge完成核心点合并。
FinalMerge 完成核心点和边界点合并，完成聚类。

文件输入与输出

每一步的输出与下一步的输入都用HDFS来存储，给出下面这个表格方便理解。

步骤	输出或读取文件	输出文件
Similarity	data.txt	pair.txt
FindCore	pair.txt	core_neighbor.txt
CoreList	core_neighbor.txt	core_list.txt
OnlyCore	core_neighbor.txt；core_list.txt	only_core.txt
FirstCoreMerge	only_core.txt	core_cluster_first.txt
CoreMerge	core_cluster_first.txt	core_cluster_result.txt
FinalMerge	core_neighbor.txt；core_cluster_result.txt	final_merge.txt

Similarity相似度计算

该部分读入文件为data.txt，即为坐标点数据文件，文件格式为id与空格分隔的坐标点分量。
这一部分MR并没有什么好的办法，总体还是在硬算。如果是文本相似度可能能用矩阵计算来并行处理，坐标就不太好整了。不过可以切片同时算最后汇总。

SimilarityMapper

@Override
    protected void map(Object key, Text value, Context context) throws IOException, InterruptedException {
        String line = value.toString().trim();
        String[] results = CalUtil.splitElementIntoArrStr(line);
        // id为key，坐标为value
        context.write(new IntWritable(Integer.parseInt(results[0])), new Text(results[1]));
    }

该类实现了相似度计算MR过程中的mapper部分，其利用工具类中的split方法，将读入的data文件中坐标点id与坐标点进行分割，输出的key为坐标点id，value为坐标点分量以空格连接的字符串形式。工具类中的CalUtil.splitElementIntoArrStr()方法如下所示：

    public static String[] splitElementIntoArrStr(String line){
        String[] results = new String[2];
        StringTokenizer tokenizer = new StringTokenizer(line);
        String idStr = tokenizer.nextToken();
        StringBuilder sb = new StringBuilder();
        while (tokenizer.hasMoreTokens()){
            sb.append(tokenizer.nextToken()).append(" ");
        }
        sb.subSequence(0, sb.length() - 1 );
        results[0] = idStr;
        results[1] = sb.toString();
        return results;
    }

利用tokenizer进行分割，为了返回两个值，将其存放于字符串字符中回传。

SimilarityReducer

Reducer主要包括两个部分。首先在所有reducer启动前利用setup方法读取一份data信息，以便在相似度计算中使用。并从configuration配置中读取threshold阈值信息。

	@Override
    protected void setup(Context context) throws IOException{
        // reduce过程开始前调用一次，读取一份完整的坐标信息
        // 同时读取data信息和
        Configuration conf = context.getConfiguration();
        String filePath = conf.get("data.filepath");
        threshold = conf.getDouble("similarity.threshold", 0.0);
        elementArrList = DataUtil.readElementArrList(filePath);
}

其中readElement方法将坐标点以字符串形式读取并存入list中。

在reduce方法中，将当前对应坐标点信息和所有其余点进行距离计算并与阈值进行比较，若其满足阈值条件，则将该点id与对应点id组成对进行输出。

	@Override
    protected void reduce(IntWritable key, Iterable<Text> values, Context context) throws IOException, InterruptedException {
        // 计算相似度信息
        int idCal = key.get();
        String arr = values.iterator().next().toString();
        for(int i=0;i<elementArrList.size();i++){
            if(i == idCal)
                continue;
            boolean isPaired = CalUtil.isDistanceBelowThreshold(arr, elementArrList.get(i), threshold);
            if(isPaired){
                context.write(new Text(String.valueOf(idCal)), new Text(String.valueOf(i)));
            }
        }
}

CalUtil.isDistanceBelowThreshold为工具类方法，通过切割两个点向量字符串形成double数组，借助欧氏距离进行距离计算，最后返回阈值比较结果。

public static boolean isDistanceBelowThreshold(String element1, String element2, double thresold){
        ArrayList<Double> elementArray1 = splitStringIntoDoubleArr(element1);
        ArrayList<Double> elementArray2 = splitStringIntoDoubleArr(element2);
        double distance = calDistance(elementArray1, elementArray2);
        return distance < thresold;
    }

Similarity部分的输出文件每行格式为{ id1 id2 }。

SimilarityRun

该类设定了相似度计算部分的任务设置细节，主要要注意的是其进行了在配置类中的阈值与文件地址。

	    Configuration hadoopConfig = new Configuration();
        // 向工作配置中设置文件地址和阈值信息
        hadoopConfig.set("data.filepath", inputPath);
        hadoopConfig.setDouble("similarity.threshold", threshold);

FindCore寻找核心点

该部分将上一步中的满足相似度信息的id对进行拆分，并通过将头个id相同的行通过mapper传入reducer，进而确定每个点的邻域中点的个数，判断是否为核心点。

FindCoreMapper

	    StringTokenizer tokenizer = new StringTokenizer(value.toString());
        if(tokenizer.countTokens() == 2){
            // 稍微检测一下免得格式出错
            // 点对必定只能有两个值
            String id1 = tokenizer.nextToken();
            String id2 = tokenizer.nextToken();
            context.write(new Text(id1), new Text(id2));
        }

主要就是对点对进行分割，第一个id为key，第二个id为value进行输出。

FindCoreReducer

首先在setup中利用configuration读入最小邻域元素数量。

	protected void setup(Context context) throws IOException, InterruptedException {
        // 读取最小数量
        Configuration config = context.getConfiguration();
        minNum = config.getInt("findcore.minNum", 0);
    }

reduce过程中，利用values迭代器遍历value值，将其转变为不重复id集合。通过计算id集合数量，根据DBSCAN定义，将自身也算入邻域信息，满足最小邻域元素数量的点即为核心点。

	    ArrayList<String> valueList = new ArrayList<String>();
        for(Text v:values){
            // 防止重复
            if(!valueList.contains(v.toString())){
                valueList.add(v.toString());
            }
        }
        int num = valueList.size();
        // 超过最小数目，为core(包括自己)
        if(num + 1 >= minNum){
            String idListStr = String.join(" ", valueList);
            context.write(new Text(key), new Text(idListStr));
        }
    }

将其id作为key，其邻域中的点以空格进行连接，作为value输出。

FindCoreRun

该类展示了核心点发现任务的设置细节，主要注意的是设置了核心点邻域元素数量最小值。

	    Configuration hadoopConfig = new Configuration();
        // 向工作配置中设置minNum
        hadoopConfig.setInt("findcore.minNum", minNum);

CoreList部分

该部分比较简单，只是利用MapReduce的按行读取来对核心点寻找部分的输出进行处理，将key也就是核心点id存储到同个文件中。

CoreListMapper

该mapper将每行进行空格分割，选取第一个值也就是core id核心点id输出至reducer中。

protected void map(Object key, Text value, Context context) throws IOException, InterruptedException {
        // 每一行只取最前面的一个token
        // 因为不会重复，直接key value相同输出
        StringTokenizer tokenizer = new StringTokenizer(value.toString());
        String id = tokenizer.nextToken();
        context.write(new Text(id), new Text(id));
    }

CoreListReducer

protected void reduce(Text key, Iterable<Text> values, Context context) throws IOException, InterruptedException {
        // 直接输出，key为空
        String value = null;
        for(Text t:values){
            value = t.toString();
        }
        context.write(new Text(""), new Text(value));
    }

简单进行输出即可，因为key没有意义，直接以一个空格进行输出。输出结果为每行一个核心点id。

OnlyCore部分

该部分主要对第二部分findcore的输出进行处理，将其中的核心点邻域信息中的所有边界点剔除后输出，也就是将核心点邻域中的所有其他核心点id输出。

OnlyCoreMapper

该类处理前先在setup中读取核心点列表信息，方便之后辨认核心点。核心点列表文件地址通过配置类进行获取。

	protected void setup(Context context) throws IOException, InterruptedException {
        // 先把core读进来
        Configuration config = context.getConfiguration();
        String filePath = config.get("corelist.core_list_filepath");
        coreList = DataUtil.readCoreList(filePath);
    }

之后对输入的每行进行分割处理，保留头部的coreid，对后续id集合进行遍历，当其存在于核心点集合中，进行组合输出。若某行对应的coreid对应的核心点邻域中没有其余的核心点，则输出空格意思一下。

        StringTokenizer tokenizer = new StringTokenizer(value.toString());
        ArrayList<String> core_neighbor_list = new ArrayList<String>();
        String coreId = tokenizer.nextToken();
        while(tokenizer.hasMoreTokens()){
            String token = tokenizer.nextToken();
            if(coreList.contains(token)){
                // 为核心点，则放入
                core_neighbor_list.add(token);
            }
        }
        if(core_neighbor_list.size() > 0){
            // 核心点包核心点
            String core_neighbor_str = String.join(" ", core_neighbor_list);
            context.write(new Text(coreId), new Text(core_neighbor_str));
        }else{
            // 单一核心点，输出个空格好了
            context.write(new Text(coreId), new Text(" "));
        }

OnlyCoreReducer

每个key都不一样，只要读一次value并输出即可。

	    String value = null;
        for(Text v:values){
            value = v.toString();
        }
        context.write(key, new Text(value));

OnlyCoreRun

该类详细定义了找到核心点邻域内其余核心点信息的任务设置细节，主要要注意的是设置了核心点列表文件地址。

	    Configuration hadoopConfig = new Configuration();
        hadoopConfig.set("corelist.core_list_filepath", coreListPath);

FirstCoreMerge部分

在算法中设置该部分是为了利用MapReduce的特性来聚合一部分的onlyCore输出信息进行merge操作，减轻最终整合时的计算压力。算是唯一的创新点吧，很惭愧。
主要思路是将only core中输出的核心点邻域核心信息进行从小到大的排序操作，之后将第一个id作为key，其他id作为value传入reducer中，从而可以借助reducer将一部分核心点进行merge操作，大大减轻后续完整整合的压力。
举例来说，假设only core中包含以下信息（方便阅读，分号作为换行标识）：
1 2 3；2 1 5；3 7；
此时，经过排序操作，该数据会变为两部分，1 2 3；1 2 5与3 7，reducer中可以将前两者进行merge变为1 2 3 5，这样在最后的操作中只要将剩余的 1 2 3 5与 3 7两行进行merge即可，这在大量数据的条件下可以使大部分的合并操作利用MapReduce机制来分布式实现。

CoreClusterMapper

虽然步骤叫coreMerge但是类写成这名了，将就看吧。Mapper中将每行数据转换为整型数据的集合进行排序操作，并以排序后的第一个id，即最小id作为key进行输出，使reducer中可进行merge操作。

	protected void map(Object key, Text value, Context context) throws IOException, InterruptedException {
        // 排序操作
        String[] result = CalUtil.sortArrByIntegerList(value.toString());
        System.out.println(result[0]);
        System.out.println(result[1]);
        context.write(new Text(result[0]), new Text(result[1]));
    }

其中CalUtil.sortArrByIntegerList方法实现了排序操作。输出为一个字符串数组，包括最小id字符串和其他id组成的字符串。当只有单个核心时，数组第二个值设置为空格。

	    public static String[] sortArrByIntegerList(String line){
        ArrayList<Integer> intList = convertStrIntoIntegerList(line);
        intList = sortIntegerList(intList);
        // 最小的核作为key
        String keyId = String.valueOf(intList.get(0));
        // 剩下的连起来
        StringBuilder sb = new StringBuilder();
        for(int i=1;i<intList.size();i++){
            sb.append(intList.get(i)).append(" ");
        }
        String[] result = new String[2];
        result[0] = keyId;
        System.out.println(intList.size());
        if(intList.size() <= 1){
            // 单个核心，输出个空格
            result[1] = " ";
        }else{
            result[1] = sb.toString().substring(0, sb.length()-1);
        }
        return result;
    }

重写Comparator的compare方法来实现从小到大的集合排序。

	public static ArrayList<Integer> sortIntegerList(ArrayList<Integer> intList){
        intList.sort(new Comparator<Integer>() {
            @Override
            public int compare(Integer o1, Integer o2) {
                if(o1 < o2)
                    return -1;
                else if(o1 > o2)
                    return 1;
                else
                    return 0;
            }
        });
        return intList;
    }

CoreClusterReducer

reducer中主要实现为将所有的value进行分割并不重复地进行合并，最终输出排序后地最小id为key，其余id空格连接成为value即可。

	protected void reduce(Text key, Iterable<Text> values, Context context) throws IOException, InterruptedException {
        String minCoreId = key.toString();
        ArrayList<Integer> uniqueId = new ArrayList<Integer>();
        // 把value作为list合并
        for(Text v:values){
            // 注意可能有单个空格值
            if(!v.toString().equals(" ")){
                ArrayList<Integer> neighbor_list = CalUtil.convertStrIntoIntegerList(v.toString());
                for(Integer intNeighbor:neighbor_list){
                    if(!uniqueId.contains(intNeighbor)){
                        uniqueId.add(intNeighbor);
                    }
                }
            }
        }
        // 排序输出
        uniqueId = CalUtil.sortIntegerList(uniqueId);
        StringBuilder sb = new StringBuilder();
        for(int i=1;i<uniqueId.size();i++){
            sb.append(uniqueId.get(i)).append(" ");
        }
        context.write(key, new Text(sb.toString()));
    }

最终输出格式为coreid coreid1 … coreidn。

CoreMerge部分

因为merge部分的特殊性，不能将其完全利用MapReduce进行优化计算，最终的实现是将上一步进行简化过的核心点邻域信息全部存入相同key对中，利用同一reducer进行处理。所以该部分主要对merge算法进行讲解，忽略mapper和reducer的具体实现过程。

CoreClusterMergeAdapter

该类实现了具体的merge合并方法。
首先讲解工具类方法：

 public static boolean hasSameElement(ArrayList<String> list1, ArrayList<String> list2){
        for (String s : list1) {
            if (list2.contains(s))
                return true;
        }
        return false;
    }

    public static void combineList(ArrayList<String> list1, ArrayList<String> list2){
        list1.removeAll(list2);
        list1.addAll(list2);
    }

hasSameElement方法对两个字符串形式的id集合进行判断，有相同元素则输出true，没有则输出false。combineList方法则借助List类方法，将两个参数中的第一个list转换为参数中两个list的非重复并集。

具体的core merge实现可以如下表示：
首先，对每一个core id及其领域中核心点的集合进行处理，对每一个集合赋予一个used值，初始为0。之后，对第一个集合进行操作，将其与所有其他集合进行hasSameElement的判断，当返回为真时，对这两个集合的进行非重复并集操作，并将第一个集合对应used值转换为1，另一个转为2，之后寻找used为0的集合重复操作直到遍历完成。
最后，对所有used值为0或1的集合进行输出，输出结果即为完成merge合并的核心点邻域中核心点信息。
总的来说就是一个并集操作。

    public static ArrayList<String> onlyCoreMerge(ArrayList<ArrayList<String>> coreList){
        // 0为未被使用，1为已被使用并作为簇保留，2为被吸干
        int[] isUsed = new int[coreList.size()];
        for(int i=0;i<coreList.size();i++){
            ArrayList<String> now = coreList.get(i);
            if(isUsed[i] == 0){
                // 找到包含now中某个值的list，并全部吸干
                for(int j=0;j<coreList.size();j++){
                    // 可吸选手
                    if(isUsed[j]!=1 && isUsed[j]!=2 && i!=j){
                        // 有交集
                        if(CalUtil.hasSameElement(now, coreList.get(j))){
                            CalUtil.combineList(now, coreList.get(j));
                            isUsed[j] = 2;
                            isUsed[i] = 1;
                        }
                    }
                }
            }
        }
        ArrayList<String> result = new ArrayList<String>();
        for(int i=0;i<isUsed.length;i++){
            if(isUsed[i] == 1 || isUsed[i] == 0){
                result.add(String.join(" ", coreList.get(i)));
            }
        }
        return result;
    }

输出格式与FirstCoreMerge的输出相同。

FinalMerge部分

该部分职责就是将核心点与边界点进行合并，完成DBSCAN聚类操作。

FinalMergeMapper

Mapper中输入为第二部分的核心点邻域信息输出内容。
首先，利用setup将Core merge部分输出读入。

	protected void setup(Context context) throws IOException, InterruptedException {
        Configuration config = context.getConfiguration();
        String filePath = config.get("merge.core_cluster_result_path");
        core_cluster_result = DataUtil.readCoreClusterResult(filePath);
    }

该操作主要是为了将核心点邻域信息的key改为core merge中的某值，也就是说，在map操作中，通过与Core merge进行比对，核心点id转换为其所在的core合并结果的所有id集合形成的字符串，以便在reducer中将所有的边界点进行合并。

protected void map(Object key, Text value, Context context) throws IOException, InterruptedException {
        // 每行转list，查询是否有交集
        StringTokenizer tokenizer = new StringTokenizer(value.toString());
        ArrayList<String> singleList = new ArrayList<String>();
        while(tokenizer.hasMoreTokens()){
            singleList.add(tokenizer.nextToken());
        }
        for(ArrayList<String> list:core_cluster_result){
            if(CalUtil.hasSameElement(list, singleList)){
                context.write(new Text(String.join(" ", list)), new Text(value));
                break;
            }
        }
    }

hasSameElement方法作用已在前文中描述过。

FinalMergeReducer

reducer中对所有value进行分割组装，最终输出每行为对应聚类结果簇的所有簇中元素id的空格连接字符串。

        ArrayList<String> list = new ArrayList<String>();
        for(Text v:values){
            StringTokenizer tokenizer = new StringTokenizer(v.toString());
            ArrayList<String> singleList = new ArrayList<String>();
            while(tokenizer.hasMoreTokens()){
                singleList.add(tokenizer.nextToken());
            }
            // 获取非重复并集
            CalUtil.combineList(list, singleList);
        }
        // 输出结果
        String clusterStr = String.join(" ", list);
        int firstBlankIndex = clusterStr.indexOf(" ");
        context.write(new Text(clusterStr.substring(0, firstBlankIndex)), new Text(clusterStr.substring(firstBlankIndex + 1)));

FinalMergeRun

该类设置了FinalMerge任务的细节，主要是设置了core merge结果的文件地址。

	Configuration hadoopConfig = new Configuration();
hadoopConfig.set("merge.core_cluster_result_path", coreClusterResultPath);

总任务调度方法

主方法输入三个参数，分别为阈值，核心点最小邻域元素数与数据文件。

HDbscan

        String dataPath = DataUtil.HDFS_INPUT + "/" + args[2]; // 数据集地址
        String similarityPairPath = DataUtil.HDFS_OUTPUT + "/pair.txt"; // 满足阈值的点对结果输出地址
        String coreNeighborPath = DataUtil.HDFS_OUTPUT + "/core_neighbor.txt"; // 核心点及其邻域点输出地址
        String coreListPath = DataUtil.HDFS_OUTPUT + "/core_list.txt"; // 核心点列表输出地址
        String onlyCoreNeighborPath = DataUtil.HDFS_OUTPUT + "/only_core.txt"; // 仅核心点邻域输出地址
        String coreClusterFirstStep = DataUtil.HDFS_OUTPUT + "/core_cluster_first.txt"; // core cluster按序合并第一步输出地址
        String coreClusterResult = DataUtil.HDFS_OUTPUT + "/core_cluster_result.txt"; // core cluster合并最终输出地址
        String finalMergePath = DataUtil.HDFS_OUTPUT + "/final_merge.txt"; // 最终合并输出地址

        double threshold = Double.parseDouble(args[0]); // 阈值
        int minNum = Integer.parseInt(args[1]); // 成为核心的最低要求

        // SimilarityRun.run(dataPath, similarityPairPath, threshold); // 计算相似度
        // FindCoreRun.run(similarityPairPath, coreNeighborPath, minNum); // 寻找核心点
        // CoreListRun.run(coreNeighborPath, coreListPath); // 核心点列表
        // OnlyCoreRun.run(coreNeighborPath, onlyCoreNeighborPath, coreListPath); // 转为只有核心点的序列
        // CoreClusterRun.firstRun(onlyCoreNeighborPath, coreClusterFirstStep); // core cluster按序合并第一步
        // CoreClusterRun.secondRun(coreClusterFirstStep, coreClusterResult); // core cluster按序合并
        FinalMergeRun.run(coreNeighborPath, finalMergePath, coreClusterResult); // 最终组合，完成聚类

结果展示

本来是在云服务器上搭的集群，结果有台被挖矿注入了懒得恢复了，yarn默认端口害人不浅。本地简单看看效果。
有点要注意的是,云服务器对自身操作都需要使用内网地址，因为这个当时踩了不少坑。

数据集格式

实验数据选取自美国zillow房地产评估2017年房产数据，选取其中的经纬度信息进行聚类操作，方便可视化。数据经处理转移到txt格式，并存入hdfs中进行实验。

jar文件与运行命令

将程序打包为dbscan_whole.jar文件在服务器上运行。
hadoop jar dbscan_whole.jar com.huiluczP.HDbscan 20000 30 10000data.txt
距离阈值选取20000，最小邻域元素数为30，数据集为10000data.txt。

实验结果数据

相似度计算输出pair.txt：

核心点寻找输出core_neighbor.txt:

核心点列表生成core_list.txt

只有核心点的邻域信息only_core.txt

核心点merge第一步core_cluster_first.txt

核心点完整合并 core_cluster_result.txt

聚类结果 final_merge.txt

聚类结果簇为29个。

聚类结果可视化

把文件提出来以后(写了个简单循环读HDFS的玩意)，拿python写了个简单可视。

可以看出，根据密度聚类后，簇的边界分明而大小不同，这是由于城市人口与农村人口的差异，美国西部农村荒野多，呈现这种聚类状况合理，聚类效果良好。

项目链接

项目已上传至github，把数据集文件也传上去了，有兴趣可以看看。
https://github.com/huiluczP/hadoop_dbscan

总结

总的来说就是差不多实现了一版DBSCAN，算是熟悉下MR吧。密度聚类确实不太适合MR来做，有空补一个spark的。

你可能感兴趣的:(hadoop,java,java,hadoop,mapreduce,clustering)

JSON 与 AJAX Auscy json ajax 前端
一、JSON（JavaScriptObjectNotation）1.数据类型与语法细节支持的数据类型：基本类型：字符串（需用双引号）、数字、布尔值（true/false）、null。复杂类型：数组（[]）、对象（{}）。严格语法规范：键名必须用双引号包裹（如"name":"张三"）。数组元素用逗号分隔，最后一个元素后不能有多余逗号。数字不能以0开头（如012会被解析为12），不支持八进制/十六进制
JavaScript 树形菜单总结 Auscy microsoft
树形菜单是前端开发中常见的交互组件，用于展示具有层级关系的数据（如文件目录、分类列表、组织架构等）。以下从核心概念、实现方式、常见功能及优化方向等方面进行总结。一、核心概念层级结构：数据以父子嵌套形式存在，如{id:1,children:[{id:2}]}。节点：树形结构的基本单元，包含自身信息及子节点（若有）。展开/折叠：子节点的显示与隐藏切换，是树形菜单的核心交互。递归渲染：因数据层级不固定，
精通Canvas：15款时钟特效代码实现指南烟幕缭绕
本文还有配套的精品资源，点击获取简介：HTML5的Canvas是一个用于绘制矢量图形的API，通过JavaScript实现动态效果。本项目集合了15种不同的时钟特效代码，帮助开发者通过学习绘制圆形、线条、时间更新、旋转、颜色样式设置及动画效果等概念，深化对Canvas的理解和应用。项目中的CSS文件负责时钟的样式设定，而JS文件则包含实现各种特效的逻辑，通过不同的函数或类处理时间更新和动画绘制，提
深入剖析OpenJDK 18 GA源码：Java平台最新发展想法臃肿
本文还有配套的精品资源，点击获取简介：OpenJDK18GA作为Java开发的关键里程碑，提供了诸多新特性和改进。本文章深入探讨了OpenJDK18GA源码，揭示其内部机制，帮助开发者更好地理解和利用这个版本。文章还涵盖了PatternMatching、SealedClasses、Records、JEP395、JEP406和JEP407等特性，以及HotSpot虚拟机、编译器、垃圾收集器、内存模型
Java大厂面试实录：谢飞机的电商场景技术问答（Spring Cloud、MyBatis、Redis、Kafka、AI等）
Java大厂面试实录：谢飞机的电商场景技术问答（SpringCloud、MyBatis、Redis、Kafka、AI等）本文模拟知名互联网大厂Java后端岗位面试流程，以电商业务为主线，由严肃面试官与“水货”程序员谢飞机展开有趣的对话，涵盖SpringCloud、MyBatis、Redis、Kafka、SpringSecurity、AI等热门技术栈，并附详细解析，助力求职者备战大厂面试。故事设定谢
【超硬核】JVM源码解读：Java方法main在虚拟机上解释执行 HeapDump性能社区 java 开发语言后端 jvm
本文由HeapDump性能社区首席讲师鸠摩（马智）授权整理发布第1篇-关于Java虚拟机HotSpot，开篇说的简单点开讲Java运行时，这一篇讲一些简单的内容。我们写的主类中的main()方法是如何被Java虚拟机调用到的？在Java类中的一些方法会被由C/C++编写的HotSpot虚拟机的C/C++函数调用，不过由于Java方法与C/C++函数的调用约定不同，所以并不能直接调用，需要JavaC
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（Spring Boot、MyBatis、Kafka、Redis、AI等）来旺 Java场景面试宝典 Java Spring Boot MyBatis Kafka Redis 微服务 AI
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（SpringBoot、MyBatis、Kafka、Redis、AI等）互联网大厂技术面试不仅考察技术深度，更注重业务场景与系统设计能力。本篇以严肃面试官与“水货”程序员谢飞机的对话，带你体验音视频业务场景下的Java面试全过程，涵盖主流技术栈，并附详细答案解析，助你面试无忧。故事场景设定谢飞机是一名有趣但技术基础略显薄弱的程序员，这次应
【前端】jQuery数组合并去重方法总结
在jQuery中合并多个数组并去重，推荐使用原生JavaScript的Set对象（高效简单）或$.unique()（仅适用于DOM元素，不适用于普通数组）。以下是完整解决方案：方法1：使用ES6Set（推荐）//定义多个数组constarr1=[1,2,3];constarr2=[2,3,4];constarr3=[3,4,5];//合并数组并用Set去重constmergedArray=[...
MySQL Explain 详解：从入门到精通，让你的 SQL 飞起来
引言：为什么Explain是SQL优化的“照妖镜”？在Java开发中，我们常常会遇到数据库性能瓶颈的问题。一条看似简单的SQL语句，在数据量增长到一定规模后，可能会从毫秒级响应变成秒级甚至分钟级响应，直接拖慢整个应用的性能。此时，你是否曾困惑于：为什么这条SQL突然变慢了？索引明明建了，为什么没生效？到底是哪里出了问题？答案就藏在MySQL的EXPLAIN命令里。EXPLAIN就像一面“照妖镜”，
Java特性之设计模式【责任链模式】 Naijia_OvO Java特性 java 设计模式责任链模式
一、责任链模式概述顾名思义，责任链模式（ChainofResponsibilityPattern）为请求创建了一个接收者对象的链。这种模式给予请求的类型，对请求的发送者和接收者进行解耦。这种类型的设计模式属于行为型模式在这种模式中，通常每个接收者都包含对另一个接收者的引用。如果一个对象不能处理该请求，那么它会把相同的请求传给下一个接收者，依此类推主要解决：职责链上的处理者负责处理请求，客户只需要将
日历插件-FullCalendar的详细使用老马聊技术 JavaScript 前端 javascript
一、介绍FullCalendar是一个功能强大、高度可定制的JavaScript日历组件，用于在网页中显示和管理日历事件。它支持多种视图（月、周、日等），可以轻松集成各种框架，并提供丰富的事件处理功能。二、实操案例具体代码如下：FullCalendar日期选择body{font-family:Arial,sans-serif;margin:20px;}#calendar{max-width:900
react-native android 环境搭建
环境：macjava版本：Java11最重要：一定要一定要一定要react涉及到很多的依赖下载，gradle和react相关的，第一次安装环境时有外网环境会快速很多。安装nodejs安装react-nativenpminstallreact-native-clinpminstallreact-native创建一个新项目react-nativeinitfirstReact替换gradle下载源rep
Java 调用 HTTP 接口的 7 种方式：全网最全指南
Java调用HTTP接口的7种方式：全网最全指南在开发过程中，调用HTTP接口是最常见的需求之一。本文将详细介绍Java中7种主流的调用HTTP接口的方式，包括每种工具的优缺点和完整代码实现。1.使用RestTemplateRestTemplate是Spring提供的同步HTTP客户端，适用于传统项目。尽管从Spring5开始被标记为过时，它仍然是许多开发者的首选。示例代码importorg.sp
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求可曾去过倒悬山 java 前端架构
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求三年经验是Java程序员的分水岭，技术栈深度决定你成为“业务码农”还是“架构师候选人”。本文整合阿里、美团、滴滴等大厂招聘要求，为你绘制可落地的进阶路线。一、Java核心：从语法糖到JVM底层三年经验与初级的核心差异在于系统级理解，大厂面试常考以下能力：JVM与性能调优内存模型（堆外内存、元空间）、GC算法（G1/ZGC适用场
javascript高级程序设计第3版——第12章 DOM2与DOM3 weixin_30687587 javascript 数据结构与算法 ViewUI
12章——DOM2与DOM3为了增强D0M1，DOM级规范定义了一些模块。DOM2核心：为不同的DOM类型引入了一些与XML命名空间有关的方法，还定义了以编程方式创建Document实例的方法；DOM2级样式：针对操作元素的样式而开发；其特性总结：1.每个元素都有一个关联的style对象，可用来确定和修改行内样式；2.要确定某个元素的计算样式，可使用getComgetComputedStyle（）
Java设计模式实战：高频场景解析与避坑指南 mckim_ 笔记学习 java 设计模式
引言设计模式是软件开发的基石，但许多开发者面对23种模式时容易陷入“学完就忘”或“滥用模式”的困境。本文从工业级项目视角出发，精选10种高频设计模式，结合真实代码案例与主流框架应用，帮你建立模式思维，拒绝纸上谈兵。一、创建型模式：告别new的暴力美学1.工厂方法模式（FactoryMethod）核心痛点：对象创建逻辑散落各处，难以统一管理。场景案例：电商平台需要支持多种支付方式（支付宝、微信、银联
JavaScript 基础09：Web APIs——日期对象、DOM节点梦想当全栈 JavaScript javascript 前端开发语言
JavaScript基础09：WebAPIs——日期对象、DOM节点进一步学习DOM相关知识，实现可交互的网页特效能够插入、删除和替换元素节点。能够依据元素节点关系查找节点。一、日期对象掌握Date日期对象的使用，动态获取当前计算机的时间。ECMAScript中内置了获取系统时间的对象Date，使用Date时与之前学习的内置对象console和Math不同，它需要借助new关键字才能使用。1.实例
《Java前端开发全栈指南：从Servlet到现代框架实战》
前言在当今Web开发领域，Java依然是后端开发的主力语言，而随着前后端分离架构的普及，Java开发者也需要掌握前端技术栈。本文将全面介绍JavaWeb前端开发的核心技术，包括传统Servlet/JSP体系、现代前端框架集成方案，以及全栈开发的最佳实践。通过本文，您将了解如何构建现代化的JavaWeb应用前端界面。一、JavaWeb前端技术演进1.1传统技术栈Servlet：JavaWeb基础，处
javaSE面试题---语法基础、面向对象、常用类、集合、多线程、文件和IO yang_xiao_wu_ java 面试开发语言 javase java基础多线程文件和IO
目录语法基础1.jdkjrejvm区别2.基本数据类型3.引用数据类型4.自动类型转换、强制类型转换5.常见的运算符6.&和&&区别7.++--在前和在后的区别8.+=有什么作用9.switch..case中switch支持哪些数据类型10.break和continue区别11.while和dowhile区别12.如何生成一个取值范围在[min,max]之间的随机数13.数组的长度如何获取？数组下
JAVA 高频八股文 Day03 Conqueror675 java 开发语言
12.TCP和Http的区别是什么TCP是传输层协议，负责建立可靠的点对点连接，确保数据有序、完整地传输（如铁路轨道）；HTTP是应用层协议，基于TCP构建，定义了Web服务交互的报文格式和规则（如货运订单）。TCP关注数据如何可靠送达，通过三次握手建立连接、流量控制等机制保证传输；HTTP关注传输内容的意义，提供请求/响应语义（GET/POST等）和无状态通信。补充：说一下什么是三次握手四次挥手
JVM字节码加载与存储中的细节
问题引出：为什么Java定义int型变量为32767时使用的是bipush32767，而定义int型变量为32768时使用的是ldc#4？在Java中，如果这样定义int型变量：publicclassTest{publicstaticvoidmain(String[]args){inti=0;intj=5;intk=6;intm=32768;intn=32767;}}变量对应的字节码文件内容是这样
AI Agent开发学习系列 - langchain之Chains的使用(7)：用四种处理文档的预制链轻松实现文档对话 alex100 AI Agent 学习人工智能 langchain prompt 语言模型 python
在LangChain中，四种文档处理预制链（stuff、refine、mapreduce、mapre-rank）是实现文档问答、摘要等任务的常用高阶工具。它们的核心作用是：将长文档切分为块，分步处理，再整合结果，极大提升大模型处理长文档的能力。stuff直接拼接所有文档内容到prompt，一次性交给大模型处理。适合文档较短、token不超限的场景。refine递进式摘要。先对第一块文档生成初步答案
JVM与Spring Boot核心解析 AIHacksCash Java场景面试宝典 Java JVM Spring Boot
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
HashMap的Get(),Put()源码解析 Ttang23 哈希算法散列表算法
1、什么是HashMap？HashMap是Java中用于存储键值对（Key-Value）的集合类，它实现了Map接口。其核心特点是：无序性：不保证元素的存储顺序，也不保证顺序恒定不变。唯一性：键（Key）不能重复，若插入重复键会覆盖原有值。允许null：允许一个null键和任意数量的null值。非线程安全：相比HashTable，HashMap不支持同步，性能更高。2.核心数据结构：哈希表（Has
Java中的Tomcat，开启Web应用腾飞【基础版】
目录一、Tomcat初登场：揭开神秘面纱（一）啥是Tomcat（二）为啥要有Tomcat二、Tomcat的安装与启动：开启第一步（一）下载Tomcat（二）启动Tomcat三、Tomcat的目录结构：探秘内部布局（一）核心目录介绍（二）目录间的协同工作四、部署JavaWeb应用到Tomcat：让应用上线（一）打包Web应用为WAR文件（二）部署WAR文件到Tomcat五、Tomcat的配置优化：让
Java Web 之 Session 详解艾伦~耶格尔 java 开发语言后端前端 session
在JavaWeb开发中，Session就像网站的专属记忆管家，为每个用户保管着重要的信息和状态，确保用户在网站的旅程顺畅无阻。场景一：想象你去一家大型超市购物，推着购物车挑选商品。这个购物车就如同Session，它记录了你的购物信息，方便你在结账时一次性结算。场景二：你在玩一个在线游戏，登录账号后，你的游戏进度、等级、装备等信息都会被保存在Session中，即使你中途关闭游戏，下次登录时依然可以继
JavaScript之DOM操作与事件处理详解 AA-代码批发V哥 JavaScript javascript
JavaScript之DOM操作与事件处理详解一、DOM基础：理解文档对象模型二、DOM元素的获取与访问2.1基础获取方法2.2集合的区别与注意事项三、DOM元素的创建与修改3.1创建与插入元素3.2修改元素属性与样式3.2.1属性操作3.2.2样式操作3.3元素内容的修改四、DOM元素的删除与替换4.1删除元素4.2替换元素五、事件处理：实现页面交互5.1事件绑定的三种方式5.1.1HTML属性
V少JS基础班之第五弹 V少在逆向 JS基础班 javascript 开发语言 ecmascript
文章目录一、前言二、本节涉及知识点三、重点内容1-函数的定义2-函数的构成1.函数参数详解1）参数个数不固定2）默认参数3）arguments对象（类数组）4）剩余参数（Rest参数）5）函数参数是按值传递的6）解构参数传递7）参数校验技巧（JavaScript没有类型限制，需要手动校验）2.函数返回值详解3-函数的分类1-函数声明式：2-函数表达式：3-箭头函数：4-构造函数：5-IIFE：6-
Javaweb学习之Vue模板语法（三）不要数手指啦 vue.js 学习前端
目录学习资料前情回顾本期介绍（vue模板语法）文本插值Vue的Attribute绑定使用JavaScript表达式综合实例代码：学习资料Vue.js-渐进式JavaScript框架|Vue.js(vuejs.org)前情回顾项目的创建大家可以看这篇文章Vue学习之项目的创建-CSDN博客本期介绍（vue模板语法）首先，找到我们编写代码的地方找到自己项目的src文件夹，打开之后点击component
矩阵求逆（JAVA）初等行变换 qiuwanchi 矩阵求逆（JAVA）
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(初等行变换) * @author 邱万迟 *
JDK timer antlove java jdk schedule code timer
1.java.util.Timer.schedule(TimerTask task, long delay)：多长时间（毫秒）后执行任务 2.java.util.Timer.schedule(TimerTask task, Date time)：设定某个时间执行任务 3.java.util.Timer.schedule(TimerTask task, long delay,longperiod
JVM调优总结 -Xms -Xmx -Xmn -Xss coder_xpf jvm 应用服务器
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx
JDBC连接数据库 Array_06 jdbc
package Util; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; public class JDBCUtil { //完
Unsupported major.minor version 51.0（jdk版本错误） oloz java
java.lang.UnsupportedClassVersionError: cn/support/cache/CacheType : Unsupported major.minor version 51.0 (unable to load class cn.support.cache.CacheType) at org.apache.catalina.loader.WebappClassL
用多个线程处理1个List集合 362217990 多线程 thread list 集合
昨天发了一个提问，启动5个线程将一个List中的内容，然后将5个线程的内容拼接起来，由于时间比较急迫，自己就写了一个Demo，希望对菜鸟有参考意义。。 import java.util.ArrayList; import java.util.List; import java.util.concurrent.CountDownLatch; public c
JSP简单访问数据库香水浓 sql mysql jsp
学习使用javaBean，代码很烂，仅为留个脚印 public class DBHelper { private String driverName; private String url; private String user; private String password; private Connection connection; privat
Flex4中使用组件添加柱状图、饼状图等图表 AdyZhang Flex
1.添加一个最简单的柱状图 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 <?xml version= "1.0"&n
Android 5.0 - ProgressBar 进度条无法展示到按钮的前面 aijuans android
在低于SDK < 21 的版本中，ProgressBar 可以展示到按钮前面，并且为之在按钮的中间，但是切换到android 5.0后进度条ProgressBar 展示顺序变化了，按钮再前面，ProgressBar 在后面了我的xml配置文件如下： [html] view plain copy <RelativeLa
查询汇总的sql baalwolf sql
select list.listname, list.createtime,listcount from dream_list as list , (select listid,count(listid) as listcount from dream_list_user group by listid order by count(
Linux du命令和df命令区别 BigBird2012 linux
1，两者区别 du，disk usage,是通过搜索文件来计算每个文件的大小然后累加，du能看到的文件只是一些当前存在的，没有被删除的。他计算的大小就是当前他认为存在的所有文件大小的累加和。
AngularJS中的$apply，用还是不用？ bijian1013 JavaScript AngularJS $apply
在AngularJS开发中，何时应该调用$scope.$apply()，何时不应该调用。下面我们透彻地解释这个问题。但是首先，让我们把$apply转换成一种简化的形式。 scope.$apply就像一个懒惰的工人。它需要按照命
[Zookeeper学习笔记十]Zookeeper源代码分析之ClientCnxn数据序列化和反序列化 bit1129 zookeeper
ClientCnxn是Zookeeper客户端和Zookeeper服务器端进行通信和事件通知处理的主要类，它内部包含两个类，1. SendThread 2. EventThread， SendThread负责客户端和服务器端的数据通信，也包括事件信息的传输，EventThread主要在客户端回调注册的Watchers进行通知处理 ClientCnxn构造方法 &
【Java命令一】jmap bit1129 Java命令
jmap命令的用法： [hadoop@hadoop sbin]$ jmap Usage: jmap [option] <pid> (to connect to running process) jmap [option] <executable <core> (to connect to a
Apache 服务器安全防护及实战 ronin47
此文转自IBM. Apache 服务简介 Web 服务器也称为 WWW 服务器或 HTTP 服务器 (HTTP Server)，它是 Internet 上最常见也是使用最频繁的服务器之一，Web 服务器能够为用户提供网页浏览、论坛访问等等服务。由于用户在通过 Web 浏览器访问信息资源的过程中，无须再关心一些技术性的细节，而且界面非常友好，因而 Web 在 Internet 上一推出就得到
unity 3d实例化位置出现布置？ brotherlamp unity教程 unity unity资料 unity视频 unity自学
问：unity 3d实例化位置出现布置？答：实例化的同时就可以指定被实例化的物体的位置,即 position Instantiate (original : Object, position : Vector3, rotation : Quaternion) : Object 这样你不需要再用Transform.Position了, 如果你省略了第二个参数(
《重构，改善现有代码的设计》第八章 Duplicate Observed Data bylijinnan java 重构
import java.awt.Color; import java.awt.Container; import java.awt.FlowLayout; import java.awt.Label; import java.awt.TextField; import java.awt.event.FocusAdapter; import java.awt.event.FocusE
struts2更改struts.xml配置目录 chiangfai struts.xml
struts2默认是读取classes目录下的配置文件，要更改配置文件目录，比如放在WEB-INF下，路径应该写成../struts.xml(非/WEB-INF/struts.xml) web.xml文件修改如下： <filter> <filter-name>struts2</filter-name> <filter-class&g
redis做缓存时的一点优化 chenchao051 redis hadoop pipeline
最近集群上有个job，其中需要短时间内频繁访问缓存，大概7亿多次。我这边的缓存是使用redis来做的，问题就来了。首先，redis中存的是普通kv，没有考虑使用hash等解结构，那么以为着这个job需要访问7亿多次redis，导致效率低，且出现很多redi
mysql导出数据不输出标题行 daizj mysql 数据导出去掉第一行去掉标题
当想使用数据库中的某些数据，想将其导入到文件中，而想去掉第一行的标题是可以加上-N参数如通过下面命令导出数据： mysql -uuserName -ppasswd -hhost -Pport -Ddatabase -e " select * from tableName" > exportResult.txt 结果为： studentid
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
先下载PHPEXCEL类文件，放在class目录下面，然后新建一个index.php文件，内容如下 <?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('
爱情格言 dcj3sjt126com 格言
1) I love you not because of who you are, but because of who I am when I am with you. 　　我爱你，不是因为你是一个怎样的人，而是因为我喜欢与你在一起时的感觉。 　　2) No man or woman is worth your tears, and the one who is, won‘t
转 Activity 详解——Activity文档翻译 e200702084 android UI sqlite 配置管理网络应用
activity 展现在用户面前的经常是全屏窗口，你也可以将 activity 作为浮动窗口来使用（使用设置了 windowIsFloating 的主题），或者嵌入到其他的 activity （使用 ActivityGroup ）中。当用户离开 activity 时你可以在 onPause() 进行相应的操作。更重要的是，用户做的任何改变都应该在该点上提交 ( 经常提交到 ContentPro
win7安装MongoDB服务 geeksun mongodb
1. 下载MongoDB的windows版本：mongodb-win32-x86_64-2008plus-ssl-3.0.4.zip，Linux版本也在这里下载，下载地址： http://www.mongodb.org/downloads 2. 解压MongoDB在D:\server\mongodb, 在D:\server\mongodb下创建d
Javascript魔法方法:__defineGetter__,__defineSetter__ hongtoushizi js
转载自： http://www.blackglory.me/javascript-magic-method-definegetter-definesetter/ 在javascript的类中,可以用defineGetter和defineSetter_控制成员变量的Get和Set行为例如,在一个图书类中,我们自动为Book加上书名符号: function Book(name){
错误的日期格式可能导致走nginx proxy cache时不能进行304响应 jinnianshilongnian cache
昨天在整合某些系统的nginx配置时，出现了当使用nginx cache时无法返回304响应的情况，出问题的响应头： Content-Type:text/html; charset=gb2312 Date:Mon, 05 Jan 2015 01:58:05 GMT Expires:Mon , 05 Jan 15 02:03:00 GMT Last-Modified:Mon, 05
数据源架构模式之行数据入口 home198979 PHP 架构行数据入口
注：看不懂的请勿踩，此文章非针对java，java爱好者可直接略过。一、概念行数据入口（Row Data Gateway）：充当数据源中单条记录入口的对象，每行一个实例。二、简单实现行数据入口为了方便理解，还是先简单实现： <?php /** * 行数据入口类 */ class OrderGateway { /*定义元数
Linux各个目录的作用及内容 pda158 linux 脚本
1）根目录“/” 　　根目录位于目录结构的最顶层，用斜线（/）表示，类似于 Windows 操作系统的“C:\“，包含Fedora操作系统中所有的目录和文件。　　2）/bin 　　/bin 　　目录又称为二进制目录，包含了那些供系统管理员和普通用户使用的重要 linux命令的二进制映像。该目录存放的内容包括各种可执行文件，还有某些可执行文件的符号连接。常用的命令有：cp、d
ubuntu12.04上编译openjdk7 ol_beta HotSpot jvm jdk OpenJDK
获取源码从openjdk代码仓库获取(比较慢) 安装mercurial Mercurial是一个版本管理工具。 sudo apt-get install mercurial 将以下内容添加到$HOME/.hgrc文件中，如果没有则自己创建一个： [extensions] forest=/home/lichengwu/hgforest-crew/forest.py fe
将数据库字段转换成设计文档所需的字段 vipbooks 设计模式工作正则表达式
哈哈，出差这么久终于回来了，回家的感觉真好！ PowerDesigner的物理数据库一出来，设计文档中要改的字段就多得不计其数，如果要把PowerDesigner中的字段一个个Copy到设计文档中，那将会是一件非常痛苦的事情。