smilejiasmile

Hadoop 之 MapReduce 的工作原理及其倒排索引的建立

一、Hadoop 简介

下面先从一张图理解MapReduce得整个工作原理

下面对上面出现的一些名词进行介绍

ResourceManager：是YARN资源控制框架的中心模块，负责集群中所有的资源的统一管理和分配。它接收来自NM(NodeManager)的汇报，建立AM，并将资源派送给AM(ApplicationMaster)。

NodeManager:简称NM，NodeManager是ResourceManager在每台机器的上代理，负责容器的管理，并监控他们的资源使用情况（cpu，内存，磁盘及网络等），以及向 ResourceManager提供这些资源使用报告。

ApplicationMaster:以下简称AM。YARN中每个应用都会启动一个AM，负责向RM申请资源，请求NM启动container，并告诉container做什么事情。

Container：资源容器。YARN中所有的应用都是在container之上运行的。AM也是在container上运行的，不过AM的container是RM申请的。

1. Container是YARN中资源的抽象，它封装了某个节点上一定量的资源（CPU和内存两类资源）。

2. Container由ApplicationMaster向ResourceManager申请的，由ResouceManager中的资源调度器异步分配给ApplicationMaster；
3. Container的运行是由ApplicationMaster向资源所在的NodeManager发起的，Container运行时需提供内部执行的任务命令（可以是任何命令，比如java、Python、C++进程启动命令均可）以及该命令执行所需的环境变量和外部资源（比如词典文件、可执行文件、jar包等）。
另外，一个应用程序所需的Container分为两大类，如下：
（1）运行ApplicationMaster的Container：这是由ResourceManager（向内部的资源调度器）申请和启动的，用户提交应用程序时，可指定唯一的ApplicationMaster所需的资源；
       （2）运行各类任务的Container：这是由ApplicationMaster向ResourceManager申请的，并由ApplicationMaster与NodeManager通信以启动之。
以上两类Container可能在任意节点上，它们的位置通常而言是随机的，即ApplicationMaster可能与它管理的任务运行在一个节点上。

整个MapReduce的过程大致分为 Map-->Shuffle（排序）-->Combine（组合）-->Reduce

下面通过一个单词计数案例来理解各个过程
1）将文件拆分成splits(片)，并将每个split按行分割形成对，如图所示。这一步由MapReduce框架自动完成，其中偏移量即key值


                   分割过程

将分割好的对交给用户定义的map方法进行处理，生成新的对，如下图所示。

                   执行map方法


得到map方法输出的对后，Mapper会将它们按照key值进行Shuffle（排序），并执行Combine过程，将key至相同value值累加，得到Mapper的最终输出结果。如下图所示。

                   Map端排序及Combine过程

Reducer先对从Mapper接收的数据进行排序，再交由用户自定义的reduce方法进行处理，得到新的对，并作为WordCount的输出结果，如下图所示。

                   Reduce端排序及输出结果

下面看怎么用Java来实现WordCount单词计数的功能

首先看Map过程
Map过程需要继承org.apache.hadoop.mapreduce.Mapper包中 Mapper 类，并重写其map方法。


/**

     *    Mapper中  LongWritable,IntWritable是Hadoop数据类型表示长整型和整形
     *
     *    LongWritable, Text表示输入类型 (比如本应用单词计数输入是 偏移量(字符串中的第一个单词的其实位置),对应的单词(值))
     *    Text, IntWritable表示输出类型  输出是单词  和他的个数
     *  注意：map函数中前两个参数LongWritable key, Text value和输出类型不一致
     *      所以后面要设置输出类型 要使他们一致
     */
    //Map过程
    public static class WordCountMapper extends Mapper {
        /***
         *
         */
        @Override
        protected void map(LongWritable key, Text value, Mapper.Context context)
                throws IOException, InterruptedException {
            //默认的map的value是每一行,我这里自定义的是以空格分割
            String[] vs = value.toString().split("\\s");
            for (String v : vs) {
                //写出去
                context.write(new Text(v), ONE);
            }
 
        }
    }

Reduce过程
Reduce过程需要继承org.apache.hadoop.mapreduce包中 Reducer 类，并 重写 其reduce方法。Map过程输出中key为单个单词，而values是对应单词的计数值所组成的列表，Map的输出就是Reduce的输入，所以reduce方法只要遍历values并求和，即可得到某个单词的总次数。


//Reduce过程
    /***
     * Text, IntWritable输入类型,从map过程获得 既map的输出作为Reduce的输入
     * Text, IntWritable输出类型
     */
    public static class WordCountReducer extends Reducer{
        @Override
        protected void reduce(Text key, Iterable values,
                Reducer.Context context) throws IOException, InterruptedException {
            int count=0;
            for(IntWritable v:values){
                count+=v.get();//单词个数加一
            }
            
            context.write(key, new IntWritable(count));
        }
        
    }

最后执行MapReduce任务


public static void main(String[] args) {
        
        Configuration conf=new Configuration();
        try {
            //args从控制台获取路径 解析得到域名
            String[] paths=new GenericOptionsParser(conf,args).getRemainingArgs();
            if(paths.length<2){
                throw new RuntimeException("必須輸出 輸入 和输出路径");
            }
            //得到一个Job 并设置名字
            Job job=Job.getInstance(conf,"wordcount");
            //设置Jar 使本程序在Hadoop中运行
            job.setJarByClass(WordCount.class);
            //设置Map处理类
            job.setMapperClass(WordCountMapper.class);
            //设置map的输出类型,因为不一致,所以要设置
            job.setMapOutputKeyClass(Text.class);
            job.setOutputValueClass(IntWritable.class);
            //设置Reduce处理类
            job.setReducerClass(WordCountReducer.class);
            //设置输入和输出目录
            FileInputFormat.addInputPath(job, new Path(paths[0]));
            FileOutputFormat.setOutputPath(job, new Path(paths[1]));
            //启动运行
            System.exit(job.waitForCompletion(true) ? 0:1);
        } catch (IOException e) {
            e.printStackTrace();
        } catch (ClassNotFoundException e) {
            e.printStackTrace();
        } catch (InterruptedException e) {
            e.printStackTrace();
        }
    }

即可求得每个单词的个数

下面把整个过程的源码附上,有需要的朋友可以拿去测试


package hadoopday02;
 
import java.io.IOException;
 
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
 
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;
 
public class WordCount {
    //计数变量
    private static final IntWritable ONE = new IntWritable(1);
    /**
     *
     * @author 汤高
     *    Mapper中  LongWritable,IntWritable是Hadoop数据类型表示长整型和整形
     *
     *    LongWritable, Text表示输入类型 (比如本应用单词计数输入是 偏移量(字符串中的第一个单词的其实位置),对应的单词(值))
     *    Text, IntWritable表示输出类型  输出是单词  和他的个数
     *  注意：map函数中前两个参数LongWritable key, Text value和输出类型不一致
     *      所以后面要设置输出类型 要使他们一致
     */
    //Map过程
    public static class WordCountMapper extends Mapper {
        /***
         *
         */
        @Override
        protected void map(LongWritable key, Text value, Mapper.Context context)
                throws IOException, InterruptedException {
            //默认的map的value是每一行,我这里自定义的是以空格分割
            String[] vs = value.toString().split("\\s");
            for (String v : vs) {
                //写出去
                context.write(new Text(v), ONE);
            }
 
        }
    }
    //Reduce过程
    /***
     * Text, IntWritable输入类型,从map过程获得 既map的输出作为Reduce的输入
     * Text, IntWritable输出类型
     */
    public static class WordCountReducer extends Reducer{
        @Override
        protected void reduce(Text key, Iterable values,
                Reducer.Context context) throws IOException, InterruptedException {
            int count=0;
            for(IntWritable v:values){
                count+=v.get();//单词个数加一
            }
            
            context.write(key, new IntWritable(count));
        }
        
    }
    
    public static void main(String[] args) {
        
        Configuration conf=new Configuration();
        try {
            //args从控制台获取路径 解析得到域名
            String[] paths=new GenericOptionsParser(conf,args).getRemainingArgs();
            if(paths.length<2){
                throw new RuntimeException("必須輸出 輸入 和输出路径");
            }
            //得到一个Job 并设置名字
            Job job=Job.getInstance(conf,"wordcount");
            //设置Jar 使本程序在Hadoop中运行
            job.setJarByClass(WordCount.class);
            //设置Map处理类
            job.setMapperClass(WordCountMapper.class);
            //设置map的输出类型,因为不一致,所以要设置
            job.setMapOutputKeyClass(Text.class);
            job.setOutputValueClass(IntWritable.class);
            //设置Reduce处理类
            job.setReducerClass(WordCountReducer.class);
            //设置输入和输出目录
            FileInputFormat.addInputPath(job, new Path(paths[0]));
            FileOutputFormat.setOutputPath(job, new Path(paths[1]));
            //启动运行
            System.exit(job.waitForCompletion(true) ? 0:1);
        } catch (IOException e) {
            e.printStackTrace();
        } catch (ClassNotFoundException e) {
            e.printStackTrace();
        } catch (InterruptedException e) {
            e.printStackTrace();
        }
    }
}

二、通过 Hadoop 建立倒排索引

倒排索引就是根据单词内容来查找文档的方式，由于不是根据文档来确定文档所包含的内容，进行了相反的操作，所以被称为倒排索引, 它是搜索引擎最为核心的数据结构，以及文档检索的关键部分。

下面来看一个例子来理解什么是倒排索引

这里我准备了两个文件分别为1.txt和2.txt

1.txt的内容如下

    I Love Hadoop
    I like ZhouSiYuan
    I love me

2.txt的内容如下

I Love MapReduce
I like NBA
I love Hadoop

我这里使用的是默认的输入格式TextInputFormat，他是一行一行的读的，键是偏移量。

所以在map阶段之前的到结果如下
map阶段从1.txt的得到的输入

0   I Love Hadoop
15  I like ZhouSiYuan
34  I love me

map阶段从2.txt的得到的输入

0   I Love MapReduce
18  I like NBA
30  I love Hadoop

map阶段
把词频作为值
把单词和URI组成key值
比如
key : I+hdfs://192.168.52.140:9000/index/2.txt value:1

为什么要这样设置键和值？
因为这样设计可以使用MapReduce框架自带的map端排序，将同一单词的词频组成列表

经过map阶段1.txt得到的输出如下

I:hdfs://192.168.52.140:9000/index/1.txt            1
Love:hdfs://192.168.52.140:9000/index/1.txt         1
MapReduce:hdfs://192.168.52.140:9000/index/1.txt    1
I:hdfs://192.168.52.140:9000/index/1.txt            1
Like:hdfs://192.168.52.140:9000/index/1.txt         1
ZhouSiYuan:hdfs://192.168.52.140:9000/index/1.txt   1
I:hdfs://192.168.52.140:9000/index/1.txt            1
love:hdfs://192.168.52.140:9000/index/1.txt         1   
me:hdfs://192.168.52.140:9000/index/1.txt           1

经过map阶段2.txt得到的输出如下

I:hdfs://192.168.52.140:9000/index/2.txt            1
Love:hdfs://192.168.52.140:9000/index/2.txt         1
MapReduce:hdfs://192.168.52.140:9000/index/2.txt    1
I:hdfs://192.168.52.140:9000/index/2.txt            1
Like:hdfs://192.168.52.140:9000/index/2.txt         1
NBA:hdfs://192.168.52.140:9000/index/2.txt          1
I:hdfs://192.168.52.140:9000/index/2.txt            1
love:hdfs://192.168.52.140:9000/index/2.txt         1   
Hadoop:hdfs://192.168.52.140:9000/index/2.txt       1

1.txt经过MapReduce框架自带的map端排序得到的输出结果如下

I:hdfs://192.168.52.140:9000/index/1.txt            list{1,1,1}
Love:hdfs://192.168.52.140:9000/index/1.txt         list{1} 
MapReduce:hdfs://192.168.52.140:9000/index/1.txt    list{1}
Like:hdfs://192.168.52.140:9000/index/1.txt         list{1}
ZhouSiYuan:hdfs://192.168.52.140:9000/index/1.txt   list{1}
love:hdfs://192.168.52.140:9000/index/1.txt         list{1}
me:hdfs://192.168.52.140:9000/index/1.txt           list{1}

2.txt经过MapReduce框架自带的map端排序得到的输出结果如下

I:hdfs://192.168.52.140:9000/index/2.txt            list{1,1,1}
Love:hdfs://192.168.52.140:9000/index/2.txt         list{1} 
MapReduce:hdfs://192.168.52.140:9000/index/2.txt    list{1}
Like:hdfs://192.168.52.140:9000/index/2.txt         list{1}
NBA:hdfs://192.168.52.140:9000/index/2.txt          list{1}
love:hdfs://192.168.52.140:9000/index/2.txt         list{1}
Hadoop:hdfs://192.168.52.140:9000/index/2.txt       list{1}

combine阶段：
key值为单词，
value值由URI和词频组成
value: hdfs://192.168.52.140:9000/index/2.txt:3 key:I
为什么这样设计键值了？
因为在Shuffle过程将面临一个问题，所有具有相同单词的记录(由单词、URL和词频组成)应该交由同一个Reducer处理
所以重新把单词设置为键可以使用MapReduce框架默认的Shuffle过程,将相同单词的所有记录发送给同一个Reducer处理

combine阶段将key相同的value值累加

1.txt得到如下输出

I       hdfs://192.168.52.140:9000/index/1.txt:3
Love        hdfs://192.168.52.140:9000/index/1.txt:1 
MapReduce   hdfs://192.168.52.140:9000/index/1.txt:1
Like        hdfs://192.168.52.140:9000/index/1.txt:1
ZhouSiYuan  hdfs://192.168.52.140:9000/index/1.txt:1
love        hdfs://192.168.52.140:9000/index/1.txt:1
me          hdfs://192.168.52.140:9000/index/1.txt:1

2.txt得到如下输出

I           hdfs://192.168.52.140:9000/index/2.txt:3
Love        hdfs://192.168.52.140:9000/index/2.txt:1 
MapReduce   hdfs://192.168.52.140:9000/index/2.txt:1
Like        hdfs://192.168.52.140:9000/index/2.txt:1
NBA         hdfs://192.168.52.140:9000/index/2.txt:1
love        hdfs://192.168.52.140:9000/index/2.txt:1
Hadoop      hdfs://192.168.52.140:9000/index/2.txt:1

这样reducer过程就很简单了，它只用来生成文档列表
比如相同的单词I，这样生成文档列表
I hdfs://192.168.52.140:9000/index/2.txt:3;hdfs://192.168.52.140:9000/index/1.txt:3;

最后所有的输出结果如下

Hadoop  hdfs://192.168.52.140:9000/index/1.txt:1;hdfs://192.168.52.140:9000/index/2.txt:1;
I   hdfs://192.168.52.140:9000/index/2.txt:3;hdfs://192.168.52.140:9000/index/1.txt:3;
Love    hdfs://192.168.52.140:9000/index/1.txt:1;hdfs://192.168.52.140:9000/index/2.txt:1;
MapReduce   hdfs://192.168.52.140:9000/index/2.txt:1;
NBA hdfs://192.168.52.140:9000/index/2.txt:1;
ZhouSiYuan  hdfs://192.168.52.140:9000/index/1.txt:1;
like    hdfs://192.168.52.140:9000/index/1.txt:1;hdfs://192.168.52.140:9000/index/2.txt:1;
love    hdfs://192.168.52.140:9000/index/2.txt:1;hdfs://192.168.52.140:9000/index/1.txt:1;
me  hdfs://192.168.52.140:9000/index/1.txt:1;

下面是整个源代码

package com.hadoop.mapreduce.test8.invertedindex;

import java.io.IOException;
import java.util.StringTokenizer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class InvertedIndex {
    /**
     * 
     * @author 汤高
     *
     */
    public static class InvertedIndexMapper extends Mapper{

        private Text keyInfo = new Text();  // 存储单词和URI的组合
        private Text valueInfo = new Text(); //存储词频
        private FileSplit split;  // 存储split对象。
        @Override
        protected void map(Object key, Text value, Mapper.Context context)
                throws IOException, InterruptedException {
            //获得对所属的FileSplit对象。
            split = (FileSplit) context.getInputSplit();
            System.out.println("偏移量"+key);
            System.out.println("值"+value);
            //StringTokenizer是用来把字符串截取成一个个标记或单词的，默认是空格或多个空格(\t\n\r等等)截取
            StringTokenizer itr = new StringTokenizer( value.toString());
            while( itr.hasMoreTokens() ){
                // key值由单词和URI组成。
                keyInfo.set( itr.nextToken()+":"+split.getPath().toString());
                //词频初始为1
                valueInfo.set("1");
                context.write(keyInfo, valueInfo);
            }
            System.out.println("key"+keyInfo);
            System.out.println("value"+valueInfo);
        }
    }
    /**
     * 
     * @author 汤高
     *
     */
    public static class InvertedIndexCombiner extends Reducer{
        private Text info = new Text();
        @Override
        protected void reduce(Text key, Iterable values, Reducer.Context context)
                throws IOException, InterruptedException {

            //统计词频
            int sum = 0;
            for (Text value : values) {
                sum += Integer.parseInt(value.toString() );
            }

            int splitIndex = key.toString().indexOf(":");

            //重新设置value值由URI和词频组成
            info.set( key.toString().substring( splitIndex + 1) +":"+sum );

            //重新设置key值为单词
            key.set( key.toString().substring(0,splitIndex));

            context.write(key, info);
            System.out.println("key"+key);
            System.out.println("value"+info);
        }
    }

    /**
     * 
     * @author 汤高
     *
     */
    public static class InvertedIndexReducer extends Reducer{

        private Text result = new Text();

        @Override
        protected void reduce(Text key, Iterable values, Reducer.Context context)
                throws IOException, InterruptedException {

            //生成文档列表
            String fileList = new String();
            for (Text value : values) {
                fileList += value.toString()+";";
            }
            result.set(fileList);

            context.write(key, result);
        }

    }

    public static void main(String[] args) {
        try {
            Configuration conf = new Configuration();

            Job job = Job.getInstance(conf,"InvertedIndex");
            job.setJarByClass(InvertedIndex.class);

            //实现map函数，根据输入的对生成中间结果。
            job.setMapperClass(InvertedIndexMapper.class);

            job.setMapOutputKeyClass(Text.class);
            job.setMapOutputValueClass(Text.class);

            job.setCombinerClass(InvertedIndexCombiner.class);
            job.setReducerClass(InvertedIndexReducer.class);

            job.setOutputKeyClass(Text.class);
            job.setOutputValueClass(Text.class);

            //我把那两个文件上传到这个index目录下了
            FileInputFormat.addInputPath(job, new Path("hdfs://192.168.52.140:9000/index/"));
            //把结果输出到out_index+时间戳的目录下
            FileOutputFormat.setOutputPath(job, new Path("hdfs://192.168.52.140:9000/out_index"+System.currentTimeMillis()+"/"));

            System.exit(job.waitForCompletion(true) ? 0 : 1);
        } catch (IllegalStateException e) {
            e.printStackTrace();
        } catch (IllegalArgumentException e) {
            e.printStackTrace();
        } catch (ClassNotFoundException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        } catch (InterruptedException e) {
            e.printStackTrace();
        }

    }
}

转载自： https://blog.csdn.net/tanggao1314/article/details/51340672

支付系统设计模式总结：策略模式与工厂模式的结合 I~Lucky spring boot 后端策略模式设计模式
在支付系统中，为了支持多种支付方式（如支付宝、微信支付等），并保证代码的可扩展性和维护性，通常会使用策略模式和工厂模式。这两种设计模式可以很好地结合起来，以实现灵活的支付处理逻辑。设计模式简介策略模式（StrategyPattern）：定义一系列算法，并将每个算法封装起来，使它们可以互换。策略模式让算法独立于使用它的客户端而变化。工厂模式（FactoryPattern）：提供一个创建对象的接口，由
【数据分析】R语言的广义线性混合模型（GLMM）分析案例生信学习者1 数据分析数据分析 r语言数据挖掘数据可视化
禁止商业或二改转载，仅供自学使用，侵权必究，如需截取部分内容请后台联系作者!文章目录介绍原理步骤加载R包数据下载导入数据数据预处理成对相关性GLMMs标准化数据字符向量转换成因子化变量构建模型FishesAmphibiansReptilesBirdsMammals画图总结系统信息介绍广义线性混合模型（GeneralizedLinearMixedModels,GLMM）是一种统计模型，用于分析具有非
【线代】《线性代数的几何意义》——摘录笔记（四） jingyu404 线性代数读书及杂言
内容：大多是摘录原书，概括、理解是自己总结的。目的：供自己温习使用，有摘录不全或总结不精的部分。他人学习，仅供参考。目录U6线性方程组1.作用于向量的形式2.解的形式3.解的代数形式4.解的结构5.方程组、矩阵与向量的关系U7二次型1.定义2.表示（多项式与向量）3.用途4.几何意义5.二次型合同对角化6.惯性定理7.正定二次型笔记链接汇总U6线性方程组1.作用于向量的形式（1）看成矩阵对向量（x
【线代】《线性代数的几何意义》——摘录笔记兼小结（五） jingyu404 线性代数读书及杂言
内容：大多是摘录原书，概括、理解是自己总结的。目的：供自己温习使用，有摘录不全或总结不精的部分。他人学习，仅供参考。目录附录1.线性代数简史2.怎样学习线性代数丘维声小结笔记链接汇总附录1.线性代数简史书上说摘自百科《线性代数》，所以就简略做个摘录吧。1.1向量，物理学。Bc350，亚里士多德：“力可以构成向量”，平行四边形法则。牛顿，最先使用有向线段表示。18c，威塞尔，用坐标平面的点表示复数，
Linux下网络运维命令总结 C嘎嘎嵌入式开发 Linux 运维 linux 网络
一、网络连通性测试ping作用：检测目标主机是否可达，并测量网络延迟。示例：pingwww.example.com持续发送ICMP报文，按Ctrl+C停止。ping-c4www.example.com发送4个ICMP报文后停止。traceroute作用：显示数据包到达目标主机所经过的路由路径。示例：traceroutewww.example.com使用默认端口进行追踪。traceroute-Iww
学习dify第二天-web下篇一直走下去-明 next.js dify源码学习学习前端 react.js 前端框架
学习dify第二天-web下篇引言web目录结构配置入口文件分析下怎么封装的请求最后总结：参考阅读：React基础用next.js写个页面跳转的应用seo搜索引擎优化引言react：ReactFoundations:AboutReactandNext.js|Next.js如果不会next.js可以先看看这个，不看其实也没关系，学下思路也可以。next_web小demoweb目录结构*mocks*:
【Mybatis】动态 SQL：代码与数据的灵动共舞，奏响数据库查询的华丽乐章 m0_74824483 面试学习路线阿里巴巴数据库 mybatis sql
前言???本期讲解关于SpringIOC&DI的详细介绍~~~??感兴趣的小伙伴看一看小编主页：-CSDN博客??你的点赞就是小编不断更新的最大动力??那么废话不多说直接开整吧~~目录???1.动态SQL1.1标签>标签1.2标签1.3标签1.4标签>标签1.5标签1.6标签???2.总结**??**1.动态SQL动态SQL是Mybatis的强特性之，能够完成不同条件下不同的sql拼接可以参考官档
常用的设计模式 chi_666 设计模式设计模式
设计模式是软件开发过程中针对反复出现的问题所总结归纳出的通用解决方案。以下为你介绍常见的设计模式，并结合常用框架给出相应示例。创建型模式创建型模式主要用于对象的创建过程，封装了对象创建的细节，提高了代码的灵活性和可维护性。单例模式（SingletonPattern）模式说明：确保一个类只有一个实例，并提供一个全局访问点。框架示例：在Spring框架中，默认情况下，Bean的作用域是单例的。也就是说
华为战略解码-162页八大章节精读智慧化智能化数字化方案华为学习专栏华为
该文档主要解读了华为战略解码的过程和内容，强调了领导力在战略管理中的重要性，介绍了华为战略管理的七个关键点以及领导力的七个特质。文档详细阐述了华为在战略解码过程中如何利用BLM模型等工具，以及如何从市场洞察、业务设计等方面制定和执行战略。同时，也介绍了华为干部九条素质与领导力专项素质能力的层级划分，强调领导力对华为战略实施的重要性。目录(一)前四章节总结解析...41.战略成长...4
学习笔记：java的23种设计模式总结 SJLoveIT java 设计模式
设计原则开闭原则：对扩展开放，对修改关闭里氏替换原则：尽量不重写父类的非抽象方法迪米特法则：不要和陌生人说话依赖倒置原则：面向接口、面向抽象编程。spring容器和Bean的自动注入就是最生动的实践单一职责原则：一个人只做一件事，别乱套了接口隔离原则：和单一职责类似合成复用原则：尽量先通过组合等来实现，而非通过继承来实现优先考虑hasA而非isA设计模式（1）单例模式饿汉式懒汉式DCL双重检测锁v
TCP长连接实践与挑战字节跳动终端技术 tcp/ip 网络协议字节跳动 http 后端
本文介绍了tcp长连接在实际工程中的实践过程，并总结了tcp连接保活遇到的挑战以及对应的解决方案。作者：字节跳动终端技术———陈圣坤概述众所周知，作为传输层通信协议，TCP是面向连接设计的，所有请求之前需要先通过三次握手建立一个连接，请求结束后通过四次挥手关闭连接。通常我们使用TCP连接或者基于TCP连接之上的应用层协议例如HTTP1.0等，都会为每次请求建立一次连接，请求结束即关闭连接。这样的好
Http、tcp、https、socket、tomcat、长短连接等总结回顾 SJLoveIT http tcp/ip https
（1）关于http、tcp的长短连接问题tcp是没有所谓长连接的概念的。tcp经过三次握手就已经建立了一个连接，这个所谓建立了一个连接就是两边操作系统层面都已经建立了socket，都准备好了相应的缓冲区等。socket是啥呢？socket其实就是操作系统提供tcp连接的接口。比如tcp的可能有第一次握手的方法，是C语言写的，比如就叫syn方法，对应第一次握手，也就是客户端发一个syn位置1的tcp
OpenCV Python 版使用教程（三）摄像头读取延迟解决方法 tianchengwang opencv opencv python 人工智能
文章目录一、上篇回顾二、产生原因三、解决方法1.cap.grab()方法2.多线程法总结一、上篇回顾在上一篇中，简单介绍了如何使用OpenCV操作摄像头，本期来讲在摄像头读取时，可能会出现画面延迟的解决方法。二、产生原因OpenCV在读取的时候，会将视频流放在缓冲区中，然后每次调用的时候，会从缓冲区内读取视频帧。虽然说大多数情况难以出现写入缓冲区远大于读取缓冲区的速度，但是当设备出现性能瓶颈，尤其
入门Apache Spark：基础知识和架构解析 juer_0001 java spark
介绍ApacheSparkSpark的历史和背景ApacheSpark是一种快速、通用、可扩展的大数据处理引擎，最初由加州大学伯克利分校的AMPLab开发，于2010年首次推出。它最初设计用于支持分布式计算框架MapReduce的交互式查询，但逐渐发展成为一种更通用的数据处理引擎，能够处理数据流、批处理和机器学习等工作负载。Spark的特点和优势Spark是一种快速、通用、可扩展的大数据处理框架，
【ESP8266】ESP8266集成开发环境对比喵喵锤锤你小可爱 ESP8266
当涉及到ESP8266开发环境的选择时，有几个常见的选择可供开发人员使用。在本篇文章中，我们将对比一些目前最流行的ESP8266集成开发环境（IDE），以帮助您选择最适合您的需求的开发环境。总结：ArduinoIDE和PlatformIO集成开发环境使用起来最方便，官方的SDK用起来挺麻烦的，以前技小新好像讲过安信可的基于eclipse的IDE，也挺好用的（https://www.bilibili
wx.uploadFile上传图片失败小丁学Java 微信小程序WxMa notepad++
文章目录微信小程序后台配置`uploadFile`合法域名的正确步骤步骤1：登录小程序后台步骤2：导航到服务器域名配置页面步骤3：添加`uploadFile`合法域名步骤4：验证配置是否生效注意事项常见问题解答总结微信小程序后台配置uploadFile合法域名的正确步骤在微信小程序开发中，正确配置uploadFile合法域名是使用wx.uploadFileAPI上传文件的前提。以下是按照您指定的路
Mac电脑用Latex论文排版3天速成5天实战de笔记荔枝要赚大钱的luu（养成系） macos 笔记论文笔记
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言论文常用1.摘要2.页码3.目录与章节4.单图5.多图6.最基本的三线格7.复杂表格8.数学公式$\[...\]公式块9.伪代码10.无序圆点11.引用12.参考文献13.附录与代码14.分页符15.零碎的细节遇到困难总结前言我后悔了，这五天竞赛搞得我视力都下降了...一个冲动的决定后成为数模竞赛论文写手，3天速成+5天时
Python vLLM 实战应用指南 ghostwritten python python 开发语言
文章目录1.vLLM简介2.安装vLLM3.快速开始3.1加载模型并生成文本3.2参数说明4.实战应用场景4.1构建聊天机器人示例对话：4.2文本补全输出示例：4.3自定义模型服务启动服务调用服务5.性能优化5.1GPU加速5.2动态批处理6.总结vLLM是一种高性能的开源深度学习推理引擎，专注于高效的生成式模型推理任务。它通过动态批处理和内存优化技术大幅提高了大模型（如GPT系列）的推理性能，非
深度学习模型可视化：通俗易懂的全面解读 Crazy learner 模型部署深度学习人工智能
目录1.什么是深度学习模型可视化？2.张量（Tensors）：深度学习中的核心数据结构3.常见的节点操作**Gather**操作**Transpose**操作**Pow**操作**Add**操作**Mix**操作4.查看模型详情5.可视化工具总结在深度学习领域，理解模型内部的工作原理对于优化、调试和改进模型至关重要。随着神经网络的复杂性日益增加，开发者和研究人员逐渐意识到，可视化不仅是理解模型的一
查看Python库依赖关系的解决方案爱编程的喵喵 Python基础课程 python 依赖关系
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了查看Python库依赖关系的解决方案
Python编码系列—Python原型模式：深克隆与高效复制的艺术学步_技术 Python编码 python 原型模式开发语言
欢迎来到我的技术小筑，一个专为技术探索者打造的交流空间。在这里，我们不仅分享代码的智慧，还探讨技术的深度与广度。无论您是资深开发者还是技术新手，这里都有一片属于您的天空。让我们在知识的海洋中一起航行，共同成长，探索技术的无限可能。探索专栏：学步_技术的首页——持续学习，不断进步，让学习成为我们共同的习惯，让总结成为我们前进的动力。技术导航：人工智能：深入探讨人工智能领域核心技术。自动驾驶：分享自动
《Operating System Concepts》阅读笔记：p159-p161 操作系统
《OperatingSystemConcepts》学习第16天，p159-p161总结，总计3页。一、技术总结1.thread(1)定义AthreadisabasicunitofCPUutilization;itcomprisesathreadID,aprogramcounter(PC),aregisterset,andastack.Aprocesscontrolstructurethatisan
基恩士上位机链路通讯_库卡机器人之通讯总结筱顽咚基恩士上位机链路通讯
时常有人问我库卡机器人支持哪些通讯、需要什么组件等等，基于个人多年积累并借助公众号的平台来分享下个人的总结(以下内容仅针对KRC4及以上，KRC2在此不作说明)：基于以上图片内容，将库卡通讯分成四类：1.基于以太网的现场总线：ProfiNet从站不需要KUKAProfiNetxxxProfiNet主站不需要KUKAProfiNetxxxEthernet/IP主站不需要KUKAEthernet/IP
宝塔面板申请SSL安全证书一直显示“待域名确认”？如何处理解决？青云网运维宝塔面板教程 WordPress教程
现在越来越多的站点加入到https的大军中来了，主要还是有很多免费的SSL证书可以申请，还有很多平台可以帮助我们一键申请域名证书，比如宝塔面板就支持这样的操作（运维大神可以右上角关闭了，我们小白喜欢用面板），如果还有不了解宝塔面板怎么使用的小伙伴，可以看下我总结的系列教程，保证从新手变老鸟：【宝塔面板精选教程汇总】宝塔面板教程（1）基于云服务器搭建宝塔面板教程最全详解宝塔面板教程（2）宝塔面板添加
netty 与 websocket JIU_WW websocket 网络协议网络 netty java
目录1.Netty简介2.WebSocket简介3.Netty与WebSocket的关系3.1Netty对WebSocket的支持3.2两者的层级关系3.3常见误解澄清4.Netty的通用性体现4.1多协议支持4.2非WebSocket应用示5.选择Netty实现WebSocket的优势6.总结1.Netty简介Netty是一个高性能、异步事件驱动的网络应用框架，专为开发可扩展和高性能的服务器与客
C#中跨线程调用的方法一点总结 99乘法口诀万物皆可变 C#c#开发语言
引言在图形用户界面（GUI）应用程序开发中，多线程编程已成为不可或缺的一部分。通过使用多线程，开发者可以在后台执行耗时任务，同时保持用户界面的响应性。然而，多线程编程也带来了复杂性，尤其是在处理用户界面（UI）控件时。由于UI控件通常不是线程安全的，直接从非UI线程访问或修改它们可能会导致不可预见的行为或程序崩溃。因此，在C#的WindowsForms和WPF等框架中，跨线程调用UI控件成为了一个
【C++】深入理解C++虚函数与纯虚函数 TsuanS c++开发语言
本文由简悦SimpRead转码，原文地址blog.csdn.net文章目录一、虚函数（VirtualFunction）1.1定义和作用1.2实现原理1.3示例代码1.4虚函数的重写定义规则注意事项示例1.5基类和派生类的虚函数表**示例理解**二、纯虚函数（PureVirtualFunction）2.1定义和作用2.2示例代码三、总结在C++面向对象编程中，多态性是其三大特性之一（封装、继承和多态
OpenSSL 基础使用流程 TsuanS 网络 OpenSSL
理解OpenSSL的基础使用流程是学习如何进行安全通信的关键，特别是在实现SSL/TLS连接时。以下是OpenSSL基础使用流程的一个简要总结，并附上一个简单的示例代码，帮助你理解如何通过OpenSSL建立一个基本的安全通信连接。OpenSSL基础使用流程初始化OpenSSL在使用OpenSSL之前，你需要先初始化OpenSSL库。这个初始化过程会加载加密算法、SSL库等所需的组件。创建SSL上下
GNNs入门（三）GraphSAGE 我也秃了 GNN AI 神经网络
GraphSAGE什么是GraphSAGE？GraphSAGE的动机GraphSAGE的基本原理采样策略聚合函数的设计与选择参数学习和泛化能力GraphSAGE的应用场景实践经验与建议总结什么是GraphSAGE？GraphSAGE（GraphSampleandAggregation）是一种专注于图数据的归纳表示学习（inductiverepresentationlearning）方法，由Will
如何在本地运行大型语言模型（LLM）：深度指南及最佳实践 m0_57781768 语言模型人工智能自然语言处理
如何在本地运行大型语言模型（LLM）：深度指南及最佳实践在当今的人工智能领域，越来越多的开发者希望能够在本地运行大型语言模型（LLM），而不依赖于云端服务。这种趋势的兴起主要源于两个重要的需求：隐私保护和成本控制。通过在本地设备上运行LLM，用户的数据不会被发送到第三方服务器，确保了数据的隐私性。同时，在长时间运行的模拟、文本生成、总结等需要大量计算资源的应用中，本地运行可以显著降低成本。本文将深
插入表主键冲突做更新 a-john
有以下场景：用户下了一个订单，订单内的内容较多，且来自多表，首次下单的时候，内容可能会不全（部分内容不是必须，出现有些表根本就没有没有该订单的值）。在以后更改订单时，有些内容会更改，有些内容会新增。问题：如果在sql语句中执行update操作，在没有数据的表中会出错。如果在逻辑代码中先做查询，查询结果有做更新，没有做插入，这样会将代码复杂化。解决： mysql中提供了一个sql语
Android xml资源文件中@、@android:type、@*、？、@+含义和区别 Cb123456 @+@?@*
一.@代表引用资源 1.引用自定义资源。格式：@[package:]type/name android：text="@string/hello" 2.引用系统资源。格式：@android:type/name android:textColor="@android:color/opaque_red"
数据结构的基本介绍天子之骄数据结构散列表树、图线性结构价格标签
数据结构的基本介绍数据结构就是数据的组织形式，用一种提前设计好的框架去存取数据，以便更方便，高效的对数据进行增删查改。正确选择合适的数据结构，对软件程序的高效执行的影响作用不亚于算法的设计。此外，在计算机系统中数据结构的作用也是非同小可。例如常常在编程语言中听到的栈，堆等，就是经典的数据结构。经典的数据结构大致如下：一：线性数据结构 (1)：列表 a
通过二维码开放平台的API快速生成二维码一炮送你回车库 api
现在很多网站都有通过扫二维码用手机连接的功能，联图网(http://www.liantu.com/pingtai/)的二维码开放平台开放了一个生成二维码图片的Api,挺方便使用的。闲着无聊，写了个前台快速生成二维码的方法。 html代码如下:(二维码将生成在这div下) ? 1 &nbs
ImageIO读取一张图片改变大小 3213213333332132 java IO image BufferedImage
package com.demo; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; /** * @Description 读取一张图片改变大小 * @author FuJianyon
myeclipse集成svn（一针见血） 7454103 eclipse SVN MyEclipse
&n
装箱与拆箱----autoboxing和unboxing darkranger J2SE
4.2　自动装箱和拆箱基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。虽然为您打包基本数据类型提供了方便，但提供方便的同时表示隐藏了细节，建议在能够区分基本数据类型与对象的差别时再使用。 4.2.1　autoboxing和unboxing 在Java中，所有要处理的东西几乎都是对象(Object)
ajax传统的方式制作ajax aijuans Ajax
//这是前台的代码 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = request.getScheme()+
只用jre的eclipse是怎么编译java源文件的？ avords java eclipse jdk tomcat
eclipse只需要jre就可以运行开发java程序了，也能自动编译java源代码，但是jre不是java的运行环境么，难道jre中也带有编译工具？还是eclipse自己实现的？谁能给解释一下呢问题补充：假设系统中没有安装jdk or jre，只在eclipse的目录中有一个jre，那么eclipse会采用该jre，问题是eclipse照样可以编译java源文件，为什么呢？ &nb
前端模块化 bee1314 模块化
背景：前端JavaScript模块化，其实已经不是什么新鲜事了。但是很多的项目还没有真正的使用起来，还处于刀耕火种的野蛮生长阶段。 JavaScript一直缺乏有效的包管理机制，造成了大量的全局变量，大量的方法冲突。我们多么渴望有天能像Java（import），Python (import)，Ruby(require)那样写代码。在没有包管理机制的年代，我们是怎么避免所
处理百万级以上的数据处理 bijian1013 oracle sql 数据库大数据查询
一.处理百万级以上的数据提高查询速度的方法： 1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。 2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 o
mac 卸载 java 1.7 或更高版本征客丶 java OS
卸载 java 1.7 或更高 sudo rm -rf /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin 成功执行此命令后，还可以执行 java 与 javac 命令 sudo rm -rf /Library/PreferencePanes/JavaControlPanel.prefPane 成功执行此命令后，还可以执行 java
【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析 bit1129 Stream
第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接 1. Flume配置 1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/f
Erlang vs TNSDL bookjovi erlang
TNSDL是Nokia内部用于开发电信交换软件的私有语言，是在SDL语言的基础上加以修改而成，TNSDL需翻译成C语言得以编译执行，TNSDL语言中实现了异步并行的特点，当然要完整实现异步并行还需要运行时动态库的支持，异步并行类似于Erlang的process（轻量级进程），TNSDL中则称之为hand，Erlang是基于vm(beam)开发，
非常希望有一个预防疲劳的java软件, 预防过劳死和眼睛疲劳,大家一起努力搞一个 ljy325 企业应用
　非常希望有一个预防疲劳的java软件，我看新闻和网站，国防科技大学的科学家累死了，太疲劳，老是加班，不休息，经常吃药，吃药根本就没用，根本原因是疲劳过度。我以前做java,那会公司垃圾，老想赶快学习到东西跳槽离开，搞得超负荷，不明理。深圳做软件开发经常累死人，总有不明理的人，有个软件提醒限制很好，可以挽救很多人的生命。相关新闻：（1）IT行业成五大疾病重灾区：过劳死平均37.9岁
读《研磨设计模式》-代码笔记-原型模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * Effective Java 建议使用copy constructor or copy factory来代替clone()方法： * 1.public Product copy(Product p){} * 2.publi
配置管理---svn工具之权限配置 chenyu19891124 SVN
今天花了大半天的功夫，终于弄懂svn权限配置。下面是今天收获的战绩。安装完svn后就是在svn中建立版本库，比如我本地的是版本库路径是C:\Repositories\pepos。pepos是我的版本库。在pepos的目录结构 pepos component webapps 在conf里面的auth里赋予的权限配置为 [groups]
浅谈程序员的数学修养 comsci 设计模式编程算法面试招聘
浅谈程序员的数学修养
批量执行 bulk collect与forall用法 daizj oracle sql bulk collect forall
BULK COLLECT 子句会批量检索结果，即一次性将结果集绑定到一个集合变量中，并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本文将逐一描述BULK COLLECT在这几种情形下的用法。有关FORALL语句的用法请参考：批量SQL之 F
Linux下使用rsync最快速删除海量文件的方法 dongwei_6688 OS
1、先安装rsync：yum install rsync 2、建立一个空的文件夹：mkdir /tmp/test 3、用rsync删除目标目录：rsync --delete-before -a -H -v --progress --stats /tmp/test/ log/这样我们要删除的log目录就会被清空了，删除的速度会非常快。rsync实际上用的是替换原理，处理数十万个文件也是秒删。
Yii CModel中rules验证规格 dcj3sjt126com rules yii validate
Yii cValidator主要用法分析： yii验证rulesit 分类： Yii yii的rules验证 cValidator主要属性 attributes ,builtInValidators,enableClientValidation,message,on,safe,skipOnError
基于vagrant的redis主从实验 dcj3sjt126com vagrant
平台: Mac 工具: Vagrant 系统: Centos6.5 实验目的: Redis主从实现思路制作一个基于sentos6.5, 已经安装好reids的box, 添加一个脚本配置从机, 然后作为后面主机从机的基础box 制作sentos6.5+redis的box mkdir vagrant_redis cd vagrant_
Memcached(二)、Centos安装Memcached服务器 frank1234 centos memcached
一、安装gcc rpm和yum安装memcached服务器连接没有找到，所以我使用的是make的方式安装，由于make依赖于gcc，所以要先安装gcc 开始安装，命令如下，[color=red][b]顺序一定不能出错[/b][/color]：建议可以先切换到root用户，不然可能会遇到权限问题：su root 输入密码...... rpm -ivh kernel-head
Remove Duplicates from Sorted List hcx2013 remove
Given a sorted linked list, delete all duplicates such that each element appear only once. For example,Given 1->1->2, return 1->2.Given 1->1->2->3->3, return&
Spring4新特性——JSR310日期时间API的支持 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
浅谈enum与单例设计模式 247687009 java 单例
在JDK1.5之前的单例实现方式有两种(懒汉式和饿汉式并无设计上的区别故看做一种)，两者同是私有构造器，导出静态成员变量，以便调用者访问。第一种 package singleton; public class Singleton { //导出全局成员 public final static Singleton INSTANCE = new S
使用switch条件语句需要注意的几点 openwrt c break switch
1. 当满足条件的case中没有break，程序将依次执行其后的每种条件（包括default）直到遇到break跳出 int main() { int n = 1; switch(n) { case 1: printf("--1--\n"); default: printf("defa
配置Spring Mybatis JUnit测试环境的应用上下文 schnell18 spring mybatis JUnit
Spring-test模块中的应用上下文和web及spring boot的有很大差异。主要试下来差异有：单元测试的app context不支持从外部properties文件注入属性 @Value注解不能解析带通配符的路径字符串解决第一个问题可以配置一个PropertyPlaceholderConfigurer的bean。第二个问题的具体实例是：
Java 定时任务总结一 tuoni java spring timer quartz timertask
Java定时任务总结一.从技术上分类大概分为以下三种方式： 1.Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务; 说明： java.util.Timer定时器，实际上是个线程，定时执行TimerTask类 &
一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法 yangshangchuan rank 相似度计算文本相似度词袋模型余弦相似度
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文

Hadoop 之 MapReduce 的工作原理及其倒排索引的建立

一、Hadoop 简介

二、通过 Hadoop 建立倒排索引

你可能感兴趣的:(#,机器学习相关总结,Hadoop,MapReduce,倒排索引)