weixin_30699443

MapReduce过程详解(基于hadoop2.x架构)

本文基于hadoop2.x架构详细描述了mapreduce的执行过程，包括partition，combiner，shuffle等组件以及yarn平台与mapreduce编程模型的关系。

mapreduce的简介和优点

mapreduce是一个分布式运算程序的编程框架,是hadoop数据分析的核心.
mapreduce的核心思想是将用户编写的逻辑代码和架构中的各个组件整合成一个分布式运算程序,实现一定程序的并行处理海量数据,提高效率.
海量数据难以在单机上处理,而一旦将单机版程序扩展到集群上进行分布式运行势必将大大增加程序的复杂程度.引入mapreduce架构,开发人员可以将精力集中于数据处理的核心业务逻辑上,而将分布式程序中的公共功能封装成框架,以降低开发的难度.
一个完整的mapreduce程序有三类实例进程
1. MRAppMaster:负责整个程序的协调过程
2. MapTask:负责map阶段的数据处理
3. ReduceTask:负责reduce阶段的数据处理

案例(统计各个手机号的上传和下载流量总和)

数据展示

1363157985066   13726230503 00-FD-07-A4-72-B8:CMCC  120.196.100.82  24  27  2481    24681   200
1363157995052   13826544101 5C-0E-8B-C7-F1-E0:CMCC  120.197.40.4    4   0   264 0   200
1363157991076   13926435656 20-10-7A-28-CC-0A:CMCC  120.196.100.99  2   4   132 1512    200
1363154400022   13926251106 5C-0E-8B-8B-B1-50:CMCC  120.197.40.4    4   0   240 0   200
1363157985066   13726230503 00-FD-07-A4-72-B8:CMCC  120.196.100.82  24  27  2481    24681   200
1363157995052   13826544101 5C-0E-8B-C7-F1-E0:CMCC  120.197.40.4    4   0   264 0   200
1363157991076   13926435656 20-10-7A-28-CC-0A:CMCC  120.196.100.99  2   4   132 1512    200
1363154400022   13926251106 5C-0E-8B-8B-B1-50:CMCC  120.197.40.4    4   0   240 0   200

数据解释:

每行数据的第二列数据是手机号,倒数第三列表示上行流量,倒数第二列表示下行流量

要求:

根据总流量降序排列

输出格式要求:

手机号 上行流量    下行流量    总流量

创建bean对象用于封装上行流量,下行流量和总流量:

package com.xiaojie.flowcount;
import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;
import org.apache.hadoop.io.Writable;
import org.apache.hadoop.io.WritableComparable;

//作为key输出的时候都要排序
//不要排序的话，可实现Writable
//实现WritableComparable是为了实现比较大小，排序的功能
public class FlowBean implements WritableComparable{
    private Long upFlow;
    private Long downFlow;
    private Long sumFlow;

    //反序列化时需要反射调用空参构造函数，显示地定义一个
    public FlowBean(){}

    public FlowBean(Long upFlow, Long downFlow) {
        this.upFlow = upFlow;
        this.downFlow = downFlow;
        this.sumFlow = upFlow + downFlow; 
    }
    public void set(Long upFlow, Long downFlow) {
        this.upFlow = upFlow;
        this.downFlow = downFlow;
        this.sumFlow = upFlow + downFlow; 
    }
    public Long getUpFlow() {
        return upFlow;
    }
    public void setUpFlow(Long upFlow) {
        this.upFlow = upFlow;
    }
    public Long getDownFlow() {
        return downFlow;
    }
    public void setDownFlow(Long downFlow) {
        this.downFlow = downFlow;
    }

    //反序列化方法
    public void readFields(DataInput in) throws IOException {
        //反序列化的顺序和序列化的顺序一致
        upFlow = in.readLong();
        downFlow = in.readLong();
        sumFlow = in.readLong();
    }

    //序列化方法
    public void write(DataOutput out) throws IOException {
        // TODO Auto-generated method stub
        out.writeLong(upFlow);
        out.writeLong(downFlow);
        out.writeLong(sumFlow);
    }
    public Long getSumFlow() {
        return sumFlow;
    }

    public void setSumFlow(Long sumFlow) {
        this.sumFlow = sumFlow;
    }
    //toString方法可控制bean对象被写出在文件时的格式
    @Override
    public String toString() {
        return  upFlow + "\t" + downFlow + "\t" + sumFlow ;
    }
    //大的话返回-1,表示排在前面,即降序排序
    public int compareTo(FlowBean o) {  
        return this.sumFlow > o.getSumFlow()?-1:1;
    }
}

第一个map方法:

    static class FlowCountMapper extends Mapper{
        @Override
        protected void map(LongWritable key, Text value, Mapper.Context context)
                throws IOException, InterruptedException {
//          每一行读进来的数据转化为String类型
            String line = value.toString();
            //根据tab分割
            String[] fields = line.split("\t");
            //取出手机号
            String phonenum = fields[1];
            //取出上行流量  将String转为Long
            Long upFlow = Long.parseLong(fields[fields.length-3]);
            //取出下行流量
            long downFlow = Long.parseLong(fields[fields.length-2]);
//          把数据发送给reduce
            context.write(new Text(phonenum), new FlowBean(upFlow, downFlow));
        }
    }

partition(分区方法):

//根据省份分发给不同的reduce程序，其输入数据是map的输出
public class ProvincePartitioner extends Partitioner{
    public static HashMap provinceDict = new HashMap();
    static{
        provinceDict.put("136", 0);
        provinceDict.put("137", 1);
        provinceDict.put("138", 2);
        provinceDict.put("139", 3);
    }
    //返回的是分区号  给哪个reduce
    @Override
    public int getPartition(Text key, FlowBean value, int num_partitioner) {
//      根据手机号前三位分省份，分给不同的reduce
        String phone_num = key.toString().substring(0, 3);
        Integer provinceId = provinceDict.get(phone_num);
        return provinceId==null?4:provinceId;
    }
}

第一个reduce方法:

static class FlowCountReducer extends Reducer{
    //(18989,[bean1,bean2,bean3])
    @Override
    protected void reduce(Text key, Iterable values, Context context)
            throws IOException, InterruptedException {
        long sum_upflow = 0;
        long sum_downflow = 0;
        
//          将上行流量和下行流量分别累加
        
        for(FlowBean bean:values){
            sum_upflow += bean.getUpFlow();
            sum_downflow += bean.getDownFlow();
        }
        FlowBean resultBean = new FlowBean(sum_upflow,sum_downflow);
        context.write(key, resultBean);
    }
}

第一个驱动类

    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        Configuration conf = new Configuration();
//      将默认配置文件传给job
        Job job = Job.getInstance(conf);
//      告诉yarn  jar包在哪
        job.setJarByClass(FlowCount.class);
        //指定job要使用的map和reduce
        job.setMapperClass(FlowCountMapper.class);
        job.setReducerClass(FlowCountReducer.class);
//      指定map的输出类型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(FlowBean.class);
//      指定最终输出的类型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(FlowBean.class);
//      job的输入数据所在的目录
//      第一个参数：给哪个job设置
//      第二个参数：输入数据的目录，多个目录用逗号分隔
        FileInputFormat.setInputPaths(job, new Path("/home/miao/input/flowcount/"));
//      job的数据输出在哪个目录
        FileOutputFormat.setOutputPath(job, new Path("/home/miao/output/flowcount/"));
        //将jar包和配置文件提交给yarn
//      submit方法提交作业就退出该程序
//      job.submit();
//      waitForCompletion方法提交作业并等待作业执行
//      true表示将作业信息打印出来，该方法会返回一个boolean值，表示是否成功运行
        boolean result = job.waitForCompletion(true);
//      mr运行成功返回true，输出0表示运行成功，1表示失败
        System.exit(result?0:1);
    }

执行结果:

13726230503 4962    49362   54324
13826544101 528 0   528
13926251106 480 0   480
13926435656 264 3024    3288

结果分析:

输出数据的格式已经符合了要求,但是并没有按照总流量大小降序排列,需要再写第二个mapreduce来达到最终结果

第二个map方法:

        static class FlowCountSortMapper extends Mapper{

        FlowBean bean = new FlowBean();
        Text phone = new Text();

        @Override
        protected void map(LongWritable key, Text value, Context context)
                throws IOException, InterruptedException {
            //拿到的是上一个mapreduce程序的输出结果，各手机号和流量信息
            String line = value.toString();
            String[] fields = line.split("\t");
            //获取手机号
            String phonenum = fields[0];
            //获取上行流量
            long upFlow = Long.parseLong(fields[1]);
            //获取下行流量
            long downFlow = Long.parseLong(fields[2]);
            //多次调用map函数时，只创建一个对象
            bean.set(upFlow, downFlow);
            phone.set(phonenum);

//          write时，就将bean对象序列化出去了  reducer那边反序列化回对象  根据bean对象的sumFlow排序
            //map结束后会分发给reduce，默认根据key的hash函数进行分发
            //reduce要实现全局有序，必须只有一个reduce，否则分成多个reduce，只有在每个reduce产生的文件里是有序的
            context.write(bean, phone);
        }

第二个reduce方法:

static class FlowCountSortReducer extends Reducer{
    
    // 相同key的被分为一组，一起执行一次reduce
    //对于key是对象的情况下，不可能有两个对象相同（即使上行流量下行流量都相同），所以每组都只有一条数据
    @Override
    protected void reduce(FlowBean bean, Iterable values, Context context)
            throws IOException, InterruptedException {
        context.write(values.iterator().next(), bean);
    }
}

第二个驱动方法:

    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        Configuration conf = new Configuration();
//      将默认配置文件传给job
        Job job = Job.getInstance(conf);
        //指定自定义的map数据分区器
        //job.setPartitionerClass(ProvincePartitioner.class);
        //根据partitioner里的分区数量，设置reduce的数量
        //job.setNumReduceTasks(5);
//      告诉yarn  jar包在哪
        job.setJarByClass(FlowCountSort.class);
        //指定job要使用的map和reduce
        job.setMapperClass(FlowCountSortMapper.class);
        job.setReducerClass(FlowCountSortReducer.class);
//      指定map的输出类型
        job.setMapOutputKeyClass(FlowBean.class);
        job.setMapOutputValueClass(Text.class);
//      指定最终输出的类型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(FlowBean.class);
//      job的输入数据所在的目录
//      第一个参数：给那个job设置
//      第二个参数：输入数据的目录，多个目录用逗号分隔
        FileInputFormat.setInputPaths(job, new Path(args[0]));
        //适用于做测试，不建议这么做 
        Path outpath = new Path(args[1]);
        //根据配置文件获取hdfs客户端对象
        FileSystem fs = FileSystem.get(conf);
//      如果输出目录存在就将其删除
        if(fs.exists(outpath)){
           fs.delete(outpath, true);
        }
//      job的数据输出在哪个目录
        FileOutputFormat.setOutputPath(job, outpath);
        //将jar包和配置文件提交给yarn
//      submit方法提交作业就退出该程序
//      job.submit();
//      waitForCompletion方法提交作业并等待作业执行
//      true表示将作业信息打印出来，该方法会返回一个boolean值，表示是否成功运行
        boolean result = job.waitForCompletion(true);
//      mr运行成功返回true，输出0表示运行成功，1表示失败
        System.exit(result?0:1);
    }

输出结果:

13726230503 4962    49362   54324
13926435656 264 3024    3288
13826544101 528 0   528
13926251106 480 0   480

结果分析:

已满足格式要求,并按总流量降序

mapreduce详细流程图文详解

1.切片

在FileInputFormat中，计算切片大小的逻辑：Math.max(minSize, Math.min(maxSize, blockSize))
minSize的默认值是1,而maxSize的默认值是long类型的最大值,即可得切片的默认大小是blockSize(128M)
maxSize参数如果调得比blocksize小，则会让切片变小，而且就等于配置的这个参数的值
minSize参数调的比blockSize大，则可以让切片变得比blocksize还大
hadoop为每个分片构建一个map任务,可以并行处理多个分片上的数据,整个数据的处理过程将得到很好的负载均衡,因为一台性能较强的计算机能处理更多的数据分片.
分片也不能切得太小,否则多个map和reduce间数据的传输时间,管理分片,构建多个map任务的时间将决定整个作业的执行时间.(大部分时间都不在计算上)

如果文件大小小于128M,则该文件不会被切片,不管文件多小都会是一个单独的切片,交给一个maptask处理.如果有大量的小文件,将导致产生大量的maptask,大大降低集群性能.

大量小文件的优化策略:

(1) 在数据处理的前端就将小文件整合成大文件，再上传到hdfs上，即避免了hdfs不适合存储小文件的缺点,又避免了后期使用mapreduce处理大量小文件的问题。(最提倡的做法)

(2)小文件已经存在hdfs上了，可以使用另一种inputformat来做切片(CombineFileInputFormat),它的切片逻辑和FileInputFormat（默认）不同，它可以将多个小文件在逻辑上规划到一个切片上，交给一个maptask处理。

2.环形缓存区

经过map函数的逻辑处理后的数据输出之后，会通过OutPutCollector收集器将数据收集到环形缓存区保存。
环形缓存区的大小默认为100M,当保存的数据达到80%时,就将缓存区的数据溢出到磁盘上保存。

3.溢出

环形缓存区的数据达到其容量的80%时就会溢出到磁盘上进行保存,在此过程中,程序会对数据进行分区(默认HashPartition)和排序(默认根据key进行快排)
缓存区不断溢出的数据形成多个小文件

4.合并

溢出的多个小文件各个区合并在一起(0区和0区合并成一个0区),形成大文件
通过归并排序保证区内的数据有序

5.shuffle

从过程2到过程7之间,即map任务和reduce任务之间的数据流称为shuffle(混洗),而过程5最能体现出混洗这一概念。一般情况下，一个reduce任务的输入数据来自与多个map任务，多个reduce任务的情况下就会出现如过程5所示的，每个reduce任务从map的输出数据中获取属于自己的那个分区的数据。

6.合并

运行reducetask的节点通过过程5，将来自多个map任务的属于自己的分区数据下载到本地磁盘工作目录。这多个分区文件通过归并排序合并成大文件，并根据key值分好组（key值相同的，value值会以迭代器的形式组在一起）。

7.reducetask

reducetask从本地工作目录获取已经分好组并且排好序的数据，将数据进行reduce函数中的逻辑处理。

8.输出

每个reducetask输出一个结果文件。

partition（分区）

数据从环形缓存区溢出到文件的过程中会根据用户自定义的partition函数进行分区，如果用户没有自定义该函数，程序会用默认的partitioner通过哈希函数来分区，hash partition 的好处是比较弹性，跟数据类型无关，实现简单，只需要设置reducetask的个数。分区的目的是将整个大数据块分成多个数据块，通过多个reducetask处理后，输出多个文件。通常在输出数据需要有所区分的情况下使用自定义分区，如在上述的流量统计的案例里，如果需要最后的输出数据再根据手机号码的省份分成几个文件来存储，则需要自定义partition函数，并在驱动程序里设置reduce任务数等于分区数（job.setNumReduceTasks(5);）和指明自己定义的partition（job.setPartitionerClass(ProvincePartitioner.class)）。在需要获取统一的输出结果的情况下，不需要自定义partition也不用设置reducetask的数量（默认1个）。

自定义的分区函数有时会导致数据倾斜的问题，即有的分区数据量极大，各个分区数据量不均匀，这会导致整个作业时间取决于处理时间最长的那个reduce，应尽量避免这种情况发生。

combiner（map端的reduce）

集群的带宽限制了mapreduce作业的数量，因此应该尽量避免map和reduce任务之间的数据传输。hadoop允许用户对map的输出数据进行处理，用户可自定义combiner函数（如同map函数和reduce函数一般），其逻辑一般和reduce函数一样，combiner的输入是map的输出，combiner的输出作为reduce的输入，很多情况下可以直接将reduce函数作为conbiner函数来使用（job.setCombinerClass(FlowCountReducer.class);）。combiner属于优化方案，所以无法确定combiner函数会调用多少次，可以在环形缓存区溢出文件时调用combiner函数，也可以在溢出的小文件合并成大文件时调用combiner。但要保证不管调用几次combiner函数都不会影响最终的结果，所以不是所有处理逻辑都可以使用combiner组件，有些逻辑如果在使用了combiner函数后会改变最后rerduce的输出结果（如求几个数的平均值，就不能先用combiner求一次各个map输出结果的平均值，再求这些平均值的平均值，这将导致结果错误）。

combiner的意义就是对每一个maptask的输出进行局部汇总，以减小网络传输量。（原先传给reduce的数据是（a，（1,1,1,1,1,1...））,使用combiner后传给reduce的数据变为（a，（4,2,3,5...）））

分组

分组和上面提到的partition（分区）不同，分组发生在reduce端，reduce的输入数据，会根据key是否相等而分为一组，如果key相等的，则这些key所对应的value值会作为一个迭代器对象传给reduce函数。以单词统计为例，reduce输入的数据就如：第一组：（a，（1,3,5,3,1））第二组：（b，（6,2,3,1,5））。上述例子也可以看出在map端是执行过combiner函数的，否则reduce获得的输入数据是：第一组：（a，（1,1,1,1,1，...））第二组：（b，（1,1,1,1,1...））。对每一组数据调用一次reduce函数。

值得一提的是如果key是用户自定义的bean对象，那么就算两个对象的内容都相同，这两个bean对象也不相等，也会被分为两组。如上述流量统计案例里自定义的flowbean对象，就算是上行流量下行流量相等的两个flowbean对象也不会被分为一组。这种bean作为key的情况下，如果处理逻辑需要将两个bean归为一个组，则需要另外的方法（我会在之后的文章中给出）。

排序

在整个mapreduce过程中涉及到多处对数据的排序，环形缓存区溢出的文件，溢出的小文件合并成大文件，reduce端多个分区数据合并成一个大的分区数据等都需要排序，而这排序规则是根据key的compareTo方法来的。

map端输出的数据的顺序不一定是reduce端输入数据的顺序，因为在这两者之间数据经过了排序，但reduce端输出到文件上显示的顺序就是reduce函数的写出顺序。在没有reduce函数的情况下，显示地在驱动函数里将reduce的数量设置为0（设置为0后表示没有reduce阶段，也就没有shuffle阶段，也就不会对数据进行各种排序分组），否则虽然没有reduce逻辑，但是还是会有shuffle阶段，map端处理完数据后将数据保存在文件上的顺序也不是map函数的写出顺序，而是经过shuffle分组排序过后的顺序

MapTask和ReduceTask的并行度

有几个maptask是由程序决定的，默认情况下使用FileInputFormat读入数据，maptask数量的依据有一下几点：

1.文件大小小于128M（默认）的情况下，有几个文件就有几个maptask

2.大于128M的文件，根据切片规则，有几个分片就有几个maptask

3.并不是maptask数量越多越好，太多maptask可能会占用大量数据传输等时间，降低集群计算时间，降低性能。大文件可适当增加blocksize的大小，如将128M的块大小改为256M或512M，这样切片的大小也会增大，切片数量也就减少了，相应地减少maptask的数量。如果小文件太多，可用上述提到过的小文件优化策略减少maptask的数量。

有几个reducetask是用户决定的，用户可以根据需求，自定义相应的partition函数，将数据分成几个区，相应地将reducetask的数量设置成分区数量。（设置5个reducetask，job.setNumReduceTasks(5)）

YARN

1、用户提交的程序的运行逻辑对yarn是透明的，yarn并不需要知道。

2、yarn只提供运算资源的调度（用户程序向yarn申请资源，yarn就负责分配资源）。

3、yarn中的老大叫ResourceManager（知道所有小弟的资源情况，以做出资源分配），yarn中具体提供运算资源的角色叫NodeManager（小弟）。

4、yarn与运行的用户程序完全解耦，就意味着yarn上可以运行各种类型的分布式运算程序（mapreduce只是其中的一种），比如mapreduce、storm程序，spark程序...只要他们各自的框架中有符合yarn规范的资源请求机制即可。

6、Yarn是一个通用的资源调度平台，企业中存在的各种运算集群都可以整合在一个物理集群上，提高资源利用率，方便数据共享。

7、Yarn是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而mapreduce等运算程序则相当于运行于操作系统之上的应用程序。

MapReduce与Yarn

客户端的配置信息mapreduce.framework.name为yarn时，客户端会启动YarnRunner（yarn的客户端程序），并将mapreduce作业提交给yarn平台处理。

1.向ResourceManager请求运行一个mapreduce程序。

2.ResourceManager返回hdfs地址，告诉客户端将作业运行相关的资源文件上传到hdfs。

3.客户端提交mr程序运行所需的文件（包括作业的jar包，作业的配置文件，分片信息等）到hdfs上。

4.作业相关信息提交完成后，客户端用过调用ResourcrManager的submitApplication()方法提交作业。

5.ResourceManager将作业传递给调度器，调度器的默认调度策略是先进先出。

6.调度器寻找一台空闲的节点，并在该节点隔离出一个容器（container），容器中分配了cpu，内存等资源，并启动MRAppmaster进程。

7.MRAppmaster根据需要运行多少个map任务，多少个reduce任务向ResourceManager请求资源。

8.ResourceManager分配相应数量的容器，并告知MRAppmaster容器在哪。

9.MRAppmaster启动maptask。

10.maptask从HDFS获取分片数据执行map逻辑。

11.map逻辑执行结束后，MRAppmaster启动reducetask。

12.reducetask从maptask获取属于自己的分区数据执行reduce逻辑。

13.reduce逻辑结束后将结果数据保存到HDFS上。

14.mapreduce作业结束后，MRAppmaster通知ResourceManager结束自己，让ResourceManager回收所有资源。

数据本地化优化

在第7步，MRAppmaster向ResourceManager请求容器用于运行maptask时，在请求信息中有map所需要处理的分片数据所在的主机和相应的机架信息（即告诉MRAppmaster需要处理的数据在哪里），调度器根据这些信息做出调度决策。

1、最理想的情况是将任务分配到数据本地化的节点上，这样一来map的输入数据不需要从其他节点通过网络传输过来，大大提高了性能。

2、如果存储所需处理的三个HDFS数据块备份的三个节点都在运行其他map任务，处于忙碌状态，资源不足以再开辟一个容器来运行maptask。此时调度器会选择一个与数据所在节点同机架的节点来开辟容器，运行maptask。

3、如果在同一机架上的节点都处于忙碌状态，调度器才会选择跨机架的节点，这会导致机架与机架之间的数据传输，是三种方式中性能最低的。

map和reduce的输出结果存放位置

map任务将其输出写到本地硬盘而不是HDFS，因为map任务的输出结果是中间结果，并不是最终结果，在mr程序结束后，map的输出结果就可以被删除，将其存在可靠的HDFS上一来是没必要浪费HDFS集群的空间，二来是没有存在本地硬盘的速度快。

reduce任务的输出是最终的输出结果，将其存在HDFS上可保证数据的安全。

map，reduce任务分配

默认情况下小于10个mapper且只有1个reducer且所需处理的数据总大小小于1个HDFS块的作业是小作业（可通过mapreduce.job.ubertask.maxmaps，mapreduce.job.ubertask.maxreduces，mapreduce.job.ubertask.maxbytes改变一个作业的默认配置），对于小作业，MRAppmaster会选择在与它同一个容器里运行任务（顺序运行），而不会去向ResourceManager请求资源。（mapreduce.job.ubertask.enable设为false将关闭小作业这一性质）。

作业不是小作业的情况下，MRAppmaster会向ResourceManager请求资源，ResourceManager根据数据本地化优化原则分配相应的容器。在默认情况下map任务和reduce任务都分配到1024MB的内存（可通过mapreduce.map.memory.mb和mapreduce.map.memory.mb来设置map任务和reduce任务的使用内存空间）。

调度器在分配容器时有两个参数，yarn.schedule.capacity.minimum-allocation-mb和yarn.schedule.capacity.minimum-allocation-mb，分别表示容器的最小可分配内存和最大可分配内存，默认值分别是1024MB和10240MB，手动给map，reduce任务分配内存空间时，应设置为容器最小可分配内存的整数倍且不大于最大可分配内存。在不设置map和reduce任务的使用内存情况下，调度器会自己根据任务的需要分配最接近的倍数的内存给容器。

map，reduce任务的并行

小作业的情况下，所有的map任务会在一个容器里顺序执行，所有map任务处理完后再执行1个reduce任务。是大作业的话，所有map任务会分别发送到不同容器里并行运行。而在一个节点上可以并行运行几个map，reduce任务，取决于节点的资源和每个任务所需的资源（如节点资源为8核8G可用内存，每个任务需要1个核1G内存，则该节点理论上可以开辟8个容器，并行执行8个任务）。在多个节点上的任务并行更是理所当然的，值得一提的是属于同一个作业的map任务和reduce任务不能并行，reduce任务一定是在接收到来自所有map任务的分区数据后再执行。

mapreduce输出数据压缩

map或reduce函数的输出可以压缩，减少网络io时间和存储空间，但相应地增加了cpu负担。

计算密集型的任务，少用压缩，将更多的cpu性能用在计算上
io密集型的任务，使用压缩提高mr速度

相应配置：

#map输出压缩
mapreduce.map.output.compress=true
mapreduce.map.output.compress.codec=org.apache.hadoop.io.compress.DefaultCodec
#也可在驱动类中写相应的代码
conf.setBoolean(Job.MAP_OUTPUT_COMPRESS, true);
conf.setClass(Job.MAP_OUTPUT_COMPRESS_CODEC, GzipCodec.class, CompressionCodec.class);

#reduce输出压缩
mapreduce.output.fileoutputformat.compress=true
mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.DefaultCodec
mapreduce.output.fileoutputformat.compress.type=RECORD
#也可在驱动类中写相应代码
Job job = Job.getInstance(conf);
FileOutputFormat.setCompressOutput(job, true);
FileOutputFormat.setOutputCompressorClass(job, (Class) Class.forName(""));

转载于:https://www.cnblogs.com/52mm/p/p15.html

你可能感兴趣的:(MapReduce过程详解(基于hadoop2.x架构))

使用Ansible批量部署Zabbix Agent服务器 DpgrMl 服务器 ansible zabbix
Ansible是一种强大的自动化工具，可以帮助简化IT基础架构的部署和管理。在本文中，我们将使用Ansible来批量部署ZabbixAgent服务器。ZabbixAgent是一个用于监控和收集服务器指标的客户端程序，它允许Zabbix服务器通过Agent主动收集数据。以下是我们将要执行的步骤：安装Ansible：首先，我们需要在部署Ansible的主机上安装Ansible软件包。可以通过在终端中运
小白秒懂系列-服务器/存储SAS架构介绍存储服务专家StorageExpert 其他 DELL服务器维护服务器架构运维 NetApp存储 EMC存储
写在前面今天有朋友在我们的”存储技术交流群“中探讨一个PHYLINK的问题，无论是对于服务器还是存储系统，目前存储上很多后端都是SAS架构，这几年开始往NVMe架构在过度，我们这里还是聚焦于SAS的后端架构，对于一个故障提示或者故障log，要想分析判断出问题所在，首先我们要能理解报错的这些内容是什么，都是什么概念。写这个文章的目的就是让各位看官了解到服务器/存储的后端SAS存储架构的概念。码字不易
2020.4.30 隆非凡
日精进，今日体验：在维修过程中遇到的问题，把源头找到，在进行下一步开始。不要停留在一个点上，合理调整心态，把当下事做好。
VideoPrism模型论文速读：一种用于视频理解的基础视觉编码器
1.引言论文介绍了VideoPrism，这是一个通用视频编码器，能够在多种视频理解任务中实现最先进的性能。VideoPrism的目标是通过单一冻结模型处理不同的视频理解任务，包括分类、定位、检索、字幕生成和问答。VideoPrism在预训练过程中使用了大规模的视频-文本对数据和带有噪声平行文本的视频片段。预训练方法在掩码自动编码基础上进行了改进，通过全局-局部蒸馏语义视频嵌入和令牌洗牌方案，使Vi
我们可能不再需要UI工程师了～强化学习曾小健 ui
我们可能不再需要UI工程师了～原创深度抑郁患者GIS小丸子2025年06月30日08:01中国香港我写这篇文章的时间是6月29日23:51分，刚刚和技术团队结束了本周的例会，例会上研发向我们展示了本周他基于原型直接使用Cursor生成的前端大屏页面，这个过程完全没有前端以及UI工程师的参与，只有一个程序员参考产品原型完成。如下是这张大屏页面对应的Axure原型图，当然还有PC版，但是PC管理后台虽
Claude-Code-Communication：构建高效Agent通信流程
Claude-Code-Communication：构建高效Agent通信流程项目介绍Claude-Code-Communication是一个基于tmux的多Agent通信演示系统。它通过模拟一个层次化的指令传递流程，让我们可以直观地理解和体验Leader（领导者）、Boss（老板）和Workers（员工）之间的协作模式。该系统不仅提供了一个命令行的交互界面，还支持一键部署和运行，非常适合作为分布
【限时免费】 Claude Code WebUI v0.1.13版本发布：增强交互控制与权限管理
ClaudeCodeWebUIv0.1.13版本发布：增强交互控制与权限管理ClaudeCodeWebUI是一个基于ClaudeAI模型的代码辅助工具，提供了直观的Web界面让开发者能够更方便地与AI进行编程相关的交互。该项目通过简洁的用户界面，让开发者可以快速获取代码建议、调试帮助和编程知识。流式响应中断功能在v0.1.13版本中，项目团队引入了一个重要的新特性：流式响应中断功能。这项改进解决了
claude-code-router：智能请求路由管理工具
claude-code-router：智能请求路由管理工具项目介绍在软件开发领域，高效管理请求并确保它们正确地被路由到对应的服务或模型是至关重要的。ClaudeCodeRouter就是这样一款工具，它专为ClaudeCode请求的路由管理而设计。通过这个工具，开发者可以自定义任何请求，将它们路由到不同的模型上，从而提高系统整体的工作效率和响应速度。项目技术分析ClaudeCodeRouter基于J
A316-HF-DAC-V1：专业USB HiFi音频解码器评估板技术解析 Phaten XMOS模组评估板音视频嵌入式硬件 XMOS 模组解码器评估板
引言随着高解析度音频的普及，对高品质音频解码设备的需求日益增长。本文将介绍一款专为USBHiFi音频解码器设计的专业评估板——A316-HF-DAC-V1，这是一款基于XMOSXU316技术的高性能音频解码评估平台。产品概述A316-HF-DAC-V1是一款专业的USBHiFi音频解码器评估板，采用A316-1926-V1XU316模组设计。该评估板支持多种音频输入方式，包括USB、光纤、同轴以及
A316-Codec-V1：USB AI降噪麦克风模组技术详解 Phaten XMOS 模组人工智能音频嵌入式硬件智能硬件
引言随着在线会议、直播和游戏语音交流的普及，高质量的音频输入设备变得越来越重要。本文将介绍一款专为语音收集和处理设计的USBAI降噪麦克风模组——A316-Codec-V1，这是一款基于XMOSXU316芯片和Codec芯片的专业音频处理模组。产品概述A316-Codec-V1是一款基于XMOSXU316和Codec芯片，专为麦克风输入和耳机输出场景设计的模组。该模组尺寸为18mm×35.16mm
A316-Mini-V1：超小尺寸USB高清音频解码器模组技术探析
引言随着便携式音频设备的普及，对小型化、高性能音频解决方案的需求日益增长。本文将介绍一款极致小型化的高性能USB音频解码器模组——A316-Mini-V1，这是一款基于XMOSXU316芯片的微型音频处理模组。产品概述A316-Mini-V1是一款专为小尺寸产品设计的Mini模组，其最显著的特点是尺寸极小，仅有13mm×13mm，适合集成到空间受限的便携式设备中。尽管体积小巧，但该模组集成了功能强
AI深度噪音抑制技术
这两年人工智能快速发展，AI已经渗透到了各行各业。在噪音抑制技术领域，AI也同样发挥了巨大的作用。AI深度噪音抑制技术是一种利用人工智能和深度学习算法来动态处理和减少音频信号中的噪声，从而提升音频的清晰度和质量。与传统的噪音抑制技术相比，AI深度噪音抑制能够更智能、更精准地分辨出背景噪音与有用的语音或音乐信号，尤其在复杂、多样的环境下表现尤为出色。1.工作原理AI深度噪音抑制技术基于深度神经网络（
Claude Code 分层多Agent架构篇强化学习曾小健 c#开发语言
ClaudeCode分层多Agent架构篇原创飞鸟白菜shareAI2025年07月01日09:31广东本文档基于ClaudeCode源代码的深度逆向工程分析，详细还原了其分层多Agent架构的完整技术实现。通过分析混淆代码和运行时行为，我们深入揭示了Task工具如何实现SubAgent的创建、生命周期管理、并发执行协调以及安全隔离机制，为理解现代AI编程助手的核心架构提供了详尽的技术洞察。htt
A316-HF-I2S-V1：USB TO I2S HiFi音频转换器评估板技术解析 Phaten XMOS模组评估板音视频嵌入式硬件 XMOS 模组 USB声卡智能硬件
引言随着高解析度音频应用的不断发展，USB与I2S之间的高品质音频转换需求日益增长。本文将介绍一款专为USBTOI2S音频转换设计的评估板——A316-HF-I2S-V1，这是一款基于XMOSXU316技术的专业音频接口转换平台。产品概述A316-HF-I2S-V1是一款专为USBTOI2SHiFi音频转换器设计的评估板，采用A316-Mini-V1模组设计。该评估板支持USB音频输入，并提供I2
web前端进阶之Javascript设计模式面向对象篇 jia林
前言：在此说明Javascript设计模式所讲内容和知识点来自双越老师（wangEditor富文本开源作者）的视频，内容通俗易懂，受益匪浅，结合自己的学习心得整理成笔记，与大家分享，愿在前端的道路上越走越远.....从“写好代码”到“设计代码”的过程，不仅是技术的提升，更是编程思维的提升，而这其中最关键的就是设计模式，是否理解并掌握设计模式，也是衡量程序员能力的标准之一。学习前提使用过jquery
BERT 的“池化策略” AI扶我青云志 bert 人工智能深度学习
为什么在BERT的config.json中会出现池化层（pooling）相关的参数。这个问题其实触及了BERT输出与下游任务之间的桥梁设计，也是你理解BERT在实际应用中如何工作的关键环节。首先明确：BERT的原始Transformer模块没有传统的池化层BERT是基于Transformer构建的，Transformer输出的是：sequence_output:Tensorofshape(batc
这才是你需要了解的时序数据库 Apache-IoTDB 源码解析之系统架构！ AI科学小老师
个人博客导航页（点击右侧链接即可打开个人博客）：大牛带你入门技术栈1.系统架构1.1系统简介以上示意图可能非常简单，但我觉得足够表明一个整体架构。当一台设备、一辆车连接到协议网关后，便开始了真正的收发数据。一般通信的方式都是基于tcp，搞一段二进制协议，所以协议网关基本要做的工作就是完成对连接的管理、完成对数据的收发及编解码。当数据完成编解码之后一般会发往消息队列当中，一般都是Kafka之中。用来
基于springboot+vue车辆充电桩管理系统
基于springboot+vue车辆充电桩管理系统摘要随着信息化时代的到来，管理系统都趋向于智能化、系统化，车辆充电桩管理系统也不例外，但目前国内仍都使用人工管理，市场规模越来越大，同时信息量也越来越庞大，人工管理显然已无法应对时代的变化，而车辆充电桩管理系统能很好地解决这一问题，轻松应对车辆充电桩平时的工作，既能提高人力物力财力，又能加快工作的效率，取代人工管理是必然趋势。本车辆充电桩管理系统以
封装el-table 基于element封装可配置JSON表格组件心肝到爆前端 json javascript 开发语言 vue.js 前端 elementui 前端框架
基于element封装可配置JSON表格组件话不多说直接贴代码，复制运行即可查看效果子组件全部代码<
时序数据库 Apache-IoTDB 源码解析之系统架构（二） zhoumouren88 技术
上一章聊到时序数据是什么样，物联网行业中的时序数据的特点：存量数据大、新增数据多（采集频率高、设备量多）。详情请见：时序数据库Apache-IoTDB源码解析之前言（一）打一波广告，欢迎大家访问IoTDB仓库，求一波Star。这一章主要想聊一聊：物联网行业的基本系统架构，及使用数据库遇到的需求与挑战IoTDB的功能特点及系统架构车联网因为本人是在做车联网行业，所以对这个行业的信息了解更深入一些，能
通信方式与交换方式详解两圆相切网络规划设计师网络
通信方式与交换方式是通信网络中的核心概念，分别定义了数据传输的基本模式（通信方向与同步机制）和网络节点间的转发策略（路径选择与资源分配）。理解两者的分类与特性，对网络设计、协议选型及性能优化至关重要。一、通信方式（CommunicationModes）通信方式描述数据在传输过程中方向性和同步性的特征，决定了终端设备间的交互模式。1.1按传输方向分类类型定义核心特性典型场景单工通信数据仅能沿单一固定
2019-02-25 笑傲江湖201710
图片发自App图片发自App图片发自App我了解死亡的过程并不是想去死亡，而是了解下死亡是什么样子的，怎么死去的。二氧化碳中毒属于化学死亡，也是科学死亡的一种，上吊缢死则属于物理死亡了，因为尸体和物体有所接触。所有的死亡都是有原因的，真相只有一个。也就是说所有的事情都是因果关系，并不存在什么特殊的外力，如果有也不会被现如今的人们所接纳。现实生活中中的我们的课本和书本都是无神论的观点，我们所接收到的
深入理解 UniApp：跨平台开发的终极解决方案
深入理解UniApp：跨平台开发的终极解决方案一、UniApp概述：重新定义跨平台开发（一）UniApp的诞生背景在移动互联网高速发展的今天，多端适配成为开发者面临的主要挑战。传统开发模式下，针对iOS、Android、微信小程序、H5等不同平台需要编写多套代码，开发成本高且维护困难。DCloud公司于2019年推出的UniApp，正是为了解决这一行业痛点而生。它基于Vue.js语法规范，实现了"
如何设计一个高并发短链接服务（如 bit.ly）？天天摸鱼的java工程师 java
如何设计一个高并发短链接服务（如bit.ly）？引言：在社交媒体营销、短信推广等场景中，短链接服务已成为互联网基础设施的关键组件。全球每天有数十亿短链接被创建，如Bitly、TinyURL等服务每天处理数十亿请求。作为一名拥有8年经验的Java架构师，我曾主导设计过日处理千万级短链接的系统。今天我将从原理到实现，深度解析如何构建一个高性能、高可用、可扩展的短链接服务。一、业务场景与技术挑战1.1核
如何将电商单体应用拆分为微服务？拆分粒度如何权衡？天天摸鱼的java工程师微服务 java
如何将电商单体应用拆分为微服务？拆分粒度如何权衡？引言：在电商行业高速发展的今天，系统扩展性和交付速度成为核心竞争力。许多企业初期采用单体架构快速上线，但随着业务规模扩大，单体应用逐渐成为制约发展的瓶颈。你是否也面临这样的挑战：代码库臃肿不堪、发布周期越来越长、局部故障导致全局瘫痪、技术栈升级举步维艰？作为一名有8年开发经验的Java工程师，我曾主导多个大型电商系统的微服务拆分。今天我将分享从业务
如何解决 ext4 文件系统的元数据损坏问题网硕互联的小客服网络运维服务器安全 windows
Ext4文件系统的元数据损坏可能导致文件系统不可用或部分数据丢失。元数据包括文件系统的关键结构（如超级块、inode表、块组描述符等）。修复过程需要谨慎操作，以避免进一步损坏。以下是解决Ext4文件系统元数据损坏的详细步骤：1.元数据损坏的常见原因非正常关机：如突然断电或强制重启，可能导致文件系统未能正确写入元数据。磁盘硬件故障：坏道或硬盘损坏会导致元数据不可读。文件系统错误：不兼容的工具或操作（
时序数据库IoTDB好不好？时序数据说时序数据库数据库 iotdb 物联网开源
时序数据库IoTDB（InternetofThingsDatabase）是专为物联网场景设计的一款开源时序数据库系统，由清华大学团队开发并贡献给Apache基金会。经过多年发展，IoTDB已经在工业物联网、车联网、能源电力等多个领域得到广泛应用。那么IoTDB究竟好不好？下面我将从几个核心优势来分析。一、专为物联网优化的存储架构分层存储设计：IoTDB采用"内存缓冲区+磁盘文件+分布式存储"的分层
如何设计一个社交平台的关注/粉丝系统？一位8年Java开发者的架构心路天天摸鱼的java工程师 java 架构开发语言
如何设计一个社交平台的关注/粉丝系统？——一位8年Java开发者的架构心路当你的社交平台面临百万用户实时互动，如何确保关注操作毫秒级响应？如何保证粉丝列表的实时性和一致性？这个看似基础的功能背后，隐藏着读写扩散、数据一致性、热点用户等架构难题。本文将带你从业务模型到代码落地，构建一个支撑千万级关系的社交系统。一、业务场景与核心挑战典型关注业务流程：未关注已关注用户A关注用户B关系检查写入关注关系更
《深入理解 Python 的对象构造机制：__new__ 与 __init__ 的本质区别与实战应用》清水白石008 开发语言学习笔记课程教程 python 开发语言
《深入理解Python的对象构造机制：new与init的本质区别与实战应用》引言：对象的诞生之谜在Python的面向对象编程中，我们习惯于使用__init__方法来初始化对象。但你是否曾注意到，还有一个鲜为人知却至关重要的魔法方法——__new__？它是对象构造过程的起点，掌控着类实例的真正创建。理解__new__与__init__的区别，不仅能帮助你掌握Python的对象模型，还能在构建不可变类
微服务之间有哪些调用方式？娄艺潇微服务架构云原生
随着微服务架构的广泛应用，服务之间的通信方式成为了系统设计中的重要一环。微服务的核心理念是将系统拆分为多个独立的服务，每个服务负责特定的业务功能。为了实现这些服务之间的协作，通信方式的选择至关重要。微服务之间的通信方式主要分为两大类：同步通信：服务之间直接调用，通常需要立即返回结果。异步通信：服务之间通过消息队列等中间件进行通信，调用方无需等待结果。一、同步通信：实时交互，强依赖场景1.HTTP/
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR