weixin_30763455

MapReduce三种join实例分析

本文引自吴超博客

实现原理

　　1、在Reudce端进行连接。

　　在Reudce端进行连接是MapReduce框架进行表之间join操作最为常见的模式，其具体的实现原理如下：

　　Map端的主要工作：为来自不同表(文件)的key/value对打标签以区别不同来源的记录。然后用连接字段作为key，其余部分和新加的标志作为value，最后进行输出。

　　reduce端的主要工作：在reduce端以连接字段作为key的分组已经完成，我们只需要在每一个分组当中将那些来源于不同文件的记录(在map阶段已经打标志)分开，最后进行笛卡尔只就ok了。原理非常简单，下面来看一个实例：

　　(1)自定义一个value返回类型:

　　package com.mr.reduceSizeJoin;

　　import java.io.DataInput;

　　import java.io.DataOutput;

　　import java.io.IOException;

　　import org.apache.hadoop.io.Text;

　　import org.apache.hadoop.io.WritableComparable;

　　public class CombineValues implements WritableComparable{

　　//private static final Logger logger = LoggerFactory.getLogger(CombineValues.class);

　　private Text joinKey;//链接关键字

　　private Text flag;//文件来源标志

　　private Text secondPart;//除了链接键外的其他部分

　　public void setJoinKey(Text joinKey) {

　　this.joinKey = joinKey;

　　}

　　public void setFlag(Text flag) {

　　this.flag = flag;

　　}

　　public void setSecondPart(Text secondPart) {

　　this.secondPart = secondPart;

　　}

　　public Text getFlag() {

　　return flag;

　　}

　　public Text getSecondPart() {

　　return secondPart;

　　}

　　public Text getJoinKey() {

　　return joinKey;

　　}

　　public CombineValues() {

　　this.joinKey = new Text();

　　this.flag = new Text();

　　this.secondPart = new Text();

　　}

　　@Override

　　public void write(DataOutput out) throws IOException {

　　this.joinKey.write(out);

　　this.flag.write(out);

　　this.secondPart.write(out);

　　}

　　@Override

　　public void readFields(DataInput in) throws IOException {

　　this.joinKey.readFields(in);

　　this.flag.readFields(in);

　　this.secondPart.readFields(in);

　　}

　　@Override

　　public int compareTo(CombineValues o) {

　　return this.joinKey.compareTo(o.getJoinKey());

　　}

　　@Override

　　public String toString() {

　　// TODO Auto-generated method stub

　　return "[flag="+this.flag.toString()+",joinKey="+this.joinKey.toString()+",secondPart="+this.secondPart.toString()+"]";

　　}

　　(2)map、reduce主体代码

　　package com.mr.reduceSizeJoin;

　　import java.io.IOException;

　　import java.util.ArrayList;

　　import org.apache.hadoop.conf.Configuration;

　　import org.apache.hadoop.conf.Configured;

　　import org.apache.hadoop.fs.Path;

　　import org.apache.hadoop.io.Text;

　　import org.apache.hadoop.mapreduce.Job;

　　import org.apache.hadoop.mapreduce.Mapper;

　　import org.apache.hadoop.mapreduce.Reducer;

　　import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

　　import org.apache.hadoop.mapreduce.lib.input.FileSplit;

　　import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

　　import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

　　import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

　　import org.apache.hadoop.util.Tool;

　　import org.apache.hadoop.util.ToolRunner;

　　import org.slf4j.Logger;

　　import org.slf4j.LoggerFactory;

　　/**

　　* @author zengzhaozheng

　　* 用途说明：

　　* reudce side join中的left outer join

　　* 左连接，两个文件分别代表2个表,连接字段table1的id字段和table2的cityID字段

　　* table1(左表):tb_dim_city(id int,name string,orderid int,city_code,is_show)

　　* tb_dim_city.dat文件内容,分隔符为"|"：

　　* id name orderid city_code is_show

　　* 0 其他 9999 9999 0

　　* 1 长春 1 901 1

　　* 2 吉林 2 902 1

　　* 3 四平 3 903 1

　　* 4 松原 4 904 1

　　* 5 通化 5 905 1

　　* 6 辽源 6 906 1

　　* 7 白城 7 907 1

　　* 8 白山 8 908 1

　　* 9 延吉 9 909 1

　　* -------------------------分割线-------------------------------

　　* table2(右表)：tb_user_profiles(userID int,userName string,network string,double flow,cityID int)

　　* tb_user_profiles.dat文件内容,分隔符为"|"：

　　* userID network flow cityID

　　* 1 2G 123 1

　　* 2 3G 333 2

　　* 3 3G 555 1

　　* 4 2G 777 3

　　* 5 3G 666 4

　　* -------------------------分割线-------------------------------

　　* 结果：

　　* 1 长春 1 901 1 1 2G 123

　　* 1 长春 1 901 1 3 3G 555

　　* 2 吉林 2 902 1 2 3G 333

　　* 3 四平 3 903 1 4 2G 777

　　* 4 松原 4 904 1 5 3G 666

　　public class ReduceSideJoin_LeftOuterJoin extends Configured implements Tool{

　　private static final Logger logger = LoggerFactory.getLogger(ReduceSideJoin_LeftOuterJoin.class);

　　public static class LeftOutJoinMapper extends Mapper{

　　private CombineValues combineValues = new CombineValues();

　　private Text flag = new Text();

　　private Text joinKey = new Text();

　　private Text secondPart = new Text();

　　@Override

　　protected void map(Object key, Text value, Context context)

　　throws IOException, InterruptedException {

　　//获得文件输入路径

　　String pathName = ((FileSplit) context.getInputSplit()).getPath().toString();

　　//数据来自tb_dim_city.dat文件,标志即为"0"

　　if(pathName.endsWith("tb_dim_city.dat")){

　　String[] valueItems = value.toString().split("\\|");

　　//过滤格式错误的记录

　　if(valueItems.length != 5){

　　return;

　　}

　　flag.set("0");

　　joinKey.set(valueItems[0]);

　　secondPart.set(valueItems[1]+"\t"+valueItems[2]+"\t"+valueItems[3]+"\t"+valueItems[4]);

　　combineValues.setFlag(flag);

　　combineValues.setJoinKey(joinKey);

　　combineValues.setSecondPart(secondPart);

　　context.write(combineValues.getJoinKey(), combineValues); }//数据来自于tb_user_profiles.dat，标志即为"1"

　　else if(pathName.endsWith("tb_user_profiles.dat")){

　　String[] valueItems = value.toString().split("\\|");

　　//过滤格式错误的记录

　　if(valueItems.length != 4){

　　return;

　　}

　　flag.set("1");

　　joinKey.set(valueItems[3]);

　　secondPart.set(valueItems[0]+"\t"+valueItems[1]+"\t"+valueItems[2]);

　　combineValues.setFlag(flag);

　　combineValues.setJoinKey(joinKey);

　　combineValues.setSecondPart(secondPart);

　　context.write(combineValues.getJoinKey(), combineValues);

　　}

　　public static class LeftOutJoinReducer extends Reducer {

　　//存储一个分组中的左表信息

　　private ArrayList leftTable = new ArrayList();

　　//存储一个分组中的右表信息

　　private ArrayList rightTable = new ArrayList();

　　private Text secondPar = null;

　　private Text output = new Text();

　　/**

　　* 一个分组调用一次reduce函数

　　@Override

　　protected void reduce(Text key, Iterable value, Context context)

　　throws IOException, InterruptedException {

　　leftTable.clear();

　　rightTable.clear();

　　/**

　　* 将分组中的元素按照文件分别进行存放

　　* 这种方法要注意的问题：

　　* 如果一个分组内的元素太多的话，可能会导致在reduce阶段出现OOM，

　　* 在处理分布式问题之前最好先了解数据的分布情况，根据不同的分布采取最

　　* 适当的处理方法，这样可以有效的防止导致OOM和数据过度倾斜问题。

　　for(CombineValues cv : value){

　　secondPar = new Text(cv.getSecondPart().toString());

　　//左表tb_dim_city

　　if("0".equals(cv.getFlag().toString().trim())){

　　leftTable.add(secondPar);

　　}

　　//右表tb_user_profiles

　　else if("1".equals(cv.getFlag().toString().trim())){

　　rightTable.add(secondPar);

　　}

　　logger.info("tb_dim_city:"+leftTable.toString());

　　logger.info("tb_user_profiles:"+rightTable.toString());

　　for(Text leftPart : leftTable){

　　for(Text rightPart : rightTable){

　　output.set(leftPart+ "\t" + rightPart);

　　context.write(key, output);

　　}

　　@Override

　　public int run(String[] args) throws Exception {

　　Configuration conf=getConf(); //获得配置文件对象

　　Job job=new Job(conf,"LeftOutJoinMR");

　　job.setJarByClass(ReduceSideJoin_LeftOuterJoin.class); FileInputFormat.addInputPath(job, new Path(args[0])); //设置map输入文件路径

　　FileOutputFormat.setOutputPath(job, new Path(args[1])); //设置reduce输出文件路径

　　job.setMapperClass(LeftOutJoinMapper.class);

　　job.setReducerClass(LeftOutJoinReducer.class); job.setInputFormatClass(TextInputFormat.class); //设置文件输入格式

　　job.setOutputFormatClass(TextOutputFormat.class);//使用默认的output格格式

　　//设置map的输出key和value类型

　　job.setMapOutputKeyClass(Text.class);

　　job.setMapOutputValueClass(CombineValues.class);

　　//设置reduce的输出key和value类型

　　job.setOutputKeyClass(Text.class);

　　job.setOutputValueClass(Text.class);

　　job.waitForCompletion(true);

　　return job.isSuccessful()?0:1;

　　}

　　public static void main(String[] args) throws IOException,

　　ClassNotFoundException, InterruptedException {

　　try {

　　int returnCode = ToolRunner.run(new ReduceSideJoin_LeftOuterJoin(),args);

　　System.exit(returnCode);

　　} catch (Exception e) {

　　// TODO Auto-generated catch block

　　logger.error(e.getMessage());

　　}

　　其中具体的分析以及数据的输出输入请看代码中的注释已经写得比较清楚了，这里主要分析一下reduce join的一些不足。之所以会存在reduce join这种方式，我们可以很明显的看出原：因为整体数据被分割了，每个map task只处理一部分数据而不能够获取到所有需要的join字段，因此我们需要在讲join key作为reduce端的分组将所有join key相同的记录集中起来进行处理，所以reduce join这种方式就出现了。这种方式的缺点很明显就是会造成map和reduce端也就是shuffle阶段出现大量的数据传输，效率很低。

　　2、在Map端进行连接。

　　使用场景：一张表十分小、一张表很大。

　　用法:在提交作业的时候先将小表文件放到该作业的DistributedCache中，然后从DistributeCache中取出该小表进行join key / value解释分割放到内存中(可以放大Hash Map等等容器中)。然后扫描大表，看大表中的每条记录的join key /value值是否能够在内存中找到相同join key的记录，如果有则直接输出结果。

　　直接上代码，比较简单：

　　package com.mr.mapSideJoin;

　　import java.io.BufferedReader;

　　import java.io.FileReader;

　　import java.io.IOException;

　　import java.util.HashMap;

　　import org.apache.hadoop.conf.Configuration;

　　import org.apache.hadoop.conf.Configured;

　　import org.apache.hadoop.filecache.DistributedCache;

　　import org.apache.hadoop.fs.Path;

　　import org.apache.hadoop.io.Text;

　　import org.apache.hadoop.mapreduce.Job;

　　import org.apache.hadoop.mapreduce.Mapper;

　　import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

　　import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

　　import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

　　import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

　　import org.apache.hadoop.util.Tool;

　　import org.apache.hadoop.util.ToolRunner;

　　import org.slf4j.Logger;

　　import org.slf4j.LoggerFactory;

　　/**

　　* @author zengzhaozheng

　　* 用途说明：

　　* Map side join中的left outer join

　　* 左连接，两个文件分别代表2个表,连接字段table1的id字段和table2的cityID字段

　　* table1(左表):tb_dim_city(id int,name string,orderid int,city_code,is_show)，

　　* 假设tb_dim_city文件记录数很少，tb_dim_city.dat文件内容,分隔符为"|"：

　　* id name orderid city_code is_show

　　* 0 其他 9999 9999 0

　　* 1 长春 1 901 1

　　* 2 吉林 2 902 1

　　* 3 四平 3 903 1

　　* 4 松原 4 904 1

　　* 5 通化 5 905 1

　　* 6 辽源 6 906 1

　　* 7 白城 7 907 1

　　* 8 白山 8 908 1

　　* 9 延吉 9 909 1

　　* -------------------------分割线-------------------------------

　　* table2(右表)：tb_user_profiles(userID int,userName string,network string,double flow,cityID int)

　　* tb_user_profiles.dat文件内容,分隔符为"|"：

　　* userID network flow cityID

　　* 1 2G 123 1

　　* 2 3G 333 2

　　* 3 3G 555 1

　　* 4 2G 777 3

　　* 5 3G 666 4

　　* -------------------------分割线-------------------------------

　　* 结果：

　　* 1 长春 1 901 1 1 2G 123

　　* 1 长春 1 901 1 3 3G 555

　　* 2 吉林 2 902 1 2 3G 333

　　* 3 四平 3 903 1 4 2G 777

　　* 4 松原 4 904 1 5 3G 666

　　public class MapSideJoinMain extends Configured implements Tool{

　　private static final Logger logger = LoggerFactory.getLogger(MapSideJoinMain.class);

　　public static class LeftOutJoinMapper extends Mapper{ private HashMap city_info = new HashMap();

　　private Text outPutKey = new Text();

　　private Text outPutValue = new Text();

　　private String mapInputStr = null;

　　private String mapInputSpit[] = null;

　　private String city_secondPart = null;

　　/**

　　* 此方法在每个task开始之前执行，这里主要用作从DistributedCache

　　* 中取到tb_dim_city文件，并将里边记录取出放到内存中。

　　@Override

　　protected void setup(Context context)

　　throws IOException, InterruptedException {

　　BufferedReader br = null;

　　//获得当前作业的DistributedCache相关文件

　　Path[] distributePaths = DistributedCache.getLocalCacheFiles(context.getConfiguration());

　　String cityInfo = null;

　　for(Path p : distributePaths){

　　if(p.toString().endsWith("tb_dim_city.dat")){

　　//读缓存文件，并放到mem中

　　br = new BufferedReader(new FileReader(p.toString()));

　　while(null!=(cityInfo=br.readLine())){

　　String[] cityPart = cityInfo.split("\\|",5);

　　if(cityPart.length ==5){

　　city_info.put(cityPart[0], cityPart[1]+"\t"+cityPart[2]+"\t"+cityPart[3]+"\t"+cityPart[4]);

　　}

　　/**

　　* Map端的实现相当简单，直接判断tb_user_profiles.dat中的

　　* cityID是否存在我的map中就ok了，这样就可以实现Map Join了

　　@Override

　　protected void map(Object key, Text value, Context context)

　　throws IOException, InterruptedException {

　　//排掉空行

　　if(value == null || value.toString().equals("")){

　　return;

　　}

　　mapInputStr = value.toString();

　　mapInputSpit = mapInputStr.split("\\|",4);

　　//过滤非法记录

　　if(mapInputSpit.length != 4){

　　return;

　　}

　　//判断链接字段是否在map中存在

　　city_secondPart = city_info.get(mapInputSpit[3]);

　　if(city_secondPart != null){

　　this.outPutKey.set(mapInputSpit[3]);

　　this.outPutValue.set(city_secondPart+"\t"+mapInputSpit[0]+"\t"+mapInputSpit[1]+"\t"+mapInputSpit[2]);

　　context.write(outPutKey, outPutValue);

　　}

　　@Override

　　public int run(String[] args) throws Exception {

　　Configuration conf=getConf(); //获得配置文件对象

　　DistributedCache.addCacheFile(new Path(args[1]).toUri(), conf);//为该job添加缓存文件

　　Job job=new Job(conf,"MapJoinMR");

　　job.setNumReduceTasks(0); FileInputFormat.addInputPath(job, new Path(args[0])); //设置map输入文件路径

　　FileOutputFormat.setOutputPath(job, new Path(args[2])); //设置reduce输出文件路径

　　job.setJarByClass(MapSideJoinMain.class);

　　job.setMapperClass(LeftOutJoinMapper.class); job.setInputFormatClass(TextInputFormat.class); //设置文件输入格式

　　job.setOutputFormatClass(TextOutputFormat.class);//使用默认的output格式

　　//设置map的输出key和value类型

　　job.setMapOutputKeyClass(Text.class); //设置reduce的输出key和value类型

　　job.setOutputKeyClass(Text.class);

　　job.setOutputValueClass(Text.class);

　　job.waitForCompletion(true);

　　return job.isSuccessful()?0:1;

　　}

　　public static void main(String[] args) throws IOException,

　　ClassNotFoundException, InterruptedException {

　　try {

　　int returnCode = ToolRunner.run(new MapSideJoinMain(),args);

　　System.exit(returnCode);

　　} catch (Exception e) {

　　// TODO Auto-generated catch block

　　logger.error(e.getMessage());

　　}

　　这里说说DistributedCache。DistributedCache是分布式缓存的一种实现，它在整个MapReduce框架中起着相当重要的作用，他可以支撑我们写一些相当复杂高效的分布式程序。说回到这里，JobTracker在作业启动之前会获取到DistributedCache的资源uri列表，并将对应的文件分发到各个涉及到该作业的任务的TaskTracker上。另外，关于DistributedCache和作业的关系，比如权限、存储路径区分、public和private等属性。

　　另外还有一种比较变态的Map Join方式，就是结合HBase来做Map Join操作。这种方式完全可以突破内存的控制，使你毫无忌惮的使用Map Join，而且效率也非常不错。

　　3、SemiJoin。

　　SemiJoin就是所谓的半连接，其实仔细一看就是reduce join的一个变种，就是在map端过滤掉一些数据，在网络中只传输参与连接的数据不参与连接的数据不必在网络中进行传输，从而减少了shuffle的网络传输量，使整体效率得到提高，其他思想和reduce join是一模一样的。说得更加接地气一点就是将小表中参与join的key单独抽出来通过DistributedCach分发到相关节点，然后将其取出放到内存中(可以放到HashSet中)，在map阶段扫描连接表，将join key不在内存HashSet中的记录过滤掉，让那些参与join的记录通过shuffle传输到reduce端进行join操作，其他的和reduce join都是一样的。看代码：

　　package com.mr.SemiJoin;

　　import java.io.BufferedReader;

　　import java.io.FileReader;

　　import java.io.IOException;

　　import java.util.ArrayList;

　　import java.util.HashSet;

　　import org.apache.hadoop.conf.Configuration;

　　import org.apache.hadoop.conf.Configured;

　　import org.apache.hadoop.filecache.DistributedCache;

　　import org.apache.hadoop.fs.Path;

　　import org.apache.hadoop.io.Text;

　　import org.apache.hadoop.mapreduce.Job;

　　import org.apache.hadoop.mapreduce.Mapper;

　　import org.apache.hadoop.mapreduce.Reducer;

　　import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

　　import org.apache.hadoop.mapreduce.lib.input.FileSplit;

　　import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

　　import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

　　import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

　　import org.apache.hadoop.util.Tool;

　　import org.apache.hadoop.util.ToolRunner;

　　import org.slf4j.Logger;

　　import org.slf4j.LoggerFactory;

　　/**

　　* @author zengzhaozheng

　　* 用途说明：

　　* reudce side join中的left outer join

　　* 左连接，两个文件分别代表2个表,连接字段table1的id字段和table2的cityID字段

　　* table1(左表):tb_dim_city(id int,name string,orderid int,city_code,is_show)

　　* tb_dim_city.dat文件内容,分隔符为"|"：

　　* id name orderid city_code is_show

　　* 0 其他 9999 9999 0

　　* 1 长春 1 901 1

　　* 2 吉林 2 902 1

　　* 3 四平 3 903 1

　　* 4 松原 4 904 1

　　* 5 通化 5 905 1

　　* 6 辽源 6 906 1

　　* 7 白城 7 907 1

　　* 8 白山 8 908 1

　　* 9 延吉 9 909 1

　　* -------------------------分割线-------------------------------

　　* table2(右表)：tb_user_profiles(userID int,userName string,network string,double flow,cityID int)

　　* tb_user_profiles.dat文件内容,分隔符为"|"：

　　* userID network flow cityID

　　* 1 2G 123 1

　　* 2 3G 333 2

　　* 3 3G 555 1

　　* 4 2G 777 3

　　* 5 3G 666 4

　　* -------------------------分割线-------------------------------

　　* joinKey.dat内容：

　　* city_code

　　* 1

　　* 2

　　* 3

　　* 4

　　* -------------------------分割线-------------------------------

　　* 结果：

　　* 1 长春 1 901 1 1 2G 123

　　* 1 长春 1 901 1 3 3G 555

　　* 2 吉林 2 902 1 2 3G 333

　　* 3 四平 3 903 1 4 2G 777

　　* 4 松原 4 904 1 5 3G 666

　　public class SemiJoin extends Configured implements Tool{

　　private static final Logger logger = LoggerFactory.getLogger(SemiJoin.class);

　　public static class SemiJoinMapper extends Mapper{

　　private CombineValues combineValues = new CombineValues();

　　private HashSet joinKeySet = new HashSet();

　　private Text flag = new Text();

　　private Text joinKey = new Text();

　　private Text secondPart = new Text();

　　/**

　　* 将参加join的key从DistributedCache取出放到内存中，以便在map端将要参加join的key过滤出来。b

　　@Override

　　protected void setup(Context context)

　　throws IOException, InterruptedException {

　　BufferedReader br = null;

　　//获得当前作业的DistributedCache相关文件

　　Path[] distributePaths = DistributedCache.getLocalCacheFiles(context.getConfiguration());

　　String joinKeyStr = null;

　　for(Path p : distributePaths){

　　if(p.toString().endsWith("joinKey.dat")){

　　//读缓存文件，并放到mem中

　　br = new BufferedReader(new FileReader(p.toString()));

　　while(null!=(joinKeyStr=br.readLine())){

　　joinKeySet.add(joinKeyStr);

　　}

　　@Override

　　protected void map(Object key, Text value, Context context)

　　throws IOException, InterruptedException {

　　//获得文件输入路径

　　String pathName = ((FileSplit) context.getInputSplit()).getPath().toString();

　　//数据来自tb_dim_city.dat文件,标志即为"0"

　　if(pathName.endsWith("tb_dim_city.dat")){

　　String[] valueItems = value.toString().split("\\|");

　　//过滤格式错误的记录

　　if(valueItems.length != 5){

　　return;

　　}

　　//过滤掉不需要参加join的记录

　　if(joinKeySet.contains(valueItems[0])){

　　flag.set("0");

　　joinKey.set(valueItems[0]);

　　secondPart.set(valueItems[1]+"\t"+valueItems[2]+"\t"+valueItems[3]+"\t"+valueItems[4]);

　　combineValues.setFlag(flag);

　　combineValues.setJoinKey(joinKey);

　　combineValues.setSecondPart(secondPart);

　　context.write(combineValues.getJoinKey(), combineValues);

　　}else{

　　return ;

　　}

　　}//数据来自于tb_user_profiles.dat，标志即为"1"

　　else if(pathName.endsWith("tb_user_profiles.dat")){

　　String[] valueItems = value.toString().split("\\|");

　　//过滤格式错误的记录

　　if(valueItems.length != 4){

　　return;

　　}

　　//过滤掉不需要参加join的记录

　　if(joinKeySet.contains(valueItems[3])){

　　flag.set("1");

　　joinKey.set(valueItems[3]);

　　secondPart.set(valueItems[0]+"\t"+valueItems[1]+"\t"+valueItems[2]);

　　combineValues.setFlag(flag);

　　combineValues.setJoinKey(joinKey);

　　combineValues.setSecondPart(secondPart);

　　context.write(combineValues.getJoinKey(), combineValues);

　　}else{

　　return ;

　　}

　　public static class SemiJoinReducer extends Reducer {

　　//存储一个分组中的左表信息

　　private ArrayList leftTable = new ArrayList();

　　//存储一个分组中的右表信息

　　private ArrayList rightTable = new ArrayList();

　　private Text secondPar = null;

　　private Text output = new Text();

　　/**

　　* 一个分组调用一次reduce函数

　　@Override

　　protected void reduce(Text key, Iterable value, Context context)

　　throws IOException, InterruptedException {

　　leftTable.clear();

　　rightTable.clear();

　　/**

　　* 将分组中的元素按照文件分别进行存放

　　* 这种方法要注意的问题：

　　* 如果一个分组内的元素太多的话，可能会导致在reduce阶段出现OOM，

　　* 在处理分布式问题之前最好先了解数据的分布情况，根据不同的分布采取最

　　* 适当的处理方法，这样可以有效的防止导致OOM和数据过度倾斜问题。

　　for(CombineValues cv : value){

　　secondPar = new Text(cv.getSecondPart().toString());

　　//左表tb_dim_city

　　if("0".equals(cv.getFlag().toString().trim())){

　　leftTable.add(secondPar);

　　}

　　//右表tb_user_profiles

　　else if("1".equals(cv.getFlag().toString().trim())){

　　rightTable.add(secondPar);

　　}

　　logger.info("tb_dim_city:"+leftTable.toString());

　　logger.info("tb_user_profiles:"+rightTable.toString());

　　for(Text leftPart : leftTable){

　　for(Text rightPart : rightTable){

　　output.set(leftPart+ "\t" + rightPart);

　　context.write(key, output);

　　}

　　@Override

　　public int run(String[] args) throws Exception {

　　Configuration conf=getConf(); //获得配置文件对象

　　DistributedCache.addCacheFile(new Path(args[2]).toUri(), conf); Job job=new Job(conf,"LeftOutJoinMR");

　　job.setJarByClass(SemiJoin.class);

　　FileInputFormat.addInputPath(job, new Path(args[0])); //设置map输入文件路径

　　FileOutputFormat.setOutputPath(job, new Path(args[1])); //设置reduce输出文件路径job.setMapperClass(SemiJoinMapper.class);

　　job.setReducerClass(SemiJoinReducer.class);

　　job.setInputFormatClass(TextInputFormat.class); //设置文件输入格式

　　job.setOutputFormatClass(TextOutputFormat.class);//使用默认的output格式 //设置map的输出key和value类型

　　job.setMapOutputKeyClass(Text.class);

　　job.setMapOutputValueClass(CombineValues.class); //设置reduce的输出key和value类型

　　job.setOutputKeyClass(Text.class);

　　job.setOutputValueClass(Text.class);

　　job.waitForCompletion(true);

　　return job.isSuccessful()?0:1;

　　}

　　public static void main(String[] args) throws IOException,

　　ClassNotFoundException, InterruptedException {

　　try {

　　int returnCode = ToolRunner.run(new SemiJoin(),args);

　　System.exit(returnCode);

　　} catch (Exception e) {

　　logger.error(e.getMessage());

　　}

　　这里还说说SemiJoin也是有一定的适用范围的，其抽取出来进行join的key是要放到内存中的，所以不能够太大，容易在Map端造成OOM。

　　三、总结

　这三种join方式适用于不同的场景，其处理效率上的相差还是蛮大的，其中主要导致因素是网络传输。Map join效率最高，其次是SemiJoin，最低的是reduce join。另外，写分布式大数据处理程序的时最好要对整体要处理的数据分布情况作一个了解，这可以提高我们代码的效率，使数据的倾斜度降到最低，使我们的代码倾向性更好。

转载于:https://www.cnblogs.com/mlj5288/p/4449897.html

你可能感兴趣的:(MapReduce三种join实例分析)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
地推话术，如何应对地推过程中家长的拒绝校师学
相信校长们在做地推的时候经常遇到这种情况：市场专员反馈家长不接单，咨询师反馈难以邀约这些家长上门，校区地推疲软，招生难。为什么？仅从地推层面分析，一方面因为家长受到的信息轰炸越来越多，对信息越来越“免疫”；而另一方面地推人员的专业能力和营销话术没有提高，无法应对家长的拒绝，对有意向的家长也不知如何跟进，眼睁睁看着家长走远；对于家长的疑问，更不知道如何有技巧地回答，机会白白流失。由于回答没技巧和专业
扫地机类清洁产品之直流无刷电机控制悟空胆好小清洁服务机器人单片机人工智能
扫地机类清洁产品之直流无刷电机控制1.1前言扫地机产品有很多的电机控制，滚刷电机1个，边刷电机1-2个，清水泵电机，风机一个，部分中高端产品支持抹布功能，也就是存在抹布盘电机，还有追觅科沃斯石头等边刷抬升电机，滚刷抬升电机等的，这些电机有直流有刷电机，直接无刷电机，步进电机，电磁阀，挪动泵等不同类型。电机的原理，驱动控制方式也不行。接下来一段时间的几个文章会作个专题分析分享。直流有刷电机会自动持续
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
抖音乐买买怎么加入赚钱?赚钱方法是什么测评君高省
你会在抖音买东西吗?如果会，那么一定要免费注册一个乐买买，抖音直播间，橱窗，小视频里的小黄车买东西都可以返佣金!省下来都是自己的，分享还可以赚钱乐买买是好省旗下的抖音返佣平台，乐买买分析社交电商的价值，乐买买属于今年难得的副业项目风口机会，2019年错过做好省的搞钱的黄金时期，那么2022年千万别再错过乐买买至于我为何转到高省呢？当然是高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
18-115 一切思考不能有效转化为行动，都TM是扯淡！成长时间线
7月25号写了一篇关于为什么会断更如此严重的反思，然而，之后日更仅仅维持了一周，又出现了这次更严重的现象。从8月2号到昨天8月6号，5天！又是5天没有更文！虽然这次断更时间和上次一样，那为什么说这次更严重？因为上次之后就分析了问题的原因，以及应该如何解决，按理说应该会好转，然而，没过几天严重断更的现象再次出现，想想，经过反思，问题依然没有解决与改变，这让我有些担忧。到底是哪里出了问题，难道我就真的
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
闲鱼鱼小铺怎么开通？鱼小铺开通需要哪些流程？高省APP大九
闲鱼鱼小铺是平台推出的一个专业程度的店铺，与普通店铺相比会有更多的权益，比如说发布的商品数量从50增加到500；拥有专业的店铺数据看板与分析的功能，这对于专门在闲鱼做生意的用户来说是非常有帮助的，那么鱼小铺每个人都能开通吗？大家好，我是高省APP联合创始人蓓蓓导师，高省APP是2021年推出的电商导购平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个可省钱佣金高，能
2019-11-04复盘——飞来山上千寻塔，闻说鸡鸣见日升。那一叶秋
1、大盘篇先上老图，看习惯了，也就知道走势了图1上证指数日线图还是那张老图，自己可以在自己的相关软件上画出来，快变盘了。2、个股篇未加仓、未减仓。分析量能的时候，突然发现这么一个东西：“放量突破年线，缩量回调。”合众科技日线图其实，最近的N只个股，在技术分析上，都到了变盘的临界时候。结合这么久的走势，特别是ZJH不断放开IPO的申请，本质上说是融资难度变大，或者说是为企业的融资开创便利。但现在市场
18、架构-可观测性之聚合度量大树~~ 架构 java python 后端架构
聚合度量聚合度量是指对系统运行时产生的各种指标数据进行收集、聚合和分析，以了解系统的健康状况和性能表现。聚合度量是可观测性的关键组成部分，通过对度量数据的分析，可以及时发现系统中的异常和瓶颈。以下是对聚合度量各个方面的详细解析，并结合具体的数据案例和技术支撑。指标收集收集系统运行时产生的各种指标数据是聚合度量的基础。常见的指标包括CPU使用率、内存使用率、请求处理时间、请求数、错误率等。以下是指标
果然只有离职的时候，才有人敢说真话！ return2ok
今天公司出了神贴。今天中午吃饭，同事问我看了论坛上的神贴了吗？什么帖子？我问。同事显得很惊讶，你居然没看，现在那个帖子可能会成为年度最佳帖子。这么厉害？我等不及了，饭没吃完就快速的奔向办公室，打开公司论坛，我要一睹这个帖子的神奇。写这帖子的童鞋胆儿真肥。这哪里是一个帖子，这是很多个帖子，组成了一个系列。某人从公司文化、管理、人事、项目管理等多个方面分析了公司的概况，并抨击了公司的各种弊端，并提出了
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
母亲节如何做小红书营销美橙传媒
小红书的一举一动引起了外界的高度关注。通过爆款笔记和流行话题，我们可以看到“干货”类型的内容在小红书中偏向实用的生活经验共享和生活指南非常受欢迎。根据运营社的分析，这种现象是由小红书用户心智和内容社区背后机制共同决定的。首先，小红书将使用“强搜索”逻辑为用户提供特定的“搜索场景”。在“我必须这样生活”中，大量使用了满足小红书站用户喜好和需求的内容。内容社区自制的高质量内容也吸引了寻找营销新途径的品
彩绘曼陀罗作品-第29幅《雪花》燕子心语
2018年12月18日彩绘曼陀罗-第29幅《雪花》图片发自App前夜梦见掉进电梯井，问自己：怎么办？梦醒，感觉有些害怕。想想生活中，事太多，压力大，一件事连着一件事，有点应付不过来了。不再追求完美，一件一件的做，终于完成了好几件事，其中有朋友帮忙完成，感恩画时，即想到此段过程，先画尖角部分，用了三种绿色，想对称，结果无法对称，好吧，接纳!想过渡，结果颜色画错，好吧，接纳!……我在想，错了又能怎样？
用Python实现读取统计单词个数程序媛了了 python 游戏 java
完整实例代码：fromcollectionsimportCounterdefpythonit():danci={}withopen("pythonit.txt","r",encoding="utf-8")asf:foriinf:words=i.strip().split()forwordinwords:ifwordnotindanci:danci[word]=1else:danci[word]+=
系统架构设计师需求分析篇二 AmHardy 软件架构设计师系统架构需求分析面向对象分析分析模型 UML和SysML
面向对象分析方法1.用例模型构建用例模型一般需要经历4个阶段：识别参与者：识别与系统交互的所有事物。合并需求获得用例：将需求分配给予其相关的参与者。细化用例描述：详细描述每个用例的功能。调整用例模型：优化用例之间的关系和结构，前三个阶段是必需的。2.用例图的三元素参与者：使用系统的用户或其他外部系统和设备。用例：系统所提供的服务。通信关联：参与者和用例之间的关系，或用例与用例之间的关系。3.识别参
语文主题教学学习笔记之87 东哥杂谈
“语文主题教学”学习笔记之八十七（0125）今天继续学习小学语文主题教学的实践样态。板块三：教学中体现“书艺”味道。作为四大名著之一的《水浒传》，堪称我国文学宝库之经典。对从《水浒传》中摘选的单元，教师就要了解其原生态，即评书体特点。这也要求教师要了解一些常用的评书行话术语，然后在教学时适时地加入一些，让学生体味其文本中原有的特色。学生也要尽可能地通过朗读的方式，而不单是分析讲解的方式进行学习。细
Python神器！WEB自动化测试集成工具 DrissionPage 亚丁号 python 开发语言
一、前言用requests做数据采集面对要登录的网站时，要分析数据包、JS源码，构造复杂的请求，往往还要应付验证码、JS混淆、签名参数等反爬手段，门槛较高。若数据是由JS计算生成的，还须重现计算过程，体验不好，开发效率不高。使用浏览器，可以很大程度上绕过这些坑，但浏览器运行效率不高。因此，这个库设计初衷，是将它们合而为一，能够在不同须要时切换相应模式，并提供一种人性化的使用方法，提高开发和运行效率
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
今日分享：有的孩子家长常常在对于小朋友老是说谎，还特别爱推卸责任，很头痛，不知道该怎么办！雨燕Cassie
其实六岁以前都不叫撒谎，只能叫做逃避和害怕，因为他们都是没有撒谎的这个概念，家长所谓的撒谎只能说是因为做错了事情，怕受到责罚而找一个「台阶」给自己一下而已，所以家长不能给孩子一个贴上撒谎的这个标签，如果说孩子出现家长所说的撒谎，我们应该做的是：1.允许孩子将事情的原委进行一个表达，给孩子说明的机会，不提示孩子说谎，不急著批评孩子。2.不使用问句，不恐吓和严刑逼供，耐心的以故事或者以分析的形式和孩子
06选课支付模块之基于消息队列发送支付通知消息 echo 云清学成在线 java rabbitmq 消息队列支付通知学成在线
消息队列发送支付通知消息需求分析订单服务作为通用服务，在订单支付成功后需要将支付结果异步通知给其他对接的微服务，微服务收到支付结果根据订单的类型去更新自己的业务数据技术方案使用消息队列进行异步通知需要保证消息的可靠性即生产端将消息成功通知到服务端：消息发送到交换机-->由交换机发送到队列-->消费者监听队列，收到消息进行处理，参考文章02-使用Docker安装RabbitMQ-CSDN博客生产者确
对股票分析时要注意哪些主要因素？会飞的奇葩猪股票分析云掌股吧
　　众所周知，对散户投资者来说，股票技术分析是应战股市的核心武器，想学好股票的技术分析一定要知道哪些是重点学习的，其实非常简单，我们只要记住三个要素：成交量、价格趋势、振荡指标。一、成交量　　大盘的成交量状态。成交量大说明市场的获利机会较多，成交量小说明市场的获利机会较少。当沪市的成交量超过150亿时是强市市场状态，运用技术找综合买点较准；
【Scala十八】视图界定与上下文界定 bit1129 scala
Context Bound，上下文界定，是Scala为隐式参数引入的一种语法糖，使得隐式转换的编码更加简洁。隐式参数首先引入一个泛型函数max，用于取a和b的最大值 def max[T](a: T, b: T) = { if (a > b) a else b } 因为T是未知类型，只有运行时才会代入真正的类型，因此调用a >
C语言的分支——Object-C程序设计阅读有感 darkblue086 apple c 框架 cocoa
自从1972年贝尔实验室Dennis Ritchie开发了C语言，C语言已经有了很多版本和实现，从Borland到microsoft还是GNU、Apple都提供了不同时代的多种选择，我们知道C语言是基于Thompson开发的B语言的，Object-C是以SmallTalk-80为基础的。和C++不同的是，Object C并不是C的超集，因为有很多特性与C是不同的。 Object-C程序设计这本书
去除浏览器对表单值的记忆周凡杨 html 记忆 autocomplete form 浏览
&n
java的树形通讯录 g21121 java
最近用到企业通讯录，虽然以前也开发过，但是用的是jsf，拼成的树形，及其笨重和难维护。后来就想到直接生成json格式字符串，页面上也好展现。 // 首先取出每个部门的联系人 for (int i = 0; i < depList.size(); i++) { List<Contacts> list = getContactList(depList.get(i
Nginx安装部署 510888780 nginx linux
Nginx ("engine x") 是一个高性能的 HTTP 和反向代理服务器，也是一个 IMAP/POP3/SMTP 代理服务器。 Nginx 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的，第一个公开版本0.1.0发布于2004年10月4日。其将源代码以类BSD许可证的形式发布，因它的稳定性、丰富的功能集、示例配置文件和低系统资源
java servelet异步处理请求墙头上一根草ｊａｖａ异步返回ｓｅｒｖｌｅｔ
servlet3.0以后支持异步处理请求，具体是使用AsyncContext ，包装httpservletRequest以及httpservletResponse具有异步的功能， final AsyncContext ac = request.startAsync(request, response); ac.s
我的spring学习笔记8-Spring中Bean的实例化 aijuans Spring 3
在Spring中要实例化一个Bean有几种方法： 1、最常用的（普通方法） <bean id="myBean" class="www.6e6.org.MyBean" /> 使用这样方法，按Spring就会使用Bean的默认构造方法，也就是把没有参数的构造方法来建立Bean实例。（有构造方法的下个文细说） 2、还
为Mysql创建最优的索引 annan211 mysql 索引
索引对于良好的性能非常关键，尤其是当数据规模越来越大的时候，索引的对性能的影响越发重要。索引经常会被误解甚至忽略，而且经常被糟糕的设计。索引优化应该是对查询性能优化最有效的手段了，索引能够轻易将查询性能提高几个数量级，最优的索引会比较好的索引性能要好2个数量级。 1 索引的类型 (1) B-Tree 不出意外，这里提到的索引都是指 B-
日期函数百合不是茶 oracle sql 日期函数查询
ORACLE日期时间函数大全 TO_DATE格式(以时间:2007-11-02 13:45:25为例) Year: yy two digits 两位年显示值:07 yyy three digits 三位年显示值:007
线程优先级 bijian1013 java thread 多线程 java多线程
多线程运行时需要定义线程运行的先后顺序。线程优先级是用数字表示，数字越大线程优先级越高，取值在1到10，默认优先级为5。实例： package com.bijian.study; /** * 因为在代码段当中把线程B的优先级设置高于线程A,所以运行结果先执行线程B的run()方法后再执行线程A的run()方法 * 但在实际中，JAVA的优先级不准，强烈不建议用此方法来控制执
适配器模式和代理模式的区别 bijian1013 java 设计模式
一.简介适配器模式：适配器模式（英语：adapter pattern）有时候也称包装样式或者包装。将一个类的接口转接成用户所期待的。一个适配使得因接口不兼容而不能在一起工作的类工作在一起，做法是将类别自己的接口包裹在一个已存在的类中。 &nbs
【持久化框架MyBatis3三】MyBatis3 SQL映射配置文件 bit1129 Mybatis3
SQL映射配置文件一方面类似于Hibernate的映射配置文件，通过定义实体与关系表的列之间的对应关系。另一方面使用<select>,<insert>,<delete>，<update>元素定义增删改查的SQL语句，这些元素包含三方面内容 1. 要执行的SQL语句 2. SQL语句的入参，比如查询条件 3. SQL语句的返回结果
oracle大数据表复制备份个人经验 bitcarter oracle 大表备份大表数据复制
前提：数据库仓库A（就拿oracle11g为例）中有两个用户user1和user2,现在有user1中有表ldm_table1,且表ldm_table1有数据5千万以上，ldm_table1中的数据是从其他库B（数据源）中抽取过来的，前期业务理解不够或者需求有变，数据有变动需要重新从B中抽取数据到A库表ldm_table1中。
HTTP加速器varnish安装小记 ronin47 http varnish 加速
上午共享的那个varnish安装手册，个人看了下，有点不知所云，好吧~看来还是先安装玩玩！苦逼公司服务器没法连外网，不能用什么wget或yum命令直接下载安装，每每看到别人博客贴出的在线安装代码时，总有一股羡慕嫉妒“恨”冒了出来。。。好吧，既然没法上外网，那只能麻烦点通过下载源码来编译安装了！ Varnish 3.0.4下载地址： http://repo.varnish-cache.org/
java-73-输入一个字符串，输出该字符串中对称的子字符串的最大长度 bylijinnan java
public class LongestSymmtricalLength { /* * Q75题目：输入一个字符串，输出该字符串中对称的子字符串的最大长度。 * 比如输入字符串“google”，由于该字符串里最长的对称子字符串是“goog”，因此输出4。 */ public static void main(String[] args) { Str
学习编程的一点感想 Cb123456 编程感想 Gis
写点感想，总结一些，也顺便激励一些自己.现在就是复习阶段，也做做项目. 本专业是GIS专业，当初觉得本专业太水，靠这个会活不下去的，所以就报了培训班。学习的时候，进入状态很慢，而且当初进去的时候，已经上到Java高级阶段了，所以.....，呵呵，之后有点感觉了，不过，还是不好好写代码，还眼高手低的，有
[能源与安全]美国与中国 comsci 能源
现在有一个局面：地球上的石油只剩下N桶，这些油只够让中国和美国这两个国家中的一个顺利过渡到宇宙时代，但是如果这两个国家为争夺这些石油而发生战争，其结果是两个国家都无法平稳过渡到宇宙时代。。。。而且在战争中，剩下的石油也会被快速消耗在战争中，结果是两败俱伤。。。在这个大
SEMI-JOIN执行计划突然变成HASH JOIN了的原因分析 cwqcwqmax9 oracle
甲说： A B两个表总数据量都很大，在百万以上。 idx1 idx2字段表示是索引字段 A B 两表上都有 col1字段表示普通字段 select xxx from A where A.idx1 between mmm and nnn and exists (select 1 from B where B.idx2 =
SpringMVC-ajax返回值乱码解决方案 dashuaifu Ajax springMVC response 中文乱码
SpringMVC-ajax返回值乱码解决方案一：（自己总结，测试过可行） ajax返回如果含有中文汉字，则使用：（如下例：） @RequestMapping(value="/xxx.do") public @ResponseBody void getPunishReasonB
Linux系统中查看日志的常用命令 dcj3sjt126com OS
因为在日常的工作中，出问题的时候查看日志是每个管理员的习惯，作为初学者，为了以后的需要，我今天将下面这些查看命令共享给各位 cat tail -f 日志文件说明 /var/log/message 系统启动后的信息和错误日志，是Red Hat Linux中最常用的日志之一 /var/log/secure 与安全相关的日志信息 /var/log/maillog 与邮件相关的日志信
[应用结构]应用 dcj3sjt126com PHP yii2
应用主体应用主体是管理 Yii 应用系统整体结构和生命周期的对象。每个Yii应用系统只能包含一个应用主体，应用主体在入口脚本中创建并能通过表达式 \Yii::$app 全局范围内访问。补充: 当我们说"一个应用"，它可能是一个应用主体对象，也可能是一个应用系统，是根据上下文来决定[译：中文为避免歧义，Application翻译为应
assertThat用法 eksliang JUnit assertThat
junit4.0 assertThat用法一般匹配符1、assertThat( testedNumber, allOf( greaterThan(8), lessThan(16) ) ); 注释： allOf匹配符表明如果接下来的所有条件必须都成立测试才通过，相当于“与”（&&） 2、assertThat( testedNumber, anyOf( g
android点滴2 gundumw100 应用服务器 android 网络应用 OS HTC
如何让Drawable绕着中心旋转？ Animation a = new RotateAnimation(0.0f, 360.0f, Animation.RELATIVE_TO_SELF, 0.5f, Animation.RELATIVE_TO_SELF,0.5f); a.setRepeatCount(-1); a.setDuration(1000); 如何控制Andro
超简洁的CSS下拉菜单 ini html Web 工作 html5 css
效果体验：http://hovertree.com/texiao/css/3.htmHTML文件： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>简洁的HTML+CSS下拉菜单-HoverTree</title>
kafka consumer防止数据丢失 kane_xie kafka offset commit
kafka最初是被LinkedIn设计用来处理log的分布式消息系统，因此它的着眼点不在数据的安全性（log偶尔丢几条无所谓），换句话说kafka并不能完全保证数据不丢失。尽管kafka官网声称能够保证at-least-once，但如果consumer进程数小于partition_num，这个结论不一定成立。考虑这样一个case，partiton_num=2
@Repository、@Service、@Controller 和 @Component mhtbbx DAO spring bean prototype
@Repository、@Service、@Controller 和 @Component 将类标识为Bean Spring 自 2.0 版本开始，陆续引入了一些注解用于简化 Spring 的开发。@Repository注解便属于最先引入的一批，它用于将数据访问层 (DAO 层 ) 的类标识为 Spring Bean。具体只需将该注解标注在 DAO类上即可。同时，为了让 Spring 能够扫描类
java 多线程高并发读写控制误区 qifeifei java thread
先看一下下面的错误代码，对写加了synchronized控制，保证了写的安全，但是问题在哪里呢？ public class testTh7 { private String data; public String read(){ System.out.println(Thread.currentThread().getName() + "read data "
mongodb replica set(副本集)设置步骤 tcrct java mongodb
网上已经有一大堆的设置步骤的了，根据我遇到的问题，整理一下，如下：首先先去下载一个mongodb最新版，目前最新版应该是2.6 cd /usr/local/bin wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.6.0.tgz tar -zxvf mongodb-linux-x86_64-2.6.0.t
rust学习笔记 wudixiaotie 学习笔记
1.rust里绑定变量是let，默认绑定了的变量是不可更改的，所以如果想让变量可变就要加上mut。 let x = 1; let mut y = 2; 2.match 相当于erlang中的case，但是case的每一项后都是分号，但是rust的match却是逗号。 3.match 的每一项最后都要加逗号，但是最后一项不加也不会报错，所有结尾加逗号的用法都是类似。 4.每个语句结尾都要加分