Harm灬小海

使用MapReduce实现两个文件的Join操作

文章目录

数据结构

customer
order

MapJoin

描述
主函数入口
构造类代码
执行结果
MapJoin采坑记录

ReduceJoin

描述
主函数入口
构造类代码
结果
ReduceJoin采坑记录

数据结构

customer

USER_ID	NAME	PHONE
1	大树	13111111111
2	小十七	13122222222
3	小海	13133333333
4	jeff	13100000000
5	zz	13155555555
6	蝶舞	13166666666
7	阿伟	13188888888
8	大国	13199999999

order

USER_ID	NAME	PRICE	TIME
1	《精准表达》	50	2019-1-1
4	《羊皮卷》	80	2019-1-1
3	《厚黑学》	70	2019-1-6
2	《狼道》	65	2019-1-2
6	《人性的弱点》	66	2019-1-9
1	《为人三会》	12	2019-1-6
3	《口才三绝》	35	2019-1-3
7	《修心三不》	41	2019-1-1
4	《法则》	48	2019-1-5
5	《社交》	56	2019-1-4
3	《职场》	54	2019-1-3
5	《交流》	32	2019-1-2
6	《谋略》	12	2019-2-3
3	《所谓情商高就是会说话》	96	2019-3-6
2	《女人的资本》	54	2019-3-5

MapJoin

描述

场景：MapJoin 适用于有一份数据较小的连接情况。
做法：直接将较小的数据加载到内存中，按照连接的关键字建立索引，大份数据作为MapTask的输入数据对 map()方法的每次输入都去内存当中直接去匹配连接。然后把连接结果按 key 输出，这种方法要使用 hadoop中的 DistributedCache 把小份数据分布到各个计算节点，每个 maptask 执行任务的节点都需要加载该数据到内存，并且按连接关键字建立索引。

主函数入口

package com.ruozedata.bigdata.myself.MapJoin;


import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;

import javax.xml.transform.OutputKeys;
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.URI;
import java.util.HashMap;
import java.util.Map;

public class JoinMapperDemo extends Configured implements Tool {
    // 定义缓存文件的读取路径
//    private static String cacheFile = "/D:/ruozedata_workspace/g6_java/input/customer";

    //    private static String cacheFile = "D:\\ruozedata_workspace\\g6_java\\input\\customer";
    private static String cacheFile = "hdfs://hadoop614:9000/g6/hadoop/MapReduceJoin/input/customer";
    // 定义map处理类模板
    public static class map extends Mapper {
        private Text OutputValue = new Text();
        Map map = null;

        @Override
        public void setup(Context context) throws IOException, InterruptedException {
            // 读取缓存文件
            FileSystem fileSystem = FileSystem.get( URI.create( cacheFile ), context.getConfiguration() );
            FSDataInputStream fsDataInputStream = fileSystem.open( new Path( cacheFile ) );
            BufferedReader bufferedReader = new BufferedReader( new InputStreamReader( fsDataInputStream ) );
            // 创建一个map集合来保存读取文件的数据
            map = new HashMap();
            String line = null;
            while ((line = bufferedReader.readLine()) != null) {
                String[] split = line.split( "," );
                if (split.length != 3) {
                    continue;
                }
                Customer customer = new Customer( Integer.parseInt( split[0] ), split[1], split[2] );
                map.put( customer.getCid(), customer );
            }
            // 关闭 I/O 流
            bufferedReader.close();
        }

        @Override
        protected void map(LongWritable key, Text value, Context context)
                throws IOException, InterruptedException {
            // 将 Customer表 和order表的数据进行合并
            String string = value.toString();
            String[] Orders = string.split( "," );
            int joinID = Integer.valueOf( Orders[0] );
            Customer customerid = map.get( joinID );
            StringBuffer stringBuffer = new StringBuffer();
            stringBuffer.append( Orders[0] ).append( "," )
                    .append( customerid.getCname() ).append( "," )
                    .append( customerid.getCphone() ).append( "," )
                    .append( Orders[1] ).append( "," )
                    .append( Orders[2] ).append( "," )
                    .append( Orders[3] ).append( "," );
            OutputValue.set( stringBuffer.toString() );
            context.write(NullWritable.get(), OutputValue );

        }
    }

    //无reduce程序
    //配置Driver模块
    @Override
    public int run(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        //获取配置配置文件对象  
        Configuration configuration = new Configuration();
        configuration.set( "fs.defaultFS","hdfs://hadoop614:9000" );
        //创建给mapreduce处理的任务
        Job job = Job.getInstance( configuration, this.getClass().getSimpleName() );
        //获取将要读取到内存的文件的路径,并加载进内存
        job.addCacheFile( URI.create( cacheFile ) );
        //创建输入路径  
        Path source_path = new Path( args[0] );
        //创建输出路径  
        Path des_path = new Path( args[1] );
        //创建操作hdfs的FileSystem对象  
        FileSystem fs = FileSystem.get( configuration );
        if (fs.exists( des_path )) {
            fs.delete( des_path, true );
        }
        FileInputFormat.addInputPath( job, source_path );
        FileOutputFormat.setOutputPath( job, des_path );
        //设置让任务打包jar运行  
        job.setJarByClass( JoinMapperDemo.class );
        //设置map  
        job.setMapperClass( map.class );
        job.setMapOutputKeyClass( LongWritable.class );
        job.setMapOutputValueClass( Text.class );
        //设置reduceTask的任务数为0，即没有reduce阶段和shuffle阶段  
        job.setNumReduceTasks( 0 );
        //提交job到yarn组件上  
        boolean isSuccess = job.waitForCompletion( true );
        return isSuccess ? 0 : 1;
    }


    public static void main(String[] args) throws Exception {
        if (args.length != 2) {
            System.out.println( "Please input 2 params: input output" );
            System.exit( 0 );
        }
        String input = args[0];
        String output = args[1];
        // 设置执行job的用户
        System.setProperty( "HADOOP_USER_NAME", "hadoop" );
        System.setProperty( "hadoop.home.dir", "D:\\software\\hadoopapp\\hadoop-2.6.0-cdh5.7.0" );

        Configuration configuration = new Configuration();
        int status = 0;
        try {
            status = ToolRunner.run( configuration, new JoinMapperDemo(), args );
        } catch (Exception e) {
            e.printStackTrace();
        }
        // 退出
        System.exit( status );

    }

}

构造类代码

package com.ruozedata.bigdata.myself.MapJoin;

import org.apache.hadoop.io.Writable;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

public class Customer implements Writable {
    private int cid;
    private String cname;
    private String cphone;
    private DataOutput out;

    public int getCid() {
        return cid;
    }

    public void setCid(int cid) {
        this.cid = cid;
    }

    public String getCname() {
        return cname;
    }

    public void setCname(String cname) {
        this.cname = cname;
    }

    public String getCphone() {
        return cphone;
    }

    public void setCphone(String cphone) {
        this.cphone = cphone;
    }


    public Customer(int cid, String cname, String cphone) {
        super();
        this.cid = cid;
        this.cname = cname;
        this.cphone = cphone;
    }

    @Override
    public void write(DataOutput out) throws IOException {
        out.writeInt( this.cid );
        out.writeUTF( this.cname );
        out.writeUTF( this.cphone );
    }

    @Override
    public void readFields(DataInput in) throws IOException {
        this.cid = in.readInt();
        this.cname = in.readUTF();
        this.cphone = in.readUTF();
    }

    @Override
    public String toString() {
        return String.format( "Customer [cid=%s, cname=%s, cphone=%s]", cid, cname, cphone );
    }
}

执行结果

MapJoin采坑记录

MapJoin采坑记录入口

ReduceJoin

描述

在map阶段, 把关键字作为key输出，并在value中标记出数据是来自data1还是data2。因为在shuffle阶段已经自然按key分组，reduce阶段，判断每一个value是来自data1还是data2,在内部分成2组，做集合的乘积。
这种方法有2个问题：
1. map阶段没有对数据瘦身，shuffle的网络传输和排序性能很低。
2. reduce端对2个集合做乘积计算，很耗内存，容易导致OOM。.

主函数入口

package com.ruozedata.bigdata.myself.Reducejoin;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;
import org.apache.hadoop.yarn.webapp.hamlet.Hamlet;

import java.io.IOException;
import java.util.ArrayList;
import java.util.Arrays;
import java.util.List;


public class JoinReduceDemo extends Configured implements Tool {

    //定义map处理类模板
    public static class mapClass
            extends Mapper {
        private IntWritable outputkey = new IntWritable();
        private DataJoin dataJoin = new DataJoin();

        protected void map(LongWritable key, Text values, Context context)
                throws IOException, InterruptedException {
            // 获取字符串
            String str = values.toString();
            System.out.println( str );

            // 对字符串进行分割
            String[] value = str.split( "," );
            System.out.println( Arrays.toString( value ) );

            // 过滤非法数据
            int len = value.length;
            if (len != 3 && len != 4) {
                return;
            }
            // 取出 ID
            String cid = value[0];
            // 判断是customer表还是order表
            if (len == 3) {
                // 表示是customer表
                String cname = value[1];
                String cphone = value[2];
                dataJoin.set( "Customer", cid + "," + cname + "," + cphone );
            }
            if (len == 4) {
                // 表示是order表
                String oname = value[1];
                String oprice = value[2];
                String otime = value[3];
                dataJoin.set( "Order", oname + "," + oprice + "," + otime );
            }
            outputkey.set( Integer.valueOf( cid ) );
            context.write( outputkey, dataJoin );
        }
    }

    // 定义 reduce 处理类模板
    public static class reduceClass extends Reducer {
        private Text outputvalue = new Text();

        @Override
        protected void reduce(IntWritable key, Iterable values,
                              Context context) throws IOException, InterruptedException {
            // 定义一个字符串保存客户信息
            String customerInfo = null;
            // 定义一个list，保存客户订单信息
            List list = new ArrayList();

            for (DataJoin dataJoin : values) {
                if (dataJoin.getTag().equals( "Customer" )) {
                    customerInfo = dataJoin.getData();
                    System.out.println( customerInfo );

                }
                if (dataJoin.getTag().equals( "Order" )) {
                    list.add( dataJoin.getData() );
                }
            }
            // 进行输出
            for (String s : list) {
                outputvalue.set( customerInfo + "," + s );
                context.write( NullWritable.get(), outputvalue );
            }
        }
    }

    @Override
    public int run(String[] args) throws Exception {
        // 获取配置文件对象
        Configuration configuration = new Configuration();
        System.out.println( configuration );
        // 创建给 MapReduce 处理的任务
        Job job = null;
        try {
            job = Job.getInstance( configuration, this.getClass().getSimpleName() );
        } catch (IOException e) {
            e.printStackTrace();
        }
        try {
            // 创建输入路径
            Path source_path = new Path( args[0] );
            if (job != null) {
                FileInputFormat.addInputPath( job, source_path );
            }
            // 创建输出路径
            Path des_path = new Path( args[1] );
            if (job != null) {
                FileOutputFormat.setOutputPath( job, des_path );
            }

        } catch (IllegalArgumentException | IOException e) {
            e.printStackTrace();
        }
        // 设置 让任务打包jar运行
        if (job != null) {
            job.setJarByClass( JoinReduceDemo.class );
        }
        // 设置map
        assert job != null;
        job.setMapperClass( mapClass.class );
        job.setMapOutputKeyClass( IntWritable.class );
        job.setMapOutputValueClass( DataJoin.class );

        // 设置 Reduce
        job.setReducerClass( reduceClass.class );
        job.setOutputKeyClass( NullWritable.class );
        job.setOutputValueClass( Text.class );

        // 移交 job 到yarn
        boolean isSuccess = false;
        try {
            isSuccess = job.waitForCompletion( true );
        } catch (ClassNotFoundException | IOException | InterruptedException e) {
            e.printStackTrace();
        }
        return isSuccess ? 0 : 1;
    }

    public static void main(String[] args) throws Exception {
        if (args.length != 2) {
            System.err.println( "Please input 2 params: input output" );
            System.exit( 0 );
        }
        String input = args[0];
        String output = args[1];

        // 设置执行job的用户
        System.setProperty( "HADOOP_USER_NAME", "hadoop" );
        System.setProperty( "hadoop.home.dir", "D:\\software\\hadoopapp\\hadoop-2.6.0-cdh5.7.0" );

        Configuration configuration = new Configuration();
        FileSystem fileSystem = FileSystem.get( configuration );
        Path outputPath = new Path( output );
        System.out.println( outputPath );
        if (fileSystem.exists( outputPath )){
            fileSystem.delete( outputPath,true );
        }

        // 运行job
        int status = 0;
        try {
            status = ToolRunner.run( configuration, new JoinReduceDemo(), args );
        } catch (Exception e) {
            e.printStackTrace();
        }
        // 退出
        System.exit( status );
    }
}

构造类代码

package com.ruozedata.bigdata.myself.Reducejoin;

import org.apache.hadoop.io.Writable;
import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

public class DataJoin implements Writable {
    private String tag;
    private String data;

    public String getTag() {
        return tag;
    }

    public String getData() {
        return data;
    }

    public void set(String tag ,String data) {
        this.tag = tag;
        this.data = data;
    }

    @Override
    public String toString() {
        return tag + data;
    }

    public void write(DataOutput output) throws IOException {
        output.writeUTF( this.tag );
        output.writeUTF( this.data);
    }

    public void readFields(DataInput input) throws IOException {
        this.tag = input.readUTF();
        this.data = input.readUTF();
    }
}

结果

ReduceJoin采坑记录

ReduceJoin采坑记录入口

最后感谢尼美美博客的支持
Map Join和Reduce Join的区别以及代码实现

【PHP开发900个实用技巧】405.API限流技术：Redis实现令牌桶算法的高级用法精通代码大仙 PHP开发900个实用技巧 php redis 算法程序员创富
百万并发下的生存法则：用Redis+Lua构建坚不可摧的API流量防线！本文将揭示令牌桶算法在PHP高并发场景的核心实现技巧，包括Lua原子操作、动态策略配置与深度避坑指南，让你的API从此从容应对流量风暴。API限流技术：Redis实现令牌桶高级用法01.令牌桶原理解析02.Redis为何是最强拍档03.PHP实战四步曲3.1Lua脚本原子操作3.2对象封装技巧3.3动态参数配置3.4平滑突发流
WebGIS开发系列教程（5）：Openlayers高级功能 WebGIS开发 GIS开发 javascript 开发语言 webgis openlayers
本系列教程为webgis二维开发入门openlayers零基础小白学习教程，本篇为第五篇。完整版可以查看文末链接下载。1.地图标注功能地图标注是将空间位置信息点与地图关联，通过图标、窗口等形式把相关的信息展现到地图上。地图标注也是WebGIS中比较重要的功能之一，在大众应用中较为常见。地图标注的基本原理：获取标注点的空间位置(X、Y逻辑坐标)，在该位置上叠加显示图标(或包含信息的小图片)，必要时以
Effective C 中文版资源下载史剑咪Nessa
EffectiveC中文版资源下载去发现同类优质开源项目:https://gitcode.com/欢迎来到本仓库！这里提供了一个非常实用的资源——EffectiveC中文版.pdf。这本书深入浅出地介绍了C语言编程中的各种技巧和最佳实践，无论你是C语言的新手还是有一定基础的程序员，都能从中获得宝贵的知识。本书详细讲解了C语言的各个方面，包括基础语法、高级特性、内存管理、效率优化等。通过阅读本书，你
微信SDK 最全实用指南（含代码示例）栗子味清清微信 API ai AI作画微信小程序
现在的App开发，早就不是关起门来自己造轮子了。想要用户登录顺畅、分享转发方便、支付一步到位，基本都离不开微信生态的支持。这时候，“微信SDK”就显得格外重要了。它不是多高级的黑科技，但却是打通微信用户体系的关键工具，能帮你省下大量开发时间。尤其是对中小开发者来说，学会如何合理使用微信SDK，往往意味着产品功能体验上能跟大厂看齐。别把它想得太复杂，其实微信SDK的接入流程已经非常成熟了，搞懂基本逻
操作系统必备定义2.2 勤勉螺丝钉学习
2.2CPU调度CPU调度：是对CPU进行分配，即从就绪队列中按照一定的算法（公平高效的原则）选择一个进程，并将CPU分配给它运行，以实现进程并发的执行。CPU调度是多道程序操作系统的基础，是操作系统设计的核心问题。调度的层次：①高级调度（作业调度了）：按照某种规则，从外存上处于后备队列中的作业中挑选一个（或多个），给他（们）分配内存、I/O设备等必要的资源，并建立相应的进程，使他们获得竞争CPU
python多线程：生产者与消费者，高级锁定Condition、queue队列使用案例与注意事项网小鱼的学习笔记 Python python java 大数据
高级锁定这是python中的另一种中锁定，就像是它的名字一样是可以有条件的condition，首先程序使用acquire进入锁定状态，如果需要符合一定的条件才处理数据，此时可以调用wait，让自己进入睡眠状态，程序设计时候需要用notify通知其他线程，然后放弃锁定release此时其他再等待的线程因为受到通知notify，这时候被激活了，就开始运作。生产者与消费者的设计程序用producer方法
python多线程高级锁知识：Semaphore信号量、Barrier栅栏在线程中的使用、高级event事件网小鱼的学习笔记 Python python 开发语言
Semaphore信号量Semaphore信号量可以翻译为信号量，这个信号量代表了最多允许线程访问的数量，可以使用Semaphore(n)设定，n是信号数量，这是一个更高级的锁机制，Semaphore管理一个计数器，每次使用acquire计数器将会减一，表示可以允许线程访问的数量少了一个，使用release计数器加1，表示可允许线程访问的数量多了一个，只有占用信号量的线程数量超过信号量时候才会阻塞
Netty和gRPC区别不曾高瞻远瞩 rpc
1.框架类型Netty:Netty是一个异步事件驱动的网络应用框架，用于开发高性能的网络服务器和客户端应用程序。它是一个低级别的网络框架，主要用于处理TCP、UDP、HTTP等协议。Netty提供了灵活的API来构建自定义的网络协议和传输层逻辑。gRPC:gRPC是一个基于HTTP/2和ProtocolBuffers的高性能RPC（远程过程调用）框架。它是一个高级别的通信框架，专注于提供简单易用且
成为高级Python开发人员的完整学习路线与核心知识体系
引言Python已成为全球最受欢迎的编程语言之一，其简洁的语法和强大的生态系统使其在数据科学、Web开发、自动化、人工智能等领域占据重要地位。然而，从初级Python程序员到真正的高级开发人员，需要掌握一系列深入的知识点和实践经验。本文将详细介绍成为高级Python开发人员必备的核心知识体系，并提供系统化的学习资源，帮助你规划专业发展路径。第一部分：Python语言基础进阶1.Python语言特性
2024年Python最全人脸检测实战高级：使用 OpenCV、Python 和 dlib 完成眨眼检测 2401_84691757 程序员 python opencv 开发语言
然而，一旦人眨眼（右上），眼睛的纵横比就会急剧下降，接近于零。下图绘制了视频剪辑的眼睛纵横比随时间变化的图表。正如我们所看到的，眼睛纵横比是恒定的，然后迅速下降到接近零，然后再次增加，表明发生了一次眨眼。在下一节中，我们将学习如何使用面部标志、OpenCV、Python和dlib实现眨眼检测的眼睛纵横比。使用面部标志和OpenCV检测眨眼==============================
UE4官方文档阅读笔记——蓝图可视化编程毛甘木 UE4 ue4
UE4蓝图官方文档阅读笔记蓝图中的结构体变量拆分结构体Break组成结构体Make修改结构体中个别成员SetMemberinStruct自定义结构体内容浏览器-创建高级资源-蓝图-结构体蓝图数组Add添加元素到末尾ClearContainsFilterArrayFindGetInsertLastLengthRemoveRemoveIndexResizeSetArrayElem<
教育技术学读计算机论文的提示词东方-教育技术博主学术学习相关 AI
角色：你是一位经验丰富的计算机专业教授，擅长用通俗易懂的语言向初学者解释复杂概念。我现在正在学习阅读计算机科学领域的算法论文，但我的基础比较薄弱（了解编程基础如变量、循环、函数，了解一点数据结构和算法概念如数组、链表、排序，但对高级术语和数学证明不熟悉）。同时又是一个教育技术学教授。任务：请帮我解释以下论文内容中我不理解的部分。如果遇到初学者可能不懂的地方，我需要你用最清晰、最简洁、最易懂的方式解
GUI框架：谈谈框架 baozi3026 框架 command mfc button class string
转帖请注明出处http://www.cppblog.com/cexer/archive/2009/11/15/100988.html1开篇废话我喜欢用C++写GUI框架，因为那种成就感是实实在在地能看到的。从毕业到现在写了好多个了，都是实验性质的。什么拳脚飞刀毒暗器，激光核能反物质，不论是旁门左道的阴暗伎俩，还是名门正派的高明手段，只要是C++里有的技术都试过了。这当中接触过很多底层或是高级的技术
探秘Swift高级开发：深度解析与实践指南强妲佳Darlene
探秘Swift高级开发：深度解析与实践指南Advanced-SwiftNotesofAdvancedSwift.《swift进阶》学习笔记swift5.3项目地址:https://gitcode.com/gh_mirrors/ad/Advanced-Swift在软件开发的世界里，掌握一门编程语言的精髓，意味着你可以创造出无限可能的应用。而Swift，这款由Apple推出的高性能编程语言，以其易学易
Python每日一库：setuptools - 现代Python包分发工具 Aerkui Python库学习 python 开发语言
1.库简介setuptools是Python生态系统中最重要的包分发工具之一，它是distutils的增强版，提供了更多功能和更好的用户体验。setuptools不仅支持基本的包分发功能，还提供了依赖管理、入口点、开发模式等高级特性，是现代Python包开发的标准工具。2.安装方法pipinstallsetuptools3.核心功能详解3.1创建setup.py文件fromsetuptoolsim
关于Makefile LZA185 linux 编辑器
目录引言：为什么需要Makefile？一、Makefile基本概念1.1Make与Makefile的关系1.2三个关键概念二、Makefile基础语法2.1基本规则结构2.2变量定义与使用2.3常用特殊变量三、Makefile高级特性3.1模式规则（PatternRules）3.2函数的使用3.3条件判断与递归调用四、实战案例：构建一个简单项目完整Makefile实现五、Makefile最佳实践5
《UNIX环境高级编程》笔记第三章——文件IO（2) day_day_hard_up Linux系统编程笔记 linux c语言 unix
1.简介本文是上一篇笔记文件IO（1）的续写，接下来继续补充一些文件IO特性以及介绍剩下的一些函数。文件IO的读写效率与调用时传入的buf大小有关，也与打开的文件描述标志有关（O_SYNC和O_DSYNC），影响效率IO效率的相关函数有sync、fsync和fdatasync。理解dup、dup2和fcntl函数的预前知识:（1）每个进在进程表中都有一个记录项，记录项包含一张打开的文件描述符表，每
Linux软件包管理器命令 lianghu666 Linux命令 linux 服务器 ubuntu
以下是Ubuntu24.04（Debian系）和RedHatEnterpriseLinux9（RedHat系）的软件包管理器命令详解对比表，涵盖核心操作、依赖管理、仓库配置及高级功能：软件包管理器命令对比表（Ubuntu24.04vs.RHEL9）功能Ubuntu24.04(APT/dpkg)RHEL9(DNF/RPM)说明与注意事项核心操作更新软件源sudoaptupdatesudodnfmak
从0到1构建智能招聘数据引擎：基于 Python 的 BOSS直聘信息采集实战与反爬破解指南程序员威哥 python 开发语言
前言在大数据浪潮席卷的时代，招聘平台蕴藏着海量的岗位信息，揭示着行业走向、人才趋势、薪资结构等核心价值。BOSS直聘作为国内极具代表性的直招平台，其数据对职业分析、市场监测甚至智能推荐系统的构建都有着重要意义。本文将手把手带你打造一个高质量、抗封锁的Python爬虫系统，精准采集BOSS直聘网的岗位数据，并全面解析其中涉及的反爬机制识别、加密参数处理、数据提取与存储等高级技巧，助你在Web数据采集
JAI Core 1.1.3：Java 高级图像处理的利器顾润治
JAICore1.1.3：Java高级图像处理的利器javax.mediajai_core1.1.3如何下载项目地址:https://gitcode.com/Resource-Bundle-Collection/bda8b项目介绍JAICore1.1.3是JavaAdvancedImaging(JAI)库的核心组件，专为处理多媒体数据，特别是图像处理操作而设计。由SunMicrosystems（现
RabbitMQ消息发送与接收 VksgShapes rabbitmq ruby 分布式
RabbitMQ是一个功能强大的开源消息代理，用于在应用程序之间传递消息。它实现了AMQP（高级消息队列协议），提供了可靠的消息传递机制，支持多种消息模式和灵活的消息路由。在本篇文章中，我们将详细介绍如何在应用程序中使用RabbitMQ进行消息的发送和接收。我们将使用Python作为示例编程语言，并使用Pika作为RabbitMQ的Python客户端。安装依赖库首先，我们需要安装Pika库。可以使
python实战:在Linux服务器上使用LibreOffice命令行批量接受Word文档的所有修订 Ven% 服务器 python linux LiberOffice 开源办公软件 linux办公软件
在Linux服务器上使用LibreOffice命令行批量接受Word文档的所有修订一、背景与需求1.1常见场景1.2为什么选择LibreOffice二、环境准备2.1安装LibreOffice2.2验证安装三、Python实现代码四、代码解析4.1主要功能4.2错误处理4.3使用灵活性五、高级应用5.1批量处理多个文件5.2与其他工具集成六、注意事项七、总结在实际工作中，我们经常需要处理包含修订标
一篇文稿，两个AI绝技：从字体识别到视频修复，解锁Adobe高级工作流 top_designer 人工智能音视频 adobe photoshop illustrator AIGC 视频剪辑
设计师的十年，是一场漫长的自我进化。从最初对像素的锱铢必较，到如今与AI协同创作，工具的革新始终在重塑我们的思考边界。我很庆幸，在英国ParvisSchoolofEconomicsandMusic的Adobe教育订阅支持下，我能一直站在技术浪潮的前沿。今天，不谈空泛的理论，只想和大家分享两个我在实战中，真正依赖AI化解危机的具体案例。在创意的世界里，我们不仅是美的创造者，更是问题的解决者。而最棘手
Python的LibreOffice命令行详解：自动化文档处理的终极指南
在数字化转型的浪潮中，文档处理自动化已成为提升效率的关键。LibreOffice作为开源办公软件的佼佼者，其命令行功能结合Python脚本，可实现从格式转换到复杂文档操作的全面自动化。本文将深入解析如何通过Python调用LibreOffice命令行工具，覆盖从基础操作到高级场景的完整流程。一、环境搭建：三步构建自动化基石1.安装LibreOffice与PythonLinux系统：sudoapti
【blender】使用bpy对一个obj的不同mesh进行不同的材质贴图（涉及对bmesh的操作）九河_ blender 材质贴图 bpy
BMesh简介BMesh是Blender中用于表示和操作网格数据的底层数据结构系统，它是传统网格数据结构的高级替代品。主要特点灵活拓扑支持：支持n-gons（任意边数的多边形），而不仅仅是三角形和四边形允许边和顶点不属于任何面高效操作：设计用于支持复杂的网格编辑操作提供丰富的API用于网格操作数据结构：基于半边数据结构(Half-Edge)包含三种基本元素：顶点(verts)、边(edges)和面
lwIP协议栈深入应用与优化全攻略 lanjieying
本文还有配套的精品资源，点击获取简介：lwIP是一套用于嵌入式系统的轻量级TCP/IP协议栈，适用于资源受限的微控制器环境。本文档集锦提供了从基础到高级应用的全面介绍，包括lwIP的架构、协议实现、用户指南、多线程实现、网络编程技巧、实战教程以及性能优化策略。这些文档旨在帮助开发者深入理解lwIP，并有效地应用到网络开发中。1.lwIP架构与基础在嵌入式系统和网络编程中，lwIP（lightwei
46、C++中的网络编程甲方克星947 C++网络编程套接字编程多线程
C++中的网络编程1.网络编程基础网络编程是现代软件开发中不可或缺的一部分，尤其是在分布式系统、互联网应用和服务端开发中。C++作为一种高效且灵活的编程语言，非常适合进行网络编程。本章将详细介绍如何使用C++进行网络编程，涵盖从基础概念到高级技术的各个方面。1.1网络编程的基本概念在开始编写网络程序之前，了解一些基本概念是非常重要的。以下是网络编程中的一些关键术语：TCP/IP协议栈：这是网络通信
嵌入式C语言常用的代码模块库 kaikaile1995 网络
在嵌入式系统开发中，C语言因其高效性、可移植性和对硬件的直接控制能力而广泛应用。随着嵌入式技术的不断发展，为了提高开发效率和软件质量，开发者们积累并共享了大量的代码模块库。这些库不仅涵盖了从底层硬件访问到高级应用开发的各个方面，还提供了丰富的功能组件和工具，极大地简化了嵌入式软件的开发过程。本文将介绍一些嵌入式C语言常用的代码模块库，并探讨它们在嵌入式开发中的应用。1.底层硬件访问库1.1GPIO
如何在pytorch中使用tqdm：优雅实现训练进度监控 Ven% 简单入门pytorch pytorch 人工智能 python
文章目录为什么需要进度条？tqdm简介基础用法示例深度学习中的实战应用1.数据加载进度监控2.训练循环增强版3.验证阶段集成高级技巧与最佳实践1.自定义进度条样式2.嵌套进度条（多任务）3.分布式训练支持4.与日志系统集成性能优化建议完整训练流程示例常见问题解决方案总结掌握训练进度监控是深度学习工程师的基本功。本文将带你从零开始，深入探索如何用tqdm为深度学习训练添加专业级进度条。为什么需要进度
用户实体行为分析与数据异常访问联防方案 KKKlucifer 时序数据库
一、用户实体行为分析（UEBA）技术概述1.1定义与概念用户实体行为分析（UEBA）是一种高级网络安全方法，它利用机器学习和行为分析技术，对用户、设备、应用程序等实体在网络环境中的行为进行深入分析，以检测出异常行为和潜在的安全威胁。UEBA的核心在于通过建立行为基线，识别出偏离正常行为模式的活动，从而发现那些传统安全工具难以检测到的高级、隐藏和内部威胁。1.2工作原理UEBA系统通过收集来自多个数
java的(PO,VO,TO,BO,DAO,POJO) Cb123456 VO TO BO POJO DAO
转: http://www.cnblogs.com/yxnchinahlj/archive/2012/02/24/2366110.html ------------------------------------------------------------------- O/R Mapping 是 Object Relational Mapping（对象关系映
spring ioc原理（看完后大家可以自己写一个spring） aijuans spring
最近，买了本Spring入门书：spring In Action 。大致浏览了下感觉还不错。就是入门了点。Manning的书还是不错的，我虽然不像哪些只看Manning书的人那样专注于Manning,但怀着崇敬的心情和激情通览了一遍。又一次接受了IOC 、DI、AOP等Spring核心概念。先就IOC和DI谈一点我的看法。IO
MyEclipse 2014中Customize Persperctive设置无效的解决方法 Kai_Ge MyEclipse2014
高高兴兴下载个MyEclipse2014，发现工具条上多了个手机开发的按钮，心生不爽就想弄掉他！结果发现Customize Persperctive失效！！有说更新下就好了，可是国内Myeclipse访问不了，何谈更新... so~这里提供了更新后的一下jar包，给大家使用！ 1、将9个jar复制到myeclipse安装目录\plugins中 2、删除和这9个jar同包名但是版本号较
SpringMvc上传 120153216 springMVC
@RequestMapping(value = WebUrlConstant.UPLOADFILE) @ResponseBody public Map<String, Object> uploadFile(HttpServletRequest request,HttpServletResponse httpresponse) { try { //
Javascript----HTML DOM 事件何必如此 JavaScript html Web
HTML DOM 事件允许Javascript在HTML文档元素中注册不同事件处理程序。事件通常与函数结合使用，函数不会在事件发生前被执行！注：DOM：指明使用的 DOM 属性级别。 1.鼠标事件属性
动态绑定和删除onclick事件 357029540 JavaScript jquery
因为对JQUERY和JS的动态绑定事件的不熟悉，今天花了好久的时间才把动态绑定和删除onclick事件搞定!现在分享下我的过程。在我的查询页面，我将我的onclick事件绑定到了tr标签上同时传入当前行(this值)参数，这样可以在点击行上的任意地方时可以选中checkbox，但是在我的某一列上也有一个onclick事件是用于下载附件的，当
HttpClient|HttpClient请求详解 7454103 apache 应用服务器网络协议网络应用 Security
HttpClient 是 Apache Jakarta Common 下的子项目，可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。本文首先介绍 HTTPClient，然后根据作者实际工作经验给出了一些常见问题的解决方法。HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了，越来越多的 Java 应用程序需
递归逐层统计树形结构数据 darkranger 数据结构
将集合递归获取树形结构: /** * * 递归获取数据 * @param alist:所有分类 * @param subjname:对应统计的项目名称 * @param pk:对应项目主键 * @param reportList: 最后统计的结果集 * @param count:项目级别 */ public void getReportVO(Arr
访问WEB-INF下使用frameset标签页面出错的原因 aijuans struts2
<frameset rows="61,*,24" cols="*" framespacing="0" frameborder="no" border="0">
MAVEN常用命令 avords
Maven库： http://repo2.maven.org/maven2/ Maven依赖查询： http://mvnrepository.com/ Maven常用命令： 1. 创建Maven的普通java项目： mvn archetype:create -DgroupId=packageName
PHP如果自带一个小型的web服务器就好了 houxinyou apache 应用服务器 Web PHP 脚本
最近单位用PHP做网站，感觉PHP挺好的，不过有一些地方不太习惯，比如，环境搭建。PHP本身就是一个网站后台脚本，但用PHP做程序时还要下载apache，配置起来也不太很方便，虽然有好多配置好的apache+php+mysq的环境，但用起来总是心里不太舒服，因为我要的只是一个开发环境，如果是真实的运行环境，下个apahe也无所谓，但只是一个开发环境，总有一种杀鸡用牛刀的感觉。如果php自己的程序中
NoSQL数据库之Redis数据库管理(list类型) bijian1013 redis 数据库 NoSQL
3.list类型及操作 List是一个链表结构，主要功能是push、pop、获取一个范围的所有值等等，操作key理解为链表的名字。Redis的list类型其实就是一个每个子元素都是string类型的双向链表。我们可以通过push、pop操作从链表的头部或者尾部添加删除元素，这样list既可以作为栈，又可以作为队列。 &nbs
谁在用Hadoop？ bingyingao hadoop 数据挖掘公司应用场景
Hadoop技术的应用已经十分广泛了，而我是最近才开始对它有所了解，它在大数据领域的出色表现也让我产生了兴趣。浏览了他的官网，其中有一个页面专门介绍目前世界上有哪些公司在用Hadoop，这些公司涵盖各行各业，不乏一些大公司如alibaba,ebay,amazon,google,facebook,adobe等，主要用于日志分析、数据挖掘、机器学习、构建索引、业务报表等场景,这更加激发了学习它的热情。
【Spark七十六】Spark计算结果存到MySQL bit1129 mysql
package spark.examples.db import java.sql.{PreparedStatement, Connection, DriverManager} import com.mysql.jdbc.Driver import org.apache.spark.{SparkContext, SparkConf} object SparkMySQLInteg
Scala: JVM上的函数编程 bookjovi scala erlang haskell
说Scala是JVM上的函数编程一点也不为过，Scala把面向对象和函数型编程这两种主流编程范式结合了起来，对于熟悉各种编程范式的人而言Scala并没有带来太多革新的编程思想，scala主要的有点在于Java庞大的package优势，这样也就弥补了JVM平台上函数型编程的缺失，MS家.net上已经有了F#，JVM怎么能不跟上呢？对本人而言
jar打成exe bro_feng java jar exe
今天要把jar包打成exe，jsmooth和exe4j都用了。遇见几个问题。记录一下。两个软件都很好使，网上都有图片教程，都挺不错。首先肯定是要用自己的jre的，不然不能通用，其次别忘了把需要的lib放到classPath中。困扰我很久的一个问题是，我自己打包成功后，在一个同事的没有装jdk的电脑上运行，就是不行，报错jvm.dll为无效的windows映像，如截图最后发现
读《研磨设计模式》-代码笔记-策略模式-Strategy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 策略模式定义了一系列的算法，并将每一个算法封装起来，而且使它们还可以相互替换。策略模式让算法独立于使用它的客户而独立变化简单理解： 1、将不同的策略提炼出一个共同接口。这是容易的，因为不同的策略，只是算法不同，需要传递的参数
cmd命令值cvfM命令 chenyu19891124 cmd
cmd命令还真是强大啊。今天发现jar -cvfM aa.rar @aaalist 就这行命令可以根据aaalist取出相应的文件例如：在d：\workspace\prpall\test.java 有这样一个文件，现在想要将这个文件打成一个包。运行如下命令即可比如在d：\wor
OpenJWeb(1.8) Java Web应用快速开发平台 comsci java 框架 Web 项目管理企业应用
OpenJWeb(1.8) Java Web应用快速开发平台的作者是我们技术联盟的成员，他最近推出了新版本的快速应用开发平台 OpenJWeb(1.8)，我帮他做做宣传 OpenJWeb快速开发平台以快速开发为核心，整合先进的java 开源框架，本着自主开发+应用集成相结合的原则，旨在为政府、企事业单位、软件公司等平台用户提供一个架构透
Python 报错：IndentationError: unexpected indent daizj python tab 空格缩进
IndentationError: unexpected indent 是缩进的问题，也有可能是tab和空格混用啦 Python开发者有意让违反了缩进规则的程序不能通过编译，以此来强制程序员养成良好的编程习惯。并且在Python语言里，缩进而非花括号或者某种关键字，被用于表示语句块的开始和退出。增加缩进表示语句块的开
HttpClient 超时设置 dongwei_6688 httpclient
HttpClient中的超时设置包含两个部分： 1. 建立连接超时，是指在httpclient客户端和服务器端建立连接过程中允许的最大等待时间 2. 读取数据超时，是指在建立连接后，等待读取服务器端的响应数据时允许的最大等待时间在HttpClient 4.x中如下设置： HttpClient httpclient = new DefaultHttpC
小鱼与波浪 dcj3sjt126com
一条小鱼游出水面看蓝天，偶然间遇到了波浪。　　小鱼便与波浪在海面上游戏，随着波浪上下起伏、汹涌前进。　　小鱼在波浪里兴奋得大叫：“你每天都过着这么刺激的生活吗？简直太棒了。”　　波浪说：“岂只每天过这样的生活，几乎每一刻都这么刺激！还有更刺激的，要有潮汐变化，或者狂风暴雨，那才是兴奋得心脏都会跳出来。”　　小鱼说：“真希望我也能变成一个波浪，每天随着风雨、潮汐流动，不知道有多么好！”　　很快，小鱼
Error Code: 1175 You are using safe update mode and you tried to update a table dcj3sjt126com mysql
快速高效用：SET SQL_SAFE_UPDATES = 0；下面的就不要看了！今日用MySQL Workbench进行数据库的管理更新时，执行一个更新的语句碰到以下错误提示： Error Code: 1175 You are using safe update mode and you tried to update a table without a WHERE that
枚举类型详细介绍及方法定义 gaomysion enum javaee
转发 http://developer.51cto.com/art/201107/275031.htm 枚举其实就是一种类型，跟int, char 这种差不多，就是定义变量时限制输入的，你只能够赋enum里面规定的值。建议大家可以看看，这两篇文章，《java枚举类型入门》和《C++的中的结构体和枚举》，供大家参考。枚举类型是JDK5.0的新特征。Sun引进了一个全新的关键字enum
Merge Sorted Array hcx2013 array
Given two sorted integer arrays nums1 and nums2, merge nums2 into nums1 as one sorted array. Note:You may assume that nums1 has enough space (size that is
Expression Language 3.0新特性 jinnianshilongnian el 3.0
Expression Language 3.0表达式语言规范最终版从2013-4-29发布到现在已经非常久的时间了；目前如Tomcat 8、Jetty 9、GlasshFish 4已经支持EL 3.0。新特性包括：如字符串拼接操作符、赋值、分号操作符、对象方法调用、Lambda表达式、静态字段/方法调用、构造器调用、Java8集合操作。目前Glassfish 4/Jetty实现最好，对大多数新特性
超越算法来看待个性化推荐 liyonghui160com 超越算法来看待个性化推荐
一提到个性化推荐，大家一般会想到协同过滤、文本相似等推荐算法，或是更高阶的模型推荐算法，百度的张栋说过，推荐40%取决于UI、30%取决于数据、20%取决于背景知识，虽然本人不是很认同这种比例，但推荐系统中，推荐算法起的作用起的作用是非常有限的。就像任何
写给Javascript初学者的小小建议 pda158 JavaScript
　　一般初学JavaScript的时候最头痛的就是浏览器兼容问题。在Firefox下面好好的代码放到IE就不能显示了，又或者是在IE能正常显示的代码在firefox又报错了。　　如果你正初学JavaScript并有着一样的处境的话建议你：初学JavaScript的时候无视DOM和BOM的兼容性，将更多的时间花在了解语言本身（ECMAScript）。只在特定浏览器编写代码（Chrome/Fi
Java 枚举 ShihLei java enum 枚举
注：文章内容大量借鉴使用网上的资料，可惜没有记录参考地址，只能再传对作者说声抱歉并表示感谢！一基础 1）语法枚举类型只能有私有构造器（这样做可以保证客户代码没有办法新建一个enum的实例）枚举实例必须最先定义 2）特性 &nb
Java SE 6 HotSpot虚拟机的垃圾回收机制 uuhorse java HotSpot GC 垃圾回收 VM
官方资料，关于Java SE 6 HotSpot虚拟机的garbage Collection，非常全，英文。 http://www.oracle.com/technetwork/java/javase/gc-tuning-6-140523.html Java SE 6 HotSpot[tm] Virtual Machine Garbage Collection Tuning &

使用MapReduce实现两个文件的Join操作

文章目录

数据结构

customer

order

MapJoin

描述

主函数入口

构造类代码

执行结果

MapJoin采坑记录

ReduceJoin

描述

主函数入口

构造类代码

结果

ReduceJoin采坑记录

你可能感兴趣的:(大数据学习-高级)