影夜life

MapReduce配置与优化

1. 流程简介

参考MapReduce学习笔记之简介（一）

2. 配置详解

core-site.xml是全局配置，hdfs-site.xml和mapred-site.xml分别是hdfs和mapred的局部配置。

本文配置基于2.7.3版本。另外只列出了部分属性。

2.1 core-default.xml

选项	默认值	描述
hadoop.tmp.dir	/tmp/hadoop-${user.name}	全局临时文件路径
io.seqfile.local.dir	${hadoop.tmp.dir}/io/local	合并序列化文件的中间文件存储路径，多个路径是用逗号隔开
fs.defaultFS	file:///	namenode RPC交互端口，一般使用9000端口
io.file.buffer.size	4096	序列化文件的缓存大小，应该设置为硬件页面大小的倍数（x86是4096）
file.blocksize	67108864	块大小
ha.zookeeper.quorum	（空）	NameNode HA时，配置ZooKeeper节点，以逗号隔开
ha.zookeeper.session-timeout.ms	5000	ZKFC连接ZooKeeper的超时时间

2.2 hdfs-default.xml

选项	默认值	描述
dfs.replication	3	副本数
dfs.namenode.handler.count	10	设定 namenode server threads 的数量，这些 threads 會用 RPC 跟其他的 datanodes 沟通。
dfs.namenode.name.dir	file://${hadoop.tmp.dir}/dfs/name	namenode元数据存储路径，多个目录时，以逗号隔开
dfs.datanode.data.dir	file://${hadoop.tmp.dir}/dfs/data	datanode元数据存储路径，多个目录时，以逗号隔开
dfs.permissions.enabled	true	开关权限验证，false时可以开启远程调试功能
dfs.namenode.secondary.http-address	0.0.0.0:50090	第二名字空间Http Server地址
dfs.namenode.secondary.https-address	0.0.0.0:50091	第二名字空间Https Server地址
dfs.datanode.address	0.0.0.0:50010	datanode地址
dfs.datanode.http.address	0.0.0.0:50075	datanode的http server地址
dfs.datanode.ipc.address	0.0.0.0:50020	datanode的ipc server地址
dfs.namenode.http-address	0.0.0.0:50070	dfs namenode的web ui地址
dfs.datanode.https.address	0.0.0.0:50475	datanode的https server地址
dfs.namenode.https-address	0.0.0.0:50470	namenode的https server地址
dfs.namenode.backup.address	0.0.0.0:50100	backupnode server地址
dfs.namenode.backup.http-address	0.0.0.0:50105	backupnode http server地址
dfs.blocksize	134217728	块大小，默认128m
dfs.namenode.checkpoint.dir	file://${hadoop.tmp.dir}/dfs/namesecondary	第二名字空间存储用于合并的临时镜像的目录，可多个目录，用逗号隔开
dfs.nameservices	（空）	用逗号分开的nameservice列表
dfs.ha.namenodes.xxx	（空）	xxx是nameservice名，该属性的值为其下的namenode列表，以逗号隔开
dfs.namenode.rpc-address.xxx.yyy	（空）	xxx是nameservice名，yyy是namennode名，该属性为对应RPC地址
dfs.namenode.http-address.xxx.yyy	（空）	xxx是nameservice名，yyy是namennode名，该属性为对应http server地址
dfs.namenode.shared.edits.dir	（空）	NameNode HA中，多个NameNode间共享数据的目录
dfs.ha.automatic-failover.enabled	false	是否开启故障恢复
dfs.journalnode.rpc-address	0.0.0.0:8485	JournalNode RPC Server地址
dfs.journalnode.http-address	0.0.0.0:8480 JournalNode Http server地址
dfs.journalnode.https-address	0.0.0.0:8481	JournalNode https server地址

2.3 mapred-default.xml

选项	默认值	描述
mapreduce.jobtracker.jobhistory.location	（空）	job历史文件保存路径，默认在logs的history文件夹下。
mapreduce.task.io.sort.factor	10	排序文件时用于合并的流数量，即打开的文件句柄数
mapreduce.task.io.sort.mb	100	排序文件时总的内存量（MB），默认每个合并流1MB
mapreduce.map.sort.spill.percent	0.80	Map阶段溢写文件的阈值（排序缓冲区大小的百分比）
mapreduce.jobtracker.http.address	0.0.0.0:50030	jobtracker的tracker页面服务监听地址
mapreduce.cluster.local.dir	${hadoop.tmp.dir}/mapred/local	mapred做本地计算所使用的文件夹，可以配置多块硬盘，逗号分隔
mapreduce.jobtracker.system.dir	${hadoop.tmp.dir}/mapred/system	mapred存放控制文件所使用的文件夹，可配置多块硬盘，逗号分隔。
mapreduce.jobtracker.staging.root.dir	${hadoop.tmp.dir}/mapred/staging	用来存放与每个job相关的数据
mapreduce.job.running.map.limit	0	单个任务并发的最大map数，0或负数没有限制
mapreduce.job.running.reduce.limit	0	单个任务并发的最大reduce数，0或负数没有限制
mapreduce.map.memory.mb	1024	每个Map Task需要的内存量
mapreduce.map.cpu.vcores	1	每个Map Task需要的虚拟CPU个数
mapreduce.reduce.memory.mb	1024	每个Reduce Task需要的内存量
mapreduce.reduce.cpu.vcores	1	每个Reduce Task需要的虚拟CPU个数
mapred.child.java.opts	-Xmx200m	vm启动的子线程可以使用的最大内存。建议值-XX:-UseGCOverheadLimit -Xms512m -Xmx2048m -verbose:gc -Xloggc:/tmp/@[email protected]
mapreduce.reduce.shuffle.merge.percent	0.66	超过shuffle最大内存的一定限度后，开始往磁盘刷
mapreduce.reduce.shuffle.input.buffer.percent	0.70	shuffile在reduce内存中的数据最多使用内存量
mapreduce.reduce.shuffle.memory.limit.percent	0.25	每个fetch取到的输出的大小能够占的内存比的大小，所以，如果我们想fetch不进磁盘的话，可以适当调大这个值。
mapreduce.map.speculative	true	是否对Map Task启用推测执行机制
mapreduce.reduce.speculative	true	是否对Reduce Task启用推测执行机制
mapreduce.job.queuename	default	作业提交到的队列
mapreduce.reduce.shuffle.parallelcopies	5	Reduce Task启动的并发拷贝数据的线程数目
mapreduce.map.output.compress	false	map输出结果是否要压缩
mapreduce.map.output.compress.codec	org.apache.hadoop.io.compress .DefaultCodec	map输出的压缩算法
map.sort.class	org.apache.hadoop.util.QuickSort	排序时使用的算法
mapreduce.shuffle.port	13562	ShuffleHandler运行的默认端口
mapreduce.jobhistory.address	0.0.0.0:10020	MapReduce JobHistory Server IPC地址
mapreduce.jobhistory.webapp.address	0.0.0.0:19888	MapReduce JobHistory Server Web UI地址
mapreduce.jobhistory.admin.address	0.0.0.0:10033	History Server的管理地址
mapreduce.input.fileinputformat.split.minsize	0	map任务输入数据块最小大小
yarn.app.mapreduce.am.command-opts	-Xmx1024m	MR App master的java选项

3. Map优化

3.1 输入过滤

见本人博客
输入过滤

3.2 小文件优化

见本人博客
Hadoop的“小文件”问题

3.3 连接

3.3.1 Map端连接

使用场景：待连接的数据集中有一个数据集小到可以完全放在缓存中。

job的main函数中设置缓存文件

Job job = Job.getInstance(conf, "MapJoinDemo");
job.setJarByClass(ProvinceMapJoinStatistics.class);

job.addCacheFile(new Path(args[1]).toUri());

Mapper的setup方法中读取缓存文件

private String provinceWithProduct = "";

/**
 * 加载缓存文件
 *
 * @param context 上下文
 *
 * @throws IOException
 * @throws InterruptedException
 */
@Override
protected void setup(Context context) throws IOException, InterruptedException {

    URI[] uri = context.getCacheFiles();
    if (uri == null || uri.length == 0) {
        return;
    }
    for (URI p : uri) {
        if (p.toString().endsWith("part-r-00000")) {
            // 读缓存文件
            try {
                provinceWithProduct = HdfsUtil.read(new Configuration(), p.toString());
            } catch (Exception e) {
                e.printStackTrace();
            }
        }
    }
}

Mapper的map方法中实现连接

public void map(LongWritable key, Text value, Context context)
        throws IOException, InterruptedException {

    if (!provinceWithProduct.contains(value.toString()
            .substring(0, 2))) {
        context.write(value, NullWritable.get());
    }
}

3.3.2 半连接

待连接的数据集中有一个数据集非常大，但同时这个数据集可以被过滤成小到可以放在内存中。

job的main函数中设置缓存文件（即过滤条件）

# 同map端连接

Mapper的setup方法中读取缓存文件

# 同map端连接
# 生成过滤集合 joinKeySet

Mapper的map方法中实现数据过滤

@Override  
protected void map(Object key, Text value, Context context)  
        throws IOException, InterruptedException {  
    // 获得文件输入路径  
    String pathName = ((FileSplit) context.getInputSplit()).getPath()  
            .toString();  
    // 数据来自tb_dim_city.dat文件，标志即为"0"  
    if (pathName.endsWith("tb_dim_city.dat")) {  
        String[] valueItems = value.toString().split("\\|");  
        // 过滤格式错误的记录  
        if (valueItems.length != 5) {  
            return;  
        }  
        // 过滤掉不需要参加join的记录  
        if (joinKeySet.contains(valueItems[0])) {  
            flag.set("0");  
            joinKey.set(valueItems[0]);  
            secondPart.set(valueItems[1] + "\t" + valueItems[2] + "\t"  
                    + valueItems[3] + "\t" + valueItems[4]);  
            combineValues.setFlag(flag);  
            combineValues.setJoinKey(joinKey);  
            combineValues.setSecondPart(secondPart);  
            context.write(combineValues.getJoinKey(), combineValues);  
        } else {  
            return;  
        }  
    }
    // 数据来自于tb_user_profiles.dat，标志即为"1"  
    else if (pathName.endsWith("tb_user_profiles.dat")) {  
        String[] valueItems = value.toString().split("\\|");  
        // 过滤格式错误的记录  
        if (valueItems.length != 4) {  
            return;  
        }  
        // 过滤掉不需要参加join的记录  
        if (joinKeySet.contains(valueItems[3])) {  
            flag.set("1");  
            joinKey.set(valueItems[3]);  
            secondPart.set(valueItems[0] + "\t" + valueItems[1] + "\t"  
                    + valueItems[2]);  
            combineValues.setFlag(flag);  
            combineValues.setJoinKey(joinKey);  
            combineValues.setSecondPart(secondPart);  
            context.write(combineValues.getJoinKey(), combineValues);  
        } else {  
            return;  
        }  
    }  
}

Reducer的reduce方法实现连接

public static class SemiJoinReducer extends  
        Reducer {  
    // 存储一个分组中的左表信息  
    private ArrayList leftTable = new ArrayList();  
    // 存储一个分组中的右表信息  
    private ArrayList rightTable = new ArrayList();  
    private Text secondPar = null;  
    private Text output = new Text();  

    /** 
     * 一个分组调用一次reduce函数 
     */  
    @Override  
    protected void reduce(Text key, Iterable value,  
            Context context) throws IOException, InterruptedException {  
        leftTable.clear();  
        rightTable.clear();  
        /** 
         * 将分组中的元素按照文件分别进行存放 这种方法要注意的问题： 如果一个分组内的元素太多的话，可能会导致在reduce阶段出现OOM， 
         * 在处理分布式问题之前最好先了解数据的分布情况，根据不同的分布采取最 
         * 适当的处理方法，这样可以有效的防止导致OOM和数据过度倾斜问题。 
         */  
        for (CombineValues cv : value) {  
            secondPar = new Text(cv.getSecondPart().toString());  
            // 左表tb_dim_city  
            if ("0".equals(cv.getFlag().toString().trim())) {  
                leftTable.add(secondPar);  
            }  
            // 右表tb_user_profiles  
            else if ("1".equals(cv.getFlag().toString().trim())) {  
                rightTable.add(secondPar);  
            }  
        }  
        logger.info("tb_dim_city:" + leftTable.toString());  
        logger.info("tb_user_profiles:" + rightTable.toString());  
        for (Text leftPart : leftTable) {  
            for (Text rightPart : rightTable) {  
                output.set(leftPart + "\t" + rightPart);  
                context.write(key, output);  
            }  
        }  
    }  
}

4. Shuffle优化

4.1 中间输出结果的排序与溢出

见中间输出结果的排序与溢出

4.2 本地Reducer和Combiner

见本地Reducer和Combiner

4.3 Map侧输出

见获取中间输出结果（Map侧）

5. Reduce优化

5.1 Reduce任务数

见本人博客Reduce任务

5.2 获取中间输出结果（Reduce侧）

见本人博客获取中间输出结果（Reduce侧）

5.3 中间输出结果的合并与溢出

见本人博客中间输出结果的合并与溢出

5.4 Reduce端连接

使用场景：连接两个或多个大型数据集。

package com.mr.reduceSideJoin;  

import java.io.DataInput;  
import java.io.DataOutput;  
import java.io.IOException;  

import org.apache.hadoop.io.Text;  
import org.apache.hadoop.io.WritableComparable;  

public class CombineValues implements WritableComparable {  
    private Text joinKey;// 链接关键字  
    private Text flag;// 文件来源标志  
    private Text secondPart;// 除了链接键外的其他部分  

    public void setJoinKey(Text joinKey) {  
        this.joinKey = joinKey;  
    }  

    public void setFlag(Text flag) {  
        this.flag = flag;  
    }  

    public void setSecondPart(Text secondPart) {  
        this.secondPart = secondPart;  
    }  

    public Text getFlag() {  
        return flag;  
    }  

    public Text getSecondPart() {  
        return secondPart;  
    }  

    public Text getJoinKey() {  
        return joinKey;  
    }  

    public CombineValues() {  
        this.joinKey = new Text();  
        this.flag = new Text();  
        this.secondPart = new Text();  
    }  

    @Override  
    public void write(DataOutput out) throws IOException {  
        this.joinKey.write(out);  
        this.flag.write(out);  
        this.secondPart.write(out);  
    }  

    @Override  
    public void readFields(DataInput in) throws IOException {  
        this.joinKey.readFields(in);  
        this.flag.readFields(in);  
        this.secondPart.readFields(in);  
    }  

    @Override  
    public int compareTo(CombineValues o) {  
        return this.joinKey.compareTo(o.getJoinKey());  
    }  

    @Override  
    public String toString() {  
        // TODO Auto-generated method stub  
        return "[flag=" + this.flag.toString() + ",joinKey="  
                + this.joinKey.toString() + ",secondPart="  
                + this.secondPart.toString() + "]";  
    }  
}

package com.mr.reduceSideJoin;  

import java.io.IOException;  
import java.util.ArrayList;  

import org.apache.hadoop.conf.Configuration;  
import org.apache.hadoop.conf.Configured;  
import org.apache.hadoop.fs.Path;  
import org.apache.hadoop.io.Text;  
import org.apache.hadoop.mapreduce.Job;  
import org.apache.hadoop.mapreduce.Mapper;  
import org.apache.hadoop.mapreduce.Reducer;  
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;  
import org.apache.hadoop.mapreduce.lib.input.FileSplit;  
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;  
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;  
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;  
import org.apache.hadoop.util.Tool;  
import org.apache.hadoop.util.ToolRunner;  
import org.slf4j.Logger;  
import org.slf4j.LoggerFactory;  

public class ReduceSideJoin_LeftOuterJoin extends Configured implements Tool {  
    private static final Logger logger = LoggerFactory  
            .getLogger(ReduceSideJoin_LeftOuterJoin.class);  

    public static class LeftOutJoinMapper extends  
            Mapper {  
        private CombineValues combineValues = new CombineValues();  
        private Text flag = new Text();  
        private Text joinKey = new Text();  
        private Text secondPart = new Text();  

        @Override  
        protected void map(Object key, Text value, Context context)  
                throws IOException, InterruptedException {  
            // 获得文件输入路径  
            String pathName = ((FileSplit) context.getInputSplit()).getPath()  
                    .toString();  
            // 数据来自tb_dim_city.dat文件,标志即为"0"  
            if (pathName.endsWith("tb_dim_city.dat")) {  
                String[] valueItems = value.toString().split("\\|");  
                // 过滤格式错误的记录  
                if (valueItems.length != 5) {  
                    return;  
                }  
                flag.set("0");  
                joinKey.set(valueItems[0]);  
                secondPart.set(valueItems[1] + "\t" + valueItems[2] + "\t"  
                        + valueItems[3] + "\t" + valueItems[4]);  
                combineValues.setFlag(flag);  
                combineValues.setJoinKey(joinKey);  
                combineValues.setSecondPart(secondPart);  
                context.write(combineValues.getJoinKey(), combineValues);  

            }// 数据来自于tb_user_profiles.dat，标志即为"1"  
            else if (pathName.endsWith("tb_user_profiles.dat")) {  
                String[] valueItems = value.toString().split("\\|");  
                // 过滤格式错误的记录  
                if (valueItems.length != 4) {  
                    return;  
                }  
                flag.set("1");  
                joinKey.set(valueItems[3]);  
                secondPart.set(valueItems[0] + "\t" + valueItems[1] + "\t"  
                        + valueItems[2]);  
                combineValues.setFlag(flag);  
                combineValues.setJoinKey(joinKey);  
                combineValues.setSecondPart(secondPart);  
                context.write(combineValues.getJoinKey(), combineValues);  
            }  
        }  
    }  

    public static class LeftOutJoinReducer extends  
            Reducer {  
        // 存储一个分组中的左表信息  
        private ArrayList leftTable = new ArrayList();  
        // 存储一个分组中的右表信息  
        private ArrayList rightTable = new ArrayList();  
        private Text secondPar = null;  
        private Text output = new Text();  

        /** 
         * 一个分组调用一次reduce函数;相同key的数据进了同一个reduce，这样就实现了join。 
         */  
        @Override  
        protected void reduce(Text key, Iterable value,  
                Context context) throws IOException, InterruptedException {  
            leftTable.clear();  
            rightTable.clear();  
            /** 
             * 将分组中的元素按照文件分别进行存放 这种方法要注意的问题： 如果一个分组内的元素太多的话，可能会导致在reduce阶段出现OOM， 
             * 在处理分布式问题之前最好先了解数据的分布情况，根据不同的分布采取最 
             * 适当的处理方法，这样可以有效的防止导致OOM和数据过度倾斜问题。 
             */  
            for (CombineValues cv : value) {  
                secondPar = new Text(cv.getSecondPart().toString());  
                // 左表tb_dim_city  
                if ("0".equals(cv.getFlag().toString().trim())) {  
                    leftTable.add(secondPar);  
                }  
                // 右表tb_user_profiles  
                else if ("1".equals(cv.getFlag().toString().trim())) {  
                    rightTable.add(secondPar);  
                }  
            }  
            logger.info("tb_dim_city:" + leftTable.toString());  
            logger.info("tb_user_profiles:" + rightTable.toString());  
            // 这里体现了左连接  
            for (Text leftPart : leftTable) {  
                for (Text rightPart : rightTable) {  
                    output.set(leftPart + "\t" + rightPart);  
                    // leftTable中有数据 rightTable中没有数据 就无法进到这一步  
                    // rightTable中有数据 leftTable中没有数据 外面的循环就进不去  
                    context.write(key, output);  
                }  
            }  
        }  
    }  

    @Override  
    public int run(String[] args) throws Exception {  
        Configuration conf = getConf(); // 获得配置文件对象  
        Job job = new Job(conf, "LeftOutJoinMR");  
        job.setJarByClass(ReduceSideJoin_LeftOuterJoin.class);  

        FileInputFormat.addInputPath(job, new Path(args[0])); // 设置map输入文件路径  
        FileOutputFormat.setOutputPath(job, new Path(args[1])); // 设置reduce输出文件路径  

        job.setMapperClass(LeftOutJoinMapper.class);  
        job.setReducerClass(LeftOutJoinReducer.class);  

        job.setInputFormatClass(TextInputFormat.class); // 设置文件输入格式  
        job.setOutputFormatClass(TextOutputFormat.class);// 使用默认的output格式  

        // 设置map的输出key和value类型  
        job.setMapOutputKeyClass(Text.class);  
        job.setMapOutputValueClass(CombineValues.class);  

        // 设置reduce的输出key和value类型  
        job.setOutputKeyClass(Text.class);  
        job.setOutputValueClass(Text.class);  
        job.waitForCompletion(true);  
        return job.isSuccessful() ? 0 : 1;  
    }  

    public static void main(String[] args) throws IOException,  
            ClassNotFoundException, InterruptedException {  
        try {  
            Tool rdf = new ReduceSideJoin_LeftOuterJoin();  
            int returnCode = ToolRunner.run(rdf, args);  
            System.exit(returnCode);  
        } catch (Exception e) {  
            System.out.println(e.getMessage());  
        }  
    }  
}

6. 其他

6.1 作业JVM堆大小设置优化

示例演示限制客户修改堆大小


<property>
  <name>mapred.task.java.optsname>
  <value>-Xmx2000mvalue>
property>

<property>
  <name>mapred.child.java.optsname>
  <value>${mapred.task.java.opts} -Xmx1000mvalue>
  <final>truefinal>
property>


<property>
  <name>mapred.map.child.java.optsname>
  <value>-Xmx512Mvalue>
property>

<property>
  <name>mapred.reduce.child.java.optsname>
  <value>-Xmx1024Mvalue>
property>

通过管理员配置限制


  mapreduce.admin.map.child.java.opts
  <value>-Xmx1000Mvalue>



  mapreduce.admin.reduce.child.java.opts
  <value>-Xmx1000Mvalue>


# 修改源码
private static String getChildJavaOpts(JobConf jobConf, boolean isMapTask) {
    // 略

    // old： return adminClasspath + " " + userClasspath;
    // 修改为
    return userClasspath + " " + adminClasspath;
}

7. 参考

Hadoop中两表JOIN的处理方法

hadoop MapReduce 三种连接

hadoop核心逻辑shuffle代码分析-reduce端

hadoop作业调优参数整理及原理

MapReduce任务参数调优

Hive简介
文章目录Hive简介Hive特点Hive和RDBMS的对比Hive的架构Hive的数据组织Hive数据类型Hive简介1、Hive由Facebook实现并开源2、是基于Hadoop的一个数据仓库工具3、可以将结构化的数据映射为一张数据库表4、并提供HQL(HiveSQL)查询功能5、底层数据是存储在HDFS上6、Hive的本质是将SQL语句转换为MapReduce任务运行7、使不熟悉MapRedu
python基于Hadoop的NBA球员大数据分析与可视化系统
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
大数据技术之集群数据迁移
dfs.namenode.rpc-address.nameservice1.namenode30hadoop104:8020dfs.namenode.rpc-address.nameservice1.namenode37hadoop106:8020dfs.namenode.http-address.nameservice1.namenode30hadoop104:9870dfs.namenode.
HIVE（二） 2301_78012738 hive 数据仓库
目录访问HIVE的三种方式DDLDML数据操作向表中装载数据数据导出常用函数Like和RLike分组Join排序分区表和分桶表访问HIVE的三种方式启动Hive命令，CtrlC退出客户端，执行测试语句，与sql一致[wyc@hadoop102hive]$bin/hive经验小结：在hive中执行语句报错：ExecutionError,returncode2fromorg.apache.hadoop
安全运维的 “五层防护”：构建全方位安全体系 KKKlucifer 安全运维
在数字化运维场景中，异构系统复杂、攻击手段隐蔽等挑战日益突出。保旺达基于“全域纳管-身份认证-行为监测-自动响应-审计溯源”的五层防护架构，融合AI、零信任等技术，构建全链路安全运维体系，以下从技术逻辑与实践落地展开解析：第一层：全域资产纳管——筑牢安全根基挑战云网基础设施包含分布式计算（Hadoop/Spark）、数据流处理（Storm/Flink）等异构组件，通信协议繁杂，传统方案难以全面纳管
Hive 事务表(ACID)问题梳理
文章目录问题描述分析原因什么是事务表概念事务表和普通内部表的区别相关配置事务表的适用场景注意事项设计原理与实现文件管理格式参考博客问题描述工作中需要使用pyspark读取Hive中的数据，但是发现可以获取metastore，外部表的数据可以读取，内部表数据有些表报错信息是：AnalysisException:org.apache.hadoop.hive.ql.metadata.HiveExcept
Docker快速构建Hive测试环境静谧星光 docker hive 容器编程
Docker是一种流行的容器化平台，可以帮助我们快速构建和管理应用程序的环境。在本文中，我们将学习如何使用Docker快速构建Hive测试环境。Hive是一个基于Hadoop的数据仓库基础设施，它提供了一种类似于SQL的查询语言，用于分析和处理大规模数据集。步骤1：安装Docker和DockerCompose首先，我们需要安装Docker和DockerCompose。您可以根据您的操作系统类型，从
HDFS 伪分布模式搭建与使用全攻略（适合初学者 & 开发测试环境） huihui450 hdfs hadoop 大数据
HDFS（HadoopDistributedFileSystem）作为Hadoop生态系统的核心组件，广泛应用于海量数据的分布式存储场景。对于开发者而言，伪分布模式提供了一种低成本、高还原度的学习与测试方式。本文将详细介绍如何在本地搭建并使用HDFS的伪分布模式，包括环境准备、配置过程、常用命令及常见问题排查，帮助你快速入门Hadoop分布式文件系统的实践操作。一、什么是伪分布模式？Hadoop有
YARN container cpu超核如何解决 fzip YARN 超核
在ApacheHadoopYARN中，ContainerCPU超核（即Container使用的CPU资源超过分配量）是一个常见问题，可能导致集群性能下降或不稳定。以下是解决该问题的详细步骤：1.问题诊断1.1确认超核现象查看YARNWebUI：访问http://:8088，检查Container的CPU使用率是否持续超过分配的vCore数。检查NodeManager日志：查看/var/log/ha
Hadoop-Mapreduce入门
Hadoop-Mapreduce入门MapReduce介绍mapreduce设计MapReduce编程规范入门案例WordCountMapReduce介绍MapReduce的思想核心是“分而治之”，适用于大量复杂的任务处理场景（大规模数据处理场景）。知识。Map负责“分”，把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算，彼此间几乎没有依赖关系。Redu
Hadoop MapReduce入门且行且安~ 数据分析进阶之路 Linux命令 hadoop MapReduce入门
入门简介计算过程分为两个阶段Map和ReduceMap阶段并行处理输入数据Reduce阶段对Map结果进行汇总针对python语言来说：map函数或者reduce函数来说，输出的数据格式为元组tuple一个简单的MapReduce程序只需要指定map()reduce()input()output()剩下的由框架完成。Linux常见命令：-读取文件（文本文件，在Windows下使用记事本打开的文件）
Hadoop MapReduce 入门
一、Hadoop3.0.4环境准备1.环境要求Java8（Hadoop3.0.4不支持Java11+）单节点或多节点Linux系统（推荐Ubuntu18.04+）至少4GB内存（建议8GB+）50GB以上磁盘空间2.安装Java#安装Java8sudoapt-getinstallopenjdk-8-jdk#验证安装java-version3.下载与安装Hadoop3.0.4#下载Hadoop3.0
管理大数据存储的十大技巧 weixin_34238633 大数据数据库运维
在1990年，每一台应用服务器都倾向拥有直连式系统(DAS)。SAN的构建则是为了更大的规模和更高的效率提供共享的池存储。Hadoop已经逆转了这一趋势回归DAS。每一个Hadoop集群都拥有自身的——虽然是横向扩展型——直连式存储，这有助于Hadoop管理数据本地化，但也放弃了共享存储的规模和效率。如果你拥有多个实例或Hadoop发行版，那么你就将得到多个横向扩展的存储集群。而我们所遇到的最大挑
MapReduce数据处理过程2万字保姆级教程大模型大数据攻城狮 mapreduce 大数据 yarn cdh hadoop 大数据面试 shuffle
目录1.MapReduce的核心思想：分而治之的艺术2.HadoopMapReduce的架构：从宏观到微观3.WordCount实例：从代码到执行的完整旅程4.源码剖析：Job.submit的魔法5.Map任务的执行：从分片到键值对6.Shuffle阶段：MapReduce的幕后英雄7.Reduce任务的执行：从数据聚合到最终输出8.Combiner的魔法：提前聚合的性能利器9.Partition
Hadoop核心组件最全介绍 Cachel wood 大数据开发 hadoop 大数据分布式 spark 数据库计算机网络
文章目录一、Hadoop核心组件1.HDFS(HadoopDistributedFileSystem)2.YARN(YetAnotherResourceNegotiator)3.MapReduce二、数据存储与管理1.HBase2.Hive3.HCatalog4.Phoenix三、数据处理与计算1.Spark2.Flink3.Tez4.Storm5.Presto6.Impala四、资源调度与集群管
数据仓库技术及应用（Hive 产生背景与架构设计，存储模型与数据类型）娟恋无暇数据仓库笔记 hive
1.Hive产生背景传统Hadoop架构存在的一些问题：MapReduce编程必须掌握Java，门槛较高传统数据库开发、DBA、运维人员学习门槛高HDFS上没有Schema的概念，仅仅是一个纯文本文件Hive的产生：为了让用户从一个现有数据基础架构转移到Hadoop上现有数据基础架构大多基于关系型数据库和SQL查询Facebook诞生了Hive2.Hive是什么官网：https://hive.ap
缺少关键的 MapReduce 框架文件
计算圆周率时提醒Hadoop集群缺少关键的MapReduce框架文件mr-framework.tar.gz在http://master:7180/cmf/services/4/status里直接安装再次运行代码：
大数据 ETL 工具 Sqoop 深度解析与实战指南
一、Sqoop核心理论与应用场景1.1设计思想与技术定位Sqoop是Apache旗下的开源数据传输工具，核心设计基于MapReduce分布式计算框架，通过并行化的Map任务实现高效的数据批量迁移。其特点包括：批处理特性：基于MapReduce作业实现导入/导出，适合大规模离线数据迁移，不支持实时数据同步。异构数据源连接：支持关系型数据库（如MySQL、Oracle）与Hadoop生态（HDFS、H
安装Hadoop集群&入门&源码编译只年大数据 Hadoop hadoop 大数据分布式
安装Hadoop集群完全分布式先决条件准备三台机器NameStaticIPDESCbigdata102192.168.1.102DataNode、NodeManager、NameNodebigdata103192.168.1.103DataNode、NodeManager、ResourceManagerbigdata104192.168.1.104DataNode、NodeManager、Seco
Hadoop之HDFS 只年大数据 Hadoop HDFS hadoop hdfs 大数据
Hadoop之HDFSHDFS的Shell操作启动Hadoop集群（方便后续测试）[atguigu@hadoop102~]$sbin/start-dfs.sh[atguigu@hadoop102~]$sbin/start-yarn.sh-help：输出这个命令参数[atguigu@hadoop102~]$hadoopfs-helprm-ls：显示目录信息[atguigu@hadoop102~]$h
安装Python3.12报错：HTTP 429 TOO MANY REQUESTS for url ＜https://mirrors.ustc.edu.cn/anaconda/pkgs/free/li
安装Python3.12报错(base)[xxx@hadoop104python_shell]$condacreate--namepythonThirteenpython=3.12报错如下：Retrievingnotices:…working…ERRORconda.notices.fetch:get_channel_notice_response(63):Requesterrorforchanne
大数据分析技术的学习路径，不是绝对的，仅供参考水云桐程序员学习大数据数据分析学习方法
阶段一：基础筑基（1-3个月）1.编程语言：Python：掌握基础语法、数据结构、流程控制、函数、面向对象编程、常用库（NumPy,Pandas）。SQL：精通SELECT语句（过滤、排序、分组、聚合、连接）、DDL/DML基础。理解关系型数据库概念（表、主键、外键、索引）。MySQL或PostgreSQL是很好的起点。Java/Scala：深入理解Hadoop/Spark等框架会更有优势。初学者
头歌作业-HBase 开发：使用Java操作HBase http_lizi hbase java python
第一关packagestep1;importjava.io.IOException;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.hbase.HBaseConfiguration;importorg.apache.hadoop.hbase.HColumnDescriptor;importorg.apache.h
HDFS中fsimage和edits究竟是什么清平乐的技术博客大数据运维 hdfs hadoop 大数据
fsimage和edits是HadoopHDFS(Hadoop分布式文件系统)中的两个关键组件，用于存储文件系统的元数据，以确保文件系统的持久性和一致性。在理解它们的作用之前，我们先了解一下HDFS的基本工作原理。HDFS采用了一种分布式文件系统的架构，其中数据被划分成块并分布在不同的数据节点上，而元数据(文件和目录的信息)则由单独的组件进行管理。元数据的持久性和一致性非常重要，因为文件系统的正确
spark处理kafka的用户行为数据写入hive 月光一族吖 spark kafka hive
在CentOS上部署Hadoop（Hadoop3.4.1）和Hive（Hive3.1.2）的详细步骤说明。这份指南面向单机安装（伪集群模式），如果需要搭建真正的多节点集群，各节点间的网络互访、SSH免密登录以及配置同步需进一步调整。注意：本指南假设你已拥有root权限或者具有sudo权限，并且系统连接Internet（用于下载安装包）。步骤中的版本号可根据实际需要进行更改。一、环境准备更新系统软件
【Hadoop】Hadoop车辆数据存储 db_hjx_2066 java hadoop
Hadoop车辆数据存储本作业旨在实现将车辆数据按天存储到Hadoop分布式文件系统（HDFS）中，并根据数据文件大小分割成多个文件进行存储。数据格式为JSON。作业要求车辆数据按天存储，每天的数据存储在一个文件夹下。数据文件以JSON格式存储。如果数据文件大于100M，则另起一个文件存储。每天的数据总量不少于300M。实现方法1.代码说明以下是用Java编写的实现代码：1.导入类//导入必要的类
计算机毕业设计之基于Hadoop的公共自行车数据分布式存储与计算
如今，在科学技术飞速发展的情况下，信息化的时代也已因为计算机的出现而来临，信息化也已经影响到了社会上的各个方面。它可以为人们提供许多便利之处，可以大大提高人们的工作效率。随着计算机技术的发展的普及，各个领域也都体会到其强大的数据处理能力，这也成为各行各业不可或缺的工具。所以计算机技术被广泛应用于信息管理系统和数据处理等方面。通过它可以大大减少相关的工作处理步骤，也可以提高信息和数据的安全性。本文对
如何学习才能更好地理解人工智能工程技术专业和其他信息技术专业的关联性？人工智能教学实践 python编程实践人工智能学习人工智能
要深入理解人工智能工程技术专业与其他信息技术专业的关联性，需要跳出单一专业的学习框架，通过“理论筑基-实践串联-跨学科整合”的路径构建系统性认知。以下是分阶段、可落地的学习方法：一、建立“专业关联”的理论认知框架绘制知识关联图谱操作方法：用XMind或Notion绘制思维导图，以AI为中心，辐射关联专业的核心技术节点。例如：AI（机器学习）├─数据支撑：大数据技术（Hadoop/Spark）+数据
HDFS与HBase有什么关系？ lucky_syq hdfs hbase hadoop
1、HDFS文件存储系统和HBase分布式数据库HDFS是Hadoop分布式文件系统。HBase的数据通常存储在HDFS上。HDFS为HBase提供了高可靠性的底层存储支持。Hbase是Hadoopdatabase，即Hadoop数据库。它是一个适合于非结构化数据存储的数据库，HBase基于列的而不是基于行的模式。
大数据基础知识-Hadoop、HBase、Hive一篇搞定原来是猪猪呀 hadoop 大数据分布式
HadoopHadoop是一个由Apache基金会所开发的分布式系统基础架构，其核心设计包括分布式文件系统（HDFS）和MapReduce编程模型；Hadoop是一个开源的分布式计算框架，旨在帮助用户在不了解分布式底层细节的情况下，开发分布式程序。它通过利用集群的力量，提供高速运算和存储能力，特别适合处理超大数据集的应用程序。Hadoop生态圈Hadoop生态圈是一个由多个基于Hadoop开发的相
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 [email protected] * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，