Augenstern K

Hadoop的第二个核心组件：MapReduce框架第四节

Hadoop的第二个核心组件：MapReduce框架

十、MapReduce的特殊应用场景
- 1、使用MapReduce进行join操作
- 2、使用MapReduce的计数器
- 3、MapReduce做数据清洗
十一、MapReduce的工作流程：详细的工作流程
- 第一步：提交MR作业资源
- 第二步：运行MapTask任务
- 第三步：运行ReduceTask任务
- 第四步：输出计算结果
十二、MR程序运行的问题总结
- 1、如何在控制台输出日志文件
- 2、运行MR程序报错HDFS的权限问题
- 3、当MR程序打成JAR包以后，在Hadoop集群的YARN上运行的时候，报错ClassNotFoundException: xxxxx.xxMapper
- 4、当MR程序打成JAR包以后，在Hadoop集群的YARN上运行的时候，报错资源不足的问题
十三、MR项目创建使用的细节问题
- 1、创建时需要导入的依赖以及相关配置性问题
- 2、MR项目的打包在Hadoop集群运行
十四、MapReduce的调优相关知识点 —— 压缩机制
十五、MapReduce的应用场景
十六、MapReduce中的优化问题

十、MapReduce的特殊应用场景

1、使用MapReduce进行join操作

MapReduce可以对海量数据进行计算，但是有些情况下，计算的结果可能来自于多个文件，每个文件的数据格式是不一致，但是多个文件存在某种关联关系，类似于MySQL中外键关系，如果想计算这样的结果，MR程序也是支持的。这种计算我们称之为join计算。

MR的join根据join数据的位置分为两种情况：1、Map端的Join操作，2、Reduce端的join操作。

第一种Join使用：Reduce端的Join操作

思维就是在map端将多个不同格式的文件全部读取到，然后根据不同文件的格式对数据进行切割，切割完成以后，将数据进行封装，然后以多个文件的共同字段当作key,剩余字段当作value发送给reduce。

reduce端根据共同的key值，把value数据进行聚合，聚合完成以后，进行多文件的join操作。

Reduce端的join存在的问题：非常容易出现数据倾斜问题：
	如果多个进行join的文件数据量相差过大，就非常容易出现数据倾斜问题 —— 大文件join小文件容易出现这个问题
	
    假如order.txt文件300M，product.txt 10M
    如果采用的默认切片机制，那么这两个文件切成4片
    order.txt   128M   128M  44M
    product.txt   10m
    
    Reduce阶段也能会出现数据倾斜问题，不同key值对应的数据量相差过大

案例分析：

/**
 * 现在有两个文件，第一个文件代表商品销售数据，另外一个文件代表商品的详细信息
 * 两个文件的内容分别如下：
 * 1、order.txt  订单文件---每一行数据的多个字段以\t分割
 *    order_id-订单编号    pid--商品id  account--商品的数量
 *    o001                     p001        10
 *    o001                     p002        5
 *    o002                     p003        11
 *    o002                     p002        1
 * 2、product.txt  商品文件---每一行数据的多个字段是以空格进行分割的
 *   pid--商品id    pname-商品的名字
 *   p001           小米
 *   p002           自行车
 *   p003           电视机
 *
 * 使用MR程序实现如下的效果展示 最终的结果每一行以\t分割的
 *   order_id     pid  pname   account
 *   o001         p001 小米     10
 *   o001         p002 自行车   5
 *
 *   核心逻辑：借助MapReduce实现一种类似于MySQL的多表连接查询功能。
 *     MR实现有两种方式：map端的join   reduce端join
 */

package com.kang.join.reducce;

import org.apache.commons.beanutils.BeanUtils;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;
import java.lang.reflect.InvocationTargetException;
import java.net.URI;
import java.net.URISyntaxException;
import java.util.ArrayList;
import java.util.List;

/**
 * MR的第一种join方式:reduce端的join
 * 思维：
 * 1、通过map阶段读取两个文件的数据
 * 2、map阶段先获取当前行kv到切片数据对应的文件，然后根据文件进行不同方式的切割。
 * 3、然后对切割的数据进行封装（将数据传输到reduce进行聚合的），如果要在reduce端做join操作
 * 需要在map端输出数据时，以两个文件的关联字段当作key值进行传输，以两个文件的剩余字段当作value传输
 *
 * 自定义JavaBean,JavaBean包含两个文件的所有字段，同时还需要包含一个标识字段（数据来自于哪个文件的），
 * 然后使用JavaBean封装两个文件的不同数据。
 */
public class FirstDriver {
    public static void main(String[] args) throws IOException, URISyntaxException, InterruptedException, ClassNotFoundException {
        Configuration configuration = new Configuration();
        configuration.set("fs.defaultFS","hdfs://192.168.31.104:9000");

        Job job = Job.getInstance(configuration);
        job.setJarByClass(FirstDriver.class);

        FileInputFormat.setInputPaths(job,new Path("/join"));

        job.setMapperClass(FirstMapper.class);
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(OrderProductBean.class);

        job.setReducerClass(FirstReducer.class);
        job.setOutputKeyClass(OrderProductBean.class);
        job.setOutputValueClass(NullWritable.class);
        job.setNumReduceTasks(1);

        Path path = new Path("/joinOutput");
        FileSystem fs = FileSystem.get(new URI("hdfs://192.168.31.104:9000"), configuration, "root");
        if (fs.exists(path)){
            fs.delete(path,true);
        }
        FileOutputFormat.setOutputPath(job,path);

        boolean flag = job.waitForCompletion(true);
        System.exit(flag?0:1);
    }
}
class FirstMapper extends Mapper<LongWritable, Text,Text,OrderProductBean>{
    /**
     * map方法读取的每一行的kv数据，kv数据可能是订单文件的数据，也可能是商品文件的数据
     * @param key
     * @param value
     * @param context 上下文对象  context也可以获取每一个kv对应的切片中文件名
     * @throws IOException
     * @throws InterruptedException
     */
    @Override
    protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, OrderProductBean>.Context context) throws IOException, InterruptedException {
        //代表获取当前kv数据的切片
        FileSplit fileSplit = (FileSplit) context.getInputSplit();
        //获取kv数据 在切片中属于哪个文件的
        Path path = fileSplit.getPath();
        //拿到文件的名字
        String name = path.getName();
        String line = value.toString();
        //if如果属于订单文件数据，如何切割 如何封装
        if (name.equals("order.txt")){
            String[] array = line.split("\t");
            String orderId = array[0];
            String pId = array[1];
            int account = Integer.parseInt(array[2]);
            OrderProductBean orderProductBean = new OrderProductBean(orderId,pId,account,"order");
            context.write(new Text(pId),orderProductBean);
        }else {
            //else代表是如果是商品文件，如何切割 如何封装
            String[] array = line.split(" ");
            String pId = array[0];
            String pName = array[1];
            OrderProductBean orderProductBean  = new OrderProductBean(pId,pName,"product");
            context.write(new Text(pId),orderProductBean);
        }
    }
}

/**
 * reduce端就是根据pid把订单表和商品表对应的信息聚合起来，聚合起来的结果肯定某一件商品的订单信息和商品信息
 *    key      values
 *   p001   o001,p001,10,order    p001,小米,product
 *   p002   o001,poo2,5,order     o002,p002,1,order   p002,自行车,product
 */
class FirstReducer extends Reducer<Text,OrderProductBean, OrderProductBean, NullWritable>{
    @Override
    protected void reduce(Text key, Iterable<OrderProductBean> values, Reducer<Text, OrderProductBean, OrderProductBean, NullWritable>.Context context) throws IOException, InterruptedException {
        //放当前商品id对应的所有的订单信息
        List<OrderProductBean> orders = new ArrayList<>();
        //当前商品的商品信息
        OrderProductBean productBean = new OrderProductBean();//商品信息
        /**
         * MapReduce当中，values集合中的bean都是同一个bean
         * 如果要把values的bean加到一个集合中，我们需要创建一个全新的bean，把values中bean的数据
         * 复制到全新的bean当中 然后全新的bean加到集合中 这样的话不会出现数据错乱
         */
        for (OrderProductBean bean : values) {
            if (bean.getFlag().equals("order")){
                OrderProductBean orderBean = new OrderProductBean();
                try {
                    //BeanUtils是apache提供的一个工具类，工具类实现把一个Java对象的属性复制到另外一个Java对象当中
                    BeanUtils.copyProperties(orderBean,bean);//bean复制给orderBean
                    orders.add(orderBean);
                } catch (IllegalAccessException e) {
                    throw new RuntimeException(e);
                } catch (InvocationTargetException e) {
                    throw new RuntimeException(e);
                }
            }else {
                try {
                    BeanUtils.copyProperties(productBean,bean);
                } catch (IllegalAccessException e) {
                    throw new RuntimeException(e);
                } catch (InvocationTargetException e) {
                    throw new RuntimeException(e);
                }
            }
        }
        for (OrderProductBean order : orders) {
            order.setpName(productBean.getpName());
            context.write(order,NullWritable.get());
        }
    }
}

package com.kang.join.reducce;

import org.apache.hadoop.io.Writable;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

/**
 * JavaBean是用来封装两个不同文件的数据的
 * JavaBean包含两个文件的所有字段
 */
public class OrderProductBean implements Writable {
    private String orderId = "";
    private String pId = "";
    private String pName = "";
    private Integer account = 0;
    private String flag = "";//代表的是一个标识，标识是用来标识JavaBean封装的是订单数据还是商品数据

    public OrderProductBean() {
    }

    /**
     * 专门是用来封装订单数据文件信息的
     * @param orderId
     * @param pId
     * @param account
     * @param flag
     */
    public OrderProductBean(String orderId, String pId, Integer account, String flag) {
        this.orderId = orderId;
        this.pId = pId;
        this.account = account;
        this.flag = flag;
    }

    /**
     * 专门是用来封装商品信息数据的
     * @param pId
     * @param pName
     * @param flag
     */
    public OrderProductBean(String pId, String pName, String flag) {
        this.pId = pId;
        this.pName = pName;
        this.flag = flag;
    }

    public String getOrderId() {
        return orderId;
    }

    public void setOrderId(String orderId) {
        this.orderId = orderId;
    }

    public String getpId() {
        return pId;
    }

    public void setpId(String pId) {
        this.pId = pId;
    }

    public String getpName() {
        return pName;
    }

    public void setpName(String pName) {
        this.pName = pName;
    }

    public Integer getAccount() {
        return account;
    }

    public void setAccount(Integer account) {
        this.account = account;
    }

    public String getFlag() {
        return flag;
    }

    public void setFlag(String flag) {
        this.flag = flag;
    }

    @Override
    public String toString() {
        return orderId + "\t" + pId + "\t" + pName + "\t" + account;
    }

    @Override
    public void write(DataOutput out) throws IOException {
        out.writeUTF(orderId);
        out.writeUTF(pId);
        out.writeUTF(pName);
        out.writeInt(account);
        out.writeUTF(flag);
    }

    @Override
    public void readFields(DataInput in) throws IOException {
        orderId = in.readUTF();
        pId = in.readUTF();
        pName = in.readUTF();
        account = in.readInt();
        flag = in.readUTF();
    }
}

第二种join使用：map端的join操作

map端的join适用于如果两个需要做join操作文件数据量相差过大的情况下，map端的join操作可以尽最大可能避免map端的数据倾斜问题的出现，如果使用map端的join的话，我们就不需要reduce阶段。

map的join操作的核心逻辑是：将小文件缓存起来，大文件正常使用MR程序做切片做读取。
在驱动程序中通过job.addCacheFile(new URI("XXXXX"))方法缓存小文件，小文件可以缓存无数个（小于100M）
在mapper阶段的setup方法中通过context.getCacheFiles方法获取到缓存的文件，然后通过IO流读取小文件数据，在MapTask中使用Map集合把小文件缓存起来，缓存的时候以小文件和大文件的关联字段当作map集合的key值。

案例分析：

package com.kang.join.map;

import com.kang.join.reducce.FirstDriver;
import com.kang.join.reducce.OrderProductBean;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.URI;
import java.net.URISyntaxException;
import java.util.HashMap;
import java.util.Map;

/**
 * Map端的join操作：
 * 核心逻辑：在MR执行的时候，将小文件在内存中缓存起来，然后map阶段从缓存当中把缓存的小文件读取到，将小文件数据
 * 在内存保存起来，然后大文件正常使用MR程序进行切片读取，map方法每读取到一个大文件中一行数据，将这一行数据
 * 的关联字段获取到，然后根据关联字段从map缓存的小文件数据中获取对应的数据添加上。
 */
public class SecondDriver {
    public static void main(String[] args) throws Exception{
        Configuration configuration = new Configuration();
        configuration.set("fs.defaultFS","hdfs://192.168.31.104:9000");

        Job job = Job.getInstance(configuration);
        job.setJarByClass(FirstDriver.class);

        /**
         * 输入文件只输入大文件order.txt 小文件不这样输入，因为小文件这样输入会产生小切片，小切片会导致数据倾斜问题
         */
        FileInputFormat.setInputPaths(job,new Path("/join/order.txt"));
        job.addCacheFile(new URI("hdfs://192.168.31.104:9000/join/product.txt"));

        job.setMapperClass(SecondMapper.class);
        job.setOutputKeyClass(NullWritable.class);
        job.setOutputValueClass(OrderProductBean.class);

        job.setNumReduceTasks(0);

        Path path = new Path("/mapOutput");
        FileSystem fs = FileSystem.get(new URI("hdfs://192.168.31.104:9000"), configuration, "root");
        if (fs.exists(path)){
            fs.delete(path,true);
        }
        FileOutputFormat.setOutputPath(job,path);

        boolean flag = job.waitForCompletion(true);
        System.exit(flag?0:1);
    }
}
/**
 * 做map端的join 最核心的逻辑就是 在map方法读取大文件数据之前，先从缓存中把小文件获取到，然后把小文件中数据先保存起来
 * 保存的时候以key-value的形式保存 key是大小文件的关联字段，value是剩余的数据
 *
 * Mapper中除了map方法以外 还有一个方法setup方法 setup方法会在map方法执行之前执行，而且只会执行一次
 */
class SecondMapper extends Mapper<LongWritable,Text,NullWritable,OrderProductBean>{
    private Map<String,String> product = new HashMap<>();//缓存的产品信息的属性
    /**
     * setup方法每一个mapTask只执行一次，在map方法之前执行的
     * @param context
     * @throws IOException
     * @throws InterruptedException
     */
    @Override
    protected void setup(Mapper<LongWritable, Text, NullWritable, OrderProductBean>.Context context) throws IOException, InterruptedException {
        URI[] cacheFiles = context.getCacheFiles();
        URI uri = cacheFiles[0];
        String path = uri.getPath();
        BufferedReader br = null;
        try {
            FileSystem fs = FileSystem.get(new URI(context.getConfiguration().get("fs.defaultFS")), context.getConfiguration(), "root");
            FSDataInputStream inputStream = fs.open(new Path(path));
            br = new BufferedReader(new InputStreamReader(inputStream));
            String line = null;
            while ((line = br.readLine()) != null){
                String[] array = line.split(" ");
                String pId = array[0];
                String pName = array[1];
                product.put(pId,pName);
            }
        } catch (URISyntaxException e) {
            throw new RuntimeException(e);
        }finally {
            br.close();
        }
    }

    @Override
    protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, NullWritable, OrderProductBean>.Context context) throws IOException, InterruptedException {
        String line = value.toString();
        String[] array = line.split("\t");
        String orderId = array[0];
        String pId = array[1];
        int account = Integer.parseInt(array[2]);
        String pName = product.get(pId);
        OrderProductBean orderProductBean = new OrderProductBean(orderId,pId,pName,account);
        context.write(NullWritable.get(),orderProductBean);
    }
}

2、使用MapReduce的计数器

计数器是MR程序运行过程中提供的一种的特殊的计数机制，计数器可以帮助我们查看MR程序运行过程中的数据量的变化趋势或者是我们感兴趣的一些数据量的变化。

计数器在MR程序中自带了很多计数器，计数器只能累加整数类型的值，最后把计数器输出到我们的日志当中。

计数器是由三部分组成的：

计数器组：一个计数器组当中可以包含多个计数器
计数器：真正用来记录记录数的东西，计数器一般都是一个字符串的名字
计数器的值：计数器的值都是整数类型

计数器在map阶段和reduce阶段都有的，如果在map阶段写的计数器，是在map任务结束之后会输出，如果在reduce阶段使用的计数器，reduce阶段执行完成输出。

计数器的使用有两种方式：

1、直接使用字符串的形式进行操作
context.getCounter(String groupName,String counterName).increment(long num)
2、使用Java的枚举类的形式操作计数器 —— 先定义一个枚举类
```
enum MyCounters{
    UPPERCOUNT,LOWERCOUNT;
}
然后在reduce中加入
context.getCounter(MyCounters.LOWERCOUNT).increment(1);
```
context.getCounter(enumObject).increment(long num)

计数器组的名字就是枚举类的类名
计数器的名字就是枚举类的对象名

计数器使用的时候，每一个MapTask或者ReduceTask单独输出它这个任务计数器的结果，等MR程序全部运行完成，计数器会把所有MapTask或者ReduceTask中相同的计数器结果累加起来，得到整个MR程序中计数器的结果。

合理利用计数器和查看计数器可以检测MR程序运行有没有数据倾斜问题的出现。

3、MapReduce做数据清洗

有时候需要把一些数据中不合法，非法的数据通过MapReduce程序清洗过滤掉，因此数据只需要清洗掉即可，不需要做任何的聚合操作，所以一般涉及到数据清洗操作只需要mapper阶段即可，reduce阶段我们不需要。

如果需要过滤数据，只需要在mapepr阶段将读取到的数据按照指定的规则进行筛选，筛选符合条件的数据通过context.write写出，不符合要求的数据，只要不调用context,write方法自然而言就过滤掉了

案例分析：

package com.kang.filter;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;
import java.net.URI;
import java.net.URISyntaxException;
/**
 * 单词文件中中包含大写字母H的单词全部过滤调用，只保留不包含大写字母H的单词
 * 输出的时候一个单词输出一行
 */
public class FilterDriver {
    public static void main(String[] args) throws IOException, URISyntaxException, InterruptedException, ClassNotFoundException {
        Configuration configuration = new Configuration();
        configuration.set("fs.defaultFS","hdfs://192.168.31.104:9000");

        Job job = Job.getInstance(configuration);
        job.setJarByClass(FilterDriver.class);

        job.setInputFormatClass(TextInputFormat.class);
        FileInputFormat.setInputPaths(job,"/wordcount.txt");

        job.setMapperClass(FilterMapper.class);
        job.setMapOutputKeyClass(NullWritable.class);
        job.setOutputValueClass(Text.class);

        job.setNumReduceTasks(0);

        Path path = new Path("/wcFilterOutput");
        FileSystem fs = FileSystem.get(new URI("hdfs://192.168.31.104:9000"), configuration, "root");
        if (fs.exists(path)){
            fs.delete(path);
        }
        FileOutputFormat.setOutputPath(job,path);

        boolean flag = job.waitForCompletion(true);
        System.exit(flag?0:1);
    }
}

class FilterMapper extends Mapper<LongWritable, Text, NullWritable,Text> {
    @Override
    protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, NullWritable, Text>.Context context) throws IOException, InterruptedException {
        String line = value.toString();
        String[] words = line.split(" ");
        for (String word : words) {
            if (word.contains("H")){
                continue;
            }else {
                context.write(NullWritable.get(),new Text(word));
            }
        }
    }
}

十一、MapReduce的工作流程：详细的工作流程

第一步：提交MR作业资源

1.1、InputFormat生成切片规划文件job.split文件

1.2、将整个MR程序的相关配置项全部封装到一个job.xml配置文件

1.3、借助jobSummitter提交切片规划文件以及配置文件到指定的目录

第二步：运行MapTask任务

2.1、通过InputFormat的createRecordReader读取对应切片的kv数据。

2.2、通过mapTask的map方法进行kv数据的处理。

2.3、调用context.write方法将map处理完成的kv数据写出，先计算kv数据的分区编号。

2.4、调用collector收集器将kv数据以及分区写出到环形缓冲区。

2.5、环形缓冲区到达一定的阈值之后，先对环形缓冲区数据进行排序，排好序之后将数据一次性溢写到文件中，清空溢写的数据缓冲区，溢写可能会发生多次，也就可能会产生多个溢写文件，当map任务运行完成，多个溢写文件会合并成一个大的溢写文件spill.out，同时合并大文件需要进行排序。

2.6、溢写的过程中如果设置了Combiner，那么溢写的过程中会进行Combiner操作，Combiner到底什么时机执行，不一定，Combiner作用是为了减少了map溢写的数据量以及map向reduce传输的数据量。

第三步：运行ReduceTask任务

3.1、copy阶段：先从不同的MapTask上拷贝指定分区的数据到达ReduceTask的节点内存，内存放不下，溢写磁盘文件中。

3.2、merge阶段：拷贝数据到ReduceTask中，溢写数据的时候会进行合并操作，减少溢写文件的产生。

3.3、Sort阶段：按照指定的分组规则对数据进行聚合，同时对merge合并完成的数据进行一次排序。

【注】2.3 —— 3.3 为mapreduce中的shuffle机制

3.4、执行Reduce方法，一组相同key调用一次reduce方法。

第四步：输出计算结果

reduce计算完成，调用context.write方法写出key value数据，MR底层会调用OutputFormat的实现类实现数据到文件的写出

十二、MR程序运行的问题总结

1、如何在控制台输出日志文件

MR程序运行需要在控制台输出日志，MR程序控制台输出的日志能清晰看到MR程序切片数量以及MapTask的数量和ReduceTask的数量
但是默认情况下控制台是无法输出日志的，如果要输出日志信息，我们需要对代码进行修改

1、需要在项目的resources目录引入log4j.properties文件
日志信息输出文件，文件当中定义了我们如何输出日志信息

2、引入一个日志框架的依赖，如果没有这个依赖，那么日志文件不会生效输出  pom.xml
    <dependency>
      <groupId>org.slf4jgroupId>
      <artifactId>slf4j-log4j12artifactId>
      <version>1.7.21version>
    dependency>

2、运行MR程序报错HDFS的权限问题

问题的原因:
	MR程序运行过程中需要在HDFS创建目录，并且向目录中写入MR程序运行结果，但是如果我们是在windows本地运行代码，MR程序在运行中，会使用windows上的用户名当作HDFS用户进行写操作权限，但是默认情况下，HDFS上除了root用户以外，其他用户基本上都是无权限写入的

报错解决方案:
	1、简单粗暴，但是不安全：给HDFS的根目录赋予一个777最高权限，不安全 ---- 禁止大家操作
	2、MR程序在运行的时候，指定HDFS的用户为root用户而非windows本地的用户（建议大家使用） —— 见下面详细的图文操作
在MR程序的 vm options中增加一个配置项：-DHADOOP_USER_NAME=root
	3、在HDFS集群中配置忽略权限检查，这个效果等同于第一种设置的方式hdfs-site.xml  必须在hdfs集群中配置，而非MR代码中
	  
          dfs.permissions.enabled
          false

3、当MR程序打成JAR包以后，在Hadoop集群的YARN上运行的时候，报错ClassNotFoundException: xxxxx.xxMapper

报错原因：
	不是因为类的class文件没有打包到jar包当中，而是因为hadoop运行jar包的时候，不知道如何在JAR包中寻找这个类

解决方案：
	只需要让Hadoop运行jar包能找到类即可，在Driver驱动程序当中配置一行代码即可
job.setJarByClass(xxxDriver.class);

4、当MR程序打成JAR包以后，在Hadoop集群的YARN上运行的时候，报错资源不足的问题

报错原因：
	1、虚拟机的资源太少，MR程序运行的时候，每一个map任务默认需要1024MB的内存
mapred-site.xml
<property>
　　<name>mapreduce.map.memory.mbname>
　　<value>250value>
property>
<property>
　　<name>mapreduce.map.java.optsname>
　　<value>-Xmx250Mvalue>
property>
<property>
　　<name>mapreduce.reduce.memory.mbname>
　　<value>300value>
property>
<property>
　　<name>mapreduce.reduce.java.optsname>
　　<value>-Xmx300Mvalue>
property>

	2、资源不足之后，YARN会把一些已经分配了资源的MapTask强制杀死，之所以会杀死，是因为YARN会进行资源的检查，如果不想报这个错，还有一种方案，关闭YARN的资源检测
yarn-site.xml（不建议添加此配置项）
<property>
	   <name>yarn.nodemanager.vmem-check-enabledname>
	   <value>falsevalue>
property>

【注意】：MR程序的jar包的运行命令如下：
hadoop jar jar包的路径 jar包中的Driver驱动程序的全限定类名参数1 参数2 …

十三、MR项目创建使用的细节问题

1、创建时需要导入的依赖以及相关配置性问题

导入的依赖

hadoop-client
hadoop-hdfs
slf4j-log4j12：查看MR程序的运行日志

还需要在resources目录下引入一个log4j.properties文件，文件查看日志

同时还可以在resources目录引入Hadoop的相关配置文件：core-site.xml  hdfs-site.xml   yarn-site.xml   mapred-site.xml
如果引入这些配置文件，那么MR程序在运行的时候，配置文件生效的范围:
Configuration配置文件对象----->resources目录下引入配置文件----->大数据环境下配置的配置文件（MR程序必须运行在大数据集群中，而非windows上，如果是在windows上运行，那么使用的默认配置）

2、MR项目的打包在Hadoop集群运行

#概念
在windows上只是测试运行的，使用的环境不是大数据环境，因此无法做到分布式运行，如果真的想让MR程序分布式运行，我们需要将本地编写好的MR程序打成一个jar包，上传到Hadoop集群的某个节点，然后使用
hadoop  jar   xxx.jar    xxx.xxxDriver  运行MR程序

windows的idea打jar包有两种方式:
1、自己手动生成jar包
	file--->project  structure---->artifacts--->+--->jar 
2、借助maven自动化构建工具生成jar包 
	
【注意】如果我们需要在Hadoop集群上运行，那么必须启动YARN

#复习补充知识点
1、MR程序在运行的时候，job提交作业的时候会自动识别我们的运行环境，如果我们是在windows本地运行的话，MR程序识别的环境为LocalRunner这么一个环境，这个环境是windows的模拟分布式的环境，因此我们MR程序基本上都是在windows上测试没有问题之后，打成jar包，提交给Hadoop集群的YARN进行运行。
2、如果将代码打成JAR包，部署到大数据集群上运行，也不一定是分布式运行，这个得看我们的配置
	本地安装模式：有一个特点，如果是在本地安装模式下运行，MR程序也不是分布式运行，采用的也是模拟的运行环境，而非YARN
	伪分布式安装模式、完全分布式安装模式、HA高可用安装模式：需要修改配置文件，其中在mapred-site.xml文件中专门配置了MR的运行环境在YARN上运行的
mapreduce.framework.name     yarn模式
如果在三种安装模式当中，如果没有配置上述的选项，那么就算YARN启动成功了，MR程序也不会在YARN上运行，还是使用local本地模拟环境

手动生成jar包

选择运行主类

至此手动jar包生成完毕！

将此jar包传输到Hadoop集群的环境下进行运行，并在虚拟机中通过命令运行jar包

借助maven自动化构建工具生成jar包

原理：maven是一个自动化构建工具，maven工具除了可以帮助我们自动引入第三方编程依赖以外，他还有一个最核心最重要的功能：帮助进行项目的自动化构建管理。

maven的生命周期：maven用来管理项目的编译、测试和打包的

如果只运行后面的后面的周期，前面的生命周期也会自动触发
如果前面的生命周期运行失败，那么后面的运行周期就无法执行

maven每一个生命周期之所以帮助我们做对应的操作，是因为maven底层有一些插件，点击对应的生命周期时，调用底层的默认插件帮助我们完成操作，如果插件打包出现的效果不是我们需要的，那么我们就可以把maven生命周期对应的插件给替换了即可。

十四、MapReduce的调优相关知识点 —— 压缩机制

MapReduce运行中，可能会产生很多影响MR计算效率的一些问题：数据倾斜问题、大量的磁盘IO、小文件过多…

针对磁盘IO问题，MR程序出现了一种压缩和解压缩机制，可以解决MR程序运行中涉及到大量磁盘IO的问题

压缩和解压缩是MR程序提供的一种，在Map输出或者Reduce输出，或者Map输入之前，可以通过指定的压缩算法对文件或者中间数据进行压缩，这样的话可以减少磁盘IO的数据量，如果我们在map的中间输出指定了压缩，那么reduce拉取会数据之后，会根据指定的压缩机制对压缩的数据进行解压缩。
压缩机制确实可以提升我们MR程序的运行效率，但是也是有成本的，压缩因为使用专门的算法，算法越复杂，压缩的时候程序的CPU的负载越大。
压缩适用于IO密集的MR程序，计算密集的MR程序不适用
常用的压缩算法的适用场景
- gzip
  - 1、压缩的文件无法被MapReduce切片。
  - 2、压缩效率和压缩速度都相对而言比较快，如果一个文件压缩之后在128兆左右的话可以适用这个压缩机制。
- bzip2
  - 1、压缩的文件支持切片的。
  - 2、压缩效率很高，但是压缩速度非常慢，如果我们MR程序对时间要求不高，但是数据量非常庞大的情况下。
- snappy
  - 1、压缩文件不支持切片。
  - 2、压缩速度非常快，是所有压缩算法中最快的了，压缩的效率比gzip低。
以上三种Hadoop其实都是支持的，只不过snappy只能大数据环境中使用，无法在windows本地使用。
- lzo
  - 1、压缩的文件支持切片，但是如果要支持切片是非常复杂的，MR程序支持适用lzo算法，但是MR程序没有自带这个算法。
  - 2、压缩效率不高，胜在速度非常快。
  - 使用比较麻烦的，因为Hadoop没有自带这个算法，使用的话得需要下载插件，引入依赖…
- lz4
  - 速度比lzo快一点但是不支持切片。
MapReduce程序可以压缩数据的位置
- Map的输入
  - 采用一些支持切片的压缩机制：bzip2、lzo。
  - gzip和snappy也可以用，只不过最好保证数据压缩之后在128兆左右。
- Map的输出
  - snappy机制
- Reduce的输出
  - 最好也是支持切片的压缩机制
在MapReduce中开启压缩机制
- 在MR中使用压缩机制，不需要我们去进行手动的压缩和解压缩，只需要在MR的合适的位置指定我们使用的是何种压缩机制，MR程序会自动的调用设置的压缩和解压缩算法进行自动化操作。
- Mapper的输入开启压缩
  - 只需要在Configuration或者core-site.xml文件增加如下一行配置即可：
    配置名：io.compression.codecs
    配置值：org.apache.hadoop.io.compress.DefaultCodec, org.apache.hadoop.io.compress.GzipCodec, org.apache.hadoop.io.compress.BZip2Codec,org.apache.hadoop.io.compress.Lz4Codec,org.apache.hadoop.io.compress.SnappyCodec
  - 只需要把上述配置配置好，MR程序在处理输入文件时，如果输入文件是上述配置的压缩的后缀。
- Mapper的输出可以开启压缩
  - mapreduce.map.output.compress true/false
  - mapreduce.map.output.compress.codec org.apache.hadoop.io.compress.GzipCodec
- Reduce的输出可以开启压缩
  - FileOutputFormat.setCompressOutput(job,true);//是否开启输出压缩
    FileOutputFormat.setOutputCompressorClass(job, GzipCodec.class);//reduce输出压缩使用的压缩机制.
可以使用如下命令检查Hadoop集群目前本身不需要安装插件就支持的压缩算法
- hadoop checknative

十五、MapReduce的应用场景

1、离线数据处理的场景下：数据对实时性要求不高（MR程序运行中涉及到大量的磁盘IO和网络传输，因此会导致MR程序计算效率“不是很高”）。

2、适用于数据量比较庞大的文件，小文件操作不占优势，处理TB/PB级别规模的数据。

十六、MapReduce中的优化问题

MapReduce虽然是大数据中一个分布式计算框架，确实可以计算海量的数据，但是MR程序在运算过程中涉及到大量的磁盘IO和网络传输，所以导致MR程序的运行效率相比于其他大数据计算框架效率不是很高。

因此开发MapReduce程序的时候，为了让MR效率提高一点，可以对MR程序运行过程中的一些问题进行优化，尽可能的提升MR的计算效率。

MpReduce导致计算运行缓慢的原因：

1、硬件受限制
- 内存、CPU、硬盘的IO读写速度
- 掏钱解决
2、MR运行机制限制
- 数据倾斜问题
- MapTask、ReduceTask的任务数量设置
- MR运行过程中小文件过多
- MR运行过程中磁盘溢写，磁盘IO次数过多

MapReduce的运行优化解决问题：

Mapper输入阶段优化的措施
- 可能产生的问题：小文件过多、数据倾斜、某些大文件不可被切割
- 1、小文件过多的问题：CombinerTextInputFormat实现小文件的合并，减少小切片出现。
- 2、文件不可被切割，可以在MR程序处理之前，对文件数据重新进行压缩，压缩的时候选择可以被切片的压缩机制进行压缩。
- 3、map阶段的数据倾斜问题：合理的使用切片机制对输入的数据进行切片。
- 4、合理的使用压缩机制。
Mapper阶段优化的措施
- 可能产生的问题：环形缓冲区溢写的次数过多，溢写文件的合并次数过多，溢写和合并都涉及到磁盘IO。
- 1、溢写次数过多，那么加大环形缓冲区的容量以及溢写的阈值。mapred-site.xml/Configuration
  mapreduce.task.io.sort.mb 环形缓冲区的容量
  mapreduce.map.sort.spill.percent 溢写的比例小数
- 2、溢写的小文件并不是只合并一次，如果溢写的小文件超过设置的指定数量，先进行一次合并。
  mapreduce.task.io.sort.factor 默认值10
- 3、可以合理的利用的Mapper输出压缩，减少Mapper输出的数据量。
- 4、在不干扰MR逻辑运行的前提下，合理的利用的Combiner组件对Map端的数据进行局部汇总，可以减少Mapper输出的数据量。
Reduce阶段的优化措施
- 产生的问题：reduce的任务数设置不合理，Reduce端的数据倾斜问题、Reduce阶段拉取数据回来之后先写到内存中，内存放不下溢写磁盘（磁盘IO）。
- 1、任务书设置和数据倾斜问题：可以通过查看MR程序运行的计数器，自定义分区机制重新指定分区规则。
- 2、尽量不使用Reduce阶段。
- 3、MR程序中，默认如果Map任务运行没有结束，那么Reduce任务就无法运行。可以设置map任务和reduce任务共存（map任务没有全部运行结束，reduce也可以开始运行）。
  mapreduce.job.reduce.slowstart.completedmaps 0.05
- 4、合理的利用的Reduce端的输出压缩、也可以使用SequenceFile文件格式进行数据输出。

MapReduce的重试问题的优化：

MapReduce运行过程中，如果某一个Map任务或者reduce任务运行失败，MR并不会直接终止程序的运行，而是会对失败的map任务和reduce任务进行特定次数的重试，如果特定次数的重试之后Map和reduce都没有运行成功，MR才会认为运行失败。

mapreduce.map.maxattempts     4
mapreduce.reduce.maxattempts     4
mapreduce.task.timeout   	600000

你可能感兴趣的:(Hadoop,hadoop,mapreduce,前端)

Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
【加密社】Solidity 中的事件机制及其应用加密社闲侃区块链智能合约区块链
加密社引言在Solidity合约开发过程中，事件（Events）是一种非常重要的机制。它们不仅能够让开发者记录智能合约的重要状态变更，还能够让外部系统（如前端应用）监听这些状态的变化。本文将详细介绍Solidity中的事件机制以及如何利用不同的手段来触发、监听和获取这些事件。事件存储的地方当我们在Solidity合约中使用emit关键字触发事件时，该事件会被记录在区块链的交易收据中。具体而言，事件
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
springboot+vue项目实战一-创建SpringBoot简单项目苹果酱0567 面试题汇总与解析 spring boot 后端 java 中间件开发语言
这段时间抽空给女朋友搭建一个个人博客，想着记录一下建站的过程，就当做笔记吧。虽然复制zjblog只要一个小时就可以搞定一个网站，或者用cms系统，三四个小时就可以做出一个前后台都有的网站，而且想做成啥样也都行。但是就是要从新做，自己做的意义不一样，更何况，俺就是专门干这个的，嘿嘿嘿要做一个网站，而且从零开始，首先呢就是技术选型了，经过一番思量决定选择-SpringBoot做后端，前端使用Vue做一
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
最简单将静态网页挂载到服务器上(不用nginx) 全能全知者服务器 nginx 运维前端 html 笔记
最简单将静态网页挂载到服务器上(不用nginx)如果随便弄个静态网页挂在服务器都要用nignx就太麻烦了，所以直接使用Apache来搭建一些简单前端静态网页会相对方便很多检查Web服务器服务状态：sudosystemctlstatushttpd#ApacheWeb服务器如果发现没有安装web服务器：安装Apache：sudoyuminstallhttpd启动Apache：sudosystemctl
补充元象二面 Redstone Monstrosity 前端面试
1.请尽可能详细地说明，防抖和节流的区别，应用场景？你的回答中不要写出示例代码。防抖（Debounce）和节流（Throttle）是两种常用的前端性能优化技术，它们的主要区别在于如何处理高频事件的触发。以下是防抖和节流的区别和应用场景的详细说明：防抖和节流的定义防抖：在一段时间内，多次执行变为只执行最后一次。防抖的原理是，当事件被触发后，设置一个延迟定时器。如果在这个延迟时间内事件再次被触发，则重
微信小程序开发注意事项 jun778895 微信小程序小程序
微信小程序开发是一个融合了前端开发、用户体验设计、后端服务（可选）以及微信小程序平台特性的综合性项目。这里，我将详细介绍一个典型的小程序开发项目的全过程，包括项目规划、设计、开发、测试及部署上线等各个环节，并尽量使内容达到或超过2000字的要求。一、项目规划1.1项目背景与目标假设我们要开发一个名为“智慧校园助手”的微信小程序，旨在为学生提供一站式校园生活服务，包括课程表查询、图书馆座位预约、食堂
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
字节二面 Redstone Monstrosity 前端面试
1.假设你是正在面试前端开发工程师的候选人，面试官让你详细说出你上一段实习过程的收获和感悟。在上一段实习过程中，我获得了宝贵的实践经验和深刻的行业洞察，以下是我的主要收获和感悟：一、专业技能提升框架应用熟练度：通过实际项目，我深入掌握了React、Vue等前端框架的使用，不仅提升了编码效率，还学会了如何根据项目需求选择合适的框架。问题解决能力：在实习期间，我遇到了许多预料之外的技术难题。通过查阅文
前端代码上传文件余生逆风飞翔前端 javascript 开发语言
点击上传文件import{ElNotification}from'element-plus'import{API_CONFIG}from'../config/index.js'import{UploadFilled}from'@element-plus/icons-vue'import{reactive}from'vue'import{BASE_URL}from'../config/index'i
uniapp实现动态标记效果详细步骤【前端开发】 2401_85123349 uni-app
第二个点在于实现将已经被用户标记的内容在下一次获取后刷新它的状态为已标记。这是什么意思呢？比如说上面gif图中的这些人物对象，有一些已被该用户添加为关心，那么当用户下一次进入该页面时，这些已经被添加关心的对象需要以“红心”状态显现出来。这个点的难度还不算大，只需要在每一次获取后端的内容后对标记对象进行状态更新即可。II.动态标记效果实现思路和步骤首先，整体的思路是利用动态类名对不同的元素进行选择。
360前端星计划-动画可以这么玩马小蜗
动画的基本原理定时器改变对象的属性根据新的属性重新渲染动画functionupdate(context){//更新属性}constticker=newTicker();ticker.tick(update,context);动画的种类1、JavaScript动画操作DOMCanvas2、CSS动画transitionanimation3、SVG动画SMILJS动画的优缺点优点：灵活度、可控性、性能
Vue + Express实现一个表单提交九旬大爷的梦
最近在折腾一个cms系统，用的vue+express，但是就一个表单提交就弄了好久，记录一下。环境：Node10+前端：Vue服务端：Express依赖包：vueexpressaxiosexpress-formidableelement-ui（可选）前言：axiosget请求参数是：paramsaxiospost请求参数是：dataexpressget接受参数是req.queryexpresspo
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
前端知识点 ZhangTao_zata 前端 javascript css
下面是一个最基本的html代码body{font-family:Arial,sans-serif;margin:20px;}//JavaScriptfunctionthatdisplaysanalertwhencalledfunctionshowMessage(){alert("Hello!Youclickedthebutton.");}MyFirstHTMLPageWelcometoMyPage
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
第三十一节:Vue路由:前端路由vs后端路由的了解曹老师
1.认识前端路由和后端路由前端路由相对于后端路由而言的,在理解前端路由之前先对于路由有一个基本的了解路由:简而言之,就是把信息从原地址传输到目的地的活动对于我们来说路由就是:根据不同的url地址展示不同的页面内容1.1后端路由以前咱们接触比较多的后端路由,当改变url地址时,浏览器会向服务器发送请求,服务器根据这个url,返回不同的资源内容后端路由的特点就是前端每次跳转到不同url地址,都会重新访
华雁智科前端面试题因为奋斗超太帅啦前端笔试面试问题整理 javascript 开发语言 ecmascript
1.var变量的提升题目：vara=1functionfun(){console.log(b)varb=2}fun()console.log(a)正确输出结果：undefined、1答错了，给一个大嘴巴子，错误答案输出结果为：2,1此题主要考察var定义的变量，作用域提升的问题，相当于varaa=1functionfun(){varbconsole.log(b)b=2}fun()console.l
如何建设数据中台（五）——数据汇集—打破企业数据孤岛 weixin_47088026 学习记录和总结中台数据中台程序人生经验分享
数据汇集——打破企业数据孤岛要构建企业级数据中台，第一步就是将企业内部各个业务系统的数据实现互通互联，打破数据孤岛，主要通过数据汇聚和交换来实现。企业采集的数据可以是线上采集、线下数据采集、互联网数据采集、内部数据采集等。线上数据采集主要载体分为互联网和移动互联网两种，对应有系统平台、网页、H5、小程序、App等，可以采用前端或后端埋点方式采集数据。线下数据采集主要是通过硬件来采集，例如：WiFi
分布式锁和spring事务管理暴躁的鱼锁及事务分布式 spring java
最近开发一个小程序遇到一个需求需要实现分布式事务管理业务需求用户在使用小程序的过程中可以查看景点，对景点地区或者城市标记是否想去，那么需要统计一个地点被标记的人数，以及记录某个用户对某个地点是否标记为想去，用两个表存储数据，一个地点表记录改地点被标记的次数，一个用户意向表记录某个用户对某个地点是否标记为想去。由于可能有多个用户同时标记一个地点，每个用户在前端点击想去按钮之后，后台接收到请求，从数据
前端CSS面试常见题剑亦未配妥前端面试前端 css 面试
边界塌陷盒模型有两种：W3C盒模型和IE盒模型，区别在于宽度是否包含边框定义：同时给兄弟/父子盒模型设置上下边距，理论上边距值是两者之和，实际上不是注意：浮动和定位不会产生边界塌陷；只有块级元素垂直方向才会产生margin合并margin计算方案margin同为正负：取绝对值大的值一正一负：求和父子元素边界塌陷解决父元素可以通过调整padding处理；设置overflowhidden，触发BFC子
【JS】前端文件读取FileReader操作总结程序员-张师傅前端前端 javascript 开发语言
前端文件读取FileReader操作总结FileReader是JavaScript中的一个WebAPI，它允许web应用程序异步读取用户计算机上的文件（或原始数据缓冲区）的内容，例如读取文件以获取其内容，并在不将文件发送到服务器的情况下在客户端使用它。这对于处理图片、文本文件等非常有用，尤其是当你想要在用户界面中即时显示文件内容或进行文件预览时。创建FileReader对象首先，你需要创建一个Fi
【前端】vue 报错:The template root requires exactly one element 程序员-张师傅前端前端 vue.js javascript
【前端】vue报错:Thetemplaterootrequiresexactlyoneelement在Vue.js中，当你遇到错误“Thetemplaterootrequiresexactlyoneelement”时，这通常意味着你的Vue组件的模板（template）根节点不是单一的元素。Vue要求每个组件的模板必须有一个根元素来包裹所有的子元素。这个错误通常出现在以下几种情况：模板中有多个并行
从单体到微服务：FastAPI ‘挂载’子应用程序的转变黑金IT fastapi 微服务 fastapi 架构
在现代Web应用开发中，模块化架构是一种常见的设计模式，它有助于将大型应用程序分解为更小、更易于管理的部分。FastAPI，作为一个高性能的PythonWeb框架，提供了强大的支持来实现这种模块化设计。通过“挂载”子应用程序，我们可以为不同的功能区域（如前端接口、管理员接口和用户中心）创建独立的应用程序，并将它们整合到一个主应用程序中。本文将详细介绍如何在FastAPI中使用“挂载”子应用程序的方
创建一个完整的购物商城系统是一个复杂的项目，涉及前端（用户界面）、后端（服务器逻辑）、数据库等多个部分。由于篇幅限制，我无法在这里提供一个完整的系统代码，但我可以分别给出一些关键部分的示例代码，涵盖几 uthRaman 前端 ui 服务器
前端（HTML/CSS/JavaScript）grsyzp.cnHTML页面结构（index.html）html购物商城欢迎来到购物商城JavaScript（Ajax请求商品数据，app.js）javascriptdocument.addEventListener('DOMContentLoaded',function(){fetch('/api/products').then(response=
了解 UNPKG：前端开发者的包管理利器小于负无穷前端 javascript typescript css html5 node.js
在现代前端开发中，JavaScript包管理和模块化是至关重要的，而npm则是最流行的JavaScript包管理器之一。不过，随着前端项目复杂性的增加，有时候我们希望快速引入外部依赖，而无需本地安装和构建。此时，CDN（内容分发网络）成为了一种方便快捷的解决方案，而UNPKG就是这种方式中的佼佼者。什么是UNPKG？UNPKG是一个基于npm的内容分发网络（CDN），它允许开发者直接通过URL从n
前端three.js的Sprite模拟下雪动画效果 qq_35430208 three.js 前端 javascript 三维场景中下雪效果 threejs实现下雪效果
一、效果如图所示：二、原理同下雨一样三、完整代码：index.jsimport*asTHREEfrom'three';import{OrbitControls}from'three/addons/controls/OrbitControls.js';importmodelfrom'./model.js';//模型对象//场景constscene=newTHREE.Scene();scene.add
Enum用法不懂事的小屁孩 enum
以前的时候知道enum，但是真心不怎么用，在实际开发中，经常会用到以下代码: protected final static String XJ = "XJ"; protected final static String YHK = "YHK"; protected final static String PQ = "PQ";
【Spark九十七】RDD API之aggregateByKey bit1129 spark
1. aggregateByKey的运行机制 /** * Aggregate the values of each key, using given combine functions and a neutral "zero value". * This function can return a different result type
hive创建表是报错： Specified key was too long; max key length is 767 bytes daizj hive
今天在hive客户端创建表时报错，具体操作如下 hive> create table test2(id string); FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataSto
Map 与 JavaBean之间的转换周凡杨 java 自省转换反射
最近项目里需要一个工具类，它的功能是传入一个Map后可以返回一个JavaBean对象。很喜欢写这样的Java服务，首先我想到的是要通过Java 的反射去实现匿名类的方法调用，这样才可以把Map里的值set 到JavaBean里。其实这里用Java的自省会更方便，下面两个方法就是一个通过反射，一个通过自省来实现本功能。 1：JavaBean类 1 &nb
java连接ftp下载 g21121 java
有的时候需要用到java连接ftp服务器下载，上传一些操作，下面写了一个小例子。 /** ftp服务器地址 */ private String ftpHost; /** ftp服务器用户名 */ private String ftpName; /** ftp服务器密码 */ private String ftpPass; /** ftp根目录 */ private String f
web报表工具FineReport使用中遇到的常见报错及解决办法（二）老A不折腾 finereport web报表 java报表总结
抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、没有返回数据集：在存储过程中的操作语句之前加上set nocount on 或者在数据集exec调用存储过程的前面加上这句。当S
linux 系统cpu 内存等信息查看墙头上一根草 cpu 内存 liunx
1 查看CPU 　　1.1 查看CPU个数　　# cat /proc/cpuinfo | grep "physical id" | uniq | wc -l 　　2 　　**uniq命令：删除重复行;wc –l命令：统计行数** 　　1.2 查看CPU核数　　# cat /proc/cpuinfo | grep "cpu cores" | u
Spring中的AOP aijuans spring AOP
Spring中的AOP Written by Tony Jiang @ 2012-1-18 （转）何为AOP AOP，面向切面编程。在不改动代码的前提下，灵活的在现有代码的执行顺序前后，添加进新规机能。来一个简单的Sample: 目标类： [java] view plain copy print ? package&nb
placeholder(HTML 5) IE 兼容插件 alxw4616 JavaScript jquery jQuery插件
placeholder 这个属性被越来越频繁的使用. 但为做HTML 5 特性IE没能实现这东西. 以下的jQuery插件就是用来在IE上实现该属性的. /** * [placeholder(HTML 5) IE 实现.IE9以下通过测试.] * v 1.0 by oTwo 2014年7月31日 11:45:29 */ $.fn.placeholder = function
Object类,值域,泛型等总结(适合有基础的人看) 百合不是茶泛型的继承和通配符变量的值域 Object类转换
java的作用域在编程的时候经常会遇到,而我经常会搞不清楚这个问题,所以在家的这几天回忆一下过去不知道的每个小知识点变量的值域; package 基础; /** * 作用域的范围 * * @author Administrator * */ public class zuoyongyu { public static vo
JDK1.5 Condition接口 bijian1013 java thread Condition java多线程
Condition 将 Object 监视器方法（wait、notify和 notifyAll）分解成截然不同的对象，以便通过将这些对象与任意 Lock 实现组合使用，为每个对象提供多个等待 set （wait-set）。其中，Lock 替代了 synchronized 方法和语句的使用，Condition 替代了 Object 监视器方法的使用。条件（也称为条件队列或条件变量）为线程提供了一
开源中国OSC源创会记录 bijian1013 hadoop spark MemSQL
一.Strata+Hadoop World（SHW）大会是全世界最大的大数据大会之一。SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学以及最全面的大数据行业和趋势探讨。二.Hadoop &nbs
【Java范型七】范型消除 bit1129 java
范型是Java1.5引入的语言特性，它是编译时的一个语法现象，也就是说，对于一个类，不管是范型类还是非范型类，编译得到的字节码是一样的，差别仅在于通过范型这种语法来进行编译时的类型检查，在运行时是没有范型或者类型参数这个说法的。范型跟反射刚好相反，反射是一种运行时行为，所以编译时不能访问的变量或者方法(比如private)，在运行时通过反射是可以访问的，也就是说，可见性也是一种编译时的行为，在
【Spark九十四】spark-sql工具的使用 bit1129 spark
spark-sql是Spark bin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过 hive>输入的指令可以通过spark-sql>输入的指令来完成。 spark-sql可以使用内置的Hive metadata-store，也可以使用已经独立安装的Hive的metadata store 关于Hive build into Spark
js做的各种倒计时 ronin47 js 倒计时
第一种：精确到秒的javascript倒计时代码 HTML代码: <form name="form1"> <div align="center" align="middle"
java-37.有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接 bylijinnan java
public class MaxCatenate { /* * Q.37 有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接， * 问这n 个字符串最多可以连成一个多长的字符串，如果出现循环，则返回错误。 */ public static void main(String[] args){
mongoDB安装开窍的石头 mongodb安装基本操作
mongoDB的安装 1:mongoDB下载 https://www.mongodb.org/downloads 2:下载mongoDB下载后解压
[开源项目]引擎的关键意义 comsci 开源项目
一个系统，最核心的东西就是引擎。。。。。而要设计和制造出引擎，最关键的是要坚持。。。。。。现在最先进的引擎技术，也是从莱特兄弟那里出现的，但是中间一直没有断过研发的
软件度量的一些方法 cuiyadll 方法
软件度量的一些方法http://cuiyingfeng.blog.51cto.com/43841/6775/在前面我们已介绍了组成软件度量的几个方面。在这里我们将先给出关于这几个方面的一个纲要介绍。在后面我们还会作进一步具体的阐述。当我们不从高层次的概念级来看软件度量及其目标的时候，我们很容易把这些活动看成是不同而且毫不相干的。我们现在希望表明他们是怎样恰如其分地嵌入我们的框架的。也就是我们度量的
XSD中的targetNameSpace解释 darrenzhu xml namespace xsd targetnamespace
参考链接: http://blog.csdn.net/colin1014/article/details/357694 xsd文件中定义了一个targetNameSpace后，其内部定义的元素，属性，类型等都属于该targetNameSpace,其自身或外部xsd文件使用这些元素，属性等都必须从定义的targetNameSpace中找：例如：以下xsd文件，就出现了该错误，即便是在一
什么是RAID0、RAID1、RAID0+1、RAID5，等磁盘阵列模式? dcj3sjt126com raid
RAID 1又称为Mirror或Mirroring，它的宗旨是最大限度的保证用户数据的可用性和可修复性。 RAID 1的操作方式是把用户写入硬盘的数据百分之百地自动复制到另外一个硬盘上。由于对存储的数据进行百分之百的备份，在所有RAID级别中，RAID 1提供最高的数据安全保障。同样，由于数据的百分之百备份，备份数据占了总存储空间的一半，因而，Mirror的磁盘空间利用率低，存储成本高。 Mir
yii2 restful web服务快速入门 dcj3sjt126com PHP yii2
快速入门 Yii 提供了一整套用来简化实现 RESTful 风格的 Web Service 服务的 API。特别是，Yii 支持以下关于 RESTful 风格的 API：支持 Active Record 类的通用API的快速原型涉及的响应格式（在默认情况下支持 JSON 和 XML) 支持可选输出字段的定制对象序列化适当的格式的数据采集和验证错误
MongoDB查询(3)——内嵌文档查询（七） eksliang MongoDB查询内嵌文档 MongoDB查询内嵌数组
MongoDB查询内嵌文档转载请出自出处：http://eksliang.iteye.com/blog/2177301 一、概述有两种方法可以查询内嵌文档：查询整个文档；针对键值对进行查询。这两种方式是不同的，下面我通过例子进行分别说明。二、查询整个文档例如:有如下文档 db.emp.insert({ &qu
android4.4从系统图库无法加载图片的问题 gundumw100 android
典型的使用场景就是要设置一个头像，头像需要从系统图库或者拍照获得，在android4.4之前，我用的代码没问题，但是今天使用android4.4的时候突然发现不灵了。baidu了一圈，终于解决了。下面是解决方案： private String[] items = new String[] { "图库","拍照" }; /* 头像名称 */
网页特效大全 jQuery等 ini JavaScript jquery css html5 ini
HTML5和CSS3知识和特效 asp.net ajax jquery实例分享一个下雪的特效 jQuery倾斜的动画导航菜单选美大赛示例你会选谁 jQuery实现HTML5时钟功能强大的滚动播放插件JQ-Slide 万圣节快乐！！！向上弹出菜单jQuery插件 htm5视差动画 jquery将列表倒转顺序推荐一个jQuery分页插件 jquery animate
swift objc_setAssociatedObject block(version1.2 xcode6.4) 啸笑天 version
import UIKit class LSObjectWrapper: NSObject { let value: ((barButton: UIButton?) -> Void)? init(value: (barButton: UIButton?) -> Void) { self.value = value
Aegis 默认的 Xfire 绑定方式，将 XML 映射为 POJO MagicMa_007 java POJO xml Aegis xfire
Aegis 是一个默认的 Xfire 绑定方式，它将 XML 映射为 POJO, 支持代码先行的开发.你开发服务类与 POJO,它为你生成 XML schema/wsdl XML 和注解映射概览默认情况下，你的 POJO 类被是基于他们的名字与命名空间被序列化。如果
js get max value in (json) Array qiaolevip 每天进步一点点学习永无止境 max 纵观千象
// Max value in Array var arr = [1,2,3,5,3,2];Math.max.apply(null, arr); // 5 // Max value in Jaon Array var arr = [{"x":"8/11/2009","y":0.026572007},{"x"
XMLhttpRequest 请求 XML,JSON ,POJO 数据 Luob. POJO json Ajax xml XMLhttpREquest
在使用XMlhttpRequest对象发送请求和响应之前，必须首先使用javaScript对象创建一个XMLHttpRquest对象。 var xmlhttp； function getXMLHttpRequest(){ if(window.ActiveXObject){ xmlhttp:new ActiveXObject("Microsoft.XMLHTTP
jquery wuai jquery
以下防止文档在完全加载之前运行Jquery代码，否则会出现试图隐藏一个不存在的元素、获得未完全加载的图像的大小等等 $(document).ready(function(){ jquery代码; }); <script type="text/javascript" src="c:/scripts/jquery-1.4.2.min.js&quo