Augenstern K

Hadoop的第二个核心组件：MapReduce框架第二节

六、MapReduce的工作流程原理（简单版本）
七、MapReduce中的序列化机制问题
八、流量统计案例实现（序列化机制的实现）

六、MapReduce的工作流程原理（简单版本）

1、客户端在执行MR程序时，客户端先根据设置的InputFormat实现类去对输入的数据文件进行切片（getSplits），如果没有设置InputFormat实现类，MR程序会使用默认的实现类（TextInputFormat–>FileInputFormat的子类）进行切片规划，生成一个切片规划文件

2、客户端的切片规划文件生成以后，客户端还会把整个MR程序的配置项（Configuration配置），会封装成为一个job.xml文件，同时还会把MR程序的代码包括job.xml文件、切片规划文件提交给资源调度器（YARN/windowsCPU）,资源调度器会先分配资源启动MRAPPMaster的进程

3、MRAPPMaster会根据切片规划的切片个数，向资源调度器申请资源启动对应个数的MapTask任务去运行Mapper阶段的计算逻辑

4、MapTask启动成功以后会根据切片规划，借助指定的InputFormat的实现类中createRecoder方法去对应的切片中读取k-v数据，然后交给map方法做处理

5、map方法将切片的k-v数据处理完成，会k-v数据写到一个内存缓冲区中(100M)，如果内存缓冲区超过容量的80%，会溢写磁盘，溢写磁盘的时候会根据map输出的key值进行排序，同时还会根据指定的Partitioner分区机制进行分区。溢写文件可能会存在多个，等map阶段执行完成，每一个MapTask对应的多个溢写文件以及缓冲区中还没有溢写的数据整体会进行一次合并，形成一个最终的大文件（分区排序）

6、紧跟着MRAPPMaster会向资源管理器申请资源启动ReduceTask，ReduceTask启动成功会从不同的MapTask的合并的大的溢写文件中去复制对应的分区的数据，ReduceTask会对所有复制过来的数据再进行一次排序。

7、ReduceTask会对排好序的数据按照key进行分组，分好组之后一组相同的key值调用一次reduce方法进行计算，计算完成的数据会借助指定的OutputFormat类（没有指定，默认使用TextOutputFormat类 - FileOutputFormat实现子类）将key-value数据写出到最终的结果文件中part-r-xxxxx

七、MapReduce中的序列化机制问题

MR程序的Map阶段和Reduce阶段都是要求输入的数据和输出的数据必须得是key-value键值对类型的数据，而且key-value必须得是序列化类型的数据。

序列化：将Java中的某种数据类型转成二进制数据

反序列化：将二进制数据转换成某种数据类型

MR程序采用序列化机制的原因：MR程序之所以要求输入和输出的数据是K-V类型的，是因为MR程序是一个分布式计算程序，MR程序可以在多个节点上同时运行的，而且多个计算程序计算出来的结果可能跨节点，跨网络进行数据传输的。如果数据要跨节点跨网络传输，要求数据必须是二进制数据。（MapReduce程序运行中，Mapper阶段和Reducer阶段的输入和输出都是以key-value的格式进行的。同时Mapper和Reducer阶段的任务中需要的数据可能会跨网络或者跨节点传输，因此我们就要求，MR程序运行过程中所有的输入和输出的数据必须都得是可以被序列化的。）

Hadoop在进行Key-Value的序列化的时候，没有采用Java的序列化机制（Serializable、Externalizable），因为Java的序列化机制非常的笨重的，因此Hadoop基于Java的序列化机制方式提供了一种全新的专门适用于MR程序的轻量级的序列化机制。

Hadoop中提供了两个接口：Writable、WritableComparable，Hadoop提供的两个序列化机制。

Writable

只有序列化和反序列化的效果，如果我们自定义的一个数据类型（Java类）要想当MR程序的value使用的话，Java类必须实现Writable接口，重写两个方法（write - 序列化写、readFields - 反序列化读），通过这两个方法规定序列化和反序列化的内容。
Writable的使用方式类似于Java中Externalizable序列化机制

WritableComparable

接口除了具备序列化和反序列化的能力以外，还具备一个比较大小关系的方法。
如果自定义的数据类型（Java类），想当MR程序中的key值来使用，必须实现此接口，让自定义数据类型既可以进行序列化反序列化还可以进行大小的比较判断。
如果自定义的数据类型只想当作MR程序中的value来使用，只需要实现Writable接口即可，不需要比较大小。

Hadoop常见的序列化类型（Hadoop把Java中包装类和String类型已经给我们封装好了对应的Hadoop序列化类型） —— 实现了WritableComparable接口

Java类型	Hadoop Writable类型
boolean	BooleanWritable
byte	ByteWritable
int	IntWritable
float	FloatWritable
long	LongWritable
double	DoubleWritable
string	Text
map	MapWritable
array	ArrayWritable

【注意】
1、如果以后MR程序运行没有报错，但是输出目录没有任何的内容，一般可能是因为输入和输出的key-value的自定义类型没有实现序列化。
2、如果自定义的JavaBean充当Reducer阶段输出key-value时，最好把toString方法给重写了，否则Reducer最后输出的结果是JavaBean的地址值。

八、流量统计案例实现（序列化机制的实现）

import org.apache.hadoop.io.Writable;
import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;
import java.util.Objects;

/**
 * JavaBean：是Java中一种很干净的类，类当中只具备私有化的属性、构造器、getter   setter方法 hashCode  equals方法 toString方法
 * 实体类：实体类又是一种特殊的JavaBean，当JavaBean是和数据库中数据表对应的类的时候，JavaBean称之为实体类
 *
 * JavaBean可以自己手动的生成，也可以使用Lombok技术基于注解快速创建Java类
 *      Lombok使用慎重，Lombok对代码的侵占性是非常大的
 *
 * 如果自定义的JavaBean要当MR程序的输入和输出的KV值，最好让JavaBean存在一个无参构造器（MR程序底层反射构建这个类的对象）
 * 如果自定义的JavaBean要去充当Reducer阶段KEY和Value，那也就意味着JavaBean的结果要写到最终的结果文件中，JavaBean的数据往结果文件写的格式还是按照JavaBean的toString方法去写的。
 */
public class FlowBean implements Writable {
    private Long upFlow;//上行流量
    private Long downFlow;//下行流量
    private Long sumFlow;//总流量

    public FlowBean() {
    }

    public FlowBean(Long upFlow, Long downFlow, Long sumFlow) {
        this.upFlow = upFlow;
        this.downFlow = downFlow;
        this.sumFlow = sumFlow;
    }

    public Long getUpFlow() {
        return upFlow;
    }

    public void setUpFlow(Long upFlow) {
        this.upFlow = upFlow;
    }

    public Long getDownFlow() {
        return downFlow;
    }

    public void setDownFlow(Long downFlow) {
        this.downFlow = downFlow;
    }

    public Long getSumFlow() {
        return sumFlow;
    }

    public void setSumFlow(Long sumFlow) {
        this.sumFlow = sumFlow;
    }

    @Override
    public boolean equals(Object o) {
        if (this == o) return true;
        if (o == null || getClass() != o.getClass()) return false;
        FlowBean flowBean = (FlowBean) o;
        return Objects.equals(upFlow, flowBean.upFlow) && Objects.equals(downFlow, flowBean.downFlow) && Objects.equals(sumFlow, flowBean.sumFlow);
    }

    @Override
    public int hashCode() {
        return Objects.hash(upFlow, downFlow, sumFlow);
    }

    @Override
    public String toString() {
        return upFlow + "\t" + downFlow + "\t" + sumFlow;
    }

    /**
     * 序列化写的方法
     * @param out DataOuput to serialize this object into.
     * @throws IOException
     */
    @Override
    public void write(DataOutput out) throws IOException {
        out.writeLong(upFlow);
        out.writeLong(downFlow);
        out.writeLong(sumFlow);
    }

    /**
     * 反序列化读取数据的方法
     * @param in DataInput to deseriablize this object from.
     * @throws IOException
     */
    @Override
    public void readFields(DataInput in) throws IOException {
        upFlow = in.readLong();
        downFlow = in.readLong();
        sumFlow = in.readLong();

    }
}

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;
import java.net.URI;
import java.net.URISyntaxException;

/**
 * 现在有一个文件 phone_data.txt，文件中记录着手机号消耗的流量信息
 * 文件中每一行数据代表一条手机的流量消耗，每一条数据是以\t制表符分割的多个字段组成的
 * 使用MR程序统计每一个手机号消耗的总的上行流量、总的下行流量、总流量
 */
public class FlowDriver {
    public static void main(String[] args) throws IOException, InterruptedException, ClassNotFoundException, URISyntaxException {
        Configuration configuration = new Configuration();
        configuration.set("fs.defaultFS","hdfs://192.168.31.104:9000");

        Job job = Job.getInstance(configuration);

        //设置MR程序默认使用的InputFormat类 —— 负责进行切片  负责读取数据源的数据为key value类型的
//        job.setInputFormatClass(FileInputFormat.class);//默认确实是FileInputFormat   但是是个 抽象类  MR程序默认使用的是这个抽象类的子类
        FileInputFormat.setInputPaths(job,"/phone_data.txt");

        //封装Mapper阶段
        job.setMapperClass(FlowMapper.class);
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(FlowBean.class);

        //封装Reducer阶段
        job.setReducerClass(FlowReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(FlowBean.class);

        //封装输出结果路径
//        job.setOutputFormatClass(FileOutputFormat.class);
        //MR程序要求输出路径不能提前存在 如果提前存在就会报错
        Path path = new Path("/output");
        //是用来解决输出目录如果存在MR程序报错问题的
        FileSystem fileSystem = FileSystem.get(new URI("hdfs://192.168.31.104:9000"), configuration, "root");
        if (fileSystem.exists(path)){
            fileSystem.delete(path,true);
        }
        FileOutputFormat.setOutputPath(job,path);

        //最后提交程序运行即可
        boolean b = job.waitForCompletion(true);
        System.out.println(b?0:1);
    }
}

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

/**
 * 读取切片数据，一行数据读取一次  而且读取的key（偏移量） value LongWritable Text
 * 输出的key（手机号） value 是 Text FlowBean
 */
public class FlowMapper extends Mapper<LongWritable, Text, Text, FlowBean> {
    @Override
    protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, FlowBean>.Context context) throws IOException, InterruptedException {
        String line = value.toString();
        String[] array = line.split("\t");
        String phoneNumber = array[1];
        Long downFlow = Long.parseLong(array[array.length - 2]);
        Long upFlow = Long.parseLong(array[array.length - 3]);
        FlowBean flowBean = new FlowBean(upFlow,downFlow,upFlow + downFlow);
        //需要将这一条数据以手机号为key，以flowBean为value输出给reduce
        context.write(new Text(phoneNumber),flowBean);
    }
}

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

/**
 *
 */
public class FlowReducer extends Reducer<Text, FlowBean, Text, FlowBean> {
    @Override
    protected void reduce(Text key, Iterable<FlowBean> values, Reducer<Text, FlowBean, Text, FlowBean>.Context context) throws IOException, InterruptedException {
        Long upFlowSum = 0L;
        Long downFlowSum = 0L;
        Long sumFlowSum = 0L;
        for (FlowBean value : values) {
            upFlowSum += value.getUpFlow();
            downFlowSum += value.getDownFlow();
            sumFlowSum =+ value.getSumFlow();
            //需要以手机号为key，以flowBean为value将结果输出，flowBean需要将我们计算出来总流量信息封装起来
            FlowBean flowBean = new FlowBean(upFlowSum,downFlowSum,sumFlowSum);
            context.write(key,flowBean);
        }
    }
}

package com.kang.flow02;

import com.kang.flow.FlowDriver;
import jdk.nashorn.internal.runtime.regexp.joni.Config;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Partitioner;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;
import java.net.URI;
import java.net.URISyntaxException;

/**
 * 基于以前统计的手机消耗流量信息的结果文件，要求对结果文件进行二次分析，得到以下结果：
 * 1、要求对数据中的手机号按照归属地不同进行分区：
 *       134开头的手机号  0号分区
 *       135开头的手机号  1号分区
 *       136开头的手机号  2号分区
 *       137开头的手机号  3号分区
 *       其余的手机号     4号分区
 * 2、同时还要求每一个分区按照消耗的总流量从高到底进行排序
 */
public class FlowDriver02 {
    public static void main(String[] args) throws IOException, InterruptedException, ClassNotFoundException, URISyntaxException {
        Configuration configuration = new Configuration();

        Job job = Job.getInstance(configuration);

        job.setJarByClass(FlowDriver02.class);

        job.setInputFormatClass(TextInputFormat.class);
        FileInputFormat.setInputPaths(job,new Path("/output/part-r-00000"));

        job.setMapperClass(FlowMapper02.class);
        job.setMapOutputKeyClass(FlowBean02.class);
        job.setMapOutputValueClass(NullWritable.class);

        job.setPartitionerClass(FlowPartitioner.class);

        job.setReducerClass(FlowReducer02.class);
        job.setOutputKeyClass(FlowBean02.class);
        job.setOutputValueClass(NullWritable.class);
        job.setNumReduceTasks(5);

        Path path =new Path("/output1");
        FileSystem fs = FileSystem.get(new URI("hdfs://192.168.31.104:9000"), configuration, "root");
        if (fs.exists(path)){
            fs.delete(path);
        }
        FileOutputFormat.setOutputPath(job,path);

        boolean flag = job.waitForCompletion(true);
        System.exit(flag?0:1);
    }
}

class FlowMapper02 extends Mapper<LongWritable, Text,FlowBean02,NullWritable> {
    @Override
    protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, FlowBean02, NullWritable>.Context context) throws IOException, InterruptedException {
        String line = value.toString();
        String[] message = line.split("\t");
        String phoneNumber = message[0];
        Long upFlow = Long.parseLong(message[1]);
        Long downFlow = Long.parseLong(message[2]);
        Long sumFlow = Long.parseLong(message[3]);
        FlowBean02 flowBean02 = new FlowBean02(phoneNumber,upFlow,downFlow,sumFlow);
        context.write(flowBean02,NullWritable.get());
    }
}

oneNumber.startsWith("137")) {
            return 3;
        }else  {
            return 4;
        }
//        String message = flowBean02.toString();
//        String[] array = message.split("\t");
//        String phoneNumber = array[0];
//        char w1 = phoneNumber.charAt(0);
//        char w2 = phoneNumber.charAt(1);
//        char w3 = phoneNumber.charAt(2);
//        if (w1 == '1' && w2 == '3') {
//            if (w3 == '4') return 0;
//            if (w3 == '5') return 1;
//            if (w3 == '6') return 2;
//            if (w3 == '7') return 3;
//        }
//        return 4;
    }
}

class FlowReducer02 extends Reducer<FlowBean02,NullWritable,FlowBean02, NullWritable>{
    @Override
    protected void reduce(FlowBean02 key, Iterable<NullWritable> values, Reducer<FlowBean02, NullWritable, FlowBean02, NullWritable>.Context context) throws IOException, InterruptedException {
        context.write(key,NullWritable.get());
    }
}

package com.kang.flow02;

import org.apache.hadoop.io.WritableComparable;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;
import java.util.Objects;

public class FlowBean02 implements WritableComparable<FlowBean02> {
    private String phoneNumber;
    private Long upFlow;
    private Long downFlow;
    private Long sumFlow;

    public FlowBean02() {
    }

    public FlowBean02(String phoneNumber, Long upFlow, Long downFlow, Long sumFlow) {
        this.phoneNumber = phoneNumber;
        this.upFlow = upFlow;
        this.downFlow = downFlow;
        this.sumFlow = sumFlow;
    }

    public String getPhoneNumber() {
        return phoneNumber;
    }

    public void setPhoneNumber(String phoneNumber) {
        this.phoneNumber = phoneNumber;
    }

    public Long getUpFlow() {
        return upFlow;
    }

    public void setUpFlow(Long upFlow) {
        this.upFlow = upFlow;
    }

    public Long getDownFlow() {
        return downFlow;
    }

    public void setDownFlow(Long downFlow) {
        this.downFlow = downFlow;
    }

    public Long getSumFlow() {
        return sumFlow;
    }

    public void setSumFlow(Long sumFlow) {
        this.sumFlow = sumFlow;
    }

    @Override
    public boolean equals(Object o) {
        if (this == o) return true;
        if (o == null || getClass() != o.getClass()) return false;
        FlowBean02 that = (FlowBean02) o;
        return Objects.equals(phoneNumber, that.phoneNumber) && Objects.equals(upFlow, that.upFlow) && Objects.equals(downFlow, that.downFlow) && Objects.equals(sumFlow, that.sumFlow);
    }

    @Override
    public int hashCode() {
        return Objects.hash(phoneNumber, upFlow, downFlow, sumFlow);
    }

    @Override
    public String toString() {
        return phoneNumber + "\t" + upFlow + "\t" + downFlow + "\t" + sumFlow;
    }

    @Override
    public int compareTo(FlowBean02 o) {
        if (this.sumFlow > o.sumFlow){
            return 1;
        } else if (this.sumFlow < o.sumFlow) {
            return -1;
        }else {
            return 0;
        }
    }

    @Override
    public void write(DataOutput out) throws IOException {
        out.writeUTF(phoneNumber);
        out.writeLong(upFlow);
        out.writeLong(downFlow);
        out.writeLong(sumFlow);

    }

    @Override
    public void readFields(DataInput in) throws IOException {
        phoneNumber = in.readUTF();
        upFlow = in.readLong();
        downFlow = in.readLong();
        sumFlow = in.readLong();

    }
}

azkaban的概况北京小峻大数据 azkaban mysql 数据库
Azkaban的性质azkaban是一个任务调度,管理系统,可以帮用户管理,调度各种运算任务的一个web服务器可以调度任何任务,只要你的任务能用脚本启动azkaban的类似的产品还有很多,例如hadoop生态中原生的:oozie,areflow局限性目前azkaban只支持mysql作为元数据管理系统,必须安装mysql服务器角色executorserver有好几个是真正执行的程序,调度用户的任务
基于hadoop的协同过滤算法电影推荐系统的设计与实现 AI天才研究院大数据AI人工智能 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
基于hadoop的协同过滤算法电影推荐系统的设计与实现文章目录基于hadoop的协同过滤算法电影推荐系统的设计与实现1.背景介绍1.1电影推荐系统的重要性1.2传统推荐系统的缺陷1.3Hadoop在大数据处理中的作用2.核心概念与联系2.1协同过滤算法2.2基于用户的协同过滤2.3基于项目的协同过滤2.4Hadoop在协同过滤算法中的应用3.核心算法原理具体操作步骤3.1基于用户的协同过滤算法流程
hive电影数据分析系统 Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示 + [手把手视频教程和开发文档] QQ-1305637939 毕业设计大数据毕设计算机毕业设计 hive spring boot 爬虫
hive电影数据分析Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示+[手把手视频教程和开发文档]【功能介绍】1.java爬取【豆瓣电影】网站中电影数据,保存为data.csv文件,数据量2万+2.data.csv上传到hadoop集群环境3.MR数据清洗data.csv4.Hive汇总处理,将Hive处理的结果数据保存到本地Mysql数据库中5.Springboot+Vu
hadoop电影数据分析系统 Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示 + [手把手视频教程和开发文档] QQ-1305637939 计算机毕业设计毕业设计大数据毕设 hadoop spring boot 爬虫
全套视频教程全套开发文档hadoop电影数据分析系统Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示【Hadoop项目】1.java爬取【豆瓣电影】网站中电影数据,保存为data.csv文件,数据量2万+2.data.csv上传到hadoop集群环境3.data.csv数据清洗4.MR数据汇总处理,将Reduce的结果数据保存到本地Mysql数据库中5.Springboot
spark电影数据分析系统 Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示 + [手把手视频教程和开发文档] QQ-1305637939 毕业设计大数据毕设计算机毕业设计 spark spring boot 爬虫大数据电影推荐电影分析
spark电影数据分析系统Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示+[手把手视频教程和开发文档【功能介绍】1.java爬取【豆瓣电影】网站中电影数据,保存为data.csv文件,数据量2万+2.data.csv上传到hadoop集群环境3.MR数据清洗data.csv4.Spark汇总处理,将Spark处理的结果数据保存到本地Mysql数据库中5.Springboo
hadoop图书数据分析系统 Springboot协同过滤-余弦函数推荐系统爬虫1万+数据大屏数据展示 + [手把手视频教程和开发文档] QQ-1305637939 毕业设计大数据毕设图书数据分析 hadoop spring boot 爬虫
hadoop图书数据分析系统Springboot协同过滤-余弦函数推荐系统爬虫1万+数据大屏数据展示+[手把手视频教程和开发文档]【亮点功能】1.Springboot+Vue+Element-UI+Mysql前后端分离2.Echarts图表统计数据,直观展示数据情况3.发表评论后，用户可以回复评论,回复的评论可以被再次回复,一级评论可以添加图片附件4.爬虫图书数据1万+5.推荐图书列表展示,推荐图
使用宝塔面板以jar包方式部署SpringBoot个人博客（以IP+端口号访问） emmastone 部署 spring boot ssh centos 服务器
使用宝塔面板以jar包方式部署SpringBoot个人博客购买阿里云服务器ECS在服务器端创建数据库修改SpringBoot项目的配置文件上传jar包和配置文件到服务器同一个目录下放行相关端口号首先需要在阿里云的控制台放行相关端口号然后在宝塔面板的安全放行相关端口号购买阿里云服务器ECS购买ECS服务器时，选择附带宝塔面板的，会默认安装好LAMP（Apache+Mysql+php），只需在安装to
游戏陪玩源码盈利点，基于Vue+thinkPhP6前后端分离的陪玩小程序管理系统 mysqlvue.jsphp
游戏陪玩源码还能通过哪些方式获得收益呢？1、通过轮播图广告、首页广告位、开屏广告等多种方式获得平台游戏活动广告收益。2、通过普通礼物、豪华礼物等多种打赏方式获得礼物抽成收益。3、通过不同的聊天室类型、派单聊天等方式增加主播的曝光量，刺激用户的消费欲望获得收益。4、通过用户之间相互邀请赚钱，平台抽取相应手续费的方式获得收益。源码获取地址！！！请点击优化陪玩平台源码性能性能是用户留存的关键，如果陪玩平
2024年最全（一）大数据---Hadoop整体介绍（架构层）----（组件，并发知识体系大全 2401_84586689 程序员大数据 hadoop 架构
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！Hadoop方案一、大数据介绍============
大数据学习(36)- Hive和YARN viperrrrrrr 大数据学习 hive
&&大数据学习&&系列专栏：哲学语录:承认自己的无知，乃是开启智慧的大门如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦当客户端提交SQL作业到HiveServer2时，HiveServer2会根据用户提交的SQL作业及数据库中现有的元数据信息生成一份可供计算引擎执行的计划。每个执行计划对应若干MapReduce作业，Hive会将所有的MapReduce作业都提交到YARN中。Y
大数据分析专业毕业设计最新最全选题精华汇总--持续更新中⑤ 源码空间站11 python django 大数据分析数据可视化 hadoop hive 大数据分析毕设
目录前言开题指导建议更多精选选题选题帮助最后前言大家好,这里是源码空间站学长大数据分析专业毕业设计毕设专题!大四是整个大学期间最忙碌的时光，一边要忙着准备考研、考公、考教资或者实习为毕业后面临的升学就业做准备,一边要为毕业设计耗费大量精力。学长给大家整理了大数据分析专业最新精选选题，如遇选题困难或选题有任何疑问，都可以问学长哦(见文末)!以下是学长精心整理的一些选题:21.基于Hadoop和Spa
2018年年度总结 weixin_30514745 前端后端 php ViewUI
首先先看2017年定下的小目标：PHP基础知识的再次学习。（今年在工作的时候也发现了这个问题，所以将PHP基础知识再学习了一遍，对一些容易混淆的概念进行了学习。这个目标算是实现了80%吧）对前端新特性的了解。（因为之前在太原工作的时候，前端后端都干，所以当时觉得前端和后台都很重要，今年在北京主要干的是后端的工作，所以这个并没有去进行了解）python的学习。（这个也没有进行学习，了解了也没有用，今
一键查验，智享未来-PHP发票查验接口助力财务转型 OCR_API 接口 php 开发语言
现如今，随着商业环境的快速发展，财务部门也迎来了新的挑战。发票管理作为企业财务管理中的重要环节之一，其数据的准确性与发票的管理效率直接影响到企业的涉税风险、运营成本与资金流转速度等。众所周知，在技术不完善的年代，发票管理主要依赖于财务人工来查验，耗时费力不说，还容易出现人为错误，给企业带来潜在的风险。为了应对这些挑战，翔云发票识别+查验接口成为现代企业解放财务双手，追求高效管理的优先选择。随着信息
PHP基于Google Authenticator双因素身份验证实现动态码验证
一：介绍GoogleAuthenticator双因素身份验证是谷歌推出的一款动态口令工具，解决大家各平台账户遭到恶意攻击的问题，一般在相关的服务平台登陆中除了用正常用户名和密码外，需要再输入一次谷歌认证器生成的动态口令才能验证成功，相当于输入二次密码，以达到账户的高安全性。二：拓展安装composerrequirehuaweichenai/google-authenticator三：使用1：创建密
Yii对接人大金仓 yii2数据库
人大金仓官方地址：https://www.kingbase.com.cn/一：composer包安装composerrequirehuaweichenai/kingbase二：php扩展要求需要安装pgsql,pdo_pgsql扩展(版本需要大于10)三：数据库配置'components'=>['db'=>['class'=>'huaweichenai\kingbase\table\db\Conn
MyLogPHP：PHP日志记录类库详解与实战魑魅丶小鬼
本文还有配套的精品资源，点击获取简介：MyLogPHP是一个为PHP开发环境设计的轻量级日志处理工具，简化了日志记录操作，支持多级日志记录和自定义日志级别。本文将详细介绍MyLogPHP的特性、使用方法和在电子商务项目中的应用。1.MyLogPHP日志处理工具概述在当今复杂多变的IT环境中，一个稳定、高效且可扩展的日志处理系统对于任何应用系统来说都是不可或缺的。MyLogPHP，作为一款专为PHP
Tomcat 下运行 php 文件(Linux-CentOS) qq_28033719 Java
Windows版本Tomcat下运行php文件(Windows)：https://blog.csdn.net/qq_28033719/article/details/80361823准备一个远程服务器因为有了解过Linux也需要尝试去部署php项目，所以现在再写一个关于Linux的部署。我个人进行一些准备：腾讯学生服务器：￥10/月https://cloud.tencent.com/act/cam
PHP语言的编程范式代码驿站520 包罗万象 golang 开发语言后端
PHP语言的编程范式引言PHP（PHP:HypertextPreprocessor）是一种广泛使用的开源脚本语言，特别适合于Web开发。虽然最初被设计用于生成动态网页，但随着技术的发展，PHP已逐渐演化为一种功能强大的编程语言，广泛应用于服务器端编程、命令行脚本以及桌面应用程序的开发。目前，PHP的应用范围涵盖了网站开发、数据分析、内容管理系统等多个领域。本文将深入探讨PHP语言的编程范式，包括面
【DAY.2】PHP数据结构与算法_排序_冒泡排序我是妖怪_ 天天学习冒泡排序算法 php
思路分析：循环逐个对比，从第一个开始，与下一个数字进行对比，若大于则交换位置，每循环一遍将最大的一个排到最后。（依次比较相邻的元素，两两比较，就可以最终将最大（小）的元素调整到最顶端、次顶端、、、）$arr=array(3,2,5,6,1,8,4,9);functionbubble_sort($arr){$len=count($arr);//判断数组是否为空if($len$arr[$i+1]){$
Hadoop 常用命令 ZenPower hadoop 大数据分布式
查看指定目录下的文件及文件夹hadoopfs-ls/user/hive/warehouse/查看指定目录下的文件及文件夹大小#文件大小（单位Byte）hadoopfs-du/user/hive/warehouse#文件大小（单位人性化）hadoopfs-du-h/user/hive/warehouse#文件大小（只显示汇总）hadoopfs-du-s/user/hive/warehouse删除指定
hadoop常用命令汇总 m0_67402026 java java 后端
1、查看目录下的文件列表：hadoopfs–ls[文件目录]hadoopfs-ls-h/lance2、将本机文件夹存储至hadoop上：hadoopfs–put[本机目录][hadoop目录]hadoopfs-putlance/3、在hadoop指定目录内创建新目录：hadoopfs–mkdir[目录]hadoopfs-mkdir/lance4、在hadoop指定目录下新建一个文件，使用touch
hadoop常用命令我要用代码向我喜欢的女孩表白 hadoop npm 大数据
Yarn查看提交到资源调度器的任务（任何用yarn资源的都可以看，比如spark、tez、mapreduce）看正在运行的yarn任务yarnapplication-list杀死对应的yarn任务yarnapplication-kill{application_Id}（id可以通过-list看到）hdfs查看hdfs目录hdfsdfs-ls/（查看本集群的目录）hdfsdfs-lshdfs://i
k8s_CKA考试_学习笔记 bq_o_pd kubernetes linux 容器笔记
k3s默认无法使用docker，导入docker的镜像加载到k3s中[root@worker1php]#k3scrictlimagesIMAGETAGIMAGEIDSIZEdocker.io/library/busyboxlatest9211bbaa0dbd62.23MBdocker.io/library/nginx1.7.935d28df486f6139.9MBdocker.io/library
【2025年】全国CTF夺旗赛-从零基础入门到竞赛，看这一篇就稳了！白帽黑客鹏哥 linux 网络安全 web安全密码学 CTF夺旗赛
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包目录一、CTF简介二、CTF竞赛模式三、CTF各大题型简介四、CTF学习路线4.1、初期1、html+css+js（2-3天）2、apache+php（4-5天）3、mysql（2-3天）4、python(2-3天)5、burpsuite（1-2天）4.2、中期1、SQL注入（7-8天）2、文件上传（7-8天）3、其他漏洞（14-15
Kylin入门教程 -龙川- 介绍学习笔记 kylin
引言ApacheKylin是一个开源的分布式分析引擎，提供Hadoop上的多维分析（OLAP）能力，使得超大规模数据集的实时查询和分析成为可能。它通过预计算数据立方体来加速查询，使得复杂查询可以在亚秒级响应。本文将详细介绍Kylin的基本概念、安装与配置、基本操作及高级功能，帮助你全面掌握这款强大的数据分析工具。第一部分：Kylin简介1.1什么是Kylin？Kylin是由eBay开发并捐赠给Ap
PHP语言的语法 Quantum&Coder 包罗万象 golang 开发语言后端
PHP语言的语法与应用引言PHP（HypertextPreprocessor）是一种广泛使用的开源服务器端脚本语言，特别适合于Web开发。由于其简单易学的语法、高效的运行性能以及强大的功能，PHP已成为开发动态网页和应用程序的热门选择。本文将深入探讨PHP的语法特性、常用功能，以及在实际开发中的应用示例。PHP基础语法1.PHP代码的基本结构PHP代码通常放在标签之间。这些标签告诉服务器开始和结束
mindspore编译报错小乐快乐深度学习神经网络
1、重新创建个工程后无法正常运行，2、使用代码为：华为提供的机器学习监督学习中的代码[quote][size=2][url=forum.php?mod=redirect&goto=findpost&pid=1364937&ptid=165780][color=#999999]回复：HS12发表于2021-10-3018:16[/color][/url][/size]报错信息
让你的 PHP 代码飞起来：内存优化技巧详解程序员阿凡提 PHP实战教程 php 开发语言内存优化
PHP应用的内存优化对于构建高性能和可扩展的系统至关重要。以下是PHP内存优化的一些关键策略：1、使用unset()函数释放内存unset()该函数用于提醒不再使用的变量，从而释放其占用的内存空间。对于大型数据库或对象，在不再需要时及时使用unset()可以有效避免内存占用。$data = [1, 2, 3]; // 示例数据unset($data); // 使用后释放内存注意：unset()在不
flume系列之：flume落cos 快乐骑行^_^ 日常分享专栏 flume系列
flume系列之：flume落cos一、参考文章二、安装cosjar包三、添加hadoop-cos的相关配置四、flume环境添加hadoop类路径五、使用cos路径六、启动/重启flume一、参考文章Kafka数据通过Flume存储到HDFS或COSflumetocos使用指南二、安装cosjar包将对应hadoop版本的hadoop-cos的jar包(hadoop-cos-{hadoop.ve
松散比较（PHP）（小迪网络安全笔记~ 1999er 网络安全学习笔记 php web安全笔记网络安全安全
免责声明：本文章仅用于交流学习，因文章内容而产生的任何违法&未授权行为，与文章作者无关！！！附：完整笔记目录~ps：本人小白，笔记均在个人理解基础上整理，若有错误欢迎指正！1.3松散比较（PHP）引子：本章主要介绍一些由PHP自身语言特性可能产生的脆弱性，该内容往往被应用于PHPCTF入门题中，但在PHPWeb开发时也可能被使用。====是php中的比较运算符，用于判断==左右两边的值是否相等。若
ztree异步加载 3213213333332132 JavaScript Ajax json Web ztree
相信新手用ztree的时候,对异步加载会有些困惑，我开始的时候也是看了API花了些时间才搞定了异步加载，在这里分享给大家。我后台代码生成的是json格式的数据，数据大家按各自的需求生成，这里只给出前端的代码。设置setting，这里只关注async属性的配置 var setting = { //异步加载配置
thirft rpc 具体调用流程 BlueSkator 中间件 rpc thrift
Thrift调用过程中，Thrift客户端和服务器之间主要用到传输层类、协议层类和处理类三个主要的核心类，这三个类的相互协作共同完成rpc的整个调用过程。在调用过程中将按照以下顺序进行协同工作：（1）将客户端程序调用的函数名和参数传递给协议层（TProtocol），协议
异或运算推导, 交换数据 dcj3sjt126com PHP 异或 ^
/* * 5 0101 * 9 1010 * * 5 ^ 5 * 0101 * 0101 * ----- * 0000 * 得出第一个规律: 相同的数进行异或, 结果是0 * * 9 ^ 5 ^ 6 * 1010 * 0101 * ---- * 1111 * * 1111 * 0110 * ---- * 1001
事件源对象周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
MySql配置及相关命令 g21121 mysql
MySQL安装完毕后我们需要对它进行一些设置及性能优化，主要包括字符集设置，启动设置，连接优化，表优化，分区优化等等。一修改MySQL密码及用户
[简单]poi删除excel 2007超链接 53873039oycg Excel
采用解析sheet.xml方式删除超链接，缺点是要打开文件2次,代码如下: public void removeExcel2007AllHyperLink(String filePath) throws Exception { OPCPackage ocPkg = OPCPac
Struts2添加 open flash chart 云端月影
准备以下开源项目： 1. Struts 2.1.6 2. Open Flash Chart 2 Version 2 Lug Wyrm Charmer (28th, July 2009) 3. jofc2，这东西不知道是没做好还是什么意思，好像和ofc2不怎么匹配，最好下源码，有什么问题直接改。 4. log4j 用eclipse新建动态网站，取名OFC2Demo，将Struts2 l
spring包详解 aijuans spring
下载的spring包中文件及各种包众多，在项目中往往只有部分是我们必须的，如果不清楚什么时候需要什么包的话，看看下面就知道了。 aspectj目录下是在Spring框架下使用aspectj的源代码和测试程序文件。Aspectj是java最早的提供AOP的应用框架。 dist 目录下是Spring 的发布包，关于发布包下面会详细进行说明。 docs&nb
网站推广之seo概念 antonyup_2006 算法 Web 应用服务器搜索引擎 Google
持续开发一年多的b2c网站终于在08年10月23日上线了。作为开发人员的我在修改bug的同时，准备了解下网站的推广分析策略。所谓网站推广，目的在于让尽可能多的潜在用户了解并访问网站，通过网站获得有关产品和服务等信息，为最终形成购买决策提供支持。网站推广策略有很多，seo，email，adv
单例模式,sql注入,序列百合不是茶单例模式序列 sql注入预编译
序列在前面写过有关的博客,也有过总结,但是今天在做一个JDBC操作数据库的相关内容时需要使用序列创建一个自增长的字段居然不会了,所以将序列写在本篇的前面 1,序列是一个保存数据连续的增长的一种方式; 序列的创建; CREATE SEQUENCE seq_pro 2 INCREMENT BY 1 -- 每次加几个 3
Mockito单元测试实例 bijian1013 单元测试 mockito
Mockito单元测试实例： public class SettingServiceTest { private List<PersonDTO> personList = new ArrayList<PersonDTO>(); @InjectMocks private SettingPojoService settin
精通Oracle10编程SQL(9)使用游标 bijian1013 oracle 数据库 plsql
/* *使用游标 */ --显示游标 --在显式游标中使用FETCH...INTO语句 DECLARE CURSOR emp_cursor is select ename,sal from emp where deptno=1; v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; begin ope
【Java语言】动态代理 bit1129 java语言
JDK接口动态代理 JDK自带的动态代理通过动态的根据接口生成字节码(实现接口的一个具体类)的方式，为接口的实现类提供代理。被代理的对象和代理对象通过InvocationHandler建立关联 package com.tom; import com.tom.model.User; import com.tom.service.IUserService;
Java通信之URL通信基础白糖_ java jdk webservice 网络协议 ITeye
java对网络通信以及提供了比较全面的jdk支持，java.net包能让程序员直接在程序中实现网络通信。在技术日新月异的现在，我们能通过很多方式实现数据通信，比如webservice、url通信、socket通信等等，今天简单介绍下URL通信。学习准备：建议首先学习java的IO基础知识 URL是统一资源定位器的简写，URL可以访问Internet和www，可以通过url
博弈Java讲义 - Java线程同步 (1) boyitech java 多线程同步锁
在并发编程中经常会碰到多个执行线程共享资源的问题。例如多个线程同时读写文件，共用数据库连接，全局的计数器等。如果不处理好多线程之间的同步问题很容易引起状态不一致或者其他的错误。同步不仅可以阻止一个线程看到对象处于不一致的状态，它还可以保证进入同步方法或者块的每个线程，都看到由同一锁保护的之前所有的修改结果。处理同步的关键就是要正确的识别临界条件（cri
java-给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 bylijinnan java
public class DeleteExtraSpace { /** * 题目：给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 * 方法1.用已有的String类的trim和replaceAll方法 * 方法2.全部用正则表达式，这个我不熟 * 方法3.“重新发明轮子”，从头遍历一次 */ public static v
An error has occurred.See the log file错误解决！ Kai_Ge MyEclipse
今天早上打开MyEclipse时，自动关闭！弹出An error has occurred.See the log file错误提示！很郁闷昨天启动和关闭还好着！！！打开几次依然报此错误，确定不是眼花了！打开日志文件！找到当日错误文件内容： --------------------------------------------------------------------------
[矿业与工业]修建一个空间矿床开采站要多少钱? comsci
地球上的钛金属矿藏已经接近枯竭........... 我们在冥王星的一颗卫星上面发现一些具有开采价值的矿床..... 那么,现在要编制一个预算,提交给财政部门..
解析Google Map Routes dai_lm google api
为了获得从A点到B点的路劲，经常会使用Google提供的API，例如 [url] http://maps.googleapis.com/maps/api/directions/json?origin=40.7144,-74.0060&destination=47.6063,-122.3204&sensor=false [/url] 从返回的结果上，大致可以了解应该怎么走，但
SQL还有多少“理所应当”？ datamachine sql
转贴存档，原帖地址：http://blog.chinaunix.net/uid-29242841-id-3968998.html、http://blog.chinaunix.net/uid-29242841-id-3971046.html！ ------------------------------------华丽的分割线--------------------------------
Yii使用Ajax验证时，如何设置某些字段不需要验证 dcj3sjt126com Ajax yii
经常像你注册页面,你可能非常希望只需要Ajax去验证用户名和Email,而不需要使用Ajax再去验证密码,默认如果你使用Yii 内置的ajax验证Form,例如: $form=$this->beginWidget('CActiveForm', array( 'id'=>'usuario-form',&
使用git同步网站代码 dcj3sjt126com crontab git
转自:http://ued.ctrip.com/blog/?p=3646?tn=gongxinjun.com 管理一网站，最开始使用的虚拟空间，采用提供商支持的ftp上传网站文件，后换用vps，vps可以自己搭建ftp的，但是懒得搞，直接使用scp传输文件到服务器，现在需要更新文件到服务器，使用scp真的很烦。发现本人就职的公司，采用的git+rsync的方式来管理、同步代码，遂
sql基本操作蕃薯耀 sql sql基本操作 sql常用操作
sql基本操作 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:30:33 星期一 &
Spring4+Hibernate4+Atomikos3.3多数据源事务管理 hanqunfeng Hibernate4
Spring3+后不再对JTOM提供支持，所以可以改用Atomikos管理多数据源事务。Spring2.5+Hibernate3+JTOM参考：http://hanqunfeng.iteye.com/blog/1554251Atomikos官网网站：http://www.atomikos.com/ 一.pom.xml <dependency> <
jquery中两个值得注意的方法one()和trigger()方法 jackyrong trigger
在jquery中，有两个值得注意但容易忽视的方法，分别是one()方法和trigger()方法,这是从国内作者<<jquery权威指南》一书中看到不错的介绍 1） one方法 one方法的功能是让所选定的元素绑定一个仅触发一次的处理函数，格式为 one(type,${data},fn) &nb
拿工资不仅仅是让你写代码的 lampcy 工作面试咨询
这是我对团队每个新进员工说的第一件事情。这句话的意思是，我并不关心你是如何快速完成任务的，哪怕代码很差，只要它像救生艇通气门一样管用就行。这句话也是我最喜欢的座右铭之一。这个说法其实很合理：我们的工作是思考客户提出的问题，然后制定解决方案。思考第一，代码第二，公司请我们的最终目的不是写代码，而是想出解决方案。话粗理不粗。付你薪水不是让你来思考的，也不是让你来写代码的，你的目的是交付产品
架构师之对象操作----------对象的效率复制和判断是否全为空 nannan408 架构师
1.前言。如题。 2.代码。 (1)对象的复制，比spring的beanCopier在大并发下效率要高，利用net.sf.cglib.beans.BeanCopier Src src=new Src(); BeanCopier beanCopier = BeanCopier.create(Src.class, Des.class, false);
ajax 被缓存的解决方案 Rainbow702 JavaScript jquery Ajax cache 缓存
使用jquery的ajax来发送请求进行局部刷新画面，各位可能都做过。今天碰到一个奇怪的现象，就是，同一个ajax请求，在chrome中，不论发送多少次，都可以发送至服务器端，而不会被缓存。但是，换成在IE下的时候，发现，同一个ajax请求，会发生被缓存的情况，只有第一次才会被发送至服务器端，之后的不会再被发送。郁闷。解决方法如下： ① 直接使用 JQuery提供的 “cache”参数，
修改date.toLocaleString()的警告 tntxia String
我们在写程序的时候，经常要查看时间，所以我们经常会用到date.toLocaleString()，但是date.toLocaleString()是一个过时的API，代替的方法如下： package com.tntxia.htmlmaker.util; import java.text.SimpleDateFormat; import java.util.
项目完成后的小总结 xiaomiya js 总结项目
项目完成了，突然想做个总结但是有点无从下手了。做之前对于客户端给的接口很模式。然而定义好了格式要求就如此的愉快了。先说说项目主要实现的功能吧 1，按键精灵 2，获取行情数据 3，各种input输入条件判断 4，发送数据（有json格式和string格式） 5，获取预警条件列表和预警结果列表， 6，排序， 7，预警结果分页获取 8，导出文件（excel，text等） 9，修

Hadoop的第二个核心组件：MapReduce框架第二节