THE WHY

Hadoop基础入门（4）：MapReduce

MapReduce

MapReduce优缺点

MapReduce核心思想

MapReduce进程

MapReduce编程规范

MapReduce编程实战示例

MapReduce 框架原理

MapReduce 工作流程

Shuffle 机制

MapTask / ReduceTask工作机制

MapReduce

MapReduce 将计算过程分为两个阶段：Map 和 Reduce

Map 阶段并行处理输入数据；Reduce 阶段对 Map 结果进行汇总

MapReduce优缺点

优点：

易于编程
良好的扩展性：当你的计算资源不能得到满足的时候，你可以通过简单的增加机器来扩展它的计算能力
高容错性：其中一台机器挂了，它可以把上面的计算任务转移到另外一个节点上运行，不至于这个任务运行失败，而且这个过程不需要人工参与，而完全是由 Hadoop 内部完成的
适合 PB 级以上海量数据的离线处理

缺点：

不擅长实时计算，无法像 MySQL 一样，在毫秒或者秒级内返回结果
不擅长流式计算：MapReduce 的输入数据集是静态的，不能动态变化
不擅长 DAG（有向无环图）计算：多个应用程序存在依赖关系，后一个应用程序的输入为前一个的输出。在这种情况下，MapReduce 并不是不能做，而是使用后，每个 MapReduce 作业的输出结果都会写入到磁盘，会造成大量的磁盘 IO，导致性能非常的低下

因为map阶段读取数据是从磁盘中读取的，reduce阶段得到的结果也是写入到磁盘中去的；

MapReduce核心思想

MapReduce进程

一个完整的 MapReduce 程序在分布式运行时有三类实例进程：

（1）MrAppMaster：负责整个程序的过程调度及状态协调

（2）MapTask：负责 Map 阶段的整个数据处理流程。

（3）ReduceTask：负责 Reduce 阶段的整个数据处理流程

MapReduce编程规范

用户编写的程序分成三个部分：Mapper、Reducer 和 Driver

1．Mapper阶段

（1）用户自定义的Mapper要继承自己的父类

（2）Mapper的输入数据是KV对的形式（KV的类型可自定义）

（3）Mapper中的业务逻辑写在map()方法中

（4）Mapper的输出数据是KV对的形式（KV的类型可自定义）

（5）map()方法（MapTask进程）对每一个调用一次

2．Reducer阶段

（2）Reducer的输入数据类型对应Mapper的输出数据类型，也是KV

（3）Reducer的业务逻辑写在reduce()方法中

（4）ReduceTask进程对每一组相同k的组调用一次reduce()方法

3．Driver阶段

相当于YARN集群的客户端，用于提交我们整个程序到YARN集群，提交的是封装了MapReduce程序相关运行参数的job对象

MapReduce编程实战示例

准备工作

导入的jar包

        
            org.apache.hadoop
            hadoop-client
            3.1.3
        
        
            junit
            junit
            4.12
        
        
            org.slf4j
            slf4j-log4j12
            1.7.30

log4j.properties：

log4j.rootLogger=INFO, stdout 
log4j.appender.stdout=org.apache.log4j.ConsoleAppender 
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout 
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n 
log4j.appender.logfile=org.apache.log4j.FileAppender 
log4j.appender.logfile.File=target/spring.log 
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout 
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

打包插件依赖：


        
            
                maven-compiler-plugin
                3.6.1
                
                    1.8
                    1.8
                
            
            
                maven-assembly-plugin
                
                    
                        jar-with-dependencies
                    
                
                
                    
                        make-assembly
                        package
                        
                            single

hadoop序列化

序列化：就是把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储到磁盘（持久化）和网络传输

反序列化：就是将收到字节序列（或其他数据传输协议）或者是磁盘的持久化数据，转换成内存中的对象

为什么要序列化？

一般来说，“活的”对象只生存在内存里，关机断电就没有了。而且“活的”对象只能由本地的进程使用，不能被发送到网络上的另外一台计算机。然而序列化可以存储“活的”对象，可以将“活的”对象发送到远程计算机

为什么不用 Java 的序列化？

Java 的序列化是一个重量级序列化框架（Serializable），一个对象被序列化后，会附带很多额外的信息（各种校验信息，Header，继承体系等），不便于在网络中高效传输。所以，Hadoop 自己开发了一套序列化机制（Writable）

Hadoop 序列化特点：

（1）紧凑：高效使用存储空间。

（2）快速：读写数据的额外开销小。

（3）互操作：支持多语言的交互

示例：

//自定义bean对象实现了WritableComparable接口，Writable是序列化接口，Comparable是比较接口
public class FlowBean implements WritableComparable {

    private Long upFlow;
    private Long downFlow;
    private Long sumFlow;

    //反序列化时，需要反射调用空参构造函数，所以必须有空参构造
    public FlowBean() {
    }

    public Long getUpFlow() {
        return upFlow;
    }

    public void setUpFlow(Long upFlow) {
        this.upFlow = upFlow;
    }

    public Long getDownFlow() {
        return downFlow;
    }

    public void setDownFlow(Long downFlow) {
        this.downFlow = downFlow;
    }

    public Long getSumFlow() {
        return sumFlow;
    }

    public void setSumFlow(Long sumFlow) {
        this.sumFlow = sumFlow;
    }

    public void setSumFlow() {
        this.sumFlow = this.upFlow + this.downFlow;
    }


    //序列化
    @Override
    public void write(DataOutput dataOutput) throws IOException {
        dataOutput.writeLong(upFlow);
        dataOutput.writeLong(downFlow);
        dataOutput.writeLong(sumFlow);
    }

    //反序列化，注意反序列化的顺序和序列化的顺序完全一致
    @Override
    public void readFields(DataInput dataInput) throws IOException {
        this.upFlow = dataInput.readLong();
        this.downFlow = dataInput.readLong();
        this.sumFlow = dataInput.readLong();
    }

    //要想把结果显示在文件中，需要重写 toString()，可用"\t"分开，方便后续用
    //如果不重写的话，写入文件的就是对象的地址
    @Override
    public String toString() {
        return upFlow +"\t"+downFlow+"\t"+sumFlow;
    }

    //如果需要将自定义的 bean 放在 key 中传输，则还需要实现 Comparable 接口，因为MapReduce 框中的 Shuffle 过程要求对 key 必须能排序
    @Override
    public int compareTo(FlowBean o) {
        if(this.sumFlow > o.sumFlow)
        {
            return -1;
        } else if (this.sumFlow < o.sumFlow) {
            return 1;
        }
        else {
            return 0;
        }
    }
}

MapReduce 框架原理

InputFormat 数据输入

MapTask 并行任务是否越多越好呢？哪些因素影响了 MapTask 并行度？

数据切片与MapTask并行度决定机制：

数据块：Block 是 HDFS 物理上把数据分成一块一块。数据块是 HDFS 存储数据单位。

数据切片：数据切片只是在逻辑上对输入进行分片，并不会在磁盘上将其切分成片进行存储。数据切片是 MapReduce 程序计算输入数据的单位，一个切片会对应启动一个 MapTask

1）一个Job的Map阶段并行度由客户端在提交Job时的切片数决定

2）每一个Split切片分配一个MapTask并行实例处理

3）默认情况下，切片大小=BlockSize

4）切片时不考虑数据集整体，而是逐个针对每一个文件单独切片

FileInputFormat

切片机制

（1）简单地按照文件的内容长度进行切片

（2）切片大小，默认等于Block大小

（3）切片时不考虑数据集整体，而是逐个针对每一个文件单独切片

切片过程源码解析：

（1）程序先找到你数据存储的目录。

（2）开始遍历处理（规划切片）目录下的每一个文件

（3）遍历第一个文件ss.txt

a）获取文件大小fs.sizeOf(ss.txt)

b）计算切片大小

computeSplitSize(Math.max(minSize,Math.min(maxSize,blocksize)))=blocksize=128M

c）默认情况下，切片大小=blocksize

d）开始切，形成第1个切片：ss.txt—0:128M 第2个切片ss.txt—128:256M 第3个切片ss.txt—256M:300M（每次切片时，都要判断切完剩下的部分是否大于块的1.1倍，不大于1.1倍就划分一块切片）

e）将切片信息写到一个切片规划文件中

f）整个切片的核心过程在getSplit()方法中完成

g）InputSplit只记录了切片的元数据信息，比如起始位置、长度以及所在的节点列表等。

（4）提交切片规划文件到YARN上，YARN上的MrAppMaster就可以根据切片规划文件计算开启MapTask个数

注意计算切片大小的方法：

computeSplitSize(Math.max(minSize,Math.min(maxSize,blocksize)))=blocksize=128M

这里的minSize和maxSize默认值如下：

mapreduce.input.fileinputformat.split.minsize=1 默认值为1

mapreduce.input.fileinputformat.split.maxsize= Long.MAXValue 默认值Long.MAXValue

也就是说：
maxsize（切片最大值）：参数如果调得比blockSize小，则会让切片变小，而且就等于配置的这个参数的值。

minsize（切片最小值）：参数调的比blockSize大，则可以让切片变得比blockSize还大。

TextInputFormat

是默认的 FileInputFormat 实现类；

按行读取每条记录。键是存储该行在整个文件中的起始字节偏移量， LongWritable 类型。值是这行的内容，不包括任何行终止符（换行符和回车符），Text 类型

例如，对于以下文件分片：

其键值对形式如下：

CombineTextInputFormat

CombineTextInputFormat 用于小文件过多的场景，它可以将多个小文件从逻辑上规划到一个切片中，这样，多个小文件就可以交给一个 MapTask 处理

而默认的 TextInputFormat 切片机制是对任务按文件规划切片，不管文件多小，都会是一个单独的切片，都会交给一个 MapTask，这样如果有大量小文件，就会产生大量的MapTask，处理效率极其低下

设置虚拟存储切片的最大值：

CombineTextInputFormat.setMaxInputSplitSize(job, 4194304);// 4m

在Driver类中设置，最好根据实际的小文件大小情况来设置具体的值

切片机制：

对于以下4个文件生成切片：

1.虚拟存储过程：

为什么当剩余数据大小超过设置的最大值且不大于最大值 2 倍，将文件均分成 2 个虚拟存储块？

为了防止出现太小切片；例如 setMaxInputSplitSize 值为 4M，输入文件大小为 8.02M，则先逻辑上分成一个4M。剩余的大小为 4.02M，如果按照 4M 逻辑划分，就会出现 0.02M 的小的虚拟存储文件，所以将剩余的 4.02M 文件切分成（2.01M 和 2.01M）两个文件

2.切片过程：

OutputFormat 数据输出

TextOutputFormat

reduce阶段的默认输出格式

自定义OutputFormat

步骤：

自定义一个类继承FileOutputFormat
改写RecordWriter，具体改写输出数据的方法write()

示例：

1.自定义一个RecordWriter：

//自定义RecordWriter，重写write方法，规定文件输出格式
public class LogRecordWriter extends RecordWriter {

    private FSDataOutputStream whyOut;
    private FSDataOutputStream otherOut;
    public LogRecordWriter(TaskAttemptContext job) throws IOException {
        //获取文件系统
        FileSystem fs = FileSystem.get(job.getConfiguration());

        //创建输出流的路径
        whyOut = fs.create(new Path("D:\\hadoop\\OutputFormat\\why.log"));
        otherOut = fs.create(new Path("D:\\hadoop\\OutputFormat\\other.log"));
    }




    @Override
    public void write(Text key, NullWritable value) throws IOException, InterruptedException {
        String line = key.toString();

        //根据判断规则向不同的文件中写入数据
        if (line.contains("why"))
        {
            whyOut.writeBytes(line+ "\n");
        }else {
            otherOut.writeBytes(line +"\n");
        }
    }

    @Override
    public void close(TaskAttemptContext context) throws IOException, InterruptedException {
        IOUtils.closeStream(whyOut);
        IOUtils.closeStream(otherOut);
    }
}

2.自定义OutputFormat类：

public class LogOutputFormat extends FileOutputFormat {


    //这个类中就重写了getRecordWriter方法，获取到一个自定义的recorder，即上面自定义的LogRecordWriter
    @Override
    public RecordWriter getRecordWriter(TaskAttemptContext job) throws IOException, InterruptedException {
        LogRecordWriter logRecordWriter = new LogRecordWriter(job);
        return logRecordWriter;
    }
}

3.在Driver类中标明自定义的OutputFormat的输出格式

job.setOutputFormatClass(LogOutputFormat.class);

MapReduce 工作流程

Shuffle 机制

Map 方法之后，Reduce 方法之前的数据处理过程称之为 Shuffle

（1）MapTask 收集我们的 map()方法输出的 kv 对，放到内存缓冲区中

（2）从内存缓冲区不断溢出本地磁盘文件，可能会溢出多个文件

（3）多个溢出文件会被合并成大的溢出文件

（4）在溢出过程及合并的过程中，都要调用 Partitioner 进行分区和针对 key 进行排序

（5）ReduceTask 根据自己的分区号，去各个 MapTask 机器上取相应的结果分区数据

（6）ReduceTask 会抓取到同一个分区的来自不同 MapTask 的结果文件，ReduceTask 会将这些文件再进行合并（归并排序）

（7）合并成大文件后，Shuffle 的过程也就结束了，后面进入 ReduceTask 的逻辑运算过程（从文件中取出一个一个的键值对 Group，调用用户自定义的 reduce()方法）

注意：

（1）Shuffle 中的缓冲区大小会影响到 MapReduce 程序的执行效率，原则上说，缓冲区

越大，磁盘 io 的次数越少，执行速度就越快。

（2）缓冲区的大小可以通过参数调整，参数：mapreduce.task.io.sort.mb 默认 100M

MapTask / ReduceTask工作机制

MapTask

（1）Read 阶段：MapTask 通过 InputFormat 获得的 RecordReader，从输入 InputSplit（数据切片） 中解析出一个个 key/value。

（2）Map 阶段：该节点主要是将解析出的 key/value 交给用户编写 map()函数处理，并产生一系列新的 key/value。

（3）Collect 收集阶段：在用户编写 map()函数中，当数据处理完成后，一般会调用OutputCollector.collect()输出结果。在该函数内部，它会将生成的 key/value 分区（调用Partitioner），并写入一个环形内存缓冲区中。

（4）Spill 阶段：即“溢写”，当环形缓冲区满后，MapReduce 会将数据写到本地磁盘上，生成一个临时文件。需要注意的是，将数据写入本地磁盘之前，先要对数据进行一次本地排序，并在必要时对数据进行合并、压缩等操作。

溢写阶段详情：

步骤 1：利用快速排序算法对缓存区内的数据进行排序，排序方式是，先按照分区编号Partition 进行排序，然后按照 key 进行排序。这样，经过排序后，数据以分区为单位聚集在一起，且同一分区内所有数据按照 key 有序。

步骤 2：按照分区编号由小到大依次将每个分区中的数据写入任务工作目录下的临时文件output/spillN.out（N 表示当前溢写次数）中。如果用户设置了 Combiner，则写入文件之前，对每个分区中的数据进行一次聚集操作

步骤 3：将分区数据的元信息写到内存索引数据结构 SpillRecord 中，其中每个分区的元信息包括在临时文件中的偏移量、压缩前数据大小和压缩后数据大小。如果当前内存索引大小超过 1MB，则将内存索引写到文件 output/spillN.out.index 中。

（5）Merge 阶段：当所有数据处理完成后，MapTask 对所有临时文件进行一次合并，以确保最终只会生成一个数据文件。当所有数据处理完后，MapTask 会将所有临时文件合并成一个大文件，并保存到文件output/file.out 中，同时生成相应的索引文件 output/file.out.index。在进行文件合并过程中，MapTask 以分区为单位进行合并。对于某个分区，它将采用多轮递归合并的方式。每轮合并 mapreduce.task.io.sort.factor（默认 10）个文件，并将产生的文件重新加入待合并列表中，对文件排序后，重复以上过程，直到最终得到一个大文件。让每个 MapTask 最终只生成一个数据文件，可避免同时打开大量文件和同时读取大量小文件产生的随机读取带来的开销

ReduceTask

（1）Copy 阶段：ReduceTask 从各个 MapTask 上远程拷贝一片数据，并针对某一片数据，如果其大小超过一定阈值，则写到磁盘上，否则直接放到内存中。

（2）Sort 阶段：在远程拷贝数据的同时，ReduceTask 启动了两个后台线程对内存和磁盘上的文件进行合并，以防止内存使用过多或磁盘上文件过多。按照 MapReduce 语义，用户编写 reduce()函数输入数据是按 key 进行聚集的一组数据。为了将 key 相同的数据聚在一起，Hadoop 采用了基于排序的策略。由于各个 MapTask 已经实现对自己的处理结果进行了局部排序，因此，ReduceTask 只需对所有数据进行一次归并排序即可。

（3）Reduce 阶段：reduce()函数将计算结果写到 HDFS 上。

ReduceTask 并行度决定机制

ReduceTask 数量的决定可以直接手动设置：

job.setNumReduceTasks(4);

注意事项：

ReduceTask=0，表示没有Reduce阶段，输出文件个数和Map个数一致
ReduceTask默认值就是1，所以输出文件个数为一个（在需要计算全局汇总结果的情况下，ReduceTask就只能有一个）
在手动分区的情况下，ReduceTask个数应当与分区数一致
具体多少个ReduceTask，需要根据集群性能而定

Mongodb数据库的基本语法及使用璟* Python
数据库MongoDB（芒果数据库）数据存储阶段文件管理阶段（.txt.doc.xls）优点：数据可以长期保存可以存储大量的数据使用简单缺点：数据一致性差数据查找修改不方便数据冗余度可能比较大数据库管理阶段优点：数据组织结构化降低了冗余度提高了增删改查的效率容易扩展方便程序调用，做自动化处理缺点：需要使用sql或者其他特定的语句，相对比较复杂几个概念数据：能够输入到计算机中并被识别处理的信息集合数据
132java ssm springboot基于大数据的吉林省农村产权交易数据分析可视化平台系统（源码+文档+运行视频+讲解视频） QQ2279239102 spring boot 大数据数据分析开发语言 maven vue.js
文章目录系列文章目录目的前言一、详细视频演示二、项目部分实现截图三、技术栈后端框架springboot前端框架vue持久层框架MyBaitsPlus系统测试四、代码参考源码获取目的摘要：本文介绍了基于JavaSSM和SpringBoot开发的吉林省农村产权交易数据分析可视化平台系统，为农村产权交易市场提供决策支持。系统前端利用HTML、CSS和JavaScript构建直观的可视化界面，后端运用Ja
系统对接方案_浅谈RPA系统 weixin_39881760 系统对接方案
首先本文是有感而发，其次是我本身是大数据和人工智能领域产品多年从业者，并不局限于RPA领域，做过一些RPA项目也和客户沟通并且提供过顾问和咨询服务，所以有一定理解。从网上可见的大部分文章包括本问题下面的回答中，都可以看到，大部分是宏观回答，从狭义来说，RPA可以是一个软件工具、可以是一套系统也可以是一个平台；RPA可以让办公自动化、业务流程自动化。从广义来说，任何一个可被规则化且突发、未知情况少的
【自学笔记】Hadoop基础知识点总览-持续更新 Long_poem 笔记 hadoop 大数据
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录Hadoop基础知识点总览1.Hadoop简介2.Hadoop生态系统3.HDFS（HadoopDistributedFileSystem）HDFS基本命令4.MapReduceWordCount示例（Java）5.YARN（YetAnotherResourceNegotiator）6.其他组件简介总结Hadoop基础知识点总
一文揭秘！Java 如何与 Elasticsearch 完美 “牵手”？程序员顾茗 java elasticsearch
引言本文适合有一定Java编程基础，且对搜索引擎技术感兴趣，尤其是希望在项目中运用Elasticsearch实现高效数据检索与分析功能的开发人员阅读。在当今大数据和高并发的时代，高效的数据检索与分析变得愈发关键。Elasticsearch作为一款强大的分布式搜索和分析引擎，受到了广泛青睐。而Java作为企业级开发的主流语言，如何与Elasticsearch无缝结合，发挥出最大效能呢？今天，就让我们
【AI深度学习基础】Pandas完全指南入门篇：数据处理的瑞士军刀（含完整代码） arbboter 人工智能人工智能深度学习 pandas 数据处理数据分析数据清洗数据分析效率提升
Pandas系列文章导航入门篇进阶篇终极篇一、引言在大数据与AI驱动的时代，数据预处理和分析是深度学习与机器学习的基石。Pandas作为Python生态中最强大的数据处理库，以其灵活的数据结构（如DataFrame和Series）和丰富的功能（数据清洗、转换、聚合等），成为数据科学家和工程师的核心工具。Pandas以Series（一维标签数组）和DataFrame（二维表格）为核心数据结构，提供高
对“预训练”的理解衣衣困深度学习神经网络自然语言处理
预训练有什么用传统的机器学习是偏数学的，对数据的量不做过多要求，而深度学习的项目通常是有大量的数据可供使用。在平常的任务或者项目中，我们可能并没有大量数据，只有少量数据，在这时我们就可以通过“借用”有大数据支持的模型的参数，作为基准，这样就能提高效率和准确率。因为他们神经网络的浅层是相似的，也就是说，在任务相似的情况下，可以用已有的模型即“预训练”好的模型参数实现小数据量的模型训练。预训练可以节省
Java 大视界 -- Java 大数据机器学习模型的可解释性增强技术与应用（107）青云交大数据新视界 Java 大视界大数据 java 可解释性 AI SHAP LIME 因果推理可视化交互
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Java 大视界 -- Java 大数据在智慧环保污染源监测与预警中的应用（104）青云交大数据新视界 Java 大视界 java 大数据智慧环保污染源监测实时预警 Flink LSTM
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Java 大视界 -- Java 大数据分布式文件系统的性能调优实战（101）青云交大数据新视界 Java 大视界 java 大数据 Java 大数据分布式文件系统性能调优 HDFS Impala
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Java 大视界 -- 深入剖析 Java 大数据实时 ETL 中的数据质量保障策略（97）青云交大数据新视界 Java 大视界 Java大数据实时ETL 数据质量保障数据清洗数据校验机器学习算法统计方法
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Java 大视界 -- 绿色大数据：Java 技术在节能减排中的应用与实践（90）青云交大数据新视界 Java 大视界 java 大数据绿色大数据节能减排算法优化分布式计算资源管理
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Java 大视界 -- 大数据伦理与法律：Java 技术在合规中的作用与挑战（87）青云交大数据新视界 Java 大视界 java 大数据大数据伦理大数据法律数据加密访问控制应对策略
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Java 大视界 -- 区块链赋能 Java 大数据：数据可信与价值流转（84）青云交大数据新视界 Java 大视界 java 大数据数据可信价值流转智能合约共识机制区块链
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Java 大视界 -- 基于 Java 的大数据流处理容错机制与恢复策略（113）青云交大数据新视界 Java 大视界 java 大数据流处理容错机制 Checkpoint Exactly-Once 故障恢复
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
大智能：大数据+大模型+大算力_大算力大数据大模型 AI学习不迷路大数据大模型人工智能语言模型 ai 产品经理算力
在近日举行的“2022中国人工智能产业年会”主论坛上，中国人工智能学会监事长、中国工程院院士蒋昌俊在报告中表示，人工智能的发展已经历了数十年的过程，大模型ChatGPT在今年春节前后突然出现，大家还没有来得及深度思考就已经“扑面而来”。蒋昌俊大智能的研究进展科学技术的研究约分为两大范式，一是牛顿力学奠定了理论计算的范式，二是开普勒开启数据的范式。之后经历了实验归纳、理论的逻辑推演，以及计算模拟、最
场景题：有40亿个QQ号如何去重？仅1GB内存后端java面试
场景题：有40亿个QQ号如何去重？仅1GB内存场景题也有一些套路可以考虑，比如去重、判断给定数据是否存在1.大数据去重1.1现在有40亿个QQ号如何去重？仅1GB内存参考链接：https://juejin.cn/post/7396332696660131849介绍2种方法：Bitmap和布隆过滤器方法一：Bitmap首先介绍下什么是位图Bitmap位图是使用bit数组表示的，它只存储0或者1，因此
spark hdfs 常用命令毛球饲养员 spark spark hdfs
目录lsrmgettext以下按照使用频率和使用先后顺序排序（纯个人习惯）ls列出hdfs文件系统路径下的目录和文件hdfsdfs-ls列出hdfs文件系统路径下所有的目录和文件hdfsdfs-ls-Rrmhadoopfs-rm...hadoopfs-rm-r...每次可以删除多个文件或目录getlocalfile不能和hdfsfile名字不能相同，否则会提示文件已存在，没有重名的文件会复制到本地
国产化替代 | 星环科技TDH替代IBM数仓，助力城商行构建湖仓一体平台 ibm
城商行构建湖仓一体平台|TDH替代IBM数仓IBM的数仓NetezzaEOL是2023年，数仓Netezza生命周期结束了。数仓产品停止提供支持和更新，不再为该产品提供修复漏洞或功能改进的服务。某城市商业银行在此背景下，启动数据仓库系统升级项目，将数据仓库从IBMNetezza迁移到星环科技大数据基础平台TDH，不但成功实现了数据仓库的国产化替代，还建设了新一代的湖仓一体平台，为银行业务发展提供新
Spark详解二卢子墨 Spark原理实战总结 spark
八、Spark部署模式1、Local本地模式：运行于本地spark-shell--masterlocal[2]（local[2]是说，执行Application需要用到CPU的2个核）2、Standalone独立模式：Spark自带的一种集群模式Spark自己管理集群资源，此时只需要将Hadoop的HDFS启动Master节点有master,Slave节点上有worker启动./bin/spark
Spark基本命令 chenworeng5605 大数据 scala shell
一、spark所在目录cdusr/local/spark二、启动spark/usr/local/spark/sbin/start-all.sh启动Hadoop以及Spark：bash./starths.sh浏览器查看：172.16.31.17:8080停止Hadoop以及Sparkbash./stophs.sh三、基础使用参考链接：https://www.cnblogs.com/dasn/arti
大数据与网络安全讲座黑客Jack 大数据 web安全单例模式
点击文末小卡片，免费获取网络安全全套资料，资料在手，涨薪更快大数据的价值为大家公认。业界通常以4个“V”来概括大数据的基本特征——Volume(数据体量巨大)、Variety(数据类型繁多)、Value(价值密度低)、Velocity(处理速度快)。当你准备对大数据所带来的各种光鲜机遇大加利用的同时，请别忘记大数据也会引入新的安全威胁，存在于大数据时代“潘多拉魔盒”中的魔鬼可能会随时出现。挑战一：
FlinkCEP社区资源指南：学习与交流平台 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
FlinkCEP社区资源指南：学习与交流平台1.背景介绍ApacheFlink是一个开源的分布式大数据处理引擎,支持有状态计算和准确一次的流处理语义。Flink提供了强大的流处理能力,其中FlinkCEP(复杂事件处理)是一个非常重要的特性,允许从无边界的事件流中发现有趣的事件模式。CEP在许多领域都有广泛应用,例如:金融服务:检测欺诈行为、交易模式等物联网:监控传感器数据,检测异常情况业务流程监
深入探秘FlinkCDC：实时数据处理的新利器 lucky_syq 大数据大数据 flink
一、写在前面在大数据领域持续蓬勃发展的当下，数据的实时处理与分析变得愈发关键。随着企业数字化转型进程的加速，业务系统产生的数据量呈爆发式增长，传统的数据处理方式已难以满足对数据时效性和分析实时性的严苛要求。在这样的大背景下，FlinkCDC应运而生，它作为一种强大的实时数据同步与处理工具，为大数据处理带来了全新的解决方案，在大数据生态体系中占据着举足轻重的地位。FlinkCDC，即FlinkCha
Spark是什么？可以用来做什么？ Bugkillers 大数据 spark 大数据分布式
ApacheSpark是一个开源的分布式计算框架，专为处理大规模数据而设计。它最初由加州大学伯克利分校开发，现已成为大数据处理领域的核心工具之一。相比传统的HadoopMapReduce，Spark在速度、易用性和功能多样性上具有显著优势。一、Spark的核心特点速度快：基于内存计算（In-MemoryProcessing），比基于磁盘的MapReduce快10~100倍。支持高效的DAG（有向无
遨游防爆智能终端“问诊”工业制造，开出数据采集“良方” AORO_BEIDOU 制造
在数据驱动的时代，唯有采集足够规模的工业数据，方能支撑起基于工业大数据的深度分析与智能决策，从而驱动传统产业的蜕变与升级。但是，数据采集之路并非坦途，面临着设备协议多样、接口不一等挑战。技术难题求解，往往要在市场找良方。AOROM5-5G防爆智能终端遨游通讯防爆智能终端其独特之处在于全景前瞻架构的设计理念。在产品定义之初，便充分考虑了未来可能的数据采集需求，预留了丰富的接口，可根据企业的实际需求，
Elasticsearch冷热分离与索引生命周期管理 Cloud_Tech elasticsearch 大数据数据分析数据库阿里云
本文介绍在Elasticsearch集群上，通过生命周期管理ILM（IndexLifecycleManagement）功能，实现冷热数据分离的实践流程。通过本实践，您既可以实现在保证集群读写性能的基础上，自动维护集群上的冷热数据，又能通过优化集群架构，降低企业生产成本。背景信息当今大数据时代，数据时刻在更新变化。尤其是随着时间的积累，存储在Elasticsearch中的数据会越来越多，当数据达到一
什么是预训练？卡卡大怪兽自然语言处理
一、介绍预训练模型诞生背景:对于某种特殊任务只存在少量的相关训练数据，以至于模型不能从中学习到有用的规律（标注资源稀缺，无大数据支持）举例：想对一批法律领域的文件进行关系抽取，就需要投入大量的精力（意味着时间和金钱的大量投入）在法律领域的文件中进行关系抽取的标注，然后将标注好的数据“喂”给模型进行训练。但是即使是标注了几百万条这样的数据（实际情况中，在一个领域内标注几百万条几乎不可能，因为成本非常
如何使用DeepSeek进行高效数据挖掘与分析 Small踢倒coffee_氕氘氚笔记经验分享迭代器模式
##摘要随着大数据时代的到来，数据挖掘与分析技术在各行各业中扮演着越来越重要的角色。DeepSeek作为一种先进的数据挖掘工具，能够帮助用户从海量数据中提取有价值的信息。本文将详细介绍DeepSeek的功能、使用方法及其在实际应用中的优势，旨在为用户提供一份全面的使用指南。##关键词DeepSeek、数据挖掘、数据分析、机器学习、大数据##引言###背景在当今信息爆炸的时代，数据已成为企业决策的重
大数据面试临阵磨枪不知看什么？看这份心理就有底了-大数据常用技术栈常见面试100道题大模型大数据攻城狮大数据面试职场和发展面试题数据仓库算法
目录1描述Hadoop的架构和它的主要组件。2MapReduce的工作原理是什么？3什么是YARN，它在Hadoop中扮演什么角色？4Spark和HadoopMapReduce的区别是什么？5如何在Spark中实现数据的持久化？6SparkStreaming的工作原理是什么？7如何优化Spark作业的性能？8描述HBase的架构和它的主要组件。9HBase的读写流程是怎样的？10HBase如何处理
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

Hadoop基础入门（4）：MapReduce

MapReduce

MapReduce优缺点

MapReduce核心思想

MapReduce进程

MapReduce编程规范

MapReduce编程实战示例

MapReduce 框架原理

MapReduce 工作流程

Shuffle 机制

MapTask / ReduceTask工作机制

你可能感兴趣的:(hadoop,大数据,mapreduce,hadoop,大数据)