书忆江南

Hadoop基础知识笔记

学习笔记相关代码：https://github.com/hackeryang/Hadoop-Exercises

一、基础

1. Hadoop分布式文件系统( HDFS) 分布在集群内多台机器上。使用适度的复制，集群可以并行读取数据，进而提供很高的吞吐量。这样一组通用机器比一台高端服务器更加便宜。代码向数据迁移的理念被应用在Hadoop集群自身。这种理念符合Hadoop面向数据密集型处理的设计目标。要运行的程序代码在规模上比数据小几个数量级，更容易移动。此外，在网络上移动数据要比在其上加载代码更花时间。不如让数据不动，而将可执行代码移动到数据所在的机器上去。通过采用分布式存储、迁移代码而非迁移数据， Hadoop在处理大数据集时避免了耗时的数据传输问题。Hadoop尽量在计算节点上存储数据，实现数据本地快速访问，数据本地化是Hadoop处理数据的核心。

使用性能4倍于标准PC的机器，其成本将大大超过将同样的4台PC放在一个集群中。而Hadoop可以将多个普通机器组合起来变成一个总计算能力强大的集群，大大节省成本。添加更多的资源，对于Hadoop集群就是增加更多的机器。一个Hadoop集群的标配是十至数百台计算机。

2. 许多当前的应用所处理的数据类型并不能很好地适合关系型数据库的结构化模型。文本、图片和XML文件是最典型的例子。此外，大型数据集往往是非结构化或半结构化的。Hadoop使用键值对作为基本数据单元，可足够灵活地处理较少结构化的数据类型。在Hadoop 中，数据的来源可以有任何形式，但最终会转化为键值对以供处理。

在MapReduce中，实际的数据处理步骤是由自己指定的，也很类似SQL引擎的一个执行计划。SQL使用查询语句，而MapRcduce则使用脚本和代码。利用MapReduce可以用比SQL查询更为一般化的数据处理方式。例如，可以建立复杂的数据统计模型，或者改变图像数据的格式。而SQL就不能很好地适应这些任务。Hadoop中的MapReduce是最适合一次写入、多次读取的数据存储需求。在这方面它就像SQL世界中的数据仓库，但是RDBMS更适合持续更新的数据集，不适合大量数据更新的场合。MapReduce与RDBMS的比较如下所示（读时模式指在处理数据时才对数据进行解释，这种模式在提供灵活性的同时避免了RDBMS数据加载阶段带来的高开销）：

MapReduce也是一个批量数据处理模型，它最大的优点是容易扩展到多个计算节点上处理数据。如果文件都存在一个中央存储服务器上，那么瓶颈就是该服务器的带宽。让更多的机器参与处理的办法不会一直有效，因为有时存储服务器的性能会跟不上。因此，需要将文档分开存放，使每台机器可以仅处理自己所存储的文档，从而消除单个中央存储服务器的瓶颈。因此，数据密集型分布式应用中存储和处理不得不紧密地绑定在一起。

有时候数据量过大，无法全放到内存里处理，必须修改程序以便在磁盘上存储该数据的散列表。这意味着将实现一个基于磁盘的散列表。但是汇总分布式计算的结果时，如果只有一台计算机汇总结果，单台计算机将成为瓶颈。为了使该汇总阶段以分布的方式运转，必须以某种方式将其分割到在多台计算机上，使之能够独立运行。例如，假设在第二阶段有26台计算机，让每台计算机上的wordCount只处理以特定字母开头的单词计数。

MapReduce程序的执行分为两个主要阶段，为mapping和reducing。每个阶段均定义为一个数据处理函数，分别称为mapper和reducer。在mapping阶段，MapReduce获取输入数据并将数据单元装入mapper。在reducing阶段，reducer处理来自mapper的所有输出，井给出最终结果。简而言之，mapper意味着将输入进行过滤与转换，使reducer可以完成聚合。MapReduce使用列表和键值对作为其主要的数据原语。map和reduce函数必须遵循以下对健和值类型的约束：

(1)应用的输入必须组织为一个键值对的列表list(<k1，v1>)。用于处理多个文件的输入格式通常为list ( filename, String file_content>)。用于处理日志文件这种大文件的输入格式为list()。

(2)含有键值对的列表被拆分，进而通过调用mapper的map函数对每个单独的键值对进行处理。对于单词统计，被输入mapper，而其中的filename被忽略。mapper可以输出一个的列表。

(3)所有mapper的输出(在概念上)被聚合到一个包含对的巨大列表中。所有共享相同k2的对被组织在一起形成一个新的键值对。回到单词统计的例子，一个文档的map输出的列表中可能出现三次< “foo”，1> ，而另一个文档的map输出列表可能出现两次<"foo "，1> 。reducer所看到的聚合的对为< " foo"，list(l，l，l，l，l)>。在单词统计中，reducer的输出为< "foo "，5>。一个MapReduce的代码例子如下：

Mapper类：

package Temperature;

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapred.MapReduceBase;
import org.apache.hadoop.mapreduce.Mapper;

public class MaxTemperatureMapper extends Mapper {
    private static final int MISSING=9999;

    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {  //输入是一个键值对，Context实例用于输出内容的写入
        String line=value.toString();  //将包含有一行输入的Text值转换为String类型
        String year=line.substring(15,19);
        int airTemperature;
        if(line.charAt(87)=='+'){
            //parseInt doesn't like leading plus signs
            airTemperature=Integer.parseInt(line.substring(88,92));
        }else{
            airTemperature=Integer.parseInt(line.substring(87,92));
        }
        String quality=line.substring(92,93);
        if(airTemperature!=MISSING && quality.matches("[01459]")){
            context.write(new Text(year),new IntWritable(airTemperature));
        }
    }
}

Reducer类：

package Temperature;

import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class MaxTemperatureReducer extends Reducer {  //输入参数类型要匹配map()函数的输出类型
    @Override
    protected void reduce(Text key, Iterable values, Context context) throws IOException, InterruptedException {
        int maxValue=Integer.MIN_VALUE;
        for(IntWritable value:values){
            maxValue=Math.max(maxValue,value.get());
        }
        context.write(key,new IntWritable(maxValue));
    }
}

执行任务的主类：

package Temperature;

import java.io.IOException;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class MaxTemperatureWithCombiner {
    public static void main(String[] args) throws Exception{
        if(args.length!=2){
            System.err.println("Usage: MaxTemperature  ");
            System.exit(-1);
        }
        Job job=new Job();  //Job对象指定作业执行规范，用于控制整个作业的运行。
        job.setJarByClass(MaxTemperatureWithCombiner.class);  //不必明确指定jar文件的名称，在setJarByClass()方法中传递一个类即可，Hadoop利用这个类查找包含它的jar文件
        job.setJobName("Max temperature");

        FileInputFormat.addInputPath(job,new Path(args[0]));  //定义输入数据的路径，多路径输入可以多次调用该方法
        FileOutputFormat.setOutputPath(job,new Path(args[1]));  //指定输出路径，指定的是reduce()函数输出文件的写入目录。运行作业前输出目录不应该存在，否则会报错并拒绝运行作业
        job.setMapperClass(MaxTemperatureMapper.class);  //指定要使用的map类
        job.setCombinerClass(MaxTemperatureReducer.class);  //指定要使用的combiner类
        job.setReducerClass(MaxTemperatureReducer.class);  //指定要使用的reduce类

        job.setOutputKeyClass(Text.class);  //设置reduce()函数输出的键类型
        job.setOutputValueClass(IntWritable.class);  //设置reduce()函数输出的值类型

        System.exit(job.waitForCompletion(true)?0:1);  //提交作业并等待执行完成，具有一个唯一的标识用于指示是否已生成详细输出，标识为true时作业把其进度信息写到控制台，将true或false转换成程序退出代码0或1
    }
}

二、HDFS与MapReduce

3."运行Hadoop" 意味着在网络分布的不同服务器上运行一组守护进程(daemons)。这些守护进程有特殊的角色，一些仅存在于单个服务器上，一些则运行在多个服务器上。其中有：

（1）NameNode (名字节点) ;（2）DataNode (数据节点) ;（3）Secondary NameNode (次名字节点) 。

1）Hadoop在分布式计算与分布式存储中都采用了主/从(masterlslave) 结构。分布式存储系统被称为Hadoop文件系统，或简称为HDFS。NameNode位于HDFS的主端，它指导从端的DataNode执行底层的IO任务。NameNode是HDFS的书记员，它跟踪文件如何被分割成文件块，而这些块又被哪些节点存储，以及分布式文件系统的整体运行状态是否正常。运行NameNode消耗大量的内存和IO资源。因此，为了减轻机器的负载，驻留NameNode的服务器通常不会存储用户数据或者执行MapReduce程序的计算任务。这意味着NameNode服务器不会同时是DataNode。不过NameNode的重要性也带来了一个负面影响：Hadoop集群的单点失效。对于任何其他的守护进程，如果它们所驻留的节点发生软件或硬件失效，Hadoop集群很可能还会继续平稳运行，不然还可以快速重启这个节点。但这样的方法井不适用于NameNode。

2）每个集群上的从节点都会驻留一个DataNode守护进程，来执行分布式文件系统的繁重工作，将HDFS数据块读取或者写入到本地文件系统的实际文件中。当希望对HDFS文件进行读写时，文件被分割为多个块，由NameNode告知客户端每个数据块驻留在哪个DataNode。客户端直接与DataNode守护进程通信，来处理与数据块相对应的本地文件。然后， DataNode会与其他DataNode进行通信，复制这些数据块以实现冗余，如下所示：

3）Sccondary NameNode (SNN)是一个用于监测HDFS集群状态的辅助守护进程。像NameNode一样，每个集群有一个SNN，它通常也独占一台服务器，该服务器不会运行其他的DataNode守护进程。SNN与NameNode的不同在于它不接收或记录HDFS的任何实时变化。相反，它与NameNode通信，根据集群配置的时间间隔获取HDFS元数据的快照。如前所述， NameNode是Hadoop集群的单一故障点，而SNN 的快照可以有助于减少停机的时间并降低数据丢失的风险。然而，NameNode的失效处理需要人工的干预，即手动地配置集群，将SNN用作主要的NameNode。

4.客户端及与之交互的HDFS、namenode和datanode之间的数据流过程如下图所示，显示了在读取文件时事件的发生顺序。

(1)客户端通过调用FileSystem对象的open()方法来打开希望读取的文件。对HDFS来说，这个对象是DistributedFileSystem的一个实例，DistributedFileSystem类返回一个FSDataInputStream对象（支持文件定位的输入流）给客户端以便读取该数据。

(2)DistributedFileSystem通过使用远程过程调用(RPC)来调用namenode，以确定文件起始块的位置。对于每一个块，namenode返回存有该块副本的datanode地址。这些datanode根据它们与客户端的拓扑距离来排序。

(3)客户端对这个FSDataInputStream输入流调用read()方法。存储文件起始几个块的datanode地址的DFSInputStream随即连接距离最近的文件中第一个块所在的datanode。

(4)通过对数据流反复调用read()方法，将数据从datanode传输到客户端。

(5)读取到块的末尾时，DFSInputStream关闭与该datanode的连接，然后寻找下一个块的最佳datanode。

(6)客户端从输入流中读取数据时，块是按照打开DFSInputStream与datanode新建连接的顺序读取的。一旦客户端完成读取，就对FSDataInputStream调用close()方法关闭输入流。

在读取数据的时候，如果DFSInputStream在与datanode通信时遇到错误，会尝试从这个块的另外一个最邻近datanode读取数据。它也会记住那个故障datanode，以保证以后不会再读取该节点上后续的块。DFSInputStream也会通过校验和确认从datanode发来的数据是否完整，如果发现有损坏的块，DFSInputStream会试着从其他datanode读取副本，也会将被损坏的块通知给namenode。

以上数据流读取设计的优点是，客户端可以直接连接到datanode读取数据，且namenode告知客户端每个块所在的最佳datanode。这种设计使HDFS扩展到大量的并发客户端。同时，namenode只需要响应块位置的请求，这些位置信息存储在内存中，十分高效，而无需响应客户端的数据请求，否则随着客户端数量增长，namenode会成为性能瓶颈。

而对于在HDFS中写入文件，可以用下图来说明步骤：

(1)客户端通过对DistributedFileSystem对象调用create()方法来新建文件。

(2)DistributedFileSystem对namenode创建一个RPC调用，在文件系统的命名空间中新建一个文件，此时文件中还没有相应的数据块。Namenode执行各种检查确保该文件不存在以及客户端有新建该文件的权限，检查通过后namenode就会为创建新文件添加一条记录。

(3)DistributedFileSystem向客户端返回一个FSDataOutputStream对象，这样客户端可以开始写入数据。客户端写入数据时，DFSOutputStream将它分成一个个数据包，并写入内部队列，称为“数据队列”(data queue)。

(4)DataStreamer处理数据队列，挑选出适合存储数据副本的一组datanode，并据此要求namenode分配新的数据块。这一组datanode构成一个管线(pipeline)来备份同一个数据块，DataStreamer将数据包流式传输到管线中第一个datanode，该datanode存储数据包并将它发送到管线中的第2个datanode，然后不断最后倒数第二个datanode存储数据副本后再发送给最后一个datanode。

(5)DFSOutputStream维护着一个内部数据包队列来等待datanode的收到确认信息，称为“确认队列”(ack queue)。收到管道中所有datanode确认信息后，该数据包条目才会从确认队列删除。

(6)客户端完成数据的写入后，对数据流调用close()方法。该操作将剩余的所有数据包写入datanode管线，并在联系到namenode告知其文件写入完成之前等待确认。

如果有datanode在写入期间发生故障，则执行以下操作：

(1)关闭管线，把确认队列中所有数据包都添加回数据队列的最前端，以确保故障节点下游的datanode不会漏掉任何一个数据包。

(2)为存储在另一个正常datanode的当前数据块指定一个新的标识，并将该标识传给namenode，以便故障datanode恢复后可以删除存储的部分数据块。

(3)从管线中删除故障datanode，基于两个正常datanode构建一跳新管线，余下的数据块写入管线中正常的datanode。Namenode注意到副本量不足时，会在另一个节点上创建一个新的副本。

HDFS的默认布局策略是在运行client的节点上放第一个数据副本（如果client上也运行datanode），如果client在集群之外没有运行datanode，则namenode随机选择一个节点，会避免选择存储太满或者太忙的节点；第二个副本放在与第一个节点处于同一机架上的随机节点上；第三个副本放在与第一、二个副本不同机架的另一个随机节点上，如下所示：

HDFS提供了一种强行将所有缓存刷新到datanode中的方法，即对FSDataOutputStream调用hflush()方法。当hflush()方法返回成功后，对所有新的reader而言，HDFS能保证文件中到目前为止写入的数据均到达所有datanode的写入管道并对所有新的reader均可见：

但是，hflush()不保证datanode已经将数据写到磁盘上，仅确保数据在datanode的内存中，因此，如果数据中心断电，数据会丢失。为确保数据写入到磁盘上，可以替代为hsync()。在HDFS中关闭文件其实隐含了执行hflush()方法。

5.为了让主节点登录到从节点，Hadoop使用了无口令的(passphraseless) SSH协议。SSH采用标准的公钥加密来生成一对用户验证密钥，包含一个公钥、一个私钥。公钥被本地存储在集群的每个节点上，私钥则由主节点在试图访问远端节点时发送过来。结合这两段信息，目标机可以对这次登录尝试进行验证。

集群登录更准确的描述应该是从一个节点的用户帐号到目标机上的另一个用户帐号。对于Hadoop，所有节点上的账号应该有相同的用户名，出于安全的考虑，建议把这个帐号设置为用户级别。它仅用于管理Hadoop集群。

6.单机模式是Hadoop的默认模式。当配置文件为空时，Hadoop会完全运行在本地。因为不需要与其他节点交互，单机模式就不使用HDFS，也不加载任何Hadoop的守护进程。该模式主要用干开发调试Map Reduce程序的应用逻辑，而不会与守护进程交互，避免引起额外的复杂性。

伪分布模式在"单节点集群" 上运行Hadoop。其中所有的守护进程都运行在同一台机器上。该模式在单机模式之上增加了代码调试功能，允许检查内存使用情况、HDFS输入输出，以及其他的守护进程交互。虽然所有的守护进程都运行在同一节点上，它们仍然像分布在集群中一样，彼此通过相同的SSH协议进行通信。

7. HDFS是一种文件系统，专为MapReduce这类框架下的大规模分布式数据处理而设计。可以把一个大数据集(比如100 TB ) 在HDFS中存储为单个文件，感觉就像在处理单个文件一样。文件在HDFS底层被切分成文件块，这些块分散地存储在不同的DataNode上，每个块还可以复制几份存储在不同的DataNode上备份，而大多数其他的文件系统无力实现这一点。一个典型的Hadoop工作流会在别的地方生成数据文件(如日志文件)再将其复制到HDFS 中，接着由MapReduce程序处理这个数据，但它们通常不会直接读任何一个HDFS 文件。相反，它们依靠MapReduce框架来读取HDFS 文件，并将之解析为独立的记录(键值对)，这些记录才是MapReduce程序所处理的数据单元。

MapReduce程序通过操作键值对来处理数据，一般形式为：

map: (K1，V1)→List(K2，V2)

reduce: (K2，list(V2))→list(K3，V3)

流程图如下所示：

Mapper接口负责数据处理阶段。它采用的形式为MapperJava泛型，Mapper只有一个方法map ，用于处理一个单独的键/值对。MapReduce，顾名思义在map之后的主要数据流操作是reduce，如图3 -1底部所示。当reduce任务接收来自各个mapper的输出时，它按照键值对中的键对输入数据进行排序，并将相同键的值归并。然后调用reduce()函数，并通过迭代处理那些与指定键相关联的值，生成一个(可能为空的)列表(K3，V3)。

在map和reduce两个阶段之间还有一个极其重要的步骤：将mapper的结果输出给不同的reducer。这就是partitioner的工作。partitioner的通俗作用如下所示：

在map和reduce阶段之间，一个MapReduce应用必然从mapper任务得到输出结果，并把这些结果发布给reducer任务。该过程通常被称为洗牌(shuffle)，因为在单节点上的mapper输出可能被送往分布在集群多个节点上的reducer。

8.MapReduce处理的基本原则之一是将输入数据分割成块。这些块可以在多台计算机上并行处理。在Hadoop的术语中，这些块被称为输入分片(Input Split)。每个分片应该足够小以实现更细粒度的并行。另一方面，每个分片也不能太小，否则启动与停止各个分片处理所需的开销将占去很大一部分执行时间。HDFS按块存储文件井分布在多台机器上。笼统而言，每个文件块为一个分片。由于不同的机器会存储不同的块，如果每个分片/块都由它所驻留的机器进行处理，就自动实现了并行。此外，由于HDFS在多个节点上复制数据块以实现可靠性，MapReduce可以选择任意一个包含分片/数据块副本的节点。Hadoop默认地将输入文件中的每一行视为一个记录，而键/值对分别为该行的字节偏移(key)和内容(value)。将文件化为分片时，在实际情况中，一个分片最终总是以一个文件块为大小，在HDFS中默认为128MB。最佳分片大小应该与块大小相同，因为它是确保可以存储在单个节点上的最大输入块的大小。如果分片跨越两个数据块，那么对于HDFS节点基本不可能同时存储这两个数据块，因此分片中的部分数据会通过网络传输到map任务运行的节点，效率更低。

通常而言，一个Map任务的运行时间在一分钟左右比较合适。Reduce任务的数量应该是最大Reduce任务容量的0.95倍或是1.75倍。0.95倍时，如果一个Reduce任务失败，Hadoop可以很快找到一台空闲机器重新执行任务，当Reduce任务数量是容量的1.75倍时，执行速度快的机器可以获得更多的Reduce任务，可以使负载更加均衡，提高任务的处理速度。

Map任务将其输出写入本地硬盘，而非HDFS，因为map的输出是中间结果，由reduce任务处理后才产生最终输出结果，而且map任务完成后，该中间结果就可以删除，放在HDFS中备份并不值得。如果运行map任务的节点在将map中间结果传送给reduce任务之前失败，Hadoop将在另一个节点上重新运行这个map任务。Reduce的输出通常存储在HDFS中以实现可靠存储。对于reduce输出的每个HDFS块，第一个副本存储在本地节点上，其他副本处于可靠性存储在其他机架的节点上，因此，将reduce的输出写入HDFS确实需要占用网络带宽。

9.HBase是一个类似谷歌Bigtable的分布式数据库，这张表的索引是行关键字，列关键字和时间戳。同一张表中的每一行数据都可以有截然不同的列。HBase的写操作是锁行的。

10.HDFS的缺点如下：（1）不适合低延迟数据访问。它的设计初衷主要是为达到高的数据吞吐量而设计的，这会以高延迟为代价。这可以用HBase通过三层数据管理项目来尽可能弥补HDFS的不足。（2）无法高效存储大量小文件。（3）不支持多用户写入及任意修改文件。在HDFS的一个文件中只有一个写入者，而且写操作只能在文件末尾完成，即只能执行追加(append)操作。

HDFS使用机架感知（rack-aware）策略来改进数据可靠性。大多数情况下，同一个机架内的带宽比不同机架两台机器间的带宽大。目前，HDFS将副本存放在不同机架上，副本系数是3，将一个副本存放在本地机架节点上，另一个副本放在另一机架的一个节点上，第三个副本放在与第二个副本相同机架的另外一个节点上，这种策略减少了机架间的数据传输，提高了写操作的效率。可以有效防止整个机架失效时数据丢失，并且允许读数据的时候充分利用多个机架带宽。但是，这种策略的写操作需要传输数据块到多个机架，这增加了写操作的成本。

由于namenode将文件系统的元数据存储在内存中，因此该文件系统所能存储的文件总数受限于namenode的内存容量，根据经验，每个文件、目录和数据块的存储信息大约占150字节。namenode管理文件系统的命名空间，它维护着文件系统树及整棵树内所有的文件和目录。Datanode定期向namenode发送它们所存储的块的列表。如果没有namenode，文件系统将无法使用，如果运行namenode服务的机器损坏，文件系统上所有文件将会丢失，因此对namenode实现容错非常重要。

第一种容错机制就是备份文件系统元数据状态的文件，写入一个远程挂载的网络文件系统(NFS)。第二种方法是运行一个辅助namenode，定期合并编辑日志与命名空间镜像，以防止编辑日志过大。它会保存合并后的命名空间镜像的副本，并在namenode发生故障时启用。但是，辅助namenode保存的状态总是滞后于主namenode，所以在主namenode失效时，难免会丢失部分数据。这种情况下，一般把存储在NFS上的namenode元数据复制到辅助namenode并作为新的主namenode运行。

Namenode在内存中保存文件系统每个文件和数据块的引用关系，这意味着对于一个拥有大量文件的超大集群来说，内存将成为限制系统扩展的瓶颈。不过，联合HDFS允许系统通过添加namenode实现扩展，其中每个namenode管理文件系统命名空间中的一部分。在联合环境下，每个namenode维护一个命名空间分区(namespace volume)，由命名空间元数据和一个数据块池(block pool)组成，数据块池包含该命名空间下文件的所有数据块。命名空间分区彼此独立，互相不能通信，其中一个namenode失效不会影响由其他namenode维护的命名空间可用性。而数据块池不进行切分，因此集群中的datanode需要注册到每个namenode，并存储来自多个数据块池中的数据块。

要从一个失效的namenode回复，系统管理员需要启动一个拥有文件系统元数据副本的新namenode，并配置datanode和客户端以便使用这个新的namenode，并配置datanode和客户端以便使用新namenode。在三个步骤之后，备份namenode才能重新提供服务：(1)将命名空间的镜像导入内存中；(2)重新编辑日志；(3)接收到足够多来自datanode的数据块报告并退出安全模式。对于一个拥有大量文件与数据块的集群，namenode的冷启动需要30分钟。

为了避免冷启动影响日常维护，Hadoop2增加了HDFS高可用性支持，设置了一对活动－备用(active-standby)namenode。当活动namenode失效，备用namenode会接管它的工作，不会有明显的中断感受。实现该功能有以下要求：(1)namenode之间需要通过共享存储共享编辑日志。(2)datanode需要同时向两个namenode发送数据块处理报告，因为数据块映射信息存储在namenode的内存中。(3)客户端需要特定机制处理namenode失效问题。(4)辅助namenode的角色被备用namenode所包含，备用namenode为活动的namenode命名空间设置周期性检查点。

共享存储有两种选择：(1)NFS过滤器或群体日志管理器(Quorum Journal Manager，QJM)。QJM以一组日志节点(journal node)的形式运行，每一次编辑必须写入多数日志节点，一般有三个。在故障切换与规避中，系统有一个称为故障转移控制器(failover controller)的新实体，管理将活动namenode转移为备用namenode的转换过程。每一个namenode运行着一个轻量级的故障转移控制器，工作就是通过心跳机制监控主namenode是否失效，并在失效时进行故障切换。同一时间QJM仅允许一个namenode向编辑日志中写入数据。

11.reduce()函数的输入参数类型必须匹配map()函数的输出类型。Job对象指定任务执行规范，不必明确指定jar文件的名称，在Job对象的setJarByClass()方法中传递一个类即可，Hadoop利用这个类查找包含它的jar文件。

Map函数的输入类型默认情况下和reduce函数是相同的，因此如果mapper产生出和reducer相同的类型时，不需要单独设置setMapOutputKeyClass()和setMapOutputValueClass()方法，否则需要通过这两个方法设置map函数的输出类型。

在mapper将输出发往reducer进行处理之前，中间还可以经过一个combiner函数，用于将mapper输出结果聚合，减少输入到reducer的值的数量。例如现在要求去年的最大温度值，几个mapper分别输出了各自节点上存储的去年的所有温度值，combiner先把每个mapper输出的温度值都求一个最大值，求出与mapper个数相同数量的几个最大值，再把这几个最大值传输到reducer求最终的温度最大值。这样可以避免传输大量数据到reducer，节省网络带宽，以免网速不够限制任务速度。但是combiner不能用于求平均等场合。

三、YARN

12.YARN(Yet Another Resource Negotiator)是Hadoop的集群资源管理系统，最初是为了改善MapReduce的实现，提供请求和使用集群资源的API，用户代码中用的是分布式计算框架提供的更高层API，这些API建立在YARN之上并向用户隐藏了资源管理细节，一些分布式计算应用例如MapReduce，Spark等作为YARN应用运行在集群计算层(YARN)和集群存储层(HDFS和HBase)上，如下所示：

还有一层应用，例如Pig，Hive和Crunch等是运行在Application层之上的处理框架，它们不直接和YARN打交道。YARN通过两类持续运行的守护进程提供自己的核心服务：(1)管理集群资源使用的资源管理器(resource manager)；(2)运行在集群所有节点上且能够启动和监控容器(container)的节点管理器(node manager)。容器用于执行特定应用程序的进程。下图描述了YARN运行一个应用的过程：

(1)首先，客户端联系资源管理器，要求它运行一个appplication master进程。

(2)资源管理器找到一个能够在容器中启动application master的节点管理器。

(3)application master可能在所处的容器中简单地运行一个运算，并将结果返回给客户端，或是向资源管理器请求更多的容器。

(4)如果请求了更多的容器，则进行分布式运算。

从上图可以看到，YARN本身不会为应用各部分（客户端、master和进程）之间的通信提供任何手段，大多数重要的YARN应用使用例如Hadoop的RPC层的远程通信机制来向客户端传递状态更新和返回结果，但这些通信机制都专属于各应用。

当启动一个容器用于处理HDFS数据块（为了在MapReduce中运行一个map任务）时，应用会向以下几种节点申请容器：（1）存储该数据块三个副本的节点；（2）存储这些副本的机架中其他的某个节点。如果都申请失败，则申请集群中的任意节点。

在应用分类方面，MapReduce采取一个用户作业对应一个应用的方式，按照应用到用户运行的作业之间的映射关系对应用进行分类；Spark采用作业的每个工作流或每个用户对话对应一个应用的方式，这种方法比前一种效率更高，因为容器可以在作业之间重用，并且可以缓存作业之间的中间数据。

13.MapReduce和YARN的区别，以及MapReduce1各功能被YARN取代的关系如下所示：

MapReduce1中，两类守护进程控制着作业执行流程：一个jobtracker以及一个或多个tasktracker。jobtracker通过调度tasktracker上运行的任务来协调所有运行在系统上的作业。tasktracker在运行任务的同时将运行进度报告发送给jobtracker，jobtracker由此记录每项作业任务的整体进度情况。如果其中一个任务失败，jobtracker可以在另一个tasktracker节点上重新调度该任务。

在MapReduce1中，jobtracker同时负责作业调度（将任务与tasktracker匹配）和任务进度监控（跟踪任务、重启失败或迟缓的任务；记录任务流水，如维护计数器的计数）。相比之下，在YARN中这些职责由不同的实体负责，分别为资源管理器和application master（每个MapReduce作业一个）。jobtracker也负责存储已完成作业的作业历史，但是也可以运行一个历史服务器作为一个独立的守护进程取代jobtracker。在YARN中，与jobtracker记录历史作用等价的角色是时间轴服务器（timeline server），它主要用于存储应用历史。

14.YARN相对于MapReduce1的好处有以下几方面：

（1）可扩展性：YARN相比于MapReduce1可以在更大规模的集群上运行，当节点数达到4000，任务数达到40000时，MapReduce1的瓶颈来源于jobtracker必须同时管理作业和任务。YARN利用资源管理器和application master分离的架构特点克服了这个局限性，可以扩展到接近10000个节点和100000个任务。

（2）可用性：jobtracker内存中大量快速变化的复杂状态（例如，每个任务状态每几秒更新一次）使得改进jobtracker服务获得高可用性（High availability，HA）非常困难，即很难在服务守护进程失效时，将该守护进程的状态复制到另一个守护进程上继续提供服务。而YARN中jobtracker的职责在资源管理器和application master之间进行了划分，高可用性服务变为一个分而治之问题：先为资源管理器提供高可用性，再为YARN应用提供高可用性。

（3）利用率：MapReduce1中，每个tasktracker都配置有若干固定长度的slot，这些slot是静态分配的，在配置的时候就被划分为map slot和reduce slot。一个map slot仅能用于运行一个map任务，一个reduce slot仅能运行一个reduce任务。在YARN中，一个节点管理器管理一个资源池，而不是固定数目的slot。YARN上运行的MapReduce不会出现因为集群中只有map slot导致reduce任务只能等待的情况。而且，YARN中的资源是精细化管理的，一个应用能够按需请求资源，而不是请求一个不可变单位大小的slot，对有的任务slot太大浪费资源，对有的任务slot太小会导致失败。

（4）多应用（Multitenancy）。YARN的最大优点在于向MapReduce以外的其他分布式应用，MapReduce只是YARN应用中的一个。

15.YARN中有三种调度器可用：

(1)FIFO调度器(scheduler)。FIFO调度器将应用放置在一个队列中，按照先进先出的顺序运行应用。FIFO调度器的优点是，简单易懂，不需要任何配置，但是不适合共享集群。共享集群更适合使用容量调度器或公平调度器，而不会因为大应用在队列顶部导致下面的小应用一直等待无法运行。

(2)容量(capacity)调度器。一个独立的专门队列保证小作业一提交就可以启动，由于队列容量是为队列中的作业保留的，这种策略会以整个集群的利用率为代价。这意味着和FIFO调度器相比，大作业执行的时间要长。

(3)公平(fair)调度器。使用该调度器时不需要预留一定量的资源，因为调度器会在所有运行的作业之间动态平衡资源。第一个大作业启动时，由于是唯一运行的作业，会获得集群中全部资源，当第二个小作业启动时，它被分配到集群的一半资源，不过第二个作业的启动到获得公平共享资源之间会有时间滞后，因为它必须等待第一个作业使用的容器用完并释放出资源；当小作业结束且不再申请资源后，大作业将回去再次使用全部集群资源。最终的效果是既得到了较高集群利用率，又能保证小作业及时完成。三种调度器的比较如下图：

16.容量调度器允许多个组织共享一个Hadoop集群，每个组织可以分配到全部集群资源的一部分，每个组织配有一个专门的队列，在一个队列内，使用FIFO调度策略对应用进行调度。但如上图所示，在这种调度器下，一般单个作业的资源不会超过队列容量。然而如果队列中有多个队列，并且队列资源不够用的时候，如果仍有可用的空闲集群资源，容量调度器可能会将空余的资源分配给队列中的作业，即使此时超出队列容量，称为弹性队列，这个可以通过yarn.scheduler.capacity..user-limit-factor属性设置为大于1（默认值）来使一个作业使用超过其队列容量的资源。

正常操作时，容量调度器不会通过强行终止来抢占容器，因此如果一个队列一开始资源够用，随着需求增长资源开始不够用时，这个队列只能等着其他队列释放容器资源。缓解这种情况的方法是，为队列设置一个最大容量限制，这样每个队列就不会过多侵占其他队列的容量了，不过这样做会以牺牲队列弹性为代价。容量调度器的配置文件在/etc/hadoop目录下。

17.公平调度器的使用由属性yarn.resourcemanager.scheduler.class的设置所决定。在原生Hadoop中默认使用容量调度器，在一些Hadoop发行版例如CDH中默认使用公平调度器。在原生Hadoop中如果要切换成公平调度器，需要将yarn-site.xml文件中的yarn.resourcemanager.scheduler.class设置为公平调度器的完整名字：org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler。在CDH中，依然可以通过capacity-scheduler.xml来配置（也可以通过设置属性yarn.scheduler.fair.allocation.file来指定某个路径下的配置文件名），如下所示：

没有进行公平调度器的配置的时候，默认工作策略是每个应用放置在一个以用户名命名的队列中，队列是在用户提交第一个应用时动态创建的。所有的队列都是root的子队列。每个队列(queue)都可以有不同的调度策略。队列的默认调度策略可以通过XML配置文件顶层元素的标签进行设置，如果省略，默认使用公平调度，不过公平调度器支持在某个队列设置FIFO策略，以及Dominant Resource Fairness(DRF)策略。

在配置文件中，每个队列都可以有不同的调度策略，可以在某个标签下指定标签来配置。每个队列刻配置最大和最小资源数量，及最大可运行的应用数量。如果两个队列的资源都低于它们的公平共享额度，那么远低于最小资源数量的那个队列优先被分配资源。

标签包含一个规则列表，每条规则会被依次尝试直到匹配成功。Specified表示把应用放进指明的队列中，如果未指明，或指明的队列不存在，则规则不匹配继续尝试下一条规则，且不创建队列。primaryGroup规则会尝试把应用放在用户的组名命名的队列中，如果没有这样的队列则继续尝试下一个规则且不创建队列。Default是全没匹配时的最后规则，前面指定的规则都没匹配的时候就启用这条规则。除非明确定义队列，否则必要时会以用户名为队列名创建队列。

18.在一个繁忙的集群中，当作业被提交给一个空队列时，作业不会立刻启动，直到集群上已经运行的作业释放了资源。为了使作业从提交到执行所需的时间可预测，公平调度器支持抢占(preemption)功能，即允许调度器终止那些占用资源超过了其公平共享份额的队列所在容器（线程），这些容器资源释放后可以分配给资源数量低于应得份额的队列。但是抢占功能会降低整个集群的效率，因为被终止的容器需要重新执行。

将yarn.scheduler.fair.preemption属性设置为true，可以启用抢占功能。两个相关的抢占超时设置分别为（1）最小共享(minimum share preemption timeout)；（2）公平共享(fair share preemption timeout)，两者设定时间均为秒级。默认两个超时参数都未设置，为了允许抢占容器需要至少设置其中一个参数。如果队列在minimum share preemption timeout指定时间内未获得被承诺的最小共享资源，调度器就会抢占其他容器。可以通过配置文件最上方的标签为所有队列设置默认的超时时间，还可以设置每个队列的标签为单个队列指定超时时间。同样，如果队列在fair share preemption timeout指定时间内获得的资源仍然低于其公平共享资源的一半，调度器会抢占其他容器。

19.在一个繁忙的集群上，如果一个应用请求某个节点，极有可能此时有其他容器正在该节点运行，此时如果等待一小段时间（不超过几秒），可以神奇地增加在所请求的节点上分配到一个容器的机会，从而可以提高集群的效率，这个特性称为延迟调度(delay scheduling，Application Master给Resource Manager提交资源申请的时候，会同时发送本地申请，机架申请和任意申请。然后，RM的匹配这些资源申请的时候，会先匹配本地申请，再匹配机架申请，最后才匹配任意申请。而延迟调度机制，就是调度器在匹配本地申请失败的时候，匹配机架申请或者任意申请成功的时候，允许略过这次的资源分配，直到达到延迟调度次数上限)。容量调度器和公平调度器都支持延迟调度。YARN中的每个节点管理器周期性地（默认一秒）向资源管理器发送心跳请求，心跳请求中携带了节点管理器中正运行的容器、新容器可用的资源等信息。这样对于一个想要运行一个容器的应用而言，每个心跳就是一个潜在的调度机会。

当使用延迟调度时，调度器会等待设定的最大数目的调度机会发生，然后才放松本地性限制，即在同一机架其他节点中分配一个容器。对于容量调度器，可以通过设置yarn.scheduler.capacity.node-locality-delay来配置延迟调度。设置为正整数表示调度器在放松节点限制、改为匹配同一机架上其他节点前，准备错过的调度机会数量。公平调度器使用集群规模的比例表示同样的意思。例如将yarn.scheduler.fair.locality.threshold.node设置为0.5，表示调度器在接受同一机架中其他节点之前，将一直等待直到集群中一半未保存对应文件块的节点（即3个存有文件块的datanode以外）已经通过Resource Manager给过调度机会（各节点发送心跳包给Resource Manager，心跳包中包含该节点剩余container信息，RM再发送container分配信息给对应AM）。

四、压缩

20.监测数据是否损坏的常见措施是，在数据第一次写入系统时计算校验和并在数据通过一个不可靠的通道进行传输时再次计算校验和。如果传输后计算的新校验和与原来写入时的校验和不匹配，就可以认为数据损坏。常见的错误检测码是CRC-32（32为循环冗余校验）。HDFS使用的校验和检测码是CRC-32C，会对写入的所有数据计算校验和，并在读取数据时验证校验和。dfs.bytes-per-checksum属性指定每多少字节计算一次校验和，默认情况为512字节。

datanode负责在收到数据后，存储数据与校验和之前对数据进行验证，在收到客户端的数据或复制其他datanode的数据时执行此操作。写入数据的客户端将数据及其校验和发送到一系列datanode组成的管线中，管线中最后一个datanode负责验证校验和。客户端从datanode读取数据时，也会验证校验和，将校验和与datanode中存储的校验和进行比较。每个datanode保存一个用于验证的校验和日志，因此可以得知每个数据块最后一次验证时间。客户端成功验证一个数据块后，会告诉该datanode更新日志。不只是客户端在读取数据块时会验证校验和，每个datanode也会在一个后台线程中运行一个DataBlockScanner，以定期验证存储在该datanode上的所有数据块，有助于解决硬盘的位损坏。

由于HDFS存储每个数据块的副本，因此可以通过数据副本来修复损坏数据块。基本思路为，客户端在读取数据块时，如果检测到错误，先向namenode报告已损坏的数据块以及正操作的这个datanode，再抛出ChecksumExcepiton异常。namenode将该数据副本标记为损坏，这样它不再将客户端请求发到这个datanode，或将该副本复制到另一个datanode。然后，namenode安排让该数据快的一个副本复制到出问题的datanode上。

21.Hadoop的LocalFileSystem类执行客户端的校验和验证。在写入一个名为filename的文件时，文件系统客户端会在包含各文件块校验和的目录下新建filename.crc隐藏文件，文件块的大小由属性file.bytes-per-checksum控制，默认为512字节。文件块的大小作为元数据存储在.crc文件中，因此即使文件块大小设置已经变化，依然可以正确读回文件。读取文件时验证校验和，如果检测到错误会报ChecksumException异常。

在底层文件系统本身支持校验和的时候，可以禁用Hadoop的校验和计算，可以使用RawLocalFileSystem类代替LocalFileSystem。要在一个应用中实现全局校验和验证，需要将fs.file.impl属性设置为org.apache.hadoop.fs.RawLocalFileSystem从而实现对文件URI重新映射。

22.文件压缩的好处：减少存储文件所需磁盘空间，并加速数据在网络和磁盘上的传输。这两大好处在处理海量数据时非常重要，与Hadoop结合使用的常见压缩方法如下所示：

压缩算法需要权衡空间和时间，压缩和解压缩速度越快，节省的空间越少。bzip2压缩能力强于gzip，但压缩速度更慢一点。bzip2的解压速度比压缩速度快，但仍比其他压缩格式慢一点。LZO、LZ4和Snappy均优化压缩速度，比gzip快一个数量级，但压缩效率稍逊一筹。Snappy和LZ4的解压缩速度比LZO高出很多。支持“切分(splitable)”表示可以搜索数据流的任意位置并进一步往下读取数据，可切分压缩格式尤其适合MapReduce。

对于Hadoop来说，效率最高的两种压缩方式如下：(1)使用容器文件格式，例如顺序文件、Avro数据文件、ORCFiles或者Parquet文件，所有这些文件格式同时支持压缩和切分，通常最好与一个快速压缩工具配合使用，例如LZO，LZ4，或者Snappy。(2)使用支持切分的压缩格式，例如bzip2，尽管bzip2非常慢。或者使用通过索引实现切分的压缩格式，例如LZO。

23.Codec是压缩－解压算法的一种实现，在Hadoop中，一个对CompressionCodec接口的实现代表一个codec。例如GzipCodec包装了gzip的压缩和解压算法。下表列举了Hadoop实现的codec：

CompressionCodec包含两个函数，可以用于压缩和解压。如果要对输出数据流的数据进行压缩，可以用createOutputStream(OutputStream out)方法在底层数据流中对尚未压缩的数据新建一个CompressionOutputStream对象；同样，对输入数据流中读取的数据进行解压时，调用createInputStream(InputStream in)获取CompressionInputStream，通过该方法从底层数据流中读取解压后的数据。下方代码显示了如何用API压缩从标准输入中读取的数据并将其写到标准输出：

package HadoopIO;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.compress.CompressionCodec;
import org.apache.hadoop.io.compress.CompressionOutputStream;
import org.apache.hadoop.util.ReflectionUtils;

public class StreamCompressor {  //压缩从标准输入中读取的数据并将其写到标准输出
    public static void main(String[] args) throws Exception{
        String codecClassname=args[0];
        Class codecClass=Class.forName(codecClassname);  //通过类名字符串获得类对象，用于装载类，要求JVM查找指定的类，并将类加载到内存中，JVM会执行该类的静态代码段
        Configuration conf=new Configuration();
        CompressionCodec codec=(CompressionCodec) ReflectionUtils.newInstance(codecClass,conf);  //使用ReflectionUtils新建codec实例

        CompressionOutputStream out=codec.createOutputStream(System.out);  //在底层数据流中对尚未压缩的数据新建一个CompressionOutputStream对象
        IOUtils.copyBytes(System.in,out,4096,false);  //从输入流复制数据，从输出流写入复制的数据，复制缓冲区大小为4096字节，复制结束后不关闭数据流,输出由CompressionOutputStream对象压缩
        out.finish();  //要求压缩方法完成压缩数据流的写操作，但不关闭数据流
    }
}

CompressionCodecFactory类提供了getCodec()方法，可以将文件的Path对象作为输入参数，根据文件的后缀名判断需要用哪种解压方法的codec，如下所示：

package HadoopIO;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.compress.CompressionCodec;
import org.apache.hadoop.io.compress.CompressionCodecFactory;

import java.io.InputStream;
import java.io.OutputStream;
import java.net.URI;

public class FileDecompressor {  //通过文件后缀名推断需要使用哪种解压codec
    public static void main(String[] args) throws Exception{
        String uri=args[0];
        Configuration conf=new Configuration();
        FileSystem fs= FileSystem.get(URI.create(uri),conf);

        Path inputPath=new Path(uri);
        CompressionCodecFactory factory=new CompressionCodecFactory(conf);  //CompressionCodecFactory提供一种将文件后缀名映射到一个CompressionCodec的方法
        CompressionCodec codec=factory.getCodec(inputPath);  //获取文件路径中的后缀名
        if(codec==null){
            System.err.println("No codec found for "+uri);
            System.exit(1);
        }

        String outputUri=CompressionCodecFactory.removeSuffix(uri,codec.getDefaultExtension());  //一旦找到对应的解压codec，就去除压缩文件后缀名形成输出文件名，getDefaultExtension()用于获得压缩文件的后缀名，例如“.bz2”

        InputStream in=null;
        OutputStream out=null;
        try{
            in=codec.createInputStream(fs.open(inputPath));
            out=fs.create(new Path(outputUri));
            IOUtils.copyBytes(in,out,conf);
        }finally{
            IOUtils.closeStream(in);
            IOUtils.closeStream(out);
        }
    }
}

为了提高性能，最好使用原生(native)类库来实现压缩和解压缩。例如与内置Java实现相比，使用原生gzip类库可以减少约一半的解压缩时间和约10%的压缩时间。如果使用的是原生代码库并且需要在应用中执行大量压缩和解压缩操作，可以考虑使用CodecPool，它支持反复使用压缩和解压，以分摊创建这些对象的开销，代码如下所示：

package HadoopIO;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.compress.CodecPool;
import org.apache.hadoop.io.compress.CompressionCodec;
import org.apache.hadoop.io.compress.CompressionOutputStream;
import org.apache.hadoop.io.compress.Compressor;
import org.apache.hadoop.util.ReflectionUtils;

//使用压缩池对从标准输入读取的数据进行压缩，然后将其写到标准输出
public class PooledStreamCompressor {  //使用CodecPool支持反复压缩和解压缩，适用于在应用中执行大量压缩和解压缩操作的场合，可以分摊创建这些对象的开销
    public static void main(String[] args) throws Exception{
        String codecClassname=args[0];
        Class codecClass=Class.forName(codecClassname);  //通过类名字符串获得类对象，用于装载类，要求JVM查找指定的类，并将类加载到内存中，JVM会执行该类的静态代码段
        Configuration conf=new Configuration();
        CompressionCodec codec=(CompressionCodec) ReflectionUtils.newInstance(codecClass,conf);  //使用ReflectionUtils新建codec实例
        Compressor compressor=null;
        try{
            compressor= CodecPool.getCompressor(codec);
            CompressionOutputStream out=codec.createOutputStream(System.out,compressor);  //对于指定的CompressionCodec，从压缩池中获取一个Compressor实例
            IOUtils.copyBytes(System.in,out,4096,false);  //从输入流复制数据，从输出流写入复制的数据，复制缓冲区大小为4096字节，复制结束后不关闭数据流,输出由CompressionOutputStream对象压缩
            out.finish();  //要求压缩方法完成压缩数据流的写操作，但不关闭数据流
        }finally{
            CodecPool.returnCompressor(compressor);  //确保即使出现IOException异常，也可以使compressor可以返回压缩池中
        }
    }
}

24.输入文件是压缩格式的情况下，根据文件后缀名推断出相应的codec之后，MapReduce会在读取文件时自动解压文件。要想压缩MapReduce作业的输出，需要在mapred-site.xml中将mapreduce.output.fileoutputformat.compress属性设为true，将mapreduce.output.fileoutputformat.compress.codec属性设置为打算使用的压缩codec类名。另一种方法是在代码中设置FileOutputFormat，如下所示：

package HadoopIO;

import Temperature.MaxTemperatureMapper;
import Temperature.MaxTemperatureReducer;
import Temperature.MaxTemperatureWithCombiner;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.compress.GzipCodec;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class MaxTemperatureWithCompression {
    public static void main(String[] args) throws Exception {
        if(args.length!=2){
            System.err.println("Usage: MaxTemperatureWithCompression  "+"");
            System.exit(-1);
        }

        Job job=new Job();  //Job对象指定作业执行规范，用于控制整个作业的运行
        job.setJarByClass(MaxTemperatureWithCombiner.class);  //不必明确指定jar文件的名称，在setJarByClass()方法中传递一个类即可，Hadoop利用这个类查找包含它的jar文件
        FileInputFormat.addInputPath(job,new Path(args[0]));  //定义输入数据的路径，多路径输入可以多次调用该方法
        FileOutputFormat.setOutputPath(job,new Path(args[1]));  //指定输出路径，指定的是reduce()函数输出文件的写入目录。运行作业前输出目录不应该存在，否则会报错并拒绝运行作业

        job.setOutputKeyClass(Text.class);  //设置reduce()函数输出的键类型
        job.setOutputValueClass(IntWritable.class);  //设置reduce()函数输出的值类型

        FileOutputFormat.setCompressOutput(job,true);  //代替mapred-site.xml中的设置
        FileOutputFormat.setOutputCompressorClass(job, GzipCodec.class);

        job.setMapperClass(MaxTemperatureMapper.class);  //指定要使用的map类
        job.setCombinerClass(MaxTemperatureReducer.class);  //指定要使用的combiner类
        job.setReducerClass(MaxTemperatureReducer.class);  //指定要使用的reduce类

        System.exit(job.waitForCompletion(true)?0:1);  //提交作业并等待执行完成，具有一个唯一的标识用于指示是否已生成详细输出，标识为true时作业把其进度信息写到控制台，将true或false转换成程序退出代码0或1
    }
}

如果为输出生成顺序文件(sequence file)，可以设置mapreduce.output.fileoutputformat.compress.type属性来控制使用压缩的方式，默认为RECORD，即针对每条记录进行压缩。如果改为BLOCK，将针对一组记录进行压缩，这是推荐的压缩策略，因为压缩效率更高。SequenceFileOutputFormat类也有一个静态方法putCompressionType()可以方便地设置该属性。下表归纳了用于设置MapReduce作业输出压缩格式的配置属性：

虽然MapReduce应用读写的是未经压缩的数据，但如果对map阶段的中间输入通过LZO、LZ4或者Snappy等快速压缩方式进行压缩，可以获得性能提升，因为map任务输出需要写到磁盘并通过网络传输到reduce节点，这样需要传输的数据减少了。下面是在作业中启用map任务输出gzip压缩格式的代码：

五、序列化

25.在Hadoop中，系统中多个节点上进程间的通信是通过远程过程调用(Remote Procedure Call，RPC)实现的。RPC协议将消息序列化成二进制流后发送到远程节点，远程节点再将二进制流反序列化为原始信息。Hadoop使用自己的序列化格式Writable，它紧凑速度快，但不容易用Java以外的语言进行扩展或使用。Writable接口定义了两个方法：一个将其状态写入DataOutput二进制流，一个从DataInput二进制流读取状态：

Hadoop使用IntWritable封装Java int类型。IntWritable实现原始的WritableComparable接口，这个接口继承自Writable和java.lang.Comparable接口：

对MapReduce来说，类型比较很重要，因为中间有个基于键的排序阶段。WritableComparator是对继承自WritableComparable类的RawComparator类的一个通用实现，RawComparator接口继承自Java Comparator，如下所示：

该接口允许其实现直接比较数据流中的记录，无需先把数据流反序列化为对象，避免了新建对象的额外开销。例如根据IntWritable接口实现的comparator实现原始compare()方法，该方法可以从每个字节数组b1和b2中读取给定起始位置s1和s2以及长度l1和l2的一个整数进而直接进行比较。

WritableComparator提供两个主要功能。(1)提供对原始compare()方法的一个默认实现，该方法能够反序列化将在流中进行比较的对象，并调用对象的compare()方法。(2)充当RawComparator实例的实现（已注册Writable的实现）。例如，为了获得IntWritable的comparator，可以如下调用：

这个comparator可以用于比较两个IntWritable对象：

或其序列化表示：

26.定长格式编码（如IntWritable，占４字节）很适合数值在整个值域空间中分布非常均匀的情况，例如精心设计的哈希函数。然而，大多数数值变量的分布都不均匀，一般变长格式（如VintWritable，占1~5字节，第一个字节表示正负）会更节省空间。变长编码的另一个优点是可以在VintWritable和VlongWritable转换，因为它们的编码实际上是一致的。

27.Java的String与Hadoop的Text虽然都表示字符串但是并不相同，不同点在于：

(1)String的长度是所含char的个数，但Text对象的长度却是包含的每个字符其UTF-8编码的字节数，对Text类的索引是根据字节编码后字节序列中的位置实现的，并非字符的个数位置。例如一个字符串“XXXXX”，String的字符长度为5，但是Text对象的长度会大于5，因为其中每个字符也许有英文、汉字或数字等，进行编码后字节数可能各不相同，对于第4个字符的索引，String是indexOf(3)，但Text可能为find(6)。

正因为Text类中的字符串对每个字符的索引不能用每次加1来计算，迭代Text类的字符串比String复杂：将Text对象转换为java.nio.ByteBuffer对象，然后利用缓冲区对Text对象反复调用bytesToCodePoint()静态方法，该方法可以获取下一个字符的位置，并返回相应的int值，然后再从缓冲区读取下一个字符。当bytesToCodePoint()返回-1时表示遍历到末尾：

package HadoopIO;

import org.apache.hadoop.io.Text;

import java.nio.ByteBuffer;

public class TextIterator {  //遍历Text对象中的字符
    public static void main(String[] args){
        Text t=new Text("\u0041\u00DF\u6771\uD801\uDC00");

        ByteBuffer buf=ByteBuffer.wrap(t.getBytes(),0,t.getLength());  //将Text字符串放入缓冲区
        int cp;
        while(buf.hasRemaining() && (cp=Text.bytesToCodePoint(buf))!=-1){  //当缓冲区有数据且未遍历到最后一个字符时，通过bytesToCodePoint()方法获取下一个字符的位置，返回相应int值
            System.out.println(Integer.toHexString(cp));
        }
    }
}

(2)与String相比，Text对象实例的值是可变的，字符串实例可以被直接设置为另一个值并且依然使用同一个Text对象，而不是像String一样，看起来是赋值，其实是重新分配了一个String对象给新字符串值，并将引用指向新String对象：

28.BytesWritable是对二进制数组的封装，它的序列化格式为一个数据所含字节数量（占4字节），后接数据本身。例如，长度为2的字节数组包含3和5，序列化为一个4字节的整数00000002和该数组中的两个字节03和05，变为000000020305。NullWritable是Writable的特殊类型，它的序列化长度为0。它不从数据流中读写数据，而是充当占位符，例如在MapReduce中，如果不需要使用键或值的序列化地址，就可以将键或值声明为NullWritable，这样可以高效存储常量空值。可以通过NullWritable.get()方法获取到实例。

ObjectWritable是对Java基本类型(String，enum，Writable，null或这些类型组成的数组)的一个通用封装，在Hadoop RPC中用于对方法参数和返回类型进行封装和解封装。当一个字段中包含多个类型时，ObjectWritable很有用，例如SequenceFile的值中包含多个类型，可以将值类型声明为ObjectWritable，并将每个类型封装在一个ObjectWritable中。然而，如果需要封装的类型数量比较少并且提前知道具体是什么类型，那么每次序列化都写通用封装类型的名称会非常浪费空间，可以使用静态类型数组，并对序列化后类型的引用加入位置索引提高性能，就是GenericWritable。

29.ArrayWritable和TwoDArrayWritable是对Writable的数组和二维数组的实现。这两者中所有元素必须是同一类的实例，如：

ArrayWritable writable=new ArrayWritable(Text.class);

MapWritable和SortedMapWritable分别实现了java.util.Map和java.util.SortedMap。可以使用MapWritable类型，或在需要排序集合的时候使用SortedMapWritable类型来枚举集合中的元素，对集合的枚举类型可以使用EnumSetWritable。对于单类型的Writable列表，使用ArrayWritable足够，但如果需要把不同Writable类型存储在单个列表中，可以用GenericWritable将元素封装在一个ArrayWritable，或者可以借鉴MapWritable写一个通用的ListWritable。

30.定制一个自己的Writable实现的例子如下所示，用于表示一对字符串，同时为了提高速度，可以实现一个RawComparator，将原来先通过readFields()将数据流反序列化为对象，再通过compareTo方法比较，变为直接比较两个TextPair对象的序列化表示如下所示：

package HadoopIO;

import java.io.*;

import org.apache.hadoop.io.*;

public class TextPair implements WritableComparable {  //定制一个新的存储一对Text对象的Writable实现
    private Text first;
    private Text second;

    public TextPair(){
        set(new Text(),new Text());
    }

    public TextPair(String first,String second){
        set(new Text(first),new Text(second));
    }
    public TextPair(Text first,Text second){
        set(first,second);
    }

    public void set(Text first,Text second){
        this.first=first;
        this.second=second;
    }

    public Text getFirst(){
        return first;
    }
    public Text getSecond(){
        return second;
    }

    public void write(DataOutput out) throws IOException {  //将每个Text对象序列化到输出流中，因为继承了WritableComparable所以必须实现该方法
        first.write(out);
        second.write(out);
    }

    public void readFields(DataInput in) throws IOException {  //查看各个字段的值，对来自输入流的字节进行反序列化，因为继承了WritableComparable所以必须实现该方法
        first.readFields(in);
        second.readFields(in);
    }

    @Override
    public int hashCode() {  //MapReduce中的默认分区类HashPartitioner通常用hashCode()方法选择reduce分区，需要确保有个较好的哈希函数来保证每个reduce分区的大小相似
        return first.hashCode()*163+second.hashCode();
    }

    @Override
    public boolean equals(Object o) {
        if(o instanceof TextPair){
            TextPair tp=(TextPair)o;
            return first.equals(tp.first) && second.equals(tp.second);
        }
        return false;
    }

    @Override
    public String toString() {  //即使结合使用TextOutputFormat和定制的Writable，也需要自己重写toString()方法，TextOutputFormat对键和值调用toString()方法
        return first+"\t"+second;
    }

    public int compareTo(TextPair tp) {  //如果第一个字符相同，则按照第二个字符排序，因为继承了WritableComparable所以必须实现该方法
        int cmp=first.compareTo(tp.first);
        if(cmp!=0){
            return cmp;
        }
        return second.compareTo(tp.second);
    }

    public static class Comparator extends WritableComparator{  //前面的代码是先通过readFields()将数据流反序列化为对象，再通过compareTo方法比较，这里变为直接比较两个TextPair对象的序列化表示，提高速度
        private static final Text.Comparator TEXT_COMPARATOR=new Text.Comparator();
        public Comparator(){
            super(TextPair.class);
        }

        @Override
        public int compare(byte[] b1, int s1, int l1, byte[] b2, int s2, int l2) {
            try{
                int firstL1=WritableUtils.decodeVIntSize(b1[s1])+readVInt(b1,s1);  //计算字节流中第一个TextPair对象中第一个Text字段的长度，由ByteWritable字节数组开头表示字符个数的字节长度加上实际字符的个数组成，具体原因可看BytesWritable的说明
                int firstL2=WritableUtils.decodeVIntSize(b2[s2])+readVInt(b2,s2);  //计算字节流中第二个TextPair对象中第一个Text字段的长度，由ByteWritable字节数组开头表示字符个数的字节长度加上实际字符的个数组成，具体原因可看BytesWritable的说明
                int cmp=TEXT_COMPARATOR.compare(b1,s1,firstL1,b2,s2,firstL2);  //比较两个TextPair对象的第一个Text对象
                if(cmp!=0){
                    return cmp;
                }
                return TEXT_COMPARATOR.compare(b1,s1+firstL1,l1-firstL1,b2,s2+firstL2,l2-firstL2);  //如果两个TextPair对象的第一个Text对象比较结果相同，则比较两者的第二个Text对象
            }catch(IOException e){
                throw new IllegalArgumentException(e);
            }
        }
    }

    static{  //调用静态方法define()将Comparator注册到WritableComparator的comparators成员中，comparators是HashMap类型而且是static的，相当于告诉WritableComparator，当使用WritableComparator.get(TextPair.class)方法时，要返回自己注册的这个Comparator，然后就可以用comparator.compare()来进行比较，而不需要将要比较的字节流反序列化为对象，节省创建对象的所有开销
        WritableComparator.define(TextPair.class,new Comparator());
    }
}

六、文件格式数据结构

31.纯文本不适合记录二进制类型的数据，而Hadoop的SequenceFile类很合适，作为日志文件的存储格式时，可以自己选择键和值的类型。同时SequenceFile也可以作为小文件的容器，HDFS和MapReduce是针对大文件优化的，所以通过SequenceFile类型将多个小文件包装起来，打包成一个SequenceFile类，可以获得更高效率的存储和处理。通过createWriter()静态方法可以创建SequenceFile对象，并返回SequenceFile.Writer实例，该静态方法有多个重载版本，但都需要指定待写入的数据流(FSDataOutputStream或FileSystem和Path对象)、Configuration对象以及键和值的类型。可选参数包括压缩类型及其codec，Progressable回调函数用于通知写入的进度，以及在SequenceFile头文件中存储的Metadata实例。

存储在SequenceFile中的键和值不一定需要是Writable类型，只要能被Serialization序列化和反序列化，任何类型都可以。以下例子为将键值对写入一个SequenceFile：

package HadoopIO;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.SequenceFile;
import org.apache.hadoop.io.Text;

import java.io.IOException;
import java.net.URI;

public class SequenceFileWriteDemo {  //将键值对写入一个SequenceFile对象
    private static final String[] DATA={
            "One, two, buckle my shoe",
            "Three, four, shut the door",
            "Five, six, pick up sticks",
            "Seven, eight, lay them straight",
            "Nine, ten, a big fat hen"
    };

    public static void main(String[] args) throws IOException {
        String uri=args[0];
        Configuration conf=new Configuration();
        FileSystem fs=FileSystem.get(URI.create(uri),conf);
        Path path=new Path(uri);

        IntWritable key=new IntWritable();
        Text value=new Text();
        SequenceFile.Writer writer=null;
        try{
            writer=SequenceFile.createWriter(fs,conf,path,key.getClass(),value.getClass());  //创建SequenceFile对象，并返回SequenceFile.Writer实例
            for(int i=0;i<100;i++){
                key.set(100-i);
                value.set(DATA[i%DATA.length]);
                System.out.printf("[%s]\t%s\t%s\n",writer.getLength(),key,value);
                writer.append(key,value);  //在文件末尾附加键值对
            }
        }finally{
            IOUtils.closeStream(writer);  //关闭数据流
        }
    }
}

从头到尾读取顺序文件也类似，创建SequenceFile.Reader实例后反复调用next()方法迭代读取记录，如果使用的是Writable类型，通过键和值作为参数的next()方法可以将数据流中下一条键值对读入变量中，如public boolean next(Writable key, Writable val)。读取SequenceFile的例子如下所示：

package HadoopIO;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.SequenceFile;
import org.apache.hadoop.io.Writable;
import org.apache.hadoop.util.ReflectionUtils;

import java.io.IOException;
import java.net.URI;

public class SequenceFileReadDemo {  //读取包含Writable类型键值对的SequenceFile
    public static void main(String[] args) throws IOException {
        String uri=args[0];
        Configuration conf=new Configuration();  //根据编辑好的xml配置文件创建Configuration实例
        FileSystem fs=FileSystem.get(URI.create(uri),conf);  //通过给定的URI和配置权限确定要使用的文件系统
        Path path=new Path(uri);

        SequenceFile.Reader reader=null;
        try{
            reader=new SequenceFile.Reader(fs,path,conf);  //创建读取顺序文件的实例
            Writable key=(Writable)ReflectionUtils.newInstance(reader.getKeyClass(),conf);  //通过getKeyClass()发现SequenceFile中使用的键类型，然后通过ReflectionUtils对象生成键的实例
            Writable value=(Writable)ReflectionUtils.newInstance(reader.getValueClass(),conf);  //通过getKeyClass()发现SequenceFile中使用的值类型，然后通过ReflectionUtils对象生成值的实例
            long position=reader.getPosition();  //读取位置定位到开头
            while(reader.next(key,value)){  //next()方法迭代读取记录，如果键值对成功读取，返回true，如果已读到文件末尾返回false
                String syncSeen=reader.syncSeen()?"*":"";  //如果读到了同步点所在位置，就在显示所读取数据的第一列多打印一个星号
                System.out.printf("[%s%s]\t%s\t%s\n",position,syncSeen,key,value);
                position=reader.getPosition();  //beginning of next record
            }
        }finally{
            IOUtils.closeStream(reader);
        }
    }
}

部分输出如下所示：

该例子可以显示SequenceFile中同步点的位置信息（星号位置），同步点就是数据读取指针由于搜索等操作而跑到其他位置后，可以通过该同步点再一次与记录边界同步的一个位置。同步点是由SequenceFile.Writer记录的，在顺序文件写入过程中插入一个特殊项以便每隔几个记录便有一个同步标识，该特殊项很小只造成不到1%的存储开销，同步点始终位于记录的边界处。在顺序文件中搜索给定位置有两种方法：(1)可以通过seek()方法，例如reader.seek(359)。但如果指定的位置不是记录边界，调用next()方法会报错。(2)通过同步点查找记录边界。SequenceFile.Reader对象的sync(long position)方法可以将读取位置定位到position之后的下一个同步点，例如reader.sync(360)会定位到2021L的位置，并且同步到最近同步点之后可以用next()继续读取。当然SequenceFile.Writer对象也有一个sync()方法用于在数据流当前位置插入一个同步点。

32.加入同步点的顺序文件可以作为MapReduce的输入，因为SequenceFile允许切分，所以该文件的不同部分可以由独立的map任务单独处理。hadoop fs -text命令可以以文本形式显示顺序文件，如下所示：

MapReduce是对多个顺序文件进行排序或合并的最好方法，MapReduce本身是并行的，并且可以指定要使用多少个reducer（该数决定输出分区数，指定一个reducer就得到一个输出文件）。

33.SequenceFile由文件头和随后的一条至多条记录组成，如下所示：

顺序文件的前三个字节为SEQ（顺序文件代码），其后的一个字节表示顺序文件的版本号。文件头中包含其他字段例如键和值类的名称、数据压缩细节、用户定义元数据及同步标识。同步标识用于在读取文件时能够从任意位置识别记录边界。每个文件都有一个随机生成的同步标识，其值存储在文件头中。同步标识位于顺序文件中的两个记录之间，但并非每条记录末尾都有该标识，而是每隔一些记录有一个。如果没有启用压缩（默认），每条记录由记录长度（字节数，占4字节的整数）、键长度、键和值组成。记录压缩格式基本相同，只是值用文件头中定义的codec压缩，但键没有被压缩。

块压缩(block compression)是一次性压缩多条记录，因为可以利用记录间的相似性进行压缩，所以相比单条记录压缩方法，该方法压缩效率更高。可以不断向数据块中压缩记录，直到块的字节数不小于io.seqfile.compress.blocksize属性中设置的字节数，默认为1MB。每一个新块的开始处都需要插入同步标识，如下所示：

数据块的格式为：首先是一个指示数据块中记录数的字段，紧接着是4个压缩字段（键长度、键、值长度和值）。

34.MapFile是已经排过序的SequenceFile，它有索引所以可以按键查找，索引自身就是一个SequenceFile，包含了map中的一小部分键（默认情况下，是每隔128个键）。因为索引可以加载进内存，所以可以提供对主数据文件的快速查找，主数据文件则是另一个SequenceFile，包含了所有的map条目，这些条目都按照键的顺序进行了排序。

当使用MapFile.Writer进行写操作时，map条目必须顺序添加，否则会抛出IOException异常。MapFile在键值对的接口上有一些变种：(1)SetFile用于存储Writable键的集合，键必须按照排好的顺序添加。(2)ArrayFile的键是一个整型，用于表示数组元素的索引，值是一个Writable值。(3)BloomMapFile提供了get()方法的一个高性能实现，对稀疏文件很有用，该实现使用一个动态的布隆过滤器检测某个键是否在MapFile中，由于在内存中进行该测试很快，仅当键存在时，常规的get()方法才会被调用。

35.SequenceFile、MapFile和Avro数据文件都是面向行的格式，意味着每一行的值在文件中是连续存储的。在面向列的存储格式中，文件中的行或者Hive中的一张表被分割成行的分片，每个分片以列的形式存储，先存储第一列的值，再存储第二列的值，如下所示：

面向列的存储可以使一个查询跳过不必访问的列。在像顺序文件这样面向行的存储中，即使只需要读取某一列，存储在SequenceFile一条记录中的整个数据行都会被加载进内存，虽然延迟反序列化(lazy deserialization)策略只反序列化被访问的列字段能节省一定开销，但依然不能减少从磁盘读取整个一行数据的开销。面向列的存储格式适合只访问表中一小部分列的查询。相反，面向行的存储格式适合同时处理一行中很多列的情况。然而，由于必须在内存中缓存行的分片(row split)而不是单独的一行，面向列的存储格式需要更多的内存用于读写。并且，如果Writer处理失败，当前文件无法恢复，所以面向列的格式不适合流的写操作。而面向行的存储格式例如SequenceFile和Avro，可以一直读取到writer失败后的最近同步点。

你可能感兴趣的:(大数据)

C/C++每日一练：实现选择排序風清掦 C/C++~每日一练 c语言 c++算法
选择排序选择排序是一种简单直观的排序算法，时间复杂度为，其中n是数组长度，不适合大数据集的排序，适合于元素较少且对性能要求不高的场景。选择排序的基本思想是：每次从未排序部分选择最小的元素，将其放到已排序部分的末尾。这样经过多轮操作后，整个数组会被逐步排好序。具体步骤如下：初始化：将第一个元素作为已排序区，剩余部分作为未排序区。遍历未排序区：从未排序区间找出最小的元素，记下其位置。交换位置：将找到的
怎么做一个AI产品经理？ AI筑梦师 AI产品经理人工智能产品经理
AI产品经理全面进化：在人工智能迅猛发展的时代，产品经理的角色正经历前所未有的转型。从传统的需求捕捉者到技术与商业紧密结合的创新推动者，AI产品经理肩负着将前沿AI技术转化为解决用户痛点的产品的重要任务。随着大数据、云计算和大模型技术的不断成熟，产品经理不仅需要具备敏锐的市场洞察，还必须深刻理解AI技术本质，跨界整合技术、数据与业务优势，从而推动产品的持续创新与落地。本文将全面解析AI产品经理的角
运维面试常问的100道题（大数据统计）無爲謂人工智能运维面试
一、基础知识类1、请解释什么是运维？运维是指对企业的IT系统进行运行维护，包括硬件设备、软件系统、网络等的监控、管理、优化和故障处理，以确保系统的稳定、高效运行，满足业务需求。2、简述运维的主要职责有哪些？服务器的安装、配置、维护和监控。网络设备的管理和维护。数据库的管理和维护。应用系统的部署、升级和维护。故障处理和应急响应。性能优化和容量规划。安全管理和漏洞修复。3、什么是服务器？有哪些类型？服
融合网络实训室初步建设方案设想武汉唯众智创网络融合网络实训室融合网络融合网络实验室网络融合实训室网络融合实验室
一、引言在数字化浪潮席卷全球的当下，网络技术已然成为推动社会发展和经济增长的关键力量。从日常的生活购物到企业的运营管理，从便捷的社交沟通到前沿的科研探索，网络技术无处不在，深刻地改变着人们的生活与工作方式。随着5G、物联网、云计算、大数据等新兴技术的迅猛发展，网络技术领域对于专业人才的需求呈现出爆发式增长。据权威机构预测，未来几年，网络技术相关岗位的人才缺口将持续扩大。这些岗位不仅要求从业者具备扎
嵌入式SDIO 总线面试题及参考答案大模型大数据攻城狮 fpga开发嵌入式面经 SPI USB接口 SD总线 SDIO总线牛客网
目录SDIO总线与SD总线的核心区别是什么？(附框架图）简述SDIO总线物理接口的组成及其功能（CLK、CMD、DAT0-DAT3）。SDIO总线支持的最大数据传输位宽是多少？如何配置？解释SDIO总线中的主从模式架构及通信流程。SDIO卡的功能类型有哪些（如Wi-Fi、蓝牙、GPS）？SDIO总线时钟信号（CLK）的作用及典型频率范围SDIO协议中的OCR寄存器作用是什么？如何通过CMD5获取卡
大模型和数据要素赋能实体零售行业数字化转型建设和实施方案优享智库大模型数据要素数据治理数据仓库主数据零售
大模型和数据要素赋能实体零售行业数字化转型建设和实施方案更多参考公众号：优享智库引言项目背景与意义数字化转型目标与期望实施方案概述零售行业现状及挑战实体零售行业现状数字化转型面临的挑战市场需求与趋势分析大模型与数据要素赋能策略大模型技术及应用场景数据要素采集、整合与治理赋能策略制定与实施路径数字化转型关键技术与解决方案人工智能技术及应用大数据分析与挖掘技术云计算、物联网等技术支持定制化解决方案设计
京准电钟分享：医院网络内NTP时间同步服务器作用是什么？北京华人开创公司北斗卫星授时 NTP时间同步 GPS对时装置 NTP 时间同步服务器网络时间服务器 NTP时间服务器网络系统时钟同步
京准电钟分享：医院网络内NTP时间同步服务器作用是什么？京准电钟分享：医院网络内NTP时间同步服务器作用是什么？时间同步技术必定将是整个大数据处理系统的重要支撑和保障。时间同步技术使数据产生与处理系统的所有节点具有全局的、统一的标准时间，从而使系统中的所有各种消息、事件、节点、数据等具备正确的逻辑性、协调性以及可追溯性。大数据产生与处理系统是各种计算设备集群的，计算设备将统一、同步的标准时间用于记
204页数字化转型：集团企业信息化规划方案公众号：智慧方案文库精选解决方案（附下载）大数据 database
建立统一共享的信息平台，集团总部能实时监控下属单位的库存、产量、成本、资金流等关键信息，有效利用大数据技术平台为管理层提供全面、及时、准确的决策信息支持。n推动生产、销售、新业务领域的自动化、数字化、网络化、信息化、集成化，为今后打造智能制造、智慧农业奠定坚实基础；n推进IT基础设施建设与提升，采用全新的架构设计理念，建成组件化、集中化、服务化、协同化的统一云平台，提供高质量、可重用的平台服务，营
Java 大视界 -- Java 大数据在智慧交通自动驾驶仿真与测试数据处理中的应用（136）青云交大数据新视界 Java 大视界 java 大数据自动驾驶智慧交通仿真测试数据处理数据存储
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
大数据手册(Spark)--Spark安装配置 WilenWu 数据分析(Data Analysis)大数据 spark 分布式
本文默认在zsh终端安装配置，若使用bash终端，环境变量的配置文件相应变化。若安装包下载缓慢，可复制链接到迅雷下载，亲测极速～准备工作Spark的安装过程较为简单，在已安装好Hadoop的前提下，经过简单配置即可使用。假设已经安装好了hadoop（伪分布式）和hive，环境变量如下JAVA_HOME=/usr/opt/jdkHADOOP_HOME=/usr/local/hadoopHIVE_HO
《java性能调优》2.Stream如何提高遍历集合效率 just_one_wk java性能调优
在Java8中，Collection新增了两个流方法，分别是Stream()和parallelStream()。什么是Stream？在Java8之前，我们通常是通过for循环或者Iterator迭代来重新排序合并数据，又或者通过重新定义Collections.sorts的Comparator方法来实现，这两种方式对于大数据量系统来说，效率并不是很理想。Java8中添加了一个新的接口类Stream，
uni-app App 端分段导出 JSON 数据为文件 _虾仁不眨眼_ uni-app
在开发过程中，我们经常需要将大量数据导出为JSON文件，尤其是在处理长列表或大数据集时。然而，直接将所有数据写入一个文件可能会导致性能问题，尤其是在移动设备上。为了优化性能并提高用户体验，我们可以将数据分段导出到多个文件中。实现思路分段处理数据：将长JSON数据分段，每段包含固定数量的数据。使用plus.io写入文件：利用uni-app的plus.ioAPI，将每段数据写入单独的文件。提示用户导出
智慧运维与物联网技术在地铁车辆段的应用项目罗博深
本文还有配套的精品资源，点击获取简介：随着物联网技术的广泛应用，智慧运维系统通过传感器、大数据分析、云计算等技术集成，提升了地铁车辆段的运维效率和安全性。该系统可以实时监控设备状态、预测故障、提供智能决策支持、优化维护策略，并降低运营成本，同时提高乘客安全。其应用拓展至整个地铁线路，乃至与城市交通系统协同，展现了智慧运维对公共交通系统现代化的贡献。1.物联网技术基础与应用物联网（Interneto
Java多线程与并发编程实战——从基础到进阶 AI天才研究院 Python实战 Java实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介互联网企业都在大力拓展自己的业务，而新的技术革命也带来了海量的数据量，因此，单机并发处理能力已经无法满足现代信息时代对高速数据的需求。大数据和云计算带来的分布式系统架构，让单台计算机不仅能够执行单个任务，而且可以横向扩展处理大量任务。在这种情况下，如何充分利用多核CPU、共享内存等资源并发地处理多项任务就成为现代系统设计者们必备技能之一。本书将以实操为导向，全面
深入解析LTE-A到5G的系统消息架构与功能演进罗博深
本文还有配套的精品资源，点击获取简介：系统消息是移动通信网络中，UE与网络间信息交换的核心，涵盖了网络状态、服务信息与系统配置。文章深入分析了4GLTE-A到5G网络中系统消息的组成、作用及其演进，包括MIB和SIBs的功能与内容，以及5G对系统消息的优化和新技术的引入，如动态调度、网络切片和针对物联网设备的特定参数配置。5G系统消息还通过机器学习和大数据分析实现智能化分发，增强了网络灵活性、智能
机器学习算法实战——天气数据分析（主页有源码）喵了个AI 机器学习实战机器学习算法数据分析
✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨1.引言天气数据分析是气象学和数据科学交叉领域的一个重要研究方向。随着大数据技术的发展，气象数据的采集、存储和分析能力得到了显著提升。机器学习算法在天气数据分析中的应用，不仅能够提高天气预报的准确性，还能为气候研究、灾害预警等提供有力支持。本文将介绍机器学习在天气数据分析中的应用，探讨
多线程到底重不重要？ Vic2334 JAVA java 开发语言
我们先说一下为什么要讲多线程和高并发？原因是，你想拿到一个更高的薪水，在面试的时候呈现出了两个方向的现象：第一个是上天项目经验高并发缓存大流量大数据量的架构设计第二个是入地各种基础算法，各种基础的数据结构JVMOS线程IO等内容多线程和高并发，就是入地里面的内容。基本概念我们先从线程的基本概念开始，给大家复习一下，不知道有多少同学是基础不太好，说什么是线程都不知道的，如果这样的话，花时间去补初级内
Assembly语言的自然语言处理花韵婷包罗万象 golang 开发语言后端
Assembly语言在自然语言处理中的应用引言自然语言处理（NaturalLanguageProcessing,NLP）作为人工智能的一个重要分支，致力于实现计算机与人类语言之间的互动。随着计算能力的提升以及大数据的蓬勃发展，NLP在各个领域的应用如火如荼。从语音识别、机器翻译到情感分析等，NLP正在改变我们与信息之间的互动方式。不过，当前主流的NLP研究通常是用高级编程语言（如Python、Ja
提出机器人自主学习新范式，深大团队最新顶会论文，刷新6大复杂任务SOTA 量子位
关注前沿科技量子位让机器人轻松学习复杂技能有新框架了！深圳大学大数据系统计算技术国家工程实验室李坚强教授团队联合鹏城国家实验室、北京理工莫斯科大学，提出了奖励函数与策略协同进化框架ROSKA。在多个高维度机器人任务上，在仅使用89%训练样本的情况下，比现有SOTA方法平均性能提升95.3%。众所周知，随着机器人技术的快速发展，其应用已渗透至日常生活和工业生产场景。然而在多自由度机器人控制领域，传统
基于Asp.net的汽车租赁管理系统计算机学姐 Asp精选实战项目源码 asp.net 汽车后端 mysql sqlserver vue.js c#
作者：计算机学姐开发技术：SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等，“文末源码”。专栏推荐：前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码精品专栏：Java精选实战项目源码、Python精选实战项目源码、大数据精选实战项目源码系统展示【2025最新】基于Asp.net的汽车租赁管理系统开发
TDengine 使用教程：从入门到实践遇见伯灵说 tdengine 大数据时序数据库
TDengine是一款专为物联网（IoT）和大数据实时分析设计的时序数据库。它能够高效地处理海量的时序数据，并提供低延迟、高吞吐量的性能表现。在本文中，我们将带领大家从TDengine的安装、基本操作到一些高级功能，帮助你快速上手。1.TDengine简介TDengine是一个高效的时序数据存储解决方案，支持高并发写入和快速的实时分析。它适用于各种物联网应用场景，如传感器数据监控、日志数据处理等。
Java：AI 浪潮中的隐形支柱 —— 探秘 Java 在人工智能领域的独特地位琢磨先生David 人工智能
引言在人工智能技术席卷全球的今天，当人们谈论AI开发时，Python、R语言、C++等工具总是最先被提及。然而在这个充满创新的领域，有一个"老兵"正悄然发挥着不可替代的作用——自1995年诞生至今的Java语言，凭借其独特的工程化基因，正在构建起AI世界的底层基础设施。本文将揭示Java如何在大数据、机器学习、企业级AI系统等领域持续创造价值。一、Java的AI基因解码跨平台优势的现代意义"一次编
掌握大数据时代的心跳：实时数据处理的崛起 Echo_Wish 大数据大数据
掌握大数据时代的心跳：实时数据处理的崛起在大数据时代，我们每天都在生成海量的数据——从社交媒体上的点赞到物联网设备上传的传感器数据，数据无处不在。然而，仅仅存储这些数据已经无法满足现代业务的需求，“实时数据处理”已经从一项可选技术跃升为业务成功的关键所在。如何让数据在其生成的瞬间就能被分析、处理并驱动决策，这是我们今天要探讨的重点。为什么实时数据处理如此重要？想象一下这样两个场景：在线交易平台：当
老板既要又要还要......我用Doris+Hudi把不可能变成了日常一臻数据大数据 Doris 大数据数据分析数据库
老板既要又要还要......我用Doris+Hudi把不可能变成了日常探索Doris与Hudi的完美融合智能查询优化华丽转身-不止于快的进化Doris+Hudi湖仓一体的"艺术之美"大数据江湖中流传着这样一个传说：有一位数据科学家，整日为查询性能发愁，夜夜加班优化SQL。直到有一天，他发现了Doris与Hudi的"天作之合"，顿时开启了"飞毛腿"模式——查询速度快得连老板都不敢相信！如今，这个传说
六月份阶段性大总结之Doris/Clickhouse/Hudi一网打尽王知无(import_bigdata) 大数据编程语言人工智能 java 数据分析
点击上方蓝色字体，选择“设为星标”回复"面试"获取更多惊喜全网最全大数据面试提升手册！这是个阶段性小总结，后面会持续更新。ClickHouse「Clickhouse系列」分布式表&本地表详解「ClickHouse系列」ClickHouse之MergeTree原理「ClickHouse系列」Replication机制详解「ClickHouse系列」ClickHouseSQL基本语法和导入导出实战「C
使用 Doris 和 Iceberg 向阳1218 大数据 doris
作为一种全新的开放式的数据管理架构，湖仓一体（DataLakehouse）融合了数据仓库的高性能、实时性以及数据湖的低成本、灵活性等优势，帮助用户更加便捷地满足各种数据处理分析的需求，在企业的大数据体系中已经得到越来越多的应用。在过去多个版本中，ApacheDoris持续加深与数据湖的融合，当前已演进出一套成熟的湖仓一体解决方案。自0.15版本起，ApacheDoris引入Hive和Iceberg
使用 Doris 和 LakeSoul 向阳1218 大数据 doris
作为一种全新的开放式的数据管理架构，湖仓一体（DataLakehouse）融合了数据仓库的高性能、实时性以及数据湖的低成本、灵活性等优势，帮助用户更加便捷地满足各种数据处理分析的需求，在企业的大数据体系中已经得到越来越多的应用。在过去多个版本中，ApacheDoris持续加深与数据湖的融合，当前已演进出一套成熟的湖仓一体解决方案。自0.15版本起，ApacheDoris引入Hive和Iceberg
AI大模型时代，2025大龄程序员如何轻松转型赢未来？ AI大模型学习不迷路人工智能自然语言处理大模型大语言模型语言模型程序员转行
当前大龄程序员的处境在科技行业的高速发展中，大龄程序员这一群体正面临着前所未有的挑战。随着新兴技术的不断涌现，如云计算、大数据、人工智能等，传统的编程技能逐渐显得“过时”。同时，年轻一代的程序员以更加低廉的薪酬和旺盛的精力涌入市场，加剧了职场的竞争。对于大龄程序员而言，他们不仅需要应对技能更新的压力，还常常受到年龄歧视的影响，尤其是在追求创新和速度的科技公司中。许多大龄程序员发现自己处于尴尬境地，
数字孪生对于新基建的价值浅析，算是抛砖引玉。大牛工控设计师人工智能信息可视化前端
数字孪生（DigitalTwin）作为一项融合物理世界与数字世界的关键技术，在新基建中扮演着虚实协同、智能决策、全生命周期管理的核心角色，其价值贯穿于基础设施的设计、建设、运维到优化全流程。一、核心价值：虚实映射与智能决策实时动态映射通过传感器、IoT设备实时采集物理实体（如工厂、城市、电网）的运行数据，构建高精度虚拟模型，实现**“所见即所控”**的透明化管理。模拟预测与优化利用AI和大数据分析
大数据学习（67）- Flume、Sqoop、Kafka、DataX对比 viperrrrrrr 大数据学习 flume kafka sqoop datax
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦工具主要作用数据流向实时性数据源/目标应用场景Flume实时日志采集与传输从数据源到存储系统实时日志文件、网络流量等→HDFS、HBase、Kafka等日志收集、实时监控、实时分析Sqoop关系型数据库与Hadoop间数据同步关系型数据库→Hadoop生态系统（HDFS、Hive、
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include