革斤要加油

Hadoop——HDFS、MapReduce、Yarn期末复习版（搭配尚硅谷视频速通）

一、HDFS

1.HDFS概述

1.1 HDFS定义

HDFS(Hadoop Distributed File System),它是一个文件系统，用于存储文件，通过目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。
HDFS的使用场景：适合一次写入，多次读出的场景。一个文件经过创建、写入和关闭之后就不需要改变。

1.2 HDFS优缺点

（1）优点

高容错性

数据自动保存多个副本。它通过增加副本的形式，提高容错性。

某一个副本丢失以后，它可以自动恢复。

适合处理大数据
- 数据规模：能够处理数据规模达到GB、TB、甚至PB级别的数据；
- 文件规模：能够处理百万规模以上的文件数量，数量相当之大。
可构建在廉价机器上，通过多副本机制，提高可靠性。

（2）缺点

不适合低延时数据访问，比如毫秒级的存储数据，是做不到的。
无法高效的对大量小文件进行存储。
- 存储大量小文件的话，它会占用NameNode大量的内存来存储文件目录和块信息。这样是不可取的，因为NameNode的内存总是有限的；
- 小文件存储的寻址时间会超过读取时间，它违反了HDF$的设计目标。
不支持并发写入、文件随机修改。
- 一个文件只能有一个写，不允许多个线程同时写；

仅支持数据append(追加)，不支持文件的随机修改。

1.3 HDFS组成架构（了解）

NameNode:就是Master,它是一个主管、管理者。
- 管理HDFS的名称空间；
- 配置副本策略；
- 管理数据块(Block)映射信息；
- 处理客户端读写请求。
DataNode:就是Slave。NameNode：下达命令，DataNode执行实际的操作。
- 存储实际的数据块；
- 执行数据块的读/写操作。
Client:就是客户端。
- 文件切分。文件上传HDFS的时候，Client将文件切分成一个一个的Block（块）,然后进行上传；
- 与NameNode交互，获取文件的位置信息；
- 与DataNode交互，读取或者写入据：
- Client提供一些命令来管理HDFS,比如NameNode格式化；
- Client可以通过一些命令来访问DFS,比如对寸HDFS增删查改操作；
SecondaryNameNode:并非NameNode的热备。当NameNode挂掉的时候，它并不
能马上替换NameNode并提供服务。
- 辅助NameNode,分担其工作量，比如定期合并Fsimage和Edits,并推送给NameNode;
- 在紧急情况下，可辅助恢复NameNode.

1.4 HDFS文件块大小

HDFS中的文件在物理上是分块存储(Block)，块的大小可以通过配置参数（dfs.blocksize)来规定，默认大小在Hadoop2.x/3.x版本中是128M,1.x版本中是64M。

思考：为什么块的大小不能设置太小，也不能设置太大？
(1)HDFS的块设置太小，会增加寻址时间，程序一直在找块的开始位置，
(2)如果块设置的太大，从磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间。导致程序在处理这块数据时，会非常慢。
总结：HDFS块的大小设置主要取决丰磁盘传输速率

2.HDFS的Shell操作

2.1 基本语法

hadoop fs 具体命令 OR hdfs dfs 具体命令
两个完全一样

2.2 常用命令

①上传

-moveFromLocal

从本地剪切到HDFS

hdfs dfs -moveFromLocal ./shuguo.txt /sanguo

-copyFromLocal

从本地文件系统中拷贝到HDFS路径去

hdfs dfs -copyFromLocal weiguo.txt /sanguo

-put

等同于copyFromLocal,生产环境更习惯用put

hdfs dfs -put wuguo.txt /sanguo

-appendToFile

追加一个文件到已经存在的文件末尾

hdfs dfs -appendToFile liubei.txt /sanguo/shuguo.txt

②下载

-copyToLocal

从HDFS拷贝到本地

hdfs dfs -copyToLocal /sanguo/shuguo.txt ./

-get

等同于copyToLocal,生产环境更习惯用get

hdfs dfs -get /sanguo/shuguo.txt ./shuguo2.txt

③HDFS直接操作

-ls ：显示目录信息
-cat ：显示文件内容
-chgrp、-chmod、-chown ：Linux文件系统中的用法一样，修改文件所属权限
-mkdir ：创建路径
-cp ：从HDFS的一个路径拷贝到HDFS的另一个路径
-mv ：在HDFS目录中移动文件
-tail：显示一个文件的末尾1kb的数据
-rm：删除文件或文件夹
-rm -r ：递归删除目录及目录里面内容
-du：统计文件夹的大小信息
-setrep ：设置HDFS中文件的副本数量

hdfs dfs -settrep 10 /jinguo/shuguo.txt

3.HDFS的API操作

public class HdfsCliient{

    //全局
    private FileSystem fs;
        
    @Before
    public void init() throwa URISyntaxException,IOException, InterruptedException{
    
    // 连接的集群nn地址
    URIuri new URI(str:"hdfs://hadoop102:8020");
    
    //创建一个配置文件
    Configuration configuration new Configuration();
    
    // 用户
    String user = "atguigu";
    
    // 1 获取到了客户端对象
    fs = FileSystem.get(uri,configuration,user);
    }
    
    @After
    public void close() throwa IOException{
    
    // 3 关闭资源
    fs.close()
    }
    
    
    //创建目录
    @Test
    public void testmkdir()throws URISyntaxException,IOException, InterruptedException{
    
    // 2 创建一个文件夹
    fs.mkdirs(new Path("/xiyou/huaguoshan"));
    }


	// 上传
    /**
    *参数优先级
    *hdfs-default.xml => hdfs-site.xml => 子啊项目资源目录下的配置文件 => 代码里的配置优先级最高
    
    */
    public void testPut(){
        // 参数解读：参数一：表示删除数据； 参数二：是否允许覆盖； 参数三：原数据路径； 参数四：目的地路径
        fs.copyFromLocalFile(delSrc：false，overwrite:false,new Path(pathString:"D://sunwukong.txt"),new Path(pathString:"hdfs://hadoop102/xiyou/huaguoshan"));
    }

	// 文件下载
    public void testGet{
        //参数解读：参数一：原文件是否删除； 参数二：原文件路径HDFS； 参数三：目标地址路径Win； 参数四：进行crc校验
    	fs.copyToLocalFile(delSrc：false，new Path(pathString:"hdfs://hadoop102/xiyou/huaguoshan"),new Path(pathString:"D://")，userRawLocaclFileSystem:false);
    }

    // 文件删除
    public void testRm(){
    	//参数解读：参数一：要删除的路径； 参数二：是否递归删除；
        
        //删除文件
        fs.delete(new Path(pathString:".jdk-8u212-linux-x64.tar.gz"),recursive:false);

        //删除空目录
    	fs.delete(new Path(pathString:"/xiyou"),recursive:false);

        //删除非空目录
        fs.delete(new Path(pathString:"/jingguo"),recursive:true);
    }

    //文件的更名和移动
    @Test
    public void testmv(){
    	//参数解读：参数一：原文件路径； 参数二：目标文件路径
        //对文件名称的修改
        fs.rename(new Path("/intput/word.txt"),new Path("/input/ss.txt"));

        // 文件的移动和更名
        fs.rename(new Path("/intput/ss.txt"),new Path("/cls.txt"));

        //目录的更名
        fs.rename(new Path(pathString:"/intput"),new Path(pathString:"/output"));
        
    }

    //获取文件详情
    @Test
    public viod fileDetail(){
    	//获取所有文件信息
        RemoteIterator<LocatedFileStatus> listFiles = fs.ListFiles(new Path(pathString:"/"), recursive:true);

        //遍历文件
        while (listFiles.hasNext(){
        	LocatedFileStatus fileStatus listFiles.next();
            
			System.out.println("=========="+fileStatus.getPath()+"=========");
            System.out.println(fileStatus.getPermission());
            System.out.println(fileStatus.getOwner());
            System.out.println(fileStatus.getGroup());
            System.out.println(fileStatus.getLen());
            System.out.println(fileStatus.getModificationTime());
            System.out.println(fileStatus.getReplication);
            System.out.println(fileStatus.getBlockSize());
            System.out.println(fileStatus.getPath().getName());

            //获取块信息
        	BlockLocation[] blockLocations = fileStatus.getBlockLocations();
        	System.out.println(Arrays.toString(blockLocations));
            
        }
        
    }
    //判断是文件夹还是文件
    public void testFile() throws IOException{
        //循环遍历每一个文件
        FileStatus[] listStatus = fs.ListStatus(new Path(pathString:"/"));
        //判断他是不是一个文件
        for(FileStatus status : ListStatus){
            //如果是打印文件，不是打印目录
           if(status.isFile()){
               System.out.println("文件："+status.getPath().getName());
           } else{
               System.oUt.println("目录："+status.getPath().getName());
           }
        }
    }

4.HDFS读写流程

4.1 HDFS写数据流程

网络拓扑-节点距离计算

在HDFS写数据的过程中，NameNode会选择距离待上传数据最近距离的DataNode接收数据。那么这个最近距离怎么计算呢？
节点距离：两个节点到达最近的共同祖先的距离总和。

4.2 机架感知

副本节点选择

4.3 HDFS读数据流程

读的时候是串行，先读DataNode1的blk_1,再读DataNode2的blk_2

4.4 NN和2NN工作机制(NameNode)

4.5 Fsimage和Edis概念

NameNode被格式化之后，将在/opt/module/hadoop-3.l.3/data/tmp/dfs/name/current目录中生如下文件
fsimage0000000000000000000
fsimage0000000000000000000.md5
seen txid
VERSION
(1)Fsimage文件：HDFS文件系统元数据的一个永久性的检查点，其中包含HDFS文件系统的所有目录和文件inodef的序列化信息。
(2)Edits文件：存放HDFS文件系统的所有更新操作的路径，文件系统客户端执行的所有写操作首先会被记录到Edits文件中。
(3)seen_txid文件保存的是一个数字，就是最后一个edits_的数字
(4)每次NameNode启动的时候都会将Fsimage文件读入内存，加载Edits里面的更新操作，保证内存中的元数据信息是最新的、同步的，可以看成NameNode启动的时候就将Fsimage和Edits文件进行了合并。

4.6 DataNode工作机制

4.7 数据完整性

二、MapReduce

MapReduce概述

1.1 MapReduce定义

MapReduce是一个分布式运算程序的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架。自己处理业务相关代码+自身的默认代码。
MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个Hadoop集群上。

1.2 MapReduce优缺点

优点：
1、易于编程。用户只关心，业务逻辑。实现框架的接口。
2、良好扩展性：可以动态增加服务器，解决计算资源不够问题
3、高容错性。任何一台机器挂掉，可以将任务转移到其他节点。
4、适合海量数据计算(TB/PB)几千台服务器共同计算。
缺点：
1、不擅长实时计算。ysql
2、不擅长流式计算。Sparkstreaming flink
3、不擅长DAG有向无环图计算。spark

1.3 MapReduce核心编程思想

1)MapReduce运算程序一般需要分成2个阶段：Map阶段和Reduce阶段
2)Map阶段的并发MapTask,完全并行运行，互不相干
3)Reduce阶段的并发ReduceTask,完全互不相千，但是他们的数据依赖于上一个阶段的所有MapTask并发实例的输出
4)MapReduce编程模型只能包含一个Map阶段和个Reduce阶段，如果用户的业务逻辑非常复杂，那就只能多个MapReduce程序，串行运行

1.4 MapReduce进程

一个完整的MapReduce程序在分布式运行时有三类实例进程：
(1)MrAppMaster：负责整个程序的过程调度及状态协调。
(2)MapTask：负责Map阶段的整个数据处理流程。
(3)ReduceTask：负责Reduce阶段的整个数据处理流程。

1.5 MapReduce编程规范

Mapper阶段

(1)用户自定义的Mapper要继承自己的父类
(2)Mapper的输入数据是KV对的形式(KV的类型可自定义)
(3)Mapper中的业务逻辑写在map0方法中
(4)Mapper的输出数据是KV对的形式(KV的类型可自定义)
(5)map0方法(MapTaski进程)对每一个调用一次

Reducer阶段

(1)用户自定义的Reducer要继承自己的父类
(2)Reducer的输入数据类型对应Mapper的输出数据类型，也是KV
(3)Reducer的业务逻辑写在reduce()方法中
(4)ReduceTask进程对每一组相同k的k,v>组调用一次reduce()方法

Driver阶段

相当于YARN集群的客户端，用于提交我们整个程序到YARN集群，提交的是封装了MapReduce程序相关运行参数的job对象

Hadoop序列化

2.1 序列化概述

什么是序列化？

序列化是指将内存中的对象转换成字节序列（或是其他数据传输协议），以便将其存储于磁盘中（持久化存储）或进行网络传输的过程

为什么不用Java序列化机制？

Java具有一套序列化机制，但是Java的学历恶化机制是一个重量级序列化框架，一个对象在被序列化后，会附带很多额外信息（各种校验信息、Header、继承体系等），不便于在网络中进行高效传输。所以，Hadoop自己开发了一套序列化机制。

Hadoop序列化机制的特点：

紧凑：紧凑的格式有助于高效实用存储空间，充分利用网络带宽
快速：序列化和反序列化的性能开销小，可以实现进程之间的快速通信
互操作：统一的序列化框架可以支持多语言与服务器的交互

MapReduce框架原理之InputFormat数据输入

数据切片与maptask并行度决定机制

1)一个Job的Map阶段并行度由客户端在提交Job时的切片数决定
2)每一个Split切片分配一个MapTaski并行实例处理
3)默认情况下，切片大小=BlockSize
4)切片时不考虑数据集整体，而是逐个针对每一个文件单独切片

数据切片：数据切片只是在逻辑上对输入进行分片，并不会在磁盘上将其切分成片进行存储，数据切片是MapReduce程序计算输入数据的单位，一个切片会对应启动一个MapTask。

FileInputFormat切片机制

1、切片机制
(1)简单地按照文件的内容长度进行切片
(2)切片大小，默认等于Bl1ock大小
(3)切片时不考虑数据集整体，而是逐个针对每一个文件单独切片
2、案例分析
(1)输入数据有两个文件：
filel.txt 320M
file2.txt 10M
(2)经过FileInputFormat的切片机制，运算后，形成的切片信息如下：
filel.txt.splitl – 0~128
filel.txt.split2 – 128256
filel.txt.split3 – 256~320
file2.txt.splitl – 0~10M

CombineTextInputFormat切片机制

框架默认的TextInputFormat切片机制是对任务按文件规划切片，不管文件多小，都会是一个单独的切片，都会交给一个MapTask,这样如果有大量小文件，就会产生大量的MapTask,处理效率极其低下。
1)应用场景：
CombineTextInputFormat用于小文件过多的场景，它可以将多个小文件从逻辑上规划到一个切片中，这样，多个小文件就可以交给一个MapTask处理。
2)虚拟存储切片最大值设置~
CombineTextInputFormat.setMaxInputSplitSize(job,4194304);//4m
注意：虚拟存储切片最大值设置最好根据实际的小文件大小情况来设置具体的值。
3)切片机制
生成切片过程包括：虚拟存储过程和切片过程二部分。

MapReduce详细工作流程

MapReduce框架原理之shuffle机制

shuffle机制

Map方法之后，Reduce方法之前的数据处理过程称之为Shuffle。

partition分区

要求将统计结果按照条件输出到不同文件中（分区）。比如：将统计结果按照手机归属地不同省份输出到不同文件中（分区）
默认分区HashPartitioner,默认按照key的hash值numreducetask个数
(1)如果ReduceTask的数量>getPartition的结果数，则会多产生几个空的输出文件part-r-O00xx;
(2)如果1(3)如果ReduceTask的数量-1，则不管MapTaski端输出多少个分区文件，最终结果都交给这一个ReduceTask,最终也就只会产生一个结果文件part-r-00000;
例如：假设自定义分区数为5,则
(1) job.setNumReduceTasks(1); 会正常运行，只不过会产生一个输出文件
(2) job.setNumReduceTasks(2); 会报错
(3) job.setNumReduceTasks(6); 大于5,程序会正常运行，会产生空文件
(4)分区号必须从零开始，逐一累加。例：

combiner合并

(I)Combiner是MR程序中Mapperz和Reducer之外的一种组件。
(2)Combiner组件的父类就是Reducer。.
(3)Combinerz和Reducer的区别在于运行的位置
Combiner是在每一个MapTask所在的节点运行；
Reducer是接收全局所有MapperE的输出结果；
(4)Combiner的意义就是对每一个MapTask的输出进行局部汇总，以减小网络传输量。
(5)Combiner能够应用的前提是不能影响最终的业务逻辑，而且，Combiner的输出kv应该跟Reducer的输入kv类型要对应起来。

join

①reduce join
Map端的主要工作：为来自不同表或文件的key/value对，打标签以区别不同来源的记
录。然后用连接字段作为key,其余部分和新加的标志作为value,最后进行输出。
Reduce端的主要工作：在Reduce端以连接字段作为key的分组已经完成，我们只需要
在每一个分组当中将那些来源于不同文件的记录（在Mp阶段已经打标志）分开，最后进
行合并就ok了。
②map join
（1）使用场景
Map Join适用于一张表十分小、一张表很大的场景。
（2）优点
思考：在Reduce端处理过多的表，非常容易产生数据倾斜。怎么办？
在Map端缓存多张表，提前处理业务逻辑，这样增加Map端业务，减少Reduce端数
据的压力，尽可能的减少数据倾斜。
（3）具体办法：采用DistributedCache

在Mapper的setup阶段，将文件读取到缓存集合中。
在Driver驱动类中加载缓存。

数据压缩

①压缩的好处和坏处
压缩的优点：以减少磁盘O、减少磁盘存储空间。
压缩的缺点：增加CPU开销。
②压缩原则
（1）运算密集型的Job,少用压缩
（2）I/O密集型的Job,多用压缩

三、Yarn

1.资源调度器

3.1 Yarn基础框架

Yarn是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。
YARN主要由ResourceManager、.NodeManager、ApplicationMaster和Container等组件
构成。

3.2 Yarn工作机制

3.3作业提交过程

HDFS、YARN、MapReduce三者关系

Yarn工作机制

HDFS & MapReduce

3.4 Yarn调度器和调度算法

目前，Hadoop作业调度器主要有三种：FIFO、容量(Capacity Scheduler)和公平(Fair Scheduler)。Apache Hadoop3.l.3默认的资源调度器是Capacity Scheduler。.
CDH框架默认调度器是Fair Scheduler。

①先进先出调度器（FIFO）

②容量调度器

Capacity Scheduler是Yahoo（雅虎）开发的多用户调度器

容量调度器特点：
1、多队列：每个队列可配置一定的资源量，每个队列采用FFO调度策略。
2、容量保证：管理员可为每个队列设置资源最低保证和资源使用上限
3、灵活性：如果一个队列中的资源有剩余，可以暂时共享给那些需要资源的队列，而一旦该队列有新的应用程序提交，则其他队列借调的资源会归还给该队列。
4、多租户：支持多用户共享集群和多应用程序同时运行。
为了防止同一个用户的作业独占队列中的资源，该调度器会对同一用户提交的作业所占资源量进行限定。

容量调度器资源分配算法：
1)队列资源分配
从root开始，使用深度优先算法，优先选择资源占用率最低的队列分配资源。
2)作业资源分配
默认按照提交作业的优先级和提交时间顺序分配资源。
3)容器资源分配
按照容器的优先级分配资源；如果优先级相同，按照数据本地性原则：
(1)任务和数据在同一节点
(2)任务和数据在同一机架
(3)任务和数据不在同一节点也不在同一机架

③公平调度器

Fair Schedulere 是Facebook开发的多用户调度器。，

与容量调度器相同点
(1)多队列：支持多队列多作业
(2)容量保证：管理员可为每个队列设置资源最低保证和资源使用上线
(3)灵活性：如果一个队列中的资源有剩余，可以暂时共享给那些需要资源的队列，而一旦该队列有新的应用程序提交，则其他队列借调的资源会归还给该队列。
(4)多租户：支持多用户共享集群和多应用程序同时运行；为了防止同一个用户的作业独占队列中的资源，该调度器会对同一用户提交的作业所占资源量进行限定。
与容量调度器不同点
(1)核心调度策略不同
容量调度器：优先选择资源利用率低的队列
公平调度器：优先选择对资源的缺额比例大的
(2)每个队列可以单独设置资源分配方式
容量调度器：FIFO、DRF
公平调度器：FIFO、FAIR、DRF

3.5 公平调度器——缺额

公平调度器设计目标是：在时间尺度上，所有作业获得公平的资源。某一时刻一个作业应获资源和实际获取资源的差距叫“缺额”
调度器会优先为缺额大的作业分配资源

3.6 公平调度器队列资源分配方式

（1）FIFO策略
公平调度器每个队列资源分配策略如果选择FFO的话，此时公平调度器相当于上面讲过的容量调度器。
（2）Fair策略
Fair策略（默认）是一种基于最大最小公平算法实现的资源多路复用方式，默认情况下，每个队列内部采用该方式分配资源。这意味着，如果一个队列中有两个应用程序同时运行，则每个应用程序可得到12的资源；如果三个应用程序同时运行，则每个应用程序可得到1/3的资源。
具体资源分配流程和容量调度器一致；

选择队列
选择作业
选择容器

以上三步，每一步都是按照公平策略分配资源
实际最小资源份额：mindshare=Min(资源需求量，配置的最小资源)
是否饥饿：isNeedy=资源使用量
eg：

队列资源分配

需求：集群总资源100，有三个队列，对资源的需求分别是：
queueA->20,queueB->50,queueC -30
第一次算：100/3=33.33
queueA:分33.33→多13.33
queueB:分33.33→少16.67
queueC:分33.33→多3.33
第二次算：（13.33+3.33)/1=16.66
queueA:分20
queueB:分33.33+16.66=50
queueC:分30

作业资源分配

DRF策略

DRF(Dominant Resource Fairness),我们之前说的资源，都是单一标准，例如只考虑内存（也是Yarn默认的情况)。但是很多时候我们资源有很多种，例如内存，CPU,网络带宽等，这样我们很难衡量两个应用应该分配的资源比例。
那么在YARN中，我们用DRF来决定如何调度：
假设集群一共有100CPU和10T内存，而应用A需要(2CPU,300GB),应用B需要(6CPU,100GB)。则两个应用分别需要A(2%CPU,3%内存)和B(6%CPU,1%内存)的资源，这就意味着A是内存主导的，B是CPU主导的，针对这种情况，我们可以选择DRF策略对不同应用进行不同资源(CPU和内存)的一个不同比例的限制。

你可能感兴趣的:(专业课,hadoop,hdfs,mapreduce,yarn)

使用CRACO自定义 Webpack 配置黄毛火烧雪下 React webpack 前端 node.js
1、为什么要用CRACO？默认情况下，CRA的Webpack配置是隐藏的，如果你需要修改Webpack，比如：✅CDN配置✅配置alias（路径别名）✅修改Less/Sass变量✅添加Babel插件✅优化Webpack构建（如SplitChunks、CDN加载）✅支持TailwindCSS✅移动端适配启用PostCSS+px转rem如果不用CRACO，你必须运行yarneject/npmrunej
`fetch` 和 `axios`的前端使用区别 Studying_swz blog 前端
欢迎访问的个人博客：https://swzbk.site/，加好友，拉你入福利群fetch和axios`是前端常用的两种HTTP客户端，以下是它们的核心区别及适用场景：一、本质区别特性fetchaxios类型浏览器原生API（部分环境需polyfill）第三方库（需通过npm/yarn安装）底层实现基于Promise基于Promise，封装了XMLHttpRequest二、核心功能对比1.请求与响
数据中台（二）数据中台相关技术栈 Yuan_CSDF #数据中台
1.平台搭建1.1.Amabari+HDP1.2.CM+CDH2.相关的技术栈数据存储：HDFS，HBase，Kudu等数据计算：MapReduce,Spark,Flink交互式查询：Impala,Presto在线实时分析：ClickHouse，Kylin，Doris，Druid，Kudu等资源调度：YARN，Mesos，Kubernetes任务调度：Oozie，Azakaban，AirFlow，
Hadoop相关面试题努力的搬砖人. java 面试 hadoop
以下是150道Hadoop面试题及其详细回答，涵盖了Hadoop的基础知识、HDFS、MapReduce、YARN、HBase、Hive、Sqoop、Flume、ZooKeeper等多个方面，每道题目都尽量详细且简单易懂：Hadoop基础概念类1.什么是Hadoop？Hadoop是一个由Apache基金会开发的开源分布式计算框架，主要用于处理和存储大规模数据集。它提供了高容错性和高扩展性的分布式存
Flink读取kafka数据并写入HDFS 王知无(import_bigdata) Flink系统性学习专栏 hdfs kafka flink
硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇2021年从零到大数据专家面试篇之SparkSQL篇2021年从零到大数据专家面试篇之消息队列篇2021年从零到大数据专家面试篇之Spark篇2021年从零到大数据专家面试篇之Hbase篇
vue3当中使用Pinia的store的组件化开发模式堕落年代 vue vue.js
一、安装与初始化安装Pinianpminstallpinia#或yarnaddpinia目的：引入Pinia核心库，为状态管理提供基础支持。挂载Pinia实例在main.js中初始化并注入Vue应用：import{createApp}from'vue'import{createPinia}from'pinia'importAppfrom'./App.vue'constapp=createApp(A
Apache storm 赵世炎 storm hadoop
Apachestorm是一个分布式的实时大数据处理系统。用于在容错和水平可拓展方法中处理大量数据。它是一个流数据框架，具有很高的摄取率，无状态。通过zk管理分布式环境和集群状态，并行地对实时数据执行各种操作。storm易于设置和操作，并且它保证每个消息将通过拓扑至少处理一次。基本上Hadoop和Storm框架用于分析大数据。两者互补，在某些方面有所不同。ApacheStorm执行除持久性之外的所有
2023计算机组成原理考研知识点：哈佛结构计算机考研考研资料计算机网络哈佛结构数据结构
2023年计算机考研初试科目一般分四门，基本都考政治、英语一、数学一和计算机基础(计算机综合)，报考院校不同专业课考试内容一般不同，建议考生下正式备考2023年研考时先确认报考院校计算机研招科目内容，避免无效备考。计算机组成原理：哈佛结构将指令和数据放在两个独立的存储器，允许在一个机器周期内同时获得指令和操作数，提高了执行速度。2023年计算机组成原理复习题示例(来源于网络，如有侵权，请联系删除)
什么是Apache Avro？ maozexijr apache
什么是ApacheAvro？ApacheAvro是一个开源的数据序列化框架，主要用于高效的数据交换和存储。它由ApacheHadoop项目开发，广泛应用于大数据生态系统中（如Hadoop、Kafka等）。Avro提供了一种紧凑、快速的二进制数据格式，同时支持丰富的数据结构和模式演化。核心特性跨语言支持Avro支持多种编程语言（如Java、Python、C++、Go等），使得不同语言之间的数据交换变
计算机毕业设计之基于Hadoop的热点新闻分析系统的设计与实现微信bishe69 课程设计 python django mysql
近些年来，随着科技的飞速发展，互联网的普及逐渐延伸到各行各业中，给人们生活带来了十分的便利，热点新闻分析系统利用计算机网络实现信息化管理，使整个热点新闻分析的发展和服务水平有显著提升。本文拟采用PyCharm开发工具，django框架、Python语言、Hadoop大数据处理技术进行开发，后台使用MySQL数据库进行信息管理，设计开发的热点新闻分析系统。通过调研和分析，系统拥有管理员和用户两个模块
Hadoop 实战笔记（二）-- HDFS 常用 shell 命令总结 dazhong2012 Hadoop hdfs hadoop
一、HDFS命令显示当前目录结构#显示当前目录结构hadoopfs-ls#递归显示当前目录结构hadoopfs-ls-R#显示根目录下内容hadoopfs-ls/创建目录#创建目录hadoopfs-mkdir#递归创建目录hadoopfs-mkdir-p删除操作#删除文件hadoopfs-rm#递归删除目录和文件hadoopfs-rm-R从本地加载文件到HDFS#二选一执行即可hadoopfs-p
How Spark Read Sftp Files from Hadoop SFTP FileSystem IT•轩辕 Cloudy Computation spark hadoop 大数据
GradleDependenciesimplementation('org.apache.spark:spark-sql_2.13:3.5.3'){excludegroup:"org.apache.logging.log4j",module:"log4j-slf4j2-impl"}implementation('org.apache.hadoop:hadoop-common:3.3.4'){exc
中电金信25/3/18面前笔试（需求分析岗+数据开发岗）苍曦需求分析前端 javascript
部分相同题目在第二次数据开发岗中不做解析，本次解析来源于豆包AI，正确与否有待商榷，本文只提供一个速查与知识点的补充。一、需求分析第1题，单选题,Hadoop的核心组件包括HDFS和以下哪个？MapReduceSparkStormFlink解析：Hadoop的核心组件是HDFS（分布式文件系统）和MapReduce（分布式计算框架）。Spark、Storm、Flink虽然也是大数据处理相关技术，但
YARN 的任务提交流程是怎样的？思维导图代码示例（java 架构) 用心去追梦 java 架构开发语言
YARN的任务提交流程是一个复杂但有序的过程，它涉及到多个组件之间的交互。以下是详细的任务提交流程描述、思维导图结构化描述以及Java代码示例，帮助你理解如何在YARN中提交任务。YARN任务提交流程客户端提交应用程序客户端通过YARN的API向ResourceManager提交一个新应用程序。提交时需要提供ApplicationMaster的启动信息（如JAR包路径、主类名等）以及其他配置参数。
Spark集群启动与关闭陈沐 spark spark hadoop big data
Hadoop集群和Spark的启动与关闭Hadoop集群开启三台虚拟机均启动ZookeeperzkServer.shstartMaster1上面执行启动HDFSstart-dfs.shslave1上面执行开启YARNstart-yarn.shslave2上面执行开启YARN的资源管理器yarn-daemon.shstartresourcemanager(如果nodeManager没有启动(正常情况
Hive函数大全：从核心内置函数到自定义UDF实战指南（附详细案例与总结）一个天蝎座白勺程序猿大数据开发从入门到实战合集 hive hadoop 数据仓库
目录背景‌一、Hive函数分类与核心函数表‌1.内置函数分类‌2.用户自定义函数（UDF）分类二、常用函数详解与实战案例‌1.数学函数‌2.字符串函数‌3.窗口函数‌4.自定义UDF实战‌三、总结与优化建议‌1.核心总结2.性能优化建议‌3.常问问题背景‌Hive作为Hadoop生态中最常用的数据仓库工具，其强大的函数库是高效处理和分析海量数据的核心能力之一。Hive函数分为‌内置函数‌和‌用户自
智慧社区2.0 陈陈爱java java
项目亮点1.技术架构层面✅多数据源整合（MySQL+Redis+HDFS+OSS）核心亮点：不仅仅是单一数据库，而是根据数据特性使用MySQL（结构化数据）+Redis（缓存）+HDFS（大数据存储）+OSS（对象存储），提高了系统的数据存储效率和查询速度。面试时可以强调：Redis作为缓存，加速社区热点数据访问，减少MySQL压力。HDFS存储海量日志和AI任务数据，支持后续分析。OSS解决图片
Hadoop MapReduce 词频统计（WordCount）代码解析教程我不是少爷. Java基础 hadoop mapreduce 大数据
一、概述这是一个基于HadoopMapReduce框架实现的经典词频统计程序。程序会统计输入文本中每个单词出现的次数，并将结果输出到HDFS文件系统。二、代码结构packagecom.bigdata.wc;//Hadoop核心类库导入importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;//数据类型定义
介绍 Apache Spark 的基本概念和在大数据分析中的应用佛渡红尘 apache
ApacheSpark是一个开源的集群计算框架，最初由加州大学伯克利分校的AMPLab开发，用于大规模数据处理和分析。相比于传统的MapReduce框架，Spark具有更快的数据处理速度和更强大的计算能力。ApacheSpark的基本概念包括：弹性分布式数据集（RDD）：是Spark中基本的数据抽象，是一个可并行操作的分区记录集合。RDD可以在集群中的节点间进行分布式计算。转换（Transform
从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路 Echo_Wish 大数据大数据 hadoop spark
从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路说起大数据技术，Hadoop和Spark可以说是这个领域的两座里程碑。Hadoop曾是大数据的开山之作，而Spark则带领我们迈入了一个高效、灵活的大数据处理新时代。那么，它们的演变过程到底有何深意？背后技术上的取舍和选择，又意味着什么？一、Hadoop：分布式存储与计算的奠基者Hadoop诞生于互联网流量爆发式增长的时代，
hadoop集群关闭命令顺序_启动和关闭Hadoop集群命令步骤氪老师 hadoop集群关闭命令顺序
启动和关闭Hadoop集群命令步骤总结：1.在master上启动hadoop-daemon.shstartnamenode.2.在slave上启动hadoop-daemon.shstartdatanode.3.用jps指令观察执行结果.4.用hdfsdfsadmin-report观察集群配置情况.5.通过http://npfdev1:50070界面观察集群运行情况.(如果遇到问题看https://
Flume详解——介绍、部署与使用克里斯蒂亚诺罗纳尔多阿维罗 flume 大数据分布式
1.Flume简介ApacheFlume是一个专门用于高效地收集、聚合、传输大量日志数据的分布式、可靠的系统。它特别擅长将数据从各种数据源（如日志文件、消息队列等）传输到HDFS、HBase、Kafka等大数据存储系统。特点：可扩展：支持大规模数据传输，灵活扩展容错性：支持数据恢复和失败重试，确保数据不丢失多种数据源：支持日志文件、网络数据、HTTP请求、消息队列等多种来源流式处理：数据边收集边传
在kali linux中配置hadoop伪分布式 we19a0sen 三数据分析分布式 linux hadoop
目录一.配置静态网络二.配置主机名与IP地址映射三.配置SSH免密登录四.配置Java和Hadoop环境五.配置Hadoop伪分布式六.启动与验证一.配置静态网络原因：Hadoop集群依赖稳定的网络通信，动态IP可能导致节点失联。静态IP确保节点始终通过固定地址通信。操作步骤：#修改网络配置文件sudovim/etc/network/interfaces#添加内容（根据实际网络修改）：autoet
Yarn 迁移到 pnpm：依赖管理的最佳实践程序员
我解释一下yarn和pnpm的主要区别，以及转换时需要注意的事项：依赖安装机制的区别：Yarn/npm的方式（扁平化）：node_modules├──A├──B├──C(B的依赖)└──D(C的依赖)所有依赖都被提升到顶层，这意味着你的项目可能会访问到未在package.json中声明的依赖（幽灵依赖）。pnpm的方式（严格）：node_modules├──.pnpm│├──[email protected]│├──
基于MapReduce的气候数据分析赵谨言论文毕业设计经验分享
标题:基于MapReduce的气候数据分析内容:1.摘要本文聚焦于基于MapReduce的气候数据分析。背景在于随着全球气候变化问题日益严峻，海量气候数据的高效处理和分析成为关键。目的是利用MapReduce技术对气候数据进行有效挖掘，以揭示气候变化规律和趋势。方法上，采用MapReduce编程模型对大规模气候数据进行分布式处理，通过数据的映射和归约操作实现并行计算。结果表明，运用该技术能显著提高
Spark任务读取hive表数据导入es 小小小小小小小小小小码农 hive elasticsearch spark java
使用elasticsearch-hadoop将hive表数据导入es，超级简单1.引入pomorg.elasticsearchelasticsearch-hadoop9.0.0-SNAPSHOT2.创建sparkconf//spark参数设置SparkConfsparkConf=newSparkConf();//要写入的索引sparkConf.set("es.resource","");//es集
【西安电子科技大学考研】25官方复试专业课参考书目汇总西电研梦考研西电经验分享面试西安电子科技大学
初试已经顺利考完啦、成绩已经公布，现在已经有很多同学来问学长学姐，复试参考书有哪些，复试应该做好哪些准备。故此学长学姐给大家整理好了西安电子科技大学各个学院的复试参考书目录，有需要的同学可以参考一下哈。大家可以结合本篇文章内容与招生目录参考书对比一下：【西电考研复试资料、讲课班陆续上线中~~~】有的参考书更新了版本，但是招生目录里仍然是之前的一些旧版本，关于参考书的版本问题，大家也可以在群内问一下
西安电子科技大学 | 近期官方视频＋文章（涵盖招生＋录取统计）西电研梦西电经验分享考研
今年、明年考研的学弟学妹们可以看看涵盖今年讲课西电录取统计【西安电子科技大学官方】研究生招生宣传你一定值得一看02、计算机科学与技术学院（近期视频＋文章）QQ群：867684593①、西电考研|833、834初+复试第一名许学长经验分享https://www.bilibili.com/video/BV1oE4m1R72a/②、25西电考研|计科院专业课139分学长经验分享https://www.b
西安电子科技大学考研833计算机专业基础综合初试备考经验西电研梦考研
本人21考研，报考西安电子科技大学。初试分数345。本科211机电专业，去年毕业出国受阻因此6月决定跨考西电计算机学硕833。回想自己备考的经历，有一些经验与不足之处，在这里分享给大家，尤其是一些跨考的同学。本次分别介绍数学、英语、政治、专业课、复试经历五部分。数学:数学和专业课是初试四门中最为重要的两门，决定能不能考上研基本就看这两门的复习情况!因为西电专硕学硕都是考察数学一，所以不需要考虑是否
hive-进阶版-1 数据牧马人 hive hadoop 数据仓库
第6章hive内部表与外部表的区别Hive是一个基于Hadoop的数据仓库工具，用于对大规模数据集进行数据存储、查询和分析。Hive支持内部表（ManagedTable）和外部表（ExternalTable）两种表类型，它们在数据存储、管理方式和生命周期等方面存在显著区别。以下是内部表和外部表的主要区别：1.数据存储位置内部表：数据存储在Hive的默认存储目录下，通常位于HDFS（HadoopDi
java数字签名三种方式知了ing java jdk
以下3钟数字签名都是基于jdk7的 1，RSA String password="test"; // 1.初始化密钥 KeyPairGenerator keyPairGenerator = KeyPairGenerator.getInstance("RSA"); keyPairGenerator.initialize(51
Hibernate学习笔记 caoyong Hibernate
1>、Hibernate是数据访问层框架，是一个ORM(Object Relation Mapping)框架，作者为:Gavin King 2>、搭建Hibernate的开发环境 a>、添加jar包: aa>、hibernatte开发包中/lib/required/所
设计模式之装饰器模式Decorator（结构型）漂泊一剑客 Decorator
1. 概述若你从事过面向对象开发，实现给一个类或对象增加行为，使用继承机制，这是所有面向对象语言的一个基本特性。如果已经存在的一个类缺少某些方法，或者须要给方法添加更多的功能（魅力），你也许会仅仅继承这个类来产生一个新类—这建立在额外的代码上。
读取磁盘文件txt，并输入String 一炮送你回车库 String
public static void main(String[] args) throws IOException { String fileContent = readFileContent("d:/aaa.txt"); System.out.println(fileContent);
js三级联动下拉框 3213213333332132 三级联动
//三级联动省/直辖市<select id="province"></select> 市/省直辖<select id="city"></select> 县/区 <select id="area"></select>
erlang之parse_transform编译选项的应用 616050468 parse_transform 游戏服务器属性同步 abstract_code
最近使用erlang重构了游戏服务器的所有代码，之前看过C++/lua写的服务器引擎代码，引擎实现了玩家属性自动同步给前端和增量更新玩家数据到数据库的功能，这也是现在很多游戏服务器的优化方向，在引擎层面去解决数据同步和数据持久化，数据发生变化了业务层不需要关心怎么去同步给前端。由于游戏过程中玩家每个业务中玩家数据更改的量其实是很少
JAVA JSON的解析 darkranger java
// { // “Total”：“条数”， // Code: 1, // // “PaymentItems”:[ // { // “PaymentItemID”:”支款单ID”, // “PaymentCode”:”支款单编号”, // “PaymentTime”:”支款日期”, // ”ContractNo”:”合同号”， //
POJ-1273-Drainage Ditches aijuans ACM_POJ
POJ-1273-Drainage Ditches http://poj.org/problem?id=1273 基本的最大流，按LRJ的白书写的 #include<iostream> #include<cstring> #include<queue> using namespace std; #define INF 0x7fffffff int ma
工作流Activiti5表的命名及含义 atongyeye 工作流 Activiti
activiti5 - http://activiti.org/designer/update在线插件安装 activiti5一共23张表 Activiti的表都以ACT_开头。第二部分是表示表的用途的两个字母标识。用途也和服务的API对应。 ACT_RE_*: 'RE'表示repository。这个前缀的表包含了流程定义和流程静态资源（图片，规则，等等）。 A
android的广播机制和广播的简单使用百合不是茶 android 广播机制广播的注册
Android广播机制简介在Android中，有一些操作完成以后，会发送广播，比如说发出一条短信，或打出一个电话，如果某个程序接收了这个广播，就会做相应的处理。这个广播跟我们传统意义中的电台广播有些相似之处。之所以叫做广播，就是因为它只负责“说”而不管你“听不听”，也就是不管你接收方如何处理。另外，广播可以被不只一个应用程序所接收，当然也可能不被任何应
Spring事务传播行为详解 bijian1013 java spring 事务传播行为
在service类前加上@Transactional，声明这个service所有方法需要事务管理。每一个业务方法开始时都会打开一个事务。 Spring默认情况下会对运行期例外(RunTimeException)进行事务回滚。这
eidtplus operate 征客丶 eidtplus
开启列模式: Alt+C 鼠标选择 OR Alt+鼠标左键拖动列模式替换或复制内容(多行): 右键-->格式-->填充所选内容-->选择相应操作 OR Ctrl+Shift+V(复制多行数据,必须行数一致) -------------------------------------------------------
【Kafka一】Kafka入门 bit1129 kafka
这篇文章来自Spark集成Kafka(http://bit1129.iteye.com/blog/2174765)，这里把它单独取出来，作为Kafka的入门吧下载Kafka http://mirror.bit.edu.cn/apache/kafka/0.8.1.1/kafka_2.10-0.8.1.1.tgz 2.10表示Scala的版本，而0.8.1.1表示Kafka
Spring 事务实现机制 BlueSkator spring 代理事务
Spring是以代理的方式实现对事务的管理。我们在Action中所使用的Service对象，其实是代理对象的实例，并不是我们所写的Service对象实例。既然是两个不同的对象，那为什么我们在Action中可以象使用Service对象一样的使用代理对象呢？为了说明问题，假设有个Service类叫AService，它的Spring事务代理类为AProxyService，AService实现了一个接口
bootstrap源码学习与示例：bootstrap-dropdown（转帖） BreakingBad bootstrap dropdown
bootstrap-dropdown组件是个烂东西，我读后的整体感觉。一个下拉开菜单的设计： <ul class="nav pull-right"> <li id="fat-menu" class="dropdown">
读《研磨设计模式》-代码笔记-中介者模式-Mediator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 中介者模式（Mediator）：用一个中介对象来封装一系列的对象交互。 * 中介者使各对象不需要显式地相互引用，从而使其耦合松散，而且可以独立地改变它们之间的交互。 * * 在我看来，Mediator模式是把多个对象（
常用代码记录 chenjunt3 UI Excel J#
1、单据设置某行或某字段不能修改 //i是行号,"cash"是字段名称 getBillCardPanelWrapper().getBillCardPanel().getBillModel().setCellEditable(i, "cash", false); //取得单据表体所有项用以上语句做循环就能设置整行了 getBillC
搜索引擎与工作流引擎 comsci 算法工作搜索引擎网络应用
最近在公司做和搜索有关的工作，(只是简单的应用开源工具集成到自己的产品中)工作流系统的进一步设计暂时放在一边了，偶然看到谷歌的研究员吴军写的数学之美系列中的搜索引擎与图论这篇文章中的介绍，我发现这样一个关系(仅仅是猜想) -----搜索引擎和流程引擎的基础--都是图论，至少像在我在JWFD中引擎算法中用到的是自定义的广度优先
oracle Health Monitor daizj oracle Health Monitor
About Health Monitor Beginning with Release 11g, Oracle Database includes a framework called Health Monitor for running diagnostic checks on the database. About Health Monitor Checks Health M
JSON字符串转换为对象 dieslrae java json
作为前言,首先是要吐槽一下公司的脑残编译部署方式,web和core分开部署本来没什么问题,但是这丫居然不把json的包作为基础包而作为web的包,导致了core端不能使用,而且我们的core是可以当web来用的(不要在意这些细节),所以在core中处理json串就是个问题.没办法,跟编译那帮人也扯不清楚,只有自己写json的解析了.
C语言学习八结构体，综合应用，学生管理系统 dcj3sjt126com C语言
实现功能的代码： # include <stdio.h> # include <malloc.h> struct Student { int age; float score; char name[100]; }; int main(void) { int len; struct Student * pArr; int i,
vagrant学习笔记 dcj3sjt126com vagrant
想了解多主机是如何定义和使用的, 所以又学习了一遍vagrant 1. vagrant virtualbox 下载安装 https://www.vagrantup.com/downloads.html https://www.virtualbox.org/wiki/Downloads 查看安装在命令行输入vagrant 2.
14.性能优化-优化-软件配置优化 frank1234 软件配置性能优化
1.Tomcat线程池修改tomcat的server.xml文件： <Connector port="8080" protocol="HTTP/1.1" connectionTimeout="20000" redirectPort="8443" maxThreads="1200" m
一个不错的shell 脚本教程入门级 HarborChung linux shell
一个不错的shell 脚本教程入门级建立一个脚本　　Linux中有好多中不同的shell，但是通常我们使用bash (bourne again shell) 进行shell编程，因为bash是免费的并且很容易使用。所以在本文中笔者所提供的脚本都是使用bash（但是在大多数情况下，这些脚本同样可以在 bash的大姐，bourne shell中运行）。　　如同其他语言一样
Spring4新特性——核心容器的其他改进 jinnianshilongnian spring 动态代理 spring4 依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
Linux设置tomcat开机启动 liuxingguome tomcat linux 开机自启动
执行命令sudo gedit /etc/init.d/tomcat6 然后把以下英文部分复制过去。（注意第一句#!/bin/sh如果不写，就不是一个shell文件。然后将对应的jdk和tomcat换成你自己的目录就行了。 #!/bin/bash # # /etc/rc.d/init.d/tomcat # init script for tomcat precesses
第13章 Ajax进阶（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Troubleshooting Crystal Reports off BW blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Troubleshooting+Crystal+Reports+off+BW#TroubleshootingCrystalReportsoffBW-TracingBOE Quite useful, especially this part: SAP BW connectivity For t
Java开发熟手该当心的11个错误 tomcat_oracle java jvm 多线程单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
正则表达式大全 yang852220741 html 编程正则表达式
今天向大家分享正则表达式大全，它可以大提高你的工作效率正则表达式也可以被当作是一门语言，当你学习一门新的编程语言的时候，他们是一个小的子语言。初看时觉得它没有任何的意义，但是很多时候，你不得不阅读一些教程，或文章来理解这些简单的描述模式。一、校验数字的表达式数字：^[0-9]*$ n位的数字：^\d{n}$ 至少n位的数字：^\d{n,}$ m-n位的数字：^\d{m,n}$