weixin_30752377

Hadoop之MapReduce学习笔记（一）

主要内容：mapreduce整体工作机制介绍；wordcont的编写（map逻辑和 reduce逻辑）与提交集群运行；调度平台yarn的快速理解以及yarn集群的安装与启动。

1、mapreduce整体工作机制介绍

回顾第HDFS第一天单词统计实例（HDFS版wordcount）：

统计HDFS的/wordcount/input/a.txt文件中的每个单词出现的次数——wordcount

但是，进一步思考：如果文件又多又大，用上面那个程序有什么弊端？

慢！因为只有一台机器在进行运算处理

从这个简单的案例中我们收到一些启发：

1、可以在任何地方运行程序，访问HDFS上的文件并进行统计运算，并且可以把统计的结果写回HDFS的结果文件中；

2、如何变得更快？核心思想：让我们的运算程序并行在多台机器上执行！

3、面向接口编程，整个程序的主框架是通用的，使用业务接口编程，主流程形成通用的框架，写好之后不需要修改，我们只要按照业务接口，提供具体的业务实现类，即可完成具体的业务操作。

幸运的是，hadoop中已经为我们提供了分布式计算的解决方案，就是mapreduce计算框架，用来在分布式环境下处理数据。

下图是mapreduce整体工作机制的简要介绍，后续还会有详细的介绍。

　　mapreduce与我们之前自己写个hdfs版本的wordcount一样，都是运算程序，而且可以在分布式环境下，并行运行，他的主处理流程同我们的wordcount主处理流程一样都是成形的计算框架设定好之后就不会改变了，框架中用到的统一的业务接口和业务方法（业务接口数据处理逻辑）需要我们实现并提供给框架。框架按照接口规定方法中设定好的参数要求，想特定类型和形式的数据传给用户提供的实现类，用户接受框架传入的参数，进行业务处理并将处理结果写入接口中规定的数据缓存对象中。

　　mapreduce程序分俩个阶段，整个运算流程分为map阶段和reduce阶段，分别有mapTask和reduceTask程序来实现。mapTask和reduceTask的大致工作机制如下。

　　mapTask可以在很多机器上运行，具体运行多少个mapTask要看要处理的数据总量有多少，这个过程由程序自动计算，无需我们担心，计算好之后每个mapTask都会分到自己要处理的数据范围，术语叫做数据切片；一般来讲是这么计算的，赔了保证每个task处理的数据大体差不多，程序会将hdfs中的待处理的文件进行切片划分，默认一个切片（一个maptask要处理的数据范围）128M大小。假如要处理的文件有：a.txt（200m）b.txt（500m）c.txt（100m）d.txt（120m）如果一个task程序负责一个文件，显然是不公平不合理的，其实hadoop会按照128m大小为一个单位，对数据进行切片操作：a->2,b->4,c->1,d->1，总数据一共被切分成8个切片或者说8个任务，一个mapTask就处理一个切片或者说任务，一共需要8个maptask，那么就分配8个mapTask，这样每个mapTask就明确了自己的任务（所有task的处理逻辑都一样，都是上面提到的用户提供的业务实现类，只不过是处理的数据范围不同）和要处理的数据范围，接下来就是启动一批mapTask进行作业，当然如果文件很多很大，会需要很多的mapTask，至于一次启动多少个task以及一台物理机器会运行多少个mapTask，这和你的集群规模以及运行配置有关。mapTask就是一个程序，一台机子上可以启动过个mapTask，如果你你的集群只有两台机器负责mapTask运算，理论上每台机器会分启动4个maptask任务，但是若果机器性能有限，一次最多只能负载3个mapTask，也没关系，只不过是先运行一批mapTask（3+3=6个）每个task都有自己的任务只执行自己分陪到的任务，运行结束后在启动剩余的2个mapTask。所以不用担心机器不够用，既然任务分的很明确，可以每次运行一批mapTask，分批完成全部的。

　　maptask启动后会干什么，这个过程已经在mapreduce中写死了，每个mapTask会分到部分数据，然后一行一行的去读数据，每读一行数据，进行一次处理，具体的处理逻辑有用户提供的接口实现类来完成（需要用户提供具体的业务实现类，并且以某种方式通知mapreduce框架去调用哪一个实现类，可以通过配置文件或者参数的形式；mapTask将读到的数据作为参数传给业务方法，业务方法将处理的结果传给mapTask）。

　　那么这样还有一个问题，每个mapTask的处理数据范围和结果都只是整个数据的一个局部，并非全局结果，如何得到全局结果，这就需要mapreduce的第二个阶段，reduce阶段进行局部数据汇总统计。

　　reduce阶段有reduceTask程序来实现，可以在很多他机器上并行运行。reduceTask数量与mapTask数量没有关系，reduceTask要整理mapTask产生的数据，就需要统一大家的数据形式，这里统一为key ：value键值对的形式。mapTask产生的key：value需要传递给reduceTask，而且核心思想是同时要确保，相同key的数据必须传递给同一个reduceTask，这就需要mapTask和reduceTask之间的数据分发机制，shuffle机制：可以相同的key：value数据一定发给同一个reduceTask程序。

　　reduce Task 聚合操作具体做什么，聚合操作就是对key相同的一组数据进行处理，具体的聚合逻辑通过接口的方式暴露给用户，由用户来指定（同mapTask方式）。

　　reduce Task处理结果，reduce Task将最后的聚合结果写入hdfs中，每个reduce Task最终形成一个文件，文件名称默认是part-r+reduceTask的编号。

总结：

map阶段，我们只需要提供具体的业务类，对mapTask读到的一行数据进行处理

reduce阶段，仍然需要我们提供具体的逻辑，对reduce拿到的一组相同key的kv数据进行处理

处理结果的传递：无论是map阶段还是recude阶段，数据处理结果的后续流程无需我们关系，我们只需要将各个阶段的数据都交给人家提供好的context对象就好；map阶段会将数据存着，将来想方设法地将数据结果传递给reduceTask，而且保证同一个key只给同一个reduce，reduce阶段会将数据写入hdfs，只要有一个结果key：value，就会往文件中追加一行。

2、wordcount示例

　　maptask每次度一行数据都会将数据作为参数传递给我们提给的业务接口实现类中的map方法（map（long l，String v ，context）map方法中的参数分别为，该行行首地址的偏移量，该行的数据，缓存对象），在wordcont程序中，map每次拿到maptask传递过来一行数据，首先将文本数据切分，形成单词数据，直接将（word，1）形式的数据写入context中，以便将来给reduce（context怎么缓存，后续会介绍），为什么里不做统计呢，将单行相同的单词统计一下？单行数据统计之后，任然是单行的结果，最后还得在recue中统计，避免无意义的中将统计，我们最终只在reduce中进行统计。maptask通过shuffle机制将（word，1）形式的数据发给，reduce同时保证相同的key只发往同一个reduce，这些发过来的相同key的一组数据在reduce这边落地成文件；文件中的参数如何给reduceTask的处理逻辑中共的reduce方法（reduce（k，value迭代器，context）参数分别是：一组数据的key，改组数据中的key都相同，任意一个都可以；value迭代器，可以不断的取出下一个值，context对象）。每一组（相同key）数据调用一次reduce逻辑。

2.1、 wordcount程序整体运行流程示意图

map阶段：将每一行文本数据变成<单词,1>这样的kv数据

reduce阶段：将相同单词的一组kv数据进行聚合：累加所有的v

注意点：mapreduce程序中，

　　map阶段的进、出数据，

　　reduce阶段的进、出数据，

　　类型都应该是实现了HADOOP序列化框架的类型，如：

　　String对应Text

　　Integer对应IntWritable

　　Long对应LongWritable

2.2、编码实现

WordcountMapper类开发

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

/**
 * KEYIN ：是map task读取到的数据的key的类型，是一行的起始偏移量Long
 * VALUEIN:是map task读取到的数据的value的类型，是一行的内容String
 * 
 * KEYOUT：是用户的自定义map方法要返回的结果kv数据的key的类型，在wordcount逻辑中，我们需要返回的是单词String
 * VALUEOUT:是用户的自定义map方法要返回的结果kv数据的value的类型，在wordcount逻辑中，我们需要返回的是整数Integer
 * 
 * 
 * 但是，在mapreduce中，map产生的数据需要传输给reduce，需要进行序列化和反序列化，而jdk中的原生序列化机制产生的数据量比较冗余，就会导致数据在mapreduce运行过程中传输效率低下
 * 所以，hadoop专门设计了自己的序列化机制，那么，mapreduce中传输的数据类型就必须实现hadoop自己的序列化接口
 * 
 * hadoop为jdk中的常用基本类型Long String Integer Float等数据类型封住了自己的实现了hadoop序列化接口的类型：LongWritable,Text,IntWritable,FloatWritable
 * 
 * 
 * 
 * 
 * @author ThinkPad
 *
 */
public class WordcountMapper extends Mapper{
    
    @Override
    protected void map(LongWritable key, Text value, Context context)
            throws IOException, InterruptedException {

        // 切单词
        String line = value.toString();
        String[] words = line.split(" ");
        for(String word:words){
            context.write(new Text(word), new IntWritable(1));
            
        }
    }
}

View Code

WordcountReducer类开发

import java.io.IOException;
import java.util.Iterator;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class WordcountReducer extends Reducer{
    
    
    @Override
    protected void reduce(Text key, Iterable values,Context context) throws IOException, InterruptedException {
    
        
        int count = 0;
        
        Iterator iterator = values.iterator();
        while(iterator.hasNext()){
            
            IntWritable value = iterator.next();
            count += value.get();
        }
        
        
        context.write(key, new IntWritable(count));
        
    }
    
    

}

View Code

到这里map和reduce逻辑都写完了，接下来就是

　　1）设置参数告诉mapTask调哪个类，reduceTask调用哪个类；

　　2）然后将代码提交到集群去运行。

目前为止我们的工程中既有mapTask又有recuceTask，还有我们自己实现的逻辑类，是一个完整的工程，现在想要运行该程序，可不想单机版的程序那样直接run main函数那么简单，因为这是一个分布式的程序，它的运行需要依托一个平台，也就是说将来提交工程到集群中去运行的时候，哪些机子启动mapTask，哪些机子启动reduceTask等，启动过程不是一个简单的事情，而是一个复杂的调度过程，需要一套完整的调度系统或者说平台来进行管理，而hadoop中已经为我们提供了这样的一个平台（yarn，也是一个集群，是一个分布式系统，同样有很多服务程序）来完成上述工作。所以我们还需要在集群中安装该平台，在安装完之后，还需要写代码与该平台交互，将我们的工程jar包和配置参数告知平台，让平台帮我们运行程序。

2.3、运行mapreduce程序

1、首先，为你的mapreduce程序开发一个提交job到yarn的客户端类（模板代码）：

　　描述你的mapreduce程序运行时所需要的一些信息(比如用哪个mapper、reducer、map和reduce输出的kv类型、jar包所在路径、reduce task的数量、输入输出数据的路径)

　　将信息和整个工程的jar包一起交给yarn

2、然后，将整个工程（yarn客户端类+ mapreduce所有jar和自定义类）打成jar包

3、然后，将jar包上传到hadoop集群中的任意一台机器上

4、最后，运行jar包中的（YARN客户端类）

[root@hdp-04 ~]# hadoop jar wc.jar cn.edu360.hadoop.mr.wc.JobSubmitter

JobSubmitter客户端类开发

细节，操作hdfs的用户有权限要求，整个工程要打成jar包，因为job会向yarn集群上传jar包；windows下提交job会有兼容性问题。

import java.net.URI;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

/**
 * 用于提交mapreduce job的客户端程序
 * 功能：
 *   1、封装本次job运行时所需要的必要参数
 *   2、跟yarn进行交互，将mapreduce程序成功的启动、运行
 * @author ThinkPad
 *
 */
public class JobSubmitter {
    
    public static void main(String[] args) throws Exception {
        
        // 在代码中设置JVM系统参数，用于给job对象来获取访问HDFS的用户身份
        // 或者通过eclipse图形化界面来设置 -DHADOOP_USER_NAME=root
        System.setProperty("HADOOP_USER_NAME", "root") ;
        
        
        Configuration conf = new Configuration();
        // 1、设置job运行时要访问的默认文件系统, map阶段要去读数据，reduce阶段要写数据
        conf.set("fs.defaultFS", "hdfs://hdp-01:9000");
        // 2、设置job提交到哪去运行：有本地模拟的方式local
        conf.set("mapreduce.framework.name", "yarn");
        conf.set("yarn.resourcemanager.hostname", "hdp-01");
        // 3、如果要从windows系统上运行这个job提交客户端程序，则需要加这个跨平台提交的参数
        conf.set("mapreduce.app-submission.cross-platform","true");
        
        // job中还要封装个多的参数
        Job job = Job.getInstance(conf);
        
        // 1、封装参数：jar包所在的位置：因为job客户端将来要把jar包（整个工程）发给yarn
        //job.setJar("d:/wc.jar");
        job.setJarByClass(JobSubmitter.class);//动态获取方式
        
        // 2、封装参数： 本次job所要调用的Mapper实现类、Reducer实现类
        job.setMapperClass(WordcountMapper.class);
        job.setReducerClass(WordcountReducer.class);
        
        // 3、封装参数：本次job的Mapper实现类、Reducer实现类产生的结果数据的key、value类型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);
        
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        
        
        
        Path output = new Path("/wordcount/output");
        FileSystem fs = FileSystem.get(new URI("hdfs://hdp-01:9000"),conf,"root");
        if(fs.exists(output)){
            fs.delete(output, true);
        }
        
        // 4、封装参数：本次job要处理的输入数据集所在路径、最终结果的输出路径
        FileInputFormat.setInputPaths(job, new Path("/wordcount/input"));
        FileOutputFormat.setOutputPath(job, output);  // 注意：输出路径必须不存在
        
        
        // 5、封装参数：想要启动的reduce task的数量（默认1），map task不需要设定，会根据数据集的大小自动切片计算。
        job.setNumReduceTasks(2);
        
        // 6、提交job给yarn，等待集群完成，这是一个阻塞式方法
        // 返回true表示mapreduce程序正常运行，false表示mapreduce程序运行失败，可能是中间的某一步。
        boolean res = job.waitForCompletion(true);//true便是吧Resource manager（会不断的反馈信息）反馈回来的信息输出。
        //job.submit()//提交之后直接退出
        
        //控制退出码
        System.exit(res?0:-1);
        
    }
    
    

}

View Code

3、yarn快速理解

　　mapreduce程序应该是在很多机器上并行启动，而且先执行map task，当众多的maptask都处理完自己的数据后，还需要启动众多的reduce task，这个过程如果用用户自己手动调度不太现实，需要一个自动化的调度平台——hadoop中就为运行mapreduce之类的分布式运算程序开发了一个自动化调度平台——YARN（yarn，是一个集群，是一个分布式系统，同样有很多服务程序、包括：mapTask，reduceTask，mrappmaster）。

3.1、yarn的基本概念

yarn是一个分布式程序的运行调度平台，有很多服务程序，会运行在不同的机器上。

yarn中有两大核心角色：主要起作用的是Resource Manager

1、Resource Manager

接受用户（job客户端）提交的分布式计算程序，并为其划分资源

管理、监控各个Node Manager上的资源情况，以便于均衡负载

2、Node Manager

管理它所在机器的运算资源（cpu + 内存）

负责接受Resource Manager分配的任务，创建容器（一个容器默认1G内存大小）、接收jar包，启动程序、回收资源

　　比如客户端提交了一个任务，并通过配置信息，指明需要12个容器运行，Resource Manager接收到客户端请求，将12个容器的计算任务安排给node manager，然后客户端去找对应的node manager进行交互，使用容器进行计算。

3.2、安装yarn集群

yarn集群中有两个角色：

主节点：Resource Manager 1台

从节点：Node Manager N台

node manager在物理上应该跟data node部署在一起，即与HDFS中的data node重叠在一起

resource manager在物理上应该独立部署在一台专门的机器上，一般安装在一台专门的机器上

3.2.1、修改配置文件

yarn-site.xml

<property>
<name>yarn.resourcemanager.hostnamename>
<value>hdp-04value>
property>

<property>
<name>yarn.nodemanager.aux-servicesname>
<value>mapreduce_shufflevalue>
property>


<property>
<name>yarn.nodemanager.resource.memory-mbname>
<value>2048value>
property>

<property> 
　　<name>
　　　　yarn.nodemanager.resource.cpu-vcores
　　name> 
<value>2value>
property>

其他的配置可以参考官网

一个运行mapTask reduceTask的容器，默认至少1G内存大小

mrappmaster至少需要1.5G，这个程序在整个mapreduce程序中之启动一个实例，它是所有mapTask和reduceTask的主管，且要先与task启动，运行在某一台nodemanager机器提供的容器上（容器就是运算资源的抽象）。

3.2.2、复制到每一台机器上

3.2.3、启动yarn集群

逐一启动

批量启动

在hdp-04上，修改hadoop的slaves（可以与hdfs共用）文件，列入要启动nodemanager的机器

然后将hdp-04到所有机器的免密登陆配置好

然后，就可以用脚本启动yarn集群：

该自动化脚本与hdfs自动化脚本不同，后者可以在任何的机器上执行，均能正常启动hdfs，而前这只能在resouce manager机器上，因为该脚本启动resouce manager是不会去看配置文件（虽然有），在哪里敲在哪里启动，而启动node manager时会看slaves文件。

sbin/start-yarn.sh
#停止：
sbin/stop-yarn.sh

3.2.4、检查yarn的进程

用jps检查yarn的进程，用web浏览器查看yarn的web控制台

启动完成后，可以在windows上用浏览器访问resourcemanager的web端口8088：

http://hdp-04:8088

看resource mananger是否认出了所有的node manager节点

上图中的红框表示的内存数其实是有参数来配置的，默认值（一台nodemanager是8G内存，而且是8核），与实际值严重不同。cup核数是一个虚拟值，假设node manager对应的物理机器的可用内存是2G，核数1，而我们在通过配置参数指定了最大的内存为2G，核数为2核，其实将物理机器的1核算力平均分成了两份，作为node manager的2核。

转载于:https://www.cnblogs.com/arjenlee/p/9527198.html

有必要获得WHQL测试认证吗，有什么好处？
什么是WHQL认证？WHQL是MicrosoftWindowsHardwareQualityLab的缩写，中文意思是Windows硬件设备质量实验室，主要是对Windows操作系统的兼容性测试，检验硬件产品和驱动程序在windows系统下的兼容性和稳定性。当某一硬件或软件通过WHQL测试时，制造商可以在其产品包装和广告上使用“DesignedforWindows”标志。该标志可以证明硬件或软件已经
WHQL签名怎么申请 GDCA SSL证书 windows
WHQL（WindowsHardwareQualityLabs）签名是微软对硬件和驱动程序进行认证的一种方式，以确保它们与Windows操作系统的兼容性和稳定性。以下是申请WHQL签名的基本步骤，供您参考：1.准备阶段准备硬件设备和驱动程序：确保您的硬件设备已经准备好，并且对应的驱动程序已经经过充分的测试，能够在各种配置和环境下正常工作。获取EV代码签名证书：根据微软的要求，驱动程序进行WHQL认
JSON 与 AJAX Auscy json ajax 前端
一、JSON（JavaScriptObjectNotation）1.数据类型与语法细节支持的数据类型：基本类型：字符串（需用双引号）、数字、布尔值（true/false）、null。复杂类型：数组（[]）、对象（{}）。严格语法规范：键名必须用双引号包裹（如"name":"张三"）。数组元素用逗号分隔，最后一个元素后不能有多余逗号。数字不能以0开头（如012会被解析为12），不支持八进制/十六进制
上位机知识篇---SD卡&U盘镜像
常用的镜像烧录软件balenaEtcherbalenaEtcher是一个开源的、跨平台的工具，用于将操作系统镜像文件（如ISO和IMG文件）烧录到SD卡和USB驱动器中。以下是其使用方法、使用场景和使用注意事项的介绍：使用方法下载安装：根据自己的操作系统，从官方网站下载对应的安装包。Windows系统下载.exe文件后双击安装；Linux系统若下载的是.deb文件，可在终端执行“sudodpkg-
JavaScript 树形菜单总结 Auscy microsoft
树形菜单是前端开发中常见的交互组件，用于展示具有层级关系的数据（如文件目录、分类列表、组织架构等）。以下从核心概念、实现方式、常见功能及优化方向等方面进行总结。一、核心概念层级结构：数据以父子嵌套形式存在，如{id:1,children:[{id:2}]}。节点：树形结构的基本单元，包含自身信息及子节点（若有）。展开/折叠：子节点的显示与隐藏切换，是树形菜单的核心交互。递归渲染：因数据层级不固定，
精通Canvas：15款时钟特效代码实现指南烟幕缭绕
本文还有配套的精品资源，点击获取简介：HTML5的Canvas是一个用于绘制矢量图形的API，通过JavaScript实现动态效果。本项目集合了15种不同的时钟特效代码，帮助开发者通过学习绘制圆形、线条、时间更新、旋转、颜色样式设置及动画效果等概念，深化对Canvas的理解和应用。项目中的CSS文件负责时钟的样式设定，而JS文件则包含实现各种特效的逻辑，通过不同的函数或类处理时间更新和动画绘制，提
深入剖析OpenJDK 18 GA源码：Java平台最新发展想法臃肿
本文还有配套的精品资源，点击获取简介：OpenJDK18GA作为Java开发的关键里程碑，提供了诸多新特性和改进。本文章深入探讨了OpenJDK18GA源码，揭示其内部机制，帮助开发者更好地理解和利用这个版本。文章还涵盖了PatternMatching、SealedClasses、Records、JEP395、JEP406和JEP407等特性，以及HotSpot虚拟机、编译器、垃圾收集器、内存模型
Java大厂面试实录：谢飞机的电商场景技术问答（Spring Cloud、MyBatis、Redis、Kafka、AI等）
Java大厂面试实录：谢飞机的电商场景技术问答（SpringCloud、MyBatis、Redis、Kafka、AI等）本文模拟知名互联网大厂Java后端岗位面试流程，以电商业务为主线，由严肃面试官与“水货”程序员谢飞机展开有趣的对话，涵盖SpringCloud、MyBatis、Redis、Kafka、SpringSecurity、AI等热门技术栈，并附详细解析，助力求职者备战大厂面试。故事设定谢
【超硬核】JVM源码解读：Java方法main在虚拟机上解释执行 HeapDump性能社区 java 开发语言后端 jvm
本文由HeapDump性能社区首席讲师鸠摩（马智）授权整理发布第1篇-关于Java虚拟机HotSpot，开篇说的简单点开讲Java运行时，这一篇讲一些简单的内容。我们写的主类中的main()方法是如何被Java虚拟机调用到的？在Java类中的一些方法会被由C/C++编写的HotSpot虚拟机的C/C++函数调用，不过由于Java方法与C/C++函数的调用约定不同，所以并不能直接调用，需要JavaC
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（Spring Boot、MyBatis、Kafka、Redis、AI等）来旺 Java场景面试宝典 Java Spring Boot MyBatis Kafka Redis 微服务 AI
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（SpringBoot、MyBatis、Kafka、Redis、AI等）互联网大厂技术面试不仅考察技术深度，更注重业务场景与系统设计能力。本篇以严肃面试官与“水货”程序员谢飞机的对话，带你体验音视频业务场景下的Java面试全过程，涵盖主流技术栈，并附详细答案解析，助你面试无忧。故事场景设定谢飞机是一名有趣但技术基础略显薄弱的程序员，这次应
【前端】jQuery数组合并去重方法总结
在jQuery中合并多个数组并去重，推荐使用原生JavaScript的Set对象（高效简单）或$.unique()（仅适用于DOM元素，不适用于普通数组）。以下是完整解决方案：方法1：使用ES6Set（推荐）//定义多个数组constarr1=[1,2,3];constarr2=[2,3,4];constarr3=[3,4,5];//合并数组并用Set去重constmergedArray=[...
MySQL Explain 详解：从入门到精通，让你的 SQL 飞起来
引言：为什么Explain是SQL优化的“照妖镜”？在Java开发中，我们常常会遇到数据库性能瓶颈的问题。一条看似简单的SQL语句，在数据量增长到一定规模后，可能会从毫秒级响应变成秒级甚至分钟级响应，直接拖慢整个应用的性能。此时，你是否曾困惑于：为什么这条SQL突然变慢了？索引明明建了，为什么没生效？到底是哪里出了问题？答案就藏在MySQL的EXPLAIN命令里。EXPLAIN就像一面“照妖镜”，
Java特性之设计模式【责任链模式】 Naijia_OvO Java特性 java 设计模式责任链模式
一、责任链模式概述顾名思义，责任链模式（ChainofResponsibilityPattern）为请求创建了一个接收者对象的链。这种模式给予请求的类型，对请求的发送者和接收者进行解耦。这种类型的设计模式属于行为型模式在这种模式中，通常每个接收者都包含对另一个接收者的引用。如果一个对象不能处理该请求，那么它会把相同的请求传给下一个接收者，依此类推主要解决：职责链上的处理者负责处理请求，客户只需要将
Linux操作系统磁盘管理 CZZDg linux 运维服务器
目录一.硬盘介绍1.硬盘的物理结构2.CHS编号3.磁盘存储划分4.开机流程5.要点6.磁盘存储数据的形式二.Linux文件系统1.根文件系统2.虚拟文件系统3.真文件系统4.伪文件系统三.磁盘分区与挂载1.磁盘分区方式2.分区命令3.查看与识别命令4.格式化命令5.挂载命令四.LVM逻辑卷1.概述2.管理命令五.磁盘配额1.概述usrquota:支持对用户的磁盘配额grpquota：支持对组的磁
日历插件-FullCalendar的详细使用老马聊技术 JavaScript 前端 javascript
一、介绍FullCalendar是一个功能强大、高度可定制的JavaScript日历组件，用于在网页中显示和管理日历事件。它支持多种视图（月、周、日等），可以轻松集成各种框架，并提供丰富的事件处理功能。二、实操案例具体代码如下：FullCalendar日期选择body{font-family:Arial,sans-serif;margin:20px;}#calendar{max-width:900
玩转Docker | 使用Docker部署gopeed下载工具心随_风动玩转Docker docker 容器运维
玩转Docker|使用Docker部署gopeed下载工具前言一、gopeed介绍Gopeed简介主要特点二、系统要求环境要求环境检查Docker版本检查检查操作系统版本三、部署gopeed服务下载镜像创建容器检查容器状态检查服务端口安全设置四、访问gopeed应用五、测试与下载六、总结前言在当今信息爆炸的时代，高效地获取和管理网络资源变得尤为重要。无论是下载大型文件还是进行日常的数据传输，一个稳
react-native android 环境搭建
环境：macjava版本：Java11最重要：一定要一定要一定要react涉及到很多的依赖下载，gradle和react相关的，第一次安装环境时有外网环境会快速很多。安装nodejs安装react-nativenpminstallreact-native-clinpminstallreact-native创建一个新项目react-nativeinitfirstReact替换gradle下载源rep
Java 调用 HTTP 接口的 7 种方式：全网最全指南
Java调用HTTP接口的7种方式：全网最全指南在开发过程中，调用HTTP接口是最常见的需求之一。本文将详细介绍Java中7种主流的调用HTTP接口的方式，包括每种工具的优缺点和完整代码实现。1.使用RestTemplateRestTemplate是Spring提供的同步HTTP客户端，适用于传统项目。尽管从Spring5开始被标记为过时，它仍然是许多开发者的首选。示例代码importorg.sp
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求可曾去过倒悬山 java 前端架构
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求三年经验是Java程序员的分水岭，技术栈深度决定你成为“业务码农”还是“架构师候选人”。本文整合阿里、美团、滴滴等大厂招聘要求，为你绘制可落地的进阶路线。一、Java核心：从语法糖到JVM底层三年经验与初级的核心差异在于系统级理解，大厂面试常考以下能力：JVM与性能调优内存模型（堆外内存、元空间）、GC算法（G1/ZGC适用场
javascript高级程序设计第3版——第12章 DOM2与DOM3 weixin_30687587 javascript 数据结构与算法 ViewUI
12章——DOM2与DOM3为了增强D0M1，DOM级规范定义了一些模块。DOM2核心：为不同的DOM类型引入了一些与XML命名空间有关的方法，还定义了以编程方式创建Document实例的方法；DOM2级样式：针对操作元素的样式而开发；其特性总结：1.每个元素都有一个关联的style对象，可用来确定和修改行内样式；2.要确定某个元素的计算样式，可使用getComgetComputedStyle（）
Java设计模式实战：高频场景解析与避坑指南 mckim_ 笔记学习 java 设计模式
引言设计模式是软件开发的基石，但许多开发者面对23种模式时容易陷入“学完就忘”或“滥用模式”的困境。本文从工业级项目视角出发，精选10种高频设计模式，结合真实代码案例与主流框架应用，帮你建立模式思维，拒绝纸上谈兵。一、创建型模式：告别new的暴力美学1.工厂方法模式（FactoryMethod）核心痛点：对象创建逻辑散落各处，难以统一管理。场景案例：电商平台需要支持多种支付方式（支付宝、微信、银联
JavaScript 基础09：Web APIs——日期对象、DOM节点梦想当全栈 JavaScript javascript 前端开发语言
JavaScript基础09：WebAPIs——日期对象、DOM节点进一步学习DOM相关知识，实现可交互的网页特效能够插入、删除和替换元素节点。能够依据元素节点关系查找节点。一、日期对象掌握Date日期对象的使用，动态获取当前计算机的时间。ECMAScript中内置了获取系统时间的对象Date，使用Date时与之前学习的内置对象console和Math不同，它需要借助new关键字才能使用。1.实例
《Java前端开发全栈指南：从Servlet到现代框架实战》
前言在当今Web开发领域，Java依然是后端开发的主力语言，而随着前后端分离架构的普及，Java开发者也需要掌握前端技术栈。本文将全面介绍JavaWeb前端开发的核心技术，包括传统Servlet/JSP体系、现代前端框架集成方案，以及全栈开发的最佳实践。通过本文，您将了解如何构建现代化的JavaWeb应用前端界面。一、JavaWeb前端技术演进1.1传统技术栈Servlet：JavaWeb基础，处
javaSE面试题---语法基础、面向对象、常用类、集合、多线程、文件和IO yang_xiao_wu_ java 面试开发语言 javase java基础多线程文件和IO
目录语法基础1.jdkjrejvm区别2.基本数据类型3.引用数据类型4.自动类型转换、强制类型转换5.常见的运算符6.&和&&区别7.++--在前和在后的区别8.+=有什么作用9.switch..case中switch支持哪些数据类型10.break和continue区别11.while和dowhile区别12.如何生成一个取值范围在[min,max]之间的随机数13.数组的长度如何获取？数组下
JAVA 高频八股文 Day03 Conqueror675 java 开发语言
12.TCP和Http的区别是什么TCP是传输层协议，负责建立可靠的点对点连接，确保数据有序、完整地传输（如铁路轨道）；HTTP是应用层协议，基于TCP构建，定义了Web服务交互的报文格式和规则（如货运订单）。TCP关注数据如何可靠送达，通过三次握手建立连接、流量控制等机制保证传输；HTTP关注传输内容的意义，提供请求/响应语义（GET/POST等）和无状态通信。补充：说一下什么是三次握手四次挥手
Docker容器底层原理详解：从零理解容器化技术 Debug Your Career 面试 docker 容器 docker java
一、容器本质：一个“隔离的进程”关键认知：Docker容器并不是一个完整的操作系统，而是一个被严格隔离的进程。这个进程拥有独立的文件系统、网络、进程视图等资源，但它直接运行在宿主机内核上（而虚拟机需要模拟硬件和操作系统）。类比理解：想象你在一个办公楼里租了一间独立办公室（容器）。你有自己的桌椅（文件系统）、电话分机（网络）、门牌号（主机名），但共享整栋楼的水电（宿主机内核）和电梯（硬件资源）。办公
JVM字节码加载与存储中的细节
问题引出：为什么Java定义int型变量为32767时使用的是bipush32767，而定义int型变量为32768时使用的是ldc#4？在Java中，如果这样定义int型变量：publicclassTest{publicstaticvoidmain(String[]args){inti=0;intj=5;intk=6;intm=32768;intn=32767;}}变量对应的字节码文件内容是这样
JVM与Spring Boot核心解析 AIHacksCash Java场景面试宝典 Java JVM Spring Boot
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
springmvc 下 freemarker页面枚举的遍历输出杨白白 enum freemarker
spring mvc freemarker 中遍历枚举 1枚举类型有一个本地方法叫values（），这个方法可以直接返回枚举数组。所以可以利用这个遍历。 enum public enum BooleanEnum { TRUE(Boolean.TRUE, "是"), FALSE(Boolean.FALSE, "否");
实习简要总结 byalias 工作
来白虹不知不觉中已经一个多月了，因为项目还在需求分析及项目架构阶段，自己在这段时间都是在学习相关技术知识，现在对这段时间的工作及学习情况做一个总结：（1）工作技能方面大体分为两个阶段，Java Web 基础阶段和Java EE阶段 1）Java Web阶段在这个阶段，自己主要着重学习了 JSP, Servlet, JDBC, MySQL，这些知识的核心点都过了一遍，也
Quartz——DateIntervalTrigger触发器 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208559 一.概述 simpleTrigger 内部实现机制是通过计算间隔时间来计算下次的执行时间，这就导致他有不适合调度的定时任务。例如我们想每天的 1：00AM 执行任务，如果使用 SimpleTrigger，间隔时间就是一天。注意这里就会有一个问题，即当有 misfired 的任务并且恢复执行时，该执行时间
Unix快捷键 18289753290 unix Unix；快捷键;
复制，删除，粘贴： dd:删除光标所在的行 &nbs
获取Android设备屏幕的相关参数酷的飞上天空 android
包含屏幕的分辨率以及屏幕宽度的最大dp 高度最大dp TextView text = (TextView)findViewById(R.id.text); DisplayMetrics dm = new DisplayMetrics(); text.append("getResources().ge
要做物联网？先保护好你的数据蓝儿唯美数据
根据Beecham Research的说法，那些在行业中希望利用物联网的关键领域需要提供更好的安全性。在Beecham的物联网安全威胁图谱上，展示了那些可能产生内外部攻击并且需要通过快速发展的物联网行业加以解决的关键领域。 Beecham Research的技术主管Jon Howes说：“之所以我们目前还没有看到与物联网相关的严重安全事件，是因为目前还没有在大型客户和企业应用中进行部署，也就
Java取模（求余）运算随便小屋 java
整数之间的取模求余运算很好求，但几乎没有遇到过对负数进行取模求余，直接看下面代码： /** * * @author Logic * */ public class Test { public static void main(String[] args) { // TODO A
SQL注入介绍 aijuans sql注入
二、SQL注入范例这里我们根据用户登录页面 <form action="" > 用户名：<input type="text" name="username"><br/> 密码：<input type="password" name="passwor
优雅代码风格 aoyouzi 代码
总结了几点关于优雅代码风格的描述：代码简单：不隐藏设计者的意图，抽象干净利落，控制语句直截了当。接口清晰：类型接口表现力直白，字面表达含义，API 相互呼应以增强可测试性。依赖项少：依赖关系越少越好，依赖少证明内聚程度高，低耦合利于自动测试，便于重构。没有重复：重复代码意味着某些概念或想法没有在代码中良好的体现，及时重构消除重复。战术分层：代码分层清晰，隔离明确，
布尔数组百合不是茶 java 布尔数组
androi中提到了布尔数组; 布尔数组默认的是false, 并且只会打印false或者是true 布尔数组的例子; 根据字符数组创建布尔数组 char[] c = {'p','u','b','l','i','c'}; //根据字符数组的长度创建布尔数组的个数 boolean[] b = new bool
web.xml之welcome-file-list、error-page bijian1013 java web.xml servlet error-page
welcome-file-list 1.定义： <welcome-file-list> <welcome-file>login.jsp</welcome> </welcome-file-list> 2.作用：用来指定WEB应用首页名称。 error-page1.定义： <error-page&g
richfaces 4 fileUpload组件删除上传的文件 sunjing clear Richfaces 4 fileupload
页面代码 <h:form id="fileForm"> <rich:
技术文章备忘 bit1129 技术文章
Zookeeper http://wenku.baidu.com/view/bab171ffaef8941ea76e05b8.html http://wenku.baidu.com/link?url=8thAIwFTnPh2KL2b0p1V7XSgmF9ZEFgw4V_MkIpA9j8BX2rDQMPgK5l3wcs9oBTxeekOnm5P3BK8c6K2DWynq9nfUCkRlTt9uV
org.hibernate.hql.ast.QuerySyntaxException: unexpected token: on near line 1解决方案白糖_ Hibernate
文章摘自：http://blog.csdn.net/yangwawa19870921/article/details/7553181 在编写HQL时，可能会出现这种代码： select a.name,b.age from TableA a left join TableB b on a.id=b.id 如果这是HQL，那么这段代码就是错误的，因为HQL不支持
sqlserver按照字段内容进行排序 bozch 按照内容排序
在做项目的时候，遇到了这样的一个需求：从数据库中取出的数据集，首先要将某个数据或者多个数据按照地段内容放到前面显示，例如:从学生表中取出姓李的放到数据集的前面； select * fro
编程珠玑-第一章-位图排序 bylijinnan java 编程珠玑
import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.io.Writer; import java.util.Random; public class BitMapSearch {
Java关于==和equals chenbowen00 java
关于==和equals概念其实很简单，一个是比较内存地址是否相同，一个比较的是值内容是否相同。虽然理解上不难，但是有时存在一些理解误区，如下情况： 1、 String a = "aaa"; a=="aaa"; ==> true 2、 new String("aaa")==new String("aaa
[IT与资本]软件行业需对外界投资热情保持警惕 comsci it
我还是那个看法,软件行业需要增强内生动力,尽量依靠自有资金和营业收入来进行经营,避免在资本市场上经受各种不同类型的风险,为企业自主研发核心技术和产品提供稳定,温和的外部环境... 如果我们在自己尚未掌握核心技术之前,企图依靠上市来筹集资金,然后使劲往某个领域砸钱,然
oracle 数据块结构 daizj oracle 块数据块块结构行目录
oracle 数据块是数据库存储的最小单位，一般为操作系统块的N倍。其结构为：块头－－〉空行－－〉数据，其实际为纵行结构。块的标准大小由初始化参数DB_BLOCK_SIZE指定。具有标准大小的块称为标准块（Standard Block）。块的大小和标准块的大小不同的块叫非标准块（Nonstandard Block）。同一数据库中，Oracle9i及以上版本支持同一数据库中同时使用标
github上一些觉得对自己工作有用的项目收集 dengkane github
github上一些觉得对自己工作有用的项目收集技能类 markdown语法中文说明回到顶部全文检索 elasticsearch bigdesk elasticsearch管理插件回到顶部 nosql mapdb 支持亿级别map, list, 支持事务. 可考虑做为缓存使用 C
初二上学期难记单词二 dcj3sjt126com english word
dangerous 危险的 panda 熊猫 lion 狮子 elephant 象 monkey 猴子 tiger 老虎 deer 鹿 snake 蛇 rabbit 兔子 duck 鸭 horse 马 forest 森林 fall 跌倒；落下 climb 爬；攀登 finish 完成；结束 cinema 电影院；电影 seafood 海鲜；海产食品 bank 银行
8、mysql外键(FOREIGN KEY)的简单使用 dcj3sjt126com mysql
一、基本概念 1、MySQL中“键”和“索引”的定义相同，所以外键和主键一样也是索引的一种。不同的是MySQL会自动为所有表的主键进行索引，但是外键字段必须由用户进行明确的索引。用于外键关系的字段必须在所有的参照表中进行明确地索引，InnoDB不能自动地创建索引。 2、外键可以是一对一的，一个表的记录只能与另一个表的一条记录连接，或者是一对多的，一个表的记录与另一个表的多条记录连接。 3、如
java循环标签 Foreach shuizhaosi888 标签 java循环 foreach
1. 简单的for循环 public static void main(String[] args) { for (int i = 1, y = i + 10; i < 5 && y < 12; i++, y = i * 2) { System.err.println("i=" + i + " y="
Spring Security（05）——异常信息本地化 234390216 exception Spring Security 异常信息本地化
异常信息本地化 Spring Security支持将展现给终端用户看的异常信息本地化，这些信息包括认证失败、访问被拒绝等。而对于展现给开发者看的异常信息和日志信息（如配置错误）则是不能够进行本地化的，它们是以英文硬编码在Spring Security的代码中的。在Spring-Security-core-x
DUBBO架构服务端告警Failed to send message Response javamingtingzhao 架构 DUBBO
废话不多说，警告日志如下，不知道有哪位遇到过，此异常在服务端抛出(服务器启动第一次运行会有这个警告)，后续运行没问题，找了好久真心不知道哪里错了。 WARN 2015-07-18 22:31:15,272 com.alibaba.dubbo.remoting.transport.dispatcher.ChannelEventRunnable.run(84)
JS中Date对象中几个用法 leeqq JavaScript Date 最后一天
近来工作中遇到这样的两个需求 1. 给个Date对象，找出该时间所在月的第一天和最后一天 2. 给个Date对象，找出该时间所在周的第一天和最后一天需求1中的找月第一天很简单，我记得api中有setDate方法可以使用使用setDate方法前，先看看getDate var date = new Date(); console.log(date); // Sat J
MFC中使用ado技术操作数据库你不认识的休道人 sql mfc
1.在stdafx.h中导入ado动态链接库 #import"C:\Program Files\Common Files\System\ado\msado15.dll" no_namespace rename("EOF","end")2.在CTestApp文件的InitInstance()函数中domodal之前写::CoIniti
Android Studio加速 rensanning android studio
Android Studio慢、吃内存！启动时后会立即通过Gradle来sync & build工程。（1）设置Android Studio a) 禁用插件 File -> Settings... Plugins 去掉一些没有用的插件。比如：Git Integration、GitHub、Google Cloud Testing、Google Cloud
各数据库的批量Update操作 tomcat_oracle java oracle sql mysql sqlite
MyBatis的update元素的用法与insert元素基本相同，因此本篇不打算重复了。本篇仅记录批量update操作的 sql语句，懂得SQL语句，那么MyBatis部分的操作就简单了。　　注意：下列批量更新语句都是作为一个事务整体执行，要不全部成功，要不全部回滚。 MSSQL的SQL语句　WITH R AS（　　SELECT 'John' as name, 18 as
html禁止清除input文本输入缓存 xp9802 input
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; eg: <input type="text" autocomplete="off" name

Hadoop之MapReduce学习笔记（一）

1、mapreduce整体工作机制介绍

2、wordcount示例

2.1、 wordcount程序整体运行流程示意图

2.2、 编码实现

2.3、运行mapreduce程序

3、yarn快速理解

3.1、yarn的基本概念

3.2、安装yarn集群

3.2.1、修改配置文件

3.2.2、复制到每一台机器上

3.2.3、启动yarn集群

3.2.4、检查yarn的进程

你可能感兴趣的:(大数据,操作系统,java)

2.2、编码实现