大数据梦想家

MapReduce 的核心知识点，你都 get 到了吗 ?（干货文章，建议收藏！）

本文已收录github：https://github.com/BigDataScholar/TheKingOfBigData，里面有大数据高频考点，Java一线大厂面试题资源，上百本免费电子书籍，作者亲绘大数据生态圈思维导图…持续更新，欢迎star！

前言

大家好，我是梦想家！

众所周知，Hadoop 中最核心的两大组件就是 HDFS 和 MapReduce。其中 HDFS 提供了承载海量数据存储的能力，而 MapReduce 则提供了海量数据高并行计算的能力。关于 HDFS 的介绍，之前已经写了两篇来分别介绍 HDFS 的架构和 HDFS实现文件管理和容错的文章。而本期文章，我将为大家介绍关于 MapReduce 的核心知识点。

MapReduce的原理

Hadoop 中 MapReduce 最核心的思想就是分而治之，通过 MapReduce 这个名字就可以看出，MapReduce 包含有 Map 和 Reduce 两个部分。它将一个大型的计算问题分解成一个个小的，简单的计算任务，交给 MapReduce 中的 Map 部分执行，随后 Reduce 部分会对 Map 部分输出的中间结果进行聚合计算，输出最终的统计结果。

为了方便大家理解，可以看下 MapReduce 的简要模型图：

每个子任务在框架中都是高度并行计算的，然后 MapReduce 框架将各个计算子任务的计算结果进行合并，得出最终的计算结果。

每个子任务在 MapReduce 内部都是高度并行计算的，子任务的高度并行化极大地提高了 Hadoop 处理海量数据的性能。MapReduce 的并行计算模型如图所示：

由图可知，MapReduce 框架将一个大型的计算任务拆分为多个简单的计算任务，交由多个 Map 并行计算，每个 Map 的计算结果经过中间结果处理阶段的处理后输入 Reduce 阶段，Reduce 阶段将输入的数据进行合并处理，输出最终的计算结果。

同时，用户无须关心 MapReduce 底层各个节点之间的通信机制与通信过程，只需简单地编写 map() 函数和 reduce() 函数即可开发 Hadoop MapReduce 程度。

MapReduce的部署结构

MapReduce 框架由一个主节点（ResourceManager）、多个子节点（NodeManager）和每个执行任务的 MR AppMaster 共同组成。通常会将 MapReduce 的计算节点和存储节点部署在同一台服务器上，如图所示：

这种部署结构可以使 MapReduce 框架在已经存储好数据的节点上快速、高效地调度任务，尽可能地不用通过 RPC 从其他服务器上获取数据来执行任务，使整个集群的网络带宽被高效利用，极大地提升了处理任务的效率。

MapReduce 的运行流程

MapReduce 编程模型简化了分布式系统中并行计算的复杂度，开发人员能够不必关心 MapReduce 程序的底层实现细节，只专注于解决业务需求。

在 MapReduce 框架内部，整个运行流程可以分为如下四个阶段，其中每个阶段中的数据传输格式也不一样。

简单运行流程如下所示：

大致流程：

（1）原始数据经过 Hadoop 框架的处理，将 “（k，原始数据行）”格式的数据输入 Map 阶段，即 Map 阶段接收到的数据都是 “（k，元素数据行）”的。

（2）数据经过 Map 阶段处理之后，输出 “{（k1,v1),(k2,v2)}”格式的中间结果

（3）Map阶段输出的中间结果经由 Hadoop 的中间结果处理阶段（如聚合、排序等）之后，会形成 “ {(k1,[v1,v2]) …} ”格式的数据

（4）中间结果处理阶段形成的 “{(k1,[v1,v2]) …}”格式的数据会输入 Reduce 阶段进行处理。此时，key相同的数据会被输入进同一个 Reduce 函数进行处理（也可以由用户自定义数据分发规则）

（5）数据经过 Reduce 阶段处理之后，最终会形成“{(k1,v3)}” 格式的数据存入 HDFS 中

另外，如果觉得不够清晰，也可以参考下下面这个版本的 MapReduce 运行流程。

（1）原始数据被切分为多个小的数据分片输入 map() 函数，这些小的数据分片往往是原始数据的数据行，它们以 “(k，line)” 的格式输入 map() 函数，其中 k 表示数据的偏移量，line 表示整行数据。

（2）map() 函数并行处理输入的数据分片，根据具体的业务规则对输入的数据进行相应的处理，输出中间处理结果，这些中间处理结果往往以“{(k1,v1),(k2,v2)}” 的格式存在。

（3）中间处理阶段将 map() 函数输出的中间结果根据 key 进行聚合处理，输出聚合结果，这些聚合结果的格式为：“{(k1,[v1,v2])}”。

（4）中间处理阶段将输出的聚合结果输入 reduce () 函数进行处理( key相同的数据会被输入同一个 reduce()函数中，用户也可以自定义数据分发规则 )，reduce（）函数对这些数据进行进一步聚合和计算等。

（5）reduce 函数将最终的结果以 “ (k,v) ”的格式输出到 HDFS 中。

MapReduce的容错机制

MapReduce 容错包括 Task（任务）容错，AppMaster 容错、NodeManager 容错和 ResourceManager 容错。

1、Task 容错

AppMaster 一段时间没有收到任务进度的更新，就会将任务标记为失败，但是不会立刻杀死执行任务的进程，而是等待一定的超时时间。该超时时间可以在mapred-site.xml文件中进行配置，具体的属性为mapreduce.task.timeout：

<properties>
     <name>mapreduce.task.timeoutname>
     <value>600000value>
property>

超时时间默认值为 10 min，即任务被标记为失败的 10 min 之后才会将任务失败的进程杀死。

MapReduce 提供了重试机制，重试的次数主要由 map-site.xml文件中的 mapreduce.map.maxattempts属性和mapreduce.reduce.maxattempts属性配置，代码如下所示：

<properties>
     <name>mapreduce.map.maxattempts</name>
     <value>4</value>
</property>
<properties>
     <name>mapreduce.reduce.maxattempts</name>
     <value>4</value>
</property>

默认重试次数为4，即任务失败后，MapReduce 框架会重试4次，如果任务依然失败，MapReduce才会认为任务彻底失败了。

也可以配置允许任务失败的最大百分比，可以由属性 mapreduce.map.failures.maxpercent 和 mapreduce.reduce.failures.maxprecent 进行配置。

2、AppMaster 容错

AppMaster也提供了重试机制，YARN中的应用程序失败之后，最多尝试次数由mapred-site.xml文件中的mapreduce.am.max-attempts属性配置：

<properties>
     <name>mapreduce.am.max-attempts</name>
     <value>4</value>
</property>

尝试次数默认值为2，即当 AppMaster 失败2次之后，运行的任务将会失败。

在 MapReduce 内部，YARN 框架对 AppMaster 的最大尝试次数做了限制。其中，每个在 YARN 中运行的应用程序不能超过这个数量限制，具体限制由 yarn-site.xml 文件中的 yarn.resourcemanager.am.max-attempts属性控制，配置信息如下所示：

<properties>
     <name>yarn.resourcemanager.am.max-attempts</name>
     <value>2</value>
</property>

3、NodeManager 容错

当 NodeManager 发生故障，停止向 ResourceManager 节点发送心跳信息时，ResourceManager 节点并不会立即移除 NodeManager，而是要等待一段时间，该时间可以由 yarn.resourcemanager.nm.liveness-monitor.expiry-interval-ms 属性设置，代码如下：

<properties>
     <name>yarn.resourcemanager.nm.liveness-monitor.expiry-interval-ms</name>
     <value>600000</value>
</property>

等待时间默认值为 10 min，即 NodeManager 发生故障之后，ResourceManager 节点接收不到 NodeManager 发生过来的心跳信息，过 10 min 之后才会将 NodeManager 移除。

当 NodeManager 上运行的失败任务数量达到一定的值时，AppMaster 就会将该节点上的任务调度到其他节点上。任务失败的阈值由 mapred-site.xml 文件中的 mapreduce.job.maxtaskfailures.per.tracker 属性设置，代码如下所示：

<properties>
     <name>mapreduce.job.maxtaskfailures.per.trackername>
     <value>3value>
property>

此默认值为3，即当一个 NodeManager 上有超过3个任务失败，AppMaster 就会将该节点上的任务调度到其他节点上。

ResourceManager 容错

新版本的 Hadoop 中提供了 ResourceManager 节点的 HA 机制，如果主 ResourceManager 失败，备 ResouceManager 会迅速接管工作。

Hadoop 中对 ResourceManager节点提供了检查点机制，当所有的 ResourceManager 节点失败后，重启 ResouceManager 节点，可以从上一个失败的 ResourceManager 节点保存的检查点进行状态恢复。

这些检查点的存储是由 yarn-site.xml文件中的 yarn-resourcemanager.store.class属性设置的，代码如下所示:

<properties>
     <name>yarn-resourcemanager.store.class</name>
     <value>org.apache.hadoop.yarn.server.resourcemanager.recovery.FileSystemRMStateStore</value>
</property>

当然，默认是保存到文件中。

MapReduce的优化

技术面试中，关于 MapReduce 优化的考察频率可能不如 Spark，Flink，但是作为 Hadoop 知识的热门考点，我们对于它的优化还是要有一个清晰的认识。这里，我们从以下几个小点逐一展开。

MapReduce跑的慢的原因

MapReduce程序效率的瓶颈在于两点：

计算机性能

CPU、内存、磁盘健康、网络

I/O 操作优化

数据倾斜
Map 和 Reduce 数设置不合理
Map运行时间太长，导致 Reduce 等待过久
小文件过多
大量的不可分块的超大文件
Spill 次数过多
Merge 次数过多等。

MapReduce优化

关于 MapReduce 优化方法主要从以下6个方面进行考虑，分别是：数据倾斜、Map阶段、Reduce阶段、IO传输、数据倾斜问题和常用的调优参数。

1、数据输入

（1）合并小文件：在执行 MR 任务之前将小文件进行合并，大量的小文件会产生大量的 MR 任务，增大 Map 任务装载次数，而任务的装载比较耗时，从而导致 MR 运行较慢。

（2）采用 CombineText InputFormat 来作为输入，解决输入端大量小文件场景。

2、Map阶段

（1）减少溢写（spill）次数：通过调整 io.sort.mb 及 sort.spill.percent 参数值，增大触发 Spill 的内存上限，减少 Spill 次数，从而减少磁盘 IO 。

（2）减少合并（Merge）次数：通过调整io.sort.factor参数，增大 Merge 的文件数目，减少 Merge 的次数，从而缩短 MR 处理时间。

（3）在 Map 之后，不影响业务逻辑前提下，先进行 Combine 处理，减少 I/O 。

3、Reduce 阶段

（1）合理设置 Map 和 Reduce 数：两个都不能设置的太少，也不能设置的太多。太少，会导致 Task 等待，延长处理时间；太多，会导致 Map，Reduce 任务间竞争资源，造成处理超时等错误。

（2）设置 Map、Reduce 共存：调整 slowstart.completedmap参数，使 Map 运行到一定程度后，Reduce 也开始运行，减少 Reduce 的等待时间。

（3）规避使用 Reduce：因为 Reduce 在用于连接数据集的时候将会产生大量的网络消耗。

（4）合理设置 Reduce 端的 Buffer：默认情况下，数据达到一个阈值的时候，Buffer 中的数据就会写入磁盘，然后 Reduce 会从磁盘中获得所有的数据。也就是说，Buffer 和 Reduce 是没有直接关联的，中间多次写磁盘 -> 读磁盘的过程，既然有这个弊端，那么就可以通过参数来配置，使得 Buffer 中的一部分数据可以直接输送到 Reduce，从而减少 IO 开销 : mapreduce.reduce.input.buffer.percent，默认为 0.0 。当值大于 0 的时候，会保留指定比例的内存读 Buffer 中的数据直接拿给 Reduce 使用。这样一来，设置 Buffer 需要内存，读取数据需要内存，Reduce 计算也需要内存，所以要根据作业的用运行情况进行调整。

4、I/O 传输

（1）采用数据压缩的方式，减少网络 IO 的时间。安装 Snappy 和 LZO 压缩编码器。

（2）使用 SequenceFile 二进制文件。

5、数据倾斜问题

1. 数据倾斜现象：

数据频率倾斜——某一个区域的数据量要远远大于其他的区域。
数据大小倾斜——部分记录的大小远远大于平均值

2.减少数据倾斜的方法：

方法1 ：抽样和范围分区

可以通过对原始数据进行抽样得到的结果集来预设分区边界值。

方法2：自定义分区

基于输出键的背景知识进行自定义分区。例如，如果 Map 输出键的单词来源于一本书。且其中某几个专业词汇较多，那么就可以自定义分区将这些专业词汇发送给固定的一部分 Reduce 实例。而其他的都发送给剩余的 Reduce 实例。

方法3：Combine

使用 Combine 可以大量的减少数据倾斜。在可能的情况下，Combine 的目的就是聚合并精简数据。

方法4：采用 Map Join，尽量避免 Reduce Join

这个我们上面说过了，Reduce 在用于连接数据集的时候将会产生大量的网络消耗，所以我们采用 MapJoin，尽量避免 Reduce Join 。

6、常用的调优参数

1、资源相关参数

（1）以下参数是在用户自己的MR应用程序中配置就可以生效（mapred-default.xml）

配置参数	参数说明
mapreduce.map.memory.mb	一个MapTask可使用的资源上限（单位:MB），默认为1024。如果MapTask实际使用的资源量超过该值，则会被强制杀死。
mapreduce.reduce.memory.mb	一个ReduceTask可使用的资源上限（单位:MB），默认为1024。如果ReduceTask实际使用的资源量超过该值，则会被强制杀死。
mapreduce.map.cpu.vcores	每个MapTask可使用的最多cpu core数目，默认值: 1
mapreduce.reduce.cpu.vcores	每个ReduceTask可使用的最多cpu core数目，默认值: 1
mapreduce.reduce.shuffle.parallelcopies	每个Reduce去Map中取数据的并行数。默认值是5
mapreduce.reduce.shuffle.merge.percent	Buffer中的数据达到多少比例开始写入磁盘。默认值0.66
mapreduce.reduce.shuffle.input.buffer.percent	Buffer大小占Reduce可用内存的比例。默认值0.7
mapreduce.reduce.input.buffer.percent	指定多少比例的内存用来存放Buffer中的数据，默认值是0.0

（2）应该在YARN启动之前就配置在服务器的配置文件中才能生效（yarn-default.xml）

配置参数	参数说明
yarn.scheduler.minimum-allocation-mb	给应用程序Container分配的最小内存，默认值：1024
yarn.scheduler.maximum-allocation-mb	给应用程序Container分配的最大内存，默认值：8192
yarn.scheduler.minimum-allocation-vcores	每个Container申请的最小CPU核数，默认值：1
yarn.scheduler.maximum-allocation-vcores	每个Container申请的最大CPU核数，默认值：32
yarn.nodemanager.resource.memory-mb	给Containers分配的最大物理内存，默认值：8192

（3）Shuffle性能优化的关键参数，应在YARN启动之前就配置好（mapred-default.xml）

配置参数	参数说明
mapreduce.task.io.sort.mb	Shuffle的环形缓冲区大小，默认100m
mapreduce.map.sort.spill.percent	环形缓冲区溢出的阈值，默认80%

2、容错相关参数(MapReduce性能优化)

配置参数	参数说明
mapreduce.map.maxattempts	每个Map Task最大重试次数，一旦重试参数超过该值，则认为Map Task运行失败，默认值：4。
mapreduce.reduce.maxattempts	每个Reduce Task最大重试次数，一旦重试参数超过该值，则认为Map Task运行失败，默认值：4。
mapreduce.task.timeout	Task超时时间，经常需要设置的一个参数，该参数表达的意思为：如果一个Task在一定时间内没有任何进入，即不会读取新的数据，也没有输出数据，则认为该Task处于Block状态，可能是卡住了，也许永远会卡住，为了防止因为用户程序永远Block住不退出，则强制设置了一个该超时时间（单位毫秒），默认是600000。如果你的程序对每条输入数据的处理时间过长（比如会访问数据库，通过网络拉取数据等），建议将该参数调大，该参数过小常出现的错误提示是“AttemptID:attempt_14267829456721_123456_m_000224_0 Timed out after 300 secsContainer killed by the ApplicationMaster.”

巨人的肩膀

1、《海量数据处理与大数据技术实战》
2、《Hadoop权威指南》

小结

实际上，关于 MapReduce的内容还有很多，本期文章只是将比较重要核心的部分介绍了一下。其中，MapReduce的原理，运行流程，优化是面试中比较经常考察的点，而部署结构，容错机制我们仅做学习了解即可。我还想强调一点，一定要学会自发的去学习新的知识和总结学过的内容。否则就容易出现，新学的记不住，学过的忘记了的情况。

好了，本期文章就到这里，我是梦想家，我们下一期见！如果对您有所帮助，请记得一键三连~

从AWS MySQL数据库下载备份到S3的完整解决方案 AWS官方合作商数据库 aws mysql
本文将介绍两种主流方法将AWSRDSMySQL数据库备份下载到S3，适用于生产环境需求。方法一：通过RDS快照导出（AWS原生方案）适用场景：全量备份、大数据量、无需额外计算资源流程：创建数据库快照进入AWSRDS控制台→选择目标MySQL实例→点击"操作"→"拍摄快照"输入快照名称（如my-db-snapshot-2024）配置S3导出任务在RDS控制台左侧菜单选择快照→选择刚创建的快照点击"操
java毕业设计-基于Javaweb的家常小菜烹饪学习管理系统的设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿刘 vue spring boot 毕业设计 java 课程设计学习
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费开题报告、任务书、全bao定制+
java毕业设计源码案例-基于ssm+协同过滤的个性化小说推荐系统设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等) 项目帮 springboot java 计算机毕设 java 课程设计开发语言
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
碳中和碳交易骗局揭晓！第七届内部操盘群伍戈被骗黑幕曝光!血泪事迹令人惊心! 昌龙律法
如今大家生活好了，手里或多或少有点闲钱了。就开始想着怎么赚更多的钱！这也使得各种投资市场很火爆，无孔不入的骗子们又暗戳戳上线了，利用人们对赚钱的渴望，打着网络投资的旗号实施诈骗。随着“互联网+”的发展，万物皆可“数字经济”的“数字大数据”投资项目走入现实生活中。但是有不法分子就利用了这一“商机”，将数字投资变为新型找形式，并且利用洗脑话术，核心骗术仍然是高额返利，让人不知不觉掉进提前布局的“陷阱”
计算机专业大数据毕业设计-基于 Spark 的音乐数据分析项目(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿八哥数据可视化计算机毕设 spark 大数据课程设计 spark
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
风光摄影——余云华黄颖
今天下午一位把摄影当做爱好的非常厉害的风光摄影师——余云华，给我们分享了他这几年的拍摄经历与心得，听完之后，着实佩服。余老师先给我们讲了有关拍摄风光对相机，镜头的基本要求，接着讲到了如何选景取景，用光等基本操作，干货满满，收获颇多。我一直对自然风光摄影很感兴趣，也很向往，听余老师讲过的几个故事后，更是对专职摄影家非常的敬佩。风光摄影，靠的就是天气和运气，一切都是需要等待，而且你也不知道这样的等待是
智慧水库信息化系统建设产品需求文档V2.0 小赖同学啊 test Technology Precious 物联网
智慧水库信息化系统建设产品需求文档1.引言1.1文档目的本文档旨在明确智慧水库信息化系统的建设需求，为系统设计、开发和实施提供全面依据，确保系统功能满足水库管理业务需求，提升水库管理的智能化水平和决策效率。1.2背景介绍传统水库管理面临数据采集不及时、分析手段有限、决策依赖经验等问题，难以应对复杂多变的水文情势和日益增长的管理需求。随着物联网、大数据、人工智能等技术的发展，智慧水库建设成为必然趋势
从零开始学 Linux：循序渐进的学习指南我爱学嵌入式 Linux基础 linux 服务器
Linux作为一款开源、稳定且安全的操作系统，在服务器领域、嵌入式开发、云计算等场景中占据着举足轻重的地位。对于程序员、运维工程师或IT爱好者而言，掌握Linux技能已成为一项核心竞争力。但面对命令行界面和复杂的系统架构，很多初学者往往感到无从下手。本文将为你梳理一条清晰的Linux学习路径，助你从入门到精通。一、明确学习目标：为什么学Linux？学习Linux前需明确目标，不同目标对应不同的学习
9.20其二道左无人
做一家服务公司，为下面的公司提供一些事务性的管理、财务管理、风险管理的服务，粘住一个大圈子的HR，通过下面的公司做掉项目，为HR提供一个稳定的资源变现的渠道；做一家科技公司，提供线上的平台运营，大数据采集，以及基于这个基础上的卖货、信贷等服务做一家连锁企业，每一家门店都是独立的企业，提供招聘、引流以及终端服务所以外部通过众筹绑定大批量的HR，就会有稳定的订单，通过服务公司提供服务，通过终端门店保证
有所思之干货vs水货勤劳的farmer
许久没有开始敲钱盘写写自己最近的心得和感悟啦！刚好这两天的感悟蛮多的，所以写写。最近高能的冼姐邀请我加入南宁演讲群，一起成长学习，期间也单独找我聊着，鼓励我去霸占舞台，突破自我！在群里看到群友对冼姐的称呼是“冼主席”，还有每次冼姐发的活动文案感觉每次都是非常的用心的表达自己，帮助别人！能量超级强！只讲重点！！也讲到了会拖着我前进，期间给我说了一句话让我印象深刻：“人生不疯几次，怎么能做的了大事呢？
只靠可视化大屏，做不了数字化，数据总监总结3点，你做到了几个大数据的那些事
企业数字化是很多企业热衷的话题。本文的数字化指各行业头的头部企业的端到端数字化解决方案，常见部署于华为专有云、阿里私有云、亚马逊云，项目金额一般百万起步，上不封顶。很多企业投人、投钱数字化，都希望有个酷炫的数据大脑，政府、合作伙伴来参观时，用酷炫的数据大脑让来宾们啧啧称赞。热闹散去后，企业内部的各部门，天天围着数据挖宝，大数据快告诉我，下个月能卖多少，哪几个渠道卖得不好，哪条生产线有问题，哪些货压
2025年服务器技术全景解析：量子计算、液冷革命与未来生态构建国际云1688 腾讯云国际量子计算腾讯云服务器云计算架构运维
2025年服务器技术全景解析：量子计算、液冷革命与未来生态构建一、量子计算：从实验室到产业化的跨越1.中国量子计算产业化突破•本源量子“悟空”超导计算机：搭载72位自主超导量子芯片“悟空芯”，支持198个量子比特并行计算，已为全球139个国家完成超32万个计算任务。在金融领域，其投资组合优化应用使资源消耗较经典计算机降低50%，黑石集团等机构已将其用于高频交易策略优化；在生物医药领域，量子混合神经
hive的sql优化思路-明白底层运行逻辑 ycllycll hive sql hadoop
一、首先要明白底层map、shuffle、reduce的顺序之中服务器hdfs数据文件在内存与存储之中是怎么演变的，因为hive的性能瓶颈基本在内存，具体参考以下他人优秀文章：1.HiveSQL底层执行过程详细剖析2.HiveJOIN性能调优二是要明白hive对应的sql它底层的mapreduce的过程中sql字段的执行顺序，来理解map的key、value会填充什么值，才能深刻理解怎么一步一步的
你多久没有认真读一本书了我是巴卡
我九岁博览群书，二十岁达到顶峰。我现在都是看社会人文类的书，例如《知音》《故事会》……往前推三百年，往后推三百年，总共六百年没有人超过我。——凤姐引用凤姐的话，没有嘲讽的意思。现在的人，包括我自己，除了刷手机，恐怕连杂志都很少读了，更别说认真读一本书了。1、大数据下，人越读越窄，越读越傻前段时间，埃航波音737MAX8出事，就在网上跟着读了几篇报道。随后的一段时间，基本打开APP都是关于波音和73
注意力才是我们最值钱的东西心守平凡_王慧超
4月10日晚，罗永浩携手国民神车哈弗品牌完成了第二场带货直播。此次直播共售出11357张2777元的优惠券，预估销售额15.65亿元，创造了汽车直播带货的新纪录。流量时代真的已经来临了，随着互联网的高速发展，越来越多的网络用户增加，我们不得不承认，我们已经进入了一个网络时代，进入了一个流量大数据时代。我们所有想获得的东西都可以通过网络获取，资料、信息、购物，网络正在改变人们的生活方式，正在成为人们
《互联网大厂Java求职者必看！Spring Boot+Redis+微服务高频面试题实战》
《互联网大厂Java求职者必看！SpringBoot+Redis+微服务高频面试题实战》面试现场：谢飞机vs大厂严肃面试官面试官：欢迎来参加我们公司的技术面试，我是本次的技术面试官。先做个自我介绍吧。谢飞机：您好，我叫谢飞机，三年开发经验，写过HelloWorld，也修过线上Bug，喜欢边写代码边喝咖啡……面试官（微笑）：嗯，不错，挺有程序员气质。那我们开始吧。第一轮：基础技术与SpringBoo
六、深度剖析 Hadoop 分布式文件系统（HDFS）的数据存储机制与读写流程
深度剖析Hadoop分布式文件系统（HDFS）的数据存储机制与读写流程在当今大数据领域当中，Hadoop分布式文件系统（HDFS）作为极为关键的核心组件之一，为海量规模的数据的存储以及处理构筑起了坚实无比的根基。本文将会对HDFS的数据存储机制以及读写流程展开全面且深入的探究，通过将原理与实际的实例紧密结合的方式，助力广大读者更加全面地理解HDFS的工作原理以及其具体的应用场景。一、HDFS概述H
后端校招 | 高分简历 + 高频 C++ 面试题整理（附GitHub题库推荐）壹張先森 c++java 开发语言
一、为什么专门做一期C++面试题分享？我发现很多后端同学在面试准备时：Java岗位题资源非常多但C++后端面试内容分散、缺少整合所以我整理了GitHub上高频C++后端面试题+答案解析，今天精选5道送给你：二、精选高频C++面试题（附答题技巧）1.new和malloc的区别？特性newmalloc返回类型指定类型指针void*构造函数会调用构造函数不会调用释放方式deletefree重载支持支持重
养老院管理系统基于SpringBoot的养老院管理系统系统设计与实现（源码+论文+部署讲解等）
博主介绍：✌全网粉丝60W+,csdn特邀作者、Java领域优质创作者、csdn/掘金/哔哩哔哩/知乎/道客/小红书等平台优质作者，计算机毕设实战导师，目前专注于大学生项目实战开发,讲解,毕业答疑辅导，欢迎高校老师/同行前辈交流合作✌技术栈范围：SpringBoot、Vue、SSM、Jsp、HLMT、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习、单片机
网上可以赚钱平台有哪些几类正规赚钱平台分享【干货】全网优惠分享
网上可以赚钱平台有哪些几类正规赚钱平台分享【干货】手机上就可以的赚钱方法：1：手机应用商店搜索“氧惠”下载氧惠APP，注册填写邀请码：222999为什么要用氧惠？你平时在淘宝,京东,拼多多,抖音,快手,买东西都有现金返现，比如淘宝100块的东西，你通过氧惠跳转到淘宝下单购买，可以返现20元，是不是就是等于你80元就买到了原来要100元才能买到的东西。该在哪下单还是在哪下单，只是通过氧惠跳转一下。但
大数据处理技术：分布式文件系统HDFS 茜茜西西CeCe hdfs hadoop 大数据 HDFS-JAVA接口文件头歌 Java
目录1实验名称：2实验目的3实验内容4实验原理5实验过程或源代码5.1HDFS的基本操作5.2HDFS-JAVA接口之读取文件5.3HDFS-JAVA接口之上传文件5.4HDFS-JAVA接口之删除文件6实验结果6.1HDFS的基本操作6.2HDFS-JAVA接口之读取文件6.3HDFS-JAVA接口之上传文件6.4HDFS-JAVA接口之删除文件1实验名称：分布式文件系统HDFS2实验目的1.理
美国VPS服务器Linux内核参数调优的实践与验证 cpsvps 服务器 linux 运维
美国vps服务器Linux内核参数调优的实践与验证在云计算和虚拟化技术日益普及的今天，美国VPS服务器因其稳定的网络环境和优越的性价比，成为众多企业和开发者的首选。Linux内核参数的默认配置往往无法充分发挥VPS的性能潜力。本文将深入探讨美国VPS服务器上Linux内核参数的调优实践，通过系统化的测试验证方法，帮助用户实现服务器性能的显著提升。美国VPS服务器Linux内核参数调优的实践与验证一
拼多多的商业思考拼图区块链
拼多多除了假货还有什么？这是普遍大家回问的一个问题。但是拼多多的的真的只有假货那么简单吗？把它定位成一个假货平台显然是不公平的。拼多多抓住的第一个关键词是“高频”。在拼多多排名前10的类目中，排到第一的是食品。而淘宝排名第一的是服装。很显然，食品是一个比服务高频多的东西，主要就包含：瓜子零食和水果。拼多多关注的第二个关键词是“拼团”。我们必须承认拼多多上面确实存在很多的假货。但是中国广大的3、4、
DPDK（25.03）零基础配置笔记 _Chipen DPDK 计算机网络
DPDK零基础配置笔记DPDK（DataPlaneDevelopmentKit，数据面开发工具包）是一个高性能数据包处理库，主要用于绕过Linux内核网络协议栈，直接在用户空间对网卡收发的数据进行操作，以此实现极高的数据吞吐。DPDK的核心价值是：使用轮询+巨页内存+用户态驱动，提升网络收发性能。适用场景：高频交易、软件路由器、防火墙、负载均衡器等对网络性能要求极高的系统。基本数据简要解释igb_
2025前端面试题全攻略：高频考点解析与实战指南
助力金三银四跳槽季，覆盖90%大厂核心考点，技术进阶+面试技巧双提升一、HTML/CSS核心篇1.语义化与布局实战问题1：如何用HTML5语义化标签优化新闻详情页？答案要点：使用包裹主体内容，划分章节标记发布时间，+处理图文SEO优势：提升关键内容权重，增强可访问性问题2：实现等间距三栏布局（中间自适应）.container{display:flex;gap:20px;/*关键：替代margin方
Android NFC 技术详解及 IC 卡读取实现 Monkey-旭 microsoft NFC IC卡 android java
NFC（NearFieldCommunication，近场通信）作为一种短距离高频无线通信技术，在移动支付、身份识别、数据传输等场景中应用广泛。在Android设备上，NFC功能可以实现与IC卡、标签、其他NFC设备的交互，其中“读取IC卡”是最常见的需求之一。本文将从技术原理到实际开发，全面讲解AndroidNFC技术及IC卡读取实现。一、AndroidNFC技术基础1.1什么是NFC？NFC是
华为OD机考 2025C卷 - 围棋的气 (C++ & Python & JAVA & JS & GO) 无限码力华为OD机试真题刷题笔记华为od 华为OD机试2025C卷华为OD机考2025C卷华为OD2025C卷
围棋的气华为OD机试真题目录点击查看:华为OD机试2025C卷真题题库目录｜机考题库+算法考点详解华为OD机试2025C卷100分题型题目描述围棋棋盘由纵横各19条线垂直相交组成，棋盘上一共19x19=361个交点，对弈双方一方执白棋，一方执黑棋，落子时只能将棋子置于交点上。“气”是围棋中很重要的一个概念，某个棋子有几口气，是指其上下左右方向四个相邻的交叉点中，有几个交叉点没有棋子，由此可知：在棋
华为OD机考 2025C卷 - 对称美学 (C++ & Python & JAVA & JS & GO) 无限码力华为OD机试真题刷题笔记华为od 华为OD机试2025C卷华为OD2025C卷华为OD机考2025C卷
对称美学华为OD机试真题目录点击查看:华为OD机试2025C卷真题题库目录｜机考题库+算法考点详解华为OD机试2025C卷100分题型题目描述对称就是最大的美学，现有一道关于对称字符串的美学。已知：第1个字符串：R第2个字符串：BR第3个字符串：RBBR第4个字符串：BRRBRBBR第5个字符串：RBBRBRRBBRRBRBBR相信你已经发现规律了，没错！就是第i个字符串=第i-1号字符串取反+第
华为OD机试 2025 B卷 - We are a Team (C++ & Python & JAVA & JS & GO) 无限码力华为OD机试真题刷题笔记华为od 华为OD2025B卷华为OD机考2025B卷华为OD机试2025B卷华为OD机试
WeareaTeam华为OD机试真题目录点击查看:华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解华为OD机试2025B卷100分题型题目描述总共有n个人在机房，每个人有一个标号（1<=标号<=n），他们分成了多个团队，需要你根据收到的m条消息判定指定的两个人是否在一个团队中，具体的：消息构成为abc，整数a、b分别代表两个人的标号，整数c代表指令c==0代表a和b在一个团队内c==1
华为OD 面试手撕真题目录无限码力华为OD面试手撕代码真题合集华为od 面试华为OD面试手撕真题
华为OD面试手撕真题目录，收集的都是实际面试出现过的手撕代码真题，对于是力扣原题的我会在对应题目博客中给出对应对应链接，推荐自己写代码去通过。华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解目录序号题目名称考点1求1-n的最小公倍数数学原理2判断是IPV4还是IPV6字符串、模拟3旋转矩阵模拟4
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI linux PHP android
╔-----------------------------------╗┆
zookeeper admin 笔记 braveCS zookeeper
Required Software 1) JDK>=1.6 2)推荐使用ensemble的ZooKeeper(至少3台)，并run on separate machines 3)在Yahoo!，zk配置在特定的RHEL boxes里，2个cpu，2G内存，80G硬盘数据和日志目录 1)数据目录里的文件是zk节点的持久化备份，包括快照和事务日
Spring配置多个连接池 easterfly spring
项目中需要同时连接多个数据库的时候，如何才能在需要用到哪个数据库就连接哪个数据库呢？ Spring中有关于dataSource的配置： <bean id="dataSource" class="com.mchange.v2.c3p0.ComboPooledDataSource" &nb
Mysql 171815164 mysql
例如，你想myuser使用mypassword从任何主机连接到mysql服务器的话。 GRANT ALL PRIVILEGES ON *.* TO 'myuser'@'%'IDENTIFIED BY 'mypassword' WI TH GRANT OPTION; 如果你想允许用户myuser从ip为192.168.1.6的主机连接到mysql服务器，并使用mypassword作
CommonDAO（公共/基础DAO） g21121 DAO
好久没有更新博客了，最近一段时间工作比较忙，所以请见谅，无论你是爱看呢还是爱看呢还是爱看呢，总之或许对你有些帮助。 DAO(Data Access Object)是一个数据访问（顾名思义就是与数据库打交道）接口，DAO一般在业
直言有讳永夜-极光感悟随笔
1.转载地址:http://blog.csdn.net/jasonblog/article/details/10813313 精华: “直言有讳”是阿里巴巴提倡的一种观念，而我在此之前并没有很深刻的认识。为什么呢？就好比是读书时候做阅读理解，我喜欢我自己的解读，并不喜欢老师给的意思。在这里也是。我自己坚持的原则是互相尊重，我觉得阿里巴巴很多价值观其实是基本的做人
安装CentOS 7 和Win 7后，Win7 引导丢失随便小屋 centos
一般安装双系统的顺序是先装Win7，然后在安装CentOS，这样CentOS可以引导WIN 7启动。但安装CentOS7后，却找不到Win7 的引导，稍微修改一点东西即可。一、首先具有root 的权限。即进入Terminal后输入命令su，然后输入密码即可二、利用vim编辑器打开/boot/grub2/grub.cfg文件进行修改 v
Oracle备份与恢复案例 aijuans oracle
Oracle备份与恢复案例一. 理解什么是数据库恢复当我们使用一个数据库时，总希望数据库的内容是可靠的、正确的，但由于计算机系统的故障（硬件故障、软件故障、网络故障、进程故障和系统故障）影响数据库系统的操作，影响数据库中数据的正确性，甚至破坏数据库，使数据库中全部或部分数据丢失。因此当发生上述故障后，希望能重构这个完整的数据库，该处理称为数据库恢复。恢复过程大致可以分为复原(Restore)与
JavaEE开源快速开发平台G4Studio v5.0发布無為子
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V5.0版本已经正式发布。访问G4Studio网站 http://www.g4it.org 2013-04-06 发布G4Studio_V5.0版本功能新增 (1). 新增了调用Oracle存储过程返回游标，并将游标映射为Java List集合对象的标
Oracle显示根据高考分数模拟录取百合不是茶 PL/SQL编程 oracle例子模拟高考录取学习交流
题目要求: 1,创建student表和result表 2,pl/sql对学生的成绩数据进行处理 3,处理的逻辑是根据每门专业课的最低分线和总分的最低分数线自动的将录取和落选 1,创建student表,和result表学生信息表; create table student( student_id number primary key,--学生id
优秀的领导与差劲的领导 bijian1013 领导管理团队
责任优秀的领导：优秀的领导总是对他所负责的项目担负起责任。如果项目不幸失败了，那么他知道该受责备的人是他自己，并且敢于承认错误。差劲的领导：差劲的领导觉得这不是他的问题，因此他会想方设法证明是他的团队不行，或是将责任归咎于团队中他不喜欢的那几个成员身上。努力工作优秀的领导：团队领导应该是团队成员的榜样。至少，他应该与团队中的其他成员一样努力工作。这仅仅因为他
js函数在浏览器下的兼容 Bill_chen jquery 浏览器 IE DWR ext
做前端开发的工程师，少不了要用FF进行测试，纯js函数在不同浏览器下，名称也可能不同。对于IE6和FF，取得下一结点的函数就不尽相同： IE6：node.nextSibling,对于FF是不能识别的； FF：node.nextElementSibling,对于IE是不能识别的；兼容解决方式：var Div = node.nextSibl
【JVM四】老年代垃圾回收：吞吐量垃圾收集器(Throughput GC) bit1129 垃圾回收
吞吐量与用户线程暂停时间衡量垃圾回收算法优劣的指标有两个：吞吐量越高，则算法越好暂停时间越短，则算法越好首先说明吞吐量和暂停时间的含义。垃圾回收时，JVM会启动几个特定的GC线程来完成垃圾回收的任务，这些GC线程与应用的用户线程产生竞争关系，共同竞争处理器资源以及CPU的执行时间。GC线程不会对用户带来的任何价值，因此，好的GC应该占
J2EE监听器和过滤器基础白糖_ J2EE
Servlet程序由Servlet，Filter和Listener组成，其中监听器用来监听Servlet容器上下文。监听器通常分三类：基于Servlet上下文的ServletContex监听，基于会话的HttpSession监听和基于请求的ServletRequest监听。 ServletContex监听器 ServletContex又叫application
博弈AngularJS讲义(16) - 提供者 boyitech js AngularJS api Angular Provider
Angular框架提供了强大的依赖注入机制，这一切都是有注入器(injector)完成. 注入器会自动实例化服务组件和符合Angular API规则的特殊对象，例如控制器，指令，过滤器动画等。那注入器怎么知道如何去创建这些特殊的对象呢？ Angular提供了5种方式让注入器创建对象，其中最基础的方式就是提供者(provider), 其余四种方式(Value, Fac
java-写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 bylijinnan java
public class CommonSubSequence { /** * 题目：写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 * 写一个版本算法复杂度O(N^2)和一个O(N) 。 * * O(N^2)：对于a中的每个字符，遍历b中的每个字符，如果相同，则拷贝到新字符串中。 * O(
sqlserver 2000 无法验证产品密钥 Chen.H sql windows SQL Server Microsoft
在 Service Pack 4 (SP 4), 是运行 Microsoft Windows Server 2003、 Microsoft Windows Storage Server 2003 或 Microsoft Windows 2000 服务器上您尝试安装 Microsoft SQL Server 2000 通过卷许可协议 (VLA) 媒体。这样做, 收到以下错误信息CD KEY的 SQ
[新概念武器]气象战争 comsci
气象战争的发动者必须是拥有发射深空航天器能力的国家或者组织.... 原因如下: 地球上的气候变化和大气层中的云层涡旋场有密切的关系,而维持一个在大气层某个层次
oracle 中 rollup、cube、grouping 使用详解 daizj oracle grouping rollup cube
oracle 中 rollup、cube、grouping 使用详解 -- 使用oracle 样例表演示转自namesliu -- 使用oracle 的样列库，演示 rollup, cube, grouping 的用法与使用场景 --- ROLLUP ，为了理解分组的成员数量，我增加了分组的计数 COUNT(SAL)
技术资料汇总分享 Dead_knight 技术资料汇总分享
本人汇总的技术资料，分享出来，希望对大家有用。 http://pan.baidu.com/s/1jGr56uE 资料主要包含： Workflow->工作流相关理论、框架(OSWorkflow、JBPM、Activiti、fireflow...) Security->java安全相关资料(SSL、SSO、SpringSecurity、Shiro、JAAS...) Ser
初一下学期难记忆单词背诵第一课 dcj3sjt126com english word
could 能够 minute 分钟 Tuesday 星期二 February 二月 eighteenth 第十八 listen 听 careful 小心的，仔细的 short 短的 heavy 重的 empty 空的 certainly 当然 carry 携带；搬运 tape 磁带 basket 蓝子 bottle 瓶 juice 汁，果汁 head 头；头部
截取视图的图片, 然后分享出去 dcj3sjt126com OS Objective-C
OS 7 has a new method that allows you to draw a view hierarchy into the current graphics context. This can be used to get an UIImage very fast. I implemented a category method on UIView to get the vi
MySql重置密码 fanxiaolong MySql重置密码
方法一: 在my.ini的[mysqld]字段加入： skip-grant-tables 重启mysql服务，这时的mysql不需要密码即可登录数据库然后进入mysql mysql>use mysql; mysql>更新 user set password=password('新密码') WHERE User='root'; mysq
Ehcache（03）——Ehcache中储存缓存的方式 234390216 ehcache MemoryStore DiskStore 存储驱除策略
Ehcache中储存缓存的方式目录 1 堆内存（MemoryStore） 1.1 指定可用内存 1.2 驱除策略 1.3 元素过期 2 &nbs
spring mvc中的@propertysource jackyrong spring mvc
在spring mvc中，在配置文件中的东西，可以在java代码中通过注解进行读取了： @PropertySource 在spring 3.1中开始引入比如有配置文件 config.properties mongodb.url=1.2.3.4 mongodb.db=hello 则代码中 @PropertySource(&
重学单例模式 lanqiu17 单例 Singleton 模式
最近在重新学习设计模式，感觉对模式理解更加深刻。觉得有必要记下来。第一个学的就是单例模式，单例模式估计是最好理解的模式了。它的作用就是防止外部创建实例，保证只有一个实例。单例模式的常用实现方式有两种，就人们熟知的饱汉式与饥汉式，具体就不多说了。这里说下其他的实现方式静态内部类方式: package test.pattern.singleton.statics; publ
.NET开源核心运行时，且行且珍惜 netcome java .net 开源
背景 2014年11月12日，ASP.NET之父、微软云计算与企业级产品工程部执行副总裁Scott Guthrie，在Connect全球开发者在线会议上宣布，微软将开源全部.NET核心运行时，并将.NET 扩展为可在 Linux 和 Mac OS 平台上运行。.NET核心运行时将基于MIT开源许可协议发布，其中将包括执行.NET代码所需的一切项目——CLR、JIT编译器、垃圾收集器（GC）和核心
使用oscahe缓存技术减少与数据库的频繁交互 Everyday都不同 Web 高并发 oscahe缓存
此前一直不知道缓存的具体实现，只知道是把数据存储在内存中，以便下次直接从内存中读取。对于缓存的使用也没有概念，觉得缓存技术是一个比较”神秘陌生“的领域。但最近要用到缓存技术，发现还是很有必要一探究竟的。缓存技术使用背景：一般来说，对于web项目，如果我们要什么数据直接jdbc查库好了，但是在遇到高并发的情形下，不可能每一次都是去查数据库，因为这样在高并发的情形下显得不太合理——
Spring+Mybatis 手动控制事务 toknowme mybatis
@Override public boolean testDelete(String jobCode) throws Exception { boolean flag = false; &nbs
菜鸟级的android程序员面试时候需要掌握的知识点 xp9802 android
熟悉Android开发架构和API调用掌握APP适应不同型号手机屏幕开发技巧熟悉Android下的数据存储熟练Android Debug Bridge Tool 熟练Eclipse/ADT及相关工具熟悉Android框架原理及Activity生命周期熟练进行Android UI布局熟练使用SQLite数据库；熟悉Android下网络通信机制，S