qq1010885678

MapReduce性能调优记录

MapReduce原理

要知道怎么对MapReduce作业进行调优前提条件是需要对Map-Reduce的过程了然于胸。
Map-Reduce运行原理图：

Map Side

1.从磁盘读取数据并分片

默认每个block对应一个分片，一个map task

2.进行map处理

运行自定义的map业务过程

3.输出数据到缓冲区中

map输出的数据并不是直接写入磁盘的，而是会先存储在一个预定义的buffer中

4、分区、排序分组的过程

对map输出的数据进行分区，按照key进行排序和分组

5、归约（可选）

相当于本地端的reduce过程

6、合并写入磁盘

对map的最终数据进行merge之后输出到磁盘中等待shuffle过程

Reduce side

1.从map端复制数据

2.对数据进行合并

以上两个步骤即为shuffle过程

3.对数据进行排序

4.进行reduce操作

5.输出到磁盘

详细的过程将会在调优技巧中体现出来

最简单的调优方式

设置Combiner

Combiner在Map端提前进行了一次Reduce处理。
可减少Map Task中间输出的结果，从而减少各个Reduce Task的远程拷贝数据量，最终表现为Map Task和Reduce Task执行时间缩短。

选择合理的Writable类型

为应用程序处理的数据选择合适的Writable类型可大大提升性能。
比如处理整数类型数据时，直接采用IntWritable比先以Text类型读入在转换为整数类型要高效。
如果输出整数的大部分可用一个或两个字节保存，那么直接采用VIntWritable或者VLongWritable，它们采用了变长整型的编码方式，可以大大减少输出数据量。

作业级别调优

增加输入文件的副本数

假设集群有1个Namenode+8个Datanode节点，HDFS默认的副本数为3
那么map端读取数据的时候，在启动map task的机器上读取本地的数据为3/8，一部分数据是通过网络从其他节点拿到的
那么如果副本数设置为8会是什么情况？
相当于每个子节点上都会有一份完整的数据，map读取的时候直接从本地拿，不需要通过网络这一层了

但是在实际情况中设置副本数为8是不可行的，因为数据本身非常庞大，副本数超过5对集群的磁盘就非常有压力了，所以这项设置需要酌情处理

该配置在hdfs-side.xml的dfs.replication项中设置

Map side tuning

InputFormat

这是map阶段的第一步，从磁盘读取数据并切片，每个分片由一个map task处理

当输入的是海量的小文件的时候，会启动大量的map task，效率及其之慢，有效的解决方式是使用CombineInputFormat自定义分片策略对小文件进行合并处理
从而减少map task的数量，减少map过程使用的时间
详情请看：自定义分片策略解决大量小文件问题

另外，map task的启动数量也和下面这几个参数有关系：

mapred.min.split.size：Input Split的最小值默认值1

mapred.max.split.size：Input Split的最大值

dfs.block.size：HDFS 中一个block大小，默认值128MB

当mapred.min.split.size小于dfs.block.size的时候，一个block会被分为多个分片，也就是对应多个map task
当mapred.min.split.size大于dfs.block.size的时候，一个分片可能对应多个block，也就是一个map task读取多个block数据

集群的网络、IO等性能很好的时候，建议调高dfs.block.size
根据数据源的特性，主要调整mapred.min.split.size来控制map task的数量

Buffer

该阶段是map side中将结果输出到磁盘之前的一个处理方式，通过对其进行设置的话可以减少map任务的IO开销，从而提高性能

由于map任务运行时中间结果首先存储在buffer中,默认当缓存的使用量达到80%的时候就开始写入磁盘,这个过程叫做spill(溢出)
这个buffer默认的大小是100M可以通过设定io.sort.mb的值来进行调整

当map产生的数据非常大时，如果默认的buffer大小不够看，那么势必会进行非常多次的spill，进行spill就意味着要写磁盘，产生IO开销
这时候就可以把io.sort.mb调大，那么map在整个计算过程中spill的次数就势必会降低，map task对磁盘的操作就会变少
如果map tasks的瓶颈在磁盘上，这样调整就会大大提高map的计算性能

但是如果将io.sort.mb调的非常大的时候，对机器的配置要求就非常高，因为占用内存过大，所以需要根据情况进行配置

map并不是要等到buffer全部写满时才进行spill，因为如果全部写满了再去写spill，势必会造成map的计算部分等待buffer释放空间的情况。
所以，map其实是当buffer被写满到一定程度（比如80%）时，才开始进行spill
可以通过设置io.sort.spill.percent的值来调整这个阈值
这个参数同样也是影响spill频繁程度，进而影响map task运行周期对磁盘的读写频率

但是通常情况下只需要对io.sort.mb进行调整即可

Merge

该阶段是map产生spill之后，对spill进行处理的过程，通过对其进行配置也可以达到优化IO开销的目的

map产生spill之后必须将些spill进行合并,这个过程叫做merge
merge过程是并行处理spill的,每次并行多少个spill是由参数io.sort.factor指定的,默认为10个

如果产生的spill非常多，merge的时候每次只能处理10个spill，那么还是会造成频繁的IO处理
适当的调大每次并行处理的spill数有利于减少merge数因此可以影响map的性能

但是如果调整的数值过大，并行处理spill的进程过多会对机器造成很大压力

Combine

我们知道如果map side设置了Combiner，那么会根据设定的函数对map输出的数据进行一次类reduce的预处理
但是和分组、排序分组不一样的是，combine发生的阶段可能是在merge之前，也可能是在merge之后

这个时机可以由一个参数控制：min.num.spill.for.combine，默认值为3
当job中设定了combiner，并且spill数最少有3个的时候，那么combiner函数就会在merge产生结果文件之前运行

例如，产生的spill非常多，虽然我们可以通过merge阶段的io.sort.factor进行优化配置，但是在此之前我们还可以通过先执行combine对结果进行处理之后再对数据进行merge
这样一来，到merge阶段的数据量将会进一步减少，IO开销也会被降到最低

输出中间数据到磁盘

这个阶段是map side的最后一个步骤，在这个步骤中也可以通过压缩选项的配置来得到任务的优化

其实无论是spill的时候，还是最后merge产生的结果文件，都是可以压缩的
压缩的好处在于，通过压缩减少写入读出磁盘的数据量。对中间结果非常大，磁盘速度成为map执行瓶颈的job，尤其有用

控制输出是否使用压缩的参数是mapred.compress.map.output，值为true或者false
启用压缩之后，会牺牲CPU的一些计算资源，但是可以节省IO开销，非常适合IO密集型的作业（如果是CPU密集型的作业不建议设置）

设置压缩的时候，我们可以选择不同的压缩算法
Hadoop默认提供了GzipCodec，LzoCodec，BZip2Codec，LzmaCodec等压缩格式

通常来说，想要达到比较平衡的cpu和磁盘压缩比，LzoCodec比较合适，但也要取决于job的具体情况
如果想要自行选择中间结果的压缩算法，可以设置配置参数：

mapred.map.output.compression.codec=org.apache.hadoop.io.compress.DefaultCodec
//或者其他用户自行选择的压缩方式

Map side tuning总结

从上面提到的几点可以看到，map端的性能瓶颈都是频繁的IO操作造成的，所有的优化也都是针对IO进行的，而优化的瓶颈又很大程度上被机器的配置等外部因素所限制

map端调优的相关参数：

选项	类型	默认值	描述
mapred.min.split.size	int	1	Input Split的最小值
mapred.max.split.size	int	.	Input Split的最大值
io.sort.mb	int	100	map缓冲区大小
io.sort.spill.percent	float	0.8	缓冲区阈值
io.sort.factor	int	10	并行处理spill的个数
min.num.spill.for.combine	int	3	最少有多少个spill的时候combine在merge之前进行
mapred.compress.map.output	boolean	false	map中间数据是否采用压缩
mapred.map.output.compression.codec	String	.	压缩算法

Reduce side tuning

Shuffle

1.Copy

由于job的每一个map都会根据reduce(n)数将数据分成map 输出结果分成n个partition，所以map的中间结果中是有可能包含每一个reduce需要处理的部分数据的
为了优化reduce的执行时间，hadoop中等第一个map结束后，所有的reduce就开始尝试从完成的map中下载该reduce对应的partition部分数据

在这个shuffle过程中，由于map的数量通常是很多个的，而每个map中又都有可能包含每个reduce所需要的数据
所以对于每个reduce来说，去各个map中拿数据也是并行的，可以通过mapred.reduce.parallel.copies这个参数来调整，默认为5
当map数量很多的时候，就可以适当调大这个值，减少shuffle过程使用的时间

还有一种情况是：reduce从map中拿数据的时候，有可能因为中间结果丢失、网络等其他原因导致map任务失败
而reduce不会因为map失败就永无止境的等待下去，它会尝试去别的地方获得自己的数据（这段时间失败的map可能会被重跑）
所以设置reduce获取数据的超时时间可以避免一些因为网络不好导致无法获得数据的情况
mapred.reduce.copy.backoff，默认300s
一般情况下不用调整这个值，因为生产环境的网络都是很流畅的

2.Merge

由于reduce是并行将map结果下载到本地，所以也是需要进行merge的，所以io.sort.factor的配置选项同样会影响reduce进行merge时的行为

和map一样，reduce下载过来的数据也是存入一个buffer中而不是马上写入磁盘的，所以我们同样可以控制这个值来减少IO开销
控制该值的参数为：
mapred.job.shuffle.input.buffer.percent，默认0.7，这是一个百分比，意思是reduce的可用内存中拿出70%作为buffer存放数据

reduce的可用内存通过mapred.child.java.opts来设置，比如置为-Xmx1024m，该参数是同时设定map和reduce task的可用内存，一般为map buffer大小的两倍左右

设置了reduce端的buffer大小，我们同样可以通过一个参数来控制buffer中的数据达到一个阈值的时候开始往磁盘写数据：mapred.job.shuffle.merge.percent，默认为0.66

Sort

sort的过程一般非常短，因为是边copy边merge边sort的，后面就直接进入真正的reduce计算阶段了

Reduce

之前我们说过reduc端的buffer，默认情况下，数据达到一个阈值的时候，buffer中的数据就会写入磁盘，然后reduce会从磁盘中获得所有的数据
也就是说，buffer和reduce是没有直接关联的，中间多个一个写磁盘->读磁盘的过程，既然有这个弊端，那么就可以通过参数来配置
使得buffer中的一部分数据可以直接输送到reduce，从而减少IO开销：mapred.job.reduce.input.buffer.percent，默认为0.0

当值大于0的时候，会保留指定比例的内存读buffer中的数据直接拿给reduce使用
这样一来，设置buffer需要内存，读取数据需要内存，reduce计算也要内存，所以要根据作业的运行情况进行调整

Reduce side tuning总结

和map阶段差不多，reduce节点的调优也是主要集中在加大内存使用量，减少IO，增大并行数

reduce调优主要参数：

选项	类型	默认值	描述
mapred.reduce.parallel.copies	int	5	每个reduce去map中拿数据的并行数
mapred.reduce.copy.backoff	int	300	获取map数据最大超时时间
mapred.job.shuffle.input.buffer.percent	float	0.7	buffer大小占reduce可用内存的比例
mapred.child.java.opts	String	.	-Xmx1024m设置reduce可用内存为1g
mapred.job.shuffle.merge.percent	float	0.66	buffer中的数据达到多少比例开始写入磁盘
mapred.job.reduce.input.buffer.percent	float	0.0	指定多少比例的内存用来存放buffer中的数据

MapReduce tuning总结

Map Task和Reduce Task调优的一个原则就是
减少数据的传输量
尽量使用内存
减少磁盘IO的次数
增大任务并行数
除此之外还有根据自己集群及网络的实际情况来调优

Map task和Reduce task的启动数

在集群部署完毕之后，根据机器的配置情况，我们就可以通过一定的公式知道每个节点上container的大小和数量

1.mapper数量

每个作业启动的mapper由输入的分片数决定，每个节点启动的mapper数应该是在10-100之间，且最好每个map的执行时间至少一分钟
如果输入的文件巨大，会产生无数个mapper的情况，应该使用mapred.tasktracker.map.tasks.maximum参数确定每个tasktracker能够启动的最大mapper数，默认只有2
以免同时启动过多的mapper

2.reducer数量

reducer的启动数量官方建议是0.95或者1.75*节点数*每个节点的container数
使用0.95的时候reduce只需要一轮就可以完成
使用1.75的时候完成较快的reducer会进行第二轮计算，并进行负载均衡
增加reducer的数量会增加集群的负担，但是会得到较好的负载均衡结果和减低失败成本

一些详细的参数：

选项	类型	默认值	描述
mapred.reduce.tasks	int	1	reduce task数量
mapred.tasktracker.map.tasks.maximum	int	2	每个节点上能够启动map task的最大数量
mapred.tasktracker.reduce.tasks.maximum	int	2	每个节点上能够启动reduce task的最大数量
mapred.reduce.slowstart.completed.maps	float	0.05	map阶段完成5%的时候开始进行reduce计算

map和reduce task是同时启动的，很长一段时间是并存的
共存的时间取决于mapred.reduce.slowstart.completed.maps的设置
如果设置为0.6.那么reduce将在map完成60%后进入运行态

如果设置的map和reduce参数都很大，势必造成map和reduce争抢资源，造成有些进程饥饿，超时出错，最大的可能就是socket.timeout的出错

reduce是在33%的时候完成shuffle过程，所以确保reduce进行到33%的时候map任务全部完成，可以通过观察任务界面的完成度进行调整
当reduce到达33%的时候，map恰好达到100%设置最佳的比例，可以让map先完成，但是不要让reduce等待计算资源

作者：@小黑

全闪存储系统揭秘：数据保护上海川源信息科技微服务架构云原生
上期文章我们谈到，当采用RAID技术对SSD进行数据保护，不仅会折损SSD的性能，可靠度也大打折扣。当存储系统超过两块SSD故障时，数据恢复也面临挑战。全闪存储系统架构除了传统的双活架构，我们还可以有别的选择吗？数据保护技术如果不采用SSDRAID，我们如何确保当发生硬盘故障时，SSD内的数据安全？川源的答案川源国产自研“无共享对称式双活（active-active）架构”，基于闪存的物理特性，从
为什么Redis对大 Key（Large Key）和大对象不友好？怎样优化？风一样的树懒 redis 数据库缓存
你好，我是风一样的树懒，一个工作十多年的后端专家，曾就职京东、阿里等多家互联网头部企业。公众号“吴计可师”，已经更新了近百篇高质量的面试相关文章，喜欢的朋友欢迎关注点赞Redis对大Key（LargeKey）和大对象不友好，主要源于其内存管理模型、单线程架构和数据结构特性。以下从性能影响、内存管理、集群限制三个维度解析原因，并提供优化方案：一、Redis对大Key不友好的核心原因1.性能瓶颈单线程
Redis五种用途 egekm_sefg 面试学习路线阿里巴巴 redis 数据库缓存
简介Redis是一个高性能的key-value数据库。Redis与其他key-value缓存产品有以下三个特点：-Redis支持数据的持久化，可以将内存中的数据保存在磁盘中，重启的时候可以再次加载进行使用。-Redis不仅仅支持简单的key-value类型的数据，同时还提供list，set，zset，hash等数据结构的存储。-Redis支持数据的备份，即master-slave模式的数据备份。五
VNode 码农小王 javascript
1.什么是VNode？VNode的全称是VirtualNode,也就是虚拟节点.它是指一个抽象的节点对象，用于描述真实DOM中的元素。在前端框架中，通过操作VNode来实现虚拟DOM，从而提高性能。2.VNode的本质本质上是JavaScript对象,这个对象就是更加轻量级的对DOM的描述3.为什么需要VNode？在前端框架中，我们通常需要在页面中操作DOM元素，如增删改查等操作。但是DOM操作是
Redis 分布式锁 DebugDiver代码深处潜水员三方件 redis 分布式数据库
Redis分布式锁是一种在分布式系统中实现互斥访问共享资源的机制。它利用Redis的高性能和原子性操作来确保在多个节点之间安全地获取和释放锁。下面是对Redis分布式锁的原理讲解和源码剖析。原理讲解1.基本概念锁：在分布式系统中，锁用于确保在同一时间只有一个节点能够访问共享资源。分布式锁：分布式锁是一种在多个节点之间共享的锁，通常通过一个共享的存储系统（如Redis）来实现。2.Redis实现分布
MCU与SOC的区别 winds～ ADAS相关单片机嵌入式硬件
自动驾驶中MCU与SoC的区别在自动驾驶系统中，**MCU（微控制单元，MicrocontrollerUnit）和SoC（系统级芯片，SystemonChip）**都是关键的电子元件，但它们在性能、功能和应用领域等方面存在显著区别。一、定义与基本概念1.MCU（微控制单元）组成：MCU是一种集成了处理器核心（通常为微型处理器）、内存（如闪存和RAM）以及输入/输出（I/O）接口的单片集成电路。特点
深入解析模拟/数字转换（ADC）：从原理到应用实践 Electron-er 单片机 stm32 嵌入式硬件
目录引言一、ADC的核心概念与技术指标1.ADC的定义与基本原理2.关键性能指标二、主流ADC架构及适用场景1.逐次逼近型（SARADC）2.积分型（双斜ADC）3.流水线型（PipelineADC）4.Σ-Δ型ADC三、ADC在嵌入式开发中的实践1.STM32的ADC配置实例2.抗干扰设计技巧四、ADC的行业应用与前沿趋势1.核心应用领域2.技术发展趋势五、开发避坑指南结语标签：模数转换、嵌入式
对vue VS react的理解向贤前端开发 vue.js react.js 前端
对vueVSreact的理解Vue与React的核心区别在于设计哲学：Vue追求渐进式开发和开箱即用，通过模板语法、响应式系统和官方生态提供低门槛的集成方案。React强调函数式编程和纯JavaScript驱动，以JSX、单向数据流和灵活的生态构建高自由度的视图层。核心差异可总结为：响应式机制、模板vsJSX、API设计、生态策略、性能优化模式。分点论述：1.响应式机制Vue：基于数据劫持（Vue
如何进行OceanBase 运维工具的部署和表性能优化? 运维
随着OceanBase数据库应用的日益深入，数据量不断攀升，单个表中存储数百万乃至数千万条数据的情况变得愈发普遍。因此，部署专门的运维工具、实施针对性的表性能优化策略，以及加强指标监测工作，都变得更为重要。以下为基于我们的使用场景，所采取的一些部署和优化措施分享。一、OCP部署升级1．OCP升级（1）4.2.1BP1升级到4.2.2，本来以为毫无波澜但是下载完毕一键包并完成前期准备工作启动后发现无
一文搞懂MCU和SoC的核心差异：从架构到应用场景全解析 Electron-er 单片机架构嵌入式硬件
目录引言一、从“芯片大脑”看本质：架构设计的哲学差异1.MCU：单一任务的执行专家2.SoC：系统级集成的超级平台二、实战对比：六大维度拆解差异1.性能指标对比2.开发模式对比三、选型指南：如何选择MCU或SoC？1.选择MCU的场景2.选择SoC的场景四、技术演进：MCU与SoC的融合趋势1.MCU的进化方向2.SoC的突破方向五、开发者避坑指南结语标签：MCUvsSOC、嵌入式系统、芯片选型、
DeepSeek R1 本地部署实战教程来了，带可视化界面，非常详细！ java
大家好，我是R哥。虽然DeepSeek官方提供了可视化聊天界面，但稳定性实在太差了，动不动就服务繁忙，根本没办法正常使用。另外，对于一些对数据隐私、实时性能要求较高的场景，本地部署也是不可避免的选择。那么，如何本地部署DeepSeekR1的模型？本篇，开干！相关阅读：DeepSeek-R1本地部署配置清单DeepSeek-R11.5b、7b、8b、14b、32b、70b、671b都是什么鬼？如何部
在线代码编辑器与编辑器插件介绍 AI天才研究院 AI大模型企业级应用开发实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术1.简介对于开发人员来说，编编辑器(或称之为IDE)是一个综合性工具，它融合了程序编写、调试、版本控制、性能分析、项目管理等多项功能在内的全套工具集。市场上已经有很多种流行的编辑器供开发者选择。比如：SublimeText、VSCode、Atom、Eclipse、Notepad++等等。虽然每个编辑器都各具特色，但是无论从功能还是性能上都有着它们独有的优势。这些优点主要
HTML5拼图游戏开发经验分享木木黄木木 html5 前端 html
HTML5拼图游戏开发经验分享这里写目录标题HTML5拼图游戏开发经验分享前言项目架构1.文件结构2.核心功能模块技术要点解析1.响应式布局2.图片处理3.拖拽交互4.动画效果性能优化开发心得项目亮点总结源码分享写在最后前言在Web前端开发领域，通过实战项目来提升编程技能是最有效的学习方式之一。今天我要分享一个HTML5拼图游戏的开发经验，这个项目涵盖了现代前端开发的多个重要概念，包括响应式设计、
高安全可靠CAN FD芯片ASM1042的技术特性与应用前景国科安芯产品单片机嵌入式硬件架构 fpga开发
1.ASM1042简介ASM1042是国科安芯推出的一款高性能CANFD（CANwithFlexibleData-Rate）收发器芯片，专为高可靠性场景设计。该芯片基于ISO11898-2:2016和ISO11898-5:2007物理层标准开发，支持最高5Mbps的数据传输速率，适用于汽车、航天、军工及工业控制等领域。其核心特性包括：高耐压设计：总线保护电压最高达±70V（H型号），共模输入电压范
30个节点的Doris集群，每个节点有2块7TB的SSD盘，12块8TB的机械盘，分区和分桶的最佳实践 fzip Doris Doris分区分桶
针对30个节点（每个节点配备2块7TBNVMe盘+12块8TBSATA盘）的Doris集群，以下是分区与分桶的最佳实践方案：一、硬件资源规划与存储优化存储介质分层•NVMe盘：用于存储热数据分区（如最近3天数据）、元数据和高频查询表，利用其高IOPS特性提升实时查询性能。•SATA盘：存储冷数据分区（如历史数据）、大宽表和批量导入的中间数据，通过成本优势支撑海量存储。磁盘负载均衡•每个节点的14块
micropython入门指南电子版_MicroPython入门指南 EchiTie
Python是一种脚本语言，是一款非常容易使用的脚本语言，语法简介、使用简单、功能强大、容易扩展。有非常多的库可以使用。网络功能和计算功能也很强。方便的和其他语言配合使用。完全开源，受到原来越多的开发者青睐。不过由于受到硬件成本、运行性能、开发习惯等原因。没有在通用嵌入式方面得到太多应用。所以microPython应运而生。MicroPython可以在多种嵌入式硬件平台上运行,目前已经有STM32
Go语言入门基础详解老胖闲聊 go golang 开发语言后端
一、语言历史背景Go语言由Google工程师RobertGriesemer、RobPike和KenThompson于2007年设计，2009年正式开源。设计目标：兼具Python的开发效率与C的执行性能内置并发支持（goroutine/channel）简洁的类型系统现代化的包管理跨平台编译能力//经典HelloWorld示例packagemain//声明包名import"fmt"//导入标准库fu
FastAPI 使用教程：将函数改造成可调用的 API（附完整示例） Lunar* 开发与工具使用 fastapi
引言FastAPI是一个现代化、快速（高性能）、基于标准Python类型提示构建的Web框架，非常适合开发RESTfulAPI。如果你有现成的Python函数，并希望通过HTTP请求调用它，FastAPI可以帮助你快速实现。在本文中，我们将介绍如何使用FastAPI将已有函数改造成API，并通过GET和POST请求调用它。同时，我们还会展示如何在服务运行时，自定义主机地址、端口号以及启用SSL证书
前端小食堂 | Day16 - 前端监控の天眼通喵爪排序前端
️今日天眼：错误追踪与性能透视1.错误监控の捕虫网//全局错误捕获window.addEventListener('error',(e)=>{sendToServer({type:'JS_ERROR',message:e.message,stack:e.error?.stack,filename:e.filename,lineno:e.lineno});});//️Promise未捕获异常wind
Node.js Web 模块详解 froginwe11 开发语言
Node.jsWeb模块详解引言Node.js作为一款流行的JavaScript运行环境，以其高性能、事件驱动和非阻塞I/O模型而闻名。在Node.js中，模块是构建应用程序的基础，也是其强大的关键所在。本文将详细介绍Node.js的Web模块，包括其基本概念、常用模块及其应用。模块的概念在Node.js中，模块是一种组织代码的方式，它将代码分割成独立的、可复用的部分。模块不仅可以减少代码的冗余，
React Native 性能调试指南一个前端人 react-native react native react.js javascript
写在前面在开发ReactNative应用时，性能优化是一个至关重要的环节。良好的性能不仅可以提升用户体验，还能减少应用的资源消耗，提高应用的稳定性。本文将详细介绍如何对ReactNative应用进行性能调试和优化，包括性能综述、编译速度优化、列表配置优化、JavaScript加载优化以及Profiling。一、性能综述在开始性能调试之前，了解一些基本概念和工具是非常重要的。以下是一些关键点：FPS
工程化与框架系列（30）--前端日志系统实现一进制ᅟᅠ ‌‍‎‏ 前端工程化与框架前端状态模式
前端日志系统实现引言前端日志系统是应用监控和问题诊断的重要工具。本文将深入探讨前端日志系统的设计与实现，包括日志收集、处理、存储和分析等方面，帮助开发者构建完整的前端日志解决方案。日志系统概述前端日志系统主要包括以下方面：日志收集：用户行为、性能指标、错误信息等日志处理：过滤、格式化、压缩等日志存储：本地存储、远程上传等日志分析：统计分析、可视化展示等实时监控：告警、通知等日志系统实现日志管理器/
Visual Studio 2022和C++实现带多组标签的Snowflake SQL查询批量数据导出程序 weixin_30777913 c++云计算开发语言 sql 数据仓库
设计一个基于多个带标签SnowflakeSQL语句作为json配置文件的VisualStudio2022的C++代码程序，实现根据不同的输入参数自动批量地将Snowflake数据库的数据导出为CSV文件到本地目录上，标签加扩展名.csv为导出数据文件名，文件已经存在则覆盖原始文件。需要考虑SQL结果集是大数据量分批数据导出的情况，通过多线程和异步操作来提高程序性能，程序需要异常处理和输出，输出出错
Python Pandas带多组参数和标签的Snowflake数据库批量数据导出程序 weixin_30777913 pandas python 云计算数据仓库
设计一个基于多个带标签的SnowflakeSQL模板作为配置文件和多组参数的PythonPandas代码程序，实现根据不同的输入参数自动批量地将Snowflake数据库中的数据导出为CSV文件到指定目录上，然后逐个文件压缩为zip文件，标签和多个参数（以“_”分割）为组成导出数据文件名，文件已经存在则覆盖原始文件。需要考虑SQL结果集是大数据量分批数据导出的情况，通过多线程和异步操作来提高程序性能
C#带多组标签的Snowflake SQL查询批量数据导出程序 weixin_30777913 c#数据仓库云计算 sql
设计一个基于多个带标签SnowflakeSQL语句作为json配置文件的C#代码程序，实现根据不同的输入参数自动批量地将Snowflake数据库的数据导出为CSV文件到本地目录上，标签加扩展名.csv为导出数据文件名，文件已经存在则覆盖原始文件。需要考虑SQL结果集是大数据量分批数据导出的情况，通过多线程和异步操作来提高程序性能，程序需要异常处理和输出，输出出错时的错误信息，每次每个查询导出数据的
卷积神经网络可视化天行者@ cnn 人工智能神经网络
卷积神经网络（CNN）的可视化是理解模型行为、调试性能和解释预测结果的重要工具。以下从技术原理、实现方法和应用场景三个维度，系统梳理CNN可视化的核心技术，并提供代码示例和前沿方向分析：一、CNN可视化的核心维度1.卷积核可视化原理：提取卷积层的权重，将其转换为图像形式，观察滤波器学习到的模式。实现步骤：提取卷积层权重（形状为[out_channels,in_channels,kernel_siz
如何进行OceanBase 运维工具的部署和表性能优化! 运维
随着OceanBase数据库应用的日益深入，数据量不断攀升，单个表中存储数百万乃至数千万条数据的情况变得愈发普遍。因此，部署专门的运维工具、实施针对性的表性能优化策略，以及加强指标监测工作，都变得更为重要。以下为基于我们的使用场景，所采取的一些部署和优化措施分享。一、OCP部署升级1．OCP升级（1）4.2.1BP1升级到4.2.2，本来以为毫无波澜但是下载完毕一键包并完成前期准备工作启动后发现无
MySql的MVCC实现原理 zyrr mysql mysql mvcc java
MySql的MVCC实现原理前言MVCC解决什么问题MVCC的实现3个隐式字段UndoLogReadView读视图大致流程读已提交和可重复隔离级别下的快照读前言什么是MVCC？MVCC(Multi-VersionConcurrencyControl)即多版本并发控制，是乐观锁的一种实现方式，在MySql数据库中主要是为了提高数据库的并发性能，做到读写冲突不加锁，这里的读指的是快照读。快照读与当前读
场景题：100G的文件里有很多id，用1G内存的机器排序，怎么做？
海量数据排序思路核心方案：外排序（分治+多路归并）MapReduce外排序是指数据量太大，无法全部加载到内存中，需要将数据分成多个小块进行排序，然后将排序后的小块合并成一个大的有序块1.分块排序（Map阶段）分块策略按1G内存容量限制，将100G文件拆分为200个500MB分块（保留内存用于排序计算和系统开销）内存排序每个分块加载至内存后：①使用快速排序（时间复杂度O(nlogn)）②去重优化：若
DeepSeek大模型部署指南点我头像干啥 Ai 人工智能 python 分类数据挖掘深度学习
在当今人工智能快速发展的时代，大模型的应用越来越广泛。DeepSeek作为一款高性能的大模型，支持长文本、多模态、代码生成等复杂任务，已经在多个领域展现出强大的能力。本文将详细介绍DeepSeek大模型的部署流程，帮助读者在自己的环境中高效地使用这一先进工具。一、DeepSeek大模型简介DeepSeek是一款专注于大模型与AGI（人工智能通用智能）研究的高性能基座模型。它支持长文本处理、多模态理
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {