机器熊技术大杂烩

MapReduce灵魂——看不见的Shuffle

1.Shuffle概述

1.1 shuffle本意

《柯林斯英汉双解大词典》的shuffle愿意为“洗牌”。

shuffle：rearrange (a deck of cards) by sliding the cards over each other quickly.
shuffle：洗牌
同义词：mix（混合）；mixup（混淆；拌和；调和）
——《柯林斯英汉双解大词典》

1.2 MapReduce中的shuffle

shuffle的本意是洗牌、混洗的意思，指把一组有规则的数据尽量打乱成无规则的数据。而在MapReduce中，shuffle更应该被理解成“规整”（跟愿意正好相反），即把一组无规则的数据整理成有规则的数据。对应到MapReduce的处理中，shuffle是将map端的无规则输出按指定的规则“整理”成具有一定规则的数据，以便reduce端接收处理。
官方的Shuffle过程如图1所示，不过细节有错乱，官方图并没有说明partition、sort、fetch、merge等具体作用于哪个阶段。从图中可以看出，Shuffle处于map输出后和reduce接收前。

map（映射）阶段将原始数据转化为键值对，MapReduce会对要处理的数据进行分片（split）操作，为每一个分片分配一个MapTask任务，在Mapper中map()函数会对每一个分片中的每一行数据进行处理得到键值对（key,value），此时得到的键值对又叫做“中间结果”。此后便进入shuffle阶段，shuffle对map阶段输出的“中间结果”键值对进行拷贝、归并、排序等操作，整合后发送至Reducer端等待处理。shuffle结束后才进入reduce（规约）阶段，将具有相同key值的value进行合并处理后再转换成新的键值对作为最终输出结果。

1.3为什么一定要shuffle？

原因1：MapReduce的设计原则

MapReduce makes the guarantee that the input to every reducer is sorted by key.

在MR的设计原则之一就是“每个Reducer的输入都是按Key（键值对中的键）排序的”。

原因2：数据分发
Hadoop的集群环境，大部分的map task和reduce task是执行在不同的节点上的，reduce计算时需要先获取到map的输出结果，因此要有模块专门负责从reduce端拉取数据到reduce端。为了尽可能提升执行效率，Shuffle在设计上要做到：
（1）完整地从map task端拉取数据到reduce task端；
（2）在拉取数据的过程中，尽可能地减少网络资源的消耗；
（3）尽可能地减少磁盘IO对task执行效率的影响。

1.4Shuffle的意义

1.shuffle是隐藏的过程，是MR框架自动完成的，屏蔽了复杂的操作，让我们专注于业务逻辑的编写。了解shuffle的过程可以帮助我们更高效地实现Mapper和Reducer。

In many ways, the shuffle is the heart of MapReduce and is where the magic happens.
http://timepasstechies.com/mapreduce-shuffle-sort-phase/

2.正如这篇文章提到的一样，shuffle是MapReduce的灵魂和奇迹发生的地方。深入了解shuffle原理，也就掌握了MapReduce的灵魂。

2.Shuffle流程概况

因为频繁的磁盘I/O操作会严重的降低效率，因此“中间结果”不会立马写入磁盘，而是优先存储到map节点的“环形内存缓冲区”，在写入的过程中进行分区（partition），也就是对于每个键值对来说，都增加了一个partition属性值，然后连同键值对一起序列化成字节数组写入到缓冲区（缓冲区采用的就是字节数组，默认大小为100M）。当写入的数据量达到预先设置的阙值后（mapreduce.map.io.sort.spill.percent,默认0.80，或者80%）便会启动溢写出线程将缓冲区中的那部分数据溢写（spill）到磁盘的临时文件中，并在写入前根据key进行排序（sort）和合并（combine，可选操作）。溢出写过程按轮询方式将缓冲区中的内容写到mapreduce.cluster.local.dir属性指定的目录中。当整个map任务完成溢出写后，会对磁盘中这个map任务产生的所有临时文件（spill文件）进行归并（merge）操作生成最终的正式输出文件，此时的归并是将所有spill文件中的相同partition合并到一起，并对各个partition中的数据再进行一次排序（sort），生成key和对应的value-list，文件归并时，如果溢写文件数量超过参数min.num.spills.for.combine的值（默认为3）时，可以再次进行合并。至此，map端shuffle过程结束，接下来等待reduce task来拉取数据。对于reduce端的shuffle过程来说，reduce task在执行之前的工作就是不断地拉取当前job里每个map task的最终结果，然后对从不同地方拉取过来的数据不断地做merge最后合并成一个分区相同的大文件，然后对这个文件中的键值对按照key进行sort排序，排好序之后紧接着进行分组，分组完成后才将整个文件交给reduce task处理。

3.Map端Shuffle过程

在Map端的shuffle过程是对Map的结果进行分区、排序、分割，然后将属于同一划分（分区）的输出合并在一起并写在磁盘上，最终得到一个分区有序的文件，分区有序的含义是map输出的键值对按分区进行排列，具有相同partition值的键值对存储在一起，每个分区里面的键值对又按key值进行升序排列（默认），其流程大致如下：

3.1Partition（分区）

对于map输出的每一个键值对，系统都会给定一个partition，partition值默认是通过计算key的hash值后对Reduce task的数量取模获得。如果一个键值对的partition值为1，意味着这个键值对会交给第一个Reducer处理。

我们知道每一个Reduce的输出都是有序的，但是将所有Reduce的输出合并到一起却并非是全局有序的，如果要做到全局有序，我们该怎么做呢？最简单的方式，只设置一个Reduce task，但是这样完全发挥不出集群的优势，而且能应对的数据量也很受限。最佳的方式是自己定义一个Partitioner，用输入数据的最大值除以系统Reduce task数量的商作为分割边界，也就是说分割数据的边界为此商的1倍、2倍至numPartitions-1倍，这样就能保证执行partition后的数据是整体有序的。

另一种需要我们自己定义一个Partitioner的情况是各个Reduce task处理的键值对数量极不平衡。对于某些数据集，由于很多不同的key的hash值都一样，导致这些键值对都被分给同一个Reducer处理，而其他的Reducer处理的键值对很少，从而拖延整个任务的进度。当然，编写自己的Partitioner必须要保证具有相同key值的键值对分发到同一个Reducer。

3.2Collector

Map的输出结果是由collector处理的，每个Map任务不断地将键值对输出到在内存中构造的一个环形数据结构中。使用环形数据结构是为了更有效地使用内存空间，在内存中放置尽可能多的数据。

这个数据结构其实就是个字节数组，叫Kvbuffer，名如其义，但是这里面不光放置了数据，还放置了一些索引数据，给放置索引数据的区域起了一个Kvmeta的别名，在Kvbuffer的一块区域上穿了一个IntBuffer（字节序采用的是平台自身的字节序）的马甲。数据区域和索引数据区域在Kvbuffer中是相邻不重叠的两个区域，用一个分界点来划分两者，分界点不是亘古不变的，而是每次Spill之后都会更新一次。初始的分界点是0，数据的存储方向是向上增长，索引数据的存储方向是向下增长，如图所示：

Kvbuffer的存放指针bufindex是一直闷着头地向上增长，比如bufindex初始值为0，一个Int型的key写完之后，bufindex增长为4，一个Int型的value写完之后，bufindex增长为8。

索引是对在kvbuffer中的键值对的索引，是个四元组，包括：value的起始位置、key的起始位置、partition值、value的长度，占用四个Int长度，Kvmeta的存放指针Kvindex每次都是向下跳四个“格子”，然后再向上一个格子一个格子地填充四元组的数据。比如Kvindex初始位置是-4，当第一个键值对写完之后，(Kvindex+0)的位置存放value的起始位置、(Kvindex+1)的位置存放key的起始位置、(Kvindex+2)的位置存放partition的值、(Kvindex+3)的位置存放value的长度，然后Kvindex跳到-8位置，等第二个键值对和索引写完之后，Kvindex跳到-12位置。

Kvbuffer的大小可以通过io.sort.mb设置，默认大小为100M。但不管怎么设置，Kvbuffer的容量都是有限的，键值对和索引不断地增加，加着加着，Kvbuffer总有不够用的那天，那怎么办？把数据从内存刷到磁盘上再接着往内存写数据，把Kvbuffer中的数据刷到磁盘上的过程就叫Spill，多么明了的叫法，内存中的数据满了就自动地spill到具有更大空间的磁盘。

关于Spill触发的条件，也就是Kvbuffer用到什么程度开始Spill，还是要讲究一下的。如果把Kvbuffer用得死死得，一点缝都不剩的时候再开始Spill，那Map任务就需要等Spill完成腾出空间之后才能继续写数据；如果Kvbuffer只是满到一定程度，比如80%的时候就开始Spill，那在Spill的同时，Map任务还能继续写数据，如果Spill够快，Map可能都不需要为空闲空间而发愁。两利相衡取其大，一般选择后者。Spill的门限可以通过io.sort.spill.percent，默认是0.8。

Spill这个重要的过程是由Spill线程承担，Spill线程从Map任务接到“命令”之后就开始正式干活，干的活叫SortAndSpill。

3.3Sort

当Spill触发后，SortAndSpill先把Kvbuffer中的数据按照partition值和key两个关键字升序排序，移动的只是索引数据，排序结果是Kvmeta中数据按照partition为单位聚集在一起，同一partition内的按照key有序。

3.4Spill(溢写)

Spill线程为这次Spill过程创建一个磁盘文件：从所有的本地目录中轮训查找能存储这么大空间的目录，找到之后在其中创建一个类似于“spill12.out”的文件。Spill线程根据排过序的Kvmeta挨个partition的把数据吐到这个文件中，一个partition对应的数据吐完之后顺序地吐下个partition，直到把所有的partition遍历完。一个partition在文件中对应的数据也叫段(segment)。在这个过程中如果用户配置了combiner类，那么在写之前会先调用combineAndSpill()，对结果进行进一步合并后再写出。Combiner会优化MapReduce的中间结果，所以它在整个模型中会多次使用。那哪些场景才能使用Combiner呢？Combiner的输出是Reducer的输入，Combiner绝不能改变最终的计算结果。Combiner只应该用于那种Reduce的输入key/value与输出key/value类型完全一致，且不影响最终结果的场景。比如累加，最大值等。Combiner的使用一定得慎重，如果用好，它对job执行效率有帮助，反之会影响reduce的最终结果。

所有的partition对应的数据都放在这个文件里，虽然是顺序存放的，但是怎么直接知道某个partition在这个文件中存放的起始位置呢？强大的索引又出场了。有一个三元组记录某个partition对应的数据在这个文件中的索引：起始位置、原始数据长度、压缩之后的数据长度，一个partition对应一个三元组。然后把这些索引信息存放在内存中，如果内存中放不下了，后续的索引信息就需要写到磁盘文件中了：从所有的本地目录中轮训查找能存储这么大空间的目录，找到之后在其中创建一个类似于“spill12.out.index”的文件，文件中不光存储了索引数据，还存储了crc32的校验数据。spill12.out.index不一定在磁盘上创建，如果内存（默认1M空间）中能放得下就放在内存中，即使在磁盘上创建了，和spill12.out文件也不一定在同一个目录下。每一次Spill过程就会最少生成一个out文件，有时还会生成index文件，Spill的次数也烙印在文件名中。索引文件和数据文件的对应关系如下图所示：

在Spill线程如火如荼的进行SortAndSpill工作的同时，Map任务不会因此而停歇，而是一无既往地进行着数据输出。Map还是把数据写到kvbuffer中，那问题就来了：只顾着闷头按照bufindex指针向上增长，kvmeta只顾着按照Kvindex向下增长，是保持指针起始位置不变继续跑呢，还是另谋它路？如果保持指针起始位置不变，很快bufindex和Kvindex就碰头了，碰头之后再重新开始或者移动内存都比较麻烦，不可取。Map取kvbuffer中剩余空间的中间位置，用这个位置设置为新的分界点，bufindex指针移动到这个分界点，Kvindex移动到这个分界点的-16位置，然后两者就可以和谐地按照自己既定的轨迹放置数据了，当Spill完成，空间腾出之后，不需要做任何改动继续前进。分界点的转换如下图所示：

Map任务总要把输出的数据写到磁盘上，即使输出数据量很小在内存中全部能装得下，在最后也会把数据刷到磁盘上。

3.5Merge（合并）

Map任务如果输出数据量很大，可能会进行好几次Spill，out文件和Index文件会产生很多，分布在不同的磁盘上。最后把这些文件进行合并的merge过程闪亮登场。

Merge过程怎么知道产生的Spill文件都在哪了呢？从所有的本地目录上扫描得到产生的Spill文件，然后把路径存储在一个数组里。Merge过程又怎么知道Spill的索引信息呢？没错，也是从所有的本地目录上扫描得到Index文件，然后把索引信息存储在一个列表里。到这里，又遇到了一个值得纳闷的地方。在之前Spill过程中的时候为什么不直接把这些信息存储在内存中呢，何必又多了这步扫描的操作？特别是Spill的索引数据，之前当内存超限之后就把数据写到磁盘，现在又要从磁盘把这些数据读出来，还是需要装到更多的内存中。之所以多此一举，是因为这时kvbuffer这个内存大户已经不再使用可以回收，有内存空间来装这些数据了。（对于内存空间较大的土豪来说，用内存来省却这两个io步骤还是值得考虑的。）

然后为merge过程创建一个叫file.out的文件和一个叫file.out.Index的文件用来存储最终的输出和索引，一个partition一个partition的进行合并输出。对于某个partition来说，从索引列表中查询这个partition对应的所有索引信息，每个对应一个段插入到段列表中。也就是这个partition对应一个段列表，记录所有的Spill文件中对应的这个partition那段数据的文件名、起始位置、长度等等。

然后对这个partition对应的所有的segment进行合并，目标是合并成一个segment。当这个partition对应很多个segment时，会分批地进行合并：先从segment列表中把第一批取出来，以key为关键字放置成最小堆，然后从最小堆中每次取出最小的输出到一个临时文件中，这样就把这一批段合并成一个临时的段，把它加回到segment列表中；再从segment列表中把第二批取出来合并输出到一个临时segment，把其加入到列表中；这样往复执行，直到剩下的段是一批，输出到最终的文件中。最终的索引数据仍然输出到Index文件中。

4.Reduce端Shuffle过程

在Reduce端，shuffle主要分为复制Map输出、排序合并两个阶段。整体流程如图所示：

4.1Copy

Reduce任务通过HTTP向各个Map任务拖取它所需要的数据。Map任务成功完成后，会通知父TaskTracker状态已经更新，TaskTracker进而通知JobTracker（这些通知在心跳机制中进行）。所以，对于指定作业来说，JobTracker能记录Map输出和TaskTracker的映射关系。Reduce会定期向JobTracker获取Map的输出位置，一旦拿到输出位置，Reduce任务就会从此输出对应的TaskTracker上复制输出到本地，而不会等到所有的Map任务结束。

4.2Merge Sort

Copy过来的数据会先放入内存缓冲区中，如果内存缓冲区中能放得下这次数据的话就直接把数据写到内存中，即内存到内存merge。Reduce要向每个Map去拖取数据，在内存中每个Map对应一块数据，当内存缓存区中存储的Map数据占用空间达到一定程度的时候，开始启动内存中merge，把内存中的数据merge输出到磁盘上一个文件中，即内存到磁盘merge。在将buffer中多个map输出合并写入磁盘之前，如果设置了Combiner，则会化简压缩合并的map输出。Reduce的内存缓冲区可通过mapred.job.shuffle.input.buffer.percent配置，默认是JVM的heap size的70%。内存到磁盘merge的启动门限可以通过mapred.job.shuffle.merge.percent配置，默认是66%。

当属于该reducer的map输出全部拷贝完成，则会在reducer上生成多个文件（如果拖取的所有map数据总量都没有内存缓冲区，则数据就只存在于内存中），这时开始执行合并操作，即磁盘到磁盘merge，Map的输出数据已经是有序的，Merge进行一次合并排序，所谓Reduce端的sort过程就是这个合并的过程。一般Reduce是一边copy一边sort，即copy和sort两个阶段是重叠而不是完全分开的。最终Reduce shuffle过程会输出一个整体有序的数据块。

鸿蒙NEXT版实战开发：使用WebRTC进行Web视频会议那只斑马不睡觉鸿蒙5.0 ArkWeb OpenHarmony harmonyos 华为前端 android ArkWeb
往期鸿蒙全套实战精彩文章必看内容：鸿蒙开发核心知识点，看这篇文章就够了最新版！鸿蒙HarmonyOSNext应用开发实战学习路线鸿蒙HarmonyOSNEXT开发技术最全学习路线指南鸿蒙应用开发实战项目，看这一篇文章就够了（部分项目附源码）使用WebRTC进行Web视频会议Web组件可以通过W3C标准协议接口拉起摄像头和麦克风。开发者在使用该功能时，需配置ohos.permission.CAMER
Django系列教程（15）——上传文件 l软件定制开发工作室 Django教程 django okhttp python
目录Django文件上传需要考虑的重要事项Django文件上传的3种常见方式项目创建与设置创建模型URLConf配置使用一般表单上传文件使用ModelForm上传文件Django文件上传需要考虑的重要事项文件或图片一般通过表单进行。用户在前端点击文件上传，然后以POST方式将数据和文件提交到服务器。服务器在接收到POST请求后需要将其存储在服务器上的某个地方。Django默认的存储地址是相对于根目
Lineageos 22.1(Android 15) 开机向导制作 JabamiLight Lineageos android android 15 开机向导 Lineageos 22.1
一、前言开机向导原理其实就是将特定的category的Activity加入ComponentResolver，如下然后我们开机启动的时候，FallbackHome结束，然后启动Launcher的时候，就会找到对应的开机向导Activity页面。所以我们现定制我们自己的应用。这篇文章只适用于aosp原版的provision，Lineageos有自己的setup_wizard，虽然按照流程可以启动，但
高等数学 1.8 函数的连续性与间断点 MowenPan1995 高等数学笔记笔记学习
文章目录一、函数的连续性增量的概念函数连续的定义左连续与右连续的概念二、函数的间断点三种情形间断点举例一、函数的连续性增量的概念设变量uuu从它的一个初值u1u_1u1变到终值u2u_2u2，终值与初值的差u2−u1u_2-u_1u2−u1就叫做变量uuu的增量，记作Δu\DeltauΔu，即Δu=u2−u1\Deltau=u_2-u_1Δu=u2−u1增量Δu\DeltauΔu可以是正的，也可以
C 语言 --- 三子棋笑口常开xpr c语言开发语言
C语言---三子棋代码全貌与功能介绍游戏效果展示游戏代码详解game.htest.cgame.c总结作者简介：曾与你一样迷茫，现以经验助你入门C语言个人主页：@笑口常开xpr的个人主页系列专栏：C启新程✨代码趣语：编程是告诉另一个人你希望计算机做什么的艺术。代码千行，始于坚持，每日敲码，进阶编程之路。gitee链接：gitee在编程的世界里，每一行代码都可能隐藏着无限的可能性。你是否想过，一个小小
C语言 --- 分支笑口常开xpr C 启新程：从基础迈向代码巅峰 c语言
C语言---分支语句分支语句含义if...else语句单分支if语句语法形式双分支if-else语句语法形式悬空else含义问题描述多分支if-else语句语法形式switch...case语句含义语法形式总结作者简介：曾与你一样迷茫，现以经验助你入门C语言个人主页：@笑口常开xpr的个人主页系列专栏：C启新程✨代码趣语：C语言是一种简洁、高效、强大的语言，它能够让你做任何你想做的事情。代码千行，
【人工智能】大模型的幻觉问题：DeepSeek 的解决策略与实践蒙娜丽宁 Python杂谈人工智能人工智能
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界大语言模型（LLM）的“幻觉”问题，即模型生成与事实不符或脱离上下文的内容，是限制其广泛应用的关键挑战之一。本文深入探讨了幻觉问题的成因，包括训练数据的偏差、推理过程中的过度泛化以及缺乏外部验证机制。以DeepSeek系列模型为研究对象，我们分析了其在解
Yolo系列之Yolo的基本理解是十一月末 YOLO python 开发语言 yolo
YOLO的基本理解目录YOLO的基本理解1YOLO1.1概念1.2算法2单、多阶段对比2.1FLOPs和FPS2.2one-stage单阶段2.3two-stage两阶段1YOLO1.1概念YOLO(YouOnlyLookOnce)是一种基于深度学习的目标检测算法，由JosephRedmon等人于2016年提出。它的核心思想是将目标检测问题转化为一个回归问题，通过一个神经网络直接预测目标的类别和位
win-服务器部署程序自启动设置 johnrui operation and maintenance win 运维
为了简化应用服务器中项目启动的操作，现对在win操作系统下服务启动设置为开机启动的相关操作，在这里做一次记录和分享。参阅了很多文章，知道win设置开机启动项方式很多，这篇文章只是其中的一种，但是经过了实践测试非常有效。设置步骤如下：1）按住Win键，再按R键(Win+R)，启动"运行"窗口;2）WindowsXP/2003/2008/2008R2输入：controluserpasswords2Wi
汇编 - 基础知识雨过濯缨汇编语言汇编
文章目录前言1.组成2.指令和数据3.存储器读写4.地址总线5.数据总线6.控制总线7.计算机组成7.1存储器芯片8.内存地址空间总结前言汇编语言是直接在硬件之上工作的编程语言,首先了解硬件系统的结构,才能有效地应用汇编语言对其编程;值得注意的是,汇编指令是机器指令便于记忆的书写格式.此处的汇编语言版本为8086CPU的MASM宏汇编版本1.组成编译器:将汇编指令转换为机器指令的翻译程序编写编
我要写整个中文互联网界最牛逼的JVM系列教程 | 「JVM与Java体系架构」章节：JVM的生命周期李阿昀只要你有心人人都是JVM精通者 jvm java 架构
这一讲，我们就来好好谈一谈JVM的生命周期。JVM的生命周期大家做了这么久的开发，应该知道很多的结构其实都有其生命周期吧！而关于JVM的生命周期，这里我们则主要讲述它的三个状态，即虚拟机的启动、虚拟机的执行以及虚拟机的退出，这也是一个结构的生命周期最起码应该具备的三个状态——开始、运行、结束。这就像哲学里面讨论的终极问题一样，我是谁？我从哪里来？我将到哪里去？其实，我觉得先提出我是谁这个问题不太合
【软件架构系列：一文读懂数据流体系结构风格】 youngerwang 学习笔记软件系统架构系统架构架构风格数据流体系结构风格
文章目录一文读懂数据流体系结构风格一、数据流体系结构风格是什么？二、数据流体系结构风格的类型（一）批处理风格（二）连续数据流风格三、数据流体系结构风格的特点（一）数据驱动一切（二）模块化与可复用性强（三）易于并行处理四、数据流体系结构风格的优势（一）维护轻松（二）扩展容易（三）性能优化空间大五、数据流体系结构风格的局限性（一）复杂控制逻辑实现困难（二）数据一致性挑战（三）资源消耗问题六、数据流体系
PyTorch基础知识讲解（一）完整训练流程示例苏雨流丰机器学习 pytorch 人工智能 python 机器学习深度学习
文章目录Tutorial1.数据处理2.网络模型定义3.损失函数、模型优化、模型训练、模型评价4.模型保存、模型加载、模型推理Tutorial大多数机器学习工作流程涉及处理数据、创建模型、优化模型参数和保存训练好的模型。本教程向你介绍一个用PyTorch实现的完整的ML工作流程，并提供链接来了解这些概念中的每一个。我们将使用FashionMNIST数据集来训练一个神经网络，预测输入图像是否属于以下
Python连接StarRocks全流程实践: SQL文件调用与Pandas混合优化 ToreanonyTang python sql pandas 数据库开发语言
文章目录一环境准备与连接方法1.安装核心依赖库2.连接字符串配置3.多模式连接验证二SQL文件调用与动态执行1.外部SQL文件结构设计2.Python动态加载执行三Pandas混合使用技巧1.查询结果直接转DataFrame2.批量数据写入优化四深度性能优化策略1.StarRocks服务端优化2.Python客户端优化3.混合计算策略五完整业务场景示例1:用户转化漏斗业务场景实现代码公用表表达式(
机器学习中的贝叶斯网络：如何构建高效的风险预测模型 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术文章目录机器学习中的贝叶斯网络：如何构建高效的风险预测模型1.背景介绍2.基本概念术语说明2.1马尔科夫随机场（MarkovRandomField）2.2条件随机场（ConditionalRandomField，CRF）2.3变量elimination算法2.4贝叶斯网络3.核心算法原理和具体操作步骤以及数学公式讲解3.1原理介绍1.贝叶斯网络基础2.贝叶斯网络构建风险
入门 Canvas：Web 绘图的强大工具 Hopebearer_ 前端 es6 javascript canva可画
文章目录入门Canvas：Web绘图的强大工具一、Canvas简介二、Canvas的基本用法（一）绘制基本图形（二）绘制文本三、Canvas的应用场景（一）数据可视化（二）游戏开发（三）图像编辑四、Canvas的动画效果五、Canvas的优势与局限性（一）优势（二）局限性六、总结入门Canvas：Web绘图的强大工具在Web开发的广阔天地中，为了满足用户对丰富、交互性强的体验的不断追求，前端技术持
基于交替方向乘法（ADMM）的PAPR约束下传输波束成形器设计的方法研究（Matlab代码实现）创新优化代码学习 matlab 前端算法
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录1概述2运行结果3参考文献4Matlab代码、数据、文章下载1概述上一次介绍的是用Python代码编程的，这次用Matlab代码实现。回顾见：基于交替方向乘法（ADMM）的PAPR约束下传输波束成形器设计的方法研究（Python代码实现）摘要本文研究了峰值平均功率比(
探索HTML5 Canvas的无限可能：一个丰富多彩的开源项目黎情卉Desired
探索HTML5Canvas的无限可能：一个丰富多彩的开源项目去发现同类优质开源项目:https://gitcode.com/在这个充满活力的数字时代，JavaScript、HTML和CSS已经成为构建互动式网页体验的核心技术。今天，我们向您推荐一个独特而有趣的开源项目，它将这些技术结合在一起，创造出一系列生动活泼的可视化元素，包括时钟、计时器、地图、国际象棋、温度计等，让您在学习和实践中感受HTM
网络安全-信息收集 One_Blanks 网络安全网络安全
声明学习视频来自B站UP主泷羽sec，如涉及侵权马上删除文章。笔记的只是方便各位师傅学习知识，以下网站只涉及学习内容，其他的都与本人无关，切莫逾越法律红线，否则后果自负。目录X一、Whois信息1.思路2.工具3.社工库二、搜索1.Google、bing、baidu三、Github四、搜索引擎FOFA：[https://fofa.info/](https://fofa.info/)360网络空间测
用 pytorch 从零开始创建大语言模型（零）：汇总墨绿色的摆渡人用 pytorch 从零开始创建大语言模型 pytorch 语言模型人工智能
用pytorch从零开始创建大语言模型（零）：汇总本系列官方代码库：https://github.com/rasbt/LLMs-from-scratch/tree/main官方书籍：BuildaLargeLanguageModel(FromScratch)本系列文章：用pytorch从零开始创建大语言模型（一）：理解大型语言模型用pytorch从零开始创建大语言模型（二）：待更新用pytorch从
『 C++ 』线程与原子操作：高效并发编程的利器锐策 C++多线程 c++开发语言
文章目录为什么使用C++线程一、`C++11`std::thread`类的简单介绍1.1函数名与功能1.2`std::thread`类的简单介绍1.3线程函数参数二、线程同步与锁2.1线程同步与锁2.2死锁演示三、原子操作3.1原子操作与线程安全3.2原子操作的优势3.3CAS操作与自旋锁3.4原子操作与普通操作的汇编对比四、共享资源的线程安全问题4.1`std::shared_ptr`的线程安全
C++ 各种map对比越甲八千【道阻且长C++】c++哈希算法开发语言
文章目录特点比较1.`std::map`2.`std::unordered_map`3.`std::multimap`4.`std::unordered_multimap`5.`hash_map`（SGISTL扩展）C++示例代码代码解释特点比较1.std::map底层实现：基于红黑树（一种自平衡的二叉搜索树）。元素顺序：元素按照键（key）的升序排列。键的唯一性：每个键只能出现一次，插入重复键的
业务概念模型，你必须知道的建模分析工具 SystemEngineeringLab 统一建模语言需求分析
引言回想经历过不同的团队、不同的产品线、大量的产品需求迭代建设，在系统建设（多数是业务系统）中往往偏重于方案域求解，比如，而弱化或忽视对问题域的分析建模。这篇短文章浅谈一下“业务概念模型”，希望对大家有所帮助。什么是业务概念模型对于概念模型我们并不陌生，其本质是模型，是对某个域信息的建模，例如常见的E-R图是对数据模型的建模。多数情况下，作为技术我们更多的接触的是技术域的分析与建模。业务概念模型（
【北上广深杭大厂AI算法面试题】计算机视觉篇...如何解决多尺度问题？努力毕业的小土博^_^ AI算法题库人工智能算法计算机视觉深度学习神经网络
【北上广深杭大厂AI算法面试题】计算机视觉篇…如何解决多尺度问题？【北上广深杭大厂AI算法面试题】计算机视觉篇…如何解决多尺度问题？文章目录【北上广深杭大厂AI算法面试题】计算机视觉篇...如何解决多尺度问题？前言数据级别的多尺度模型架构上的多尺度表示FPN代码示例（PyTorch）说明其他多尺度处理方法总结欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上岸上岸上岸！upupup大多数高校
从零开始学习黑客技术，看这一篇就够了网络安全-旭师兄学习 web安全 python 密码学网络安全
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包黑客，对于很多人来说，是一个神秘的代名词，加之影视作品夸张的艺术表现，使得黑客这个本来只专注于技术的群体，散发出亦正亦邪的神秘色彩。黑客源自英文hacker一词，最初曾指热心于计算机技术、水平高超的电脑高手，尤其是程序设计人员，逐渐区分为白帽、灰帽、黑帽等。其中，白帽黑客被称为道德黑客。他们不会非法入侵用户网络，而是通过一系列测试检查
深度学习与目标检测系列(六) 本文约(4.5万字) | 全面解读复现ResNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch 人工智能 ResNet 残差连接残差网络
文章目录解读Abstract—摘要翻译精读主要内容Introduction—介绍翻译精读背景RelatedWork—相关工作ResidualRepresentations—残差表达翻译精读主要内容ShortcutConnections—短路连接翻译精读主要内容DeepResidualLearning—深度残差学习ResidualLearning—残差学习翻译精读ResNet目的以前方法本文改进本质
深度学习与目标检测系列(三) 本文约(4万字) | 全面解读复现AlexNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch AlexNet 人工智能
文章目录解读Abstract-摘要翻译精读主要内容1.Introduction—前言翻译精读主要内容：本文主要贡献：2.TheDataset-数据集翻译精读主要内容：ImageNet简介：图像处理方法：3.TheArchitecture—网络结构3.1ReLUNonlinearity—非线性激活函数ReLU翻译精读传统方法及不足本文改进方法本文的改进结果3.2TrainingonMultipleG
设计模式-抽象工厂模式（Abstract Factory Pattern）结构|原理|优缺点|场景|示例 TsengOnce 设计模式抽象工厂模式 java
设计模式（分类）设计模式（六大原则）创建型（5种）工厂方法抽象工厂模式单例模式建造者模式原型模式结构型（7种）适配器模式装饰器模式代理模式外观模式桥接模式组合模式享元模式行为型（11种）策略模式模板方法模式观察者模式迭代器模式责任链模式命令模式备忘录模式状态模式访问者模式中介者模式抽象工厂模式（AbstractFactoryPattern）是一种创建型设计模式，它提供了一个创建一系列相关或相互依赖
CSS动画：性能优化指南双囍菜菜前端随记 css 性能优化前端
CSS动画性能优化指南关键词：重排重绘、硬件加速、合成层、性能分析文章目录CSS动画性能优化指南一、浏览器渲染机制：理解性能瓶颈根源1.1像素管道（PixelPipeline）全流程1.2各阶段性能损耗对比二、性能分析实战：ChromeDevTools深度使用2.1性能问题定位四步法2.2关键指标解读三、六大核心优化策略3.1硬件加速的正确打开方式3.2避免布局颠簸（LayoutThrashing
腾讯技术岗位笔试&面试题(一) TechPioneer_lp 互联网大厂技术面试 c++面试数据结构个人开发算法
说在前面本篇文章是腾讯技术面试题目汇总第一篇。后续将持续推出互联网大厂，如阿里，腾讯，百度，美团，头条等技术面试题目，以及答案和分析。欢迎大家点赞关注转发。1.map插入方式有几种？用insert函数插入pair数据，mapStudent.insert(pair(1,“student_one”));用insert函数插入value_type数据mapStudent.insert(map::valu
集合框架天子之骄 java 数据结构集合框架
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
Table Driven（表驱动）方法实例 bijian1013 java enum Table Driven 表驱动
实例一： /** * 驾驶人年龄段 * 保险行业，会对驾驶人的年龄做年龄段的区分判断 * 驾驶人年龄段：01-[18,25);02-[25,30);03-[30-35);04-[35,40);05-[40,45);06-[45,50);07-[50-55);08-[55,+∞) */ public class AgePeriodTest { //if...el
Jquery 总结 cuishikuan java jquery Ajax Web jquery方法
1.$.trim方法用于移除字符串头部和尾部多余的空格。如：$.trim(' Hello ') // Hello2.$.contains方法返回一个布尔值，表示某个DOM元素（第二个参数）是否为另一个DOM元素（第一个参数）的下级元素。如：$.contains(document.documentElement, document.body); 3.$
面向对象概念的提出麦田的设计者 java 面向对象面向过程
面向对象中，一切都是由对象展开的，组织代码，封装数据。在台湾面向对象被翻译为了面向物件编程，这充分说明了，这种编程强调实体。下面就结合编程语言的发展史，聊一聊面向过程和面向对象。 c语言由贝尔实
linux网口绑定被触发 linux
刚在一台IBM Xserver服务器上装了RedHat Linux Enterprise AS 4，为了提高网络的可靠性配置双网卡绑定。一、环境描述我的RedHat Linux Enterprise AS 4安装双口的Intel千兆网卡，通过ifconfig -a命令看到eth0和eth1两张网卡。二、双网卡绑定步骤： 2.1 修改/etc/sysconfig/network
XML基础语法肆无忌惮_ xml
一、什么是XML？ XML全称是Extensible Markup Language，可扩展标记语言。很类似HTML。XML的目的是传输数据而非显示数据。XML的标签没有被预定义，你需要自行定义标签。XML被设计为具有自我描述性。是W3C的推荐标准。二、为什么学习XML？用来解决程序间数据传输的格式问题做配置文件充当小型数据库三、XML与HTM
为网页添加自己喜欢的字体知了ing 字体秒表 css
@font-face { font-family: miaobiao;//定义字体名字 font-style: normal; font-weight: 400; src: url('font/DS-DIGI-e.eot');//字体文件 } 使用： <label style="font-size:18px;font-famil
redis范围查询应用-查找IP所在城市矮蛋蛋 redis
原文地址： http://www.tuicool.com/articles/BrURbqV 需求根据IP找到对应的城市原来的解决方案 oracle表（ip_country）：查询IP对应的城市： 1.把a.b.c.d这样格式的IP转为一个数字，例如为把210.21.224.34转为3524648994 2. select city from ip_
输入两个整数，计算百分比 alleni123 java
public static String getPercent(int x, int total){ double result=(x*1.0)/(total*1.0); System.out.println(result); DecimalFormat df1=new DecimalFormat("0.0000%");
百合——————>怎么学习计算机语言百合不是茶 java 移动开发
对于一个从没有接触过计算机语言的人来说，一上来就学面向对象，就算是心里上面接受的了，灵魂我觉得也应该是跟不上的，学不好是很正常的现象，计算机语言老师讲的再多，你在课堂上面跟着老师听的再多，我觉得你应该还是学不会的，最主要的原因是你根本没有想过该怎么来学习计算机编程语言，记得大一的时候金山网络公司在湖大招聘我们学校一个才来大学几天的被金山网络录取，一个刚到大学的就能够去和
linux下tomcat开机自启动 bijian1013 tomcat
方法一：修改Tomcat/bin/startup.sh 为: export JAVA_HOME=/home/java1.6.0_27 export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:. export PATH=$JAVA_HOME/bin:$PATH export CATALINA_H
spring aop实例 bijian1013 java spring AOP
1.AdviceMethods.java package com.bijian.study.spring.aop.schema; public class AdviceMethods { public void preGreeting() { System.out.println("--how are you!--"); } } 2.beans.x
[Gson八]GsonBuilder序列化和反序列化选项enableComplexMapKeySerialization bit1129 serialization
enableComplexMapKeySerialization配置项的含义 Gson在序列化Map时，默认情况下，是调用Key的toString方法得到它的JSON字符串的Key，对于简单类型和字符串类型，这没有问题，但是对于复杂数据对象，如果对象没有覆写toString方法，那么默认的toString方法将得到这个对象的Hash地址。 GsonBuilder用于
【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题 bit1129 Stream
包括Spark Streaming在内的实时计算数据可靠性指的是三种级别： 1. At most once，数据最多只能接受一次，有可能接收不到 2. At least once, 数据至少接受一次，有可能重复接收 3. Exactly once 数据保证被处理并且只被处理一次，具体的多读几遍http://spark.apache.org/docs/lates
shell脚本批量检测端口是否被占用脚本 ronin47
#!/bin/bash cat ports |while read line do#nc -z -w 10 $line nc -z -w 2 $line 58422>/dev/null2>&1if[ $?-eq 0]then echo $line:ok else echo $line:fail fi done 这里的ports 既可以是文件
java-2.设计包含min函数的栈 bylijinnan java
具体思路参见：http://zhedahht.blog.163.com/blog/static/25411174200712895228171/ import java.util.ArrayList; import java.util.List; public class MinStack { //maybe we can use origin array rathe
Netty源码学习-ChannelHandler bylijinnan java netty
一般来说，“有状态”的ChannelHandler不应该是“共享”的，“无状态”的ChannelHandler则可“共享” 例如ObjectEncoder是“共享”的, 但 ObjectDecoder 不是因为每一次调用decode方法时，可能数据未接收完全（incomplete），它与上一次decode时接收到的数据“累计”起来才有可能是完整的数据，是“有状态”的 p
java生成随机数 cngolon java
方法一： /** * 生成随机数 * @author [email protected] * @return */ public synchronized static String getChargeSequenceNum(String pre){ StringBuffer sequenceNum = new StringBuffer(); Date dateTime = new D
POI读写海量数据 ctrain 海量数据
import java.io.FileOutputStream; import java.io.OutputStream; import org.apache.poi.xssf.streaming.SXSSFRow; import org.apache.poi.xssf.streaming.SXSSFSheet; import org.apache.poi.xssf.streaming
mysql 日期格式化date_format详细使用 daizj mysql date_format 日期格式转换日期格式化
日期转换函数的详细使用说明 DATE_FORMAT(date,format) Formats the date value according to the format string. The following specifiers may be used in the format string. The&n
一个程序员分享8年的开发经验 dcj3sjt126com 程序员
在中国有很多人都认为IT行为是吃青春饭的，如果过了30岁就很难有机会再发展下去!其实现实并不是这样子的，在下从事.NET及JAVA方面的开发的也有8年的时间了，在这里在下想凭借自己的亲身经历，与大家一起探讨一下。明确入行的目的很多人干IT这一行都冲着“收入高”这一点的，因为只要学会一点HTML, DIV+CSS，要做一个页面开发人员并不是一件难事，而且做一个页面开发人员更容
android欢迎界面淡入淡出效果 dcj3sjt126com android
很多Android应用一开始都会有一个欢迎界面，淡入淡出效果也是用得非常多的，下面来实现一下。主要代码如下： package com.myaibang.activity; import android.app.Activity;import android.content.Intent;import android.os.Bundle;import android.os.CountDown
linux 复习笔记之常见压缩命令 eksliang tar解压 linux系统常见压缩命令 linux压缩命令 tar压缩
转载请出自出处:http://eksliang.iteye.com/blog/2109693 linux中常见压缩文件的拓展名 *.gz gzip程序压缩的文件 *.bz2 bzip程序压缩的文件 *.tar tar程序打包的数据，没有经过压缩 *.tar.gz tar程序打包后，并经过gzip程序压缩 *.tar.bz2 tar程序打包后，并经过bzip程序压缩 *.zi
Android 应用程序发送shell命令 gqdy365 android
项目中需要直接在APP中通过发送shell指令来控制lcd灯，其实按理说应该是方案公司在调好lcd灯驱动之后直接通过service送接口上来给APP，APP调用就可以控制了，这是正规流程，但我们项目的方案商用的mtk方案，方案公司又没人会改，只调好了驱动，让应用程序自己实现灯的控制，这不蛋疼嘛！！！！发就发吧！一、关于shell指令：我们知道，shell指令是Linux里面带的
java 无损读取文本文件 hw1287789687 读取文件无损读取读取文本文件 charset
java 如何无损读取文本文件呢？以下是有损的 @Deprecated public static String getFullContent(File file, String charset) { BufferedReader reader = null; if (!file.exists()) { System.out.println("getFull
Firebase 相关文章索引 justjavac firebase
Awesome Firebase 最近谷歌收购Firebase的新闻又将Firebase拉入了人们的视野，于是我做了这个 github 项目。 Firebase 是一个数据同步的云服务，不同于 Dropbox 的「文件」，Firebase 同步的是「数据」，服务对象是网站开发者，帮助他们开发具有「实时」（Real-Time）特性的应用。开发者只需引用一个 API 库文件就可以使用标准 RE
C++学习重点 lx.asymmetric C++笔记
1.c++面向对象的三个特性：封装性，继承性以及多态性。 2.标识符的命名规则：由字母和下划线开头，同时由字母、数字或下划线组成；不能与系统关键字重名。 3.c++语言常量包括整型常量、浮点型常量、布尔常量、字符型常量和字符串性常量。 4.运算符按其功能开以分为六类：算术运算符、位运算符、关系运算符、逻辑运算符、赋值运算符和条件运算符。 &n
java bean和xml相互转换 q821424508 java bean xml xml和bean转换 java bean和xml转换
这几天在做微信公众号做的过程中想找个java bean转xml的工具，找了几个用着不知道是配置不好还是怎么回事，都会有一些问题，然后脑子一热谢了一个javabean和xml的转换的工具里，自己用着还行，虽然有一些约束吧，还是贴出来记录一下顺便你提一下下，这个转换工具支持属性为集合、数组和非基本属性的对象。 packag
C 语言初级位运算 1140566087 位运算 c
第十章位运算 1、位运算对象只能是整形或字符型数据，在VC6.0中int型数据占4个字节 2、位运算符：运算符作用 ~ 按位求反 << 左移 >> 右移 & 按位与 ^ 按位异或 | 按位或他们的优先级从高到低； 3、位运算符的运算功能： a、按位取反： ~01001101 = 101
14点睛Spring4.1-脚本编程 wiselyman spring4
14.1 Scripting脚本编程脚本语言和java这类静态的语言的主要区别是:脚本语言无需编译,源码直接可运行; 如果我们经常需要修改的某些代码,每一次我们至少要进行编译,打包,重新部署的操作,步骤相当麻烦; 如果我们的应用不允许重启,这在现实的情况中也是很常见的; 在spring中使用脚本编程给上述的应用场景提供了解决方案,即动态加载bean; spring支持脚本