junparadox

CUDA编程——Mars：MapReduce on GPU

1 GPU加速机器学习

　　GPU是一种SIMT（单指令多线程）体系结构，即多个线程执行同一个指令，而每个线程操作的数据不同。这种结构令GPU天生具有大规模计算能力。GPU出色的浮点计算性能特别提高了深度学习两大关键活动：分类和卷积的性能，同时又达到所需的精准度。深度学习需要很高的内在并行度、大量的浮点计算能力以及矩阵预算，而GPU可以提供这些能力，并且在相同的精度下，相对传统CPU的方式，拥有更快的处理速度、更少的服务器投入和更低的功耗。NVIDIA介绍，TITAN X在工业标准模型AlexNet 上，花了不到三天的时间、使用 120万个 ImageNet 图像数据集去训练模型，而使用16核心的 CPU 得花上四十多天。更震撼的是使用 NVIDIA推出的DIGITS DevBox [1]来训练 AlexNet 则只要13个小时就能完成。
　　然而，这种庞大的并行能力需要付出代价：必须编写专门的软件才能利用这样的优势，GPU编程相对于CPU编程需要更多程序员的付出。目前GPGPU的程序模型仍不成熟，将数据划分为不同粒度，送到GPU的每个流处理器（SP）运算，这些工作仍需要程序员手工完成。此外，由于GPU不具有分支预测等复杂的流程控制单元，对于高度分支的程序执行效率差。GPU核心是虚拟化的，线程调度由硬件完成，无法动态调度。程序员需要避免写有高度分支的程序。GPU由于没有足够大的cache，读写主存导致latency。程序员需要利用大量线程隐藏latency。另外不同厂商的GPU硬件架构不同，用户可以获得的细节有限。这些都导致在GPU上设计通用的计算框架，仍然具有很大挑战。

2 Mars

　　近来，一些GPGPU 编程框架被提出，如NVIDIA的CUDA和AMD的Brook+,这些框架大大提升了GPU可编程性。Wenbin Fang等认为这些编程语言的接口依赖与特定厂商，并且他们的硬件抽象不适合于开发复杂应用。所以提出了一个易于在GPU上编程的MapReduce框架[2]。Mars框架可以用在分布式环境中，如hadoop。Mars可以应用在多核CPUs，NVIDIA GPUs，AMD GPUs或者联合一个多核CPU和一个GPU的单机上。Mars解决了三个技术挑战：首先MapReduce根据数据分割任务，利用GPU执行大量并行线程时，负载不平衡是一个固有问题，特别是GPU的线程由硬件管理。其次，GPU缺乏有效的全局同步机制，Map或Reduce任务中的线程在输出缓存上常常发生写入冲突。尽管GPU现在已经支持原子操作，原子操作的缺陷却会伤害大量GPU线程的可扩展性[3]。Mars提出一个lock-free调度方法来减少GPU线程同步带来瓶颈。第三，MapReduce应用通常是数据密集，且结果的规模也是依数据而变。这两个特性导致GPU编程有以下需求：1）足够多线程隐藏内存延迟，充分利用设备内存的高带宽。2）预先在设备内存上分配输出缓冲区，利用DMA减少内存存取时间。Mars中，有大量thread在GPU上并行运行，每个thread一次运算一个key/value pair，在Map阶段，框架平均分配key/value pairs到每个thread，Reduce阶段，Mars使用一种简单但高效的倾斜算法重新分配数据到Reduce任务，达到负载均衡。为了避免多线程写入冲突，Mars采用了一种lock-free策略保证并行程序的正确，仅付出很小的同步代价。

2.1 Mars 工作流程

　　Mars的工作流程如下图。

　　以Mars的word count为例，Mars读取文件，将文件切分为ceil（2048）大小的一块，这里的ceil（2048）是指≥2048字符长度的连续字符，即块以非空字符开始，结尾是偏移≥2048字符长度的第一个空字符的前一位。每一块分配给一个GPU thread，256个thread组成一个block，多个block组成一个grid，一次GPU内核函数调用执行一个grid。从调度和运行方式看，GPU上block概念和CPU上的进程很相似，一个进程占用一个CPU核运行，多个进程轮转调度；一个block占用一个GPU SM运行，多个block轮转调度。从这个角度看，GPU的SM很像GPU核。

2.2 MapSplit

　　假设原始数据放在磁盘上，Mars利用CPU程序从磁盘读取数据，将输入转换为key/value pairs保存在主存中，之后传输到GPU设备内存。MapSplit阶段，将输入分配给GPU thread，分配的方式是一种分段式扫描的方式。
　　分段扫描，就是对数据集进行有规律的扫描操作（最大值，最小值，总和等），并附带一个额外的数组，将原来的数组分成不同大小的块。每块分配一个或多个线程进行计算。由于附加的数组可以在运行时进行更新，因此如果分段扫描能保持在一个单独的线程块内执行，就可以减少调用多内核的需要。否则，则需要采用一种更简单的解决办法。分段式扫描能够在多数情况下正常工作，并且线程和线程块的数量能随着并行度增加或缩减灵活改变。

2.3 MapCount

　　MapCount用于计算Map输出的中间结果的大小，以便预先分配GPU内存，计算方式是通过求前缀和（Prefix Sum）获得输出大小和每个线程写入数据的位置。前缀和也叫累积和，一组数序列 x0,x1,x2,... 的前缀和还是一组数序列 y0,y1,y2,... ，计算方法如下：
　　

y 0 = x 0 y 1 = x 0 + x 1 y 2 = x 0 + x 1 + x 2 . . .

例如，自然数的前缀和是三角形数：

input numbers	1	2	3	4	5	6	…
prefix sums	1	3	6	10	15	21	…

2.4 Map&Group

　　通过前缀和，标记每个线程的输出的位置，提前分配GPU内存。最后GPU线程执行用户的Map函数，接着Map以lock-free方式获得每个线程输出结果的大小和写入位置，输出结果。
在Group阶段，按照key排序分组和hash分组都是可行的，Mars采用了排序分组，因为有些应用需要把输出排序，并且hash分组也必须为每个hash bucket进行排序。

2.5 Reduce

　　ReduceCount和MapCount相似，不再赘述。
　　Reduce阶段，把key相同的中间结果分配给一个GPU thread，由于不同key的记录数量不同，这可能造成线程负载不均衡。Mars采用了一种倾斜处理策略减缓负载不均衡问题，可以跨reduce workers分配负载，即使用户定义的Reduce操作之间是关联的。这个策略就是迭代运行两步：1）把数据分为M大小相同的块。2）对每个块执行Reduction，M个thread执行Reduce函数，计算单个块内的一组记录。注意：在每次迭代中，Reduction只在具有相同keys中间结果上执行。
接着Reduce以lock-free方式获得每个线程输出结果的大小和写入位置。最后把所有Reduce workers输出到一个缓存区域。

2.6 Lock-free方案

　　在GPU运算前，Mars已经在设备上以array格式分配好内存。然而，Map和Reduce输出的大小都是未知的，多线程在一个共享的array上写结果常常发生冲突。为了解决这两个问题，Mars提出了Lock-free方案。每个线程运行MapCount都会输出三个计数，如：中间结果的个数，中间结果keys的大小，和中间结果values的大小。根据中间结果key的大小，Mars计算prefix sum[6]，产生写入地址，该地址是一个输出array开始位置加偏移量。前缀和（prefix sum）计算在并行计算中很有用,因为在处理负载平衡问题时,经常需要将若干段数据重新平分,计算前缀和通常是一种有效的将数据平分的方法。
　　通过这些prefix sum，可以知道中间结果的准确大小，这样可以预先在设备上分配内存保存中间结果。由于每个Map有确定的和不重叠的结果缓存区，就可以避免写入冲突。Lock-free非常适合于大量线程并行运行的程序。

3 什么是lock-free?

　　众所周知，锁在解决并行过程中临界资源访问问题的同时可能会引入诸多新的问题，比如死锁(dead lock)，另外锁的申请/释放对性能也有不小的影响，当然最大的问题还在于使用锁的代码模块通常难以进行组合。
Lock-free的目标就是要消除锁对编程带来的不利影响。那么lock-free是什么？一个lock-free的解释是一个“锁无关”的程序能够确保执行它的所有线程中，如果某一个线程被挂起，那么其绝对不会阻止其他线程继续运行（Non-Blocking）[2]。
　　换句话说，各个线程不会互相阻塞，那么你的程序才能成为lock-free的。像我们平常用的互斥锁，当有线程获得锁，其他线程就被阻塞掉了，这里的问题就是如果获得锁的线程挂掉了，而且锁也没有释放，那么整个程序其实就被block在那了，而如果程序是lock-free的那么即使有线程挂掉，也不影响整个程序继续向下进行。所以，如果程序中的某一部分符合下面的条件判定描述，则我们称这部分程序是符合lock-free的。反过来说，如果某一部分程序不符合下面的条件描述，则称这部分程序是不符合 lock-free的。

　　是不是不用锁就是lock-free呢？举个例子：

while (x == 0) {
    x = 1-x;
}

　　在这里如果两个线程同时执行，可能同时进入while循环，然后x两次改变值之后，依然是0，那么两个线程就会一直互相在这里阻塞掉了，所以这里虽然没有锁，依然不是lock-free的。

4 Lock-free的实现方式

　　当我们准备要满足 lock-free 编程中的非阻塞条件时，有一系列的技术和方法可供使用，如原子操作（Atomic Operations）、内存栅栏（Memory Barrier）、避免 ABA 问题（Avoiding ABA Problem）等。那么我们该如何抉择在何时使用哪种技术呢？可以根据下图中的引导来判断。

4.1 RMW

　　Read-modify-write是一类原子操作(such as test-and-set, fetch-and-add, and compare-and-swap)，即同时读取一个内存位置和写入一个新值，不论写入的新值是一个全新的值或是前一个值的函数。所谓原子操作是指不会被线程调度机制打断的操作；这种操作一旦开始，就一直运行到结束，中间不会有任何线程切换。原子操作也大量用于非阻塞同步。

4.2 CAS

　　Compare-and-swap 比较内存中一个位置的内容和给定值，只有两个值相同时，用新的值更新内存中那个位置的内容。CAS由一个原子操作完成。原子性保证新的值是基于最新的信息计算的。如果那个值在这个过程中被其它线程更新过，则会发生写入失败。CAS的返回值表示操作是否成功，如可以返回一个bool值，这种CAS变体称为compare-and-set，也可以返回从内存中读到的值（不是被写入的值）。

function cas(p : pointer to int, old : int, new : int) returns bool {
    if *p ≠ old {
        return false
    }
    *p ← new
    return true
}

4.3 ABA problem

　　下面是 ABA 问题发生的过程：

T1 线程从共享的内存地址读取A；
T1 线程被抢占，线程 T2 开始运行；
T2 线程将共享的内存地址中的值由A修改成B，然后又修改回A；
T1 线程继续执行，读取共享的内存地址中的值仍为A，认为没有改变然后继续执行。
　　如果同步机制通过值相同来判断“没有改变”，如CAS，就可能产生错误。因为在读两次值期间，其它线程可能执行了，甚至其它线程修改了第一个线程的运行假设，第一个线程被欺骗，以为“什么都没发生”，继续以旧的假设运行，这样就会造成错误。

4.4 Memory barrier

　　内存栅栏也叫内存屏障，是一类同步屏障指令，是CPU或编译器在对内存随机访问的操作中的一个同步点，使得此点之前的所有读写操作都执行后才可以开始执行此点之后的操作。
　　大多数现代计算机为了提高性能而采取乱序执行，这使得内存屏障成为必须。语义上，内存屏障之前的所有写操作都要写入内存；内存屏障之后的读操作都可以获得同步屏障之前的写操作的结果。因此，对于敏感的程序块，写操作之后、读操作之前可以插入内存屏障。

5 是lock-free 还是 wait-free？

　　在lock-free程序中，任何特定的线程可能会被其他线程阻塞，当给定线程被挂起时，其绝对不会阻止其他线程继续运行。CPUs可以继续执行其它线程中。那么lock-free算法提高系统的整体吞吐量，并且仅仅只增加特定事务的延时。
　　Wait-free算法确保CPUs持续做有用的工作，明确保证没有线程会被另一个线程阻塞[5]。相对于lock-free，wait-free算法更强力地保证高吞吐量， Linux内核的lockless page cache就是一个 wait-free例子。
　　我们回过头来看Mars中的设计，Mars中多线程读写的是共享内存吗？虽然名字上是共享内存，整个内存对于任一线程都是可存取的，但是每个线程只会读写属于自己的局部内存区，任何一个线程都不会被其他线程阻塞。是不是更应该是一个wait-free算法？

[1] https://developer.nvidia.com/digits

[2] http://preshing.com/20120612/an-introduction-to-lock-free-programming/

[3] Wenbin Fang, Bingsheng He, Qiong Luo, Naga K. Govindaraju: Mars: Accelerating MapReduce with Graphics Processors. IEEE Trans. Parallel Distrib. Syst. 22(4): 608-620 (2011)

[4] CUDA—Tutorial 5—Performance of Atomics. http://supercomputingblog.com/cuda/cuda-tutorial-5-performance-of-atomics

[5] Alistarh, Dan, Keren Censor-Hillel, and Nir Shavit. “Are lock-free concurrent algorithms practically wait-free?.” Proceedings of the 46th Annual ACM Symposium on Theory of Computing. ACM, 2014.

[6] https://en.wikipedia.org/wiki/Prefix_sum

[7] https://en.wikipedia.org/wiki/Memory_barrier

[8] https://en.wikipedia.org/wiki/Prefix_sum

【安装Stable Diffusion以及遇到问题和总结】岁月玲珑 AI stable diffusion AI编程 AI作画
在本地安装部署StableDiffusion，需要准备好硬件环境，安装相关依赖，然后配置模型。下面为你详细介绍安装部署的步骤：一、硬件要求显卡：需要NVIDIAGPU，显存至少6GB，推荐8GB及以上。系统：Windows10/11、Linux（Ubuntu等）或macOS（需要Rosetta2）。内存：至少16GBRAM。存储空间：准备10GB以上的可用空间。二、软件准备首先要安装Python和
【PyTorch】保存和加载模型 Jackilina_Stone #Deep Learning pytorch python 人工智能深度学习模型
目录■state_dict■用于推理的保存和加载模型保存/加载state_dict保存/加载整个模型以TorchScript格式导出/加载模型■保存和加载用于推断和/或恢复训练的一般检查点(Checkpoint)■将多个模型保存在一个文件中■使用来自不同模型的参数进行暖启动(Warmstarting)模型■跨设备保存和加载模型保存在GPU,加载到CPU保存在GPU,加载到GPU保存在CPU,加载到
docker: Error response from daemon: could not select device driver ““ with capabilities: [[gpu]].
这个错误表明Docker无法识别或加载支持GPU所需的设备驱动程序。以下是完整的解决方案和根本原因分析，结合最新技术和实践整理：根本原因分析缺少NVIDIAContainerToolkit现代Docker依赖NVIDIAContainerToolkit（前身为nvidia-docker2）实现GPU透传，未安装时无法调用GPU驱动。Docker配置未启用NVIDIA运行时需在daemon.json
centos 7 安装NVIDIA Container Toolkit 几道之旅 centos linux 运维
要在CentOS7上离线安装NVIDIAContainerToolkit，需确保已安装NVIDIA驱动和Docker环境。以下是完整步骤及注意事项：⚙️一、环境准备验证NVIDIA驱动运行nvidia-smi确认驱动已正确安装，若未安装需先离线安装驱动：下载对应GPU型号的驱动包（如NVIDIA-Linux-x86_64-xxx.run）。禁用系统自带nouveau驱动（修改/etc/modpro
暴雨携AMD ，实现大规模 AI 和 Agentic 工作负载性能突破 BAOYUCompany 服务器
暴雨宣布推出AMDInstinct™MI355XGPU，为客户提供更多选择。与上一代相比，大规模AI训练和推理工作负载的性价比将提高超过两倍。暴雨将推出由新的AMDInstinct处理器以及多达131,072个MI355XGPU提供支持的AI集群，助力客户大规模构建、训练和推理AI。暴雨公司执行副总裁表示：为了支持在云端运行高要求AI工作负载的客户，我们致力于提供广泛的AI基础设施产品。AMDIn
异构计算解决方案（兼容不同硬件架构） ARM2NCWU 硬件架构
异构计算解决方案通过整合不同类型处理器（如CPU、GPU、NPU、FPGA等），实现硬件资源的高效协同与兼容，满足多样化计算需求。其核心技术与实践方案如下：一、硬件架构设计异构处理器组合‌主从协作模式‌：采用通用CPU（如ARMCortex-M3）作为主处理器，搭配专用协处理器（如MSP430微控制器）处理特定任务（如射频通信），通过串口/USB/以太网实现通信。众核架构‌：集成CPU、GPU、N
MI300X vs H100：DeepSeek 部署在哪个 GPU 上性价比最高？卓普云技术科普 AIGC 人工智能 Deepseek H100 MI300x
随着大模型部署和推理变得越来越普及，开发者和企业对GPU的选择也越来越挑剔。特别是像DeepSeek这样的开源模型家族，从轻量级的6.7B，到动辄上百亿甚至数百亿参数的超大模型，背后对算力和显存的要求各不相同。最近，一则重磅消息在AI圈引起了轩然大波：连AI巨头OpenAI也在探索并计划使用AMDInstinctMI300xGPU！这无疑是对AMD这款高性能GPU的巨大认可，也预示着它将在AI算力
【软件系统架构】系列四：嵌入式软件-NPU（神经网络处理器）系统及模板
目录一、什么是NPU？二、NPU与CPU/GPU/DSP对比三、NPU的工作原理核心结构：数据流架构：四、NPU芯片架构（简化图）五、NPU的优势六、NPU应用场景视觉识别语音识别自动驾驶智能监控AIoT设备七、主流NPU芯片/架构实例八、开发者工具生态（通用）九、NPU集成建议（嵌入式开发场景）十、NPU芯片选型对比+模型部署流程+嵌入式工程模板1.主流NPU芯片选型对比表2.模型部署流程（以T
编译OpenCV支持CUDA视频解码 AI标书 python openvc cuda nvidia docker build
如何在Ubuntu上编译OpenCV并启用CUDA视频解码支持（cudacodec）在深度学习、视频处理等高性能计算领域，OpenCV的GPU加速功能非常重要。特别是它的cudacodec模块，能直接利用NVIDIA硬件实现高效的视频解码，极大提升性能。本文将基于Ubuntu环境，详细介绍从环境准备到编译安装OpenCV，并开启cudacodec模块的全过程。完整的shell脚本以及本次编译所用到
Milvus向量数据库：处理和分析大规模向量数据 concisedistinct 人工智能 milvus 数据库向量人工智能机器学习高可用容灾
目录一Milvus概述性能可扩展性易用性二Milvus的核心技术1向量索引HNSWIVFPQ2GPU加速3分布式架构分布式三深入了解Milvus的技术细节1存储机制持久化存储内存存储2数据导入与导出批量导入实时导入3高可用性与容灾机制数据副本自动故障恢复数据备份与恢复四实践中的Milvus1电商平台的图像搜索系统架构性能优化2金融行业的风险控制系统架构成果与展望五结语在当今数据驱动的世界中，处理和
开源新王MiniMax -M1 vLLM本地部署教程：百万级上下文支持成大模型领域新标杆！算家计算模型构建开源人工智能 MiniMax-M1 模型部署教程算家云
一、模型介绍MiniMax-M1是由中国AI公司MiniMax于2025年6月17日推出的全球首个开源大规模混合架构推理模型，凭借其百万级上下文支持、超高效计算性能和突破性成本表现，成为大模型领域的新标杆。MiniMax-M1型号可以在配备8个H800或8个H20GPU的单个服务器上高效运行。在硬件配置方面，配备8个H800GPU的服务器可以处理多达200万个令牌的上下文输入，而配备8个H20GP
MapReduce原理详解：大数据处理的基石与实战应用 AI天才研究院 ChatGPT 实战 ChatGPT AI大模型应用入门实战与进阶 mapreduce 大数据 ai
MapReduce原理详解：大数据处理的基石与实战应用关键词：MapReduce、大数据处理、原理、算法、实战应用摘要：本文深入探讨了MapReduce这一在大数据处理领域具有基石地位的技术。首先介绍了MapReduce的背景，包括其目的、适用读者、文档结构和相关术语。接着详细阐述了核心概念、算法原理、数学模型，通过Python代码进行了算法的详细说明。然后给出了项目实战案例，从开发环境搭建到代码
CUDA与venv的配置老兵发新帖经验分享
根据技术原理和实际配置经验，CUDA工具包本身无法完全安装在Python的venv虚拟环境目录中，但可通过环境变量和依赖管理实现虚拟环境对特定CUDA版本的调用。以下是关键分析及配置方案：⚙️一、CUDA工具包的安装位置与虚拟环境的关系系统级全局安装CUDA工具包（含nvcc编译器、CUDA运行时库等）必须安装在系统全局路径（如Windows的C:\ProgramFiles\NVIDIAGPUCo
Pytorch血泪安装史好吗（GPU版本+cuda12.1+python3.9.13）宇宙最强袋鼠 pytorch python 人工智能
1.安装cuda首先看下自己电脑是CPU还是GPU，看自己电脑对应的cuda版本看右下角英伟达标识，点击组件，我的cuda版本是12.3，但最后发现安12.1比较好2.安装12.1cuda版本对应的cudnn前两步可以看参考:Pytorch的安装，有点繁琐但是很详细，保姆级教程不信你安装不成功（Cuda+Cudnn+Anaconda+Pytorch）_pytorch安装-CSDN博客3.anaco
华为仓颉鸿蒙HarmonyOS NEXT ArkTS应用使用仓颉混合开发实例暗雨，华为 harmonyos harmonyos5
在鸿蒙HarmonyOSNEXT中，ArkTS与仓颉语言的混合开发可通过ArkUI的XComponent组件实现。仓颉负责高性能逻辑（如并发计算、底层算法），ArkTS负责声明式UI构建，两者通过NativeAPI（NAPI）交互。以下为完整实现步骤与实例：一、混合开发原理角色分工ArkTS：构建UI布局、事件响应、基础组件。仓颉：处理CPU/GPU密集型任务（如实时渲染、复杂算法）。通信桥梁XC
基于FPGA的数字图像处理【1.5】 BinaryStarXin FPGA图像处理 fpga开发 FPGA与图像处理 FPGA技术优势硬件工程 dsp开发射频工程驱动开发
第2章FPGA与图像处理随着图像分辨率的大幅度提升和图像处理算法复杂度的提升，传统的串行处理器已经越来越不能满足图像处理的实时性需求。多核结构处理、GPU处理及FPGA很快在实时性图像处理领域得到了迅速的发展。本章将重点介绍基于FPGA的实时性图像处理。FPGA通过为每个功能建立单独的硬件来实现整个应用程序所需要的逻辑功能，这使其很适合图像处理，尤其是采用流水线来处理视频流，可以在同一个时刻进行多
高通 Camera 架构全景图：Sensor–ISP–DPU–GPU 数据流向解析观熵影像技术全景图谱：架构调优与实战架构接口隔离原则影像 Camera
高通Camera架构全景图：Sensor–ISP–DPU–GPU数据流向解析关键词高通Snapdragon、Camera架构、ISP模块、DPU、GPU、数据路径、硬件加速、图像处理流程摘要本文将深入解析高通Snapdragon平台下Camera系统的全链路数据流向，从Sensor输入到ISP图像信号处理、再到DPU显示输出与GPU并行处理的完整通路。通过结合MSM系列SoC的实际驱动架构与硬件模
CUDA编程：优化GPU并行处理与内存管理 Omoo CUDA GPU并行处理线程协作内存管理硬件限制
背景简介CUDA是NVIDIA推出的一种通用并行计算架构，它利用GPU的强大计算能力来解决复杂的计算问题。在本书的第12章中，我们深入探讨了CUDA编程的关键概念，包括线程间的协作、内存分配与管理以及如何应对硬件限制。CUDA中的线程协作与内存管理在GPU上进行编程时，我们需要处理内存分配、数据传输以及内核（kernel）的调用等任务。CUDA提供了一系列的API来帮助开发者管理这些资源。在提供的
揭秘GPU技术新趋势：从虚拟化到池化科技互联人生科技数码人工智能 gpu算力性能优化
从GPU虚拟化到池化大模型兴起加剧GPU算力需求，企业面临GPU资源有限且利用率不高的挑战。为打破这一瓶颈，实现GPU算力资源均衡与国产化替代，GPU算力池化成为关键。本文深入探讨GPU设备虚拟化途径、共享方案及云原生实现，旨在优化资源利用，推动算力革命。汪照辉，中国银河证券杰出架构师，深耕容器云、微服务、DevOps等数据转型技术，见解独到。他倡导
深入GPU编程：从硬件架构到内核优化 Kaydeon 硬件架构
深入GPU编程：从硬件架构到内核优化在当今由大型模型驱动的AI时代，GPU集群已成为推动技术进步的核心引擎。然而，仅仅让代码在GPU上“运行”与让其“高效运行”之间存在着巨大的性能鸿沟。对于动辄需要数千甚至数万GPU小时进行训练的超大规模模型而言，这一鸿沟直接关系到研发成本、迭代速度和最终的科研成果。一个未经优化的操作可能在不经意间将训练时间延长数倍，造成巨大的资源浪费。PyTorch、Tenso
Hadoop的部分用法覃炳文20230322027 hadoop hive 大数据分布式
前言Hadoop是一个由Apache基金会开发的开源框架，它允许跨多个机器使用分布式处理大数据集。Hadoop的核心是HDFS（HadoopDistributedFileSystem）和MapReduce编程模型。1.Hadoop环境搭建在开始使用Hadoop之前，你需要搭建Hadoop环境。这通常包括安装Java、配置Hadoop环境变量、配置Hadoop的配置文件等步骤。1.1环境准备在开始安
Hadoop 发展过程是怎样的？ AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介2003年，美国加州大学洛杉矶分校教授李彦宏博士发明了一种分布式文件系统——GFS（GoogleFileSystem）。由于该文件系统设计得足够简单，可以适应大规模数据集存储需求，在此基础上演化出多种应用，包括MapReduce、BigTable、PageRank等，并成为当时互联网公司的标配技术之一。2004年，Google发布了第一版Hadoop项目，定位是
CUDA与PyTorch(GPU)的对应关系
CUDA与PyTorch(GPU)的对应关系：(需要自己按需求去找)：https://pytorch.org/get-started/previous-versions/表二：CUDAToolkit版本及可用PyTorch对应关系CUDAToolkit版本可用PyTorch版本7.50.4.1，0.3.0，0.2.0，0.1.12-0.1.68.01.1.0，1.0.0，0.4.19.01.1.0
OpenCV CUDA模块设备层-----设备端（GPU）线程块级别的一个内存拷贝工具函数blockCopy() 村北头的码农 OpenCV opencv 人工智能计算机视觉
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述在同一个线程块（threadblock内，将[beg,end)范围内的数据并行地复制到out开始的位置。它使用了CUDA线程协作机制（warp-level或block-level）来实现高效的块级拷贝，通常比简单的逐线程拷贝更快。函数原型_device__stat
torch-gpu版本 anaconda配置教程 GXYGGYXG python
教程Pytorch的GPU版本安装，在安装anaconda的前提下安装pytorch_pytorch-gpu-CSDN博客版本对应PyTorch中torch、torchvision、torchaudio、torchtext版本对应关系_torch2.0.1对应的torchvision-CSDN博客cuda下载地址CUDAToolkitArchive|NVIDIADevelopercudacudnn
Hadoop 版本进化论：从 1.0 到 2.0，架构革命全解析拾光师大数据后端
Hadoop版本hadoop1.x版本由三部分组成Common(辅助工具)HDFS(数据存储)MapReduce(计算和资源调度)存在的问题JobTracker同时具备了资源管理和作业控制两个功能，成为了系统的最大瓶颈采用了master/slave结构，master存在单点问题，一旦master出现故障，会导致整个集群不可用采用了基于槽位的资源分配模型，将槽位分为了Mapslot和Reducesl
头歌 MapReduce的编程开发-排序敲代码的苦13 头歌 mapreduce 电脑大数据
任务描述本关任务：根据用户行为数据，编写MapReduce程序来统计出商品点击量排行。相关知识排序概述在MapReduce的Shuffle的过程中执行了三次排序，分别是：map中的溢写阶段：根据分区以及key进行快速排序。map中合并溢写文件：将同一分区的多个溢写文件进行归并排序，合成一个大的溢写文件。reduce输入阶段：将同一分区，来自不同maptask的数据文件进行归并排序。在MapRedu
vllm docker容器部署大语言模型 zhangxiangweide docker 语言模型容器 vllm
什么是VLLM？VLLM（VeryLargeLanguageModelInference）是一个高性能、优化显存管理的大模型推理引擎。它的目标是最大化推理吞吐量，并降低显存消耗，让大语言模型（LLMs）在单卡或多GPU服务器上运行得更高效。VLLM的核心优势：高吞吐量：支持批量推理，减少token生成延迟，高效KV缓存管理：优化GPU显存，支持更长的上下文多GPU支持：TensorParallel
创建vllm的docker镜像和容器 zhangxiangweide docker 容器运维
首先用docker启动一个容器，需求是将模型所在目录挂在到容器某个路径下，设置gpu的使用数量，设置端口dockerrun-dit--gpusall--ipc=host--namevLLM-p3001:80-v/mnt/d0/checkpoints:/modelspython:3.11在新建的容器内部安装vllm#进入新建容器内部dockerexec-itvLLMbash#安装vllmpipins
人像抠图学习笔记 AI算法网奇人脸识别深度学习宝典深度学习神经网络自动驾驶
目录RobustVideoMatting实时视频抠图Modnet预测脚本人脸分割BiseNetV2MODNetu2net:MODNet方法RobustVideoMatting实时视频抠图Modnet预测脚本Modnet效果有时比RobustVideoMatting好，在衣服分割时，backbone是mobilev2gpu512*512速度22ms。importosimportsysimportar
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =

CUDA编程——Mars：MapReduce on GPU