GPU基础算法

如何在DigitalOcean的H100 GPU服务器上运行DeepSeek R1 模型

在DigitalOcean，我们一直在关注开源大语言模型（LLMs）和商业封闭模型之间差距的不断缩小。其中一个最关键的能力就是“推理”，也就是用合乎逻辑、讲得通的方式思考问题。以前，大语言模型的表现比较单一。只要给它们一个提示，它们就会直接给出答案，根本没有什么“二次思考”的过程，也没有什么机制能让模型在出错时自己纠正。这就让它们在遇到那些指令本身就可能有问题的情况时，很难进行深入推理、提出疑问或

DO_Community·2025-03-11 10:44

基于llama_cpp 调用本地模型（llama）实现基本推理

背景llama_cpp是一个基于C++的高性能库（llama.cpp）的Python绑定，支持在CPU或GPU上高效运行LLaMA及其衍生模型（如LLaMA2），并通过量化技术（如GGUF格式）优化内存使用

月光技术杂谈·2025-03-11 10:40

C# Winform做动画卡顿怎么办？

Winform用的GDI+，像全屏动画这种卡的稀巴烂，任务管理器看进程如果GPU没动静那就是渣，没加速。可以使用OpenGL或者DirectX这样有GPU加速就不卡了。

肖无疾·2025-03-11 02:05

Windows 图形显示驱动开发-WDDM 3.2-用户模式工作提交（一）

UM工作提交使应用程序能够直接从用户模式将工作提交到GPU，且延迟非常低。目标是提高经常向GPU提交小工作负载的应用程序的性能。

程序员王马·2025-03-10 20:52

Windows 图形显示驱动开发-WDDM 3.2-自动显示切换(九)

由于EDID保持不变，当任何一个GPU控制内部面板时，都会加载面板驱动程序。这两个驱动程序将显示相同的亮度功能。因此，加载应该不会造成任何问题，面板驱动程序也不需要知道哪个GPU在控制多路复用器。

程序员王马·2025-03-10 20:22

Windows 图形显示驱动开发-WDDM 3.2-自动显示切换(十)

系统配置为连接dGPU的多路复用器。系统进入休眠状态。iGPU和dGPU都切换到了D3电源状态。系统关闭电源。用户开启系统电源。固件配置iGPU的多路复用器和iGPU在内部面板上的显示启动序列。

程序员王马·2025-03-10 20:22

解密DeepSeek-R1模型微调实战：VIP专属技巧助你轻松掌握行业核心技术

但90%的学习者卡在以下痛点：❌开源数据集质量参差不齐❌实验环境搭建耗时易出错❌行业级调优方案闭源难获取CSDN大模型VIP专项计划针对上述问题，提供：✅金融/医疗/法律三大领域高质量微调数据集✅云端GPU

竹木有心·2025-03-10 19:16

基础算法：归并排序

归并排序C++模板：注意：需要用到辅助数组，帮助两个部分进行合并时的结果保存intq[N],tmp[N];voidmerge_sort(intq[],intl,intr){if(l>=r)return;intmid=l+r>>1;merge_sort(q,l,mid);merge_sort(q,mid+1,r);inti=l,j=mid+1,k=0;while(iusingnamespacestd

奋斗吧！骚年！·2025-03-10 17:04

【大模型】DeepSeek-R1-Distill-Qwen部署及API调用

当前模型开源后，我们可以将其部署，使用API方式进行本地调用1.部署环境本文中的部署基础环境如下所示：PyTorch2.5.1Python3.12(ubuntu22.04)Cuda12.4GPURTX3090

油泼辣子多加·2025-03-10 17:29

opencv cuda例程 OpenCV和Cuda结合编程

本文转载自：https://www.fuwuqizhijia.com/linux/201704/70863.html此网页，仅保存下来供随时查看一、利用OpenCV中提供的GPU模块目前，OpenCV中已提供了许多

weixin_44602056·2025-03-10 16:27

利用CUDA与OpenCV实现高效图像处理：全面指南

本篇文章将详细介绍如何结合CUDA与OpenCV，利用GPU的强大计算能

快撑死的鱼·2025-03-10 16:25

linux 下 CUDA + Opencv 编程之 CMakeLists.txt

CMAKE_MINIMUM_REQUIRED(VERSION2.8)PROJECT(medianFilterGPU)#CUDApackageFIND_PACKAGE(CUDAREQUIRED)INCLUDE

maxruan·2025-03-10 16:23

UE发生GPU崩溃D3D丢失，真的跟硬件有关系。

===但是BUT===UE5每天GPU崩溃几十次，UE4比较少见。按说我这配置还可以吧，鲁大师全国排名六百多（4月8日），二百三十多万分，也算够用。但我没说运行哪个UE程序导致的GPU崩溃。

虚幻叫兽·2025-03-10 11:20

ue5.5崩溃报gpu错误快速修复注册表命令方法

网上已经有很多方法了，自己写了个regedit比处理dos批处理命令，启动时需要win管理员身份拷贝后，将以下代码，保存为run.bat格式批处理文件，右键鼠标，在弹出菜单中，选择用管理员身份运行。即可。南无阿弥陀佛。命令如下：::如果存在先删除原来变量，如下：regdeleteHKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\Graphics

Maya和blender动画技术·2025-03-10 11:19

数据结构(蓝桥杯常考点)

数据结构前言：这个是针对于蓝桥杯竞赛常考的数据结构内容，基础算法比如高精度这些会在下期给大家总结数据结构竞赛中，时间复杂度不能超过10的7次方（1秒）到10的8次方（2秒）空间限制：int类型数组总大小不能超过

刃神太酷啦·2025-03-10 10:14

AWS AppStream 2.0：开启云端应用交付新范式（实战解决方案剖析）

1.1技术架构革命（对比传统VDI）去终端化部署：3D渲染/CAD等GPU应用在

AWS官方合作商·2025-03-10 09:06

python 程序一次启动有两个进程的问题（flask）

此外，这个程序占用了GPU资源，我发现有两个python进程，分别占用了完全相同的GPU显存1.原因问题出在flask的启动方式上，我启动的时候，是这样启动的app.run(debug=True,host

小郎碎碎念·2025-03-10 08:25

家庭组装台式电脑配置推荐（2024版）

2、显卡（GPU）：RTX4060Ti是推荐的选择，其性能略高于RTX3070，但功耗更低，适合预算在6000元左右的配置。3、内存（RAM）：16GB内存是推荐的配置，能够提供足够的多任务处理能力。

encoding-console·2025-03-10 07:19

Spring Event实例

privateStringequipmentId;privateStringfailureDescription;privateFailureLevellevel;//枚举：CRITICAL,WARNINGpublicEq

五块钱三个·2025-03-10 04:59

【NPU 系列专栏 2.7 -- - NVIDIA GPU 架构介绍】

请阅读【嵌入式及芯片开发学必备专栏】文章目录NVIDIAGPU架构介绍Tesla架构简介Tesla架构主要特点Tesla架构应用场景Fermi架构简介Fermi架构主要特点Fermi架构应用场景Kepler

主公讲 ARM·2025-03-10 03:52

io.net 是什么，DePIN（去中心化物理基础设施网络）

去中心化物理基础设施网络）1.资源整合与去中心化2.区块链技术与智能合约3.弹性伸缩与负载均衡4.安全性与隐私保护5.用户体验与易用性io.net是什么io.net是一个基于Solana网络的去中心化GPU

ZhangJiQun&MXP·2025-03-10 02:44

jupyter notebook参数化运行python

Updates（2019.8.1419:53）吃饭前用这个方法实战了一下，吃完回来一看好像不太行：跑完一组参数之后，到跑下一组参数时好像没有释放之占用的GPU，于是notebook上的结果，后面好几条都报错说

HackerTom·2025-03-10 02:11

云原生边缘智能：构建分布式IoT设备的自主决策引擎

/bin/bashcheck_gpu_utilization(){util=$(nvidia-smi--query-gpu=utilization.gpu--format=csv,nohea

桂月二二·2025-03-09 23:47

分布式计算入门（PySpark处理NASA服务器日志）

PySpark3.NASA服务器日志数据集介绍3.1数据背景3.2数据格式与挑战4.PySpark基础与分布式日志处理4.1PySpark基本架构4.2日志数据加载与解析4.3数据清洗与内存优化4.4GPU

闲人编程·2025-03-09 19:16

POJ-2227 The Wedding Juicer(NYOJ-547 Interesting Punch-Bowl)

65536KTotalSubmissions:2803Accepted:1225DescriptionFarmerJohn'scowshavetakenasidejobdesigninginterestingpunch-bowldesigns.Thedesignsarecreatedasfollows

weixin_30802171·2025-03-09 18:37

GPU编程实战指南03：CUDA开发快速上手示例，GPU性能碾压实测

上一节《GPU编程指南02：CUDA开发快速上手示例》中我们完成了一个使用GPU进行加减乘除四则运算的例子。

anda0109·2025-03-09 15:34

【深度学习】PyTorch v2.6 Overview

PyTorchv2.6OverviewPythonAPILibrariesPyTorch是一个优化的张量库，用于使用GPU和CPU进行深度学习。

OpenSeek·2025-03-09 11:37

PyTorch 显存分配不均匀

在使用PyTorch进行深度学习训练时，可能会遇到GPU0的显存占用明显高于其他GPU的情况。这可能导致显存不足，影响训练效率。

LutingWang·2025-03-09 11:36

GPU编程实战指南01：CUDA编程极简手册

目录1.CUDA基础概念1.1线程层次结构1.2内存层次结构2.CUDA编程核心要素2.1核函数2.2内存管理2.3同步机制3.CUDA优化技巧3.1内存访问优化3.2共享内存使用3.3线程分配优化4.常见问题和解决方案5.实际案例分析1.CUDA基础概念1.1线程层次结构CUDA采用层次化的线程组织结构，从小到大依次为：线程（Thread）：最基本的执行单元每个线程执行相同的核函数代码通过thr

anda0109·2025-03-09 09:20

\torch\lib\caffe2_detectron_ops_gpu.dll“

目录报错原因解决方法报错原因这个是conda环境里面的包出问题了，必须对相关依赖包进行更新解决方法使用win+R启动命令行或者终端，输入condaactivateenv_name(环境名称)进入环境后，再输入以下命令condaupdate-nbaseconda对环境下的所有包进行更新后就不会再报错

研志必有功·2025-03-09 06:27

AI芯片概述-分类、应用、技术（APU、CPU、DPU、GPU、NPU和TPU）及厂家

写这篇文章的起因是老板想了解下AI芯片（NPU/GPU区别等），他不是搞技术那一挂的，所以就简单整理下，留作记录，顺便分享给各位。文章目录一、AI芯片是什么？

一码当前·2025-03-09 00:27

Windows 图形显示驱动开发-WDDM 3.2-本机 GPU 围栏对象(七)

围栏排队操作的CPU时间戳鉴于以下情况，让UMD记录这些CPU时间戳没有什么好处：可以在GPU执行包括命令列表的命令缓冲区之前几分钟记录命令列表。这几分钟可能与同一命令缓冲区中的其他同步对象不同步。

程序员王马·2025-03-08 23:22

可视化学习：如何使用后期处理通道增强图像效果

因为GPU是并行渲染的，每个像素的着色器程序是并行执行的，这样的渲染很高效。但是在实际需求中，有时我们计算片元色值时，需要依赖周围像素点或者

·2025-03-08 19:12

【深度学习模型高效部署】tensorRT_Pro深度解读：部署深度学习模型的高效方案

以下内容将对tensorRT_Pro项目做一个系统的介绍，包括其核心价值、主要功能、应用案例以及关键的示例代码（附详细解释），帮助你快速了解并上手如何基于TensorRT在NVIDIAGPU上实现高性能推理

云博士的AI课堂·2025-03-08 18:50

【PerfDog】性能测试工具【功能模块一览表】

简要介绍官网是一款全平台性能测试工具性能狗一、常规测试无需修改硬件：例如设备ROOT/越狱等无需代码嵌入：可结合分析竞争对手表现极简化使用，在任意场景上测试开发和生成精准捕获系统级专业数据：如FPS、功耗\GPUCounter

行者无疆xcc·2025-03-08 18:19

Ollama在AutoDL部署，CPU服务器做代理，实践中

##我有两台服务器，一台是GPU服务器，另一台是CPU服务器；##我在GPU服务器上安装了Ollama，然后通过命令映射端口到CPU服务器：ssh-CNg-L0.0.0.0:11434:127.0.0.1

张3蜂·2025-03-08 14:29

【TVM 教程】使用元组输入（Tuple Inputs）进行计算和归约

ApacheTVM是一个端到端的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。

·2025-03-08 06:21

【AI】YOLOv7部署在NVIDIA Jetson Nano上

烧写SD卡镜像【AI】YOLOv7部署在NVIDIAJetsonTX2上2、下载编译2.1源码下载https://github.com/AlexeyAB/darknet2.2编译1）修改MakefileGPU

郭老二·2025-03-08 00:26

【硬核拆解】DeepSeek开源周五连击：中国AI底层技术的“破壁之战”

从GPU计算内核到分布式训练框架，用五大开源项目，在硬件适配、算力优化、通信调度等“卡脖子”领域打

shelly聊AI·2025-03-07 18:50

弹性算力革命：企业级GPU云服务如何重构AI与图形处理的效能边界

企业级GPU云服务是一种面向企业用户，基于云计算技术，将强大的图形处理器（GPU）资源以服务的形式提供给企业的创新模式。

·2025-03-07 17:21

弹性算力革命：企业级GPU云服务如何重构AI与图形处理的效能边界

企业级GPU云服务是一种面向企业用户，基于云计算技术，将强大的图形处理器（GPU）资源以服务的形式提供给企业的创新模式。

·2025-03-07 17:21

工业级Pandas性能优化：Dask/Modin实战教程

目录工业级Pandas性能优化：Dask/Modin实战教程1.引言与背景1.1Pandas的局限性1.2分布式计算与GPU加速的需求1.3Dask与Modin简介2.数据集介绍3.工业级数据处理理论基础

闲人编程·2025-03-07 17:06

esrgan_在 colab 上体验 ESRGAN（低清转高清）

设置笔记本为Python3、GPU模式，并保存。2.建立colab和googledrive的连接先获取授权，将下面代码贴进去运行。运行过程会要求填写

weixin_39713763·2025-03-07 15:20

美国AI圈破防了。。。

微软、Meta和谷歌等巨头正在将资源投入到庞大的10万GPU集群中进行人

强化学习曾小健·2025-03-07 13:43

Windows 图形显示驱动开发-WDDM 3.2-本机 GPU 围栏对象(四)

用于创建、打开和销毁本机围栏的D3DKMT内核API引入了以下D3DKMT内核模式API来创建和打开本机围栏对象。D3DKMTCreateNativeFence/D3DKMT_CREATENATIVEFENCED3DKMTOpenNativeFenceFromNTHandle/D3DKMT_OPENNATIVEFENCEFROMNTHANDLEDxgkrnl调用现有的D3DKMTDestroySy

程序员王马·2025-03-07 10:53

Docker中GPU的使用指南

在当今的计算领域，GPU（图形处理单元）已经成为了加速各种计算密集型任务的关键硬件，特别是在深度学习、科学模拟和高性能计算等领域。

俞兆鹏·2025-03-07 10:22

LLMs之Llama-3：基于Colab平台(免费T4-GPU)利用LLaMA-Factory的GUI界面(底层采用unsloth优化框架【加速训练5~30倍+减少50%的内存占用】)对llama-3

LLMs之Llama-3：基于Colab平台(免费T4-GPU)利用LLaMA-Factory的GUI界面(底层采用unsloth优化框架【加速训练5~30倍+减少50%的内存占用】)对llama-3-

一个处女座的程序猿·2025-03-07 09:41

DeepSeek开源技术全景解析：从硬件榨取到AI民主化革命

从硬件榨取到AI民主化革命一、开源周核心成果概览2025年2月24日启动的"开源周"计划，DeepSeek团队连续发布三项底层技术突破：FlashMLA（2.24）：动态资源调度算法，Hopper架构GPU

大刘讲IT·2025-03-07 09:09

【学习笔记5】Linux下cuda、cudnn、pytorch版本对应关系

一、cuda和cudnnNVIDIACUDAToolkit（CUDA）为创建高性能GPU加速应用程序提供了一个开发环境。

longii11·2025-03-07 08:56

【Qt】Qt Widgets和QML（Qt Quick）开发界面的区别

QtWidgetsvs.QML总体对比对比项QtWidgetsQML(QtQuick)语言C++(带QtUI库)QML+JavaScript(底层C++)渲染方式传统窗口系统控件（原生或模拟）基于OpenGL，使用GPU

￡އއ昔年·2025-03-07 08:52

推荐频道

GPU基础算法

如何在DigitalOcean的H100 GPU服务器上运行DeepSeek R1 模型

基于llama_cpp 调用本地模型（llama）实现基本推理

C# Winform做动画卡顿怎么办？

Windows 图形显示驱动开发-WDDM 3.2-用户模式工作提交（一）

Windows 图形显示驱动开发-WDDM 3.2-自动显示切换(九)

Windows 图形显示驱动开发-WDDM 3.2-自动显示切换(十)

解密DeepSeek-R1模型微调实战：VIP专属技巧助你轻松掌握行业核心技术

基础算法：归并排序

【大模型】DeepSeek-R1-Distill-Qwen部署及API调用

opencv cuda例程 OpenCV和Cuda结合编程

利用CUDA与OpenCV实现高效图像处理：全面指南

linux 下 CUDA + Opencv 编程 之 CMakeLists.txt

UE发生GPU崩溃D3D丢失，真的跟硬件有关系。

ue5.5崩溃报gpu错误快速修复注册表命令方法

数据结构(蓝桥杯常考点)

AWS AppStream 2.0：开启云端应用交付新范式（实战解决方案剖析）

python 程序一次启动有两个进程的问题（flask）

家庭组装台式电脑配置推荐（2024版）

Spring Event实例

【NPU 系列专栏 2.7 -- - NVIDIA GPU 架构介绍】

io.net 是什么，DePIN（去中心化物理基础设施网络）

jupyter notebook参数化运行python

云原生边缘智能：构建分布式IoT设备的自主决策引擎

分布式计算入门（PySpark处理NASA服务器日志）

POJ-2227 The Wedding Juicer(NYOJ-547 Interesting Punch-Bowl)

GPU编程实战指南03：CUDA开发快速上手示例，GPU性能碾压实测

【深度学习】PyTorch v2.6 Overview

PyTorch 显存分配不均匀

GPU编程实战指南01：CUDA编程极简手册

\torch\lib\caffe2_detectron_ops_gpu.dll“

AI芯片概述-分类、应用、技术（APU、CPU、DPU、GPU、NPU和TPU）及厂家

Windows 图形显示驱动开发-WDDM 3.2-本机 GPU 围栏对象(七)

可视化学习：如何使用后期处理通道增强图像效果

【深度学习模型高效部署】tensorRT_Pro深度解读：部署深度学习模型的高效方案

【PerfDog】性能测试工具【功能模块一览表】

Ollama在AutoDL部署，CPU服务器做代理，实践中

【TVM 教程】使用元组输入（Tuple Inputs）进行计算和归约

【AI】YOLOv7部署在NVIDIA Jetson Nano上

【硬核拆解】DeepSeek开源周五连击：中国AI底层技术的“破壁之战”

弹性算力革命：企业级GPU云服务如何重构AI与图形处理的效能边界

弹性算力革命：企业级GPU云服务如何重构AI与图形处理的效能边界

工业级Pandas性能优化：Dask/Modin实战教程

esrgan_在 colab 上体验 ESRGAN（低清转高清）

美国AI圈破防了。。。

Windows 图形显示驱动开发-WDDM 3.2-本机 GPU 围栏对象(四)

Docker中GPU的使用指南

LLMs之Llama-3：基于Colab平台(免费T4-GPU)利用LLaMA-Factory的GUI界面(底层采用unsloth优化框架【加速训练5~30倍+减少50%的内存占用】)对llama-3

DeepSeek开源技术全景解析：从硬件榨取到AI民主化革命

【学习笔记5】Linux下cuda、cudnn、pytorch版本对应关系

【Qt】Qt Widgets和QML（Qt Quick）开发界面的区别

linux 下 CUDA + Opencv 编程之 CMakeLists.txt