Eloudy

玩转 gpgpu-sim 03记 —— 建立源代码感性体验

官方文档：

GPGPU-Sim 3.x Manual

这篇的基本原则是程序跑到哪里，我们代码就看到哪里，不需要看太远，培养一个感性体验；

1. 编译一个 debug 可跟踪版本的 gpgpu-sim

跟踪顶层 Makefile 和 setup_environment 的代码可以看出来，如果跟上一个参数 “debug” 来运行 source setup_environment debug，那么就会编译一个debug版本的 gpgpu-sim；

创建一个新的容器，并构建 debug 版本的 gpgpu-sim：

export   NEW_DIR=gpgpu-sim_debug_002     \
&&  export WORK_SPACE=/home/hipper/workspace/bitbucket   \
&&  mkdir -p   ${WORK_SPACE}/${NEW_DIR}    \
&&  cd ${WORK_SPACE}/${NEW_DIR}      \
&&  git clone --recursive https://github.com/gpgpu-sim/gpgpu-sim_distribution.git      \
&&  cd ${WORK_SPACE}/${NEW_DIR}/gpgpu-sim_distribution/      \
&&  git   checkout    24f29469c042761d8b8d185c374493fbde79aca4   -b   version_3.2.2      \
&&  sudo docker run --name  ${NEW_DIR}_Jim -it                                            \
-v  ${WORK_SPACE}/${NEW_DIR}:${WORK_SPACE}/${NEW_DIR}                                           \
-v  ${WORK_SPACE}/${NEW_DIR}/gpgpu-sim_distribution:/root/gpgpu-sim_distribution       \
-v /dev:/dev -v /usr/src/:/usr/src -v /lib/modules/:/lib/modules --privileged --cap-add=ALL    \
socalucr/gpgpu-sim:latest    /bin/bash

在容器内部，设置为 debug 编译模式

# cd /root/gpgpu-sim_distribution/
# source setup_environment debug

具体会话内容如下，可以查看环境变量 GPGPUSIM_CONFIG 的值来确认：

root@9fdeefe458ff:~/gpgpu-sim_distribution# source setup_environment debug
GPGPU-Sim version 3.2.2 (build ) configured with GPUWattch.
setup_environment succeeded
root@9fdeefe458ff:~/gpgpu-sim_distribution# echo GPGPUSIM_CONFIG
GPGPUSIM_CONFIG
root@9fdeefe458ff:~/gpgpu-sim_distribution# echo $GPGPUSIM_CONFIG
gcc-4.4.7/cuda-4000/debug
root@9fdeefe458ff:~/gpgpu-sim_distribution#

进行编译：

# make -j

2. 编译一个 debug 可跟踪版本的 vectorAdd

打开文件 /root/NVIDIA_GPU_Computing_SDK/C/common/common.mk

# vim /root/NVIDIA_GPU_Computing_SDK/C/common/common.mk

添加 -g 编译选项，将对应行的内容改为如下：

 57 # Compilers
 58 NVCC       := $(CUDA_INSTALL_PATH)/bin/nvcc  -g
 59 CXX        := g++ -fPIC -g
 60 CC         := gcc -fPIC -g
 61 LINK       := g++ -fPIC -g

回到 vectorAdd项目文件夹，编译项目：

# cd /root/NVIDIA_GPU_Computing_SDK/C/src/vectorAdd

可调式版的vectorAdd 存在于此处，即，依然保存于 release文件夹中：

/root/NVIDIA_GPU_Computing_SDK/C/bin/linux/release/vectorAdd

3. 简单跟踪 cudaMalloc 的实现

3.1 创建运行测试配置环境

# mkdir /root/test_debug_vectorAdd_01
# cd /root/test_debug_vectorAdd_01
# cp ../gpgpu-sim_distribution/configs/GTX480/* ./

3.2 先运行试试，看结果检测是否PASS；

# /roo/NVIDIA_GPU_Computing_SDK/C/bin/linux/release/vectorAdd

最后输出为：

[vectorAdd] test results...
PASSED

Press ENTER to exit...

3.3 使用 cuda-gdb 进行调试跟踪

~/test_debug_vectorAdd_01# cuda-gdb ../NVIDIA_GPU_Computing_SDK/C/bin/linux/release/vectorAdd

3.4 设置 vectorAdd.cu 文件中的断点并运行

vectorAdd.cu 的源代码中，第70行出现第一个 cudaMalloc 函数，设置断点

(cuda-gdb) b 70

开始运行，直到遇到一个断点时暂停：

(cuda-gdb) start
(cuda-gdb) c

会停留在 70 行，敲入step命令：

(cuda-gdb) s

根据输出信息知道，这里的cudaMalloc是在文件 at cuda_runtime_api.cc:424 行中定义的，

具体代码内容如下：

(cuda-gdb) s
cudaMalloc (devPtr=0x605150, size=200000) at cuda_runtime_api.cc:424
424             CUctx_st* context = GPGPUSim_Context();
(cuda-gdb) l
419      *                                                                              *
420      *******************************************************************************/
421
422     __host__ cudaError_t CUDARTAPI cudaMalloc(void **devPtr, size_t size)
423     {
424             CUctx_st* context = GPGPUSim_Context();
425             *devPtr = context->get_device()->get_gpgpu()->gpu_malloc(size);
426             if(g_debug_execution >= 3)
427                     printf("GPGPU-Sim PTX: cudaMallocing %zu bytes starting at 0x%llx..\n",size, (unsigned long long) *devPtr);
428             if ( *devPtr  ) {
(cuda-gdb)

4. 跟踪动态库 libcudart.so.4 的方法

使用cuda-gdb 工具调试 vectorAdd, 并由此跟踪调试 libcudart.so.4 及 gpgpu-sim 中的代码；

主要注意事项，需要通过run一遍程序的方法来load进 libcudart.so库，当然也可以使用命令选项来实现载入；

步骤：

4.1，先使用cuda-gdb 来启动程序

### 记得 source setup_environment debug
# cd /root/test_debug_vectorAdd_01/
# cp 配置文件进来
test_debug_vectorAdd_01# cuda-gdb /root/NVIDIA_GPU_Computing_SDK/C/bin/linux/release/vectorAdd

4.2，run 一遍程序

使用 gdb 的 run 命令跑一遍程序，这是将依赖库 libcudart.so.4 加载进当前环境的简单方法；

(cuda-gdb) run

4.3，start 程序并设置libcudart.so.4 中感兴趣函数处的断点

使用 start 命令，将程序运行到 main函数处，这时可以设置断点：

比如，对文件cuda_runtime_api.cc 中的函数 __cudaRegisterFatBinary处设置断点

(cuda-gdb) b cuda_runtime_api.cc:1611
或者：
(cuda-gdb) b cuda_runtime_api.cc:__cudaRegisterFatBinary
(cuda-gdb) b cuda_runtime_api.cc:cudaMalloc

4.4，continue 程序运行至结束后重新start

执行 gdb 的 continue 命令跑完整个程序，这时全部断点可以设置好了，并重新 start程序；

这是会在第一次遇到某个断点时挂起：

4. 证明 cuda 程序先运行__cudaRegisterFatBinary(...) 再运行 main() 函数

在一个nvgpu的cuda平台（2080ti + cuda12.1）

4.1 加入验证代码printf

在文件 /usr/local/cuda/targets/x86_64-linux/include/crt/host_runtime.h 中的一个宏函数

#define __cudaRegisterBinary(X)

的定义中，加入打印代码：

并且在 vectorAdd.cu的main函数的第一行也加入类似 printf 代码；

4.2 创建项目

将vectorAdd.cu 拷贝到一个单独的文件夹中，并写一个如下的Makefile：

Makefile

#(base) hipper@hipper-G21:~/ex/ex_ptx_vector$ cat Makefile
vectorAdd: vectorAdd.cu
        /usr/local/cuda/bin/nvcc $< -o $@ -I ../cuda-samples/Common/ -g  --keep

.PHONY:clean
clean:
        rm -f *.cpp1.ii     *.cpp4.ii        *.cudafe1.c     *.cudafe1.cpp
        rm -f *.cudafe1.gpu *.cudafe1.stub.c *.fatbin
        rm -f *.fatbin.c    *.reg.c          *.sm_52.cubin
        rm -f *.module_id   *.o              *.ptx vectorAdd

4.3 编译运行

编译项目：make

运行项目: ./vectorAdd

运行效果：

4.4 分析

根据运行结果可以发现，main函数是在 __sti____cudaRegisterAll()函数之后运行的，

其中 __sti____cudaRegisterAll()调用了

/usr/local/cuda/targets/x86_64-linux/include/crt/host_runtime.h 中定义的宏函数

#define __cudaRegisterBinary(X)

而， __cudaRegisterBinary(X) 又调用了 __cudaRegisterFatBinary( void *fatCubin )

总之是先调用了 __cudaRegisterFatBinary 后调用了 main函数；

可以在宏函数定义中的更多地方加入 printf 来印证这一点；

5. 分析一下 cudaMalloc 函数

通过跟踪发现，gpgpu-sim 的 cudaMalloc 函数定义于文件
/root/gpgpu-sim_distribution/libcuda/cuda_runtime_api.cc
422行

这个函数的原型为：
__host__ cudaError_t CUDARTAPI cudaMalloc(void **devPtr, size_t size)
作用：是分配一块 size bytes大小的显存，并将显存的起始地址存储在 devPtr 中; __host__ 表示本实现仅在 Host 侧调用; CUDARTAPI 在linux平台为空，相当于什么都没写;
cudaError_t 返回值，如果分配失败，将返回非零错误码;

源代码：

这里略加注释，细节待进一步展开

__host__ cudaError_t CUDARTAPI cudaMalloc(void **devPtr, size_t size) 
{
    CUctx_st* context = GPGPUSim_Context();    // 获取 GPGPUSim 上下文信息;
    *devPtr = context->get_device()->get_gpgpu()->gpu_malloc(size);// 获得 gpu 设备，并在其中分配一块显存；细节待探讨
    if(g_debug_execution >= 3)
        printf("GPGPU-Sim PTX: cudaMallocing %zu bytes starting at 0x%llx..\n",size, (unsigned long long) *devPtr);
    if ( *devPtr  ) {// 如果 *devPtr 不为空，则表示分配成功;
        return g_last_cudaError = cudaSuccess;// 返回操作成功
    } else {
        return g_last_cudaError = cudaErrorMemoryAllocation;// 返回显存分配失败
    }
}

CUctx_st* context = GPGPUSim_Context(); 所关联到的信息：

cudaMalloc 先调用 GPGPUSim_Context(); 获得一个 gpgpu-sim 的上下文类 CUctx_st 的对象，对象地址存储在 CUctx_st* context 之中；如果写过 gpu 的某类 driver，那么很容易想象 CUctx 中应该指明自己所选择托管的具体 gpu 设备等信息；
这也可以从这个指针链中看出来 context 中持有一个 gpu device：

*devPtr = context->get_device()->get_gpgpu()->gpu_malloc(size);

struct CUctx_st 的定义如下：


struct CUctx_st {
	CUctx_st( _cuda_device_id *gpu ) { m_gpu = gpu; }

	_cuda_device_id *get_device() { return m_gpu; }

	void add_binary( symbol_table *symtab, unsigned fat_cubin_handle )
	{
		m_code[fat_cubin_handle] = symtab;
		m_last_fat_cubin_handle = fat_cubin_handle;
	}

	void add_ptxinfo( const char *deviceFun, const struct gpgpu_ptx_sim_kernel_info &info )
	{
		symbol *s = m_code[m_last_fat_cubin_handle]->lookup(deviceFun);
		assert( s != NULL );
		function_info *f = s->get_pc();
		assert( f != NULL );
		f->set_kernel_info(info);
	}

	void register_function( unsigned fat_cubin_handle, const char *hostFun, const char *deviceFun )
	{
		if( m_code.find(fat_cubin_handle) != m_code.end() ) {
			symbol *s = m_code[fat_cubin_handle]->lookup(deviceFun);
			assert( s != NULL );
			function_info *f = s->get_pc();
			assert( f != NULL );
			m_kernel_lookup[hostFun] = f;
		} else {
			m_kernel_lookup[hostFun] = NULL;
		}
	}

	function_info *get_kernel(const char *hostFun)
	{
		std::map::iterator i=m_kernel_lookup.find(hostFun);
		assert( i != m_kernel_lookup.end() );
		return i->second;
	}

private:
	_cuda_device_id *m_gpu; // selected gpu
	std::map m_code; // fat binary handle => global symbol table
	unsigned m_last_fat_cubin_handle;
	std::map m_kernel_lookup; // unique id (CUDA app function address) => kernel entry point
};

这个结构体非常重要，所以罗列出来，但是cuda APP 启动后，会先调用如下函数：

void** CUDARTAPI __cudaRegisterFatBinary( void *fatCubin )

如前所述，在main函数调用之前已经调用过一次__cudaRegisterFatBinary(...),所以这里是第二次调用；

__cudaRegisterFatBinary()的实现，是nv SDK实现的一部分，在gpgpu-sim中也做了替换性的实现；

你可能感兴趣的:(gpu,gpgpu,arch)

如何采集来赞达Lazada虾皮shopee各区域商品详情页面数据古德猫宁的干货数据库 API lazada商品详情 shopee商品详情
以虾皮shopee根据ID取商品详情API返回值说明为例shopee.item_get公共参数名称类型必须描述keyString是调用key（必须以GET方式拼接在URL中）注册Key和secret接入secretString是调用密钥api_nameString是API接口名称（包括在请求地址中）[item_search,item_get,item_search_shop等]cacheStrin
虾皮shopee根据关键词取商品列表 API 分享干货的猫网站搭建 api api接口 java 开发语言虾皮api接口虾皮 api
一、参数公共参数请求地址:https://api-gw.onebound.cn/shopee/item_search（前往获取key和secret）名称类型必须描述keyString是调用key（必须以GET方式拼接在URL中）secretString是调用密钥api_nameString是API接口名称（包括在请求地址中）[item_search,item_get,item_search_sho
安装Qt 5.15.2 noodleboy qt
安装Qt5.15.2自Qt5.15开始，Qt不提供离线安装包了，需要使用在线安装器安装，但是Qt5.15版本不直接显示。需要勾选Archive选项，且很有可能需要梯子工具。
ip2region与express最佳实践红衣大叔 nodejs帮助文档 express
在使用ip2region进行IP地址定位并与Express框架集成时，最佳实践主要集中在如何高效地初始化Searcher实例、处理并发请求以及优化查询性能等方面。以下是一个基于ip2region和Express的示例项目结构和代码实现，帮助你快速上手。1.项目结构my-express-app/│├──node_modules/├──public/├──routes/│└──ip.js├──view
深度优先搜索（DFS）完全解析：从原理到 Java 实战 my_realmy Java基础知识深度优先 java 算法
深度优先搜索（DFS）完全解析：从原理到Java实战@TOC作为一名程序员，你是否遇到过需要在复杂的图结构中寻找路径、检测环，或者进行树遍历的问题？深度优先搜索（Depth-FirstSearch,DFS）作为一种经典的图遍历算法，能够轻松应对这些场景。在CSDN社区中，技术文章的受欢迎程度往往取决于内容的实用性、代码的可读性以及图文结合的讲解方式。因此，本文将为你带来一篇深入浅出、图文并茂、代码
【MySQL】插入查询结果，聚合函数熙曦Sakura MySQL mysql 数据库
6.5插入查询结果语法：INSERTINTOtable_name[(column[,column...])]SELECT...案例：删除表中的的重复记录，重复的数据只能有一份--创建原数据表CREATETABLEduplicate_table(idint,namevarchar(20));QueryOK,0rowsaffected(0.01sec)--插入测试数据INSERTINTOduplica
知识蒸馏：让大模型“瘦身“而不失智慧的魔术一休哥助手人工智能人工智能
引言：当AI模型需要"减肥"在人工智能领域，一个有趣的悖论正在上演：大模型的参数规模每年以10倍速度增长，而移动设备的算力却始终受限。GPT-4的1750亿参数需要价值500万美元的GPU集群运行，但现实中的智能设备可能只有指甲盖大小。这种矛盾催生了一项神奇的技术——知识蒸馏（KnowledgeDistillation），它就像给AI模型进行"脑外科手术"，将庞然大物的智慧浓缩到轻量模型中。第一章
(LeetCode 热题 100) 74. 搜索二维矩阵(二分查找) 岁忧 java版刷题 LeetCode 热题 100 LeetCode leetcode 矩阵算法 c++java
题目：74.搜索二维矩阵方法一：数组按行拼接为一个不下降的一维数组。采用二分查找，时间复杂度0(lognm)。C++版本：classSolution{public:boolsearchMatrix(vector>&matrix,inttarget){intn=matrix.size(),m=matrix[0].size();intl=0,r=n*m-1;while(ltarget){r=mid-1
【深度学习】 PyTorch一文详解 Nerous_ 深度学习深度学习 pytorch 人工智能机器学习 python
“PyTorchisadeeplearningframeworkthatprioritizessimplicityandflexibility,makingitthego-tochoiceforbothresearchersanddevelopers.”—Anonymous1.PyTorch简介1.1PyTorch的背景与发展PyTorch是由Facebook人工智能研究院（FAIR）开发的一个开
flutter报错：Could not find com.meituan.android.walle:plugin xtyzmnchen flutter android
整体报错情况（解决美团渠道包源拉不下来的问题）：Aproblemoccurredconfiguringrootproject'android'.>Couldnotresolveallfilesforconfiguration':classpath'.>Couldnotfindcom.meituan.android.walle:plugin:1.1.7.Searchedinthefollowingl
【赵渝强老师】达梦数据库的归档模式赵渝强老师达梦（DM）数据库数据库 oracle
达梦数据库的备份与恢复都需要使用到重做日志文件。在默认的情况下，达梦数据库采用的非归档模式。通过执行下面的语句可以查看当前数据库实例的日志模式。SQL>selectarch_modefromv$database;#输出的信息如下：行号ARCH_MODE-------------------1N#提示：这里输出的N表示的是非归档模式。由于在非归档模式下，重做日志文件会发生覆盖的情况，从而造成数据的丢
HRM：分层多步奖励模型大模型最新论文速读深度学习语言模型人工智能自然语言处理
论文标题TowardsHierarchicalMulti-StepRewardModelsforEnhancedReasoninginLargeLanguageModels论文地址https://arxiv.org/pdf/2503.13551代码地址https://github.com/tengwang0318/hierarchial_reward_model作者背景香港大学，北京大学，新加坡国
在网页跑3D多人互动之渲染效能瓶颈微网兔子後端技術前端网络服务器 c++unity 架构 3d
累积到目前测试回馈给我们的心得，主要问题还是在前端显示的部分。所以就来聊聊在网页跑3D多人互动之渲染效能瓶颈!!!数万个3D角色与场景物件需即时渲染，导致GPU/CPU过载，低端设备卡顿。已经使用的解决方案：LOD（LevelofDetail）技术：根据距离动态调整模型细节，远距离使用低多边形模型。InstancedRendering：批次渲染相同模型（如重复的树木、建筑物）。Culling（剔除
Linux学习1_Linux命令及英文全称 Wang_Zhenwei —Linux 转载 linux
LinuxCommandreferences(命令全称，方便记忆)aliasCreateyourownnameforacommandarchprintmachinearchitectureashashcommandinterpreter(shell)awk(gawk)patternscanningandprocessinglanguagebasenameRemovedirectoryandsuff
Mysql-经典实战案例（10）：如何用PT-Archiver完成大表的自动归档从不删库的DBA Mysql 经典实战案例 mysql 数据库
真实痛点：电商订单表存储优化场景现状分析某电商平台订单表（order_info）每月新增500万条记录主库：高频读写，SSD存储（空间告急）历史库：HDD存储，只读查询优化目标✅自动迁移7天前的订单到历史库✅每周六23:30执行，不影响业务高峰✅确保数据一致性第一章：前期准备：沙盒实验室搭建1.1实验环境架构生产库：10.33.112.22历史库：10.30.76.41.2环境初始化（双节点执行）
密码策略合规性检查仪表盘闲人编程 python 网络服务器异常报警实时监控多因素认证合规性密码策略
目录一、前言二、密码策略合规性背景与意义2.1密码策略的重要性2.2密码策略合规性检查的需求三、系统设计思路与架构3.1数据采集与加解密模块3.2异步任务调度与GPU加速模块3.3密码策略检查算法模块3.4GUI界面模块四、核心数学公式与算法证明4.1AES-GCM加解密公式4.2密码强度评分算法4.3合规性检测算法4.4统计与报告生成五、异步任务调度与GPU加速设计六、GUI界面设计与功能模块七
阅读理解英语小崔的技术博客读书成长笔记其他
Wesearchforloveandtrytogetlove,andyetitseemslikewenevergetenough.Evenwhenwehavefoundlove,itcanslipawayastimepasses.Loveisthespacious,openattentionofourawareness.Thekeytoexperiencingloveistonoticewhere
推荐开源项目：RxFeedback —— 极简的RxSwift架构设计柏赢安Simona
推荐开源项目：RxFeedback——极简的RxSwift架构设计RxFeedback.swiftTheuniversalsystemoperatorandarchitectureforRxSwift项目地址:https://gitcode.com/gh_mirrors/rx/RxFeedback.swift项目介绍RxFeedback是一个专为RxSwift设计的简洁架构方案，它以反馈循环为基础
ElasticSearch Java查询实现详解当牛作馬 ElasticSearch使用 elasticsearch java jenkins
文章目录前言一、环境准备二.连接到ElasticSearch三.实现各种查询1匹配查询（MatchQuery）2术语查询（TermQuery）3范围查询（RangeQuery）4复合查询（BoolQuery）5.术语聚合（TermsAggregation）5.平均值聚合（AvgAggregation）6.最大值聚合（MaxAggregation）与最小值聚合（MinAggregation）7.日期
快速启动flink项目 for your wish flink java 大数据
按照这个步骤1分钟内创建完成idea-----File----new---Project------Maven----Createfromarchetype----AddArchetype弹出框：GroupId填org.apache.flinkArtifactId填flink-quickstart-javaVersion填1.14.0选中刚刚添加的Archetype，点Next填写你要创建的这个f
CPO光电共封装关键技术与Top玩家代表作 CoderIsArt 光学 CPO
CPO（Co-PackagedOptics，光电共封装）关键技术介绍CPO（Co-PackagedOptics）是一种将光学器件与电子芯片（如ASIC、CPU、GPU等）封装在同一基板上的技术。它旨在解决传统可插拔光模块在高密度、高带宽场景下的功耗、散热和信号完整性问题。CPO通过缩短电信号的传输距离，减少信号衰减和功耗，同时提高系统的整体性能和能效。CPO技术主要应用于数据中心、高性能计算（HP
helm安装kubernetes-dashboard(2，Linux运维开发技巧 2401_83974783 2024年程序员学习 kubernetes linux 运维开发
当前k8s集群版本1.23.61.1添加repo[root@masterhelm]#helmrepoaddkubernetes-dashboardhttps://kubernetes.github.io/dashboard/[root@masterhelm]#helmsearchrepokubernetes-dashboard/kubernetes-dashboardNAMECHARTVERSIO
sc命令在windows上将elasticsearch和kibana自动作为服务开机启动 windowselastic
sc是Windows自带的命令行工具，用于管理服务。1.创建服务：打开命令提示符，运行以下命令：sccreateElasticsearchbinPath="D:\elasticsearch\bin\elasticsearch.bat"start=auto2.启动服务：创建后，启动服务：scstartElasticsearch亲测可用
Marker可以快速且准确地将PDF转换为markdown格式。星霜笔记开源关注简介免费源码 pdf
MarkerMarker可以快速且准确地将PDF转换为markdown格式。支持多种文档类型（针对书籍和科学论文进行了优化）支持所有语言移除页眉/页脚/其他杂质格式化表格和代码块提取并保存图像以及markdown将大多数方程转换为latex支持在GPU、CPU或MPS上运行工作原理Marker是一个由深度学习模型组成的管道：提取文本，必要时进行OCR处理（启发式算法，surya，tesseract
Open-Sora - 为所有人实现高效的视频制作大众化小众AI AI开源音视频人工智能 AI编程
GitHub：https://github.com/hpcaitech/Open-Sora更多AI开源软件：发现分享好用的AI工具、AI开源软件、AI模型、AI变现-小众AI这是一款开源的SOTA（State-of-the-Art）视频生成模型，仅用20万美元（224张GPU）就能训练出商业级11B参数的视频生成大模型。它采用Python语言和PyTorch深度学习框架开发，具有生成速度快、资源消
LeetCode第98题_验证二叉搜索树 @蓝莓果粒茶算法 leetcode linux 算法链表 c++数据结构 python
LeetCode第98题：验证二叉搜索树题目描述给你一个二叉树的根节点root，判断其是否是一个有效的二叉搜索树。有效二叉搜索树定义如下：节点的左子树只包含小于当前节点的数。节点的右子树只包含大于当前节点的数。所有左子树和右子树自身必须也是二叉搜索树。难度中等问题链接https://leetcode.cn/problems/validate-binary-search-tree/示例示例1：输入：
无矩阵乘法LLM：效率与性能双突破 XianxinMao 人工智能矩阵人工智能线性代数
标题：无矩阵乘法LLM：效率与性能双突破文章信息摘要：无矩阵乘法的LLMs通过创新技术替代传统矩阵乘法操作，显著降低了计算成本，减少了对GPU的依赖。这种模型在内存使用和延迟方面表现优异，尤其在大规模模型上效率显著提升。例如，13B参数的模型仅需4.19GBGPU内存，延迟低至695.48ms，远优于传统模型。此外，基于FPGA的硬件优化进一步提升了性能，1.3B参数模型功耗仅为13W，达到人类阅
OpenEuler kinit报错找不到文件的解决办法久违的太阳其他故障处理服务器运维
客户一套华为大数据集群平台,在一台arm平台openEuler服务器上面安装完集群客户端之后,使用kinit认证出现报错Nosuchfileordirectory:最终定位是操作系统/lib64缺少ld包导致,执行下面的命令恢复：ln-sv/lib/ld-linux-aarch64.so.1/lib64/ld-linux-aarch64.so.1
pear-admin-boot开发框架使用记录（三）后青春期的诗go 经验分享 java spring boot spring log4j mybatis
一、实现部门选择操作用于从组织架构里选择出部门的操作，如开发日志管理模块，创建人新增日志时可以通过选择框选择相应共享的部门。数据库表调整在数据表添加2个字段：sharedeptid共享部门idvarcharsharedeptname共享部门名称varchar前端html页面调整页面添加如下代码：共享部门前端JS调整添加如下代码：letdtree=layui.dtree;dtree.renderSe
高性能计算:GPU加速与分布式训练 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着人工智能技术的飞速发展，深度学习模型的规模和复杂度不断提升，对计算能力的需求也越来越高。传统的CPU架构已经难以满足深度学习模型训练的需求，因此，GPU加速和分布式训练成为了高性能计算领域的研究热点。1.1.深度学习与计算挑战深度学习模型通常包含数百万甚至数十亿个参数，训练过程需要进行大量的矩阵运算和梯度更新，对计算资源的需求非常高。传统的CPU架构虽然具有较强的通用性，但其并行计
web报表工具FineReport常见的数据集报错错误代码和解释老A不折腾 web报表 finereport 代码可视化工具
在使用finereport制作报表，若预览发生错误，很多朋友便手忙脚乱不知所措了，其实没什么，只要看懂报错代码和含义，可以很快的排除错误，这里我就分享一下finereport的数据集报错错误代码和解释，如果有说的不准确的地方，也请各位小伙伴纠正一下。 NS-war-remote=错误代码\:1117 压缩部署不支持远程设计 NS_LayerReport_MultiDs=错误代码
Java的WeakReference与WeakHashMap bylijinnan java 弱引用
首先看看 WeakReference wiki 上 Weak reference 的一个例子： public class ReferenceTest { public static void main(String[] args) throws InterruptedException { WeakReference r = new Wea
Linux——（hostname）主机名与ip的映射 eksliang linux hostname
一、什么是主机名无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。但IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。域名类型 linuxsir.org 这样的；主机名是用于什么的呢？答：在一个局域网中，每台机器都有一个主
oracle 常用技巧 18289753290
oracle常用技巧 ①复制表结构和数据 create table temp_clientloginUser as select distinct userid from tbusrtloginlog ②仅复制数据如果表结构一样 insert into mytable select * &nb
使用c3p0数据库连接池时出现com.mchange.v2.resourcepool.TimeoutException 酷的飞上天空 exception
有一个线上环境使用的是c3p0数据库，为外部提供接口服务。最近访问压力增大后台tomcat的日志里面频繁出现 com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.v2.resourcepool.BasicResou
IT系统分析师如何学习大数据蓝儿唯美大数据
我是一名从事大数据项目的IT系统分析师。在深入这个项目前需要了解些什么呢？学习大数据的最佳方法就是先从了解信息系统是如何工作着手，尤其是数据库和基础设施。同样在开始前还需要了解大数据工具，如Cloudera、Hadoop、Spark、Hive、Pig、Flume、Sqoop与Mesos。系统分析师需要明白如何组织、管理和保护数据。在市面上有几十款数据管理产品可以用于管理数据。你的大数据数据库可能
spring学习——简介 a-john spring
Spring是一个开源框架，是为了解决企业应用开发的复杂性而创建的。Spring使用基本的JavaBean来完成以前只能由EJB完成的事情。然而Spring的用途不仅限于服务器端的开发，从简单性，可测试性和松耦合的角度而言，任何Java应用都可以从Spring中受益。其主要特征是依赖注入、AOP、持久化、事务、SpringMVC以及Acegi Security 为了降低Java开发的复杂性，
自定义颜色的xml文件 aijuans xml
<?xml version="1.0" encoding="utf-8"?> <resources> <color name="white">#FFFFFF</color> <color name="black">#000000</color> &
运营到底是做什么的？ aoyouzi 运营到底是做什么的？
文章来源：夏叔叔（微信号：woshixiashushu），欢迎大家关注！很久没有动笔写点东西，近些日子，由于爱狗团产品上线，不断面试，经常会被问道一个问题。问：爱狗团的运营主要做什么？答：带着用户一起嗨。为什么是带着用户玩起来呢？究竟什么是运营？运营到底是做什么的？那么，我们先来回答一个更简单的问题——互联网公司对运营考核什么？以爱狗团为例，绝大部分的移动互联网公司，对运营部门的考核分为三块——用
js面向对象类和对象百合不是茶 js 面向对象函数创建类和对象
接触js已经有几个月了,但是对js的面向对象的一些概念根本就是模糊的,js是一种面向对象的语言但又不像java一样有class,js不是严格的面向对象语言 ,js在java web开发的地位和java不相上下 ,其中web的数据的反馈现在主流的使用json,json的语法和js的类和属性的创建相似下面介绍一些js的类和对象的创建的技术一:类和对
web.xml之资源管理对象配置 resource-env-ref bijian1013 java web.xml servlet
resource-env-ref元素来指定对管理对象的servlet引用的声明，该对象与servlet环境中的资源相关联 <resource-env-ref> <resource-env-ref-name>资源名</resource-env-ref-name> <resource-env-ref-type>查找资源时返回的资源类
Create a composite component with a custom namespace sunjing
https://weblogs.java.net/blog/mriem/archive/2013/11/22/jsf-tip-45-create-composite-component-custom-namespace When you developed a composite component the namespace you would be seeing would
【MongoDB学习笔记十二】Mongo副本集服务器角色之Arbiter bit1129 mongodb
一、复本集为什么要加入Arbiter这个角色回答这个问题，要从复本集的存活条件和Aribter服务器的特性两方面来说。什么是Artiber？ An arbiter does not have a copy of data set and cannot become a primary. Replica sets may have arbiters to add a
Javascript开发笔记白糖_ JavaScript
获取iframe内的元素通常我们使用window.frames["frameId"].document.getElementById("divId").innerHTML这样的形式来获取iframe内的元素，这种写法在IE、safari、chrome下都是通过的，唯独在fireforx下不通过。其实jquery的contents方法提供了对if
Web浏览器Chrome打开一段时间后，运行alert无效 bozch Web chorme alert 无效
今天在开发的时候，突然间发现alert在chrome浏览器就没法弹出了，很是怪异。试了试其他浏览器，发现都是没有问题的。开始想以为是chorme浏览器有啥机制导致的，就开始尝试各种代码让alert出来。尝试结果是仍然没有显示出来。这样开发的结果，如果客户在使用的时候没有提示，那会带来致命的体验。哎，没啥办法了就关闭浏览器重启。结果就好了，这也太怪异了。难道是cho
编程之美-高效地安排会议图着色问题贪心算法 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Collections; import java.util.List; import java.util.Random; public class GraphColoringProblem { /**编程之美高效地安排会议图着色问题贪心算法 * 假设要用很多个教室对一组
机器学习相关概念和开发工具 chenbowen00 算法 matlab 机器学习
基本概念：机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。开发工具 M
[宇宙经济学]关于在太空建立永久定居点的可能性 comsci 经济
大家都知道,地球上的房地产都比较昂贵,而且土地证经常会因为新的政府的意志而变幻文本格式........ 所以,在地球议会尚不具有在太空行使法律和权力的力量之前,我们外太阳系统的友好联盟可以考虑在地月系的某些引力平衡点上面,修建规模较大的定居点
oracle 11g database control 证书错误 daizj oracle 证书错误 oracle 11G 安装
oracle 11g database control 证书错误 win7 安装完oracle11后打开 Database control 后，会打开em管理页面，提示证书错误，点“继续浏览此网站”，还是会继续停留在证书错误页面解决办法：是 KB2661254 这个更新补丁引起的，它限制了 RSA 密钥位长度少于 1024 位的证书的使用。具体可以看微软官方公告：
Java I/O之用FilenameFilter实现根据文件扩展名删除文件游其是你 FilenameFilter
在Java中，你可以通过实现FilenameFilter类并重写accept(File dir, String name) 方法实现文件过滤功能。在这个例子中，我们向你展示在“c:\\folder”路径下列出所有“.txt”格式的文件并删除。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
C语言数组的简单以及一维数组的简单排序算法示例，二维数组简单示例 dcj3sjt126com c array
# include <stdio.h> int main(void) { int a[5] = {1, 2, 3, 4, 5}; //a 是数组的名字 5是表示数组元素的个数，并且这五个元素分别用a[0], a[1]...a[4] int i; for (i=0; i<5; ++i) printf("%d\n",
PRIMARY, INDEX, UNIQUE 这3种是一类 PRIMARY 主键。就是唯一且不能为空。 INDEX 索引，普通的 UNIQUE 唯一索引 dcj3sjt126com primary
PRIMARY, INDEX, UNIQUE 这3种是一类PRIMARY 主键。就是唯一且不能为空。INDEX 索引，普通的UNIQUE 唯一索引。不允许有重复。FULLTEXT 是全文索引，用于在一篇文章中，检索文本信息的。举个例子来说，比如你在为某商场做一个会员卡的系统。这个系统有一个会员表有下列字段：会员编号 INT会员姓名
java集合辅助类 Collections、Arrays shuizhaosi888 Collections Arrays HashCode
Arrays、Collections 1 ）数组集合之间转换 public static <T> List<T> asList(T... a) { return new ArrayList<>(a); } a）Arrays.asL
Spring Security（10）——退出登录logout 234390216 logout Spring Security 退出登录 logout-url LogoutFilter
要实现退出登录的功能我们需要在http元素下定义logout元素，这样Spring Security将自动为我们添加用于处理退出登录的过滤器LogoutFilter到FilterChain。当我们指定了http元素的auto-config属性为true时logout定义是会自动配置的，此时我们默认退出登录的URL为“/j_spring_secu
透过源码学前端之 Backbone 三 Model 逐行分析JS源代码 backbone 源码分析 js学习
Backbone 分析第三部分 Model 概述： Model 提供了数据存储，将数据以JSON的形式保存在 Model的 attributes里，但重点功能在于其提供了一套功能强大，使用简单的存、取、删、改数据方法，并在不同的操作里加了相应的监听事件，如每次修改添加里都会触发 change，这在据模型变动来修改视图时很常用，并且与collection建立了关联。
SpringMVC源码总结（七）mvc:annotation-driven中的HttpMessageConverter 乒乓狂魔 springMVC
这一篇文章主要介绍下HttpMessageConverter整个注册过程包含自定义的HttpMessageConverter，然后对一些HttpMessageConverter进行具体介绍。 HttpMessageConverter接口介绍： public interface HttpMessageConverter<T> { /** * Indicate
分布式基础知识和算法理论 bluky999 算法 zookeeper 分布式一致性哈希 paxos
分布式基础知识和算法理论 BY [email protected] 本文永久链接：http://nodex.iteye.com/blog/2103218 在大数据的背景下，不管是做存储，做搜索，做数据分析，或者做产品或服务本身，面向互联网和移动互联网用户，已经不可避免地要面对分布式环境。笔者在此收录一些分布式相关的基础知识和算法理论介绍，在完善自我知识体系的同
Android Studio的.gitignore以及gitignore无效的解决 bell0901 android gitignore
　　github上.gitignore模板合集，里面有各种.gitignore ： https://github.com/github/gitignore 　　自己用的Android Studio下项目的.gitignore文件，对github上的android.gitignore添加了　　　　　　# OSX files　　　　　　//mac os下　　　　　　.DS_Store
成为高级程序员的10个步骤 tomcat_oracle 编程
What 软件工程师的职业生涯要历经以下几个阶段：初级、中级，最后才是高级。这篇文章主要是讲如何通过 10 个步骤助你成为一名高级软件工程师。 Why 得到更多的报酬！因为你的薪水会随着你水平的提高而增加提升你的职业生涯。成为了高级软件工程师之后，就可以朝着架构师、团队负责人、CTO 等职位前进历经更大的挑战。随着你的成长，各种影响力也会提高。
mongdb在linux下的安装 xtuhcy mongodb linux
一、查询linux版本号： lsb_release -a LSB Version: :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarch:printing-4.0-amd64:printing-4.0-noa

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他