青禾子的夏

Rocm-Programming with HIP 内存分配

1. 主机内存（Host Memory）

hipHostMalloc 是 HIP API 中的一个函数，它用于在主机上分配特殊的内存，这种内存被称为 "pinned" 或 "page-locked" 内存。这种内存有以下特点和用途：

GPU 地址空间映射：分配的内存被映射到系统中所有 GPU 的地址空间。这意味着 GPU 可以直接访问这块内存，而不需要数据复制操作。
加速数据传输：使用 hipHostMalloc 分配的内存可以加速主机（Host）到设备（Device）以及设备到主机的数据传输速度。由于这种内存已经被映射到 GPU 的地址空间，因此在数据传输时可以减少一些设置步骤。
零拷贝 GPU 访问：GPU 能够直接访问使用 hipHostMalloc 分配的主机内存，无需复制数据到 GPU 的本地设备内存。这种特性称为 "zero-copy" 访问。然而，尽管避免了复制操作，但每次内核访问内存时，数据必须通过 CPU/GPU 互连传输，这可能比直接访问 GPU 的本地内存慢很多。
适用场景：
- 当内存访问不频繁时（例如仅访问一次），零拷贝内存是一个不错的选择。
- 它可以用于需要 GPU 直接访问大量数据而不需要频繁复制的场景。
一致性与缓存：
- 零拷贝内存通常是 "Coherent"（一致的），意味着它不会被 GPU 缓存。这样可以保证数据的一致性，但可能会影响性能。
- 如果需要，可以覆盖这一行为，允许 GPU 缓存这些内存，但这需要开发者根据具体的性能需求和数据一致性要求来决定。
工具使用：可以使用 hipBusBandwidth 工具来测试和比较使用 hipHostMalloc 分配的内存与普通内存在数据传输速度上的差异。通过 --unpinned 和 --pinned 开关来测试不同的内存配置。

总结来说，hipHostMalloc 提供了一种方式来分配可以被 GPU 直接访问的主机内存，这可以用于加速数据传输和实现零拷贝访问，但同时也需要考虑内存访问模式和数据一致性的需求。

2. 内存分配标志

hipHostMallocPortable 和 hipHostMallocMapped 是用于 hipHostMalloc 函数的标志（flags），它们定义了不同但相关的内存特性：

hipHostMallocPortable：
- 此标志用于分配可以跨多个 GPU 使用的内存。当内存需要在多个设备之间共享时，使用 hipHostMallocPortable 可以确保分配的内存对所有参与的 GPU 都是可访问的。这种内存通常用于多 GPU 环境，其中不同的 GPU 需要直接访问同一块内存空间。
hipHostMallocMapped：
- 此标志用于分配的内存会被映射到所有 GPU 的地址空间，允许 GPU 直接访问这些内存。这种映射通常用于零拷贝操作，其中 GPU 可以直接读取或写入主机内存，无需数据复制。这可以减少数据传输的开销，但可能涉及到跨 CPU 和 GPU 的内存访问延迟。
hipHostMallocNumaUser:
- 这个标志允许用户指定 NUMA（Non-Uniform Memory Access）策略，根据用户的设置来分配主机内存。NUMA 策略可以影响内存访问的性能，特别是在多处理器系统上。

区别主要在于它们的使用目的和行为：

hipHostMallocPortable 关注的是内存的可移植性和共享性，确保在多 GPU 系统中，所有 GPU 都能够识别和使用同一块内存。
hipHostMallocMapped 关注的是内存访问的直接性和性能，允许 GPU 直接与主机内存交互，避免了数据传输的需要。

在实际使用中，hipHostMalloc 通常会同时设置这两个标志，因为它们共同支持了多 GPU 环境下的高性能内存访问模式。这样分配的内存既能够被多个 GPU 共享，又能够被每个 GPU 直接访问，从而实现高效的数据传输和零拷贝操作。

3. NUMA-aware host memory allocation

NUMA（Non-Uniform Memory Architecture）是一种多处理器系统架构，它允许每个CPU（或CPU核心组）拥有自己的本地内存，并且可以通过互连访问其他CPU的内存。这种架构下，访问本地内存比访问远程内存更快。
NUMA-aware host memory allocation 是一种在多处理器和多GPU系统中优化内存分配的策略。NUMA策略决定如何分配内存，以及如何选择与每个GPU最近的CPU。这个策略会衡量GPU和CPU设备之间的距离（NUMA距离），并尽量将内存分配在与GPU最近的NUMA节点上。
默认情况下，每个GPU会自动选择一个NUMA CPU节点，该节点与GPU之间的NUMA距离最短。这样，主机内存会自动分配在当前GPU设备所在NUMA节点的内存池中。
使用hipSetDevice API切换到不同的GPU时，可以访问之前分配的主机内存。但是，如果新选择的GPU与该内存的NUMA节点距离较远，可能会增加内存访问延迟。
在HIP API中，可以使用hipHostMallocNumaUser标志进行NUMA-aware的主机内存分配。这允许开发者根据NUMA策略手动指定内存应该分配在哪个NUMA节点上。

4. 托管内存分配（Managed Memory Allocation）

在 HIP (Heterogeneous-compute Interface for Portability) 中，托管内存分配（Managed Memory Allocation）是一种允许在 GPU 和 CPU 之间共享内存的机制，无需显式地在两者之间复制数据。

在调用托管内存 API hipMallocManaged 之前，HIP 应用程序会执行能力检查，以确保当前设备支持托管内存。

如果设备不支持托管内存，hipMallocManaged 调用将退回到使用系统内存。在这种情况下，其他托管内存 API 调用可能会表现出未定义的行为。
如果设备支持托管内存，使用 hipMallocManaged 分配的内存可以提供更好的性能，因为它允许 GPU 和 CPU 透明地访问同一块内存，避免了数据复制的开销。
当分配了托管内存后，CPU 和 GPU 都可以透明地访问这块内存，无需显式的数据传输命令。

5. HIP Stream Memory operations

HIP Stream Memory Operations 是一组 HIP API，它们提供对流（stream）内存操作的支持，使得网络节点（如 CPU 或其他 GPU 设备）与 GPU 之间能够直接同步。

hipStreamWaitValue32/64：
- 这些函数允许一个流等待一个特定的值出现在内存位置。hipStreamWaitValue32 用于 32 位值，而 hipStreamWaitValue64 用于 64 位值。流将阻塞，直到内存中的值与预期值匹配。
hipStreamWriteValue32/64：
- 这些函数允许一个流写入一个值到特定的内存位置。hipStreamWriteValue32 用于写入 32 位值，而 hipStreamWriteValue64 用于写入 64 位值。这可以用于设置信号或其他同步机制。

这些操作使得 GPU 能够等待来自网络节点的操作完成，或者让 GPU 通知网络节点某个事件已经发生，从而实现直接同步。
这些 API 可用于实现复杂的同步模式，如生产者-消费者问题，其中 GPU 作为生产者生成数据，而 CPU 或其他 GPU 作为消费者使用这些数据。
当 CPU 访问用作信号量的内存时，需要使用 volatile 关键字。这是因为编译器默认会对内存访问进行优化，但信号量需要保证每次访问都是直接对内存的操作，而不是从寄存器或缓存中读取。volatile 告诉编译器，该变量可能会在程序的控制之外发生变化，因此每次使用时都必须从内存中读取，而不是假设它的值。

6. 一致性控制（coherency controls）

ROCm defines two coherency options for host memory:

一致性内存（Coherent memory）：
- 支持在内核运行时进行细粒度同步。
- 内核可以执行对主机 CPU 或其他 GPU 可见的原子操作。
- 支持的同步指令包括 threadfence_system 和 C++11 风格的原子操作。
- 一致性内存不能被 GPU 缓存，可能会导致性能较低。
非一致性内存（Non-coherent memory）：
- 可以被 GPU 缓存，但在内核运行时不支持同步。
- 只能在命令边界（如内核结束或复制命令）进行同步。
- 当不需要细粒度同步时，适合高性能访问。

HIP 控制逻辑：

hipHostMalloc 函数通过分配标志提供控制内存一致性的能力。
HIP_HOST_COHERENT 环境变量用于控制默认行为，但在大多数情况下会被分配标志覆盖。

分配标志和环境变量控制逻辑：

未传递标志：
- 主机内存分配是一致性的，忽略 HIP_HOST_COHERENT 环境变量。
hipHostMallocCoherent=1：
- 主机内存分配将是一致性的，忽略 HIP_HOST_COHERENT 环境变量。
hipHostMallocMapped=1：
- 主机内存分配将是一致性的，映射到所有 GPU 的地址空间，忽略 HIP_HOST_COHERENT 环境变量。
hipHostMallocNonCoherent=1, hipHostMallocCoherent=0, hipHostMallocMapped=0：
- 主机内存将是非一致性的，忽略 HIP_HOST_COHERENT 环境变量。
其他 HostMalloc 标志设置，但未设置 hipHostMallocCoherent 或 hipHostMallocNonCoherent：
- 如果 HIP_HOST_COHERENT 被定义为 1，则主机内存分配是一致性的。
- 如果 HIP_HOST_COHERENT 未定义或定义为 0，则主机内存分配是非一致性的。
hipHostMallocCoherent=1 和 hipHostMallocNonCoherent=1：
- 这是非法的，不能同时设置这两个标志。

开发者可以根据应用程序的需求选择适当的内存一致性类型。如果需要在 GPU 内核执行期间进行原子操作和同步，应选择一致性内存。如果性能是关键考虑因素且可以避免细粒度同步，则可以选择非一致性内存。通过合理选择内存一致性类型，可以优化应用程序的性能和同步行为。

7. 零拷贝主机内存的可见性

零拷贝主机内存的可见性（visibility）是指在 GPU 执行过程中，对主机内存所做的更改何时对其他设备（如 CPU 或其他 GPU）可见。

（1）hipEventSynchronize

hipEventSynchronize 是 HIP API 中的一个函数，用于确保某个事件（event）在执行特定同步操作之前已经完成。

事件（Event）的作用：

在 GPU 编程中，事件通常用于跟踪和控制命令的执行顺序。事件可以记录在特定的时间点，例如，当一个内核开始执行或数据传输完成时。

hipEventSynchronize 的用途：

当你调用 hipEventSynchronize(event) 时，你是在告诉 HIP 运行时等待（同步）直到该事件完成。这意味着它将阻塞当前线程，直到事件所标志的操作在 GPU 上执行完毕。

开发者可以通过 hipEventSynchronize 控制 hipEvents 的释放范围。
默认情况下，每当记录事件时，GPU 会执行设备范围的获取和释放操作，这使得主机和设备内存对同一设备上执行的其他命令可见。

同步的级别：

设备级别同步：默认情况下，HIP 事件会在设备级别上同步，确保同一设备上的后续命令在事件完成之前不会开始执行。
系统级别同步：通过 hipEventCreateWithFlags 使用 hipEventReleaseToSystem 标志，可以创建一个在系统级别上同步的事件。这种类型的事件在记录时会使所有主机内存（无论是一致性还是非一致性）对系统中的其他代理（如 CPU 或其他 GPU）可见。

为什么使用 hipEventSynchronize：

确保数据一致性：在需要确保 GPU 上的操作在进一步处理之前已经完成的情况下使用。
性能分析：在性能基准测试中，事件可以用来测量命令执行所需的时间，hipEventSynchronize 可以确保测量的准确性。

性能影响：

使用 hipEventSynchronize 可能会导致性能下降，因为它强制执行线程等待 GPU 完成指定的操作。因此，它应该谨慎使用，特别是在性能敏感的应用程序中。

hipEventCreateWithFlags 选项：

hipEventReleaseToSystem：当事件被记录时执行系统范围的释放操作。这将使一致性和非一致性主机内存对系统中的其他代理可见，但可能涉及重量级操作，如缓存刷新。
hipEventDisableTiming：使用此标志创建的事件不记录分析数据，因此，如果用于同步，可以提供最佳性能。

内存一致性与事件：

一致性内存通常使用轻量级的内核同步机制，如原子操作，因此在大多数情况下不需要使用 hipEventReleaseToSystem。
非一致性内存可以被 GPU 缓存，但不能在内核运行时进行同步，可能需要在事件记录时使用系统级同步。

注意事项：

在使用 hipExtLaunchKernelGGL 或 hipExtLaunchKernel 进行内核调度时，通过 API 传递的事件不会被显式记录，并且应该仅用于获取特定启动的经过时间。
如果尝试在多个调度之间使用事件，例如，使用不同 hipExtLaunchKernelGGL/hipExtLaunchKernel 调用的开始和停止事件，这些未记录的事件将被视为无效，HIP 可能会从 hipEventElapsedTime 显示 "hipErrorInvalidHandle" 错误。

总结和建议：

一致性主机内存是默认选项，也是最易于使用的，因为它在特定的同步点对 CPU 可见，并允许内核内的同步命令（如 threadfence_system）透明地工作。
ROCm 还支持使用 "非一致性" 主机内存分配在 GPU 中缓存主机内存。这可以提供性能优势，但必须小心使用正确的同步机制。

（2）Direct Dispatch

Direct Dispatch 是 HIP 运行时的一个特性，它改变了传统的生产者-消费者模型，提高了 HIP 流的命令调度效率。

在 HIP 运行时，默认启用 Direct Dispatch。

传统调度模型：

在传统的 GPU 编程模型中，CPU（作为生产者）将命令放入一个队列中，然后 GPU（作为消费者）从这个队列中取出命令并执行。
这种模型通常涉及到在 CPU 端创建额外的线程来管理命令队列，这些线程负责将命令异步地提交给 GPU。

Direct Dispatch 模型：

直接排队：Direct Dispatch 允许 HIP 运行时直接将命令（或“数据包”）发送到 GPU，而不需要通过额外的线程或队列。这意味着命令几乎直接从发出它们的 CPU 线程传递到 GPU。
减少延迟：由于减少了线程调度和同步机制的开销，Direct Dispatch 可以减少从发出命令到 GPU 开始执行这些命令的总延迟。
减少线程开销：由于不需要额外的线程来管理命令队列，Direct Dispatch 减少了线程创建和调度的开销，这有助于降低运行时的资源消耗。

Direct Dispatch 的优势：

性能提升：Direct Dispatch 可以提高应用程序的性能，因为它减少了命令调度的延迟。
简化编程模型：它简化了生产者-消费者模型，因为不需要为每个流创建和管理额外的线程。
减少同步开销：减少了由于线程同步（如锁和原子操作）引起的延迟。

如何禁用 Direct Dispatch：

如果出于某些原因需要禁用 Direct Dispatch（例如，与现有应用程序的兼容性问题），可以通过设置环境变量 AMD_DIRECT_DISPATCH=0 来实现。

结论：

Direct Dispatch 是 HIP 为了提高 GPU 计算任务的执行效率而设计的特性。它通过减少 CPU 和 GPU 之间的调度延迟，使得 GPU 任务的启动更加迅速，从而提高整体性能。然而，是否使用 Direct Dispatch 应根据应用程序的具体需求和性能测试结果来决定。

（3）HIP Runtime Compilation

HIP Runtime Compilation（简称 hipRTC）是 HIP API 的一个特性，它支持在程序运行时编译 GPU 执行的内核代码。

运行时编译的优势：

即时优化：
- hipRTC 可以在程序运行时根据实际的 GPU 硬件特性进行即时优化，这可能比静态编译时的优化更加精确和高效。
适应不同硬件：
- 由于代码是在运行时编译的，开发者可以为不同的 GPU 设备或不同的运行时条件定制优化策略。
简化开发流程：
- 开发者可以使用 HIP 源代码字符串，而不需要在开发过程中管理二进制内核对象文件。

hipRTC 的基本工作流程：

创建 hipRTC 程序：
- 使用 hiprtcCreateProgram 创建一个 hipRTC 程序对象。
编译 HIP 源码：
- 将 HIP 源代码作为字符串传递给 hiprtcCompileProgram 函数进行编译。
获取编译结果：
- 编译成功后，可以从 hipRTC 程序对象中获取编译后的二进制代码。
加载和执行：
- 使用 HIP 的常规 API 将编译后的二进制代码加载到 GPU 上，并像普通的内核一样执行它们。
销毁 hipRTC 程序：
- 使用结束后，使用 hiprtcDestroyProgram 销毁 hipRTC 程序对象，释放相关资源。

示例代码

// 假设我们有一个名为 "kernel.cu" 的 HIP 源文件，内容存储在 hipSource 字符串中
const char* hipSource = "-- Your HIP kernel code here --";

// 创建 hipRTC 程序
hiprtcProgram program;
hiprtcCreateProgram(&program, hipSource, "kernel.cu", 0, NULL, NULL);

// 编译源代码
hiprtcResult compileResult = hiprtcCompileProgram(program);

if (compileResult != HIPRTC_SUCCESS) {
    // 处理编译错误
    size_t logSize;
    hiprtcGetProgramLogSize(program, &logSize);
    char* log = new char[logSize];
    hiprtcGetProgramLog(program, log);
    std::cerr << "HIP RTC compile log:\n" << log << std::endl;
    delete[] log;
    // 清理资源并退出
    hiprtcDestroyProgram(program);
    return -1;
}

// 获取编译后的二进制大小
size_t binarySize;
hiprtcGetBinarySize(program, &binarySize);

// 创建足够大的缓冲区来存储编译后的二进制代码
char* binary = new char[binarySize];

// 从 hipRTC 程序获取编译后的二进制代码
hiprtcGetCode(program, binary);

// 加载编译后的二进制代码到 GPU
hipFunction_t function;
hipModule_t module;
hipGetModuleAndFunction(&module, &function, binary);

// 准备内核参数
float *device_vector; // 假设已经分配并初始化了 GPU 内存
size_t size = ...;    // 向量的大小

void* kernelArgs[] = {&device_vector, &size};

// 执行内核
hipModuleLaunchKernel(function,
                      gridDim, // 网格的维度
                      blockDim, // 块的维度
                      0,        // 共享内存的大小，用 0 表示不需要共享内存
                      0,        // 流（stream）的句柄，用 0 表示默认流
                      kernelArgs);

// 可选：等待默认流完成所有工作
hipStreamSynchronize(0);

// 清理资源
delete[] binary;
hiprtcDestroyProgram(program);

注意事项：

使用 hipRTC 可能会增加程序的启动时间，因为需要在程序运行时进行编译。
运行时编译的代码仍然需要遵循 HIP 的编程模型和约束。

hipRTC 提供了一个灵活的方式来编译和执行 GPU 代码，允许在不同的运行时条件下进行优化，并且可以简化开发流程，因为不需要在编译时生成和处理二进制内核对象文件。

（4）HIP Graph

HIP Graph 是一种在 HIP (Heterogeneous-compute Interface for Portability) 中用于构建和管理复杂的 GPU 执行依赖关系的机制。使用 HIP Graph，开发者可以创建一个包含多个执行节点（如内核执行、内存复制等）的图形化任务依赖结构，然后提交给 GPU 执行，从而实现更细粒度的性能优化和资源管理。

HIP Graph 允许开发者定义任务之间的依赖关系，例如，一个内核执行可能依赖于之前的数据复制操作完成。
图中的每个节点代表一个执行任务，节点之间的边代表任务的先后依赖关系。
可以在图的构建过程中捕获错误，而不必等到所有任务都提交给 GPU。
在 HIP 中，Graph 通常与流（Stream）概念结合使用，流可以看作是执行图中任务的线性序列。

示例代码

#include 
#include 

int main() {
    // 初始化 HIP
    hipSetDevice(0);

    // 定义内核函数和其他相关变量
    // ...

    // 创建一个新的图对象
    hipGraph_t graph;
    hipGraphCreate(&graph, 0);

    // 创建内核节点
    hipKernelNodeParams kernelNodeParams1 = {0};
    kernelNodeParams1.func = myKernel1; // 假设 myKernel1 是一个已定义的内核函数
    // 设置 kernelNodeParams1 的其他参数...

    hipGraphNode_t kernelNode1;
    hipGraphAddKernelNode(&kernelNode1, graph, NULL, &kernelNodeParams1);

    hipKernelNodeParams kernelNodeParams2 = {0};
    kernelNodeParams2.func = myKernel2; // 假设 myKernel2 是另一个内核函数
    // 设置 kernelNodeParams2 的其他参数...

    hipGraphNode_t kernelNode2;
    hipGraphAddKernelNode(&kernelNode2, graph, NULL, &kernelNodeParams2);

    // 创建内存复制节点
    hipMemcpy3DParms memcpyParams = {0};
    // 设置 memcpyParams 来定义内存复制操作...

    hipGraphNode_t memcpyNode;
    hipGraphAddMemcpyNode(&memcpyNode, graph, NULL, &memcpyParams);

    // 设置依赖关系：kernelNode2 依赖于 kernelNode1，memcpyNode 依赖于 kernelNode2
    hipGraphNode_t dependencies1[] = {kernelNode1};
    hipGraphAddDependencies(graph, kernelNode2, dependencies1, 1);

    hipGraphNode_t dependencies2[] = {kernelNode2};
    hipGraphAddDependencies(graph, memcpyNode, dependencies2, 1);

    // 实例化图
    hipGraphExec_t graphExec;
    hipGraphInstantiate(&graphExec, graph, NULL, NULL, 0);

    // 执行图
    hipGraphLaunch(graphExec, 0);

    // 同步默认流，等待图执行完成
    hipStreamSynchronize(0);

    // 销毁图和图实例
    hipGraphDestroy(graph);
    hipGraphExecDestroy(graphExec);

    return 0;
}

（5）long double类型的使用

在 HIP-Clang 中，long double 类型在 x86_64 架构上通常是一个 80 位的扩展精度格式，这种格式提供了比标准的 IEEE 双精度浮点数（double）更高的精度。然而，这种 80 位的扩展精度格式并不被 AMD GPU 支持，因为 AMD GPU 通常只支持 IEEE 标准的单精度（float）和双精度（double）浮点数。

HIP-Clang 为了保持兼容性，当目标是 AMD GPU 时，会将 long double 类型视为 IEEE 双精度（double）类型。

（6）FMA and Contractions

Fused Multiply-Add (FMA) 是一种在现代处理器中支持的指令，它允许将乘法和加法操作融合为一个单独的指令，从而提高性能并减少可能的数值误差。在 HIP-Clang 编译器中，FMA 和收缩（contractions）的使用取决于编译器的设置和目标硬件的特性。

默认情况下，HIP-Clang 假设使用 -ffp-contract=fast 参数，这可以启用浮点运算的融合，提高性能。对于 x86_64 架构，由于通用目标默认不支持 FMA（Fused Multiply-Add，即融合乘加）指令集，所以 FMA 默认是关闭的。如果您希望在 x86_64 架构上启用 FMA，可以通过使用 -march=native 指令或者 mfma 来指定，这样编译器就会生成针对支持 FMA 指令集的 CPU 的代码。
此外，当启用了收缩（contractions）而 CPU 没有启用 FMA 指令集时，GPU 可能会产生与 CPU 不同的数值结果。这是因为不同的硬件平台可能使用不同的算法或硬件特性来执行相同的运算，这可能导致最终结果存在差异。
在编译代码时，如果想要检测 CPU 是否支持 FMA 指令集，可以通过查看 /proc/cpuinfo 文件来获取 CPU 支持的指令集信息。如果输出中包含 fma 标志，那么 CPU 支持 FMA 指令集。在某些情况下，编译器也会定义特定的宏，如 __FMA__，来指示 FMA 指令集的支持。
在处理数值计算时，需要注意 GPU 和 CPU 可能会因为硬件架构、浮点数精度、运算优化等不同而产生不同的结果。尤其是在进行大量计算或使用高级数学函数时，这种差异可能会更加明显。因此，如果对数值精度有严格要求，可能需要在相同的硬件平台上执行计算，或者采取其他措施来确保结果的一致性。

（7）_Float16类型的使用

_Float16 类型是一种半精度浮点数类型，它在某些编译器和平台上可能没有稳定的 ABI（应用程序二进制接口）。这意味着如果在 x86_64 架构上使用 Clang（或 hipcc）和 gcc 编译器，并且一个编译器编译了宿主函数的定义，而另一个编译器编译了调用者，那么作为函数参数或返回类型使用 _Float16 或包含 _Float16 的聚合类型可能会导致未定义的行为。这是因为 x86_64 上的通用目标默认不支持 _Float16，并且 _Float16 在 x86_64 上缺乏稳定的 ABI 支持。

（8）数学函数的特殊舍入模式

HIP 并不支持带有特定舍入模式的数学函数，这些模式包括向上舍入（ru）、向下舍入（rd）和向零舍入（rz）。HIP 仅支持最接近舍入模式（rn）。尽管如此，带有后缀 _ru、_rd 和 _rz 的数学函数实际上和带有 _rn 后缀的数学函数以相同的方式实现。这些后缀的存在主要是作为一个权宜之计，以确保使用这些特定舍入模式的程序能够被编译。

这意味着，如果你在 HIP 程序中使用这些特定的舍入模式，实际上它们并不会改变函数的舍入行为，而是会采用默认的最接近舍入模式。

（9）静态库创建

HIP-Clang 支持生成两种类型的静态库：

第一种类型的静态库：这种库不导出设备（GPU）函数，只导出和启动库中的宿主（CPU）函数。它的优点是可以与非 hipcc 编译器（例如 gcc）链接。此外，这种类型的库包含带有嵌入式设备代码的宿主对象，这些设备代码以胖二进制（fat binaries）的形式存在。这种库是通过使用 --emit-static-lib 标志来生成的。

创建和使用这种类型静态库的示例命令如下：

hipcc hipOptLibrary.cpp --emit-static-lib -fPIC -o libHipOptLibrary.a
gcc test.cpp -L. -lhipOptLibrary -L/path/to/hip/lib -lamdhip64 -o test.out

这里，hipcc 用于编译生成 .a 静态库文件，而 gcc 用于链接该静态库并编译测试程序。

第二种类型的静态库：这种库导出设备函数以供其他代码对象链接。不过，这需要使用 hipcc 作为链接器。

创建这种类型静态库的示例命令如下：

hipcc hipDevice.cpp -c -fgpu-rdc -o hipDevice.o
ar rcsD libHipDevice.a hipDevice.o
hipcc libHipDevice.a test.cpp -fgpu-rdc -o test.out

在这个例子中，首先使用 hipcc 编译 hipDevice.cpp 并生成对象文件 .o，然后使用 ar 命令创建静态库。最后，使用 hipcc 链接该静态库和其他源文件，生成最终的可执行文件。

这两种方法各有用途，第一种方法提供了与非 HIP 编译器链接的能力，而第二种方法适用于完全在 HIP 环境下编译和链接的场合。开发者可以根据项目需求和编译环境选择合适的方法来创建和使用静态库。

你可能感兴趣的:(HIP,Rocm,异构计算)

使用 AMD ROCm 容器入门：从基础镜像到定制解决方案 109702008 #ROCm 人工智能
GettingstartedwithAMDROCmcontainers:frombaseimagestocustomsolutions—ROCmBlogs2025年1月16日，作者:MattElliott在从事技术工作超过二十年后，我亲身见证了容器化如何改变我们开发和部署应用程序的方式。容器将应用程序及其依赖项打包成标准单元，使软件在不同环境中具有良好的可移植性和一致性。当我们将这种容器化的力量与
mongodb数据库备份迁移 windows -> linux weixin_30597269 数据库操作系统 json
mongodb数据库备份迁移windows->linuxcd到本机mongodb的安装目录如：C:\ProgramFiles\MongoDB\Server\3.4\bin可以发现里面除了可以启动mongodb的mongod.exe还有很多启动程序其中mongodump.exe和mongorestore.exe就分别是用来数据备份迁移的mongodump备份数据库常用命令格mongodump-hIP
360智算中心万卡GPU集群架构分析科技互联人生科技数码人工智能硬件架构系统架构人工智能
360智算中心：万卡GPU集群落地实践 360智算中心是一个融合了人工智能、异构计算、大数据、高性能网络、AI平台等多种技术的综合计算设施，旨在为各类复杂的AI计算任务提供高效、智能化的算力支持。360智算中心不仅具备强大的计算和数据处理能力，还结合了AI开发平台，使得计算资源的使用更加高效和智能化。360内部对于智算中心的核心诉求是性能和稳定性，本文将深入探讨3
增强大型语言模型（LLM）可访问性：深入探究在单块AMD GPU上通过QLoRA微调Llama 2的过程 109702008 人工智能 #ROCm #python 语言模型 llama 人工智能
EnhancingLLMAccessibility:ADeepDiveintoQLoRAThroughFine-tuningLlama2onasingleAMDGPU—ROCmBlogs基于之前的博客《使用LoRA微调Llama2》的内容，我们深入研究了一种称为量化低秩调整（QLoRA）的参数高效微调（PEFT）方法。本次重点是利用QLoRA技术在单块AMDGPU上，使用ROCm微调Llama-2
解锁辅助驾驶新境界：基于昇腾 AI 异构计算架构 CANN 的应用探秘倔强的石头_ AIGC 人工智能架构
博客主页：倔强的石头的CSDN主页Gitee主页：倔强的石头的gitee主页⏩文章专栏：《AI大模型》期待您的关注目录一、引言二、CANN是什么1.异构计算与人工智能的关系2.CANN的定义和作用3.CANN的技术优势三、基于CANN的辅助驾驶AI应用原理1.目标检测算法2.智能检测流程3.算力平台支持四、基于CANN的辅助驾驶AI优势1.高效训练2.精准检测3.快速编程4.产业应用五、部署实操六
使用amd显卡本地运行ollama模型（RX6700）丨丿丶176 ollama运行大模型语言模型
查看amd显卡是否支持ROCmAMD支持官网因为RX6700不支持HIPSDK，所以需要根据型号去ROCmLibs查找对应压缩包RX6700对应型号为gfx1031，对应的压缩包为rocm.gfx1031.for.hip.sdk.6.1.2.optimized.with.little.wu.s.logic.7z下载安装包后，继续处理ollama的安装因为官方不支持RX6700显卡加速，所以需要去o
华为CANN架构与Ascend C算子开发 z1931195 华为
CANN架构CANN（ComputeArchitectureforNeuralNetworks）是华为专为应对人工智能场景而推出的一种新型异构计算架构。在当前快速发展的AI技术背景下，CANN致力于提供一种高效且灵活的解决方案，以支持多种AI框架的应用。其设计不仅仅关注于上层应用的兼容性，同时也服务于底层AI处理器的优化和编程需求，发挥了承上启下的关键作用，成为华为昇腾AI处理器计算效率提升的核心
MindIE+MindFormers推理方案指导人工智能pytorch
组件介绍CANNCANN是什么异构计算架构CANN（ComputeArchitectureforNeuralNetworks）是昇腾针对AI场景推出的异构计算架构，向上支持多种AI框架，包括MindSpore、PyTorch、TensorFlow等，向下服务AI处理器与编程，发挥承上启下的关键作用，是提升昇腾AI处理器计算效率的关键平台。同时针对多样化应用场景，提供多层次编程接口，支持用户快速构建
Transiting from CUDA to HIP（三）青禾子的夏 HIP 异构计算 Rocm 开发语言
一、Workarounds1.memcpyToSymbol在HIP(Heterogeneous-computeInterfaceforPortability)中，hipMemcpyToSymbol函数用于将数据从主机内存复制到设备上的全局内存或常量内存中，这样可以在设备端的内核中访问这些数据。这个功能特别有用，因为它允许在主机端定义数据符号，并在设备端的内核中使用这些符号。#include#inc
linux系统传输大文件报错_运维错题总结（一） weixin_39991305 linux系统传输大文件报错
1、对linux下mysqldump备份命令的参数描述正确的是mysqldump-hip-uroot-pDBNAME>bck.sql解释：-h主机名-u用户名-p密码DBNAME数据库名2、linux中，一个端口能够接受tcp链接数量的理论上限是无上限解释：标识一个tcp链接的是，客户端和服务器的ip加端口号，尽管服务器ip地址和端口号一样，但是客户端ip地址不一样，而客户端端口号具有本地意义，理
AMD在行动：揭示应用程序跟踪和性能分析的力量 109702008 人工智能 #ROCm 编程人工智能 AMD
AMDinAction:UnveilingthePowerofApplicationTracingandProfiling—ROCmBlogs导言Rocprof是一款强大的工具，设计用于分析和优化基于AMDROCm平台上运行的HIP程序的性能，帮助开发者找出并解决性能瓶颈。Rocprof提供了多种性能数据，包括性能计数器、硬件追踪和运行时API/活动追踪等。Rocprof是一个命令行界面（CLI）
vastbase数据库异地备份仅此而已gzy bash linux 开发语言
编写备份脚本vidata_bak.shsource/etc/profilesource~/.bashrc/home/vastbase/local/vastbase/bin/vb_dump-hip地址hbczj（数据库）-Uroot（用户名）-p5432-W'123456(密码)'-f/home/vastbase/vastbase_data_bak/hbczj_$(date+%Y%m%d_%H_%M
Ascend C算子学习笔记张栗瑞-22373425 github
2024年鲲鹏&昇腾创新大赛集训营todo：回答问题链接：https://www.hiascend.com/forum/thread-0265155791127017253-1-1.html?fid=0163125572293226003提交笔记链接：昇腾论坛香橙派实验手册：昇腾论坛AscendC算子中级认证考试链接：微认证异构计算架构CANN背景AI创新在加速：从“预测推断”向“内容生成”延展：
驾驭多云环境，加速AI创新丨Animbus Cloud 8.3.0 算力调度平台升级发布 OpenInfra 算力调度多云大模型
大模型开启全球新一轮AI浪潮，伴随算力规模的爆发增长以及计算技术的多元创新，需要更稳定、高效、敏捷的异构计算基础设施，才能充分发挥对算力能力的重要支撑。作为开放智能云边架构引领者，九州未来凭借多年的技术积累、实践沉淀以及开源优势，面向算力服务新格局，根据用户需求出发，升级发布AnimbusCloud8.3.0算力调度平台，提供全面、统一、高效的一站式算力调度平台解决方案，在最大化保护企业数据安全性
Rocm-Programming with HIP 内存分配青禾子的夏 HIP Rocm 异构计算
1.主机内存（HostMemory）hipHostMalloc是HIPAPI中的一个函数，它用于在主机上分配特殊的内存，这种内存被称为"pinned"或"page-locked"内存。这种内存有以下特点和用途：GPU地址空间映射：分配的内存被映射到系统中所有GPU的地址空间。这意味着GPU可以直接访问这块内存，而不需要数据复制操作。加速数据传输：使用hipHostMalloc分配的内存可以加速主机
OpenCL在移动端GPU计算中的应用与实践 m0_67544708 java GPU OpenCL
一、引言移动端芯片性能的不断提升为在手机上进行计算密集型任务，如计算机图形学和深度学习模型推理，提供了可能。在Android设备上，GPU，尤其是高通Adreno和华为Mali，因其卓越的浮点运算能力，成为了异构计算中的重要组成部分。百度APP已经利用GPU计算加速深度模型推理和计算密集型业务。本文将介绍OpenCL的基础概念和简单编程。二、基础概念2.1异构计算异构计算指的是使用不同类型指令集和
Postgresql常用命令小白--AI postgresql oracle 数据库
1、连接数据库,默认的用户和数据库是postgrespsql-hIP地址-p端口-U数据库名2、创建数据库命令createdb[option…][dbname[description]]dbname:数据库名description：关于新创建的数据库相关的说明options：参数3、访问数据库1、列举数据库：\l2、选择数据库：\c数据库名3、查看该某个库中的所有表：\dt4、切换数据库：\cin
从源代码安装 rocSOLVER 并调试 rocSOLVER 在 Ubuntu 22.04 平台 Eloudy linux 高性能计算 pytorch
0,下载并编译rocBLAS的调试版本sudoaptinstallpython3.10-venvsudoaptinstalllibmsgpack-devsudopipinstalljoblibgitclone--recursivehttps://github.com/ROCm/rocBLAS.git$cdrocBLAS/$./install.sh-i-g构建时间也不短1，下载并编译rocSolve
使用 apt 源安装 ROCm 6.0.x 在Ubuntu 22.04.01 Eloudy linux 高性能计算
从源码编译rocSolver本人只操作过单个rocm版本的情景，20240218ubuntu22.04.011，卸载原先的rocmhttps://docs.amd.com/en/docs-5.1.3/deploy/linux/os-native/uninstall.html#Uninstallsingle-versionROCmpackagessudoaptautoremoverocm-core#
2021-05-05四单元复盘行管一班安璐
Part11、从本单元中我学到的最重要的概念（精读和视听说分别总结）精读：被动语态的应用视听说：如何问路，以前写文章要分点很清晰2，我在本片文章／音频／视频中学到的怦然心动的单词（精读和视听说分别总结）精读：intuition、priceless、subtle视听说：hip、intimidating、leisure3，在本片文章／音频／视频中我最喜欢的一句话（精读和视听说分别总结）精读：Stayh
深度学习笔记：推理服务 TaoTao Li tensorflow 深度学习深度学习人工智能机器学习
在线推理服务解决的问题样本处理特征抽取(生成)特征抽取过程特征定义通用定义具体定义特征抽取加速Embeding查询NN计算DL框架计算优化图优化量化优化异构计算CodeGen总结参考资料解决的问题模型训练解决模型效果问题，模型推理解决模型实时预测问题。推理服务是把训练好的模型部署到线上，进行实时预测的过程。如阿里的RTP系统顾名思义，实时预测是相对于非实时预测(离线预测)而言，非实时预测是将训练好
Windows安装DeepSpeed XerCis windows
文章目录问题描述解决方案AssertionError:Unabletopre-compileasync_io参考文献问题描述DeepSpeed是一款微软推出的深度学习优化库，它使分布式训练和推理变得简单高效。解决方案需要提前安装：PyTorch，版本最好>=1.9CUDA或ROCm编译器，如nvcc或hipcc安装VisualStudio，如2019自行编译pythonsetup.pybdist_
玩滑板的HIP-HOP DJ武艺，竟然是大自然派来的孩子王万物有的说
大家好，我是万碎爷，“万物有的说”的碎嘴青年，今天为你介绍个朋友——武艺。说起这个名字，很多人第一反应可能是某选秀节目里出来的歌手，而今天带你认识的武艺，是HIP-HOPDJ界里玩爬宠最好的滑板手，也是孩子们心中的跨界导师。他是中国HIP-HOP界资深人物；他是中国极限运动协会滑板裁判；他是单板滑雪和滑板教练；他是两栖爬行动物和昆虫爱好者；他是孩子们心中的跨界导师。话说能采访到他，算是意料之外，某
2019年目标清单开心的小溪
一个小伙伴跟我说，目标应该有可量化的产出，会更有助于目标的达成。【健康高于一切】1、早睡早起永远是第一目标吧。先从12点睡觉-8点起床做起！2、健身：希望从现在开始，把体重降到接近2位数。非常迷恋hip-hop，除了每周2次的zumba之外，希望自己可以扒3首完整的hip-hop舞蹈。年纪再大一些的话，就跳不动了。哈哈哈。好好吃饭，欢喜喝茶，静静翻书。勇敢，自信，再一直努力！【工作排第二吧，毕竟需
shell脚本修改mysql数据修改密码泛黄的青春丶个人学习学习记录 mysql 数据库
mysql5.0版本修改密码修改mysql用户demo用户密码，将oldPass修改为newPassmysql-udemo-poldPass-P3306-hip-e"setpassword=password('newPass')";mysql8.0版本修改密码修改mysql用户demo用户密码，将oldPass修改为newPass,该方式同样适用mysql5.0版本mysql-udemo-pold
阿里云异构计算类云服务器介绍（GPU云服务器、FPGA云服务器等）阿里云最新优惠和活动汇总
阿里云异构计算云服务器产品可为用户提供了软件与硬件结合的完整服务体系，助力您在人工智能业务中实现资源的灵活分配、弹性扩展、算力的提升以及成本的控制。异构计算类云产品包括GPU云服务器、神龙AI加速引擎AIACC、AI分布式训练通信优化库AIACC-ACSpeed、AI训练计算优化编译器AIACC-AGSpeed、集群极速部署工具FastGPU、GPU容器共享技术cGPU、弹性加速计算实例EAIS和
漫步莫小北的细雨
图片发自App图片发自App五年前的一次选择，从此开始了漫步的生活，这里有来自同系通哥和聪姐大佬的照顾，还有郭杨的sexy和小胡的power王昉娇的Hip-pop李根的bk、小易的风车、最骚的郭琦、最man的博哥，盼盼冯的绝招、小王子杨磊的高调、各种嘻哈通杀的涛哥，唯一一个bgirl天依带着一群组合、潘超王帆何伟屈尧的颜值担当里还有一个头转的熊乐乐，斯文的老曹和来自胡建王燕妮的欢乐，酷酷的王阔最壮
异构计算助力客户春节webp图片编码猫耳呀
摘要：背景与挑战技博客GigaOM曾报道：YouTube的视频略缩图采用WebP格式后，网页加载速度提升了10%；谷歌的Chrome网上应用商店采用WebP格式图片后，每天可以节省几TB的带宽，页面平均加载时间大约减少1/3；Google+移动应用采用WebP图片格式后，每天节省了50TB数据存储空间。背景与挑战科技博客GigaOM曾报道：YouTube的视频略缩图采用WebP格式后，网页加载速度
概念：HPC 分布式计算云计算异构计算 try_trying_try 打怪升级云计算概念
高性能计算(HighPerformanceComputing,HPC)泛指通过聚合计算能力来提供比传统计算机和服务器更强大的计算性能，HPC或超级计算环境可以使多个节点（计算机）以集群（互联组）的形式协同作业，在短时间内执行海量计算，从容应对这些规模庞大而又极其复杂的负载挑战。分布式计算将计算任务拆解成无需高频的单节点任务并分发给HPC系统内互联的节点、或分散在世界各地的闲置资源，以实现更大规模的
Linux下PCI设备驱动开发详解（一）北京不北 PCI设备驱动开发详解 linux 驱动开发
Linux下PCI设备驱动开发详解（一）PCI总线是目前应用最广泛的计算机总线标准，而且是一种兼容性最强，功能最全的计算机总线。而linux作为一种开源的操作系统，同时也为PCI总线与各种新型设备互联成为可能。尤其被现在的异构计算GPU/FPGA、软硬结合新的方向广泛运用。一、PCI设备和驱动概述应用程序位于用户空间，驱动程序位于内核空间。linux系统规定，用户空间不可以直接调用内核函数，所以必
Java实现的简单双向Map，支持重复Value superlxw1234 java 双向map
关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value
PL/SQL触发器基础及例子百合不是茶 oracle数据库触发器 PL/SQL编程
触发器的简介; 触发器的定义就是说某个条件成立的时候，触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用，也不能调用。触发器和过程函数类似过程函数必须要调用, 一个表中最多只能有12个触发器类型的,触发器和过程函数相似触发器不需要调用直接执行, 触发时间：指明触发器何时执行，该值可取： before：表示在数据库动作之前触发
[时空与探索]穿越时空的一些问题 comsci 问题
我们还没有进行过任何数学形式上的证明,仅仅是一个猜想..... 这个猜想就是; 任何有质量的物体(哪怕只有一微克)都不可能穿越时空,该物体强行穿越时空的时候,物体的质量会与时空粒子产生反应,物体会变成暗物质,也就是说,任何物体穿越时空会变成暗物质..(暗物质就我的理
easy ui datagrid上移下移一行商人shang js 上移下移 easyui datagrid
/** * 向上移动一行 * * @param dg * @param row */ function moveupRow(dg, row) { var datagrid = $(dg); var index = datagrid.datagrid("getRowIndex", row); if (isFirstRow(dg, row)) {
Java反射 oloz 反射
本人菜鸟，今天恰好有时间，写写博客，总结复习一下java反射方面的知识，欢迎大家探讨交流学习指教首先看看java中的Class package demo; public class ClassTest { /*先了解java中的Class*/ public static void main(String[] args) { //任何一个类都
springMVC 使用JSR-303 Validation验证杨白白 spring mvc
JSR-303是一个数据验证的规范，但是spring并没有对其进行实现，Hibernate Validator是实现了这一规范的，通过此这个实现来讲SpringMVC对JSR-303的支持。 JSR-303的校验是基于注解的，首先要把这些注解标记在需要验证的实体类的属性上或是其对应的get方法上。登录需要验证类 public class Login { @NotEmpty
log4j 香水浓 log4j
log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, HTML, DATABASE #log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, ROLLINGFILE, HTML #console log4j.appender.STDOUT=org.apache.log4j.ConsoleAppender log4
使用ajax和history.pushState无刷新改变页面URL agevs jquery 框架 Ajax html5 chrome
表现如果你使用chrome或者firefox等浏览器访问本博客、github.com、plus.google.com等网站时，细心的你会发现页面之间的点击是通过ajax异步请求的，同时页面的URL发生了了改变。并且能够很好的支持浏览器前进和后退。是什么有这么强大的功能呢？ HTML5里引用了新的API，history.pushState和history.replaceState，就是通过
centos中文乱码 AILIKES centos OS ssh
一、CentOS系统访问 g.cn ，发现中文乱码。于是用以前的方式：yum -y install fonts-chinese CentOS系统安装后，还是不能显示中文字体。我使用 gedit 编辑源码，其中文注释也为乱码。后来，终于找到以下方法可以解决，需要两个中文支持的包： fonts-chinese-3.02-12.
触发器 baalwolf 触发器
触发器(trigger)：监视某种情况，并触发某种操作。触发器创建语法四要素：1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete) 语法： create trigger triggerName after/before
JS正则表达式的i m g bijian1013 JavaScript 正则表达式
g:表示全局（global)模式，即模式将被应用于所有字符串，而非在发现第一个匹配项时立即停止。 i:表示不区分大小写（case-insensitive）模式，即在确定匹配项时忽略模式与字符串的大小写。 m:表示
HTML5模式和Hashbang模式 bijian1013 JavaScript AngularJS Hashbang模式 HTML5模式
我们可以用$locationProvider来配置$location服务（可以采用注入的方式，就像AngularJS中其他所有东西一样）。这里provider的两个参数很有意思，介绍如下。 html5Mode 一个布尔值，标识$location服务是否运行在HTML5模式下。 ha
[Maven学习笔记六]Maven生命周期 bit1129 maven
从mvn test的输出开始说起当我们在user-core中执行mvn test时，执行的输出如下： /software/devsoftware/jdk1.7.0_55/bin/java -Dmaven.home=/software/devsoftware/apache-maven-3.2.1 -Dclassworlds.conf=/software/devs
【Hadoop七】基于Yarn的Hadoop Map Reduce容错 bit1129 hadoop
运行于Yarn的Map Reduce作业，可能发生失败的点包括 Task Failure Application Master Failure Node Manager Failure Resource Manager Failure 1. Task Failure 任务执行过程中产生的异常和JVM的意外终止会汇报给Application Master。僵死的任务也会被A
记一次数据推送的异常解决端口解决 ronin47 记一次数据推送的异常解决
　　需求：从db获取数据然后推送到B 程序开发完成，上jboss,刚开始报了很多错，逐一解决，可最后显示连接不到数据库。机房的同事说可以ping 通。　　自已画了个图，逐一排除，把linux 防火墙　和　setenforce　设置最低。　　　service iptables stop
巧用视错觉-UI更有趣 brotherlamp UI ui视频 ui教程 ui自学 ui资料
我们每个人在生活中都曾感受过视错觉（optical illusion）的魅力。视错觉现象是双眼跟我们开的一个玩笑，而我们往往还心甘情愿地接受我们看到的假象。其实不止如此，视觉错现象的背后还有一个重要的科学原理——格式塔原理。格式塔原理解释了人们如何以视觉方式感觉物体，以及图像的结构，视角，大小等要素是如何影响我们的视觉的。在下面这篇文章中，我们首先会简单介绍一下格式塔原理中的基本概念，
线段树-poj1177-N个矩形求边长（离散化+扫描线） bylijinnan 数据结构算法线段树
package com.ljn.base; import java.util.Arrays; import java.util.Comparator; import java.util.Set; import java.util.TreeSet; /** * POJ 1177 (线段树+离散化+扫描线)，题目链接为http://poj.org/problem?id=1177
HTTP协议详解 chicony http协议
引言
Scala设计模式 chenchao051 设计模式 scala
Scala设计模式我的话：在国外网站上看到一篇文章，里面详细描述了很多设计模式，并且用Java及Scala两种语言描述，清晰的让我们看到各种常规的设计模式，在Scala中是如何在语言特性层面直接支持的。基于文章很nice，我利用今天的空闲时间将其翻译，希望大家能一起学习，讨论。翻译
安装mysql daizj mysql 安装
安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps (强制删除) 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i MySQL-server-5.5.31-2.el
HTTP状态码大全 dcj3sjt126com http状态码
完整的 HTTP 1.1规范说明书来自于RFC 2616，你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性，因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端，支持协议版本可以通过调用request
asihttprequest上传图片 dcj3sjt126com ASIHTTPRequest
NSURL *url =@"yourURL"; ASIFormDataRequest*currentRequest =[ASIFormDataRequest requestWithURL:url]; [currentRequest setPostFormat:ASIMultipartFormDataPostFormat];[currentRequest se
C语言中，关键字static的作用 e200702084 C++c C#
在C语言中，关键字static有三个明显的作用： 1)在函数体，局部的static变量。生存期为程序的整个生命周期，（它存活多长时间）；作用域却在函数体内（它在什么地方能被访问（空间））。一个被声明为静态的变量在这一函数被调用过程中维持其值不变。因为它分配在静态存储区，函数调用结束后并不释放单元，但是在其它的作用域的无法访问。当再次调用这个函数时，这个局部的静态变量还存活，而且用在它的访
win7/8使用curl geeksun win7
1. WIN7/8下要使用curl，需要下载curl-7.20.0-win64-ssl-sspi.zip和Win64OpenSSL_Light-1_0_2d.exe。下载地址： http://curl.haxx.se/download.html 请选择不带SSL的版本，否则还需要安装SSL的支持包 2. 可以给Windows增加c
Creating a Shared Repository; Users Sharing The Repository hongtoushizi git
转载自： http://www.gitguys.com/topics/creating-a-shared-repository-users-sharing-the-repository/ Commands discussed in this section: git init –bare git clone git remote git pull git p
Java实现字符串反转的8种或9种方法 Josh_Persistence 异或反转递归反转二分交换反转 java字符串反转栈反转
注：对于第7种使用异或的方式来实现字符串的反转，如果不太看得明白的，可以参照另一篇博客： http://josh-persistence.iteye.com/blog/2205768 /** * */ package com.wsheng.aggregator.algorithm.string; import java.util.Stack; /**
代码实现任意容量倒水问题 home198979 PHP 算法倒水
形象化设计模式实战 HELLO!架构 redis命令源码解析倒水问题：有两个杯子，一个A升，一个B升，水有无限多，现要求利用这两杯子装C
Druid datasource zhb8015 druid
推荐大家使用数据库连接池 DruidDataSource. http://code.alibabatech.com/wiki/display/Druid/DruidDataSource DruidDataSource经过阿里巴巴数百个应用一年多生产环境运行验证，稳定可靠。它最重要的特点是：监控、扩展和性能。下载和Maven配置看这里： http
两种启动监听器ApplicationListener和ServletContextListener spjich java spring 框架
引言:有时候需要在项目初始化的时候进行一系列工作，比如初始化一个线程池，初始化配置文件，初始化缓存等等，这时候就需要用到启动监听器，下面分别介绍一下两种常用的项目启动监听器 ServletContextListener 特点: 依赖于sevlet容器，需要配置web.xml 使用方法: public class StartListener implements
JavaScript Rounding Methods of the Math object 何不笑 JavaScript Math
The next group of methods has to do with rounding decimal values into integers. Three methods — Math.ceil(), Math.floor(), and Math.round() — handle rounding in differen