岐岇

并行算法设计与性能优化刘文志第9章并行编程模式实践

为了挖掘硬件的性能，并行算法的实践模式还与具体的硬件有关。

模式的意义在于挖掘算法的相似性，以同样的方式解决类似的问题。

9.1 map模式

map实践模式直观的表述是：对每个数据施加同样的运算。

在应用map模式时，需要注意算法的粒度和硬件的粒度。

算法的粒度是指：某些应用在一种粒度上看是map模式，而在另一种粒度上看却不是map模式。例如对300块不同的数据排序，那么对数据块来说，是map模式。对于块内的每一个数据而言，这又不是map模式，因为对每个数据操作可能并不相同。

硬件的粒度是指：主流处理器编程都可以分为线程化和向量化两个层次，map模式既可以映射到线程上，也可以映射到向量上，但是这两种映射可能会导致不同的性能。

1. 串行实现

计算向量的2范数，要求先求向量每个元素的平方和，然后开方。

inline float map(float d)
{
    return d * d;
}

void computeSqure(int len, const float* __restrict__ in, float* __restrict__ out)
{
    for (int i = 0; i < len; i++)
        out[i] = map(in[i]);
}

2. SIMD指令实现

因为SIMD指令都是作用在固定长度的数据上，因此作用在数据上的map模式会很合适。

void computeSqureNEON(int len, const float* __restrict__ in, float* __restrict__ out)
{
    int end = len - len % 4;
    for (int i = 0; i < end; i += 4)
    {
        float32x4_t a = vldlq_f32(in + i);
        a = vmulq_f32(a, a);
        vstlq_f32(out + i, a);
    }
    for (int i = end; i < len; i++)
        out[i] = map(in[i]);
}

在计算量比较小的情况下，map模式进一步的优化方式主要是循环展开。

3. 多核处理器上实现

比如OpenMP上;

void computeSqureNEON(int len, const float* __restrict__ in, float* __restrict__ out)
{
    int end = len - len % 4;
#pragma omp parallel for
    for (int i = 0; i < end; i += 4)
    {
        float32x4_t a = vldlq_f32(in + i);
        a = vmulq_f32(a, a);
        vstlq_f32(out + i, a);
    }
    for (int i = end; i < len; i++)
        out[i] = map(in[i]);
}

4. 在GPU上实现

inline float map(float d)
{
    return d * d;
}

__kernel void computeSqureOCL(int len, const float* __restrict__ in, float* __restrict__ out)
{
    int tid = get_global_id(0);
    if (tid < len)
        out[tid] = map(in[tid]);        
}

9.2 reduce模式

ruduce表示从多个输入中产生一个输出，在不考虑误差的前提下，输出的输入的多个数据的顺序无关。比如求多个数据的和、最大值等。

reduce模式的一个变种是segment_reduce，表示输出的数据并非只有一个，可能是多个，比如求图像像素的直方图。

并行reduce时，因为数据的计算顺序发生改变可能会导致串行的结果和并行结果有微小差异，这主要是浮点运算不满足结合律和分配率。

1. 串行实现

使用reduce模式；来对平方的结果求和。

float computeSum(int len, const float* __restrict__ out)
{
    float sum = 0.0f;
    for (int i = 0; i < len; i++)
        sum += out[i];

    return sum;
}

2. SIMD指令实现

float computeSumNEON(int len, const float* restrict out)
{
    int end = len - len % 4;
    float32x4_t sum = vdupq_n_f32(0.0f);
    for (int i  = 0; i < end; i += 4)
    {
        float32x4_t a = vldlq_f32(out + i);
        sum = vaddq_f32(sum, a);
    }

    float ret = 0.0f;
    for (int i = end; i < len; i++)
        ret += out[i];

    ret += (sum[0] + sum[1]) + (sum[2] + sum[3]);

    return ret;
}

3. 多核处理器上实现

从定义上看，reduce的模式的作用单位是数据块，因此多核会很适合。OpenMP提供reduction来支持reduce，其他语言需要手动实现。pthread实现如下：

typedef struct
{
    int len;
    float* addr;
    float partRet;
}ArgData;


void* computeSumPthread(void* data)
{
    ArgData* arg = (ArgData*)data;
    Arg->partRet = computeSumNEON(arg->len, arg->addr);
    return NULL;
}

float computeSumNeonPthreadMulti(int len, const float* __restrict__ out)
{
    int index[NUM_THREADS];
    pthread_t t[NUM_THREADS];
    ArgData data[NUM_THREADS];

// init data
...

    for (int i = 0; i < NUM_THREADS; i++)
        pthread_create(i + 1, NULL, computeSumPthread, data + i);
    
    for (int i = 0; i < NUM_THREADS; i++)
        pthread_join(t[i], NULL);

    float sum = 0.0f;
    for (int i = 0; i < NUM_THREADS; i++)
        sum += data[i].partRet;

    return sum;

}

由于每个线程需要知道自己要计算的数据，而pthread_create建立的线程执行的函数只能有一个void*函数，故需要使用一个结构体打包数据，ArgData即是为了完成这一目的。

4. GPU实现

// WCS is the size of workgroup
inline void computeWorkgroup(local float* restrict out)
{
    int lid = get_local_id(0);
    for (int i = WCS / 2; i > 0; i = i /2)
    {
        if (lid < i)
            out[lid] += out[i + lid];
        
        barrier(CLK_LOCAL_MEM_FENCE);
    }
}


void kernel computeOCLStage(const int len, global float* restrict out, float* restrict temp, local float* loacl_out)
{
    int gid = get_global_id(0);
    int globalSize = get_gobal_size(0);
    int lid = get_local_id(0);

    float sum = 0.0f;
    for (int i = gid; i < len; i += globalSize)
        sum += out[i];

    local_out[lid] = sum;
    barrier(CLK_LOCAL_MEM_FENCE);

    computeSumWorkgroup(local);

    if (0 == lid) temp[get_group_id(0)] = local_out[0];
}

9.3 结合map和reduce模式

如果不保存map的结果到一个数组中，而是直接用于作为reduce的输入，那么就节约了内存读写的时间。

1. 串行实现

inline float map(float d);
{
    return d*d;
}

float computeSquareSum(int len, const float* restrict in)
{
    float sum = 0.0f;
    for (int i = 0; i < len; i++)
        sum += map(in[i]);

    return sum;
}

2. SIMD实现

NEON支持浮点乘加指令，这可以减少循环内指令的数量。

float computeSqureSumNEON(int len, const float* restrict in)
{
    int end = len - len % 4;
    float32x4_t sum = vdupq_n_f32(0.0f);
    for (int i = 0; i < end; i += 4)
    {
        float32x4_t a = vldlq_f32(in + i);
        sum = vmlaq_f32(sum, a, a);
    }

    float ret = 0.0f;
    for (int i = end; i < len; i++)
    {
        ret += map(in[i]);
    }

    ret += (sum[0] + sum[1]) + (sun[2] + sum[3]);

    return ret;
}

3.GPU实现

inline void computeSqureWorkgroup(local float* restrict out)
{
    int lid = get_local_id(0);
    for (int i = WGS / 2; i > 0; i = i /2)
    {
        if (lid < i)
            out[lid] += out[lid + i];
        barrier(CLK_LOCAL_MEM_FENCE);
    }
}


void kernel computeSqureOCLStagel(const int len, global float* restrict in, float* restrict temp, local float* local_out)
{
    int gid = get_global_id(0);
    int globalSize = get_global_size(0);
    int lid = get_local_id(0);

    float sum = 0.0f;
    for (int i = gid; i < len; i += globalSize)
    {
        sum += in[i] * in[i];
    }

    local_out[lid] = sum;
    barrier(CLK_LOCAL_MEM_FENCE);

    computeSumWorkGroup(local_out);
    
    if (0 == lid) temp[get_group_id(0)] = local_out[0];
}

9.4 scan模式

scan模式通常也被称为前缀和。scan可以作为许多算法的基础，如排序、划分等等。

scan的并实现的访存量大约是串行实现的访存量的1.5倍，而并行实现的计算最大约是串行的实现的计算量的2倍。

1. 串行实现

void scan(int len, float* __restrict__ data)
{
    float temp = data[0];
    for (int i = 1; i < len; i++)
    {
        temp += data[i];
        data[i] = temp;
    }
}

2. 多核实现

在多核上实现scan，可通过3步：

第一步：每个核心计算一个或多个数据块的内容，这可使用reduce模式到达。此步需要读原始数据空间一次，并且写与线程数目相同的数据。

第二步：对每个核心计算的结果串行的做scan。由于计算量不大，这一步可以串行处理。此步需要读写线程数目相同的数据。

第三步：每个核心计算一个或多个数据块的scan，这一步可多个线程并行操作。此步需要读写原始数据空间各一次，同时需要读与线程数目相同的数据(第二步的结果)。

除了第二步，其余两步都可以并行计算。

详情参考多核：前缀和

3. GPU实现

cuda：前缀和

// warp内reduce求和
template
__device__ T reduceInWarp(int idInWarp, T data)
{
    T ret = data;
    for (int i = NT / 2; i > 0; i /= 2)
    {
        data = __shfl_down(ret, i, NT);
        if (idInWarp < i) ret += data;
    }

    return ret;
}

// warp内计算前缀和
template
__device__ T scanInWarp(int inInWarp, T data)
{
    T ret = data;
    for (int i = 0; i < NT; i*= 2)
    {
        data = __shfl_up(ret, i, NT);
        if (idInWarp >= i) ret += data;
    }

    return ret;
}

// warp间前缀和
template
__global__ void scanWarpReduceInBlock(int n, const T* in, T* out)
{
    int id = threadIdx.x + blockIdx.x * blockDim.x;
    int warpId = threadIdx.x / 32;
    int idInWarp = thredIdx.x % 32;

    T data = in[id];

    // BS/32 is enough, use 32 to imit boundary check
    __shared__ T sum[32]; 
    T s = reduceInWarp<32>(idInWarp, data);
    if (0 == idInWarp) 
        sum[warpId] = s;

    __syncthreads();

    if (0 == warpId)
    {
        s = scanInWarp(idInWarp, sum[idInWarp]);
        if (idInWarp < BS / 32)
            out[blockIdx.x * (BS / 32) + idInWarp] = s;

    }
}

// 单warp计算block内前缀和
template
__global__ void scanStrideOneWarp(int n, T* data)
{
    int idInWarp = threadIdx.x;
    int rem = n % 32;
    int end = n - rem;

    __shared__ T sum;

    if (0 == idInWarp)
        sum = (T)0;

    for (int i = idInWarp; i < end; i += 32)
    {
        T d = data[(i + 1) * stride - 1];
        if (0 == idInWarp)
            d += sum;

        T v = scanInWarp<32>(idInWarp, d);
        if (32 == idInWarp)
            sum += v;

        data[(i + 1) * stride - 1] = v;
    }

    if (0 != rem)
    {
        T d = (idInWarp < rem ? data[stride * (1 + end + idInWarp) - 1] : (T)0);
        if (0 == idInWarp)
            d += sum;
        T v = scanInWarp<32>(idInWarp, d);
        if (idInWarp < rem)
            data[stride * (1 + end + idInWarp) - 1] = v;
    }
}

// Warp内前缀和
template 
__global__ void scanStrideFinal(int n, const T* in, const T* warpBlockScanResult, T* out)
{
    int bid = blockIdx.x;
    int tid = threadIdx.x;
    int id = bid * blockDimx.x + tid;
    int warpId = tid / 32;
    int idInWarp = tid % 32;

    T blockScanResult = (0 == bid ? 0 : warpBlockScanResult[stride * bid - 1]);
    T warpScanResult = (0 == warpId ? 0 : warpBlockScanResult[stride * bid + warpId - 1]);
    T warpScanStart = blockScanResult + warpScanResult;
    
    T v = (id < n ? in[id] : 0);
    if (0 == idInWarp)
        v += warpScanStart;
    T ret = scanInWarp<32>(idInWarp, v);
    if (id < n)
        out[id] = ret;
}

9.5 zip/unzip模式

对于串行程序而言，由结构体组成的数组对缓存的利用更好，表达数据也更直观。而数组组成的结构体则更易于并行化和使用处理器支持的SIMD指令。zip模式用来将数组组成的结构体转换成结构体组成的数组，而unzip模式刚好相反。

1.串行实现

inline float3 make_float3(float x, float y, float z)

{
    float3 xyz;
    xyz.x = x;
    xyz.y = y;
    xyz.z = z;
    return xyz;
}

void zip(int len, const float* x, const float* y, const  float* z, float3* xyz)
{

    for (int i = 0; i < len; i++)
    {
        float xt = x[i];
        float yt = y[i];
        float zt = z[i];
        xyz[i] = make_float3(xt, yt, zt);
    }
}

void unzip(int len, float* x, float* y, float* z, const float3* xyz)
{

    for (int i = 0; i < len; i++)
    {
        float3 xyzt = xyz[i];
        x[i] = xyzt.x;
        y[i] = xyzt.y;
        z[i] = xyzt.z;
    }
}

2. SIMD实现

在X86 SIMD上实现时，可使用shuffle指令，而ARM NEON则提供了直接的实现。

void zipNEON(int len, const float* x, const float* y, const float* z, float3* xyz)
{
    for (int i = 0; i < len; i++)
    {
        float32x4x3_t xyzt;
        xyzt.val[0] = vldlq_f32(x + i);
        xyzt.val[1] = vldlq_f32(y + i);
        xyzt.val[2] = vldlq_f32(z + i);

        vst3q_f32(xyz + i, xyzt);
    }
}

void unzipNEON(int len, float* x, float* y, float* z, const float3* xyz)
{
    for (int i = 0; i < len; i++)
    {
        float32x4x3_t xyzt = vld3q_f32(xyz + i);
        vldlq_f32(x + i, xyzt.val[0]);
        vldlq_f32(y + i, xyzt.val[1]);
        vldlq_f32(z + i, xyzt.val[2]);
        vst3q_f32(xyz + i, xyzt);
    }
}

3.多核实现

由于处理xyz中的每个数据都和xyz中的其他数据无关，因此多核实现时，可让每个线程多个数据。

void zipNEON(int len, const float* x, const float* y, const float* z, float3* xyz)
{
#pragma omp parallel for
    for (int i = 0; i < len; i++)
    {
        float32x4x3_t xyzt;
        xyzt.val[0] = vldlq_f32(x + i);
        xyzt.val[1] = vldlq_f32(y + i);
        xyzt.val[2] = vldlq_f32(z + i);

        vst3q_f32(xyz + i, xyzt);
    }
}

void unzipNEON(int len, float* x, float* y, float* z, const float3* xyz)
{
#pragma omp parallel for
    for (int i = 0; i < len; i++)
    {
        float32x4x3_t xyzt = vld3q_f32(xyz + i);
        vldlq_f32(x + i, xyzt.val[0]);
        vldlq_f32(y + i, xyzt.val[1]);
        vldlq_f32(z + i, xyzt.val[2]);
        vst3q_f32(xyz + i, xyzt);
    }
}

4. GPU实现

void kernel zip(const int len, global const float* x, global const float* y, global const float* z, global float3* xyz)
{
    int gid = get_global_id(0);

    if (gid < len)
    {
        float xt = x[gid];
        float yt = y[gid];
        float zt = z[gid];

        xyz[gid] = make_float3(xt, yt, zt);
    }
}


void kernel unzip(const int len, global float* x, global float* y, global float* z, global const  float3* xyz)
{
    int gid = get_global_id(0);

    if (gid < len)
    {
        float3 xyzt = xyz[gid];
        x[gid] = xyzt.x;
        y[gid] = xyzt.y;
        z[gid] = xyzt.z;

    }
}

9.6 流水线模式

流水线与指令流水线类似，通过并行使用不同硬件资源的操作来获得高性能。

加载向量做2范数运算为例：

1. 串行实现

float sum = 0.0f;
for (int iter = 0; iter < numIter; iter++)
{
    loadDataFromFile(file, iter, len, data);
    sum += computeSqureSumNEON(len, data);
}

2. 异步实现(双缓冲)

从串行版本可用看出n-1迭代时计算平方和和n次迭代时加载数据之间不存在相关性，因此可以并行来做。具体实现可使用多线程、事件机制。

loadDataFromFileAsync(file, 0, len, data0);
for (int iter = 0; iter < numIter - 1; iter++)
{
s1:   dataBuff = iter % 2 ? data0 : data1;
s2:   loadDataFromFileAsync(file, iter + 1, len, dataBuff);
s3:   syncPreviousLoad();
s4:   data = iter % 2 ? data1 : data0;
s5:   computeSqureSumNEON(len, data);
}

s2处的loadDataFromFileAsync函数从文件中异步加载数据，此函数不会阻塞，发出异步IO后，控制会立刻返回。s3处的函数syncPreviousLoad会等待前一次循环的异步IO操作完成。为了使用异步IO，算法使用了两个缓冲区，s1和s4即是当前迭代选择缓冲区的逻辑。

3. GPU实现

// CUDA + 异步IO实现流水线
loadDataFromFileAsync(file, 0, len, data0);
for (int iter = 0; iter < numIter - 1; iter++)
{
s1:   dataBuff = iter % 2 ? data0 : data1;
s2:   loadDataFromFileAsync(file, iter + 1, len, dataBuff);
s3:   syncPreviousLoad();
s4:   data = iter % 2 ? data1 : data0;
s5:   computeSqureSumGPU(len, data);
}

// CUDA实现流水线模式
loadDataFromFile(file, 0, len, data0);
for (int iter = 0; iter < numIter - 1; iter++)
{
    data = iter % 2 ? data1 : data0;
    computeSqureSumNEON(len, data);

    dataBuff = iter % 2 ? data0 : data1;
    loadDataFromFile(file, iter + 1, len, dataBuff);
}

因为computeSqureSumGPU函数是异步的，因此GPU不会阻塞，会立刻返回接着执行加载数据到dataBuff中，故GPU的计算和数据加载是在同时进行的。

9.7 本章小结

本章介绍了如何使用SIMD向量指令、多核多线程和GPU来介绍map、reudce、scan和流水线模式。

C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
为什么会出现“与此站点的连接不安全”警告？
当浏览器弹出“与此站点的连接不安全”的红色警告时，不仅会让访客感到不安，还可能直接导致用户流失、品牌信誉受损，甚至引发数据泄露风险。作为网站运营者，如何快速解决这一问题？一、为什么会出现“与此站点的连接不安全”警告？浏览器提示“不安全连接”，本质上是检测到当前网站与用户之间的数据传输未经过加密保护。以下是触发警告的常见原因：1.未安装SSL证书SSL（SecureSocketsLayer）证书是网
WHQL签名怎么申请 GDCA SSL证书 windows
WHQL（WindowsHardwareQualityLabs）签名是微软对硬件和驱动程序进行认证的一种方式，以确保它们与Windows操作系统的兼容性和稳定性。以下是申请WHQL签名的基本步骤，供您参考：1.准备阶段准备硬件设备和驱动程序：确保您的硬件设备已经准备好，并且对应的驱动程序已经经过充分的测试，能够在各种配置和环境下正常工作。获取EV代码签名证书：根据微软的要求，驱动程序进行WHQL认
JSON 与 AJAX Auscy json ajax 前端
一、JSON（JavaScriptObjectNotation）1.数据类型与语法细节支持的数据类型：基本类型：字符串（需用双引号）、数字、布尔值（true/false）、null。复杂类型：数组（[]）、对象（{}）。严格语法规范：键名必须用双引号包裹（如"name":"张三"）。数组元素用逗号分隔，最后一个元素后不能有多余逗号。数字不能以0开头（如012会被解析为12），不支持八进制/十六进制
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element(
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以添加戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！intmain(){vectormyvec{3,
JavaScript 树形菜单总结 Auscy microsoft
树形菜单是前端开发中常见的交互组件，用于展示具有层级关系的数据（如文件目录、分类列表、组织架构等）。以下从核心概念、实现方式、常见功能及优化方向等方面进行总结。一、核心概念层级结构：数据以父子嵌套形式存在，如{id:1,children:[{id:2}]}。节点：树形结构的基本单元，包含自身信息及子节点（若有）。展开/折叠：子节点的显示与隐藏切换，是树形菜单的核心交互。递归渲染：因数据层级不固定，
基于定制开发开源AI智能名片S2B2C商城小程序的社群游戏定制策略研究说私域人工智能小程序游戏
摘要：本文聚焦社群游戏定制领域，深入探讨以社群文化和用户偏好为导向的定制策略。通过分析互动游戏活动、社群文化塑造等关键要素，结合定制开发开源AI智能名片S2B2C商城小程序的技术特性，提出针对性游戏定制方案。研究旨在提升社群用户参与度与游戏体验，为社群游戏发展提供理论支持与实践指导。关键词：社群游戏定制；定制开发开源AI智能名片S2B2C商城小程序；社群文化；用户偏好一、引言在数字化社交蓬勃发展的
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
前端项目架构设计要领
1.架构设计的核心目标在设计前端项目架构时，核心目标是模块化、可维护、可扩展、可测试，以及开发效率的最大化。这些目标可以通过以下几个方面来实现：组件化：将UI功能封装为可复用的组件。模块化：将业务逻辑分解为独立的模块或服务。自动化构建与部署：实现自动化构建、测试和部署流程，减少人为操作的错误。代码规范化与检查：确保团队协作时，代码风格和质量一致。2.项目目录结构设计一个清晰合理的目录结构对大型项目
高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
嵌入式系统LCD显示模块编程实践
本文还有配套的精品资源，点击获取简介：本文档提供了一个具有800x480分辨率的3.5英寸液晶显示模块LW350AC9001的驱动程序代码，以及嵌入式系统中使用C/C++语言进行硬件编程的实践指南。该模块的2mm厚度使其适用于空间受限的便携式设备。内容包括驱动程序源代码、硬件控制接口使用方法，以及如何在嵌入式系统中进行图形处理、电源管理与性能优化。1.嵌入式系统原理1.1嵌入式系统概念嵌入式系统是
Android 开源组件和第三方库汇总 gyyzzr Android Android 开源框架
转载1、github排名https://github.com/trending,github搜索：https://github.com/search2、https://github.com/wasabeef/awesome-android-ui目录UIUI卫星菜单节选器下拉刷新模糊效果HUD与Toast进度条UI其它动画网络相关响应式编程地图数据库图像浏览及处理视频音频处理测试及调试动态更新热更新
22、文档：Google Docs的强大与易用性 pear55 探索云技术的无限可能 Google Docs 云端文档语音输入
文档：GoogleDocs的强大与易用性1.GoogleDocs简介GoogleDocs是Google提供的在线办公套件的一部分，它是一个基于云端的文字处
ARM嵌入式可编程控制器技术开发拉勾科研工作室 arm开发
PLC自动化设计|毕业设计指导|工业自动化解决方案✨专业领域：PLC程序设计与调试工业自动化控制系统HMI人机界面开发工业传感器应用电气控制系统设计工业网络通信擅长工具：西门子S7系列PLC编程三菱/欧姆龙PLC应用触摸屏界面设计电气CAD制图工业现场总线技术自动化设备调试主要内容：PLC控制系统设计工业自动化方案规划电气原理图绘制控制程序编写与调试毕业论文指导毕业设计题目与程序设计✅具体问题可以
Android ViewBinding 使用与封装教程积跬步DEV Android 开发实战大全 android
AndroidViewBinding使用与封装教程：一、ViewBinding是什么？核心功能：为每个XML布局文件自动生成一个绑定类（如ActivityMainBinding），直接暴露所有带ID的视图引用。优点：避免繁琐的findViewById()，类型安全且编译时检查。对比DataBinding：ViewBinding仅处理视图引用，无数据绑定功能。DataBinding支持双向数据绑定，
理解TCP连接中的进程阻塞与CPU调度机制 109702008 编程 #C语言网络 tcp/ip 网络人工智能
引言在计算机网络通信中，TCP连接的建立是一个经典的三次握手过程。当用户调用connect()函数发起连接时，内核会发送SYN报文并等待对方的SYN-ACK响应。此时，调用进程通常会进入阻塞状态，暂停执行直至连接成功或超时。这一机制看似简单，但其背后的内核实现却涉及进程调度、等待队列管理和CPU资源分配等复杂操作。本文将深入探讨阻塞状态的实现原理，并解析CPU在进程阻塞期间的行为。一、进程阻塞的实
基于链家网的二手房数据采集清洗与可视化分析 Mint_Datazzh 项目 selenium 网络爬虫
个人学习内容笔记，仅供参考。项目链接：https://gitee.com/rongwu651/lianjia原文链接：基于链家网的二手房数据采集清洗与可视化分析–笔墨云烟研究内容该课题的主要目的是通过将二手房网站上的存量与已销售房源，构建一个二手房市场行情情况与房源特点的可视化平台。该平台通过HTML架构和Echarts完成可视化的搭建。因此，该课题的主要研究内容就是如何利用相关技术设计并实现这样
Java大厂面试实录：谢飞机的电商场景技术问答（Spring Cloud、MyBatis、Redis、Kafka、AI等）
Java大厂面试实录：谢飞机的电商场景技术问答（SpringCloud、MyBatis、Redis、Kafka、AI等）本文模拟知名互联网大厂Java后端岗位面试流程，以电商业务为主线，由严肃面试官与“水货”程序员谢飞机展开有趣的对话，涵盖SpringCloud、MyBatis、Redis、Kafka、SpringSecurity、AI等热门技术栈，并附详细解析，助力求职者备战大厂面试。故事设定谢
【超硬核】JVM源码解读：Java方法main在虚拟机上解释执行 HeapDump性能社区 java 开发语言后端 jvm
本文由HeapDump性能社区首席讲师鸠摩（马智）授权整理发布第1篇-关于Java虚拟机HotSpot，开篇说的简单点开讲Java运行时，这一篇讲一些简单的内容。我们写的主类中的main()方法是如何被Java虚拟机调用到的？在Java类中的一些方法会被由C/C++编写的HotSpot虚拟机的C/C++函数调用，不过由于Java方法与C/C++函数的调用约定不同，所以并不能直接调用，需要JavaC
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
LeetCode算法题：电话号码的字母组合吱屋猪_ 算法 leetcode java
题目描述：给定一个仅包含数字2-9的字符串，返回所有它能表示的字母组合。答案可以按任意顺序返回。给出数字到字母的映射如下（与电话按键相同）。注意1不对应任何字母。2->"abc"3->"def"4->"ghi"5->"jkl"6->"mno"7->"pqrs"8->"tuv"9->"wxyz"例如，给定digits="23"，返回["ad","ae","af","bd","be","bf","cd
基于开源AI智能名片链动2+1模式与S2B2C商城小程序的渠道选择策略研究说私域人工智能小程序
摘要：在数字化商业环境下，品牌与产品的渠道选择对其市场推广和运营成功至关重要。本文聚焦于如何依据自身品牌和产品特性，结合开源AI智能名片链动2+1模式与S2B2C商城小程序，运用科学的渠道选择方法，慎重挑选1-2个适宜平台，集中资源发力并取得成绩后再拓展其他渠道。通过理论分析与案例研究，探讨该策略的有效性和可行性，为企业渠道布局提供参考。关键词：渠道选择；开源AI智能名片；链动2+1模式；S2B2
深入解析 TCP 连接状态与进程挂起、恢复与关闭誰能久伴不乏 tcp/ip 网络服务器
文章目录深入解析TCP连接状态与进程挂起、恢复与关闭一、TCP连接的各种状态1.**`LISTEN`**（监听）2.**`SYN_SENT`**（SYN已发送）3.**`SYN_RECEIVED`**（SYN已接收）4.**`ESTABLISHED`**（已建立）5.**`FIN_WAIT_1`**（关闭等待1）6.**`FIN_WAIT_2`**（关闭等待2）7.**`CLOSE_WAIT`**
基于架构的软件设计（Architecture-Based Software Design，ABSD）是一种以架构为核心的软件开发方法
ABSD方法与生命周期基于架构的软件设计（Architecture-BasedSoftwareDesign，ABSD）是一种以架构为核心的软件开发方法，强调在开发的各个阶段都要以架构为中心，确保系统的整体结构和质量属性得到有效管理。ABSD方法是一个自顶向下、递归细化的过程，软件系统的架构通过该方法得到细化，直到能产生软件构件和类。ABSD方法的三个基础功能的分解：使用基于模块的内聚和耦合技术，将
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（Spring Boot、MyBatis、Kafka、Redis、AI等）来旺 Java场景面试宝典 Java Spring Boot MyBatis Kafka Redis 微服务 AI
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（SpringBoot、MyBatis、Kafka、Redis、AI等）互联网大厂技术面试不仅考察技术深度，更注重业务场景与系统设计能力。本篇以严肃面试官与“水货”程序员谢飞机的对话，带你体验音视频业务场景下的Java面试全过程，涵盖主流技术栈，并附详细答案解析，助你面试无忧。故事场景设定谢飞机是一名有趣但技术基础略显薄弱的程序员，这次应
C++ 设计模式：抽象工厂（Abstract Factory）冀晓武 C++设计模式 c++设计模式抽象工厂模式
链接：C++设计模式链接：C++设计模式-工厂方法链接：C++设计模式-原型模式链接：C++设计模式-建造者模式抽象工厂（AbstractFactory）是一种创建型设计模式，它提供一个接口，用于创建一系列相关或相互依赖的对象，而无需指定它们的具体类。抽象工厂模式通常用于创建一组相关的产品对象，例如不同类型的机器人和它们的配件。1.问题分析在某些情况下，我们需要创建一组相关或相互依赖的对象，但我们
Enum用法不懂事的小屁孩 enum
以前的时候知道enum，但是真心不怎么用，在实际开发中，经常会用到以下代码: protected final static String XJ = "XJ"; protected final static String YHK = "YHK"; protected final static String PQ = "PQ";
【Spark九十七】RDD API之aggregateByKey bit1129 spark
1. aggregateByKey的运行机制 /** * Aggregate the values of each key, using given combine functions and a neutral "zero value". * This function can return a different result type
hive创建表是报错： Specified key was too long; max key length is 767 bytes daizj hive
今天在hive客户端创建表时报错，具体操作如下 hive> create table test2(id string); FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataSto
Map 与 JavaBean之间的转换周凡杨 java 自省转换反射
最近项目里需要一个工具类，它的功能是传入一个Map后可以返回一个JavaBean对象。很喜欢写这样的Java服务，首先我想到的是要通过Java 的反射去实现匿名类的方法调用，这样才可以把Map里的值set 到JavaBean里。其实这里用Java的自省会更方便，下面两个方法就是一个通过反射，一个通过自省来实现本功能。 1：JavaBean类 1 &nb
java连接ftp下载 g21121 java
有的时候需要用到java连接ftp服务器下载，上传一些操作，下面写了一个小例子。 /** ftp服务器地址 */ private String ftpHost; /** ftp服务器用户名 */ private String ftpName; /** ftp服务器密码 */ private String ftpPass; /** ftp根目录 */ private String f
web报表工具FineReport使用中遇到的常见报错及解决办法（二）老A不折腾 finereport web报表 java报表总结
抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、没有返回数据集：在存储过程中的操作语句之前加上set nocount on 或者在数据集exec调用存储过程的前面加上这句。当S
linux 系统cpu 内存等信息查看墙头上一根草 cpu 内存 liunx
1 查看CPU 　　1.1 查看CPU个数　　# cat /proc/cpuinfo | grep "physical id" | uniq | wc -l 　　2 　　**uniq命令：删除重复行;wc –l命令：统计行数** 　　1.2 查看CPU核数　　# cat /proc/cpuinfo | grep "cpu cores" | u
Spring中的AOP aijuans spring AOP
Spring中的AOP Written by Tony Jiang @ 2012-1-18 （转）何为AOP AOP，面向切面编程。在不改动代码的前提下，灵活的在现有代码的执行顺序前后，添加进新规机能。来一个简单的Sample: 目标类： [java] view plain copy print ? package&nb
placeholder(HTML 5) IE 兼容插件 alxw4616 JavaScript jquery jQuery插件
placeholder 这个属性被越来越频繁的使用. 但为做HTML 5 特性IE没能实现这东西. 以下的jQuery插件就是用来在IE上实现该属性的. /** * [placeholder(HTML 5) IE 实现.IE9以下通过测试.] * v 1.0 by oTwo 2014年7月31日 11:45:29 */ $.fn.placeholder = function
Object类,值域,泛型等总结(适合有基础的人看) 百合不是茶泛型的继承和通配符变量的值域 Object类转换
java的作用域在编程的时候经常会遇到,而我经常会搞不清楚这个问题,所以在家的这几天回忆一下过去不知道的每个小知识点变量的值域; package 基础; /** * 作用域的范围 * * @author Administrator * */ public class zuoyongyu { public static vo
JDK1.5 Condition接口 bijian1013 java thread Condition java多线程
Condition 将 Object 监视器方法（wait、notify和 notifyAll）分解成截然不同的对象，以便通过将这些对象与任意 Lock 实现组合使用，为每个对象提供多个等待 set （wait-set）。其中，Lock 替代了 synchronized 方法和语句的使用，Condition 替代了 Object 监视器方法的使用。条件（也称为条件队列或条件变量）为线程提供了一
开源中国OSC源创会记录 bijian1013 hadoop spark MemSQL
一.Strata+Hadoop World（SHW）大会是全世界最大的大数据大会之一。SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学以及最全面的大数据行业和趋势探讨。二.Hadoop &nbs
【Java范型七】范型消除 bit1129 java
范型是Java1.5引入的语言特性，它是编译时的一个语法现象，也就是说，对于一个类，不管是范型类还是非范型类，编译得到的字节码是一样的，差别仅在于通过范型这种语法来进行编译时的类型检查，在运行时是没有范型或者类型参数这个说法的。范型跟反射刚好相反，反射是一种运行时行为，所以编译时不能访问的变量或者方法(比如private)，在运行时通过反射是可以访问的，也就是说，可见性也是一种编译时的行为，在
【Spark九十四】spark-sql工具的使用 bit1129 spark
spark-sql是Spark bin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过 hive>输入的指令可以通过spark-sql>输入的指令来完成。 spark-sql可以使用内置的Hive metadata-store，也可以使用已经独立安装的Hive的metadata store 关于Hive build into Spark
js做的各种倒计时 ronin47 js 倒计时
第一种：精确到秒的javascript倒计时代码 HTML代码: <form name="form1"> <div align="center" align="middle"
java-37.有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接 bylijinnan java
public class MaxCatenate { /* * Q.37 有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接， * 问这n 个字符串最多可以连成一个多长的字符串，如果出现循环，则返回错误。 */ public static void main(String[] args){
mongoDB安装开窍的石头 mongodb安装基本操作
mongoDB的安装 1:mongoDB下载 https://www.mongodb.org/downloads 2:下载mongoDB下载后解压
[开源项目]引擎的关键意义 comsci 开源项目
一个系统，最核心的东西就是引擎。。。。。而要设计和制造出引擎，最关键的是要坚持。。。。。。现在最先进的引擎技术，也是从莱特兄弟那里出现的，但是中间一直没有断过研发的
软件度量的一些方法 cuiyadll 方法
软件度量的一些方法http://cuiyingfeng.blog.51cto.com/43841/6775/在前面我们已介绍了组成软件度量的几个方面。在这里我们将先给出关于这几个方面的一个纲要介绍。在后面我们还会作进一步具体的阐述。当我们不从高层次的概念级来看软件度量及其目标的时候，我们很容易把这些活动看成是不同而且毫不相干的。我们现在希望表明他们是怎样恰如其分地嵌入我们的框架的。也就是我们度量的
XSD中的targetNameSpace解释 darrenzhu xml namespace xsd targetnamespace
参考链接: http://blog.csdn.net/colin1014/article/details/357694 xsd文件中定义了一个targetNameSpace后，其内部定义的元素，属性，类型等都属于该targetNameSpace,其自身或外部xsd文件使用这些元素，属性等都必须从定义的targetNameSpace中找：例如：以下xsd文件，就出现了该错误，即便是在一
什么是RAID0、RAID1、RAID0+1、RAID5，等磁盘阵列模式? dcj3sjt126com raid
RAID 1又称为Mirror或Mirroring，它的宗旨是最大限度的保证用户数据的可用性和可修复性。 RAID 1的操作方式是把用户写入硬盘的数据百分之百地自动复制到另外一个硬盘上。由于对存储的数据进行百分之百的备份，在所有RAID级别中，RAID 1提供最高的数据安全保障。同样，由于数据的百分之百备份，备份数据占了总存储空间的一半，因而，Mirror的磁盘空间利用率低，存储成本高。 Mir
yii2 restful web服务快速入门 dcj3sjt126com PHP yii2
快速入门 Yii 提供了一整套用来简化实现 RESTful 风格的 Web Service 服务的 API。特别是，Yii 支持以下关于 RESTful 风格的 API：支持 Active Record 类的通用API的快速原型涉及的响应格式（在默认情况下支持 JSON 和 XML) 支持可选输出字段的定制对象序列化适当的格式的数据采集和验证错误
MongoDB查询(3)——内嵌文档查询（七） eksliang MongoDB查询内嵌文档 MongoDB查询内嵌数组
MongoDB查询内嵌文档转载请出自出处：http://eksliang.iteye.com/blog/2177301 一、概述有两种方法可以查询内嵌文档：查询整个文档；针对键值对进行查询。这两种方式是不同的，下面我通过例子进行分别说明。二、查询整个文档例如:有如下文档 db.emp.insert({ &qu
android4.4从系统图库无法加载图片的问题 gundumw100 android
典型的使用场景就是要设置一个头像，头像需要从系统图库或者拍照获得，在android4.4之前，我用的代码没问题，但是今天使用android4.4的时候突然发现不灵了。baidu了一圈，终于解决了。下面是解决方案： private String[] items = new String[] { "图库","拍照" }; /* 头像名称 */
网页特效大全 jQuery等 ini JavaScript jquery css html5 ini
HTML5和CSS3知识和特效 asp.net ajax jquery实例分享一个下雪的特效 jQuery倾斜的动画导航菜单选美大赛示例你会选谁 jQuery实现HTML5时钟功能强大的滚动播放插件JQ-Slide 万圣节快乐！！！向上弹出菜单jQuery插件 htm5视差动画 jquery将列表倒转顺序推荐一个jQuery分页插件 jquery animate
swift objc_setAssociatedObject block(version1.2 xcode6.4) 啸笑天 version
import UIKit class LSObjectWrapper: NSObject { let value: ((barButton: UIButton?) -> Void)? init(value: (barButton: UIButton?) -> Void) { self.value = value
Aegis 默认的 Xfire 绑定方式，将 XML 映射为 POJO MagicMa_007 java POJO xml Aegis xfire
Aegis 是一个默认的 Xfire 绑定方式，它将 XML 映射为 POJO, 支持代码先行的开发.你开发服务类与 POJO,它为你生成 XML schema/wsdl XML 和注解映射概览默认情况下，你的 POJO 类被是基于他们的名字与命名空间被序列化。如果
js get max value in (json) Array qiaolevip 每天进步一点点学习永无止境 max 纵观千象
// Max value in Array var arr = [1,2,3,5,3,2];Math.max.apply(null, arr); // 5 // Max value in Jaon Array var arr = [{"x":"8/11/2009","y":0.026572007},{"x"
XMLhttpRequest 请求 XML,JSON ,POJO 数据 Luob. POJO json Ajax xml XMLhttpREquest
在使用XMlhttpRequest对象发送请求和响应之前，必须首先使用javaScript对象创建一个XMLHttpRquest对象。 var xmlhttp； function getXMLHttpRequest(){ if(window.ActiveXObject){ xmlhttp:new ActiveXObject("Microsoft.XMLHTTP
jquery wuai jquery
以下防止文档在完全加载之前运行Jquery代码，否则会出现试图隐藏一个不存在的元素、获得未完全加载的图像的大小等等 $(document).ready(function(){ jquery代码; }); <script type="text/javascript" src="c:/scripts/jquery-1.4.2.min.js&quo

并行算法设计与性能优化 刘文志 第9章 并行编程模式实践

9.1 map模式

1. 串行实现

2. SIMD指令实现

3. 多核处理器上实现

4. 在GPU上实现

9.2 reduce模式

1. 串行实现

2. SIMD指令实现

3. 多核处理器上实现

4. GPU实现

9.3 结合map和reduce模式

1. 串行实现

2. SIMD实现

3.GPU实现

9.4 scan模式

1. 串行实现

2. 多核实现

3. GPU实现

9.5 zip/unzip模式

1.串行实现

2. SIMD实现

3.多核实现

4. GPU实现

9.6 流水线模式

1. 串行实现

2. 异步实现(双缓冲)

3. GPU实现

9.7 本章小结

你可能感兴趣的:(并行算法设计与性能优化,并行计算,性能优化,c++)

并行算法设计与性能优化刘文志第9章并行编程模式实践