高明爱圣子

GPU矩阵并行相乘

原文链接

实验介绍

相对CPU来说，GPU更适合处理高度并行化的程序，此次实验借助CUDA架构，C++编码实现在GPU的矩阵快速相乘，
实验中用到了CUDA的相关知识，如cudaMalloc，cudaMemcpy，cudaFree；clock_t，gettimeofday计算运行时间；
线程块二维分布和一个线程块的线程数为256。
与在CPU中的完成速度对比。
采用内核函数，运用GPU的并行处理，对两个矩阵进行相乘（矩阵采用一维数组表示），矩阵采用随机函数rand()生成。

GPU简介

GPU结构

NVIDIA的GPU在浮点运算能力上，吊打了Intel的CPU。其原因来自于CPU和GPU结构上的差异。
如下图所示，CPU仅仅具有有限的核心数量。
相比于GPU，CPU的核心属于“少而精”的存在，核心数虽然很少，
但是每个核心的性能很强，适合处理具有很多分支的复杂的逻辑。
近些年来，CPU中集成了一些并行指令集，如SSE、AVX等，其中AVX可以同时处理256位(32个字节)，
可以大大加速并行计算。但是相比于GPU，还是小巫见大巫。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LptuRAXO-1626183587924)(https://i.ibb.co/4ssmDBs/1.jpg)]

CUDA简介

CUDA(Compute Unified Device Architecture，计算统一设备架构)，竞争对手OpenCL(from 2008，苹果公司)。
CUDA 是NVIDIA专有的，即只能用Nvidia的GPU。
OpenCL是所有主流媒介采用的一直标准，OpenCL可以在所有平台(Nvidia, AMD等)执行，
但是否能具有好的运行效果会有差异，同一时刻CUDA更快，CUDA未来会比OpenCL发展更快。

线程讲解

CUDA编程是一个多线程编程，数个线程(Thread)组成一个线程块(Block)，所有线程块组成一个线程网格(Grid)，
图中的线程块，以及线程块中的线程，是按照2维的方式排布的。
实际上，CUDA编程模型允许使用1维、2维、3维三种方式来排布。
另外，即使线程块使用的是1维排布，线程块中的线程也不一定要按照1维排，而是可以任意排布。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ndY1Ewv4-1626183587949)(https://i.ibb.co/qWvGQDT/2.jpg)]
目前的GPU限制一个线程块中，最多可以安排1024个线程。
一个线程块用多少线程，以及一个线程网格用多少线程块，是程序员可以自由安排的。
一般线程块中线程的数量被安排为32的倍数，选用256是比较合适的。
在线程数定下来之后，一般根据数据的排布情况来确定线程块的个数。（1维排列256，2维排列（16，16））
例如：一个数组的长度为4096，安排每个线程处理一个元素。
如果安排一个线程块为256个线程，则需要4096/256=16个线程块。

内核函数

内核函数是CUDA 每个线程执行的函数，它运行在GPU设备上。CUDA使用扩展的C语言编写内核函数，关键字为__global__。内核函数返回值只能是void。

定义格式：__global__ void 函数名（参数……）{ 程序指令集合 }
主函数调用的格式：函数名<<>>（参数……）
blocksPerGrid：每个网格中进程块的排布方式（可以采用1维或2维）
threadsPerBock:每个进程块中进程的排布方式（可以采用1维或2维）
内核函数举例

_global void VecAdd(double a[][],double b[][],double c[][]){
    int x = blockIdx.x * blockDim.x  + threadIdx.x;//当前列址
    int y = blockIdy.y * blockDim.y + threadIdy.y;//当前行址0099
    if(i < N&& y < N){
        c[j][i] = a[j][i] + b[j][i]
    }
}
int main(){
    dim3 threadsPerBlock(16,16);//每个线程块内部排布
    dim3 blocksPerGrid(N / threadsPerBlock.x ,N / threadsPerBlock.y);//线程排布
    VecAdd<<<blocksPerGrid,threadsPerBlock>>>(A,B,C);
}

编程接口

使用NVCC编译CUDA程序
CUDA程序使用NVCC编译器。NVCC提供了简单方便的接口，能够很好的同时处理主机端和设备端代码。
编译程序的命令：nvcc filename.cu –o filename

cuda主要函数

cudaMalloc

cudaMalloc (void **devPtr, size_t size )
cudaMemcpy
- 主机到设备：cudaMemcpy(d_A,h_A,nBytes,cudaMemcpyHostToDevice)
- 设备到主机：cudaMemcpy(h_A,d_A,nBytes,cudaMemcpyDeviceToHost)

实践作业

编写一个矩阵乘法的GPU并行程序，
并且与对应规模的串行程序进行运行时间的比对（n=500，1000，1500，2000，3000，5000），
画出规模和时间对比图。
矩阵A（n，n）矩阵B（n，n） C = A x B

内核函数

#include 

#include 
#include 
#include 

#include "cuda_runtime.h"
#include 
#include  

#include "device_launch_parameters.h"

#define thread_num 256//一个线程块的线程数
using namespace std;


const int N = 6000;//数组维数

const int blocks_num = (N + thread_num - 1) / thread_num;//线程块数

__global__ void mextix(int *da,int *db,int *dc)
{
    int row = blockIdx.x * blockDim.x + threadIdx.x;
    int col = blockIdx.y * blockDim.y + threadIdx.y;
    if(row < N && col < N){
        dc[row*N+col] = 0;
        for(int i = 0;i < N;i++){
            dc[row*N+col] += da[row*N+i] * db[i*N+col];
        }
        
    }
   
}

//随机生成矩阵
void rands(int *a)
{
   for(int i = 0;i < N;i++){
       for(int j = 0;j < N;j++){
           a[i*N+j] = rand() % 10 + 1 ;
       }
   }
}
int main()
{
    int *a,*b,*c;
    int *da,*db,*dc;
    int size = N*N*sizeof(int);
    //freopen("out.txt","w",stdout);
    //分配空间
    a = (int*)malloc(size);
    b = (int*)malloc(size);
    c = (int*)malloc(size);

    //生成随机数组
    rands(a);
    rands(b);

    //分配内存 GPU申请空间所需时间
    clock_t t1 = clock();
    cudaMalloc((void**)&da,size);
    cudaMalloc((void**)&db,size);
    cudaMalloc((void**)&dc,size);
    //cudaMalloc((void**)&time,blocks_num*sizeof(clock_t)*2);
    clock_t t2 = clock();
    double ts = (double)(t2-t1);

    //CLOCKS_PER_SEC表示一秒钟内CPU运行的时钟周期数
    printf("GPU divide costtime : %lf ms\n",ts/CLOCKS_PER_SEC*1000);
    
    //存到GPU
    cudaMemcpy(da,a,size,cudaMemcpyHostToDevice);
    cudaMemcpy(db,b,size,cudaMemcpyHostToDevice);

    /*
        GPU运算  并行运算时间
        计算代码运行时间
    */
    timeval start,finish1,finish2;
    gettimeofday(&start,0);//获得当前精确时间
    dim3 dg(16,16);
    dim3 dbs((N+dg.x-1)/dg.x,(N+dg.y-1)/dg.y);
    gettimeofday(&finish1,0);
    mextix<<<dbs,dg>>>(da,db,dc);
    gettimeofday(&finish2, 0);//获得当前精确时间
    double cost1 = 1e6 * (finish2.tv_sec - start.tv_sec) + finish2.tv_usec - start.tv_usec;//微秒
    double cs = 1e6*(finish1.tv_sec - start.tv_sec) + (finish1.tv_usec - start.tv_usec);
    /*  
        timeval
        {
            time_t tv_sec;  //秒 [long int]
            suseconds_t tv_usec;  //微秒 [long int]
        };
   */

    //从GPU取回
    cudaMemcpy(c,dc,size,cudaMemcpyDeviceToHost);

    //GPU运算时间
    printf("GPUCost time : %lf ms\n",cost1/1e3);
    printf("GPU divdided time : %lf ms\n",cs/1e3);
    // printf("GPUAnswer : \n");
    // for(int i = 0;i < N;i++){
    //     for(int j = 0;j < N;j++){
    //         printf("%d ",c[i*N+j]);
    //         //printf("1");
    //     }
    //     printf("\n");
    // }
    //释放内存
    cudaFree(da);
    cudaFree(db);
    cudaFree(dc);
    CPU计算
    clock_t st = clock();
    for(int i = 0;i < N;i++){
        for(int j = 0;j < N;j++){
            c[i*N+j] = 0;
            for(int k = 0;k < N;k++){
                c[i*N+j] += a[i*N+k] * b[k*N+j];
            }
            
        }
        
    }
    clock_t ed = clock();
    double ends = (double)(ed-st);
    CPU运算时间
    printf("CPUCost time : %lf ms\n",ends/CLOCKS_PER_SEC*1000);
    // printf("CPUAnswer : \n");
    // for(int i = 0;i < N;i++){
    //     for(int j = 0;j < N;j++){
    //         printf("%d ",c[i*N+j]);
    //     }
    //     printf("\n");
    // }
    return 0;
}

性能对比分析

GPU运行时间与n呈线性关系，运行时间随n的增大而增大；
CPU运行时间与n呈指数关系，运行时间随n的增大而增大。
GPU运行时间在毫秒级，而CPU则在秒级，GPU运行时间远远小于CPU。

分析可得，因为GPU采用线程并行处理矩阵相乘，而CPU采用串行一个个依次算，所以GPU运行时间会更短。

你可能感兴趣的:(并行程序设计,并行计算,gpu,矩阵)

GNN--知识图谱（逐步贯通基础到项目实践）峙峙峙图神经网络知识图谱人工智能
原文仓库链接：知识图谱–贯通已有知识地图记录知识关系图谱和跨学科碰撞新启发知识图谱mermaid可能需要下载插件才能渲染线性代数神经网络深度学习框架硬件加速图论GNN框架交叉理解前向理解定义：前向理解：A–>B，A为B的基础铺垫知识，通过深入学习A对B有更好的理解01.LinearAlgebraforLinearLayerofNN从线性代数行列变换的角度看神经网络中的线性层线性代数矩阵乘法，可以理
机器学习的数学基础-线性代数
本文用于复习并记录机器学习中的相关数学基础，仅供学习参考。很多总结和例子来源于mml项目（mml-book.github.io）十分感谢这本书的作者，PS：这本书目前没有中文版。线性代数线性方程组矩阵矩阵的加法与乘法矩阵加法矩阵乘法单位矩阵与标量相乘逆与转置逆转置解决线性方程组特解与通解高斯消元法初级变换应用：“-1”trick应用：求逆总结-如何解决线性方程组？向量空间群向量空间向量子空间线性独
ubuntu22.04从新系统到tensorflow GPU支持澍龑 tensorflow 人工智能
ubuntu22.04CUDA从驱动到tensorflow安装0系统常规设置和软件安装0.1挂载第二硬盘默认Home0.2软件安装0.3安装指定版本的python0.4python虚拟环境设置1直接安装1.1配置信息1.2驱动安装1.3集显显示，独显运算（其它debug用）1.4卸载驱动(备用，未试)日常使用ssh后台运行（断联不中断）0系统常规设置和软件安装0.1挂载第二硬盘默认Homesudo
【LeetCode 热题 100】54. 螺旋矩阵 xumistore LeetCode leetcode 矩阵算法 java
Problem:54.螺旋矩阵题目：给你一个m行n列的矩阵matrix，请按照顺时针螺旋顺序，返回矩阵中的所有元素。文章目录整体思路完整代码时空复杂度时间复杂度：O(M*N)空间复杂度：O(1)(不考虑输出列表)整体思路这段代码旨在解决一个经典的矩阵问题：螺旋矩阵(SpiralMatrix)。问题要求按照顺时针螺旋的顺序，返回矩阵中的所有元素。该算法采用了一种非常直观的“路径模拟”策略。它模拟一个
LSA主题模型：基于奇异值分解的主题模型 AI天才研究院 AI人工智能与大数据 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LSA主题模型：基于奇异值分解的主题模型1.背景介绍主题模型是一种无监督的机器学习技术，用于发现大规模文本语料库中隐藏的语义结构。它能够自动识别文档集合中的主题，并根据这些主题对文档进行聚类和分类。主题模型在文本挖掘、信息检索、推荐系统等领域有着广泛的应用。LSA（LatentSemanticAnalysis）是一种经典的主题模型算法，基于奇异值分解（SVD）对词-文档矩阵进行分解，从而揭示词语和
JavaScript高程设计第一章---什么是JavaScript 小顾万家 javascript
文章目录前言一、JavaScript实现二、ECMAScript1.ECMAScript概念2.ECMAScript版本3.ECMAScript符合性三、DOM1.DOM概念2.DOM级别三、BOM1.BOM概念前言通过自身对前端的学习和认知，发现仅仅通过看教学视频来学习前端是不够的，还需要通过阅读相关的前端书籍来扩大自己的知识面。今天我就来总结一下自己通过阅读《JavaScript高级程序设计》
【机器学习笔记 Ⅱ】9 模型评估巴伦是只猫机器学习机器学习笔记人工智能
评估机器学习模型是确保其在实际应用中有效性和可靠性的关键步骤。以下是系统化的评估方法，涵盖分类、回归、聚类等任务的评估指标和技术：一、分类模型评估1.基础指标2.高级指标ROC-AUC：通过绘制真正例率（TPR）vs假正例率（FPR）曲线下面积评估模型整体性能。AUC=1：完美分类；AUC=0.5：随机猜测。适用于二分类及多分类（OvR或OvO策略）。混淆矩阵：可视化模型在各类别上的具体错误（如将
一个小时快速部署大模型，附大模型书：ChatGLM3大模型本地化部署、应用开发与微调! LLM教程人工智能 langchain 知识图谱 Agent 大模型 LLM AI
这个教程有以下几部分构成：硬件配置概念介绍实操测试结果1.硬件配置本文使用的方法配置要求低，没有gpu也可以正常使用(就是有点慢)，不管是windows还是linux，都可以无障碍使用大模型，有脚就行，废话少说，let’srock!2.概念介绍几个部署要用到的概念，工具和项目huggingface:类似于模型的github，各种各样的开源模型都可以在这被找到.模型量化技术：这也是我们能够在低端设备
Hadoop-Mapreduce入门
Hadoop-Mapreduce入门MapReduce介绍mapreduce设计MapReduce编程规范入门案例WordCountMapReduce介绍MapReduce的思想核心是“分而治之”，适用于大量复杂的任务处理场景（大规模数据处理场景）。知识。Map负责“分”，把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算，彼此间几乎没有依赖关系。Redu
Hadoop MapReduce入门且行且安~ 数据分析进阶之路 Linux命令 hadoop MapReduce入门
入门简介计算过程分为两个阶段Map和ReduceMap阶段并行处理输入数据Reduce阶段对Map结果进行汇总针对python语言来说：map函数或者reduce函数来说，输出的数据格式为元组tuple一个简单的MapReduce程序只需要指定map()reduce()input()output()剩下的由框架完成。Linux常见命令：-读取文件（文本文件，在Windows下使用记事本打开的文件）
【DeepSeek开源周】Day 4：DualPipe & EPLB 学习笔记蓝海星梦 DeepSeek开源周探秘开源学习笔记人工智能云计算分布式
目录一、DualPipe&EPLB概述二、DualPipe详解1.流水线并行策略（1）F-then-B策略（2）1F1B策略2.朴素流水线并行3.GPipe微批次流水线并行4.PipeStream5.ZBPP6.DualPipe7.DualPipeV8.流水线并行方案对比三、EPLB详解1.专家并行（EP）2.EPLB冗余专家策略3.负载均衡策略（1）分层负载均衡（2）全局负载均衡（3）接口和示例
如何最大化YashanDB数据库的存储性能数据库
在数据库技术领域，存储性能不仅对数据的读写速度有直接影响，同时也关系到整个系统的效率和穷尽的业务能力。数据库管理员和系统架构师常面临着性能瓶颈、I/O瓶颈等问题，并需要通过优化存储结构、合理设计索引、选择合适的部署架构等手段来提升存储性能。本文将详细解析YashanDB数据库的存储性能优化，包括存储管理、数据结构选择、并行处理等多方面的技术原理和实践要点。存储架构优化部署架构选择YashanDB支
量子计算+AI芯片：光子计算如何重构神经网络硬件生态
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站量子计算+AI芯片：光子计算如何重构神经网络硬件生态——2025年超异构计算架构下的万亿参数模型训练革命产业拐点：英伟达BlackwellUltra发布光互连版GPU，IBM量子处理器突破512比特，光子计算商用成本降至$5/TOPS实测突破：Llama3-405B在光子-量子混合集群训练能耗下
【零基础学AI】第29讲：BERT模型实战 - 情感分析 1989 0基础学AI bert 人工智能深度学习神经网络 cnn python 自然语言处理
本节课你将学到BERT模型的核心原理与优势HuggingFaceTransformers库的BERT接口使用情感分析任务的完整实现流程模型微调(Fine-tuning)技巧开始之前环境要求Python3.8+需要安装的包：pipinstalltorchtransformersdatasetspandastqdmGPU推荐（可加速训练）前置知识第28讲Transformer基础基本PyTorch使用
Vulkan多线程录制Command Buffer高效指南你一身傲骨怎能输渲染管线 Command Buffer
文章摘要Vulkan支持多线程并行录制CommandBuffer以提升CPU效率，需遵循以下原则：每个线程使用独立CommandPool避免竞争合理分配渲染任务确保负载均衡避免线程间共享资源修改主线程统一提交所有CommandBuffer实现时需为每个线程创建独立CommandPool和CommandBuffer，任务分块后多线程并行录制，最后同步提交。注意资源隔离、同步机制及CommandPoo
【LeetCode 热题 100】48. 旋转图像——转置+水平翻转 xumistore LeetCode leetcode 算法职场和发展 java
Problem:48.旋转图像题目：给定一个n×n的二维矩阵matrix表示一个图像。请你将图像顺时针旋转90度。你必须在原地旋转图像，这意味着你需要直接修改输入的二维矩阵。请不要使用另一个矩阵来旋转图像。文章目录整体思路完整代码时空复杂度时间复杂度：O(N^2)空间复杂度：O(1)整体思路这段代码旨在解决一个经典的矩阵问题：旋转图像(RotateImage)。问题要求将一个NxN的二维矩阵顺时针
Vulkan工厂论：高性能渲染架构的终极秘密你一身傲骨怎能输渲染管线架构
文章摘要Vulkan通过"现代自动化工厂"模式打造高性能渲染引擎：多线程并行处理(多个工头)、批量提交指令(批量订单)、自主资源管理(智能仓库)、灵活管线配置(可调流水线)和高效同步机制。相比传统API"老式工厂"的单线程指挥模式，Vulkan让CPU(工头)和GPU(工人)协同更高效，消除等待时间，充分发挥硬件性能，实现极致渲染效率。这套平台无关的设计适用于各种系统环境，为高质量实时渲染提供基础
php协程,PHP协程刘保池 php协程
1.什么是协程先搞清楚，什么是协程。你可能已经听过『进程』和『线程』这两个概念。进程就是二进制可执行文件在计算机内存里的一个运行实例，就好比你的.exe文件是个类，进程就是new出来的那个实例。进程是计算机系统进行资源分配和调度的基本单位(调度单位这里别纠结线程进程的)，每个CPU下同一时刻只能处理一个进程。所谓的并行，只不过是看起来并行，CPU事实上在用很快的速度切换不同的进程。进程的切换需要进
Postgresql快速同步大量数据方案浅析行星008 数据库 postgresql 数据库
目录推荐方案：并行导出导入+网络加速方案优势：详细步骤1.数据选择与准备2.并行数据导出（111服务器）3.高效网络传输4.并行数据导入（112服务器）5.性能优化参数增量同步方案（可选）方法1：逻辑复制（适合持续同步）方法2：增量更新脚本（适合定时同步）性能优化技巧验证与监控预期性能指标故障处理针对PostgreSQL14.3环境中从111服务器同步部分数据（约1000GB）到112服务器的需求
3.二维码的类型以及等级介绍
一、码的类型一维条形码：QRCode:日常生活中最广泛应用的矩阵式二维码Datamatrix:工业上也很常用，常用于商品包装和物流管理中，因其较小的尺寸和较高的密度适合小物品的标识。二、二维码的等级说明二维码的ABCDE五个等级是对二维码质量和可读性的分级划分。这些等级主要基于激光打标技术对二维码质量参数的评估结果。一般刚打印或者喷墨生成的二维码，有客户要求必须扫码并判断等级。注意，一般需要扫码等
基于JAVA的酒店管理系统的设计与实现代论文网课招代理前端 javascript 开发语言网络数据库
目录绪论3第一章课题研究途径与意义51.1本课题研究途径51.2本课题研究意义6第二章酒店管理系统分析72.1背景介绍72.2现实需求分析81)酒店首页介绍模块92)顾客注册登录模块93)信息查询模块104)预订管理模块105)管理员登录模块106)超级管理员登录模块107)房间信息模块102.3系统环境需求101)系统采用Windows操作系统下MyEclipse开发平台开发；102)程序设计语
面向对象与面向过程程序设计语言：核心概念、对比分析与应用指南咸鱼_要_翻身 C++C Python 开发语言
目录一、面向过程程序设计语言(ProceduralProgramming)1、基本概念2、主要特点3、代表语言4、典型示例(C语言)5、优势6、局限性二、面向对象程序设计语言(Object-OrientedProgramming)1、基本概念2、四大核心特性3、代表语言4、典型示例(Java)5、优势6、局限性三、主要区别对比四、实际应用选择建议五、现代语言趋势一、面向过程程序设计语言(Proce
Redis性能优化：全网最全的一篇上海第一深情Alan #精通Redis redis 性能优化
硬件CPU选择高性能的多核CPU：Redis是单线程处理请求的，性能取决于单个核心的处理能力。选择高主频（3GHz以上）的CPU能有效提高Redis的单实例性能。然而，多个Redis实例可以并行运行在不同的CPU核心上，因此多核CPU仍然有助于提高整体的吞吐量。避免超线程（Hyper-Threading）：在高负载下，超线程技术可能会导致CPU争用和缓存冲突，从而影响性能。在BIOS中禁用超线程，
什么是深度学习框架中的计算图？杰瑞学AI Computer knowledge NLP/LLMs AI/AGI 深度学习人工智能 pytorch
在深度学习框架中，计算图是核心的数据结构和抽象概念，它用来表示和定义深度学习模型的计算过程。我们可以把它想象成一个描述数学运算如何组合和执行的有向图。以下是计算图的关键要素和作用：节点：代表操作或变量。操作：数学运算，如加法(+)、乘法(*)、矩阵乘法(matmul)、激活函数(ReLU,sigmoid)、卷积(conv2d)、损失函数(cross_entropy)等。变量：通常是张量，即存储数据
开源 vGPU 方案 HAMi: core&memory 隔离测试探索云原生 AI kubernetes 容器云原生 gpu算力人工智能开源
本文主要对开源的vGPU方案HAMi的GPUCore&Memory隔离功能进行测试。省流：HAMivGPU方案提供的Core&Memory隔离基本符合预期：Core隔离：Pod能使用的算力会围绕设定值波动，但是一段时间内平均下来和申请的gpucores基本一致Memory隔离：Pod中申请的GPU内存超过设定值时会直接提示CUDAOOM1.环境准备简单说一下测试环境GPU：A40*2K8s：v1.
MySQL分区我说人人平等 mysql mysql分区
MySQL分区优点：1，和单个磁盘或者文件系统分区相比，可以存储更多数据2，优化查询。在where子句中包含分区条件时，可以只扫描必要的一个或者多个分区来提高查询效率；同时涉及sum()和count()这类聚合查询时，可以容易的在每个分区上并行处理，最终只需要汇总所有分区得到的结果3，对于已经过期或者不需要保存的数据，可以通过删除与这些数据有关的分区来快速删除数据4，跨多个磁盘来分散数据查询，以获
向量化编程：SIMD（Single Instruction, Multiple Data）深度解析
在现代处理器架构中，向量化编程已成为提升计算密集型应用性能的关键技术。SIMD（SingleInstruction,MultipleData）作为向量化编程的核心，通过一条指令同时处理多个数据，能够显著提高数据并行度。本文将从SIMD的基础概念出发，深入探讨其硬件实现、编程模型、性能优化及典型应用场景，帮助开发者充分利用SIMD技术提升代码性能。一、SIMD基础概念1.1什么是SIMD？SIMD是
C++17 并行算法：std::execution::par
在多核处理器普及的今天，如何高效利用硬件资源成为提升软件性能的关键。C++17引入的并行算法库（ParallelAlgorithms）为开发者提供了一套标准化的并行编程接口，通过简单的策略切换即可将顺序算法转换为并行执行。本文将深入探讨C++17并行算法中最核心的执行策略std::execution::par，从基础概念到高级应用，全面解析其原理、用法及最佳实践。一、C++17并行算法概述1.1并
【华为od刷题（C++）】HJ35 蛇形矩阵（指针） m0_64866459 华为od c++链表
我的代码1：#includeusingnamespacestd;intmain(){introw;//row：定义了矩阵的行数（和列数，实际上是一个正方形矩阵）while(cin>>row){//这个循环会持续执行，直到输入流被结束//每次读取一个整数并赋值给row，程序就开始执行填充操作int**a=newint*[row];//动态地为一个二维数组（a）的行分配内存/*这里a是一个指向指针的指
Git 分支与远程仓库基础教学总结 Leon_az Git git
Git分支与远程仓库基础教学总结1.Git分支基础什么是分支（Branch）？分支是对项目某个提交状态的指针。用于并行开发、多人协作和代码版本隔离。常用分支命令命令作用gitbranch查看本地分支gitbranch-r查看远程分支gitbranch-a查看本地和远程分支gitbranch创建新分支（基于当前分支）gitcheckout切换分支gitcheckout-b创建并切换新分支gitbra
xml解析小猪猪08 xml
1、DOM解析的步奏准备工作： 1.创建DocumentBuilderFactory的对象 2.创建DocumentBuilder对象 3.通过DocumentBuilder对象的parse(String fileName)方法解析xml文件 4.通过Document的getElem
每个开发人员都需要了解的一个SQL技巧 brotherlamp linux linux视频 linux教程 linux自学 linux资料
对于数据过滤而言CHECK约束已经算是相当不错了。然而它仍存在一些缺陷，比如说它们是应用到表上面的，但有的时候你可能希望指定一条约束，而它只在特定条件下才生效。使用SQL标准的WITH CHECK OPTION子句就能完成这点，至少Oracle和SQL Server都实现了这个功能。下面是实现方式： CREATE TABLE books ( id &
Quartz——CronTrigger触发器 eksliang quartz CronTrigger
转载请出自出处：http://eksliang.iteye.com/blog/2208295 一.概述 CronTrigger 能够提供比 SimpleTrigger 更有具体实际意义的调度方案，调度规则基于 Cron 表达式，CronTrigger 支持日历相关的重复时间间隔（比如每月第一个周一执行），而不是简单的周期时间间隔。二.Cron表达式介绍 1）Cron表达式规则表 Quartz
Informatica基础 18289753290 Informatica Monitor manager workflow Designer
1. 1）PowerCenter Designer：设计开发环境，定义源及目标数据结构；设计转换规则，生成ETL映射。 2）Workflow Manager：合理地实现复杂的ETL工作流，基于时间，事件的作业调度 3）Workflow Monitor：监控Workflow和Session运行情况，生成日志和报告 4）Repository Manager：
linux下为程序创建启动和关闭的的sh文件，scrapyd为例酷的飞上天空 scrapy
对于一些未提供service管理的程序每次启动和关闭都要加上全部路径，想到可以做一个简单的启动和关闭控制的文件下面以scrapy启动server为例，文件名为run.sh： #端口号，根据此端口号确定PID PORT=6800 #启动命令所在目录 HOME='/home/jmscra/scrapy/' #查询出监听了PORT端口
人--自私与无私永夜-极光
今天上毛概课,老师提出一个问题--人是自私的还是无私的,根源是什么? 从客观的角度来看,人有自私的行为,也有无私的
Ubuntu安装NS-3 环境脚本随便小屋 ubuntu
将附件下载下来之后解压，将解压后的文件ns3environment.sh复制到下载目录下（其实放在哪里都可以，就是为了和我下面的命令相统一）。输入命令： sudo ./ns3environment.sh >>result 这样系统就自动安装ns3的环境，运行的结果在result文件中，如果提示 com
创业的简单感受 aijuans 创业的简单感受
2009年11月9日我进入a公司实习，2012年4月26日，我离开a公司，开始自己的创业之旅。今天是2012年5月30日，我忽然很想谈谈自己创业一个月的感受。当初离开边锋时，我就对自己说：“自己选择的路，就是跪着也要把他走完”，我也做好了心理准备，准备迎接一次次的困难。我这次走出来，不管成败
如何经营自己的独立人脉 aoyouzi 如何经营自己的独立人脉
独立人脉不是父母、亲戚的人脉，而是自己主动投入构造的人脉圈。“放长线，钓大鱼”，先行投入才能产生后续产出。现在几乎做所有的事情都需要人脉。以银行柜员为例，需要拉储户，而其本质就是社会人脉，就是社交！很多人都说，人脉我不行，因为我爸不行、我妈不行、我姨不行、我舅不行……我谁谁谁都不行，怎么能建立人脉？我这里说的人脉，是你的独立人脉。以一个普通的银行柜员
JSP基础百合不是茶 jsp 注释隐式对象
1,JSP语句的声明 <%! 声明 %> 　　声明：这个就是提供java代码声明变量、方法等的场所。表达式 <%= 表达式 %> 　　这个相当于赋值，可以在页面上显示表达式的结果，程序代码段/小型指令　<% 程序代码片段 %> 2,JSP的注释
web.xml之session-config、mime-mapping bijian1013 java web.xml servlet session-config mime-mapping
session-config 1.定义： <session-config> <session-timeout>20</session-timeout> </session-config> 2.作用：用于定义整个WEB站点session的有效期限，单位是分钟。 mime-mapping 1.定义： <mime-m
互联网开放平台（1） Bill_chen 互联网 qq 新浪微博百度腾讯
现在各互联网公司都推出了自己的开放平台供用户创造自己的应用，互联网的开放技术欣欣向荣，自己总结如下： 1.淘宝开放平台(TOP) 网址：http://open.taobao.com/ 依赖淘宝强大的电子商务数据，将淘宝内部业务数据作为API开放出去，同时将外部ISV的应用引入进来。目前TOP的三条主线： TOP访问网站：open.taobao.com ISV后台：my.open.ta
【MongoDB学习笔记九】MongoDB索引 bit1129 mongodb
索引可以在任意列上建立索引索引的构造和使用与传统关系型数据库几乎一样,适用于Oracle的索引优化技巧也适用于Mongodb 使用索引可以加快查询,但同时会降低修改,插入等的性能内嵌文档照样可以建立使用索引测试数据 var p1 = { "name":"Jack", "age&q
JDBC常用API之外的总结白糖_ jdbc
做JAVA的人玩JDBC肯定已经很熟练了，像DriverManager、Connection、ResultSet、Statement这些基本类大家肯定很常用啦，我不赘述那些诸如注册JDBC驱动、创建连接、获取数据集的API了，在这我介绍一些写框架时常用的API，大家共同学习吧。 ResultSetMetaData获取ResultSet对象的元数据信息
apache VelocityEngine使用记录 bozch VelocityEngine
VelocityEngine是一个模板引擎，能够基于模板生成指定的文件代码。使用方法如下： VelocityEngine engine = new VelocityEngine();// 定义模板引擎 Properties properties = new Properties();// 模板引擎属
编程之美-快速找出故障机器 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; public class TheLostID { /*编程之美假设一个机器仅存储一个标号为ID的记录，假设机器总量在10亿以下且ID是小于10亿的整数，假设每份数据保存两个备份，这样就有两个机器存储了同样的数据。 1.假设在某个时间得到一个数据文件ID的列表，是
关于Java中redirect与forward的区别 chenbowen00 java servlet
在Servlet中两种实现： forward方式：request.getRequestDispatcher(“/somePage.jsp”).forward(request, response); redirect方式：response.sendRedirect(“/somePage.jsp”); forward是服务器内部重定向，程序收到请求后重新定向到另一个程序，客户机并不知
[信号与系统]人体最关键的两个信号节点 comsci 系统
如果把人体看做是一个带生物磁场的导体,那么这个导体有两个很重要的节点,第一个在头部,中医的名称叫做百汇穴, 另外一个节点在腰部,中医的名称叫做命门如果要保护自己的脑部磁场不受到外界有害信号的攻击,最简单的
oracle 存储过程执行权限 daizj oracle 存储过程权限执行者调用者
在数据库系统中存储过程是必不可少的利器，存储过程是预先编译好的为实现一个复杂功能的一段Sql语句集合。它的优点我就不多说了，说一下我碰到的问题吧。我在项目开发的过程中需要用存储过程来实现一个功能，其中涉及到判断一张表是否已经建立，没有建立就由存储过程来建立这张表。 CREATE OR REPLACE PROCEDURE TestProc IS fla
为mysql数据库建立索引 dengkane mysql 性能索引
前些时候，一位颇高级的程序员居然问我什么叫做索引，令我感到十分的惊奇，我想这绝不会是沧海一粟，因为有成千上万的开发者（可能大部分是使用MySQL的）都没有受过有关数据库的正规培训，尽管他们都为客户做过一些开发，但却对如何为数据库建立适当的索引所知较少，因此我起了写一篇相关文章的念头。最普通的情况，是为出现在where子句的字段建一个索引。为方便讲述，我们先建立一个如下的表。
学习C语言常见误区如何看懂一个程序如何掌握一个程序以及几个小题目示例 dcj3sjt126com c 算法
如果看懂一个程序，分三步 1、流程 2、每个语句的功能 3、试数如何学习一些小算法的程序尝试自己去编程解决它，大部分人都自己无法解决如果解决不了就看答案关键是把答案看懂，这个是要花很大的精力，也是我们学习的重点看懂之后尝试自己去修改程序，并且知道修改之后程序的不同输出结果的含义照着答案去敲调试错误
centos6.3安装php5.4报错 dcj3sjt126com centos6
报错内容如下: Resolving Dependencies --> Running transaction check ---> Package php54w.x86_64 0:5.4.38-1.w6 will be installed --> Processing Dependency: php54w-common(x86-64) = 5.4.38-1.w6 for
JSONP请求 flyer0126 jsonp
使用jsonp不能发起POST请求。 It is not possible to make a JSONP POST request. JSONP works by creating a <script> tag that executes Javascript from a different domain; it is not pos
Spring Security（03）——核心类简介 234390216 Authentication
核心类简介目录 1.1 Authentication 1.2 SecurityContextHolder 1.3 AuthenticationManager和AuthenticationProvider 1.3.1 &nb
在CentOS上部署JAVA服务 java--hhf java jdk centos Java服务
本文将介绍如何在CentOS上运行Java Web服务，其中将包括如何搭建JAVA运行环境、如何开启端口号、如何使得服务在命令执行窗口关闭后依旧运行第一步：卸载旧Linux自带的JDK ①查看本机JDK版本 java -version 结果如下 java version "1.6.0"
oracle、sqlserver、mysql常用函数对比[to_char、to_number、to_date] ldzyz007 oracle mysql SQL Server
oracle &n
记Protocol Oriented Programming in Swift of WWDC 2015 ningandjin protocol WWDC 2015 Swift2.0
其实最先朋友让我就这个题目写篇文章的时候，我是拒绝的，因为觉得苹果就是在炒冷饭，把已经流行了数十年的OOP中的“面向接口编程”还拿来讲，看完整个Session之后呢，虽然还是觉得在炒冷饭，但是毕竟还是加了蛋的，有些东西还是值得说说的。通常谈到面向接口编程，其主要作用是把系统设计和具体实现分离开，让系统的每个部分都可以在不影响别的部分的情况下，改变自身的具体实现。接口的设计就反映了系统
搭建 CentOS 6 服务器(15) - Keepalived、HAProxy、LVS rensanning keepalived
（一）Keepalived （1）安装 # cd /usr/local/src # wget http://www.keepalived.org/software/keepalived-1.2.15.tar.gz # tar zxvf keepalived-1.2.15.tar.gz # cd keepalived-1.2.15 # ./configure # make &a
ORACLE数据库SCN和时间的互相转换 tomcat_oracle oracle sql
SCN（System Change Number 简称 SCN）是当Oracle数据库更新后，由DBMS自动维护去累积递增的一个数字，可以理解成ORACLE数据库的时间戳，从ORACLE 10G开始，提供了函数可以实现SCN和时间进行相互转换；　　用途：在进行数据库的还原和利用数据库的闪回功能时，进行SCN和时间的转换就变的非常必要了；　　操作方法：　　1、通过dbms_f
Spring MVC 方法注解拦截器 xp9802 spring mvc
应用场景，在方法级别对本次调用进行鉴权，如api接口中有个用户唯一标示accessToken,对于有accessToken的每次请求可以在方法加一个拦截器，获得本次请求的用户，存放到request或者session域。 python中，之前在python flask中可以使用装饰器来对方法进行预处理，进行权限处理先看一个实例,使用@access_required拦截： ?

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他