loriex

光线追踪

书上讲常量内存的那章有个用光线追踪画球的东西。
暂时没用常量内存实现了一下。
不得已自己写了个mvec3结构体

#include "cuda_runtime.h"
#include "device_launch_parameters.h"

#include 
#include 
#include 

#include "myGL.h"
using namespace std;
const GLuint WIDTH = 1280;
const GLuint HEIGHT = 960;
__device__ const float INF  = 123456.0f;
__device__ const float SINF = 123455.0f;
struct mvec3 {
    float x, y, z;
    __device__ mvec3(float _x = 0, float _y = 0, float _z = 0) : x(_x), y(_y), z(_z) {}
    __device__ float length()const {
        return sqrtf(x*x+y*y+z*z);
    }
    __device__ float square()const {
        return x*x + y*y + z*z;
    }
    __device__ mvec3 operator + (const mvec3 &t) const {
        return mvec3(x+t.x, y+t.y, z+t.z);
    }
    __device__ mvec3 operator - (const mvec3 &t) const {
        return mvec3(x-t.x, y-t.y, z-t.z);
    }
    __device__ mvec3 operator * (float t) const {
        return mvec3(x*t, y*t, z*t);
    }
    __device__ mvec3 operator / (float t) const {
        return mvec3(x/t, y/t, z/t);
    }
    __device__ friend float dot(const mvec3 &a, const mvec3 &b) {
        return a.x*b.x + a.y*b.y + a.z*b.z;
    }
    __device__ friend mvec3 cross(const mvec3 &a, const mvec3 &b) {
        return mvec3(
            a.y * b.z - a.z * b.y, 
            a.z * b.x - a.x * b.z,
            a.x * b.y - a.y * b.x
        );
    }
    __device__ friend mvec3 normalize(const mvec3 &a) {
        return a / a.length();
    }
};
struct Sphere {
    mvec3 site;
    float r;
    unsigned char rgb[4];//only rgb!!!
    void readData(ifstream &is) {
        is >> site.x >> site.y >> site.z >> r;
        int s;
        for (int i = 0; i < 3; ++i) {
            is >> s;
            rgb[i] = (unsigned char)s;
        }
        rgb[3] = 0;
    }
    __device__ float calc(const mvec3 &ray) const {
        float g = dot(ray, site);
        float lh = (site - ray * g).square();
        if (lh >= r * r) return INF;
        return sqrtf(site.square() - lh) - sqrtf(r * r - lh);
    }
    __device__ float calcCos(float dis, const mvec3 &ray) const {
        mvec3 rToC = normalize(site - ray * dis);//the radius point to  center of sphere 's normalized vector
        return dot(rToC, ray);
    }
};
void HANDLE_ERROR(cudaError_t status);
void drawPixels(unsigned char *res, Sphere *sp, int spnum, int width, int height);
void ReadData(Sphere* &res, int &n) {
    ifstream is("sphere.in");
    is >> n;
    cout << "Get " << n << " spheres." << endl;
    res = new Sphere[n];
    for (int i = 0; i < n; ++i)
        res[i].readData(is);
}
int main() {
    Sphere *sp;
    int spnum;
    ReadData(sp, spnum);

    unsigned char *p = new unsigned char[WIDTH*HEIGHT * 4];

    GLFWwindow *window = glfwStart(WIDTH, HEIGHT, "ray-tracing");
    Shader shader;
    shader.mkShader("shader.vert", NULL, "shader.frag");
    GLuint vao = mkVAO();

    drawPixels(p, sp, spnum, WIDTH, HEIGHT);
    GLuint tex = mkTex(GL_RGBA, WIDTH, HEIGHT, p);

    while (!glfwWindowShouldClose(window)) {
        glfwPollEvents();
        glClearColor(0,0,0,0);
        glClear(GL_COLOR_BUFFER_BIT);

        shader.Use();
        glBindTexture(GL_TEXTURE_2D, tex);
        glBindVertexArray(vao);
        glDrawArrays(GL_TRIANGLES, 0, 6);
        glfwSwapBuffers(window);
        GLuint err = glGetError();
        if (err)
            cout << "Error: " << err << endl;
    }
    glDeleteTextures(1, &tex);
    delete[]p;
    delete[]sp;
    glfwTerminate();
    return 0;
}

void HANDLE_ERROR(cudaError_t status) {
    if (status != cudaSuccess) {
        fprintf(stderr, "Error~\n");
        exit(0);
    }
}
__global__ void kernel(unsigned char *res, Sphere *sp, int spnum, int width, int height) {
    int x = blockIdx.x * blockDim.x + threadIdx.x;
    int y = blockIdx.y * blockDim.y + threadIdx.y;
    int offset = y * width + x;
    if (offset < width * height) {
        offset *= 4;
        float fx = 1.0f * (width/2 - x) / height;
        float fy = 1.0f * y / height - 0.5f;

        mvec3 ray = normalize(mvec3(fx, fy, 1));

        float miniLen = SINF;
        int miniNum = -1;
        for (int i = 0; i < spnum; ++i) {
            float gg = sp[i].calc(ray);
            if (gg < miniLen) {
                miniLen = gg;
                miniNum = i;
            }
        }
        if (miniNum == -1)
            res[offset] = res[offset + 1] = res[offset + 2] = 0;
        else {
            unsigned char *rgb = sp[miniNum].rgb;
            float light = sp[miniNum].calcCos(miniLen, ray);
            res[offset] = light * rgb[0];
            res[offset + 1] = light * rgb[1];
            res[offset + 2] = light * rgb[2];
        }
    }
    else
        res[offset] = res[offset + 1] = res[offset + 2] = 0;

    res[offset + 3] = 0;
}
void drawPixels(unsigned char *res, Sphere *sp, int spnum, int width, int height) {
    HANDLE_ERROR(cudaSetDevice(0));

    cudaError_t status;
    unsigned char *p = 0;
    Sphere *pp = 0;

    status = cudaMalloc((void**)&pp, spnum * sizeof(Sphere));
    if (status != cudaSuccess) {
        fprintf(stderr, "ERROR: Malloc for Sphere failed\n.");
        goto Error;
    }
    status = cudaMalloc((void**)&p, width*height*4);
    if (status != cudaSuccess) {
        fprintf(stderr, "ERROR: Malloc for Sphere failed\n.");
        goto Error;
    }
    status = cudaMemcpy(pp, sp, spnum * sizeof(Sphere), cudaMemcpyHostToDevice);
    if (status != cudaSuccess) {
        fprintf(stderr, "ERROR: Memcpy for Sphere failed\n.");
        goto Error;
    }

    dim3 blockDim(32,32);
    dim3 gridDim((width + 31) / 32, (height + 31) / 32);
    kernel << > > (p, pp, spnum, width, height);

    status = cudaGetLastError();
    if (status != cudaSuccess) {
        fprintf(stderr, "Build kernel failed.\n");
        goto Error;
    }
    status = cudaDeviceSynchronize();
    if (status != cudaSuccess) {
        fprintf(stderr, "kernel run failed.\n");
        goto Error;
    }
    status = cudaMemcpy(res, p, width*height*4, cudaMemcpyDeviceToHost);
    if (status != cudaSuccess) {
        fprintf(stderr, "Memcpy failed.\n");
        goto Error;
    }

Error:

    cudaFree(p);
    cudaFree(pp);
    HANDLE_ERROR(cudaDeviceReset());
    return ;
}

sphere.in文件

也就是站在(0,0,0)点像z轴正方向看了
效果图：

换成用常量内存存储Spheres，然后球数目增加到了200，渲染2560*1920的图
实测用常量内存还是全局内存速度都几乎一样都是1170ms
倒是如果在每一个线程束里用__shared__复制一遍Spheres数组能够将时间缩减到1080ms
差不多9%的性能提升
于是用__constant__存储球然后再加个球与光线的判定优化勉强达到了970ms
于是最后达不到书上所说的近50%的性能提升，这个日后再细究。。
以及：感觉我的代码内存泄漏有点严重Orz

#include "cuda_runtime.h"
#include "device_launch_parameters.h"

#include 
#include 
#include 

#include "myGL.h"
using namespace std;
const GLuint WIDTH = 1280;
const GLuint HEIGHT = 960;
__device__ const float INF  = 123456.0f;
__device__ const float SINF = 123455.0f;
struct mvec3 {
    float x, y, z;
    __device__ friend mvec3 Mvec3(float _x = 0, float _y = 0, float _z = 0) {
        mvec3 res;
        res.x = _x;
        res.y = _y;
        res.z = _z;
        return res;
    }
    __device__ float length()const {
        return sqrtf(x*x+y*y+z*z);
    }
    __device__ float square()const {
        return x*x + y*y + z*z;
    }
    __device__ mvec3 operator + (const mvec3 &t) const {
        return Mvec3(x+t.x, y+t.y, z+t.z);
    }
    __device__ mvec3 operator - (const mvec3 &t) const {
        return Mvec3(x-t.x, y-t.y, z-t.z);
    }
    __device__ mvec3 operator * (const float &t) const {
        return Mvec3(x*t, y*t, z*t);
    }
    __device__ mvec3 operator / (const float &t) const {
        return Mvec3(x/t, y/t, z/t);
    }
    __device__ friend float dot(const mvec3 &a, const mvec3 &b) {
        return a.x*b.x + a.y*b.y + a.z*b.z;
    }
    __device__ friend mvec3 cross(const mvec3 &a, const mvec3 &b) {
        return Mvec3(
            a.y * b.z - a.z * b.y, 
            a.z * b.x - a.x * b.z,
            a.x * b.y - a.y * b.x
        );
    }
    __device__ friend mvec3 normalize(const mvec3 &a) {
        return a / a.length();
    }
};
struct Sphere {
    mvec3 site;
    float r;
    unsigned char rgb[4];//only rgb!!!
    void readData(ifstream &is) {
        is >> site.x >> site.y >> site.z >> r;
        int s;
        for (int i = 0; i < 3; ++i) {
            is >> s;
            rgb[i] = (unsigned char)s;
        }
        rgb[3] = 0;
    }
    __device__ float calc(const mvec3 &ray, const float &nowLen) const {
        if (site.square() - r > nowLen) 
            return INF;
        float g = dot(ray, site);
        float lh = (site - ray * g).square();
        if (lh >= r * r) return INF;
        return sqrtf(site.square() - lh) - sqrtf(r * r - lh);
    }
    __device__ float calcCos(const float &dis, const mvec3 &ray) const {
        mvec3 rToC = normalize(site - ray * dis);//the radius point to  center of sphere 's normalized vector
        return dot(rToC, ray);
    }
};
void HANDLE_ERROR(cudaError_t status);
void drawPixels(unsigned char *res, Sphere *sp, int spnum, int width, int height);
void ReadData(Sphere* &res, int &n) {
    ifstream is("sphere.in");
    is >> n;
    cout << "Get " << n << " spheres." << endl;
    res = new Sphere[n];
    for (int i = 0; i < n; ++i)
        res[i].readData(is);
}
int main() {
    Sphere *sp;
    int spnum;
    ReadData(sp, spnum);

    unsigned char *p = new unsigned char[WIDTH*HEIGHT * 4 * 4];

    GLFWwindow *window = glfwStart(WIDTH, HEIGHT, "ray-tracing");
    Shader shader;
    shader.mkShader("shader.vert", NULL, "shader.frag");
    GLuint vao = mkVAO();

    drawPixels(p, sp, spnum, WIDTH*2, HEIGHT*2);
    GLuint tex = mkTex(GL_RGBA, WIDTH*2, HEIGHT*2, p);

    while (!glfwWindowShouldClose(window)) {
        glfwPollEvents();
        glClearColor(0,0,0,0);
        glClear(GL_COLOR_BUFFER_BIT);

        shader.Use();
        glBindTexture(GL_TEXTURE_2D, tex);
        glBindVertexArray(vao);
        glDrawArrays(GL_TRIANGLES, 0, 6);
        glfwSwapBuffers(window);
        GLuint err = glGetError();
        if (err)
            cout << "Error: " << err << endl;
    }
    glDeleteTextures(1, &tex);
    delete[]p;
    delete[]sp;
    glfwTerminate();
    return 0;
}

__constant__ Sphere pp[200];
void HANDLE_ERROR(cudaError_t status) {
    if (status != cudaSuccess) {
        fprintf(stderr, "Error~\n");
        exit(0);
    }
}
__global__ void kernel(unsigned char *res, int spnum, int width, int height) {
    int x = blockIdx.x * blockDim.x + threadIdx.x;
    int y = blockIdx.y * blockDim.y + threadIdx.y;
    int offset = y * width + x;
    if (offset < width * height) {
        offset *= 4;
        float fx = 1.0f * (width/2 - x) / height;
        float fy = 1.0f * y / height - 0.5f;

        mvec3 ray = normalize(Mvec3(fx, fy, 1));

        float miniLen = SINF;
        int miniNum = -1;
        for (int i = 0; i < spnum; ++i) {
            float gg = pp[i].calc(ray, miniLen);
            if (gg < miniLen) {
                miniLen = gg;
                miniNum = i;
            }
        }

        if (miniNum == -1)
            res[offset] = res[offset + 1] = res[offset + 2] = 0;
        else {
            unsigned char *rgb = pp[miniNum].rgb;
            float light = pp[miniNum].calcCos(miniLen, ray);
            res[offset] = light * rgb[0];
            res[offset + 1] = light * rgb[1];
            res[offset + 2] = light * rgb[2];
        }
    }
    else
        res[offset] = res[offset + 1] = res[offset + 2] = 0;

    res[offset + 3] = 0;
}
void drawPixels(unsigned char *res, Sphere *sp, int spnum, int width, int height) {
    HANDLE_ERROR(cudaSetDevice(0));

    cudaError_t status;
    unsigned char *p = 0;

    status = cudaMalloc((void**)&p, width*height*4);
    if (status != cudaSuccess) {
        fprintf(stderr, "ERROR: Malloc for pixels failed\n.");
        goto Error;
    }
    status = cudaMemcpyToSymbol(pp, sp, spnum*sizeof(Sphere));
    if (status != cudaSuccess) {
        fprintf(stderr, "ERROR: MemcpyToSymbol failed.\n");
        goto Error;
    }

    dim3 blockDim(32,32);
    dim3 gridDim((width + 31) / 32, (height + 31) / 32);
    kernel << > > (p, spnum, width, height);

    status = cudaGetLastError();
    if (status != cudaSuccess) {
        fprintf(stderr, "Build kernel failed.\n");
        goto Error;
    }
    status = cudaDeviceSynchronize();
    if (status != cudaSuccess) {
        fprintf(stderr, "kernel run failed.\n");
        goto Error;
    }
    status = cudaMemcpy(res, p, width*height*4, cudaMemcpyDeviceToHost);
    if (status != cudaSuccess) {
        fprintf(stderr, "Memcpy failed.\n");
        goto Error;
    }

Error:

    cudaFree(p);
    cudaFree(pp);
    HANDLE_ERROR(cudaDeviceReset());
    return ;
}

效果图：

MacOS Catalina 从源码构建Qt6.2开发库之01: 编译Qt6.2源代码捕鲸叉 QT macos c++QT
安装xcode，cmake，ninjabrewinstallnodemac下安装OpenGL库并使之对各项目可见在macOS上安装OpenGL通常涉及到安装一些依赖库，如MGL、GLUT或者是GLEW等，同时确保LLVM的OpenGL框架和相关工具链的兼容性。以下是一个基本的安装步骤，你可以在终端中执行：安装Homebrew（如果还没有安装的话）：/bin/bash-c"$(curl-fsSLht
【安装环境】配置MMTracking环境 xuanyu22 安装环境机器学习神经网络深度学习 python
版本v0.14.0安装torchnumpy的版本不能太高，否则后面安装时会发生冲突。先安装numpy，因为pytorch的安装会自动配置高版本numpy。condainstallnumpy=1.21.5mmtracking支持的torch版本有限，需要找到合适的condainstallpytorch==1.11.0torchvision==0.12.0cudatoolkit=10.2-cpytor
OpenGL之基础纹理一我的大好时光
先看下效果图：纹理效果图.pngDemo下载地址：点击下载一、像素图像的数据包装图像存储空间=图像width*图像height*每个像素的字节数ps：有一张RGB的图像（每个颜色通道8位），图像的宽度199个像素，每行需要存储多少空间？解：8位为一个字节，有三个颜色，所以一个RGB需要3个字节存储。199（width）*1（height）*3(字节)二、像素的存储方式/**@parampname:
Android SurfaceTexture和GLSurfaceView做Camera预览小小攻城师 Android SurfaceTexture GLSurfaceView SurfaceTexture openG openGL
GLSurfaceView是OpenGL中的一个类，也是可以预览Camera的，而且在预览Camera上有其独到之处。独到之处在哪？当使用Surfaceview无能为力、痛不欲生时就只有使用GLSurfaceView了，它能够真正做到让Camera的数据和显示分离，所以搞明白了这个，像Camera只开预览不显示这都是小菜，妥妥的。Android4.0的自带Camera源码是用SurfaceView
安装torch报错 raise ReadTimeoutError(self._pool, None, “Read timed out.“) pip._vendor.urllib3.exceptions 待磨的钝刨 pip pytorch 人工智能
文章目录1.配置cuda的torch环境时报错1.配置命令2.报错bug2.解决方法1.增加下载超时时间：2.尝试使用镜像源：3.检查网络连接：4.分次安装：5.重试安装：6.手动下载.whl文件安装1.配置cuda的torch环境时报错1.配置命令pipinstalltorch==2.0.1torchvision==0.15.2torchaudio==2.0.2--index-urlhttps:
SAM2跑通（Ubuntu20.04)内含安装多个cuda 好好607 pytorch linux
参考链接：github链接安装cuda，之前借鉴的方法安装多个cuda补充cuda安装：Asymlinkalreadyexistsat/usr/local/cuda.Updatetothisinstallation?选择no，否则会创建一个软连接覆盖之前那个/usr/local/cudasudogedit~/.bashrc如果按第二个链接安装的cuda，手动改一下版本即可SAM环境安装步骤除了本地
使用vllIm部署大语言模型添砖JAVA的小墨机器学习
使用vllm部署大语言模型一般需要以下步骤：一、准备工作1.系统要求-操作系统：常见的Linux发行版（如Ubuntu、CentOS）或Windows（通过WSL）。-GPU支持：NVIDIAGPU并安装了适当的驱动程序。-足够的内存和存储空间。2.安装依赖-Python3.8及以上版本。-CUDA工具包（根据GPU型号选择合适的版本）。二、安装vllm1.创建虚拟环境（推荐）-使用Conda：c
vllm在线推理踩坑记懂点投资的码农大语言模型 ai 语言模型 python
最近在《AI大模型全栈工程师》课程里看老师推荐使用vllm部署大模型，优点就不详细介绍了，这里摘抄一段来自于Qwen2上手指南对于它的简单介绍：它易于使用，且具有最先进的服务吞吐量、高效的注意力键值内存管理（通过PagedAttention实现）、连续批处理输入请求、优化的CUDA内核等功能。至于原理就先不看了，直接上手部署，以后再来补理论知识。一、vLLM在线推理在Qwen2的上市指南里介绍了v
多版本cuda安装及灵活切换详细教程 Fzc_PCL CUDA Linux 记录 cuda linux
一、首先介绍下我所使用的环境ubuntu18.04+1080ti二、下载安装包1.cudatoolkit下载①环境选择，想要多版本共存的，尽量选择runfile文件进行安装②有些cudatoolkit下载页面，和我上边的一样，没有对应的安装包下载按钮，BaseInstaller中只给了两行命令，如果运行第一行命令的话，下载会比较慢，我是直接复制wget后边的链接在新网页窗口中打开，会自动弹出下载窗
Cuda 程序编译报错: fatal error: cusparse.h: No such file or directory 原野寻踪实践经验 cuda
编译cuda程序时发现下列报错：/mnt/xxx/miniconda3/envs/xxx/lib/python3.8/site-packages/torch/include/ATen/cuda/CUDAContext.h:6:10:fatalerror:cusparse.h:Nosuchfileordirectory#include^~~~~~~~~~~~检查发现是选择了错误的Cuda版本。ls/
天下苦英伟达久矣！PyTorch官方免CUDA加速推理，Triton时代要来？诗者才子酒中仙物联网 /互联网 /人工智能 /其他 pytorch 人工智能 python
在做大语言模型（LLM）的训练、微调和推理时，使用英伟达的GPU和CUDA是常见的做法。在更大的机器学习编程与计算范畴，同样严重依赖CUDA，使用它加速的机器学习模型可以实现更大的性能提升。虽然CUDA在加速计算领域占据主导地位，并成为英伟达重要的护城河之一。但其他一些工作的出现正在向CUDA发起挑战，比如OpenAI推出的Triton，它在可用性、内存开销、AI编译器堆栈构建等方面具有一定的优势
GPU版pytorch安装普通攻击往后拉 python tips 神经网络基础模型关键点
由于经常重装系统，导致电脑的环境需要经常重新配置，其中尤其是cudatorch比较难以安装，因此记录一下安装GPU版本torch的过程。1）安装CUDAtoolkit这个可以看做是N卡所有cuda计算的基础，一般都会随驱动的更新自动安装，但是不全，仍然需要安装toolkit，并不需要先看已有版本是哪个，反正下载完后会自动覆盖原有的cuda。下载网站两个：国内网站：只能下载最新的toolkit，但是
人工智能-GPU版本机器学习、深度学习模型安装 bw876720687 人工智能机器学习深度学习
背景1、在有Nvidia-GPU的情况下模型使用cuda加速计算，但是很有多模型的GPU和CPU版本安装方式不同，如何安装lgb\cat\xgb.2、为了让代码有普适性，如何自适应环境当中的设备进行CPU或者GPU的调整？解决方案问题一：安装GPU版本的LightGBMLightGBM默认不会安装GPU支持版，需要手动编译以启用GPU。以下是在Linux和Windows上编译GPU版本LightG
OpenGL GLFW OIT 实现 Padid 学习笔记 c++图形渲染着色器
OITLearnOpenGL-IntroductionLearnOpenGL.comprovidesgoodandclearmodern3.3+OpenGLtutorialswithclearexamples.AgreatresourcetolearnmodernOpenGLaimedatbeginners.https://learnopengl.com/Guest-Articles/2020/O
CUDA 编程入门（2）：CUDA 调度模型知识搬运工人 CUDA GPU CUDA
参考：CUDA编程入门（2）：CUDA编程模型-知乎(zhihu.com)CUDA调度模型Block调度Block对应的物理硬件概念是SM，也就是说SM负责block中线程的执行，SM会为每个block分配需求的资源，比如寄存器，共享内存等，由于SM自身资源有限，因此它被分配到的block数量也是有限的，这取决于block中线程的资源需求。当所有的SM都饱和之后，剩下的blocks将会被暂时挂起，
Ubuntu 开机出现 recovering journal 无法进入图形界面解决流程(不通用，自用) Artintel 学习 ubuntu
远程连接进入命令行：rm-rf/etc/X11/xorg.confcp/etc/X11/xorg.conf.failsafe/etc/X11/xorg.confsudoservicelightdmstopsudoapt-getremovenvidia*cdjohn/qudong+cuda9.0\+\cudnn/sudochmoda+xnv.runsudo./nv.run-no-x-check-no
Yolo-v3利用GPU训练make时发生错误：/usr/bin/ld: cannot find -lcuda 徐小妞66666
一.利用GPU训练Yolov3时，首先要修改MakeFile文件，修改格式如下：GPU=1(原来为0)CUDNN=1(原来为0)NVCC=/usr/local/cuda/bin/nvcc(新建,注意自己本机的地址)二.此时make产生错误/usr/bin/ld:cannotfind-lcuda1.查看MakeFile文件找到该行代码：LDFLAGS+=-L/usr/local/cuda/lib64
【环境搭建：onnx模型部署】onnxruntime-gpu安装与测试（python）(1) 2401_83703835 程序员 python 深度学习 pytorch
cuda==10.2cudnn==8.0.3onnxruntime-gpu==1.5.0or1.6.0pipinstallonnxruntime-gpu==1.6.0###2.2方法二：onnxruntime-gpu不依赖于本地主机上cuda和cudnn在conda环境中安装，不依赖于本地主机上已安装的cuda和cudnn版本，灵活方便。这里，先说一下已经测试通过的组合：*python3.6,cu
pytorch计算网络参数量和Flops Mr_Lowbee PyTorch pytorch 深度学习人工智能
fromtorchsummaryimportsummarysummary(net,input_size=(3,256,256),batch_size=-1)输出的参数是除以一百万（/1000000）M，fromfvcore.nnimportFlopCountAnalysisinputs=torch.randn(1,3,256,256).cuda()flop_counter=FlopCountAna
使用TensorRT对YOLOv8模型进行加速推理 fengbingchun Deep Learning CUDA/TensorRT YOLOv8 TensorRT
这里使用GitHub上shouxieai的infer框架对YOLOv8模型进行加速推理，操作过程如下所示：1.配置环境，依赖项，包括：(1).CUDA:11.8(2).cuDNN:8.7.0(3).TensorRT:8.5.3.1(4).ONNX:1.16.0(5).OpenCV:4.10.02.cloneinfer代码：https://github.com/shouxieai/infer3.使用
ONNX Runtime、CUDA、cuDNN、TensorRT版本对应可keke ML&DL pytorch deep learning
文章目录ONNXRuntime的安装ONNXRuntime与CUDA、cuDNN的版本对应ONNXRuntime与ONNX的版本对应ONNXRuntime、TensorRT、CUDA版本对应ONNXRuntime的安装官方文档注意，到目前为止，onnxruntime-gpu在CUDA12.x和CUDA11.x下的安装命令是不同的，仔细阅读官方文档。验证安装python>>>importonnxru
ONNXRuntime与CUDA版本对应 zy_destiny 部署 YOLO onnxruntime onnX 部署 cuda python
onnxruntime-gpu版本可以说是一个非常简单易用的框架，因为通常用pytorch训练的模型，在部署时，会首先转换成onnx，而onnxruntime和onnx又是有着同一个爸爸，无疑，在op的支持上肯定是最好的。通常在安装onnxruntime时，需要将其版本与pytorch版本和CUDA版本进行对应，其中ONNXRuntime与CUDA版本对应关系表如下表所示。ONNXRuntimeC
【已解决】onnx无法找到CUDA的路径烟花节已解决人工智能深度学习 python pip
报错RuntimeError:D:\a\_work\1\s\onnxruntime\python\onnxruntime_pybind_state.cc:857onnxruntime::python::CreateExecutionProviderInstanceCUDA_PATHissetbutCUDAwasntabletobeloaded.Pleaseinstallthecorrectvers
Window 下 Vim 环境安装踩坑问题汇总及解决方法 yyywxk #Python模块有关问题 vim python mamba windows
导航Linux下Mamba及Vim安装问题参看本人之前博客：Mamba环境安装踩坑问题汇总及解决方法Linux下Vmamba安装教程参看本人之前博客：Vmamba安装教程（无需更改base环境中的cuda版本）Windows下VMamba的安装参看本人之前博客：Windows下VMamba安装教程（无需更改base环境中的cuda版本且可加速）Window下Mamba环境教程参看本人之前博客：Wi
windows11 wsl2 ubuntu20.04安装vision mamba并进行测试一剑斩蛟龙人工智能深度学习图像处理计算机视觉 python 机器学习 pytorch
windows11wsl2ubuntu20.04安装visionmamba安装流程使用cifar-100测试安装成功安装流程visionmamba安装了半天才跑通，记录一下流程在wsl上安装cudawgethttps://developer.download.nvidia.cn/compute/cuda/11.8.0/local_installers/cuda_11.8.0_520.61.05_l
OpenGL ES基本概念 Irino
OpenGLES的版本OpenGLES1.X：用于固定功能流水管线硬件OpenGLES2.X：用于可编程功能流水管线硬件OpenGLES3.X：OpenGLES2.0的拓展EGL（EmbeddedGraphicsLibrary）OpenGLES命令需要渲染上下文和绘制表面才能完成图形图像的绘制渲染上下文：存储相关OpenGLES状态绘制表面：是用于绘制图元的表面，它指定渲染所需要的缓存区类型，例如
[Lora][微调] Qwen-VL/Qwen-VL-chat微调问题翔迅AI python
@[Lora][微调]Qwen-VL/Qwen-VL-chat微调问题关于Qwen-VL在lora过程中出现的问题总结。模型预训练错误一“erfinv_cuda”notimplementedfor‘BFloat16’RuntimeError:"erfinv_cuda"notimplementedfor'BFloat16'参考github中issue253给出的意见，修改Qwen-VL-Chat/v
【Pytorch】cumsum的实现逻辑栏杆拍遍看吴钩 pytorch pytorch 人工智能 python
本文只记录cumsum的实现逻辑的CUDA部分，也即底层调用了CUDA的什么实现算子。voidlaunch_cumsum_cuda_kernel(constTensorBase&result,constTensorBase&self,int64_tdim){AT_DISPATCH_ALL_TYPES_AND_COMPLEX_AND2(ScalarType::Half,ScalarType::BFl
百度飞桨paddle安装包括CUDA,cuDNN,opencv的安装小甲学长 opencv 百度 paddlepaddle
conda创建新环境这部分代码均在AnacondaPrompt中写，要求已有Anaconda第一步：创建condacreate--nameyourEnvpython=3.6–name：也可以缩写为【-n】，【yourEnv】是新创建的虚拟环境的名字，创建完，可以装anaconda的目录下找到envs/yourEnv目录python=2.7：是python的版本号。也可以指定为【python=3.6
深度学习回归任务训练代码模版槐月初叁深度学习深度学习回归人工智能
深度学习回归任务训练代码模版文章目录深度学习回归任务训练代码模版参数设置功能函数数据加载自定义数据集加载类特征选择（可选）数据读取定义模型训练模型训练迭代＋验证迭代使用`tensorboard`输出模型训练过程和指标可视化(可选)结果预测参考参数设置超参设置：config包含所有训练需要的超参数（便于后续的调参），以及模型需要存储的位置device='cuda'iftorch.cuda.is_av
Dom 周华华 JavaScript html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
【Spark九十六】RDD API之combineByKey bit1129 spark
1. combineByKey函数的运行机制 RDD提供了很多针对元素类型为(K,V)的API，这些API封装在PairRDDFunctions类中，通过Scala隐式转换使用。这些API实现上是借助于combineByKey实现的。combineByKey函数本身也是RDD开放给Spark开发人员使用的API之一首先看一下combineByKey的方法说明：
msyql设置密码报错：ERROR 1372 (HY000): 解决方法详解 daizj mysql 设置密码
MySql给用户设置权限同时指定访问密码时，会提示如下错误： ERROR 1372 (HY000): Password hash should be a 41-digit hexadecimal number；问题原因：你输入的密码是明文。不允许这么输入。解决办法：用select password('你想输入的密码');查询出你的密码对应的字符串，然后
路漫漫其修远兮吾将上下而求索周凡杨学习思索
王国维在他的《人间词话》中曾经概括了为学的三种境界古今之成大事业、大学问者，罔不经过三种之境界。“昨夜西风凋碧树。独上高楼，望尽天涯路。”此第一境界也。“衣带渐宽终不悔，为伊消得人憔悴。”此第二境界也。“众里寻他千百度，蓦然回首，那人却在灯火阑珊处。”此第三境界也。学习技术，这也是你必须经历的三种境界。第一层境界是说，学习的路是漫漫的，你必须做好充分的思想准备，如果半途而废还不如不要开始。这里，注
Hadoop(二)对话单的操作朱辉辉33 hadoop
Debug： 1、 A = LOAD '/user/hue/task.txt' USING PigStorage(' ') AS (col1,col2,col3); DUMP A; //输出结果前几行示例： (>ggsnPDPRecord(21),,) (-->recordType(0),,) (-->networkInitiation(1),,)
web报表工具FineReport常用函数的用法总结（日期和时间函数）老A不折腾 finereport 报表工具 web开发
web报表工具FineReport常用函数的用法总结（日期和时间函数）说明：凡函数中以日期作为参数因子的，其中日期的形式都必须是yy/mm/dd。而且必须用英文环境下双引号(" ")引用。 DATE DATE(year,month,day):返回一个表示某一特定日期的系列数。 Year:代表年，可为一到四位数。 Month:代表月份。
c++ 宏定义中的##操作符墙头上一根草 C++
#与##在宏定义中的--宏展开 #include <stdio.h> #define f(a,b) a##b #define g(a) #a #define h(a) g(a) int main() { &nbs
分析Spring源代码之，DI的实现 aijuans spring DI 现源代码
(转) 分析Spring源代码之，DI的实现 2012/1/3 by tony 接着上次的讲，以下这个sample [java] view plain copy print
for循环的进化 alxw4616 JavaScript
// for循环的进化 // 菜鸟 for (var i = 0; i < Things.length ; i++) { // Things[i] } // 老鸟 for (var i = 0, len = Things.length; i < len; i++) { // Things[i] } // 大师 for (var i = Things.le
网络编程Socket和ServerSocket简单的使用百合不是茶网络编程基础 IP地址端口
网络编程;TCP/IP协议网络:实现计算机之间的信息共享,数据资源的交换协议:数据交换需要遵守的一种协议,按照约定的数据格式等写出去端口:用于计算机之间的通信每运行一个程序，系统会分配一个编号给该程序，作为和外界交换数据的唯一标识 0~65535 查看被使用的
JDK1.5 生产消费者 bijian1013 java thread 生产消费者 java多线程
ArrayBlockingQueue：一个由数组支持的有界阻塞队列。此队列按 FIFO（先进先出）原则对元素进行排序。队列的头部是在队列中存在时间最长的元素。队列的尾部是在队列中存在时间最短的元素。新元素插入到队列的尾部，队列检索操作则是从队列头部开始获得元素。 ArrayBlockingQueue的常用方法：
JAVA版身份证获取性别、出生日期及年龄 bijian1013 java 性别出生日期年龄
工作中需要根据身份证获取性别、出生日期及年龄，且要还要支持15位长度的身份证号码，网上搜索了一下，经过测试好像多少存在点问题，干脆自已写一个。 CertificateNo.java package com.bijian.study; import java.util.Calendar; import
【Java范型六】范型与枚举 bit1129 java
首先，枚举类型的定义不能带有类型参数，所以，不能把枚举类型定义为范型枚举类，例如下面的枚举类定义是有编译错的 public enum EnumGenerics<T> { //编译错，提示枚举不能带有范型参数 OK, ERROR; public <T> T get(T type) { return null;
【Nginx五】Nginx常用日志格式含义 bit1129 nginx
1. log_format 1.1 log_format指令用于指定日志的格式，格式： log_format name(格式名称) type(格式样式) 1.2 如下是一个常用的Nginx日志格式： log_format main '[$time_local]|$request_time|$status|$body_bytes
Lua 语言 15 分钟快速入门 ronin47 lua 基础
- - 单行注释 - - [[ [多行注释] - - ]] - - - - - - - - - - - 1. 变量 & 控制流 - - - - - - - - - - num = 23 - - 数字都是双精度 str = 'aspythonstring'
java-35.求一个矩阵中最大的二维矩阵 ( 元素和最大 ) bylijinnan java
the idea is from: http://blog.csdn.net/zhanxinhang/article/details/6731134 public class MaxSubMatrix { /**see http://blog.csdn.net/zhanxinhang/article/details/6731134 * Q35 求一个矩阵中最大的二维
mongoDB文档型数据库特点开窍的石头 mongoDB文档型数据库特点
MongoDD: 文档型数据库存储的是Bson文档-->json的二进制特点：内部是执行引擎是js解释器，把文档转成Bson结构，在查询时转换成js对象。 mongoDB传统型数据库对比传统类型数据库：结构化数据，定好了表结构后每一个内容符合表结构的。也就是说每一行每一列的数据都是一样的文档型数据库：不用定好数据结构，
[毕业季节]欢迎广大毕业生加入JAVA程序员的行列 comsci java
一年一度的毕业季来临了。。。。。。。。正在投简历的学弟学妹们。。。如果觉得学校推荐的单位和公司不适合自己的兴趣和专业，可以考虑来我们软件行业，做一名职业程序员。。。软件行业的开发工具中，对初学者最友好的就是JAVA语言了，网络上不仅仅有大量的
PHP操作Excel – PHPExcel 基本用法详解 cuiyadll PHP Excel
导出excel属性设置//Include classrequire_once('Classes/PHPExcel.php');require_once('Classes/PHPExcel/Writer/Excel2007.php');$objPHPExcel = new PHPExcel();//Set properties 设置文件属性$objPHPExcel->getProperties
IBM Webshpere MQ Client User Issue (MCAUSER) darrenzhu IBM jms user MQ MCAUSER
IBM MQ JMS Client去连接远端MQ Server的时候，需要提供User和Password吗？答案是根据情况而定，取决于所定义的Channel里面的属性Message channel agent user identifier (MCAUSER)的设置。 http://stackoverflow.com/questions/20209429/how-mca-user-i
网线的接法 dcj3sjt126com
一、PC连HUB (直连线)A端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。 B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。二、PC连PC （交叉线）A端：(568A)：白绿，绿，白橙，蓝，白蓝，橙，白棕，棕； B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。三、HUB连HUB&nb
Vimium插件让键盘党像操作Vim一样操作Chrome dcj3sjt126com chrome vim
什么是键盘党？键盘党是指尽可能将所有电脑操作用键盘来完成，而不去动鼠标的人。鼠标应该说是新手们的最爱，很直观，指哪点哪，很听话！不过常常使用电脑的人，如果一直使用鼠标的话，手会发酸，因为操作鼠标的时候，手臂不是在一个自然的状态，臂肌会处于绷紧状态。而使用键盘则双手是放松状态，只有手指在动。而且尽量少的从鼠标移动到键盘来回操作，也省不少事。在chrome里安装 vimium 插件
MongoDB查询（2）——数组查询[六] eksliang mongodb MongoDB查询数组
MongoDB查询数组转载请出自出处：http://eksliang.iteye.com/blog/2177292 一、概述 MongoDB查询数组与查询标量值是一样的，例如，有一个水果列表，如下所示： > db.food.find() { "_id" : "001", "fruits" : [ "苹
cordova读写文件（1） gundumw100 JavaScript Cordova
使用cordova可以很方便的在手机sdcard中读写文件。首先需要安装cordova插件：file 命令为： cordova plugin add org.apache.cordova.file 然后就可以读写文件了，这里我先是写入一个文件，具体的JS代码为： var datas=null;//datas need write var directory=&
HTML5 FormData 进行文件jquery ajax 上传到又拍云 ileson jquery Ajax html5 FormData
html5 新东西：FormData 可以提交二进制数据。页面test.html <!DOCTYPE> <html> <head> <title> formdata file jquery ajax upload</title> </head> <body> <
swift appearanceWhenContainedIn:(version1.2 xcode6.4) 啸笑天 version
swift1.2中没有oc中对应的方法： + (instancetype)appearanceWhenContainedIn:(Class <UIAppearanceContainer>)ContainerClass, ... NS_REQUIRES_NIL_TERMINATION; 解决方法：在swift项目中新建oc类如下： #import &
java实现SMTP邮件服务器 macroli java 编程
电子邮件传递可以由多种协议来实现。目前，在Internet 网上最流行的三种电子邮件协议是SMTP、POP3 和 IMAP，下面分别简单介绍。　　◆ SMTP 协议　　简单邮件传输协议(Simple Mail Transfer Protocol,SMTP)是一个运行在TCP/IP之上的协议，用它发送和接收电子邮件。SMTP 服务器在默认端口25上监听。SMTP客户使用一组简单的、基于文本的
mongodb group by having where 查询sql qiaolevip 每天进步一点点学习永无止境 mongo 纵观千象
SELECT cust_id, SUM(price) as total FROM orders WHERE status = 'A' GROUP BY cust_id HAVING total > 250 db.orders.aggregate( [ { $match: { status: 'A' } }, { $group: {
Struts2 Pojo（六） Luob. POJO strust2
注意：附件中有完整案例 1.采用POJO对象的方法进行赋值和传值 2.web配置 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee&q
struts2步骤 wuai struts
1、添加jar包 2、在web.xml中配置过滤器 <filter> <filter-name>struts2</filter-name> <filter-class>org.apache.st

光线追踪

你可能感兴趣的:(cuda,openGL)