lucky_greenegg

OpenCV环境下CUDA编程示例

在CUDA平台上对图像算法进行并行加速是目前并行计算方面比较简单易行的一种方式，而同时利用OpenCV提供的一些库函数的话，那么事情将会变得更加easy。以下是我个人采用的一种模板，这个模板是从OpenCV里的算法CUDA源码挖掘出来的，我感觉这个用起来比较傲方便，所以经常采用。首先大牛们写的源码都很鲁棒，考虑的比较全面（如大部分算法将1,3,4通道的图像同时搞定），感觉还有一个比较神奇的地方在于CPU端GpuMat和GPU端PtrStepSzb的转换，让我欲罢不能，一个不太理想的地方在于第一帧的初始化时间比较长，应该是CPU到GPU的数据传输。代码中有考虑流，但貌似没有使用。

我使用的是赵开勇的CUDA_VS_Wizard，主函数还是用的cu文件。以下代码是对Vibe背景建模算法的并行，背景建模算法是目前接触到易于并行的一类，如GMM等，而且加速效果不错，因为一个线程执行的数据就是对应一个像素点。

代码如下：

sample.cu

/********************************************************************
*  sample.cu
*  This is a example of the CUDA program.
*********************************************************************/

#include <stdio.h>
#include <stdlib.h>
#include <cutil_inline.h>
#include <iostream>
#include <string>
#include "opencv2/core/core.hpp"
#include "opencv2/gpu/gpu.hpp"
#include "opencv2/highgui/highgui.hpp"
#include "Vibe_M_kernel.cu"
#include "Vibe_M.h"
using namespace std;
using namespace cv;
using namespace cv::gpu;

enum Method
{
	FGD_STAT,
	MOG,
	MOG2,
	VIBE,
	GMG
};

int main(int argc, const char** argv)
{
	cv::CommandLineParser cmd(argc, argv,
		"{ c | camera | flase       | use camera }"
		"{ f | file   | 768x576.avi | input video file }"
		"{ m | method | vibe         | method (fgd, mog, mog2, vibe, gmg) }"
		"{ h | help   | false       | print help message }");

	if (cmd.get<bool>("help"))
	{
		cout << "Usage : bgfg_segm [options]" << endl;
		cout << "Avaible options:" << endl;
		cmd.printParams();
		return 0;
	}
	bool useCamera = cmd.get<bool>("camera");
	string file = cmd.get<string>("file");
	string method = cmd.get<string>("method");
	if (method != "fgd" && method != "mog" && method != "mog2" && method != "vibe" && method != "gmg")
	{
		cerr << "Incorrect method" << endl;
		return -1;
	}
	Method m = method == "fgd" ? FGD_STAT : method == "mog" ? MOG : method == "mog2" ? MOG2 : method == "vibe" ? VIBE : GMG;

	VideoCapture cap;
	if (useCamera)
		cap.open(0);
	else
		cap.open(file);
	if (!cap.isOpened())
	{
		cerr << "can not open camera or video file" << endl;
		return -1;
	}
	Mat origin, frame;
	cap >> origin;
	cvtColor(origin,frame,CV_BGR2GRAY);
	GpuMat d_frame(frame);
	Vibe_M vibe;
	GpuMat d_fgmask;

	Mat fgmask;
	Mat fgimg;
	Mat bgimg;

	switch (m)
	{
	case VIBE:
		vibe.initialize(d_frame);
		break;

	}

	namedWindow("image", WINDOW_NORMAL);
	namedWindow("foreground mask", WINDOW_NORMAL);

	for(;;)
	{
		cap >> origin;
		if (origin.empty())
			break;

		cvtColor(origin,frame,CV_BGR2GRAY);

		d_frame.upload(frame);

		//update the model
		switch (m)
		{
		case VIBE:
			vibe(d_frame, d_fgmask);
			break;
		}
		d_fgmask.download(fgmask);

		imshow("image", frame);
		imshow("foreground mask", fgmask);
		int key = waitKey(30);
		if (key == 27)
			break;
		else if(key == ' ')
		{
			cvWaitKey(0);
		}
	}
	exit(0);
}

Vibe_M.cpp

#include "Vibe_M.h"

namespace cv { namespace gpu { namespace device
{
	namespace vibe_m
	{
		void loadConstants(int nbSamples, int reqMatches, int radius, int subsamplingFactor);

		void init_gpu(PtrStepSzb frame, int cn, PtrStepSzb samples, PtrStepSz<unsigned int> randStates, cudaStream_t stream);

		void update_gpu(PtrStepSzb frame, int cn, PtrStepSzb fgmask, PtrStepSzb samples, PtrStepSz<unsigned int> randStates, cudaStream_t stream);
	}
}}}

namespace
{
	const int defaultNbSamples = 20;
	const int defaultReqMatches = 2;
	const int defaultRadius = 20;
	const int defaultSubsamplingFactor = 16;
}

Vibe_M::Vibe_M(unsigned long rngSeed) :
frameSize_(0, 0), rngSeed_(rngSeed)
{
	nbSamples = defaultNbSamples;
	reqMatches = defaultReqMatches;
	radius = defaultRadius;
	subsamplingFactor = defaultSubsamplingFactor;
}

void Vibe_M::initialize(const GpuMat& firstFrame, Stream& s)
{
	using namespace cv::gpu::device::vibe_m;

	CV_Assert(firstFrame.type() == CV_8UC1 || firstFrame.type() == CV_8UC3 || firstFrame.type() == CV_8UC4);

	//cudaStream_t stream = StreamAccessor::getStream(s);

	loadConstants(nbSamples, reqMatches, radius, subsamplingFactor);

	frameSize_ = firstFrame.size();

	if (randStates_.size() != frameSize_)
	{
		cv::RNG rng(rngSeed_);
		cv::Mat h_randStates(frameSize_, CV_8UC4);
		rng.fill(h_randStates, cv::RNG::UNIFORM, 0, 255);
		randStates_.upload(h_randStates);
	}

	int ch = firstFrame.channels();
	int sample_ch = ch == 1 ? 1 : 4;

	samples_.create(nbSamples * frameSize_.height, frameSize_.width, CV_8UC(sample_ch));

	init_gpu(firstFrame, ch, samples_, randStates_, 0);
}

void Vibe_M::operator()(const GpuMat& frame, GpuMat& fgmask, Stream& s)
{
	using namespace cv::gpu::device::vibe_m;

	CV_Assert(frame.depth() == CV_8U);

	int ch = frame.channels();
	int sample_ch = ch == 1 ? 1 : 4;

	if (frame.size() != frameSize_ || sample_ch != samples_.channels())
		initialize(frame);

	fgmask.create(frameSize_, CV_8UC1);

	update_gpu(frame, ch, fgmask, samples_, randStates_, StreamAccessor::getStream(s));
}

void Vibe_M::release()
{
	frameSize_ = Size(0, 0);

	randStates_.release();

	samples_.release();
}

Vibe_M.h

#ifndef _VIBE_M_H_
#define _VIBE_M_H_
#ifndef SKIP_INCLUDES
#include <vector>
#include <memory>
#include <iosfwd>
#endif
#include "opencv2/core/core.hpp"
#include "opencv2/core/gpumat.hpp"
#include "opencv2/gpu/gpu.hpp"
#include "opencv2/imgproc/imgproc.hpp"
#include "opencv2/objdetect/objdetect.hpp"
#include "opencv2/features2d/features2d.hpp"
using namespace std;
using namespace cv;
using namespace cv::gpu;

class  Vibe_M
{
public:
	//! the default constructor
	explicit Vibe_M(unsigned long rngSeed = 1234567);
	//! re-initiaization method
	void initialize(const GpuMat& firstFrame, Stream& stream = Stream::Null());
	//! the update operator
	void operator()(const GpuMat& frame, GpuMat& fgmask, Stream& stream = Stream::Null());
	//! releases all inner buffers
	void release();
	int nbSamples;         // number of samples per pixel
	int reqMatches;        // #_min
	int radius;            // R
	int subsamplingFactor; // amount of random subsampling

private:
	Size frameSize_;
	unsigned long rngSeed_;
	GpuMat randStates_;
	GpuMat samples_;
};

#endif

Vibe_M.cu

#include "Vibe_M.h"
#include "opencv2/gpu/stream_accessor.hpp"

namespace cv { namespace gpu { namespace device
{
	namespace vibe_m
	{
		void loadConstants(int nbSamples, int reqMatches, int radius, int subsamplingFactor);

		void init_gpu(PtrStepSzb frame, int cn, PtrStepSzb samples, PtrStepSz<unsigned int> randStates, cudaStream_t stream);

		void update_gpu(PtrStepSzb frame, int cn, PtrStepSzb fgmask, PtrStepSzb samples, PtrStepSz<unsigned int> randStates, cudaStream_t stream);
	}
}}}

namespace
{
	const int defaultNbSamples = 20;
	const int defaultReqMatches = 2;
	const int defaultRadius = 20;
	const int defaultSubsamplingFactor = 16;
}

Vibe_M::Vibe_M(unsigned long rngSeed) :
frameSize_(0, 0), rngSeed_(rngSeed)
{
	nbSamples = defaultNbSamples;
	reqMatches = defaultReqMatches;
	radius = defaultRadius;
	subsamplingFactor = defaultSubsamplingFactor;
}

void Vibe_M::initialize(const GpuMat& firstFrame, Stream& s)
{
	using namespace cv::gpu::device::vibe_m;

	CV_Assert(firstFrame.type() == CV_8UC1 || firstFrame.type() == CV_8UC3 || firstFrame.type() == CV_8UC4);

	cudaStream_t stream = cv::gpu::StreamAccessor::getStream(s);

	loadConstants(nbSamples, reqMatches, radius, subsamplingFactor);

	frameSize_ = firstFrame.size();

	if (randStates_.size() != frameSize_)
	{
		cv::RNG rng(rngSeed_);
		cv::Mat h_randStates(frameSize_, CV_8UC4);
		rng.fill(h_randStates, cv::RNG::UNIFORM, 0, 255);
		randStates_.upload(h_randStates);
	}

	int ch = firstFrame.channels();
	int sample_ch = ch == 1 ? 1 : 4;

	samples_.create(nbSamples * frameSize_.height, frameSize_.width, CV_8UC(sample_ch));

	init_gpu(firstFrame, ch, samples_, randStates_, stream);
}

void Vibe_M::operator()(const GpuMat& frame, GpuMat& fgmask, Stream& s)
{
	using namespace cv::gpu::device::vibe_m;

	CV_Assert(frame.depth() == CV_8U);

	int ch = frame.channels();
	int sample_ch = ch == 1 ? 1 : 4;

	if (frame.size() != frameSize_ || sample_ch != samples_.channels())
		initialize(frame);

	fgmask.create(frameSize_, CV_8UC1);

	update_gpu(frame, ch, fgmask, samples_, randStates_, cv::gpu::StreamAccessor::getStream(s));
}

void Vibe_M::release()
{
	frameSize_ = Size(0, 0);

	randStates_.release();

	samples_.release();
}

Vibe_M_kernel.cu

#include "opencv2/gpu/device/common.hpp"
#include "opencv2/gpu/device/vec_math.hpp"

namespace cv { namespace gpu { namespace device
{
	namespace vibe_m
	{
		__constant__ int c_nbSamples;
		__constant__ int c_reqMatches;
		__constant__ int c_radius;
		__constant__ int c_subsamplingFactor;

		void loadConstants(int nbSamples, int reqMatches, int radius, int subsamplingFactor)
		{
			cudaSafeCall( cudaMemcpyToSymbol(c_nbSamples, &nbSamples, sizeof(int)) );
			cudaSafeCall( cudaMemcpyToSymbol(c_reqMatches, &reqMatches, sizeof(int)) );
			cudaSafeCall( cudaMemcpyToSymbol(c_radius, &radius, sizeof(int)) );                        
			cudaSafeCall( cudaMemcpyToSymbol(c_subsamplingFactor, &subsamplingFactor, sizeof(int)) );
		}

		__device__ __forceinline__ uint nextRand(uint& state)
		{
			//const unsigned int CV_RNG_COEFF = 4164903690U;//已经定义
			state = state * CV_RNG_COEFF + (state >> 16);
			return state;
		}

		__constant__ int c_xoff[9] = {-1,  0,  1, -1, 1, -1, 0, 1, 0};
		__constant__ int c_yoff[9] = {-1, -1, -1,  0, 0,  1, 1, 1, 0};

		__device__ __forceinline__ int2 chooseRandomNeighbor(int x, int y, uint& randState, int count = 8)
		{
			int idx = nextRand(randState) % count;

			return make_int2(x + c_xoff[idx], y + c_yoff[idx]);
		}

		__device__ __forceinline__ uchar cvt(uchar val)
		{
			return val;
		}
		__device__ __forceinline__ uchar4 cvt(const uchar3& val)
		{
			return make_uchar4(val.x, val.y, val.z, 0);
		}
		__device__ __forceinline__ uchar4 cvt(const uchar4& val)
		{
			return val;
		}

		template <typename SrcT, typename SampleT>
		__global__ void init(const PtrStepSz<SrcT> frame, PtrStep<SampleT> samples, PtrStep<uint> randStates)
		{
			const int x = blockIdx.x * blockDim.x + threadIdx.x;
			const int y = blockIdx.y * blockDim.y + threadIdx.y;

			if (x >= frame.cols || y >= frame.rows)
				return;

			uint localState = randStates(y, x);

			for (int k = 0; k < c_nbSamples; ++k)
			{
				int2 np = chooseRandomNeighbor(x, y, localState, 9);

				np.x = ::max(0, ::min(np.x, frame.cols - 1));
				np.y = ::max(0, ::min(np.y, frame.rows - 1));

				SrcT pix = frame(np.y, np.x);

				samples(k * frame.rows + y, x) = cvt(pix);
			}

			randStates(y, x) = localState;
		}

		template <typename SrcT, typename SampleT>
		void init_caller(PtrStepSzb frame, PtrStepSzb samples, PtrStepSz<uint> randStates, cudaStream_t stream)
		{
			dim3 block(32, 8);
			dim3 grid(divUp(frame.cols, block.x), divUp(frame.rows, block.y));

			cudaSafeCall( cudaFuncSetCacheConfig(init<SrcT, SampleT>, cudaFuncCachePreferL1) );

			init<SrcT, SampleT><<<grid, block, 0, stream>>>((PtrStepSz<SrcT>) frame, (PtrStepSz<SampleT>) samples, randStates);
			cudaSafeCall( cudaGetLastError() );

			if (stream == 0)
				cudaSafeCall( cudaDeviceSynchronize() );
		}

		void init_gpu(PtrStepSzb frame, int cn, PtrStepSzb samples, PtrStepSz<uint> randStates, cudaStream_t stream)
		{
			typedef void (*func_t)(PtrStepSzb frame, PtrStepSzb samples, PtrStepSz<uint> randStates, cudaStream_t stream);
			static const func_t funcs[] =
			{
				0, init_caller<uchar, uchar>, 0, init_caller<uchar3, uchar4>, init_caller<uchar4, uchar4>
			};

			funcs[cn](frame, samples, randStates, stream);
		}

		__device__ __forceinline__ int calcDist(uchar a, uchar b)
		{
			return ::abs(a - b);
		}
		__device__ __forceinline__ int calcDist(const uchar3& a, const uchar4& b)
		{
			return (::abs(a.x - b.x) + ::abs(a.y - b.y) + ::abs(a.z - b.z)) / 3;
		}
		__device__ __forceinline__ int calcDist(const uchar4& a, const uchar4& b)
		{
			return (::abs(a.x - b.x) + ::abs(a.y - b.y) + ::abs(a.z - b.z)) / 3;
		}

		template <typename SrcT, typename SampleT>
		__global__ void update(const PtrStepSz<SrcT> frame, PtrStepb fgmask, PtrStep<SampleT> samples, PtrStep<uint> randStates)
		{
			const int x = blockIdx.x * blockDim.x + threadIdx.x;
			const int y = blockIdx.y * blockDim.y + threadIdx.y;

			if (x >= frame.cols || y >= frame.rows)
				return;

			uint localState = randStates(y, x);

			SrcT imgPix = frame(y, x);

			// comparison with the model

			int count = 0;
			for (int k = 0; (count < c_reqMatches) && (k < c_nbSamples); ++k)
			{
				SampleT samplePix = samples(k * frame.rows + y, x);

				int distance = calcDist(imgPix, samplePix);

				if (distance < c_radius)
					++count;
			}

			// pixel classification according to reqMatches

			fgmask(y, x) = (uchar) (-(count < c_reqMatches));//当count<2时，为前景 当计数器count>=2时，为背景

			if (count >= c_reqMatches)
			{
				// the pixel belongs to the background

				// gets a random number between 0 and subsamplingFactor-1
				int randomNumber = nextRand(localState) % c_subsamplingFactor;

				// update of the current pixel model
				if (randomNumber == 0)
				{
					// random subsampling

					int k = nextRand(localState) % c_nbSamples;

					samples(k * frame.rows + y, x) = cvt(imgPix);
				}

				// update of a neighboring pixel model
				randomNumber = nextRand(localState) % c_subsamplingFactor;

				if (randomNumber == 0)
				{
					// random subsampling

					// chooses a neighboring pixel randomly
					int2 np = chooseRandomNeighbor(x, y, localState);

					np.x = ::max(0, ::min(np.x, frame.cols - 1));
					np.y = ::max(0, ::min(np.y, frame.rows - 1));

					// chooses the value to be replaced randomly
					int k = nextRand(localState) % c_nbSamples;
					samples(k * frame.rows + np.y, np.x) = cvt(imgPix);
				}
			}

			randStates(y, x) = localState;
		}

		template <typename SrcT, typename SampleT>
		void update_caller(PtrStepSzb frame, PtrStepSzb fgmask, PtrStepSzb samples, PtrStepSz<uint> randStates, cudaStream_t stream)
		{
			dim3 block(32, 8);
			dim3 grid(divUp(frame.cols, block.x), divUp(frame.rows, block.y));

			cudaSafeCall( cudaFuncSetCacheConfig(update<SrcT, SampleT>, cudaFuncCachePreferL1) );

			update<SrcT, SampleT><<<grid, block, 0, stream>>>((PtrStepSz<SrcT>) frame, fgmask, (PtrStepSz<SampleT>) samples, randStates);
			cudaSafeCall( cudaGetLastError() );

			if (stream == 0)
				cudaSafeCall( cudaDeviceSynchronize() );
		}

		void update_gpu(PtrStepSzb frame, int cn, PtrStepSzb fgmask, PtrStepSzb samples, PtrStepSz<uint> randStates, cudaStream_t stream)
		{
			typedef void (*func_t)(PtrStepSzb frame, PtrStepSzb fgmask, PtrStepSzb samples, PtrStepSz<uint> randStates, cudaStream_t stream);
			static const func_t funcs[] =
			{
				0, update_caller<uchar, uchar>, 0, update_caller<uchar3, uchar4>, update_caller<uchar4, uchar4>
			};

			funcs[cn](frame, fgmask, samples, randStates, stream);
		}
	}
}}}

pytorch官方文档60分钟入门笔记 xiaodidadada 机器学习
文章目录1.张量（Tensors）定义张量张量操作2.自动求导（autograd）变量Variable3.神经网络4.训练一个分类器载入数据5.数据并行day63参考：官方文档https://blog.csdn.net/u014630987/article/details/786690511.张量（Tensors）tensors和numpy的ndarray类似,但是tensors可以使用GPU加快
【V5.0 - 视觉篇】AI的“火眼金睛”：用OpenCV量化“第一眼缘”，并用SHAP验证它的“审美” 爱分享的飘哥 AI 人工智能 opencv 计算机视觉
系列回顾：在上一篇《给AI装上“写轮眼”：用SHAP看穿模型决策的每一个细节》中，我们成功地为AI装上了“透视眼镜”，看穿了它基于数字决策的内心世界。但一个巨大的问题暴露了：它的世界里，还只有数字。它能理解“时长60秒”，却无法感受画面的震撼。它是一个强大的“盲人数学家”。计算机视觉我们没有必要为每个视频进行切帧，可以针对开头的视频或者中间关键点视频进行切帧，让计算机识别。承上启下：“现在，我们来
计算机视觉 OpenCV Android | Mat像素操作（图像像素的读写、均值方差、算术、逻辑等运算、权重叠加、归一化等操作）... 凌川江雪
本文目录1.像素读写2.图像通道与均值方差计算3.算术操作与调整图像的亮度和对比度4.基于权重的图像叠加5.Mat的其他各种像素操作1.像素读写Mat作为图像容器，其数据部分存储了图像的像素数据，我们可以通过相关的API来获取图像数据部分；在获取图像数据的时候，知道Mat的类型与通道数目关重要，根据Mat的类型与通道数目，开辟适当大小的内存空间，然后通过get方法就可以循环实现每个像素点值的读取、
opencv入门(6) TrackBar调整图片和键盘响应千殃sama opencv 学习笔记
文章目录1创建trackbar2使用userdata传入函数3键盘响应1创建trackbar1.trackbar名称2.创建在哪个窗口上3.拖动trackbar改变的值4.trackBar的最大值5.trackbar改变时的回调函数6.带入回调函数的数据，可以不用带,是一个void指针createTrackbar(“Valuebar”,“亮度调整”,&lightness,max_value,on_
零基础起步：基于GpuGeek的文本生成模型实战昊昊该干饭了人工智能 nlp 深度学习 gpu算力 gru
在自然语言处理（NLP）领域，文本生成任务广泛应用于问答系统、智能摘要、内容创作等方向。本文将带领读者使用GpuGeek平台，从注册、上传数据到实例部署与训练，完整构建一个基于GPT2模型的文本生成系统，实战掌握AI模型的云端开发流程。目录一、GpuGeek平台使用流程详解1.注册与登录2.数据上传3.创建训练实例4.启动与使用实例5.关闭实例（手动&自动）二、文本生成实战任务：微调GPT-21.
树莓派上基于Opencv 实现人脸检测与人脸识别土拨鼠不是老鼠 C++opencv 人工智能计算机视觉
一，需求基于树莓派4b，usb1080p摄像头，实现人脸检测与人脸识别。尝试了海陵科的模组和百度的sdk。海陵科的模组无法录入人脸，浪费了100多块钱。百度的sdk在树莓派上也无法录入人脸，官方解决不了。最后只能用opencv自己实现，因为只要实现最简单检测和识别就行，不在乎准确率。经测试opencv能满足基本要求，这里整理下思路。二，（1），加载模型并实例化Ptr和Ptr对象。树莓派4bopen
树莓派实验——人脸识别 Rounie opencv python 计算机视觉
importnumpyasnp#导入numpy科学计算库importcv2#导入OpenCV函数库#装载人脸识别特征文件face_cascade=cv2.CascadeClassifier('/usr/local/lib/python3.5/dist-packages/cv2/data/haarcascade_frontalface_alt.xml')cap=cv2.VideoCapture(0)
2024年Python最全人脸检测实战高级：使用 OpenCV、Python 和 dlib 完成眨眼检测 2401_84691757 程序员 python opencv 开发语言
然而，一旦人眨眼（右上），眼睛的纵横比就会急剧下降，接近于零。下图绘制了视频剪辑的眼睛纵横比随时间变化的图表。正如我们所看到的，眼睛纵横比是恒定的，然后迅速下降到接近零，然后再次增加，表明发生了一次眨眼。在下一节中，我们将学习如何使用面部标志、OpenCV、Python和dlib实现眨眼检测的眼睛纵横比。使用面部标志和OpenCV检测眨眼==============================
【模型部署】如何在Linux中通过脚本文件部署模型满怀1015 人工智能 linux 网络人工只能模型部署
在Linux中，你可以将部署命令保存为可执行脚本文件，并通过终端直接调用。以下是几种常见且实用的方法：方法1：Shell脚本（推荐）步骤创建一个.sh文件（例如start_vllm.sh）：#!/bin/bashCUDA_VISIBLE_DEVICES=7\python-mvllm.entrypoints.openai.api_server\--served-model-nameQwen2-7B-
【如何衡量相机标定结果的精度】相机标定评价函数王尼莫啊目标解算数码相机计算机视觉视觉检测
相关博客：【鱼眼＋普通相机】相机标定【opencv】图像畸变校正一、简介常用的衡量相机标定结果精度的评价标准：畸变矫正效果：标定过程中会估计畸变系数，畸变矫正的效果可以通过比较矫正前后的图像来评估。如果畸变得到有效矫正，说明标定过程较为成功。重投影误差（ReprojectionError）：这是最常用的评估相机标定精度的指标。它指的是在标定图像中检测到的特征点与通过相机参数投影得到的相应世界坐标点
使用GPU进行机器学习训练时，如果GPU-Util计算核心满载工作但是显存占用较少，应该如何优化？十子木机器学习深度学习人工智能
是否需要优化？如果任务运行正常：无需干预（GPU设计本就是优先榨干计算性能）。如果出现卡顿或效率低下：增大batch_size：提升显存占用，减少数据搬运次数（但需避免OOM）。启用混合精度：torch.cuda.amp可减少显存占用并加速计算。检查CPU到GPU的数据流：避免频繁的小数据拷贝（如DataLoader的num_workers设置）。
【jetson】Linux下nvidia Jetson烤机程序（CPU+GPU）
前言烤机程序用于把设备的使用率拉满，进行可靠性测试。这里主要贴一下cpu和gpu的烤机程序。cpu为arm64，gpu是orinnano的模组。烤机的jetson设备为如下，输入54v：reComputerMiniJ3011-IntelligentEdgeAIComputerwithNVIDIA®Jetson™Orin™Nano8GBCPU-burn终端安装测试工具:sudoaptinstalls
机器学习中为什么要用混合精度训练十子木机器学习机器学习人工智能
目录FP16与显存占用关系机器学习中一般使用混合精度训练：FP16计算+FP32存储关键变量。FP16与显存占用关系显存（VideoRAM，简称VRAM）是显卡（GPU）专用的内存。FP32（单精度浮点）：传统深度学习默认使用32位浮点数每个参数占用`4字节`例如：1亿参数的模型→约400MB显存FP16（半精度浮点）：每个参数占用`2字节`（直接减半）相同模型→约200MB显存双精度浮点（FP6
【翻译】Part4: Texture samplers.
AtripthroughtheGraphicsPipeline2011,part4|Therygblog欢迎回来。上一部分讲的是顶点着色器，还大致介绍了通用的GPU着色器单元。总的来说，它们只是向量处理器，但它们可以访问一种在其他向量处理架构中不存在的资源：纹理采样器。纹理采样器是GPU流水线不可或缺的一部分，其复杂程度（以及趣味性！）足以单独写一篇文章来介绍，那接下来就开始吧。纹理状态在开始实际
AI人工智能与OpenCV：实现智能图像编辑功能 AI智能探索者 AI Agent 智能体开发实战人工智能 opencv 计算机视觉 ai
AI人工智能与OpenCV：实现智能图像编辑功能关键词：人工智能、OpenCV、图像处理、计算机视觉、深度学习、智能编辑、图像增强摘要：本文深入探讨如何结合人工智能(AI)和OpenCV实现智能图像编辑功能。我们将从基础概念出发，详细介绍核心算法原理，展示实际代码实现，并分析典型应用场景。文章将涵盖从传统图像处理技术到深度学习方法的演进，重点讲解如何利用OpenCV和AI模型实现自动化的图像增强、
前端计算机视觉：使用 OpenCV.js 在浏览器中实现图像处理亿只小灿灿前端 OpenCV 前端计算机视觉 opencv
一、OpenCV.js简介与环境搭建OpenCV（OpenSourceComputerVisionLibrary）是一个强大的计算机视觉库，广泛应用于图像和视频处理领域。传统上，OpenCV主要在后端使用Python或C++等语言。但随着WebAssembly(Wasm)技术的发展，OpenCV也有了JavaScript版本——OpenCV.js，它可以直接在浏览器中高效运行，为前端开发者提供了前
pytorch底层原理学习--PyTorch 架构梳理 xinxiangwangzhi_ 深度学习 pytorch 架构人工智能
文章目录PyTorch完整架构流程图关键组件详解完整执行流程示例PyTorch架构梳理PyTorch完整架构流程图硬件层后端层C++部署层核心引擎(libtorchC++)绑定层Python层加载调用训练模式编译模式推理模式生成CPUGPUCPUKernelsCUDAKernelsC++代码torch::jit::load('model.pt')module.forward(inputs)libt
onnx模型部署 python_深度学习模型转换与部署那些事(含ONNX格式详细分析) weixin_39759270 onnx模型部署 python
背景深度学习模型在训练完成之后，部署并应用在生产环境的这一步至关重要，毕竟训练出来的模型不能只接受一些公开数据集和榜单的检验，还需要在真正的业务场景下创造价值，不能只是为了PR而躺在实验机器上在现有条件下，一般涉及到模型的部署就要涉及到模型的转换，而转换的过程也是随着对应平台的不同而不同，一般工程师接触到的平台分为GPU云平台、手机和其他嵌入式设备对于GPU云平台来说，在上面部署本应该是最轻松的事
java opencv 数字识别算法_[机器学习]基于OpenCV实现最简单的数字识别后期小雨 java opencv 数字识别算法
本文将基于OpenCV实现简单的数字识别。这里以游戏AngryBirds为例，通过以下几个主要步骤对其中右上角的分数部分进行自动识别。1.学习分类器根据训练样本，选取模型训练产生数字分类器。这里的样本可以是通用的数字样本库(如NIST等)，也可以是针对应用场景而制作的专门训练样本。前者优在泛化性，后者强在准确率，当然常用做法是将这两者结合，即在通用数字库基础上做修改。另外这里由于模式并不复杂，计算
OpenCV CUDA模块设备层-----双曲正切函数tanh() 村北头的码农 OpenCV opencv 人工智能计算机视觉
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述OpenCV的CUDA模块（cudev）中的一个设备函数，用于在GPU上对uchar4类型的向量（如RGBA像素）进行双曲正切（hyperbolictangent）运算，并返回一个float4类型的结果。函数原型__device____forceinline__f
OpenCV CUDA模块设备层-----二值化阈值操作函数thresh_binary_func()
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述OpenCV的CUDA模块（cudev）中的一个设备和主机通用函数（host/devicefunction），用于创建一个二值化阈值操作函数对象（functor）。这个函数返回一个仿函数（functor），用于在GPU上执行二值化阈值处理（ThresholdBin
从源码编译 ONNX Runtime GPU 1.18.2 并验证 CUDA 推理成功草莓奶忻 SLAM基础 Deep+SLAM ubuntu
文章目录从源码编译ONNXRuntimeGPU1.18.2并验证CUDA推理成功【实测环境+完整步骤】✅环境信息（实测成功）第一步：获取源码️第二步：编译命令参数说明（重点）第三步：安装构建好的`.whl`✅第四步：验证是否成功启用GPU方法1：命令行快速验证方法2：加载模型并查看执行设备⚠️常见警告说明（可忽略）✅总结从源码编译ONNXRuntimeGPU1.18.2并验证CUDA推理成功【实测
基于OpenCv的运动物体检测算法 Liu_LongPo 计算机视觉 OpenCv 运动物体检测
基于一个实现的基于OpenCv的运动物体检测算法，可以用于检测行人或者其他运动物体。#include#include#include#includeintmain(intargc,char**argv){//声明IplImage指针IplImage*pFrame=NULL;IplImage*pFrImg=NULL;IplImage*pBkImg=NULL;CvMat*pFrameMat=NULL;
Ubuntu 22.04 庙算平台训练环境搭建指南笑衬人心。 ubuntu linux 深度学习
本文记录了基于Ubuntu22.04.3LTS的训练环境搭建过程，适用于需要部署庙算推演离线平台的用户，支持GPU（可选）。一、训练环境搭建●硬件要求操作系统：Linux（推荐Ubuntu22.04.3LTS）可选配置：NVIDIAGPU（CUDA支持）1.Linux环境搭建建议双系统安装Ubuntu，具体参考如下教程：参考教程：Windows和Ubuntu双系统的安装和卸载（哔哩哔哩）2.GPU
Mac mini 跑 DeepSeek R1 及 QwQ-32B模型实测报告强哥之神 GPT macos GPU deepseek 人工智能语言模型 LLM
测试对象：2025款Macmini（M4/M4Pro芯片）测试模型：DeepSeek-R1（14B/32B）、QwQ-32B（原版/量化版）测试目标：硬件性能适配性、推理速度、内存占用及优化方案一、Macmini硬件配置概览配置项M4基础款（16GB）M4Pro高配（32GB/64GB）芯片M4（10核CPU/10核GPU）M4Pro（14核CPU/20核GPU）内存16GB统一内存32GB/64
OpenCV让Python实现人脸特征点检测 Python编程之道 Python编程之道 opencv python 人工智能 ai
OpenCV让Python实现人脸特征点检测关键词：OpenCV、Python、人脸检测、特征点定位、计算机视觉、Dlib、深度学习摘要：本文将深入探讨如何使用OpenCV和Python实现人脸特征点检测。我们将从基础概念开始，逐步介绍人脸检测和特征点定位的核心算法原理，包括传统的Haar级联检测器和基于深度学习的Dlib面部特征点检测器。文章将提供详细的代码实现和数学原理讲解，并通过实际项目案例
使用 C++ 和 OpenCV 构建驾驶员疲劳检测软件 whoarethenext c++opencv 开发语言
使用C++和OpenCV构建驾驶员疲劳检测软件重要声明：本文所描述的软件是一个概念验证的原型，绝对不能用作现实世界中的安全系统。真正的车载安全系统需要经过大量的测试、具备冗余设计并通过专业认证，以确保其绝对可靠。驾驶疲劳是全球范围内引发交通事故的主要原因之一。当驾驶员感到困倦时，他们的反应时间会变慢，决策能力会下降，而在方向盘后睡着的风险则会急剧增加。为了解决这一关键问题，计算机视觉技术提供了一个
C#图像处理-OpenCVSharp教程(三十五) OpenCVSharp运动物体检测(一) Color Space OpenCVSharp C#OpenCV C#图像处理
本文作者ColorSpace，文章未经作者允许禁止转载！本文将介绍OpenCVSharp运动物体检测(一)代码演示：///图片背景差法检测运动物体MatbgImg=Cv2.ImRead("1.bmp");MatfgImg=Cv2.ImRead("55.bmp");Cv2.ImShow("bg",bgImg);Cv2.ImShow("fg",fgImg);Matgray=newMat();Matgr
口扫系统软件的架构设计流程老猿的春天三维 c++口扫三维重建
[结构光图像流]↓解码结构光图案↓三角测量计算深度↓点云生成并去噪滤波↓实时配准/拼接(可选ICP/Odometry)↓网格重建（如MarchingCubes或BallPivoting）↓GPU显示（OpenGL/Open3D/VTK）
YOLOv12_ultralytics-8.3.145_2025_5_27部分代码阅读笔记-torch_utils.py 红色的山茶花 YOLO 笔记深度学习
torch_utils.pyultralytics\utils\torch_utils.py目录torch_utils.py1.所需的库和模块2.defsmart_inference_mode():3.defautocast(enabled:bool,device:str="cuda"):4.deftime_sync():5.deffuse_conv_and_bn(conv,bn):6.deffu
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end

OpenCV环境下CUDA编程示例

你可能感兴趣的:(CUDA,opencv,GPU)