懒得自己写了,就使用了thrust的api算了。还挺不错。
cuda程序
#include
#include
#include
int main(){
float* deviceArray;
float max, test;
int length = 1025;
max = 0.0f;
test = 2.5f;
int size = (int) length*sizeof(float);
cudaMalloc(&deviceArray, size);
cudaMemset(deviceArray, 0.0f, size);
cudaMemcpy(deviceArray, &test, sizeof(float),cudaMemcpyHostToDevice);
thrust::device_ptr d_ptr = thrust::device_pointer_cast(deviceArray);
max = *(thrust::max_element(d_ptr, d_ptr + length));
std::cout << max << std::endl;
}
求最值
具体变成代码就变成了下面的代码,但是加入caffe里面的时候会有编译错误。
template
Dtype get_device_array_max(Dtype * deviceArray,int length){
thrust::device_ptr d_ptr = thrust::device_pointer_cast(deviceArray);
Dtype max_value = *(thrust::max_element(d_ptr, d_ptr + length));
return max_value;
}
template
Dtype get_device_array_min(Dtype * deviceArray,int length){
thrust::device_ptr d_ptr = thrust::device_pointer_cast(deviceArray);
Dtype min_value = *(thrust::min_element(d_ptr, d_ptr + length));
return min_value;
}
可以把头文件
#include
#include
加到math_functions.hpp中问题解决,具体不知道什么原因。