智障学AI

深度学习部署(十九): CUDA RunTime API YOLOV5后处理cpu解码以及gpu解码

跟着杜老师学AI

看看我们干了什么, 就是把bouding box恢复成框而已

1.1 知识点和先验知识

对于模型推理后的后处理，可以直接使用cuda核函数进行解码，效率比较高
nms也可以在核函数里面实现
这里演示了一个yolov5的实际案例，后续其他的操作都是类似的
gpu_decoder难度较大，一般先写一个cpu的decoder, 再写个gpu_decoder.
注意: yolov5 中的detect.py是对一张图片做推理, 推理用的信息是(n x num_classes + 5)

yolov5的输出tensor(n x 85), n 是 n个bounding box
其中85是cx, cy, width, height, objness, classification * 80

objctness(物体检测)的意思是当前这个Bounding Box是否包含检测目标
class_confidence条件概率的意思是当前Bounding Box的对于是否包含这个类别目标的概率, 并且每一个bounding box里面有全类别的class_confidence。
当前bounding box的 confidence(置信度) = objectness(物体概率) x class_confidence(条件概率)
最后拿来计算置信度的confidence是最大的class_confidence
总之, 无论是CPU解码还是GPU解码, 都是两步走, 置信度过滤后NMS过滤, 把一张图多余的框去掉。但是NMS操作之前需要先把Box信息恢复成框
在GPU解码输出中，[count, box1, box2, box3] 因为GPU解码是多线程的, 所以需要用count记录已经处理了多少个bounding box。CPU单线程不需要, GPU需要确保不会将一个检测框重复输出或者漏掉。
在深度学习部署中，通常使用单精度浮点数（float）来存储数据。单精度浮点数占用4个字节，相比于双精度浮点数（double）占用的8个字节，可以减少存储空间和计算时间，同时也可以更好地利用GPU的计算资源。不过，在某些特殊情况下，可能需要使用双精度浮点数来更准确地表示数据。代码中看到f要知道为什么
在CPU和GPU用box信息回复bounding box的时候需要知道, 图像的左上角才是原点
下图是NMS流程图

1.2 kernel函数的简单了解

kernel函数可以理解为是对线程的模板, 写好了一个模板其他线程都可以用这个模板高性能计算
这里面怎么知道是哪一个呢？用position索引就行了
在CUDA中，静态修饰符static用于限制变量、函数、结构体等在当前文件中的作用范围。在Kernel函数中，使用静态修饰符可以避免编译器为每个线程重新创建一份变量，提高代码的效率。通常情况下，我们会将Kernel函数声明为static。

流程

在detect.py文件中加了这么一句，可以把PyTorch的数据通过转换成numpy后，tobytes再写到文件

# NMS
with open("../workspace/predict.data", "wb") as f:
    f.write(pred.cpu().data.numpy().tobytes())

运行脚本

#!/bin/bash

cd yolov5-6.0

python detect.py --weights=yolov5s.pt --source=../workspace/input-image.jpg --iou-thres=0.5 --conf-thres=0.25 --project=../workspace/

mv ../workspace/exp/input-image.jpg ../workspace/input-image-pytorch.jpg
rm -rf ../workspace/exp

这是一个使用 CUDA 加速 YOLOv5 目标检测后处理的程序。其中包含两个文件：一个是 C++ 文件（main.cpp），另一个是 CUDA 文件（yolov5_postprocess.cu）。这个程序从一个二进制文件中加载预测结果，然后使用 GPU 对预测结果进行解码和非极大值抑制（NMS）操作，最后将检测到的边界框绘制在输入图像上。

在 CUDA 文件（yolov5_postprocess.cu）中，包含了两个核函数：decode_kernel 和 fast_nms_kernel。decode_kernel 函数负责从预测结果中提取边界框、置信度和类别。fast_nms_kernel 函数负责非极大值抑制（NMS）操作，根据阈值去除重叠边界框。这两个核函数通过 decode_kernel_invoker 函数一起调用。

简而言之，这个程序使用 CUDA 在 GPU 上对 YOLOv5 的预测结果进行解码和后处理，包括非极大值抑制，然后将检测到的目标绘制在输入图像上。

3. main.cpp 中的int main()

在 main.cpp 文件中，首先加载了一个二进制文件（predict.data），该文件包含预测结果。然后，使用 gpu_decode 函数处理预测结果，该函数将预测结果发送到 GPU 进行解码和非极大值抑制（NMS）操作。这个函数返回一个包含检测到的边界框的向量。之后，使用 OpenCV 在输入图像上绘制这些边界框，并将绘制结果保存为一个新的图像文件（image-draw.jpg）。

int main()
{
   // yolov5的输出tensor(n x 85)
   // 其中85是cx, cy, width, height, objness, classification * 80

    // 加载一个二进制的文件
    auto data = load_file("predict.data");
    auto image = cv::imread("input-image.jpg");

    // 因为数据是以二进制存储在文件中的, 如果想对二进制文件进行访问，需要使用指针
    // char * -> float *
    float *ptr = (float *)data.data();
    int nelem = data.size() / sizeof(float); // 计算data有多少个数据
    int ncols = 85;                          // cx, cy, width, height, objness, classification * 80
    int nrows = nelem / ncols;

    // 这里是用gpu_decode拿到框框
    // 这里的boxes是一个vector的数据类型
    auto boxes = gpu_decode(ptr, nrows, ncols);

    // 这里是把框框在图像上画出来
    // for (auto it = boxes.begin(); it != boxes.end(); ++it) 有点像这句话
    for (auto &box : boxes)
    {

        // image, 左上角坐标，右小角坐标, 线的颜色, 线的宽度
        cv::rectangle(image, cv::Point(box.left, box.top), cv::Point(box.right, box.bottom),
                      cv::Scalar(0, 255, 0), 2);
        cv::putText(image, cv::format("%.2f", box.confidence), cv::Point(box.left, box.top - 7),
                    0, 0.8, cv::Scalar(0, 0, 255), 2, 16);
    }

    cv::imwrite("image-draw.jpg", image);
    return 0;
}

4. load_file

// 二进制模式打开文件(ios::binary), 使用static std::vector存储数据
// uint8_t是一个无符号8位整数类型。
// 使用const string &file作为函数的参数，可以指定文件的路径和名称
static std::vector<uint8_t> load_file(const string &file)
{
    // 创建一个输入文件流 in，用于读取文件。
    // ios::in | ios::binary 表示以输入模式和二进制模式打开文件
    ifstream in(file, ios::in | ios::binary);
    // 如果文件未成功打开，函数返回一个空的 std::vector
    if (!in.is_open()){
        return {};
    }

    // 将文件流的读取位置设置到文件末尾，获取文件长度
    in.seekg(0, ios::end);  // 将文件流的读取位置设置到文件末尾，获取文件长度
    size_t length = in.tellg();  // 获取当前读取位置，即文件长度

    std::vector<uint8_t> data;  // 用于存储文件
    if (length > 0)
    {   
        in.seekg(0, ios::beg); // 先把文件流的位置放回一开始
        data.resize(length);   // 把data resize成文件的长度

        // in.read()从文件流in中读取数据进指定的内存缓存区
        // 内存缓存区首地址是data[0], 缓冲区大小是length
        // in.read()读取二进制文件时需要传入 char*, float*  放到main函数做
        in.read((char *)&data[0], length);
    }
    in.close(); // 关闭文件流
    return data;}

5. cpu decoder

避免多余的计算，需要知道有些数学运算需要的时间远超过很多if，减少他们的次数就是性能的关键
nms的实现是可以优化的，例如remove flag并且预先分配内存，reserve对输出分配内存
cpu上面的资源非常的宝贵，能少一次计算就要少一次计算
cpu的decoder用在很多嵌入式的场景，通过学习这种思维，能少一次就少一次的想法
这里代码先用了两个if过滤掉了一些confidence不够的bbounding box。然后在这个基础上继续把iou计算放在最后面，尽可能的去减少计算, 这是一个思想
这里还用着

 /*
    这个代码流程如下:
    1. 从nx85的维度中把每个结果的left, top, right, bottom confidence取出来,然后放进vector里面
    2. 对储存好的box执行NMS操作
    3. 这里需要知道用了两个if减少n的维度减少了计算量
    4. 并没有直接的去boxes里面删除框, 做了预分配, 给他们打上了标签, 合适的用emplace_back加上
    */
    // auto boxes = cpu_decode(ptr, nrows, ncols);
    vector<Box> cpu_decode(float *predict, int rows, int cols, float confidence_threshold = 0.25f, float nms_threshold = 0.45f)
    {
    // 创建一个boxes的结构体储存box
    // box 里面储存着左上角的(x, y) 右小角的(x, y) confidence label
    vector<Box> boxes; // 这里面就储存着一堆的box

    // 计算这里面的类别数, 输出的cols前面5列都是位置信息
    int num_classes = cols - 5; 

    /*
    这个for 循环是用来遍历结果输出data的, n x 85个维度是n个结果
    85 包含了其中85是cx, cy, width, height, objness, classification * 80
    
    */
    for (int i = 0; i < rows; i++)
    {
        float *pitem = predict + i * cols;
        // objness是预测出这个bounding box是否包含目标的概率
        float objness = pitem[4];
        if (objness < confidence_threshold){
            continue;
        }

        // 第6个才指向类别 可以理解为pclass[0] = pitem[5];
        // 但是pclass更加清晰地表明了这部分内存的含义
        float *pclass = pitem + 5; 
        // 找到那个类别, 类别几，想象成是第一个类别是 1
        int label = std::max_element(pclass, pclass + num_classes) - pclass;
        // 获取类别置信度的最大值
        float prob = pclass[label];

        // 计算置信度
        float confidence = prob * objness; 
        if (confidence < confidence_threshold){
            continue;
        }

        /*
        这里面的操作的目的是为了把前面过预测出来的结果(n x 85的结果)变成 n 个box储存在
        当前前面用了两层条件就是为了减少这个的操作过程，也就是减少n这个rows, 减小维度
        上面两个if() 满足就直接跳出循环, 这样可以减少下面的操作
        还是CPU计算的思维问题, 尽可能地减少计算很重要的
        上面两个If其实不做也可以，但是问题就是会增加很多的计算量
        */

        // 拿到前面4个参数, cx, cy, width, height 
        float cx = pitem[0];
        float cy = pitem[1];
        float width = pitem[2];
        float height = pitem[3];

        // 通过cx, cy, width, height  左上角 右下角的坐标
        float left = cx - width * 0.5;
        float top = cy - height * 0.5;
        float right = cx + width * 0.5;
        float bottom = cy + height * 0.5;

        // 将left, top, right, bottom, confidence, float(label) 都储存进boxes里面
        boxes.emplace_back(left, top, right, bottom, confidence, (float)label);
    }
        // 现在开始对全部的box做NMS操作
        /*
        这句话是拿来对confidence进行排序的, 从boxes的开头到结尾
        这句话是lambda表达式, C++中lambda表达式用[]开始
        Box &a, Box &b表示lambda表达式的函数头
        return a.confidence > b.confidence; 如果满足,返回True
        这里用引用的目的是为了不去修改
        */
        std::sort(boxes.begin(), boxes.end(), [](Box &a, Box &b)
                  { return a.confidence > b.confidence; });

        // 定义一个标签用于判断是否删除这个框, 长度跟boxes等同
        // false保留True删除
        std::vector<bool> remove_flags(boxes.size());

        // 提前做了预分配, 用了这个性能会好很多
        std::vector<Box> box_result; 
        box_result.reserve(boxes.size());   

        // 定义一个lambda表达式计算iou
        auto iou = [](const Box &a, const Box &b)
        {   
            // 求交集, 所以需要左上角里面的点和右下角里面的点，这里用的是里面的点
            // 思考用max还是min，考虑清楚图像中, 左上角才是(0, 0)
            float cross_left = std::max(a.left, b.left);
            float cross_right = std::min(a.right, b.right);
            float cross_top = std::max(a.top, b.top);
            float cross_bottom = std::min(a.bottom, b.bottom);
            //计算出来corss area
            float cross_area = std::max(0.0f, cross_right - cross_left) * std::max(0.0f, cross_bottom - cross_top);
            // 计算出并集, 这里是计算出两个面积相加再减去cross_area, 比较巧妙的实现
            float union_area = std::max(0.0f, a.right - a.left) * std::max(0.0f, a.bottom - a.top) + std::max(0.0f, b.right - b.left) * std::max(0.0f, b.bottom - b.top) - cross_area;
            
            // 没有交集的情况
            if (cross_area == 0 || union_area == 0)
            {
                return 0.0f;
            }

            // 如果有交并集
            return cross_area / union_area;
        };

        // 便利每一个box, 看下
        for (int i = 0; i < boxes.size(); ++i)
        {   
            // if True, 表示前面标记过了会被删除, 跳过
            if (remove_flags[i]){
                continue;
            }

            /*
            第一次循环找到最大的那个框，然后开始对比其他删掉跟他iou重合度大的
            第二次就是第一次删完之后iou最大的框，这个框跟第一个框iou不大所以没有被删除
            开始删掉框框然后继续往下走
            这里说的删除就是给框框打上True的标签
            */
            auto &ibox = boxes[i];
            box_result.emplace_back(ibox);
            for (int j = i + 1; j < boxes.size(); j++)
            {
                if (remove_flags[j]){
                    continue; // 被标记过跳出循环
                }

                // 这里判断框框两个条件: 删掉重合度大的还有类别是一样的
                auto &jbox = boxes[j];
                if (ibox.label == jbox.label){
                    // 判断NMS阈值
                    if (iou(ibox, jbox) >= nms_threshold){
                        remove_flags[j] = true;
                    }
                }
            }
        }

        return box_result;
    }

6. gpu decoder

这段代码显示创建一个box_result来储存解码后的box信息。然后像正常的操作一样, 创建三个指针指向预测结果(predict), 解码后储存的信息的指针(output_device), Host上用于展示的内存。注意这里三个指针都是在CPU上面的。

这里的output_device, output_host第一个数是count, count框框的数量

开辟好内存后, 把CPU上的predict放到GPU上操作, 然后操作完把结果放到output_device里面去, 这里还是在GPU上, 然后把GPU的output_device放到CPU上面去, 这里是output_host。

返回的output_device, output_host是带有全部output信息, 这里的n会通过objectness, confidence过滤而减少再送去NMS过滤, 这里面的信息是flag表达是否会被添加进box_result, 这是为了在送去NMS的时候高效操作, 这里也是出于对性能的考虑, vector增删改查是O(n)时间复杂度, 这里的信息就是告诉后面的box_result是否把框加进去。

最后for循环添加

vector<Box> gpu_decode(float *predict, int rows, int cols, float confidence_threshold = 0.25f, float nms_threshold = 0.45f)
{

    /*
    参数解析:
    predict 是指向data的指针
    rows 是输出data的行数
    cols是是5(位置信息) + 类别
    confidence_threshold 置信度阈值
    nms_threshold nms阈值
    */
    vector<Box> box_result; // 用来保存解码后的边界框信息
    // 创建一个cudaStream_t类型的流, stream
    cudaStream_t stream = nullptr;
    checkRuntime(cudaStreamCreate(&stream));

    // 定义三个float指针变量
    float *predict_device = nullptr;
    float *output_device = nullptr;
    float *output_host = nullptr;

    /*表示输出数量不确定的数组，用[count, box1, box2, box3]的方式，此时需要有最大数量限制
    分配一块足够大的内存, 第一个元素是count, 这里我们设置每个图像不超过1000个bounding box
    */
    int max_objects = 1000;
    // left, top, right, bottom, confidence, class, keepflag 一共7个
    int NUM_BOX_ELEMENT = 7;

    // 分配内存到GPU上
    checkRuntime(cudaMalloc(&predict_device, rows * cols * sizeof(float)));
    // 分配一块足够大的内存, 第一个元素是count
    checkRuntime(cudaMalloc(&output_device, sizeof(float) + max_objects * NUM_BOX_ELEMENT * sizeof(float)));
    // 分配CPU内存
    checkRuntime(cudaMallocHost(&output_host, sizeof(float) + max_objects * NUM_BOX_ELEMENT * sizeof(float)));
    // 把predict的内存复制到predict_device
    checkRuntime(cudaMemcpyAsync(predict_device, predict, rows * cols * sizeof(float), cudaMemcpyHostToDevice, stream));
    // 调用kernel函数, 在GPU进行解码
    decode_kernel_invoker(
        predict_device, rows, cols - 5, confidence_threshold,
        nms_threshold, nullptr, output_device, max_objects, NUM_BOX_ELEMENT, stream);

    // 使用cudaMemcpyAsync将解码好的output_device拷贝到CPU上面去
    checkRuntime(cudaMemcpyAsync(output_host, output_device,
                                 sizeof(int) + max_objects * NUM_BOX_ELEMENT * sizeof(float),
                                 cudaMemcpyDeviceToHost, stream));

    // 等待异步拷贝完成
    checkRuntime(cudaStreamSynchronize(stream));

    // 这里解码完了之后, 这个是框框的个数
    int num_boxes = min((int)output_host[0], max_objects);
    // 遍历每一个框框
    for (int i = 0; i < num_boxes; i++)
    {   
        // 找到第一个地址
        float *ptr = output_host + 1 + NUM_BOX_ELEMENT * i;
        int keep_flag = ptr[6]; // 最后一个位置就是flag的值
        if (keep_flag)  // True
        {
            box_result.emplace_back(
                ptr[0], ptr[1], ptr[2], ptr[3], ptr[4], (int)ptr[5]);
        }
    }

    // 销毁先前创建的CUDA流对象, 释放流对象占用的内存空间
    checkRuntime(cudaStreamDestroy(stream));
    checkRuntime(cudaFree(predict_device));  // 释放GPU上分配预测结果的内存
    checkRuntime(cudaFree(output_device));   // 释放GPU上分配解码输出的内存
    checkRuntime(cudaFreeHost(output_host)); // 释放在主机上分配的输出结果缓冲区的内存

    return box_result;
}

7. gpu_decode.cu文件 void decode_kernel_invoker()

在这段代码中间使用了两个核函数, 第一个核函数decode_kernel是用来对置信度的阈值做一个过滤, 第二个fast_nms_kernel用来对NMS做一个过滤操作。

/*
decode_kernel_invoker(
    predict_device, rows, cols - 5, confidence_threshold,
    nms_threshold, nullptr, output_device, max_objects, NUM_BOX_ELEMENT, stream);
*/
void decode_kernel_invoker(
    float* predict, int num_bboxes, int num_classes, float confidence_threshold, 
    float nms_threshold, float* invert_affine_matrix, float* parray, int max_objects, int NUM_BOX_ELEMENT, cudaStream_t stream){
/*
参数解析: 
predict: 预测结果, 这个就是data, 未处理未过滤的predict
num_bboxes: 在预测结果的（n x num_classes+ 5） tensor中, 多少行就是多少个box
num_classes: 类别数量
confidence_threshold: 置信度阈值
nms_threshold: nms阈值
invert_affine_matrix: 逆矩阵的指针
parray: 输出结果数组
max_objects: 最大数量框, 这边设置的是1000, 只是拿来确保有足够的内存
NUM_BOX_ELEMENT: Box的element, left, top, right, bottom, confidence, class, keepflag 一共7个
stream： 流
*/ 
    // 这里是确保有足够的线程去处理每一个box, 也就是每一个预测结果，所以用num_boxxes
    // 确保每个block的线程不超过512
    auto block = num_bboxes > 512 ? 512 : num_bboxes;
    auto grid = (num_bboxes + block - 1) / block;

    /* 如果核函数有波浪线，没关系，他是正常的，你只是看不顺眼罢了 */
    decode_kernel<<<grid, block, 0, stream>>>(
        predict, num_bboxes, num_classes, confidence_threshold, 
        invert_affine_matrix, parray, max_objects, NUM_BOX_ELEMENT
    );

    // 这里是针对每张图的框，确保每个狂都能被线程处理
    // 同样确保每个block的线程不超过512
    block = max_objects > 512 ? 512 : max_objects;
    grid = (max_objects + block - 1) / block;
    fast_nms_kernel<<<grid, block, 0, stream>>>(parray, max_objects, nms_threshold, NUM_BOX_ELEMENT);
}

8. kernel函数decode_kernel

先是在输入的predict(n x 85)的tensor上找到每一个objectness, 先拿objectness跟置信度阈值过滤。这个过程中给你，pitem是每一个n中object的指针, 计算的时候需要索引position。这里是过滤操作就不需要atomicAdd(), 不满足条件直接过滤掉.这里的过滤操作不需要使用 atomicAdd()，因为每个线程都是独立处理一个 bounding box。
过滤完了再拿confidence过滤一次, 这边也是减少计算量, objectness过滤掉了就不用计算confidence, 仍然在predict的输出tensor操作
这边过滤完就要恢复成框送给NMS过滤了, parray是output_device, 前面return了就不会存入parray/output_device, 这里的指针用pout_item纸箱每一个输出的结果, output_device存着很多没有被NMS过滤的bounding box
在写入output_device/parray，需要使用atomicAdd()确保不会被写入同个输出位置
写入的时候flag是1, 这是为了方便后续NMS过滤，一旦NMS不达标, 直接flag = 0

static __global__ void decode_kernel(
    float *predict, int num_bboxes, int num_classes, float confidence_threshold,
    float *invert_affine_matrix, float *parray, int max_objects, int NUM_BOX_ELEMENT)
{
    // 确保有足够的thread, 每一个thread处理一个bounding box
    // 如果threadId超过了bounding box的数量, 这样就不会进行后续处理, 每个预测框都敲好被处理了一次
    int position = blockDim.x * blockIdx.x + threadIdx.x;
    if (position >= num_bboxes){
        return;
    }

    /*
     predict是n x 85tensor输出的首地址
     pitem 就是每行的指针, pitem[0] - pitem[3] 是位置信息, pitem[4]是objness
    */
    float *pitem = predict + (num_classes + 5) * position;
    float objectness = pitem[4];
    if (objectness < confidence_threshold){
        return;
    }

    // 从这个元素开始都是confidence
    float *class_confidence = pitem + 5;
    // 这里是第一个condience, 取到数值
    float confidence = *class_confidence++;

    // for循环判断是哪个类别
    int label = 0;
    for (int i = 1; i < num_classes; i++, ++class_confidence)
    {
        if (*class_confidence > confidence)
        {   
            // 如果大了, 就更新class_confidence
            confidence = *class_confidence;
            label = i; // 取到label
        }
    }

    /*
    上面的最后算出来的condifence是class_confidence只是条件概率
    当前bounding box的 confidence(置信度) =  objectness(物体概率) x class_confidence(条件概率)
    最后拿来计算置信度的confidence是最大的class_confidence
    */
    confidence *= objectness;
    if (confidence < confidence_threshold){
        return;
    }

    /*
    这里是恢复boudingbox的操作, 需要先取出来中心点(cx, cy), width, height
    */
    float cx = *pitem++;
    float cy = *pitem++;
    float width = *pitem++;
    float height = *pitem++;
    float left = cx - width * 0.5f;
    float top = cy - height * 0.5f;
    float right = cx + width * 0.5f;
    float bottom = cy + height * 0.5f;
    // affine_project(invert_affine_matrix, left,  top,    &left,  &top);
    // affine_project(invert_affine_matrix, right, bottom, &right, &bottom);

    
    /*
    atomicAdd()简介: 
    int atomicAdd(int* address, int val);
    这个函数执行的操作是将指定地址 address 处的值与 val 相加，并将结果写回 address 处。这个操作是原子性的，即不会受到并发写入的干扰，保证了数据的正确性。
    使用 atomicAdd 函数可以保证多个线程在对同一个内存地址进行写操作时，不会发生数据覆盖的问题。
    由于每个线程都会在输出中写入一个bounding box，因此需要使用原子操作确保每个线程写入的位置唯一
    */

    /*
    [count, box1, box2, box3]
    因为GPU解码是多线程的, 所以需要用count记录已经处理了多少个bounding box。
    CPU单线程不需要, GPU需要确保不会将一个检测框重复输出或者漏掉。
    atomicAdd -> count +=1 返回 old_count
    这里是对parray(output_device第一个值+1)
    */
    int index = atomicAdd(parray, 1);
    // 如果超过了1000, 这个线程就没必要处理后面的boxes
    if (index >= max_objects)  
        return;
    
    // left, top, right, bottom, confidence, class, keepflag
    float *pout_item = parray + 1 + index * NUM_BOX_ELEMENT;
    *pout_item++ = left;
    *pout_item++ = top;
    *pout_item++ = right;
    *pout_item++ = bottom;
    *pout_item++ = confidence;
    *pout_item++ = label;
    *pout_item++ = 1; // 1 = keep, 0 = ignore
}

9. fast_nms_kernel

这里开的线程其实是不超过1000的
这里不删除bounding box，只是一个一个比较而已
如果当前pcurrent被更高的阈值pitem高度重合(达到NMS阈值), 将被干掉

static __global__ void fast_nms_kernel(float *bboxes, int max_objects, float threshold, int NUM_BOX_ELEMENT)
{
/*
参数解析: 
bboxes：存储了所有待处理的检测框信息的一维数组；
max_objects：最大的输出检测框数量； 案例设置的是1000, 预计一张图不会超过1000个bounding box
threshold：用于判断两个检测框是否重叠的 IOU 阈值；
NUM_BOX_ELEMENT：每个检测框存储的元素个数
一般包含: left, top, right, bottom, confidence, class, keepflag
*/
    
    // 计算position, 超过count不用进行下面计算了
    int position = blockDim.x * blockIdx.x + threadIdx.x;
    int count = min((int)*bboxes, max_objects);
    if (position > count){
        return; 
    }

    /*
    重叠度高, 并且类别相同，然后是condience小于另外一个, 就删掉他
    极端情况下会有误删, 如果测试cpu map的时候, 只能采用cpu nms
    日常推理的时候, 则可以使用这个NMS
    left, top, right, bottom, confidence, class, keepflag
    */
    
    // 这里计算出来当前的指针, 在bboxes上
    float *pcurrent = bboxes + 1  + position * NUM_BOX_ELEMENT; 
    // 便利每一个bbox
    for (int i = 0; i < count; ++i){
        float *pitem = bboxes + 1 + i * NUM_BOX_ELEMENT;
        // NMS计算需要保证类别必须相同
        if (i == position || pcurrent[5] ){
            continue;
        }
        
        // 判断置信度大小, 如果比pcurrent大，干掉pcurrent
        if (pitem[4] > pcurrent[4]){
            // 如果两个一样大，保留编号小的那个
            if (pitem[4] == pcurrent[4] && i < position){
                continue;
            }
                
            // 拿前面四个信息计算IOU
            float iou = box_iou(
                pcurrent[0], pcurrent[1], pcurrent[2], pcurrent[3],
                pitem[0], pitem[1], pitem[2], pitem[3]);

            if (iou > threshold){
                pcurrent[6] = 0;  // 这里pitem跟pcurrent重合度高而且达到阈值
                return;
            }
        }
    }
}

10. box_iou

跟CPU一样, a_area + b_area - c_area

static __device__ float box_iou(
    float aleft, float atop, float aright, float abottom,
    float bleft, float btop, float bright, float bbottom)
{

    float cleft = max(aleft, bleft);
    float ctop = max(atop, btop);
    float cright = min(aright, bright);
    float cbottom = min(abottom, bbottom);

    float c_area = max(cright - cleft, 0.0f) * max(cbottom - ctop, 0.0f);
    if (c_area == 0.0f)
        return 0.0f;

    float a_area = max(0.0f, aright - aleft) * max(0.0f, abottom - atop);
    float b_area = max(0.0f, bright - bleft) * max(0.0f, bbottom - btop);
    return c_area / (a_area + b_area - c_area);
}

11. 总结:

int main(){}

这里用load_file打开图片, 这里是用二进制模式打开文件(ios::binary), 使用static std::vector存储数据。
YOLOV5给出来的data是n x (5 + classes)的, 这里通过计算可以获得行数列数, 然后传入只想data的指针, nrows, ncols解码, 本案例提供cpu解码和GPU解码
解码结束后返回的是vector，Box是自定义数据类型, 每一个box是一个bounding box, 里面储存着left, top, right, bottom, confidence, label
用OPencv给他在input-image画出来
再存到workspace里面

cpu解码流程

创建一个box类型的vector, 后面用来添加过滤好的bounding box
对每一个bouding box进行objectness(物体概率)的过滤再进行confidence概率的过滤
上面两步过滤完就可以恢复成框准备进行NMS过滤,恢复成框记得左上角才是原点
这里NMS是使用打分的办法, 用remove_flags(vector)因为vector的增加元素时间复杂度高, 这里是新开一个box_result, 把合格的bounding box的信息加进去
CPU的计算资源很宝贵的, 能少一次就要少一次

GPU解码流程

在GPU分别开辟输入内存, 输出结果内存, 在CPU上开辟输出结果内存。先把YOLOV5输出的数据放到GPU, 操作结束再拿回CPU
操作结束后返回到Host的数据是经过objectness, confidence过滤的bounding box信息，因为NMS过滤删除太浪费资源, 就给他们打上了flag, 用vector中的emplace_back()添加合格的
相比于 push_back，emplace_back 的效率更高，因为 push_back 会将对象复制或移动到容器中，而 emplace_back 直接在容器中构造对象，避免了复制或移动的开销。需要频繁向容器中添加元素的场景下，使用emplace_back可以获得更好的性能
释放内存

GPU解码的布局分配

第一步objectness, confidence过滤, 要确保有足够线程去处理box, 所以这里是num__bboxes
第二部确保每个bounding boxes中不超过1000个objectness
跟CPU是一样的, 只不过没有了循环, 这里的index是threadIdx来告诉当前线程处理哪个数据

作者说的极端情况下误删

在极端情况下，可能会出现多个检测框重叠度非常高，condience值也非常接近的情况。在这种情况下，根据条件进行过滤时，可能会误删某些框，即删除了应该保留的框。这是因为在重叠度很高的情况下，IOU的计算结果可能不太准确，所以需要注意这种情况的处理。
这个fastnms满足日常推理, 如果用做map计算, 还是用CPU解码

你可能感兴趣的:(深度学习,YOLO,人工智能)

YOLOv11-ultralytics-8.3.67部分代码阅读笔记-transformer.py 红色的山茶花 YOLO 笔记 transformer 深度学习
transformer.pyultralytics\nn\modules\transformer.py目录transformer.py1.所需的库和模块2.classTransformerEncoderLayer(nn.Module):3.classAIFI(TransformerEncoderLayer):4.classTransformerLayer(nn.Module):5.classTra
在计算机上本地运行 Deepseek R1 itmanll linux
DownloadOllamaonLinuxDownloadOllamaonWindowsDownloadOllamaonmacOSDeepseekR1是一个强大的人工智能模型，在科技界掀起了波澜。它是一个开源语言模型，可以与GPT-4等大玩家展开竞争。但更重要的是，与其他一些模型不同，您可以在自己的计算机上本地运行DeepseekR1。linux步骤第1步：下载Ollama并安装curl-fsSL
#深度学习：从基础到实践 single_ffish 深度学习 gpt 神经网络生成对抗网络 1024程序员节
深度学习是人工智能领域近年来最为火热的技术之一。它通过构建由多个隐藏层组成的神经网络模型，能够从海量数据中自动学习特征和表征,在图像识别、自然语言处理、语音识别等领域取得了突破性进展。本文将全面介绍深度学习的基础知识、主要算法和实践应用,帮助您快速掌握这一前沿技术。1.深度学习的基础1.1人工神经网络深度学习是基于人工神经网络(ArtificialNeuralNetwork,ANN)的一种机器学习
【深度学习|地学应用】遥感与深度学习：揭示梦柯冰川奥秘的前沿应用与实践解析 985小水博一枚呀深度学习地学应用深度学习人工智能
【深度学习|地学应用】遥感与深度学习：揭示梦柯冰川奥秘的前沿应用与实践解析【深度学习|地学应用】遥感与深度学习：揭示梦柯冰川奥秘的前沿应用与实践解析文章目录【深度学习|地学应用】遥感与深度学习：揭示梦柯冰川奥秘的前沿应用与实践解析前言一、使用高分6号遥感影像结合深度学习对梦柯冰川的研究方向1.冰川边界自动化提取2.冰川变化动态监测3.冰川分类与分布特征分析二、梦柯冰川（MunkuGlacier）的
机器学习入门——机器学习基本概念四月是你的机器学习
@机器学习什么是机器学习机器学习(MachineLearning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎简单来说机器学习就是机
基于R-CNN深度学习的无人机目标检测系统：数据集、模型和UI界面的完整实现 2025年数学建模美赛 R-CNN检测系统深度学习 cnn 无人机计算机视觉目标检测人工智能
摘要随着无人机技术的迅猛发展，无人机在军事、农业、环境监测等多个领域的应用日益广泛。无人机目标检测系统的建设成为提升无人机自主飞行和环境感知能力的重要环节。本文将详细介绍如何构建一个基于深度学习的无人机目标检测系统，采用R-CNN（区域卷积神经网络）算法，通过用户界面设计和数据集处理，实现高效的目标检测功能。通过本项目，旨在为无人机目标检测提供一种可行的解决方案，并提高其在复杂环境下的工作效率。目
基于Multi-Agent的无人机集群体系自主作战系统设计龙腾亚太无人机
源自：系统工程与电子技术作者：张堃,华帅,袁斌林,杜睿怡“人工智能技术与咨询”发布摘要针对无人集群自主作战体系设计中的关键问题,提出基于Multi-Agent的无人集群自主作战系统设计方法。建立无人集群各节点的Agent模型及其推演规则;对于仿真系统模块化和通用化的需求,设计系统互操作式接口和无人集群自主作战的交互关系;开展无人集群系统仿真推演验证。仿真结果表明,所提设计方案不仅能够有效开展并完成
基于YOLOv8+PyQt5的密集人群计数检测系统人工智能教学实践 YOLO qt 目标检测
基于YOLOv8+PyQt5的密集人群计数检测系统是一个结合了目标检测算法与图形用户界面的项目，以下是相关介绍：【毕业设计参考】基于yolov8+pyqt5的密集人群计数检测系统.zip资源-CSDN文库系统概述该系统旨在实时分析某一区域内的人群数量与分布情况，将YOLOv8算法的高效目标检测能力与PyQt5框架的简洁直观界面相结合，能够实时捕获视频流，通过YOLOv8进行人群检测，并在用户界面中
用 Neo4j GraphRAG 工具开启你的智能应用之旅步子哥 AGI通用人工智能 neo4j 人工智能
在这个人工智能飞速发展的时代，Neo4j带来了一项令人激动的创新——GraphRAG生态系统工具。这组开源工具为开发人员提供了一个全新的途径，以构建基于知识图谱的智能应用，让机器更好地理解和回应我们的查询。接下来，让我们一起探索这些工具如何帮助我们构建更智能、更准确的应用。什么是GraphRAG?GraphRAG是一种结合了检索增强生成（RAG）技术和知识图谱的解决方案。它不仅解决了大型语言模型常
探索未来对话的边界：Mixture-of-Agents（MoA）——大型语言模型的集体智慧引擎潘俭渝Erik
探索未来对话的边界：Mixture-of-Agents（MoA）——大型语言模型的集体智慧引擎项目地址:https://gitcode.com/gh_mirrors/mo/MoA在当前人工智能的浪潮中，我们迎来了一个令人兴奋的技术突破——Mixture-of-Agents(MoA)，它标志着大型语言模型（LLM）能力提升的新纪元。本文将引领您深入探索这一革命性项目，揭示其技术精粹，展望应用前景，并
【Python】已解决：error: subprocess-exited-with-error 屿小夏 python 开发语言 linux
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
探索人工智能在计算机视觉领域的创新应用与挑战戒了9 人工智能学习方法
一、引言1.1研究背景与意义在科技飞速发展的当下，人工智能（ArtificialIntelligence,AI）已然成为引领新一轮科技革命和产业变革的重要驱动力。作为AI领域的关键分支，计算机视觉（ComputerVision,CV）致力于让计算机具备像人类一样理解和解析图像、视频等视觉信息的能力，近年来取得了令人瞩目的进展。二者的深度融合，更是为众多领域带来了前所未有的变革与机遇。从技术发展历程
人工智能前沿技术进展与应用前景探究戒了9 人工智能搜索引擎百度
一、引言1.1研究背景与意义人工智能作为一门极具变革性的前沿技术，正深刻地改变着人类社会的各个层面。从其诞生之初，人工智能便承载着人类对智能机器的无限遐想与探索。自20世纪中叶起，人工智能踏上了它的发展征程，历经了多个重要阶段，每一阶段都伴随着理论的突破、技术的革新以及应用领域的拓展。在初级阶段（1943-1956），沃伦・麦卡洛克和沃尔特・皮茨提出的人工神经网络基本模型，为人工智能的发展奠定了初
chatgpt赋能python：Python如何删除一个对象 atest166 ChatGpt chatgpt jvm java 计算机
Python如何删除一个对象Python是一种高级、面向对象、动态类型解释型语言，它有广泛的应用，尤其在数据分析、机器学习、人工智能和Web开发等领域。但是，在Python编程过程中，我们也可能需要删除对象。那么，Python如何删除一个对象呢？Python对象和变量在Python中，一切都是对象。对象是内存中的一块数据，有自己的身份、类型和值。变量是指向对象的引用，通过变量可以访问对象的属性和方
人工智能前沿技术进展与应用前景探究戒了9 搜索引擎
一、引言1.1研究背景与意义人工智能作为一门极具变革性的前沿技术，正深刻地改变着人类社会的各个层面。从其诞生之初，人工智能便承载着人类对智能机器的无限遐想与探索。自20世纪中叶起，人工智能踏上了它的发展征程，历经了多个重要阶段，每一阶段都伴随着理论的突破、技术的革新以及应用领域的拓展。在初级阶段（1943-1956），沃伦・麦卡洛克和沃尔特・皮茨提出的人工神经网络基本模型，为人工智能的发展奠定了初
探索 Meissonic：文本到图像生成的新星 zhangjiaofa 大模型文生图大模型 Meissonic
目录前言模型概述主要功能技术架构应用场景在线体验本地部署克隆存储库创建虚拟环境安装扩散器启动GradioWeb用户界面文本到图像生成结语项目地址一、前言在人工智能迅猛发展的今天，文本到图像生成技术已成为科技前沿的热点。从艺术创作到商业设计，从学术研究到工业应用，这一技术正以惊人的速度改变着我们与数字内容的交互方式。众多研究机构和企业纷纷投入这一领域，不断推动技术的边界。然而，尽管已有许多优秀的模型
YOLOv9改进，YOLOv9检测头融合ASFF（自适应空间特征融合），全网首发挂科边缘 YOLOv9改进 YOLO 目标检测人工智能深度学习计算机视觉
摘要一种新颖的数据驱动的金字塔特征融合策略，称为自适应空间特征融合（ASFF）。它学习了在空间上过滤冲突信息以抑制不一致的方法，从而提高了特征的尺度不变性，并引入了几乎免费的推理开销。#理论介绍目标检测在处理不同尺度的目标时，常采用特征金字塔结构。然而，这种金字塔结构在单步检测器中存在尺度不一致性问题，即不同尺度的特征层在检测过程中可能产生冲突，导致精度下降。ASFF方法通过学习每个尺度特征的自适
AI在电商平台商品描述生成中的应用 AI天才研究院计算 AI大模型企业级应用开发实战大数据AI人工智能 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
AI在电商平台商品描述生成中的应用关键词：人工智能、电商平台、商品描述、自然语言处理、机器学习、深度学习摘要：本文深入探讨了人工智能在电商平台商品描述生成中的应用。首先，我们回顾了人工智能的概述和电商平台的发展背景。随后，分析了商品描述在电商平台中的重要性以及存在的问题。接下来，我们重点介绍了AI在商品描述生成中的应用技术，包括自然语言处理、机器学习和深度学习等。文章还通过实战案例展示了AI商品描
SpringAI基于API对大语言模型调用 _沉浮_ AI 语言模型人工智能 springAI
引言随着人工智能技术的迅猛发展，大型语言模型（LLM）在各个领域的应用越来越广泛。SpringAI作为一个旨在简化AI集成的框架，为开发者提供了高效、便捷的工具来连接和调用这些大模型。本文将详细探讨如何使用SpringAI整合通义千问等大语言模型，并通过实例演示这一过程，最后提供一些扩展建议。一、SpringAI简介SpringAI是一个专为AI工程设计的应用框架，旨在将Spring生态系统设计原
【Python】已解决：（cmd进入Python环境报错）No Python at ‘C:\Users…\Python\Python39\python.exe’ 屿小夏 python linux 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
深度学习之基于Django+YOLOv5商标识别 Q1744828575 python plotly python
欢迎大家点赞、收藏、关注、评论啦，由于篇幅有限，只展示了部分核心代码。文章目录一项目简介二、功能三、系统四.总结一项目简介一、项目背景在数字化时代，商标作为企业的重要资产，其保护和管理显得尤为重要。然而，传统的商标识别方法往往依赖于人工审查，效率低下且容易出错。随着深度学习技术的不断发展，尤其是目标检测领域的进步，自动化、高精度的商标识别成为可能。本项目旨在利用DjangoWeb框架和YOLO
ERROR: Could not install packages due to an OSError: [Errno 2] No such file or directory解决方案爱编程的喵喵 Python基础课程 python pip OSError 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了ERROR:Couldnotinst
安装flash-attn出现RuntimeError current installed version g++ (4.8.5) is less than mininum version解决方案爱编程的喵喵 Python基础课程 python flash-attn g++RuntimeError
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。本文主要介绍了安装flash-attn出现RuntimeErrorcurrentinstalledversiong++(4.8.5)islessthanmininumversion解决方案
动手学深度学习-卷积神经网络-3填充和步幅像污秽一样动手学深度学习深度学习 cnn 人工智能神经网络
目录填充步幅小结在上一节的例子（下图）中，输入的高度和宽度都为3，卷积核的高度和宽度都为2，生成的输出表征的维数为2×2。正如我们在上一节中所概括的那样，假设输入形状为nh×nw，卷积核形状为kh×kw，那么输出形状将是(nh−kh+1)×(nw−kw+1)。因此，卷积的输出形状取决于输入形状和卷积核的形状。还有什么因素会影响输出的大小呢？本节我们将介绍填充（padding）和步幅（stride）
9.6 解锁 AI 潜力：GPT Builder 的强大能力与无限可能少林码僧 AI大模型应用实战专栏人工智能 gpt
解锁AI潜力：GPTBuilder的强大能力与无限可能引言：轻松打造智能应用的革命性工具在人工智能的浪潮中，GPTBuilder作为一款强大且易用的开发工具，让构建AI驱动的智能应用变得前所未有的简单。无论你是开发者、企业家，还是对技术一知半解的创作者，GPTBuilder都能帮助你快速将创意变为现实。从自动化客户支持到内容生成，从数据分析到智能助手，GPTBuilder提供了丰富的功能和灵活的设
RTX 4090D和A10和T4显卡差别、价格对比张3蜂软件安装部署开源神经网络人工智能深度学习机器学习
RTX4090D、NVIDIAA10和NVIDIAT4三款显卡在设计用途、性能、功耗、价格等方面都有显著差异，以下是它们的主要区别：1.设计用途：RTX4090D:面向高端消费者市场，主要用于游戏、内容创作和3D渲染，适合需要高图形性能的用户，如游戏玩家和内容创作者。NVIDIAA10:专为数据中心和企业应用设计，优化了AI推理、深度学习、虚拟桌面基础设施(VDI)以及多实例GPU（多用户共享显卡
【TVM教程】为 Mobile GPU 自动调优卷积网络
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/作者：LianminZheng,EddieYan针对特定设备的自动调优对于获得最佳性能至关重要。本文介绍如何调优整个卷积网络。TVM中MobileGPU的算子实现是以template形式编写的。该template有许多可调参数（tile因子
Spring AI 更新：支持OpenAI的结构化输出，增强对JSON响应的支持 java后端
就在昨晚，SpringAI发了个比较重要的更新。由于最近OpenAI推出了结构化输出的功能，可确保AI生成的响应严格遵守预定义的JSON模式。此功能显着提高了人工智能生成内容在现实应用中的可靠性和可用性。SpringAI紧随其后，现在也可以对OpenAI的结构化输出完美支持了。下图展示了本次扩展的实现结构，如果对于当前实现还不够满意，需要扩展的可以根据此图来着手理解分析进行下一步扩展工作。使用样例
非凸科技招聘来啦！技术岗及非技术岗由你选！欢迎大家加入！招聘
公司介绍：非凸科技成立于2018年，是国内领先的智能算法和交易系统服务公司，专注于智能算法交易领域的研究和开发。公司特点：投研团队来自华尔街顶级资管公司BlackRock等，以及多位来自腾讯、字节跳动的顶尖工程师；在职员工100+，投研和技术团队占总人数比例75%，多位成员是ACM/ICPCWorldFinal选手；公司司正基于Rust生态，结合机器学习、深度学习等新兴技术，打造高效率、低延迟、高
深度学习-70-大语言模型LLM之基于大模型LLM与检索增强技术RAG的智能知识库皮皮冰燃深度学习人工智能深度学习语言模型
文章目录1RAG出现的背景2搭建过程2.1数据收集2.2数据处理2.2.1数据清洗与预处理2.2.2文本分块2.2.3微调数据格式统一2.3建立向量索引2.4大模型选择与微调3开源知识库项目3.1FastGPT3.2AnythingLLM3.3LangChain-Chatchat4商业化解决方案4.1百度智能云+千帆大模型知识库4.2阿里云PAI+向量检索5参考附录1RAG出现的背景自从2022年
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23