FakeOccupational

FasterTransformer 003: CMAKELIST in gemm_test

cmake -DSM=60 -DCMAKE_BUILD_TYPE=Release ..
-DCMAKE_BUILD_TYPE cmake编译类型通常默认为debug，但是在编译软件时，一般都需要使用release版本的，debug太慢了。设置为release版本可以在cmake文件里进行，也可以在运行cmake命令时使用参数进行指定。
STREQUAL 用于比较字符串，相同返回 true
找不CUDA编译器，需要设置CUDACXX或CMAKE_CUDA_COMPILER变量，或者增加PATH。
CMake Error at CMakeLists.txt:15 (project): No CMAKE_CUDA_COMPILER could be found.
SOLVE: Tell CMake where to find the compiler by setting either the environment variable "CUDACXX" or the CMake cache entry CMAKE_CUDA_COMPILER to the full path to the compiler, or to the compiler name if it is in the PATH.
set(CMAKE_CUDA_COMPILER /usr/local/cuda-11.1/bin/nvcc)
set(CUDACXX /usr/local/cuda-11.1/bin/nvcc)

fastertransformer

cmake_minimum_required(VERSION 3.8 FATAL_ERROR)

project(FasterTransformer LANGUAGES CXX CUDA)

find_package(CUDA 10.0 REQUIRED)

option(BUILD_TRT "Build in TensorRT mode" OFF)
option(BUILD_TF "Build in TensorFlow mode" OFF)

set(CUDA_PATH ${CUDA_TOOLKIT_ROOT_DIR})

set(TF_PATH "" CACHE STRING "TensorFlow path")
#set(TF_PATH "/usr/local/lib/python3.5/dist-packages/tensorflow")

if(BUILD_TF AND NOT TF_PATH)
  message(FATAL_ERROR "TF_PATH must be set if BUILD_TF(=TensorFlow mode) is on.")
endif()

set(TRT_PATH "" CACHE STRING "TensorRT path")
#set(TRT_PATH "/myspace/TensorRT-5.1.5.0")

if(BUILD_TRT AND NOT TRT_PATH)
  message(FATAL_ERROR "TRT_PATH must be set if BUILD_TRT(=TensorRT mode) is on.")
endif()

list(APPEND CMAKE_MODULE_PATH ${CUDA_PATH}/lib64)
find_package(CUDA REQUIRED)

set (SM 60)


# setting compiler flags
if (SM STREQUAL 70 OR
    SM STREQUAL 75 OR
    SM STREQUAL 61 OR
    SM STREQUAL 60)
set(CMAKE_CUDA_FLAGS "${CMAKE_CUDA_FLAGS} -gencode=arch=compute_${SM},code=\\\"sm_${SM},compute_${SM}\\\" -rdc=true")
  if (SM STREQUAL 70 OR SM STREQUAL 75)
    set(CMAKE_C_FLAGS    "${CMAKE_C_FLAGS}    -DWMMA")
    set(CMAKE_CXX_FLAGS  "${CMAKE_CXX_FLAGS}  -DWMMA")
    set(CMAKE_CUDA_FLAGS "${CMAKE_CUDA_FLAGS} -DWMMA")
  endif()

set(CMAKE_C_FLAGS    "${CMAKE_C_FLAGS}")	
set(CMAKE_CXX_FLAGS  "${CMAKE_CXX_FLAGS}")
set(CMAKE_CUDA_FLAGS "${CMAKE_CUDA_FLAGS}  -Xcompiler -Wall")
message("-- Assign GPU architecture (sm=${SM})")
else()
set(CMAKE_CUDA_FLAGS "${CMAKE_CUDA_FLAGS} -gencode=arch=compute_60,code=\\\"sm_60,compute_60\\\" -rdc=true")
message("-- Unknown or unsupported GPU architecture (set sm=60)")
endif()
set(CMAKE_C_FLAGS_DEBUG    "${CMAKE_C_FLAGS_DEBUG}    -Wall -O0")
set(CMAKE_CXX_FLAGS_DEBUG  "${CMAKE_CXX_FLAGS_DEBUG}  -Wall -O0")
set(CMAKE_CUDA_FLAGS_DEBUG "${CMAKE_CUDA_FLAGS_DEBUG} -O0 -G -Xcompiler -Wall")


set(CMAKE_CXX_STANDARD 11)
set(CMAKE_CXX_STANDARD_REQUIRED ON)

if(CMAKE_CXX_STANDARD STREQUAL "11")
  set(CMAKE_CUDA_FLAGS "${CMAKE_CUDA_FLAGS} --expt-extended-lambda")
  set(CMAKE_CUDA_FLAGS "${CMAKE_CUDA_FLAGS} --expt-relaxed-constexpr")
  set(CMAKE_CUDA_FLAGS "${CMAKE_CUDA_FLAGS} --std=c++11")
endif()

set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -O3")
set(CMAKE_CUDA_FLAGS "${CMAKE_CUDA_FLAGS} -Xcompiler -O3")

set(CMAKE_ARCHIVE_OUTPUT_DIRECTORY ${CMAKE_BINARY_DIR}/lib)
set(CMAKE_LIBRARY_OUTPUT_DIRECTORY ${CMAKE_BINARY_DIR}/lib)
set(CMAKE_RUNTIME_OUTPUT_DIRECTORY ${CMAKE_BINARY_DIR}/bin)

set(COMMON_HEADER_DIRS
  ${PROJECT_SOURCE_DIR}
  ${CUDA_PATH}/include
)

set(COMMON_LIB_DIRS
  ${CUDA_PATH}/lib64
)

if(BUILD_TF)
  list(APPEND COMMON_HEADER_DIRS ${TF_PATH}/include)
  list(APPEND COMMON_LIB_DIRS ${TF_PATH})
endif()

if(BUILD_TRT)
  list(APPEND COMMON_HEADER_DIRS ${TRT_PATH}/include)
  list(APPEND COMMON_LIB_DIRS ${TRT_PATH}/lib)
endif()

include_directories(
  ${COMMON_HEADER_DIRS}
)

link_directories(
  ${COMMON_LIB_DIRS}
)

add_subdirectory(tools/gemm_test)
add_subdirectory(fastertransformer)
add_subdirectory(sample)


if(BUILD_TF)
  add_custom_target(copy ALL COMMENT "Copying tensorflow test scripts")
  add_custom_command(TARGET copy
      POST_BUILD
      COMMAND cp ${PROJECT_SOURCE_DIR}/sample/tensorflow/*.py ${PROJECT_SOURCE_DIR}/build/
  )
endif()

gemm

修改后能单独编译的cmakelist文件为：

cmake_minimum_required(VERSION 3.8)
set(CMAKE_CUDA_COMPILER /usr/local/cuda-11.1/bin/nvcc)
set(CUDACXX /usr/local/cuda-11.1/bin/nvcc)  # Detecting CXX compile features

project(gemm_test LANGUAGES CXX CUDA)

set(gemm_fp16_files
  gemm_fp16.cu
)

set(gemm_fp32_files  gemm_fp32.cu
)


add_executable(gemm_fp32 ${gemm_fp32_files}) # 生成目标可执行文件
set_target_properties(gemm_fp32 PROPERTIES CUDA_RESOLVE_DEVICE_SYMBOLS ON)
target_link_libraries(gemm_fp32 PUBLIC -lcublas -lcudart ${CMAKE_THREAD_LIBS_INIT})

add_executable(gemm_fp16 ${gemm_fp16_files})
set_target_properties(gemm_fp16 PROPERTIES CUDA_RESOLVE_DEVICE_SYMBOLS ON)
target_link_libraries(gemm_fp16 PUBLIC -lcublas -lcudart ${CMAKE_THREAD_LIBS_INIT})

运行~/test/FastT/FasterTransformer/tools/gemm_test/cmake-build-debug$ ./gemm_fp16 1 128 12 64

代码注释


// 该程序首先包括几个标准C++和CUDA库，以及一个名为“common.h”的自定义头文件。然后，它定义了一个称为“diffTime”的函数，该函数以毫秒为单位计算两个时间戳之间的差。
#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include "common.h"
using namespace std;
double diffTime(timeval start, timeval end)
{
  return (end.tv_sec - start.tv_sec) * 1000 + (end.tv_usec - start.tv_usec) * 0.001;
}

// 这是一个C++程序，使用CUDA和cuBLAS库测试矩阵乘法运算的性能。该程序创建几个矩阵，并对它们执行不同类型的矩阵乘法，测量每次乘法的执行时间，并为每次乘法选择最快的算法。
int main()
{
  //主函数首先打开一个名为“gemm_config.in”的文件
  FILE* fd = fopen("gemm_config.in", "w");
  if(fd == NULL)
  {
    printf("Cannot write to file gemm_config.in\n");
    return 0;
  }
  struct cudaDeviceProp prop;
  cudaGetDeviceProperties(&prop, 0);
  printf("Device %s\n", prop.name);
  //为矩阵乘法中使用的矩阵的维数设置几个常量。
  const int batch_size = atoi("1");
  const int seq_len = atoi("12");
  const int head_num = atoi("12");
  const int size_per_head = atoi("12");

  // 设置了几个数组来存储关于每个矩阵乘法运算的信息，例如所涉及的矩阵的维数和正在执行的运算的描述。
  const int gemm_num = 5;
  int M[gemm_num];
  int N[gemm_num];
  int K[gemm_num];
  int batchCount[gemm_num] = {1,1,1,1,1};
  char mess[gemm_num][256];
  
  //gemm1 
  M[0] = batch_size * seq_len;
  K[0] = head_num * size_per_head;
  N[0] = K[0];
  strcpy(mess[0], "from_tensor * weightQ/K/V, attr * output_kernel");

  //gemm2
  M[1] = M[0];
  K[1] = K[0];
  N[1] = 4 * N[0];
  strcpy(mess[1], "attr_output * inter_kernel");

  //gemm3
  M[2] = M[0];
  K[2] = 4 * K[0];
  N[2] = N[0];
  strcpy(mess[2], "inter_matmul * output_kernel");

  M[3] = seq_len;
  N[3] = seq_len;
  K[3] = size_per_head;
  batchCount[3] = batch_size * head_num;
  strcpy(mess[3], "attention batched Gemm1");

  M[4] = seq_len;
  N[4] = size_per_head; 
  K[4] = seq_len;
  batchCount[4] = batch_size * head_num;
  strcpy(mess[4], "attention batched Gemm2");

  // 然后，该程序创建一个cuBLAS句柄  cublasHandle_t是表示cuBLAS库的句柄的类型，cuBLAS是基本线性代数子程序（BLAS）库。它提供了在NVIDIA GPU上执行矩阵运算的各种例程。
  // 总之，这两行代码为使用cuBLAS库在NVIDIA GPU上执行矩阵运算奠定了必要的基础设施。
  cublasHandle_t cublas_handle;///usr/local/cuda-11.1/targets/x86_64-linux/include/cublas_api.h
  cublasCreate(&cublas_handle);// cublasCreate（&cublas_handle）初始化cublas库并为其创建一个句柄。该函数将指向cublasHandle_t变量的指针作为参数，并将其设置为指向新创建的cublas句柄。这个句柄可以用来调用cuBLAS库提供的各种矩阵运算。

  typedef __half T;
  cudaDataType_t AType = CUDA_R_16F;
  cudaDataType_t BType = CUDA_R_16F;
  cudaDataType_t CType = CUDA_R_16F;
  cudaDataType_t computeType = CUDA_R_16F;
  const int ites = 100;
  struct timeval start, end;

  // 两行代码定义了要测试的cuBLAS GEMM（通用矩阵乘法）算法的范围。 CUBLAS_GEMM_DEFAULT_TENSOR_OP和CUBLAS-GEMM_ALEGO15_TENSOR_OP是表示不同CUBLAS GEMM算法的常数。
  int startAlgo = (int)CUBLAS_GEMM_DEFAULT_TENSOR_OP;//CUBLAS_GEMM_DEFAULT_TENSOR_OP是指CUBLAS提供的默认算法，该算法针对大多数矩阵大小进行了优化。
  int endAlgo = (int)CUBLAS_GEMM_ALGO15_TENSOR_OP; //CUBLAS_GEMM_ALGO15_TENSOR_OP是指由数字15标识的特定算法，该算法针对中小型矩阵进行了优化。
  // 通过定义一系列要测试的算法，代码可以比较计算中使用的给定矩阵大小的不同算法的性能。函数cublasGemmEx（）可以用startAlgo和endAlgo之间的不同算法调用，以测试它们，并确定哪种算法在给定的问题大小下产生最佳性能。

  T alpha = (T)1.0f;
  T beta = (T)0.0f;

  printf("***FP16 Gemm Testing***\n");
  for(int i = 0; i < gemm_num; ++i)
  {
    int m = M[i], n = N[i], k = K[i];
    printf("\n-----------------------------\n");
    printf("GEMM test %d: [M: %d, K: %d, N: %d] %s\n", i, m, k, n, mess[i]);
    T* d_A;
    T* d_B;
    T* d_C;
    check_cuda_error(cudaMalloc((void**)&d_A, sizeof(T) * m * k * batchCount[i]));
    check_cuda_error(cudaMalloc((void**)&d_B, sizeof(T) * k * n * batchCount[i]));
    check_cuda_error(cudaMalloc((void**)&d_C, sizeof(T) * m * n * batchCount[i]));

    float exec_time = 99999.0f;
    int fast_algo = 0;
    for(int algo = startAlgo; algo <= endAlgo; algo++)
    {
      cudaDeviceSynchronize();
      gettimeofday(&start, NULL);
      for(int ite = 0; ite < ites; ++ite)
      {
        if(i < 3)
        {
          check_cuda_error(cublasGemmEx(cublas_handle, 
                CUBLAS_OP_N, CUBLAS_OP_N,
                n, m, k, 
                &alpha, 
                d_B, BType, n, 
                d_A, AType, k, 
                &beta, 
                d_C, CType, n, 
                computeType, 
                static_cast(algo)));
        }
        else if(i == 3)
        {
          check_cuda_error(cublasGemmStridedBatchedEx(cublas_handle,
                CUBLAS_OP_T, CUBLAS_OP_N,
                seq_len, seq_len, size_per_head,
                &alpha,
                d_B, BType, size_per_head, seq_len * size_per_head,
                d_A, AType, size_per_head, seq_len * size_per_head,
                &beta,
                d_C, CType, seq_len, seq_len * seq_len,
                batch_size * head_num,
                computeType,
                static_cast(algo)));
        }
        else
        {
          check_cuda_error(cublasGemmStridedBatchedEx(cublas_handle,
                CUBLAS_OP_N, CUBLAS_OP_N,
                size_per_head, seq_len, seq_len,
                &alpha,
                d_B, BType, size_per_head, seq_len * size_per_head,
                d_A, AType, seq_len, seq_len * seq_len,
                &beta,
                d_C, CType, size_per_head, seq_len * size_per_head,
                batch_size * head_num,
                computeType,
                static_cast(algo)));
        }
      }
      cudaDeviceSynchronize();
      gettimeofday(&end, NULL);
      printf("algo_%d costs %.3fms \n", algo, diffTime(start, end) / ites);
      if(diffTime(start, end) / ites < exec_time)
      {
        exec_time = diffTime(start, end) / ites;
        fast_algo = algo;
      }
    }
    printf("fast_algo %d costs %.3f ms\n", fast_algo, exec_time);
    fprintf(fd, "%d\n", fast_algo);
  }

}

use gemm_config.in file later in “/FasterTransformer/fastertransformer/cuda/open_attention.h”

if can’t find will use default (中英混合是因为我的linux系统没有安装中文输入法)

错误与处理

Attempt to add link library “-lcublas” to target “gemm_fp32” which is not
可能因为配置出问题了degug时 Error running ‘gemm_fp16’: Cannot run program “cmake_device_link.o” (in directory “/home/pdd/test/FastT/FasterTransformer/tools/gemm_test/cmake-build-debug/CMakeFiles/gemm_fp16.dir”): error=13, 权限不够
但是可以直接运行~/test/FastT/FasterTransformer/tools/gemm_test/cmake-build-debug$ ./gemm_fp16 1 128 12 64
发现找不到bashrc nvcc的路径了 $test/FastT/FasterTransformer/tools/gemm_test$ nvcc -V
Traceback (most recent call last):
File “/usr/lib/command-not-found”, line 27, in
from CommandNotFound.util import crash_guard
ModuleNotFoundError: No module named ‘CommandNotFound’

CG

通用矩阵乘（GEMM）优化与卷积计算
VIDEO 【HPC 05】CPU 和 CUDA 的 GEMM 实现
https://github.com/mrzhuzhe/riven/tree/main/cuda_test
https://stackoverflow.com/questions/66327073/how-to-find-and-link-cuda-libraries-using-cmake-3-15
add_executable(test benchmark.cpp)
find_package(CUDALibs)
target_link_libraries(test CUDA::cudart CUDA::cublas CUDA::cufft CUDA::cusolver CUDA::curand CUDA::nppicc CUDA::nppial CUDA::nppist CUDA::nppidei CUDA::nppig CUDA::nppitc CUDA::npps)
A Visual Studio Code extension for building and debugging CUDA applications.

进阶向:基于Python的智能客服系统设计与实现
智能客服系统开发指南系统概述智能客服系统是人工智能领域的重要应用，它通过自然语言处理(NLP)和机器学习技术自动化处理用户查询，显著提升客户服务效率和响应速度。基于Python的实现方案因其丰富的生态系统（如NLTK、spaCy、Transformers等库）、跨平台兼容性以及易于集成的特点，成为开发智能客服系统的首选。系统架构系统核心包括两个主要功能模块：1.API集成模块负责连接各类外部服务，
Python 数据插值：NumPy 实现多种插值方法
Python数据插值：用NumPy解锁缺失数据的秘密拼图关键词数据插值、NumPy、线性插值、多项式插值、缺失值处理、数据平滑、数值分析摘要在数据分析和科学计算中，我们经常遇到离散或缺失的观测数据——比如气象站每小时记录的温度值有缺失，或者实验中只采集了稀疏的采样点。这时候，数据插值（Interpolation）就像“数据修复师”，能根据已知点推断出未知点的数值，让离散数据变成连续的“故事”。本文
【Python LeetCode 专题】热题 100，重在思路一杯水果茶！人生苦短我用 Python python leetcode
哈希1.两数之和49.字母异位词分组128.最长连续序列双指针283.移动零11.盛最多水的容器15.三数之和42.接雨水滑动窗口3.无重复字符的最长子串438.找到字符串中所有字母异位词子串560.和为K的子数组239.滑动窗口最大值普通数组53.最大子数组和56.合并区间189.轮转数组238.除自身以外数组的乘积矩阵73.矩阵置零链表160.相交链表206.反转链表234.回文链表141.环
计算机视觉产品推荐,个性化推荐:人工智能中的计算机视觉、NLP自然语言处理和个性化推荐系统哪个前景更好一些？...
这个问题直接回答的话可能还是有着很强的个人观点，所以不如先向你介绍一些这几个领域目前的研究现状和应用情况(不再具体介绍其中原理)你自己可以斟酌一下哪方面更适合自己个性化推荐。一．所谓计算机视觉，是指使用计算机及相关设备对生物视觉的一种模拟个性化推荐。它的主要任务就是通过对采集的图片或视频进行处理以获得相应场景的三维信息，就像人类和许多其他类生物每天所做的那样[1]。现在人工智能的计算机视觉主要研究
自己开发FT4222上位机软件 - USB转SPI EE工程师嵌入式系统 python 单片机模块测试
写作背景最近公司有个项目，让开发一个能够同时进行千兆网接收和SPI配置的上位机软件，开发语言不限，所以作者选择Python+PyQt作开发，做嵌入式固件开发的读者可能知道还需要一块USB转SPI的模块才能进行上下位机正常SPI读写，项目团队成员建议模块从淘宝网购买就好，作者经过调研对比，感觉从芯片质量到开发配套上来讲，FTDI的FT4222模块是最优选择。但令作者感到不快的是淘宝商家不提供模块
自己开发I2C Bootloader -上位机开发篇 EE工程师嵌入式系统 python stm32 单片机
上位机脚本开发在芯片原厂大部分工程师选择的脚本语言依然是Python,Python有哪些开发优势这里就不再讨论了，这里我们只陈述一下上位机的开发环境，作者的开发环境是VSCode+Anaconda。脚本内容也没有什么好说的，一看就懂，比较简单。唯一值得提醒的是本项目的上位机开发需要多注意*Write_DataBytes_To_Serial_Port(self,DataBytes):*函数的实现
Grok网站的后端语言是php和Python2.7 言之。随笔随笔
老马的Grok模型https://grok.com/#subscribephp语法这里还出现了两个bug后端语言能看到是php和python2.7要说卷还是得看中国的程序员啊，天天就是新技术，赶不上别人就35岁毕业退休
AI如何塑造下一代网络安全防御体系 weishi122 web安全人工智能网络人工智能网络安全威胁检测行为分析漏洞挖掘
AI如何塑造下一代网络安全防御体系随着网络威胁日益复杂化，传统安全措施已难以应对。人工智能(AI)正通过创新解决方案重塑网络安全格局。本文将探讨AI如何推动网络安全革命，并分析实施过程中的关键挑战。日益严峻的威胁形势到2025年，网络犯罪预计将造成全球10.5万亿美元损失。传统防御手段已无法应对快速演变的威胁，这正是AI发挥关键作用的领域。人工智能：新一代数字卫士AI能实时分析海量数据，在威胁发生
【python】图片批量压缩脚本横桥码农 python python
#-*-coding:utf-8-*-'''图片批量压缩脚本将脚本放入待压缩文件夹下，并运行自动生成压缩文件夹compress'''fromPILimportImageimportosimportsysimportiosys.stdout=io.TextIOWrapper(sys.stdout.buffer,encoding='utf-8')defcompress_image(input_imag
python 中列表,元组和集合常用方法 [自由之路] python python windows 开发语言
列表列表中可以添加不同类型的元素,如:int类型和str类型deftest_list():"""测试列表的基本操作"""var9=range(10)_var9=list(var9)#将range对象转换为列表copy_var9=_var9.copy()#复制列表_var9.append(1)#添加一个元素到列表中count=_var9.count(1)#计算1出现的次数print(f"counto
浅谈Python+requests+pytest接口自动化测试框架的搭建测试界筱筱软件测试 python pytest 数据库软件测试功能测试自动化测试程序人生
框架的设计思路首先要明确进行接口自动化需要的步骤，如下图所示：然后逐步拆解需要完成的工作：1）了解分析需求：了解接口要实现的功能2）数据准备：根据开发文档确定接口的基本情况，知晓接口的url、请求方式、入参等信息，然后根据业务逻辑以及入参来预期接口的输出需要有一个配置文件来存储接口的一些基本信息；需要有一个方法能读取配置文件；需要有一个excel或者yaml格式文件来存储测试数据；需要有一个方法能
Excel处理控件Aspose.Cells指南：使用 Python 删除 Excel 中的重复行 CodeCraft Studio 文档管理控件 python excel 开发语言
在Excel中删除重复行对于维护干净、准确和一致的数据集至关重要。它可以确保一致性，并有助于防止分析或报告中出现错误。重复数据会导致错误的分析和糟糕的决策。因此，识别和消除重复数据的能力对于软件开发人员、数据分析师和Excel用户来说是一项宝贵的技能。在本篇博文中，我们将向您展示如何使用Python以编程方式删除Excel工作表中的重复行。Python库用于删除Excel中的重复行Aspose.C
Excel处理控件Aspose.Cells教程：使用 Python 在 Excel 中进行数据验 CodeCraft Studio 文档管理控件 excel python 开发语言
Excel中的数据验证功能可确保用户在工作表中输入正确的数据类型。无论您是构建动态模板、收集结构化数据还是准备财务报告，添加验证都有助于避免错误并保持一致性。在本文中，我们将探讨如何使用Python在Excel中实现数据验证。让我们深入研究实际的解决方案，以自动执行Excel验证任务-而无需安装MicrosoftExcel。Aspose.Cells最新版下载Excel中的数据验证是什么？Excel
Python脚本压缩图片大小，不损害图片质量凉风听雪 Python python 开发语言
Python源码：同步绑定有exe文件，可下载直接使用importosfromPILimportImagedefcompress_images(input_folder,quality):#确定输出文件夹路径为输入路径同级的"out"output_folder=os.path.join(os.path.dirname(input_folder),"out")#确保输出文件夹存在ifnotos.pa
深度学习方法生成抓取位姿与6D姿态估计的完整实现 ZPC8210 ROS 深度学习人工智能
如何将GraspNet等深度学习模型与6D姿态估计集成到ROS2和MoveIt中，实现高精度的机器人抓取系统。1.系统架构text[RGB-D传感器]→[物体检测与6D姿态估计]→[GraspNet抓取位姿生成]→[MoveIt运动规划]→[执行抓取]2.环境配置2.1安装依赖bash#安装PyTorch(根据CUDA版本选择)pip3installtorchtorchvisiontorchaud
用python写一个压缩图片到指定大小的脚本清明自在功能测试
事情起因:本人是一名测试,单位里的测试时不时要测试上传图片的大小边界值,每次找图片都很不方便,所以我想自己写个python脚本去实现它。事情经过:经过不断百度+csdn,发现也有不少前辈有着类似的需求,也有做了类似的脚本,用的pillow库,思路是通过循环另存一张图片,如果另存后大小不符合自己的要求,就把压缩比率(参数为quality)降低再保存,思路挺好的,效果也有,但似乎不太稳定,我copy脚
Python+requests+pytest接口自动化测试框架的搭建天才测试猿 python 自动化测试软件测试测试用例职场和发展 pytest 测试工具
点击文末小卡片，免费获取软件测试全套资料，资料在手，涨薪更快框架的设计思路首先要明确进行接口自动化需要的步骤，如下图所示：然后逐步拆解需要完成的工作：1）了解分析需求：了解接口要实现的功能2）数据准备：根据开发文档确定接口的基本情况，知晓接口的url、请求方式、入参等信息，然后根据业务逻辑以及入参来预期接口的输出需要有一个配置文件来存储接口的一些基本信息；需要有一个方法能读取配置文件；需要有一个e
基于深度学习的目标检测：从基础到实践 Blossom.118 机器学习与人工智能深度学习目标检测人工智能音视频语音识别计算机视觉机器学习
前言目标检测（ObjectDetection）是计算机视觉领域中的一个核心任务，其目标是在图像中定位和识别多个对象的类别和位置。近年来，深度学习技术，尤其是卷积神经网络（CNN），在目标检测任务中取得了显著进展。本文将详细介绍如何使用深度学习技术构建目标检测模型，从理论基础到代码实现，带你一步步掌握目标检测的完整流程。一、目标检测的基本概念（一）目标检测的定义目标检测是指在图像中识别和定位多个对象
从代码到终端部署：Prompt如何颠覆传统DevOps流程 LCG元工具运维 prompt devops 运维
文章目录基于Prompt工程的DevOps架构重构实践一、架构演进与技术对比1.1架构演进路径1.2核心流程对比二、核心实现方案2.1Prompt解析引擎实现（Python）2.2Kubernetes集成部署（YAML模板）三、生产部署实践3.1安全增强方案3.2性能优化数据四、技术前瞻与演进4.1未来三年技术路线图五、完整技术图谱六、核心代码实现（TypeScript前端）七、部署验证测试基于P
解锁Prompt+DevOps新姿势：终端系统重塑的三大核心策略
文章目录引言：Prompt驱动的DevOps范式迁移核心策略一：智能决策流水线构建横向架构对比纵向实现流程Python实现示例核心策略二：自适应终端部署体系TypeScript客户端实现YAML部署配置模板核心策略三：智能运维闭环构建安全审计实现方案性能对比分析技术前瞻性分析附录：完整技术图谱技术架构部署验证引言：Prompt驱动的DevOps范式迁移在云原生与AI工程化交汇的今天，Prompt技
【国内超大型智能算力中心建设白皮书 2024】 AI大模型 lose and dream 人工智能开源 git 开源软件 github gitlab 开放原子
文末有福利！智算中心建设通过领先的体系架构设计，以算力基建化为主体、以算法基建化为引领、以服务智件化为依托，以设施绿色化为支撑，从基建、硬件、软件、算法、服务等全环节开展关键技术落地与应用。一、体系架构（一）总体架构图8智算中心总体架构智能算力中心建设白皮书，重点围绕基础、支撑、功能和目标四大部分，创新性地提出了智算中心总体架构。其中，基础部分是支撑智算中心建设与应用的先进人工智能理论和计算架构；
高并发解决方案：SpringBoot+Redis分布式缓存实战 fanxbl957 Web 缓存 spring boot redis
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人高并发解决方案：SpringBoot
SpringBoot缓存技术全解析：Redis+Caffeine二级缓存架构 fanxbl957 Web 缓存 spring boot redis
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot缓存技术全解析：
后端开发：Spring Boot 的分布式缓存方案大厂资深架构师 Spring Boot 开发实战 spring boot 分布式缓存 ai
后端开发：SpringBoot的分布式缓存方案关键词：SpringBoot、分布式缓存、Redis、Caffeine、缓存策略、缓存失效摘要：本文深入探讨了在SpringBoot后端开发中分布式缓存方案的相关技术。首先介绍了分布式缓存在现代应用中的重要性及本文的研究范围，接着阐述了核心概念如分布式缓存的原理与架构，详细讲解了常用的核心算法原理及具体操作步骤，包括使用Python代码示例说明。通过数
米信使股票群诈骗真相！郑洪盛国浩盟国一带一路项目就是资金盘不要被骗了！不成功不收费
讲述:郑洪盛国浩盟国慈善投票被骗无法出金真相！套路太深教你该如何避！！骗子引诱人上当方式很简单：先给你一点甜头尝尝，一开始入金能正常提现，也能赚一点，但当投入更多钱时，你发现你的运气开始变差了。所以，荐股类骗局最大的迷惑性是：给受害人一种假象，你是投资亏损的，而不是被骗的！广大市民对此要提高警惕，如果是还没有投资，千万不要抱有侥幸心理，一定要及时远离！一定不要打草惊蛇低碳项目数字体育，人工智能ai
上位机知识篇---Prompt&PowerShell Prompt Atticus-Orion 上位机知识篇 prompt powershell
在Anaconda环境中，AnacondaPrompt和AnacondaPowerShellPrompt是两个常用的命令行工具，它们的核心功能都是为了方便管理Python环境和执行相关命令，但底层依赖的命令行解释器不同，因此在使用场景和语法上存在一些区别。下面详细介绍两者的差异：1.底层依赖的命令行解释器不同这是两者最根本的区别，决定了它们的语法规则和功能范围：AnacondaPrompt基于Wi
virtualenv 小小怪吃吃吃
virtualenv就是用来为一个应用创建一套“隔离”的Python运行环境。(1)用pip安装virtualenv:pip3installvirtualenv(2)创建开发项目目录:mkdirprojectcdproject/(3)创建一个独立的Python运行环境，命名为venv:virtualenv--no-site-packagesvenv命令virtualenv就可以创建一个独立的Pyt
实现大语言模型与应用的无缝对接 meslog 技术分享语言模型 microsoft 人工智能
在当今人工智能快速发展的时代，大语言模型（LLMs）已经成为众多应用的核心驱动力。然而，如何让这些强大的模型与各种数据源和工具进行有效集成，仍然是一个挑战。ModelContextProtocol（MCP）正是为解决这一问题而设计的开放协议，它标准化了应用程序如何向大语言模型提供上下文信息。本文将介绍MCP的基本概念，并通过C#SDK展示如何实现客户端和服务器端的交互。什么是MCP？ModelCo
VSCode使用Jupyter完整指南配置机器学习环境 z日火校招学习日记 vscode jupyter 机器学习
接下来开始机器学习部分第一步配置环境：VSCode使用Jupyter完整指南1.安装必要的扩展打开VSCode，按Ctrl+Shift+X打开扩展市场，搜索并安装以下扩展：必装扩展：Python(Microsoft官方)-Python语言支持Jupyter(Microsoft官方)-Jupyternotebook支持Pylance(Microsoft官方)-Python智能提示和语法检查推荐扩展：
python虚拟环境打包_python项目打包虚拟环境 weixin_39933356 python虚拟环境打包
python项目打包时，需要将虚拟环境与python自身安装路径下的lib包整合在一起，将该文件保存为packvenv.sh，放入虚拟环境目录下，chmod+xpackvenv.sh，./packvenv.sh执行即可#!/bin/bashPYTHON_PATH=/usr/local/python2.7VENV_PATH=~/.virtualenvs/venv-linux6VENV_NAME=`b
ViewController添加button按钮解析。（翻译）张亚雄 c
<div class="it610-blog-content-contain" style="font-size: 14px"></div>// ViewController.m // Reservation software // // Created by 张亚雄 on 15/6/2.
mongoDB 简单的增删改查开窍的石头 mongodb
在上一篇文章中我们已经讲了mongodb怎么安装和数据库/表的创建。在这里我们讲mongoDB的数据库操作在mongo中对于不存在的表当你用db.表名他会自动统计下边用到的user是表明，db代表的是数据库添加(insert):
log4j配置 0624chenhong log4j
1) 新建java项目 2) 导入jar包，项目右击，properties—java build path—libraries—Add External jar，加入log4j.jar包。 3) 新建一个类com.hand.Log4jTest package com.hand; import org.apache.log4j.Logger; public class
多点触摸(图片缩放为例) 不懂事的小屁孩多点触摸
多点触摸的事件跟单点是大同小异的，上个图片缩放的代码，供大家参考一下 import android.app.Activity; import android.os.Bundle; import android.view.MotionEvent; import android.view.View; import android.view.View.OnTouchListener
有关浏览器窗口宽度高度几个值的解析换个号韩国红果果 JavaScript html
1 元素的 offsetWidth 包括border padding content 整体的宽度。 clientWidth 只包括内容区 padding 不包括border。 clientLeft = offsetWidth -clientWidth 即这个元素border的值 offsetLeft 若无已定位的包裹元素
数据库产品巡礼：IBM DB2概览蓝儿唯美 db2
IBM DB2是一个支持了NoSQL功能的关系数据库管理系统，其包含了对XML，图像存储和Java脚本对象表示（JSON）的支持。DB2可被各种类型的企业使用，它提供了一个数据平台，同时支持事务和分析操作，通过提供持续的数据流来保持事务工作流和分析操作的高效性。 DB2支持的操作系统 DB2可应用于以下三个主要的平台: 工作站，DB2可在Linus、Unix、Windo
java笔记5 a-john java
控制执行流程： 1，true和false 利用条件表达式的真或假来决定执行路径。例：（a==b）。它利用条件操作符“==”来判断a值是否等于b值，返回true或false。java不允许我们将一个数字作为布尔值使用，虽然这在C和C++里是允许的。如果想在布尔测试中使用一个非布尔值，那么首先必须用一个条件表达式将其转化成布尔值，例如if(a!=0)。 2，if-els
Web开发常用手册汇总 aijuans PHP
一门技术，如果没有好的参考手册指导,很难普及大众。这其实就是为什么很多技术，非常好，却得不到普遍运用的原因。正如我们学习一门技术，过程大概是这个样子： ①我们日常工作中，遇到了问题，困难。寻找解决方案，即寻找新的技术； ②为什么要学习这门技术？这门技术是不是很好的解决了我们遇到的难题，困惑。这个问题，非常重要，我们不是为了学习技术而学习技术，而是为了更好的处理我们遇到的问题，才需要学习新的
今天帮助人解决的一个sql问题 asialee sql
今天有个人问了一个问题，如下： type AD value A
意图对象传递数据百合不是茶 android 意图Intent Bundle对象数据的传递
学习意图将数据传递给目标活动; 初学者需要好好研究的 1,将下面的代码添加到main.xml中 <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http:/
oracle查询锁表解锁语句 bijian1013 oracle object session kill
一.查询锁定的表如下语句，都可以查询锁定的表语句一： select a.sid, a.serial#, p.spid, c.object_name, b.session_id, b.oracle_username, b.os_user_name from v$process p, v$s
mac osx 10.10 下安装 mysql 5.6 二进制文件［tar.gz］征客丶 mysql osx
场景：在 mac osx 10.10 下安装 mysql 5.6 的二进制文件。环境：mac osx 10.10、mysql 5.6 的二进制文件步骤：[所有目录请从根“/”目录开始取，以免层级弄错导致找不到目录] 1、下载 mysql 5.6 的二进制文件，下载目录下面称之为 mysql5.6SourceDir；下载地址：http://dev.mysql.com/downl
分布式系统与框架 bit1129 分布式
RPC框架 Dubbo 什么是Dubbo Dubbo是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含: 远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列化，以及“请求-响应”模式的信息交换方式。集群容错: 提供基于接
那些令人蛋痛的专业术语白糖_ spring Web SSO IOC
spring 【控制反转(IOC)/依赖注入(DI)】：由容器控制程序之间的关系，而非传统实现中，由程序代码直接操控。这也就是所谓“控制反转”的概念所在：控制权由应用代码中转到了外部容器，控制权的转移，是所谓反转。简单的说：对象的创建又容器(比如spring容器)来执行，程序里不直接new对象。 Web 【单点登录(SSO)】：SSO的定义是在多个应用系统中，用户
《给大忙人看的java8》摘抄 braveCS java8
函数式接口：只包含一个抽象方法的接口 lambda表达式：是一段可以传递的代码你最好将一个lambda表达式想象成一个函数，而不是一个对象，并记住它可以被转换为一个函数式接口。事实上，函数式接口的转换是你在Java中使用lambda表达式能做的唯一一件事。方法引用：又是要传递给其他代码的操作已经有实现的方法了，这时可以使
编程之美-计算字符串的相似度 bylijinnan java 算法编程之美
public class StringDistance { /** * 编程之美计算字符串的相似度 * 我们定义一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为： * 1.修改一个字符（如把“a”替换为“b”）; * 2.增加一个字符（如把“abdd”变为“aebdd”）; * 3.删除一个字符（如把“travelling”变为“trav
上传、下载压缩图片 chengxuyuancsdn 下载
/** * * @param uploadImage --本地路径(tomacat路径) * @param serverDir --服务器路径 * @param imageType --文件或图片类型 * 此方法可以上传文件或图片.txt,.jpg,.gif等 */ public void upload(String uploadImage,Str
bellman-ford(贝尔曼-福特)算法 comsci 算法 F#
Bellman-Ford算法(根据发明者 Richard Bellman 和 Lester Ford 命名)是求解单源最短路径问题的一种算法。单源点的最短路径问题是指：给定一个加权有向图G和源点s，对于图G中的任意一点v，求从s到v的最短路径。有时候这种算法也被称为 Moore-Bellman-Ford 算法，因为 Edward F. Moore zu 也为这个算法的发展做出了贡献。与迪科
oracle ASM中ASM_POWER_LIMIT参数 daizj ASM oracle ASM_POWER_LIMIT 磁盘平衡
ASM_POWER_LIMIT 该初始化参数用于指定ASM例程平衡磁盘所用的最大权值，其数值范围为0~11，默认值为1。该初始化参数是动态参数，可以使用ALTER SESSION或ALTER SYSTEM命令进行修改。示例如下： SQL>ALTER SESSION SET Asm_power_limit=2;
高级排序:快速排序 dieslrae 快速排序
public void quickSort(int[] array){ this.quickSort(array, 0, array.length - 1); } public void quickSort(int[] array,int left,int right){ if(right - left <= 0
C语言学习六指针_何谓变量的地址一个指针变量到底占几个字节 dcj3sjt126com C语言
# include <stdio.h> int main(void) { /* 1、一个变量的地址只用第一个字节表示 2、虽然他只使用了第一个字节表示，但是他本身指针变量类型就可以确定出他指向的指针变量占几个字节了 3、他都只存了第一个字节地址，为什么只需要存一个字节的地址，却占了4个字节，虽然只有一个字节，但是这些字节比较多，所以编号就比较大，
phpize使用方法 dcj3sjt126com PHP
phpize是用来扩展php扩展模块的，通过phpize可以建立php的外挂模块,下面介绍一个它的使用方法,需要的朋友可以参考下安装（fastcgi模式）的时候，常常有这样一句命令：代码如下: /usr/local/webserver/php/bin/phpize 一、phpize是干嘛的？ phpize是什么？ phpize是用来扩展php扩展模块的，通过phpi
Java虚拟机学习 - 对象引用强度 shuizhaosi888 JAVA虚拟机
本文原文链接：http://blog.csdn.net/java2000_wl/article/details/8090276 转载请注明出处！无论是通过计数算法判断对象的引用数量，还是通过根搜索算法判断对象引用链是否可达，判定对象是否存活都与“引用”相关。引用主要分为：强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Wea
.NET Framework 3.5 Service Pack 1（完整软件包）下载地址 happyqing .net 下载 framework
Microsoft .NET Framework 3.5 Service Pack 1（完整软件包） http://www.microsoft.com/zh-cn/download/details.aspx?id=25150 Microsoft .NET Framework 3.5 Service Pack 1 是一个累积更新，包含很多基于 .NET Framewo
JAVA定时器的使用 jingjing0907 java timer 线程定时器
1、在应用开发中，经常需要一些周期性的操作，比如每5分钟执行某一操作等。对于这样的操作最方便、高效的实现方式就是使用java.util.Timer工具类。 privatejava.util.Timer timer; timer = newTimer(true); timer.schedule( newjava.util.TimerTask() { public void run()
Webbench 流浪鱼 webbench
首页下载地址 http://home.tiscali.cz/~cz210552/webbench.html Webbench是知名的网站压力测试工具，它是由Lionbridge公司（http://www.lionbridge.com）开发。 Webbench能测试处在相同硬件上，不同服务的性能以及不同硬件上同一个服务的运行状况。webbench的标准测试可以向我们展示服务器的两项内容：每秒钟相
第11章动画效果（中） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
windows下制作bat启动脚本. sanyecao2314 java cmd 脚本 bat
java -classpath C:\dwjj\commons-dbcp.jar;C:\dwjj\commons-pool.jar;C:\dwjj\log4j-1.2.16.jar;C:\dwjj\poi-3.9-20121203.jar;C:\dwjj\sqljdbc4.jar;C:\dwjj\voucherimp.jar com.citsamex.core.startup.MainStart
Java进行RSA加解密的例子 tomcat_oracle java
加密是保证数据安全的手段之一。加密是将纯文本数据转换为难以理解的密文；解密是将密文转换回纯文本。　　数据的加解密属于密码学的范畴。通常，加密和解密都需要使用一些秘密信息，这些秘密信息叫做密钥，将纯文本转为密文或者转回的时候都要用到这些密钥。　　对称加密指的是发送者和接收者共用同一个密钥的加解密方法。　　非对称加密(又称公钥加密)指的是需要一个私有密钥一个公开密钥，两个不同的密钥的
Android_ViewStub 阿尔萨斯 ViewStub
public final class ViewStub extends View java.lang.Object android.view.View android.view.ViewStub 类摘要： ViewStub 是一个隐藏的，不占用内存空间的视图对象，它可以在运行时延迟加载布局资源文件。当 ViewSt

FasterTransformer 003: CMAKELIST in gemm_test

fastertransformer

gemm

代码注释

use gemm_config.in file later in “/FasterTransformer/fastertransformer/cuda/open_attention.h”

if can’t find will use default (中英混合是因为我的linux系统没有安装中文输入法)

错误与处理

CG

你可能感兴趣的:(深度学习,tensorflow,人工智能,python)