a809146548

深入理解Cache

存储器是分层次的，离CPU越近的存储器，速度越快，每字节的成本越高，同时容量也因此越小。寄存器速度最快，离CPU最近，成本最高，所以个数容量有限，其次是高速缓存（缓存也是分级，有L1，L2等缓存），再次是主存（普通内存），再次是本地磁盘。

寄存器的速度最快，可以在一个时钟周期内访问，其次是高速缓存，可以在几个时钟周期内访问，普通内存可以在几十个或几百个时钟周期内访问。

（注本图来自Ulrich Drepper大牛的讲稿，如有侵权，通知即删）

存储器分级，利用的是局部性原理。我们可以以经典的阅读书籍为例。我在读的书，捧在手里（寄存器），我最近频繁阅读的书，放在书桌上（缓存），随时取来读。当然书桌上只能放有限几本书。我更多的书在书架上（内存）。如果书架上没有的书，就去图书馆（磁盘）。我要读的书如果手里没有，那么去书桌上找，如果书桌上没有，去书架上找，如果书架上没有去图书馆去找。可以对应寄存器没有，则从缓存中取，缓存中没有，则从内存中取到缓存，如果内存中没有，则先从磁盘读入内存，再读入缓存，再读入寄存器。

本系列的文章重点介绍缓存cache。了解如何获取cache的参数，了解缓存的组织结构，了解cache对程序的影响，了解如何利用cache提升性能。

本文作为系列文章的第一篇，讲述的如何获取cache的组成结构和如何获取cache的参数。

cache分成多个组，每个组分成多个行，linesize是cache的基本单位，从主存向cache迁移数据都是按照linesize为单位替换的。比如linesize为32Byte，那么迁移必须一次迁移32Byte到cache。这个linesize比较容易理解，想想我们前面书的例子，我们从书架往书桌搬书必须以书为单位，肯定不能把书撕了以页为单位。书就是linesize。当然了现实生活中每本书页数不同，但是同个cache的linesize总是相同的。

所谓8路组相连（ 8-way set associative）的含义是指，每个组里面有8个行。

我们知道，cache的容量要远远小于主存，主存和cache肯定不是一一对应的，那么主存中的地址和cache的映射关系是怎样的呢？

拿到一个地址，首先是映射到一个组里面去。如何映射？取内存地址的中间几位来映射。

举例来说，data cache: 32-KB, 8-way set associative, 64-byte line size

Cache总大小为32KB，8路组相连（每组有8个line），每个line的大小linesize为64Byte,OK，我们可以很轻易的算出一共有32K/8/64=64 个组。

对于32位的内存地址，每个line有2^6 = 64Byte，所以地址的【0，5】区分line中的那个字节。一共有64个组。我们取内存地址中间6为来hash查找地址属于那个组。即内存地址的【6，11】位来确定属于64组的哪一个组。组确定了之后，【12，31】的内存地址与组中8个line挨个比对，如果【12，31】为与某个line一致，并且这个line为有效，那么缓存命中。

OK，cache分成三类，

1 直接映射高速缓存，这个简单，即每个组只有一个line，选中组之后不需要和组中的每个line比对，因为只有一个line。

2 组相联高速缓存，这个就是我们前面介绍的cache。 S个组，每个组E个line。

　 3 全相联高速缓存，这个简单，只有一个组，就是全相联。不用hash来确定组，直接挨个比对高位地址，来确定是否命中。可以想见这种方式不适合大的缓存。想想看，如果4M 的大缓存　linesize为32Byte，采用全相联的话，就意味着4*1024*1024/32 = 128K 个line挨个比较，来确定是否命中，这是多要命的事情。高速缓存立马成了低速缓存了。

　描述一个cache需要以下参数　：

1　cache分级，L1 cache, L2 cache, L3 cache,级别越低，离ｃｐｕ越近

2 cache的容量

3 cache的linesize

4 cache 每组的行个数.

组的个数完全可以根据上面的参数计算出来,所以没有列出来.

Intel手册中用这样的句子来描述cache:

8-MB L3 Cache, 16-way set associative, 64-byte line size

如何获取cache的参数呢,到了我们的老朋友cpuid指令,当eax为0x2的时候,cpuid指令获取到cache的参数. 下面给出代码:

 
        
 #include<stdio.h>
 #include<stdlib.h>
 
 
 int d_eax;
 int d_ebx;
 int d_ecx;
 int d_edx;
 
 
 int parse_cache()
 {
 
  asm
          (
    "movl $2,%eax\n\t"
    "cpuid\n\t"
    "mov  %eax,d_eax\n\t"
    "mov  %ebx,d_ebx\n\t"
    "mov  %ecx,d_ecx\n\t"
    "mov  %edx,d_edx\n\t"
          );
 
 printf("d_eax : %x\nd_ebx : %x\nd_ecx : %x\nd_edx : %x\n",
         d_eax,d_ebx,d_ecx,d_edx);
 return 0;
 
 }
 int main()
 {
 parse_cache();
 return 0;
 }
 
      

 
         root@libin:~/program/assembly/cache# ./test
 d_eax : 55035a01
 d_ebx : f0b2dd
 d_ecx : 0
 d_edx : 9ca212c
 
       

我的电脑上运行结果如上图,查看intel的手册可知

 
         EAX
 (55h) Instruction TLB: 2-MB or 4-MB pages, fully associative, 7 entries
 (03h) Data TLB: 4-KB Pages, 4-way set associative, 64 entries
 (5Ah) Data TLB0: 2-MB or 4-MB pages, 4-way associative, 32 entries
 (01h) Instruction TLB: 4-KB Pages, 4-way set associative, 32 entries
 EBX:
 (F0h) 64-byte Prefetching
 (B2h) Instruction TLB: 4-KB pages, 4-way set associative, 64 entries
 (DDh) 3rd-level cache: 3-MB, 12-way set associative, 64-byte line size
 EDX:
 (09h) 1st-level Instruction Cache: 32-KB, 4-way set associative, 64-byte line size
 (CAh) Shared 2nd-level TLB: 4-KB pages, 4-way set associative, 512 entries
 (21h) 256KB L2 (MLC), 8-way set associative, 64-byte line size
 (2Ch) 1st-level data cache: 32-KB, 8-way set associative, 64-byte line size
 
       

参考文献:

1 Intel? Processor Identification andthe CPUID Instruction

2 Professional Assembly Language Richard Blum著

3 深入理解计算机系统

首先言明，本文严格意义上将不能算作原创，因为我写这些东西只不过是博客 Gallery of Processor Cache Effect的学习心得，不能将版权划到自己名下，毕竟咱不是喜欢45度角仰望天空的郭四姑娘。由于原文是英文版，而且作者用的是C++。原文提到的实验，我做了一部分，加深了对Cache的理解。英文比较好的兄弟就不必听我聒噪了，直接点链接看原文好了。

OK，继续我们的探索之旅。深入理解cache（1）得到了我的PC的cache参数如下:

L1 Cache : 32KB , 8路组相连，linesize为 64Byte 64个组

L2 Cache：256KB 8路组相连，linesize为 64Byte 512个组

L3 Cache： 3MB 12路组相连，linesize为 64Byte 4096个组

 
          EAX
 (55h) Instruction TLB: 2-MB or 4-MB pages, fully associative, 7 entries
 (03h) Data TLB: 4-KB Pages, 4-way set associative, 64 entries
 (5Ah) Data TLB0: 2-MB or 4-MB pages, 4-way associative, 32 entries
 (01h) Instruction TLB: 4-KB Pages, 4-way set associative, 32 entries
 EBX:
 (F0h) 64-byte Prefetching
 (B2h) Instruction TLB: 4-KB pages, 4-way set associative, 64 entries
 (DDh) 3rd-level cache: 3-MB, 12-way set associative, 64-byte line size
 EDX:
 (09h) 1st-level Instruction Cache: 32-KB, 4-way set associative, 64-byte line size
 (CAh) Shared 2nd-level TLB: 4-KB pages, 4-way set associative, 512 entries
 (21h) 256KB L2 (MLC), 8-way set associative, 64-byte line size
 (2Ch) 1st-level data cache: 32-KB, 8-way set associative, 64-byte line size、
 
        

1 测试cache的linesize

代码看起来有点长，但是分成了3段。先看第一个测试，测试cache的linesize。

我们知道，cache的迁移是以linesize为单位的，所以，用户纵然只访问一个int，PC需要从主存拷贝1条line 进入Cache，对于我的电脑来说，就是copy 64B。

看下面的代码，测试linesize，如果K=1，遍历整个数组，如果K=16，只访问16倍数位置的值。依次类推。如果K=16，乘法的个数是K=1的时候1/16。我们可以推测，K=16的时候，程序执行时间是K=1的时候的1/16左右。是不是这样的。看下第一个测试用例的结果。

 
          int test_cache_linesize(int array[],int len,int K)
 
 {
 
     int i;
 
     for( i = 0;i<len;i += K)
 
     {
 
           array[i] *=3;
 
     }
 
     return 0;
 
 }

当K = 1 ，2，4 ......16的时候，虽然计算乘法的次数相差很大，但是，代码执行的时间是相近的都是80ms附近，但是当K = 32，64的时候，随着计算乘法的次数减半，代码执行的时间也减半。

原因在于，16 = （linesize）/sizeof（int）= 64/4，当K <16的时候，第一个int不命中，接下来的都命中的，乘法的个数虽然减半，但是从主存向Cache拷贝数据并没有减半。乘法消耗的指令周期要远低于从主存往cache里面copy数据，所以当K<16 的时候，既然从主存Cp数据到Cache的次数是相同的，那么总的执行时间差距不大就可以理解了。

当K>16的时候，每次都需要去主存取新的line，所以步长K增大一倍，去主存copy数据到cache的次数就减少为原来的一半，所以运行时间也减少为原来的1半。

2 Cache的大小。

我的PC 有三级Cache，容量分别是32K 256K ,3M .这些参数对程序有什么影响呢。

　　下面的测试代码，执行的次数是一样的，都是64M次但是array的大小不一样。我们分别传入参数为1K，2K ，4K ,8K.....64MB 。在执行之前我们先分析下。

目前，如果array的大小是多大，循环执行的次数是一样的。我们的1级Cache大小是32KB，也就是最多容纳8192个int。如果我们的数组大小就是8192个int，那么除了第一次执行需要将数据从主存-->L3 Cache--->L2 Cache -->L1 Cache传上来，后面再次执行的时候，由于整个数组全在L1 Cache，L1 Cache命中，速度很快。当然如果数组大小小于8192个int，L1更能容纳的下。8192是个坎。数组大于8192个int，性能就会下降一点。

如果我们的array大小大于L1 cache容量会怎样呢？看下我们的L2 Cache，大小256KB，即64K个int，换句话说，如果数组长度小于64K个int，也不赖，至少L2 Cache 容纳的下，虽然L1 Cache每写满32KB就需要将交换出去。换句话说，64K是个坎，数组大于64K个int，性能就会下降。

L3Cache我就不说，毕竟我不是唐僧，一样的情况，对于我的3M 缓存，3M/4 = 768K 是个坎，如果数组大于768个int，那么性能又会下降。

好了可以看下面的图了，和我们想的一样，

当低于8192的时候，都是120ms 左右，

[8192,64K ]的时候，都是200ms 左右

[64K ,768K ]的时候，都是300ms左右

大于768的时候，1200ms左右。

 int test_cache_capacity(int array[],int cap)
 
 {
 
     int i;
 
     int lenmod = cap -1;
 
     int times = 64*SIZE_1MB;
 
      for(i = 0;i<times;i++)
 
      {
 
          array[(i*16) & (lenmod)]++;/*16 means linesize/sizeof(int) = 16*/
 
      }
 
      return 0;
 
 }

第三部分我就不讲了，源代码给出大家可以自己在电脑上研究。不过第三部分要比较难懂，而且我前面提到的那篇讲的也不是很好懂。

下面是我的测试全代码

 
          /* http://igoro.com/archive/gallery-of-processor-cache-effects/ */
 
 #include<stdio.h>
 
 #include<stdlib.h> 
 
 #include<linux/types.h>
 
 #include<string.h>
 
 #define SIZE_1KB (1024)
 
 #define SIZE_1MB (1024*1024)
 
 #define NUMBER 64*SIZE_1MB 
 
 #define MILLION 1000000
 
 __u64 rdtsc()
 
 {
 
   __u32 hi;
 
     __u32 lo;
 
     __asm__ __volatile__
 
     (
 
      "rdtsc":"=a"(lo),"=d"(hi)
 
     );
 
     return (__u64)hi<<32|lo;
 
 }
 
 __u64 gettime()
 
 {
 
        struct timeval tv;
 
         gettimeofday(&tv,NULL);
 
         return ((__u64)(tv.tv_sec))*MILLION+tv.tv_usec;
 
 }
 
 int test_cache_linesize(int array[],int len,int K)
 
 {
 
  int i;
 
     for( i = 0;i<len;i += K)
 
     {
 
           array[i] *=3;
 
     }
 
     return 0;
 
 }
 
 int test_cache_capacity(int array[],int cap)
 
 {
 
     int i;
 
     int lenmod = cap -1;
 
     int times = 64*SIZE_1MB;
 
      for(i = 0;i<times;i++)
 
      {
 
          array[(i*16) & (lenmod)]++;/*16 means linesize/sizeof(int) = 16*/
 
      }
 
      return 0;
 
 }
 
 int test_cache_associative(int array[],int size,int K)
 
 {
 
     int i;
 
      int cur =0;
 
      __u64 begin;
 
      __u64 end;
 
      begin =gettime();
 
      for( i = 0;i<SIZE_1MB;i++)
 
      {
 
          array[cur]++;
 
          cur += K;
 
          if(cur >= size)
 
          cur = 0;
 
      }
 
      end = gettime();
 
      printf("when size = %10d, K = %10d : test_cache_associative cost %14llu us\n",
 
      size,K ,end-begin);
 
      return 0;
 
 }
 
 int test_cache()
 
 {
 
     int *array = NULL;
 
     array = malloc(NUMBER*sizeof(int));
 
     __u64 begin ;
 
     __u64 end;
 
     int i;
 
     int K;
 
     int cap ;
 
     int size;
 
     if(array == NULL)
 
     {
 
          printf("malloc space for array failed \n");
 
          return -1;
 
     }
 
     for(i = 0;i<NUMBER;i++)
 
     {
 
      array[i] = i;
 
     }
 
    printf("---------test cache linesize-------------------------------------------\n");
 
     for(K = 1;K < 64*1024;K *= 2) 
 
     {
 
          begin = gettime();
 
          test_cache_linesize(array,NUMBER,K);
 
          end = gettime();
 
          printf("when K = %10d,multiply %10d times,cost %14llu us,average cost %llu us\n",
 
          K,NUMBER/K,end - begin,(end-begin)/(NUMBER/K));
 
          if(K == 1)
 
          {
 
                      begin = gettime();
 
                      test_cache_linesize(array,NUMBER,K);
 
                      end = gettime();
 
                      printf("when K = %10d,multiply %10d times,cost %14llu us,average cost %llu us\n",
 
                              K,NUMBER/K,end - begin,(end-begin)/(NUMBER/K));
 
          }
 
      } 
 
     printf("-----------test cache capacity-------------------------------------------\n");
 
     for(cap = 1024;cap <= NUMBER;cap *= 2)
 
     {
 
          begin =gettime();
 
          test_cache_capacity(array,cap);
 
          end = gettime();
 
          printf("when cap = %10d,cost %14llu us\n",
 
          cap,end-begin);
 
          if(cap == 2*SIZE_1MB/sizeof(int))
 
          {
 
               begin =gettime();
 
               test_cache_capacity(array,3*SIZE_1MB/sizeof(int));
 
               end = gettime();
 
               printf("when cap = %10d,cost %14llu us\n",
 
                        3*SIZE_1MB/sizeof(int),end-begin);
 
          }
 
     }
 
     printf("-----------test cache associative ---------------------------------------\n");
 
     for(size = 1*SIZE_1MB;size >= 4*SIZE_1KB;size /= 2)
 
     { 
 
          for(K = 64;K <= 576 ;K += 64) 
 
          {
 
               test_cache_associative(array,size,K); 
 
          } 
 
     }
 
     free(array);
 
     return 0;
 
 }
 
 int main()
 
 {
 
      test_cache();
 
      return 0;
 
 }

上文来自：http://www.360doc.com/content/14/1015/13/10249440_417146850.shtml

opencv c++ 调用 cornerHarris函数一直报错OpenCV(4.5.5) Error: Assertion failed (src.type() == CV_8UC1 || src. Wsyoneself cv opencv
报错：OpenCV(4.5.5)Error:Assertionfailed(src.type()==CV_8UC1||src.type()==CV_32FC1)in。。。原因：该函数的源矩阵（第一个参数）必须是单通道图像解决：三通道转为单通道之后再调用cvtColor(src,sc_img,COLOR_RGB2GRAY);//将三通道转为单通道cornerHarris(sc_img,dst,2,3
基于C++和ONNX Runtime的YOLOv5目标检测实战浪浪山小白兔 c++YOLO 目标检测
1.前言在计算机视觉领域，目标检测是一项关键任务，其应用广泛，涵盖了安防监控、自动驾驶、工业检测等众多领域。YOLOv5作为一种先进的目标检测算法，以其速度快、精度高的特点备受关注。本文将详细介绍如何使用C++结合ONNXRuntime推理引擎来部署YOLOv5模型，实现高效的目标检测。2.ONNX与YOLOv52.1ONNX简介ONNX（OpenNeuralNetworkExchange）是一种
RK3568笔记七十六：使用V4L2框架录制MP4视频保存到本地殷忆枫 RK3568学习笔记笔记
若该文为原创文章，转载请注明原文出处。录制MP4使用的是ffmpeg，如何编译自行处理。使用的是正点原子的RK3568测试，其他板子自行调试。一、程序功能介绍说明:程序参考FFMPEG提供的例子程序muxing.c进行修改。功能介绍:程序里目前有一个子线程和一个主线程，子线程通过linux标准的V4L2框架读取摄像头数据（NV12）；然后把NV12数据转换为YUV420P格式（H264必须使用该格
archlinux安裝手记（Win10+Arch、GPT+UEFI、lvm） weixin_30481087 操作系统运维 php
目录准备工作工具和必要技能分区和挂载分区建立和格式化分区挂载基础安装配置镜像源连接网络安装基础系统建立fstab文件进入系统激活lvm2钩子用户管理设置时区主机名网络配置系统引导系统配置图形界面显卡驱动桌面环境/窗口管理器字体中文本地化声音软件包管理器pacmanAUR和yaourt设备连接触摸板蓝牙NTFS分区U盘和MTP设备其他配置(问题解决)选择grub为第一启动项无法启动图形界面非root
华为OD机试E卷 --快递投放问题 --24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od java javascript c语言 python
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码c算法源码题目描述有N个快递站点用字符串标识，某些站点之间有道路连接。每个站点有一些包裹要运输，每个站点间的包裹不重复，路上有检查站Q会导致部分货物无法通行，计算哪些货物无法正常投递?输入描述第一行输入MN，M个包裹N个道路信息…O<=M,N<=100,检查站禁止通行的包裹如果有多个以空格分开输出描述输出不
C++ 条件变量-生产消费者模型 __雨夜星辰__ c++开发语言学习笔记多线程
条件变量是一种线程同步机制,当条件不满足时，相关线程被一直阻塞，直到某种条件出现，这些线程才会被唤醒.C++11的条件变量提供了两个类：condition_variable：只支持与普通mutex搭配，效率更高。condition_variable_any：是一种通用的条件变量，可以与任意mutex搭配（包括用户自定义的锁类型）包含头文件：1.condition_variable类主要成员函数：1
Redis 秋枫博客 redis redis
redisRedis是什么是一个高性能的key-value形式的数据库常常被用于缓存Redis有什么优势内存数据库，速度快，也支持数据的持久化，可以将内存中的数据保存在磁盘中，重启的时候可以再次加载进行使用。Redis读的速度是110000次/s,写的速度是81000次/s，且是单台服务器的Redis不仅仅支持简单的key-value类型的数据，同时还提供list，set，zset，hash等数据
5.C++中的数组和Vector 赵鑫亿 C++基础入门 c++开发语言
C++中的数组和Vector数组的基本使用定义与初始化静态数组：定义时指定固定大小并可同时初始化。例如intarr1[5]={1,2,3,4,5};定义了一个包含5个整数的数组。也可部分初始化，如intarr2[5]={1,2};，未初始化的元素自动初始化为0。动态数组：使用new关键字在堆上动态分配内存创建。如int*dynamicArr=newint[10];，需手动用delete[]释放内存
JNI Android Bitmap 和 cv::Mat 互相转换安卓手机运行Opencv动态库或普通c++函数配置指南 chezabo6116 android
JNIAndroidBitmap和cv::Mat互相转换https://blog.csdn.net/tyfwin/article/details/140714946安卓手机运行Opencv动态库或普通c++函数配置指南https://blog.csdn.net/snjs000111/article/details/135067493
华为OD机试E卷 - 螺旋数字矩阵（Java & Python& JS & C++ & C ）算法大师最新华为OD机试华为od 矩阵 java 华为OD机试E卷 python javascript C语言
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述疫情期间，小明隔离在家，百无聊赖，在纸上写数字玩。他发明了一种写法：给出数字个数n和行数m（0
【Springboot】——响应与分层解耦架构 Y小夜架构 spring boot 后端 java spring
博主现有专栏：C51单片机（STC89C516），c语言，c++，离散数学，算法设计与分析，数据结构，Python，Java基础，MySQL，linux，基于HTML5的网页设计及应用，Rust（官方文档重点总结），jQuery，前端vue.js，Javaweb开发，设计模式、Python机器学习、Springboot等主页链接：Y小夜-CSDN博客目录响应响应数据✨@ResponseBody✨G
华为OD机试E卷 --矩阵扩散--24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od 矩阵 java python javascript
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码c算法源码题目描述存在一个m×n的二维数组，其成员取值范围为0或1。其中值为1的成员具备扩散性，每经过1s，将上下左右值为0的成员同化为1。二维数组的成员初始值都为0，将第[i,j]和[k,l]两个个位置上元素修改成1后，求矩阵的所有元素变为1需要多长时间。输入描述输入数据中的：•前面2个数字表示这是一个m
4.C++中的循环语句赵鑫亿 C++基础入门 c++开发语言
C++中的循环语句for循环for循环是一种最常用的循环结构，通常用于已知循环次数的情况。基本语法：for(初始化表达式;条件表达式;更新表达式){//循环体，当条件表达式为真时执行}例如：#includeusingnamespacestd;intmain(){for(inti=0;i#includeusingnamespacestd;intmain(){vectorv={1,2,3,4,5};f
Cursor 收费太贵？3分钟教你接入超低价 DeepSeek-V3，代码质量逼近 Claude 3.5 人工智能
DeepSeek-V3实在是太便宜了，就跟不要钱似的：每百万输入tokens0.1元(缓存命中)/1元(缓存未命中)，每百万输出tokens2元跟其他模型相比，DeepSeek-V3的性价比非常高，只能用“真香”来形容。Sealos推出的AI聚合代理服务SealosAIProxy为用户提供了便捷的AI模型访问通道，其中就包含了DeepSeek-V3模型。而且通过SealosAIProxy使用这些模
2021-2022毕业一年工作总结--华为外包VRP自动化测试爱吃水果蝙蝠汤工作经历项目经历华为 ruby 网络协议
工作介绍设备是NE9000城域路由器。测试对象是VRPv8产品大包。测试语言是RUBY、TCL对应的软件分别是impeller、GTR。测试场景有很多e下、vxlan下、bgp、isis、ospf基础组网下、srv6等需要vrrp、bfd、frr备份的场景，都是现网常用的。自动化实现是在欧拉linux上，自动化还需要一些工具，常用的有用例管理、日志系统、度量系统、设备管理。工作日常早上过来，停下自
linux运维--常用命令神慕蔡蔡 linux运维基础 linux 运维
linux基础命令笔记01解藕whatwherewhenwhichwhy运维开发工程师开发运维工具history!n:查看执行！-n：查看执行倒数命令ctrl+r：搜索tab#包：[root@clq~]#rpm-qa|grepbash-combash-completion-2.7-5.el8.noarch#命令补全：[root@clq~]#whwhatiswhereiswhichwhilewhip
Nginx 缓存机制与优化策略计算机毕设定制辅导-无忧学长 #Nginx nginx 缓存
一、引言在当今数字化时代，Web应用的性能和用户体验至关重要。Nginx作为一款广泛应用的高性能Web服务器和反向代理服务器，凭借其卓越的稳定性、高效的并发处理能力以及丰富的功能模块，在Web服务器领域占据着举足轻重的地位。根据W3Techs的统计数据，Nginx在全球Web服务器市场份额中名列前茅，被众多知名网站和企业广泛采用。在Web应用的运行过程中，服务器需要频繁地处理大量的请求。如果每次请
C++项目设计：构建高性能、线程安全的日志系统泡沫o0 C++项目设计：理论实践与创新 c++linux 开发语言 c语言设计模式
C++项目设计：构建高性能、线程安全的日志系统一、引言（Introduction）1.1日志系统的重要性（ImportanceofLoggingSystem）1.2日志系统的基本要求（BasicRequirementsofLoggingSystem）1.2.1高性能（HighPerformance）1.2.2线程安全（ThreadSafety）1.2.3易用性（EaseofUse）1.2.4可扩展
自动化测试框架：DrissionPage 研创通之逍遥峰开源工具自动化爬虫
一、工具概述DrissionPage是一个基于python的网页自动化工具。它既能控制浏览器，也能收发数据包，还能把两者合而为一。可兼顾浏览器自动化的便利性和requests的高效率。它功能强大，内置无数人性化设计和便捷功能。它的语法简洁而优雅，代码量少，对新手友好。支持Windows、Linux和Mac系统，满足不同用户的需求；需要Python3.6或更高版本，确保了代码的现代性和兼容性；支持所
[并发并行]_[中级]_[C++实现synchronized方式的对象锁2.0] Peter(阿斯拉达) C++语言特性和标准库 C/C++多线程并发并行 c++同步 synchronized 对象锁 Java mutex thread
场景在前面的文章说过C++实现synchronized方式的对象锁[1]可以实现Java的synchronized易用特性。这个第一版的例子并没有说明如何删除pthread_mutex_t对象，随着加锁的对象增加会出现内存泄漏的情况，怎么解决？说明在C++11提供了可复制的共享的指针std::shared_ptr,利用这个指针我们可以判断mutex有没有被其他线程使用，从而释放mutex。改进版的
C++线程库std::thread和std::async的用法详解大王算法 c++开发语言
目录一、背景二、并发编程的背景三、std::thread3.1创建和启动线程3.2线程的参数传递3.3线程的生命周期管理3.4线程同步四、std::async与std::future4.1创建异步任务4.2使用std::launch控制执行策略4.3std::future与std::promise4.4异步任务的取消与超时五、实战案例：并发文件处理5.1使用std::thread实现一、背景C++
Linux日常运维-history dessler Linux进阶 #Linux日常运维运维 linux 服务器
作者介绍：简历上没有一个精通的运维工程师。希望大家多多关注作者，下面的思维导图也是预计更新的内容和当前进度(不定时更新)。本小章内容就是Linux进阶部分的日常运维部分，掌握这些日常运维技巧或者方法在我们的日常运维过程中会带来很多方便。主要从以下几个部分来讲解：Linux日常运维-主机名&hostsLinux日常运维-history(本章节)Linux日常运维-SSHD(一)Linux日常运维-S
c++ 十六进制数组转字符串转ascii 小鱼仙官 C/C++c++开发语言
#include#include#includeusingnamespacestd;intmain(){coutimg_encode){stringstreamss;conststringhex="0123456789ABCDEF";for(string::size_typei=0;i>4]<
多头潜在注意力（MLA）是怎么来的，什么原理，能用简单的示例解释么百态老人学习
多头潜在注意力（Multi-HeadLatentAttention，简称MLA）是一种改进的注意力机制，旨在提高自然语言处理（NLP）模型的推理效率和性能。其核心思想是通过低秩联合压缩键（Key）和值（Value），减少推理过程中所需的内存和计算资源，从而实现更高效的处理。MLA的原理在传统的多头注意力机制（MHA）中，每个输入token的键和值需要被缓存，这导致了巨大的内存开销。具体来说，对于每
高可用高负载高并发的互联网应用的架构设计 AI架构设计之禅 AI大语言模型和知识图谱融合 Python入门实战大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
高可用高负载高并发的互联网应用的架构设计关键词：高可用性、高负载、高并发、分布式系统、负载均衡、缓存、数据库优化、微服务架构1.背景介绍在当今数字化时代，互联网应用已经成为我们日常生活中不可或缺的一部分。随着用户数量的激增和业务需求的不断扩大，构建高可用、高负载、高并发的互联网应用架构已经成为现代软件工程中的一个重要挑战。本文将深入探讨如何设计和实现一个能够满足这些要求的互联网应用架构，从而为读者
语义缓存：提升 RAG 性能的关键策略大模型之路 RAG 缓存 RAG 检索增强生成 LLM 大模型
检索增强生成（Retrieval-AugmentedGeneration，简称RAG）（RAG综述：探索检索增强生成技术的多样性与代码实践）技术已经成为构建高性能AI模型的重要基石。RAG通过结合先进的语言模型与外部知识检索，能够生成既准确又富含上下文的响应。然而，尽管RAG功能强大，但它也伴随着一系列挑战，如高令牌消耗（tokenconsumption）、运营成本的增加以及响应时间的延长。这些问
25/1/21 算法笔记＜ROS2＞编译ROS2 c++节点文档步骤青椒大仙KI11 c++开发语言
在ROS2中，创建节点是指编写一个程序（通常是C++或Python代码），这个程序能够与ROS2系统进行交互，执行特定的任务。节点是ROS2中最基本的执行单元，每个节点通常负责完成一个特定的功能，例如控制机器人、处理传感器数据或执行计算。完整步骤：编译ROS2C++节点1.准备工作有ROS2安装colcon构建工具安装turtlesim包2.创建工作空间创建工作空间：ROS2的工作空间是一个目录结
深入探究 Linux 系统的快照备份与恢复：TimeShift 实践与原理解析运维の小LIAN 5.2 其他-问题总结 linux 运维服务器备份
文章目录前言一、TimeShift的工作原理二、TimeShift的备份方式优缺点对比：三、TimeShift的安装和配置四、TimeShift的实际操作流程1.创建系统快照2.查看已创建的快照3.删除旧快照4.还原快照五、TimeShift快照操作步骤1.设置备份目标目录2.自定义备份和排除目录3.开始备份操作4.还原到指定快照5.测试TimeShift备份还原的效果1.备份前的系统状态2.安装
ARM架构下安装新版docker及docker-compose 运维小弟| srebro.cn docker 架构 docker 容器
一、常见CPU架构：二、环境信息CPU架构操作系统配置HUAWEIKunpeng9205220aarch64openEuler22.03(LTS-SP3)64C128g15T三、安装docker3.1二进制包下载docker-ce社区下载地址：wgethttps://mirrors.nju.edu.cn/docker-ce/linux/static/stable/aarch64/docker-27
【过程记录】windows安装triton 靠才华吃土过程记录 pip
windows安装triton记录问题原因解决办法问题在执行pipinstalltriton=2.0.0的时候遇到报错：没有对应的版本原因triton只适用于Linux操作系统，对于Windows不适用，需要做相应的转换解决办法下载对应的.whl文件triton-2.0.0-cp310-cp310-win_amd64.whl地址：https://github.com/PrashantSaikia/
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，

深入理解Cache

你可能感兴趣的:(C++,linux,缓存,C++11)