阿里技术

向量化代码实践与思考：如何借助向量化技术给代码提速

作者：马云雷阿里云基础产品团队

在不堆机器的情况下，要想使代码完全发挥出硬件性能，就需要做加速。其中比较常见的操作是并发处理，本文将深入向量化计算技术，为大家讲解SIMD指令，以及如何写出规范的可向量化的代码。

一、计算加速的技术

计算加速可以从多个方面入手。软件加速/硬件加速：从软件上来讲，尽可能的榨干硬件的性能；从硬件上讲，尽可能地提高主频。从方向上讲，可以横向扩展，使用更高的并发处理能力；或者在纵向上提高单点的性能。并发处理能力，从粒度上区分，从大到小：机器级别的并发，堆机器做同样的事情；或者线程级别的并发，利用多线程多核并发计算；或者指令级别的并发，在一个指令上操作多个数据。

其中并发处理方式比较常见，那么指令级并发该怎么理解呢？冯·诺伊曼式架构是CPU从存储系统中加载指令和数据，完成指令并把结果保存到存储系统。通常一个指令操作一个数据，生成一份结果。而SIMD(Single Instruction Multiple Data)指令是一类特殊的CPU指令类型，这种指令可以在一条指令中同时操作多个数据。

SIMD指令的作用是向量化执行(Vectorized Execution)，中文通常翻译成向量化，但是这个词并不是很好，更贴切的翻译是数组化执行，表示一次指令操作数组中的多个数据，而不是一次处理一个数据；向量则代表有数值和方向，显然在这里的意义用数组更能准确地表达。在操作SIMD指令时，一次性把多条数据从内存加载到宽寄存器中，通过一条并行指令同时完成多条数据的计算。例如一个操作32字节(256位)的指令，可以同时操作8个int类型，获得8倍的加速。同时利用SIMD减少循环次数，大大减少了循环跳转指令，也能获得加速。SIMD指令可以有0个参数、1个数组参数、2个数组参数。如果有一个数组参数，指令计算完数组中的每个元素后，分别把结果写入对应位置；如果是有两个参数，则两个参数对应的位置分别完成指定操作，写入到对应位置。

编译器通过SIMD加速的原理是：通过把循环语句展开，减少循环次数，循环展开的作用是减少循环时的跳转语句，跳转会破坏流水线；而流水线可以预先加载指令，减少CPU停顿时间，因此减少跳转指令可以提升流水线的效率。

SIMD指令同时操作A和B中4对数字，产生4个结果存放到C中

以如下代码为例，对4个float计算平方：

void squre( float* ptr ){    for( int i = 0; i < 4; i++ )    {      const float f = ptr[ i ];      ptr[ i ] = f * f;    }}

上述代码转写成SIMD指令，则可以删除循环，用三条指令即可完成计算，分别是加载到寄存器，计算平方，结果写回内存：

void squre(float * ptr
{    __m128 f = _mm_loadu_ps( ptr );     f = _mm_mul_ps( f, f );     _mm_storeu_ps( ptr, f );}

二、SIMD扩展指令集

SIMD指令的运行方式时，把一组数据加载到宽寄存器(128位、256位、512位）中，然后生成结果放到另一个宽寄存器中。

SIMD指令需要硬件支持MMX系列，SSE(Streaming SIMD Extensions)系列、AVX(Advanced Vector Extensions)系列扩展指令集。SSE1、SSE2、SSE3、SSE4.1、SSE4.2操作的是16字节寄存器，AVX、AVX2引入了32字节寄存器，AVX512引入了64字节寄存器。目前大部分CPU都支持AVX2，只有最新的CPU才支持AVX512。

指令集需要CPU硬件支持，下面列出了支持各个指令集的CPU。

ARM也引入了SIMD扩展指令。典型的SIMD操作包括算术运算(+-*/)以及abs、sqrt等，完整的指令集合请参考英特尔提供的使用文档：

https://software.intel.com/sites/landingpage/IntrinsicsGuide/#

那么如何生成SIMD指令呢？有以下几种方式：

编译器自动向量化
1. 静态编译
2. 即时编译（JIT）
手写SIMD指令

三、编译器静态自动向量化

对于编译器自动向量化，需要满足几个条件：

代码满足一定的范式，后续会详细展开介绍各种case；
对于常用的编译器入gcc和clang，在编译选项上加上-O3的选项，开启向量化。

3.1 编译器选择和选项

在编译时，编译选项中加上-O3或者 -mavx2 -march=native -ftree-vectorize，可以开启向量化。

只有高版本的编译器才能实现向量化，gcc 4.9.2及以下经测试不支持向量化，gcc 9.2.1支持。gcc对向量化的支持更加友好，clang对某些代码无法转化成向量化，而在某些情况下，clang生成的向量化代码性能比gcc更好（采用更宽的寄存器指令导致的），不一而足。因此，建议编写符合规范的代码，然后分别测试两种编译器的性能。

res[i] = tmpBitPtr[i] & opBitPtr[i];   //使用下标访问地址，clang和gcc都支持*(res + i) = *(tmpBitPtr + i) & *(opBitPtr + i);  //使用地址运算访问内存，clang不支持，gcc支持

四、如何写出可向量化的代码

为了更好地引导编译器给你的代码生成向量化代码，编程上有一些最佳实践。

1. 循环的次数要是可计数的

循环的变量初始值和结束值要固定，例如：

for (int i = 0;i < n ;++i ) //总的次数是可以计数的,这种写法可以向量化for (int i = 0;i != n;++i) //总的次数不可计数，这种写法无法向量

2. 简单直接的计算，不包含函数调用

计算只包含简单的加减乘除等数学运算、与或非等逻辑运算，不要包含switch、if、return等语句。

此处有一些例外是，部分三角函数(sin,cos等)或者算术函数(pow,log等)因为lib提供了内置的向量化实现，是可以自动向量化的。

3. 在循环的最内层

只有最内层的循环可以向量化

4. 访问连续的内存空间

函数的计算参数和结果必须存放在连续空间中，通过一条SIMD指令从内存加载到寄存器。

for (int i=0; ifor (int i=0; i

 
   
  5. 数据无依赖 
   
  这是最重要的一条，因为是并行计算，属于同一条并行指令的多个独立指令所操作的数字之间不能有关联，否则就不能并行化处理，只能串行计算。 
   
  数据依赖有几种场景： 
   
  for (j=1; j
 
   
  上述几个例子中，case 3、5、6是可以向量化的，这些case属于比较特殊的case，正常而言建议还是写出明确无任何依赖问题的代码。如果确定有依赖，仍想使用向量化，可以手动编写SIMD代码。 
   
   
  6. 使用数组而不是指针 
   
  尽管使用指针可以达到数组类似的效果，但是使用数组可以减少出现意外依赖的可能。而使用指针的时候，有些场景下连编译器也无法确认是否可以向量化，使用数组则没有这种担忧，编译器可以很容易地向量化。 
   
  7. 使用循环的计数器作为数组的下标 
   
  直接使用循环的计数器作为数组的下标访问，可以简化编译器的理解。如果额外的使用其他值作为下标，则很难确认能否向量化。例如： 
   
  for(int i = 0;i < 10;i++)  a[i] = b[i] //这种较好for(int i =0,index=0;i < 10;i++)  a[index++]=b[index] //这种无法向量化 
   
  8. 使用更高效的内存布局 
   
  数据最好以16字节或者32字节对齐。数组的元素最好是基础类型，而不是结构体或类。如果是一个复杂结构，那么同一个数组中每个对象的相同元素并不是相邻存储的。 
   
  9. 循环次数并不需要是指令宽度的整数倍 
   
  在一些老的编译器中，循环的次数需要是指令宽度的整数倍，例如128位指令，操作4字节的int类型，可以同时操作4个int类型，那么就要求循环次数是4的整数倍。因此写代码时，需要写成两个循环，第一部分是4的整数倍循环，第二部分是末尾多出来的少量数据。 
   
  而最新的编译器已经能够自动化处理这种情况，可以按照正常逻辑编写代码，无需拆分成两部分，编译器生成的代码会自动生成两部分逻辑。 
   
  五、手写SIMD代码 
   
  编译器能把直接了当的逻辑转换为SIMD指令，并且需要我们认真的考虑代码风格，避免阻碍向量化。但是有些比较复杂的逻辑，编译器是无法自动向量化的，而我们人类知道里面的逻辑是每个操作数分别计算，互不干扰，可以使用向量化。遇到这种情况，我们可以手写SIMD代码，举一个典型的例子，把一个字符串转成全小写。 
   
  5.1 SIMD代码例子和不同编译器性能对比 
   
   
  const static char not_case_lower_bound = 'A';
const static char not_case_upper_bound= 'Z';
static void lowerStrWithSIMD(const char * src, const char * src_end, char * dst)
{   
    const auto flip_case_mask = 'A' ^ 'a';

#ifdef __SSE2__
    const auto bytes_sse = sizeof(__m128i);
    const auto * src_end_sse = src_end - (src_end - src) % bytes_sse;
    
    const auto v_not_case_lower_bound = _mm_set1_epi8(not_case_lower_bound - 1);
    const auto v_not_case_upper_bound = _mm_set1_epi8(not_case_upper_bound + 1);
    const auto v_flip_case_mask = _mm_set1_epi8(flip_case_mask);
    
    for (; src < src_end_sse; src += bytes_sse, dst += bytes_sse)
    {   
        /// load 16 sequential 8-bit characters
        const auto chars = _mm_loadu_si128(reinterpret_cast(src));
        
        /// find which 8-bit sequences belong to range [case_lower_bound, case_upper_bound]
        const auto is_not_case
            = _mm_and_si128(_mm_cmpgt_epi8(chars, v_not_case_lower_bound), _mm_cmplt_epi8(chars, v_not_case_upper_bound));
        
        /// keep lip_case_mask _mm_and_si128(v_flip_case_mask, is_not_case);
        
        /// flip case by applying calculated mask
         const auto xor_mask = _mm_and_si128(v_flip_case_mask, is_not_case);
        const auto cased_chars = _mm_xor_si128(chars, xor_mask);
        
        /// store result back to destination
        _mm_storeu_si128(reinterpret_cast<__m128i *>(dst), cased_chars);
    }
#endif
    
    for (; src < src_end; ++src, ++dst)
        if (*src >= not_case_lower_bound && *src <= not_case_upper_bound)
            *dst = *src ^ flip_case_mask;
        else
            *dst = *src;
}
static void lowerStr(const char * src, const char * src_end, char * dst)
{   
    const auto flip_case_mask = 'A' ^ 'a';

    for (; src < src_end; ++src, ++dst)
        if (*src >= not_case_lower_bound && *src <= not_case_upper_bound)
            *dst = *src ^ flip_case_mask;
        else
            *dst = *src;
} 
   
  上述两个函数用于把字符串中的大写字母转换成小写字母，第一个函数采用了SIMD实现（采用128位指令），第二个函数采用了普通的做法。第一个是128位指令（16字节），理论上相比非向量化指令，加速比为16倍。但是由于第二个代码在结构上是很清晰的，也可以自动向量化，在这里我们测试下不同编译器的编译性能，g版本9.3.0，clang12.0.0。 
   
   
    
     
      编译选项
  
      SIMD/normal>
  
      解读(延时比小于1则SIMD占优，大于1则后者的自动向量化占优)
  
     
     
      g++>
  
      1.9
  
      编译器自动向量化生成了256的指令，相比128位性能加倍
  
     
     
      g++>
  
      0.99
  
      两者近似，编译器自动向量化生成了128位指令
  
     
     
      g++>
  
      0.09
  
      -O2无法自动向量化
  
     
     
      clang++>
  
      3.1
  
      自动向量化生成了512位指令，相比128位性能3倍多
  
     
     
      clang++>
  
      1.6
  
      编译器自动向量化生成了256位指令
  
     
     
      clang++>
  
      0.93
  
      编译器自动生成了128位指令
  
     
     
      clang++>
  
      0.09
  
      -O1无法向量化
  
     
    
   
   
  结论：在相同的优化级别下，clang生成更宽的指令，性能更好。 
   
  5.2 解读SIMD指令 
   
  最简单的SIMD指令，实现两个数字的加法： 
   
  const __m128i dst = _mm_add_epi32(left,right); 
   
  这条指令把4组int类型数字相加，填写到结果中。__m128i代表是128位宽寄存器，存放的是int类型（4字节32位），可以存放4个int类型。_mm_and_epi32是一个SIMD指令，_mm开头表示128寄存器，add表示相加，epi32表示32位整数。SIMD指令的命名规范：在SIMD指令中，需要表达三个含义，分别是寄存器宽度、操作类型和参数宽度。 
   
  各种类型对应到各种宽度的寄存器上的写法： 
   
   
    
     
      
      16字节
  
      32字节
  
      64字节
  
     
     
      32位float
  
      __m128
  
      __m256
  
      __m512
  
     
     
      64位float
  
      __m128d
  
      __m256d
  
      __m512d
  
     
     
      整型数
  
      __m128i
  
      __m256i
  
      __m512i
  
     
    
   
   
  寄存器宽度，例如128位寄存器以_mm开头,参考如下表格映射关系： 
   
   
    
     
     指令前缀 
      寄存器位数
  
     
     
      _mm
  
      128
  
     
     
      _mm256
  
      256
  
     
     
      _mm512
  
     512 
     
    
   
   
  操作类型，例如xor、and、intersect等操作。 
   
  参数宽度：参数中单条数据的位数，在指令的后缀中包含该信息，例如浮点数是32位，双精度浮点数是64位，那么在128位寄存器上，可以输入4个浮点数或者2个双精度浮点数。有些指令没有输入参数，则没有参数宽度信息。例如epi16代表16位int，详细的信息参考如下表格： 
   
   
    
     
      指令后缀
  
      单条数据位数
  
      数据类型
  
     
     
      epi8
  
      8
  
      int
  
     
     
      epi16
  
      16
  
      int
  
     
     
      pi16
  
      16
  
      int
  
     
     
      epi32
  
      32
  
      int
  
     
     
      pi32
  
      32
  
      int
  
     
     
      epi64
  
      64
  
      int
  
     
     
      pu8
  
      8
  
      unsigned>
  
     
     
      epu8
  
      8
  
      unsigned>
  
     
     
      epu16
  
      16
  
      unsigned>
  
     
     
      epu32
  
      32
  
      unsigned>
  
     
     
      ps
  
      32
  
      float
  
     
     
      pd
  
      64
  
      double
  
     
    
   
   
  例如函数__m128 _mm_div_ps (__m128 a, __m128 b)，根据指令名称__mm开头，代表寄存器是128位，div表示除法，ps结尾代表操作的参数是32位浮点数。即同时加载两个数组，每个数组包含了4个32位单精度浮点数，完成两个数组对应位置数字的除法运算，返回4个除法结果. 
   
  通常，指令的结果宽度是和参数的宽度是保持一致的，但也有例外。 
   
  两个向量执行SIMD指令，是两个向量的对应位置的数据分别执行操作。但也有些例外，比如同一个向量的相邻数据执行操作，称为水平操作，例如指令__m128i _mm_hadd_epi16 (__m128i a, __m128i b)，指令中的h代表horizontal，依次把a和b相邻的数据相加，如果a值为[1,2,3,4]，b值为[5,6,7,8]，那么结果为[1+2,3+4,5+6,7+8]。 
   
  两个向量的所有数据都参与计算，但也有例外，通过掩码控制部分数据参与计算，掩码的第几位为1，则代表第几个数字参与计算。例如函数__m128i _mm_mask_add_epi16 (__m128i src, __mmask8 k, __m128i a, __m128i b)，用k作为掩码，第几位为1，则返回a和b对应位数的和；如果为0，则返回src对应位置的数。 
   
  SIMD指令集合中包含的功能有：算术、比较、加密、位运算、逻辑运算、统计和概率、位移、内存加载和存储、shuffle。 
   
  1. SIMD内存操作 
   
  SIMD内存操作把数据加载到寄存器，并且返回对应SIMD类型。加载16位数据指令_mm_load_si128，加载64位数据指令：_mm256_load_ps，这两个指令要求数据是对齐的。如果是非对齐的数据，则采用_mm_loadu_si128和_mm256_loadu_ps。 
   
  2. SIMD初始化寄存器指令 
   
  初始化为0的指令。_mm_setzero_ps和_mm256_setzero_si256把寄存器初始化为0，初始化操作没有任何依赖。 
   
  初始化为特定值。_mm[256]_set_XXX把每一个点初始化不同的值，_mm[256]_set1_XXX把每一个点初始化相同的值。[256]代表是否出现256，如果出现256。_mm_set_epi32(1,2,3,4)表示按照顺序初始化为整型数[1,2,3,4]。如果时倒序初始化，则使用_mm_setr_epi32(1,2,3,4)。 
   
  3. 位运算指令 
   
  Float和int有很多位运算指令，包括AND、OR、XOR。如果要执行NOT指令，则最快的方式就是和全1做XOR，而获得全1的最快方式就是把两个0做相等比较。如下代码样例： 
   
  __m128i bitwiseNot(__m128i x){  const __m128i zero = _mm_setzero_si128();  const __128i one = _mm_cmpeq_epi32(zero, zero);  return _mm_xor_si128(x, one);} 
   
  4. 浮点数指令 
   
  浮点数指令支持基础的运算+-*/，和扩展的运算sqrt。一些比较有用的函数有_mm_min_ss(a,b)。对于32位浮点数，如果要完成1/x，对应的SIMD指令是_mm_rcp_ps，而  对应的SIMD指令是_mm_rsqrt_ps，采用SIMD指令可以在一条指令内完成，速度更快。 
   
  如果想加两个数组，例如[a,b,c,d]+[e,f,g,h]=[a+e,b+f,c+g,d+h]，对应的SIMD指令是_mm_hadd_ps，_mm_hadd_pd，_mm256_hadd_pd，_mm256_hadd_ps。 
   
  5. 非并行指令，也能达到加速效果 
   
  有些指令，在一条数据中只能操作一条数据，但是也能达到加速的效果。例如_mm_min_ss指令，表示取两个浮点数的最小值，该指令可以用一条指令完成计算，避免跳转，避免通过分支指令跳转。同理，取最大值的指令是_mm_max_sd。 
   
  5.3 手写SIMD指令的缺点 
   
  虽然手写SIMD指令看起来很酷，但是存在一个很大的问题，就是可移植性不强。如果手写一个512位宽的指令，却在一个不支持avx指令集的机器上运行，那就会出问题。所以最好的方案还是编写符合编译器向量化规范的代码，把向量化这件事情交给编译器，最新的编译器会帮助我们解决这些事情。 
   
  六、结论 
   
  最新的编译器已经足够智能，能够自动化地实现向量化。除了提升编译器版本，也需要开发者提高编写代码的能力，能够尽可能的编写出符合上文定义的几种规范，然后让编译器帮助我们生成高效的执行代码。

Github 2024-11-01 开源项目月报 Top19 老孙正经胡说 github 开源 Github趋势分析开源项目 Python Golang
根据GithubTrendings的统计，本月(2024-11-01统计)共有19个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量Python项目9TypeScript项目3JavaScript项目3Svelte项目1JupyterNotebook项目1Ruby项目1HTML项目1Rust项目1Java项目1C++项目1Go项目1Python中的算法实现集合创建周期：2831天
DolphinScheduler 6 个高频 SQL 操作技巧数据库
摘要：ApacheDolphinScheduler系列4-后台SQL经验分享关键词：大数据、数据质量、数据调度整体说明在调研了DolphinScheduler之后，在项目上实际使用了一段时间，有了一些后台SQL实际经验，分享如下。进入DolphinScheduler后台数据库，我这里使用的是MySQL数据库。以任务名称包含“ods_xf_act”的任务为例。一、修改任务组操作UPDATEt_ds_
三分钟使用github的技巧小白学CS 安装/使用教程运维 github git
文章目录一、GitHub搜索技巧——找开发者二、GitHub搜索技巧——找项目三、in关键字限制搜索范围四、stars或fork数量去查找一、GitHub搜索技巧——找开发者搜索条件备注location:location:china，匹配用户填写的地址在chinalanguage:language:javascript，匹配开发语言为javascript的开发者followers:follower
java+vue+SpringBoo智慧旅游系统（程序+数据库+报告+部署教程+答辩指导）
源代码+数据库+LW文档（1万字以上）+开题报告+答辩稿ppt+部署教程+代码讲解+代码时间修改工具技术实现开发语言：后端：Java前端：vue框架：springboot数据库：mysql开发工具JDK版本：JDK1.8数据库：mysql数据库工具：Navicat开发软件：idea主要角色及功能介绍本次系统的用例图做出了十分明确的功能划分，在设计时可以有很好的设计思路进行设计和延展。（1）管理员用
鸿蒙仓颉语言开发实战教程：购物车页面
合集-仓颉教程(31)1.详解鸿蒙仓颉开发语言中的日志打印问题05-212.鸿蒙仓颉开发语言实战教程：实现商城应用首页05-223.鸿蒙仓颉开发语言实战教程：页面跳转和传参05-254.鸿蒙仓颉语言开发教程：页面和组件的生命周期05-285.鸿蒙仓颉语言开发实战教程：购物车页面06-036.鸿蒙仓颉语言开发实战教程：商城登录页06-047.鸿蒙仓颉语言开发实战教程：商城搜索页06-058.鸿蒙仓颉
【有源码】基于爬虫+python的美食数据分析与可视化flask热门美食推荐系统的设计与实现 Q2643365023 Python 大数据 python 爬虫计算机毕设选题毕业设计源码计算机毕设项目数据分析美食推荐系统
注意：该项目只展示部分功能，如需了解，文末咨询即可。本文目录1.开发环境2系统设计2.1设计背景2.2设计内容3系统展示3.1功能展示视频3.2系统页面4更多推荐5部分功能代码1.开发环境开发语言：Python采用技术：flask、爬虫数据库：MySQL开发环境：PyCharm2系统设计2.1设计背景在现代社会中，人们对美食的兴趣和需求日益增长。互联网和社交媒体的普及使得各种美食信息、评论和推荐变
小程序领域开发语言的基础教程小程序开发2020 小程序开发语言 ai
小程序领域开发语言的基础教程：从0到1轻松入门关键词：小程序开发、WXML、WXSS、JavaScript、双线程模型、生命周期、组件化摘要：本文是针对小程序开发语言的零基础入门指南，通过生活类比、代码示例和实战案例，详细讲解小程序核心开发语言（WXML/WXSS/JavaScript）的原理、协作方式及实际应用。无论你是前端新手还是想转行小程序开发的小白，都能通过本文掌握小程序开发的“三板斧”，
HarmonyOS NEXT仓颉开发语言实战案例：外卖App 幽蓝计划开发语言 harmonyos
各位周末好，今天为大家来仓颉语言外卖App的实战分享。我们可以先分析一下页面的布局结构，它是由导航栏和List容器组成的。幽蓝君目前依然没有找到仓颉语言导航栏的系统组件，还是要自定义，这个导航栏有三部分内容，可以使用两端对齐，要注意的是，如果需要中间部分在页面中间需要两端的内容宽度相同。导航栏和页面的布局结构代码如下：Column{Row{Text('幽蓝外卖').fontColor(Color.
HarmonyOS NEXT仓颉开发语言实现画板案例营养师老鲜 harmonyos 开发语言华为
合集-仓颉教程(29)1.详解鸿蒙仓颉开发语言中的日志打印问题05-212.鸿蒙仓颉开发语言实战教程：实现商城应用首页05-223.鸿蒙仓颉开发语言实战教程：页面跳转和传参05-254.鸿蒙仓颉语言开发教程：页面和组件的生命周期05-285.鸿蒙仓颉语言开发实战教程：购物车页面06-036.鸿蒙仓颉语言开发实战教程：商城登录页06-047.鸿蒙仓颉语言开发实战教程：商城搜索页06-058.鸿蒙仓颉
鸿蒙Next仓颉语言开发实战教程：店铺详情页杨凌晨 harmonyos 华为
合集-仓颉教程(27)1.详解鸿蒙仓颉开发语言中的日志打印问题05-212.鸿蒙仓颉开发语言实战教程：实现商城应用首页05-223.鸿蒙仓颉开发语言实战教程：页面跳转和传参05-254.鸿蒙仓颉语言开发教程：页面和组件的生命周期05-285.鸿蒙仓颉语言开发实战教程：购物车页面06-036.鸿蒙仓颉语言开发实战教程：商城登录页06-047.鸿蒙仓颉语言开发实战教程：商城搜索页06-058.鸿蒙仓颉
HarmonyOS NEXT仓颉开发语言实战案例：动态广场 SSA丝社APP harmonyos 开发语言华为
合集-仓颉教程(29)1.详解鸿蒙仓颉开发语言中的日志打印问题05-212.鸿蒙仓颉开发语言实战教程：实现商城应用首页05-223.鸿蒙仓颉开发语言实战教程：页面跳转和传参05-254.鸿蒙仓颉语言开发教程：页面和组件的生命周期05-285.鸿蒙仓颉语言开发实战教程：购物车页面06-036.鸿蒙仓颉语言开发实战教程：商城登录页06-047.鸿蒙仓颉语言开发实战教程：商城搜索页06-058.鸿蒙仓颉
高效主机发现与端口枚举：fscan工具实战指南 Bruce_xiaowei 笔记总结经验网络安全 fscan 信息搜集
高效主机发现与端口枚举：fscan工具实战指南在网络安全领域，主机发现与端口枚举是渗透测试和信息收集的基础环节。本文将深入探讨fscan这一高效工具的核心技术原理与实战应用，帮助你快速掌握网络扫描的核心技能。一、fscan与Nmap工具对比特性fscanNmap开发语言Python3C++主要功能主机探测、端口扫描、漏洞检测主机发现、服务识别、OS检测爆破能力内置弱口令检测需配合其他工具扫描速度极
Github 2025-06-24Python开源项目日报 Top10 老孙正经胡说 github 开源 Github趋势分析开源项目 Python Golang
根据GithubTrendings的统计，今日(2025-06-24统计)共有10个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量Python项目10Swift项目1C++项目1yt-dlp:一个增强版的youtube-dl分支创建周期：1184天开发语言：Python协议类型：TheUnlicenseStar数量：64607个Fork数量：5309次关注人数：64607人贡献
HarmonyOS NEXT仓颉开发语言实战案例：动态广场幽蓝计划 harmonyos 华为
大家好，今日要分享的是使用仓颉语言开发动态广场页面，也比较像朋友圈页面：整个页面分为两部分，分别是导航栏和状态列表，导航栏比较简单，我们可以先写下导航栏的具体代码和页面的基本结构：Column{Row(10){Text('推荐').fontColor(Color.BLACK).fontSize(17).fontWeight(FontWeight.Bold)Text('关注').fontColor(
鸿蒙认证全攻略：流程与大纲深度剖析
目录一、鸿蒙认证，开启未来的科技密钥二、认证流程全解析（一）前期准备（二）报名步骤详解（三）备考阶段（四）考试当天（五）成绩查询与证书领取三、大纲深度解读（一）认证考试大纲的重要性（二）各部分知识点详细分析四、过来人经验分享（一）成功案例分析（二）常见问题与解决方案五、结语一、鸿蒙认证，开启未来的科技密钥在科技飞速发展的当下，鸿蒙系统已然成为全球科技领域的焦点之一。自问世以来，鸿蒙系统凭借其独特的
目标跟踪领域经典论文解析 ♢.＊目标跟踪人工智能计算机视觉
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、JAVA、PYTHON与SAP的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！目标跟踪是计算机视觉领域的一个
鸿蒙仓颉开发语言实战教程：页面跳转和传参湖北穷逼首席代表 harmonyos 开发语言华为
合集-仓颉教程(25)1.详解鸿蒙仓颉开发语言中的日志打印问题05-212.鸿蒙仓颉开发语言实战教程：实现商城应用首页05-223.鸿蒙仓颉开发语言实战教程：页面跳转和传参05-254.鸿蒙仓颉语言开发教程：页面和组件的生命周期05-285.鸿蒙仓颉语言开发实战教程：购物车页面06-036.鸿蒙仓颉语言开发实战教程：商城登录页06-047.鸿蒙仓颉语言开发实战教程：商城搜索页06-058.鸿蒙仓颉
鸿蒙仓颉语言开发实战教程：购物车页面王家那谁 harmonyos 华为
合集-仓颉教程(25)1.详解鸿蒙仓颉开发语言中的日志打印问题05-212.鸿蒙仓颉开发语言实战教程：实现商城应用首页05-223.鸿蒙仓颉开发语言实战教程：页面跳转和传参05-254.鸿蒙仓颉语言开发教程：页面和组件的生命周期05-285.鸿蒙仓颉语言开发实战教程：购物车页面06-036.鸿蒙仓颉语言开发实战教程：商城登录页06-047.鸿蒙仓颉语言开发实战教程：商城搜索页06-058.鸿蒙仓颉
HarmonyOS NEXT仓颉开发语言实战案例：简约音乐播放页幽蓝计划开发语言 harmonyos
偶然间看到一个非常漂亮的音乐播放器设计图，忍不住想拿仓颉语言来练练手，当漂亮的设计图遇到优美的开发语言，简直是天作之合。看到这个页面，我们先做一个简单的分析。整个页面分为上中下三个部分，顶部为导航栏，底部是歌词工具栏，剩下的就是中间的歌曲信息和控制按钮部分。它们的部分方式是比较简单的纵向布局。页面大致结构代码如下：Column{//导航栏Stack{Text('NowPlaying').fontS
Python爬虫实战：全方位爬取知乎学习板块问答数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫学习开发语言 scrapy 游戏
1.项目背景与爬取目标知乎是中国最大的知识问答社区，聚集了大量高质量的学习资源和经验分享。爬取知乎“学习”板块的问答数据，可以为学习资料整理、舆情分析、推荐系统开发等提供数据支持。本项目目标：爬取“学习”话题下的热门问答列表抓取每个问答的标题、作者、回答内容、点赞数、评论数等详细信息实现动态加载内容的抓取，包含图片和富文本避免被反爬机制限制，保证数据采集稳定结合数据分析，为后续应用打基础2.知乎“
ArkTS 开发学习路径全攻略：从入门到实战码农乐园学习
随着HarmonyOS的持续演进，ArkTS（ArkTypeScript）已成为鸿蒙系统的主力开发语言。特别是HarmonyOSNEXT推行纯鸿蒙化后，ArkTS成为构建鸿蒙原生应用的唯一选择。本文将为你梳理一套系统化的学习路径，从语法基础到实战项目，再到系统能力调用与分布式开发，一步步带你成为合格的鸿蒙开发者。第一阶段：ArkTS语言和HarmonyOS基础入门学习目标：掌握ArkTS基础语法；
java毕业设计房产中介系统mybatis+源码+调试部署+系统+数据库+lw 兮兮科技 java mybatis 开发语言
java毕业设计房产中介系统mybatis+源码+调试部署+系统+数据库+lwjava毕业设计房产中介系统mybatis+源码+调试部署+系统+数据库+lw本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：ideaeclipse前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAVA运行环境：Win10、JDK1.8数据库：MySQL5.7/8.0源码地址
HarmonyOs开发之——TypeScript介绍、入门，及 TypeScript、JavaScript、ArkTs的具体区别解读。 chenrui310 ubuntu linux 运维
HarmonyOs开发之——TypeScript介绍、入门，及TypeScript、JavaScript、ArkTs的具体区别解读。一、开发语言介绍：TypeScript是JavaScript的超集，ArkTS则是TypeScript的超集。ArkTs是HarmonyOs的主力开发语言，它在TypeScript（简称TS）的基础上，匹配ArkUI框架，扩展了声明式UI、状态管理等相应的能力，让开发
C#上位机开发进阶：多协议融合通信（S7、Modbus TCP、OPC UA）与西门子PLC联动威哥说编程网络 tcp/ip 网络协议 c#服务器开发语言
随着工业自动化和智能制造的快速发展，不同协议的设备和系统需要高效协同工作。这不仅要求我们能够与西门子PLC等设备进行有效通信，还需要能够跨越不同协议进行数据交换和设备控制。S7协议、ModbusTCP协议以及OPCUA协议是工业自动化领域中广泛应用的协议，而C#作为强大的开发语言，提供了丰富的库和工具来实现这些协议的融合通信。本文将通过实际示例，介绍如何在C#中实现多协议融合通信（S7、Modbu
PHP基础1（php基础语法，变量与常量，数据类型，运算符）
一.前言我们开始介绍一下php基础，这个只是作为一个小的知识点，让大家大概了解一下php，作为一个后端开发语言，还是很有必要了解的。PHP:HypertextPreprocessor(超文本预处理器)php的作用就是生成动态的html文档二.php基础语法echo在html中输出内容用的，php的代码写在里面三.php的常量与变量变量：可变化的值常量：不变的值圆周率：3.1415#PHP中的变量用
深入浅出ArkTS：HarmonyOS应用开发的新选择 vvilkin的学习备忘 #HarmonyOS harmonyos 华为
在移动应用开发领域，选择合适的编程语言对开发效率和性能优化至关重要。随着华为HarmonyOS的崛起，ArkTS作为其官方推荐的应用开发语言，逐渐受到开发者关注。ArkTS基于TypeScript，融合了声明式UI、响应式编程等现代前端开发范式，同时针对HarmonyOS进行了深度优化。本文将全面介绍ArkTS的核心特性、语法基础、与TypeScript的异同，以及它在HarmonyOS生态中的应
信创时代技术栈选择与前景分析：国产替代背景下的战略路径与实践指南猿享天开信创开发系统安全科技创业创新开发语言
博主简介：CSDN博客专家、CSDN平台优质创作者，高级开发工程师，数学专业，10年以上C/C++,C#,Java等多种编程语言开发经验，拥有高级工程师证书；擅长C/C++、C#等开发语言，熟悉Java常用开发技术，能熟练应用常用数据库SQLserver,Oracle,mysql,postgresql等进行开发应用，熟悉DICOM医学影像及DICOM协议,业余时间自学JavaScript,Vue,
如何“调优”我们自身的人体系统？ SugarPPig 笔记养生
文章主题本文主要围绕如何通过科学方法优化人体系统，提升健康、学习和工作效率，延缓衰老等展开，内容涉及睡眠、饮食、心态、学习、大脑健康和长寿等多个方面，基于斯坦福神经科学教授AndrewHuberman等人的研究成果和实践经验分享。核心内容一、睡眠原理生物钟控制：生物钟影响体内化学物质变化和体温变化，进而影响内在状态和外在行为。皮质醇和肾上腺素让人早上醒来，同时设定松果体释放褪黑素的倒计时，让人在十
特斯拉及新能源车企笔试面试题型解析下启芯硬件笔记经验分享硬件工程嵌入式硬件技术提升面试职场和发展
特斯拉及新能源车企笔试面试题型解析下本专栏预计更新90期左右。当前第22期-特斯拉硬件.由于特斯拉的招聘信息保密，本文根据公开的特斯拉硬件工程师面试经验、招聘需求以及行业通用技术领域，并提供详细的题目解析思路和方法，以期为准备特斯拉硬件工程师职位的候选人提供有价值的参考、总结、和经验分享，结合特斯拉的电动汽车和自动驾驶技术特点，给出可能涉及的题目，并提供详细解析。随着技术的飞速发展和特斯拉业务的不
鸿蒙Next仓颉开发语言中的数据类型总结分享幽蓝计划开发语言 harmonyos
大家好，今天总结一下仓颉中的数据类型。数字仓颉中的数字类型复杂多样，首先分为整型和浮点型两种，也就是Int类型和Float类型，Int类型有Int、Int8、Int32、Int64几种类型，Float也有Float16、Float32和Float64几种类型，下面为大家介绍它们的区别。其实无论是Int8、Int32还是Int64，它们都属于整型，只不过是长度上的区别。比如Int8最短，只占用1个字
Linux的Initrd机制被触发 linux
Linux 的 initrd 技术是一个非常普遍使用的机制，linux2.6 内核的 initrd 的文件格式由原来的文件系统镜像文件转变成了 cpio 格式，变化不仅反映在文件格式上， linux 内核对这两种格式的 initrd 的处理有着截然的不同。本文首先介绍了什么是 initrd 技术，然后分别介绍了 Linux2.4 内核和 2.6 内核的 initrd 的处理流程。最后通过对 Lin
maven本地仓库路径修改 bitcarter maven
默认maven本地仓库路径：C:\Users\Administrator\.m2 修改maven本地仓库路径方法： 1.打开E:\maven\apache-maven-2.2.1\conf\settings.xml 2.找到
XSD和XML中的命名空间 darrenzhu xml xsd schema namespace 命名空间
http://www.360doc.com/content/12/0418/10/9437165_204585479.shtml http://blog.csdn.net/wanghuan203/article/details/9203621 http://blog.csdn.net/wanghuan203/article/details/9204337 http://www.cn
Java 求素数运算周凡杨 java 算法素数
网络上对求素数之解数不胜数，我在此总结归纳一下，同时对一些编码，加以改进，效率有成倍热提高。第一种：原理: 6N(+-)1法任何一个自然数，总可以表示成为如下的形式之一： 6N，6N+1，6N+2，6N+3，6N+4，6N+5 (N=0，1，2，…)
java 单例模式 g21121 java
想必单例模式大家都不会陌生，有如下两种方式来实现单例模式： class Singleton { private static Singleton instance=new Singleton(); private Singleton(){} static Singleton getInstance() { return instance; }
Linux下Mysql源码安装 510888780 mysql
1.假设已经有mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz (1)创建mysql的安装目录及数据库存放目录解压缩下载的源码包，目录结构，特殊指定的目录除外：
32位和64位操作系统墙头上一根草 32位和64位操作系统
32位和64位操作系统是指：CPU一次处理数据的能力是32位还是64位。现在市场上的CPU一般都是64位的，但是这些CPU并不是真正意义上的64 位CPU，里面依然保留了大部分32位的技术，只是进行了部分64位的改进。32位和64位的区别还涉及了内存的寻址方面，32位系统的最大寻址空间是2 的32次方= 4294967296（bit）= 4（GB）左右，而64位系统的最大寻址空间的寻址空间则达到了
我的spring学习笔记10-轻量级_Spring框架 aijuans Spring 3
一、问题提问： → 请简单介绍一下什么是轻量级？轻量级（Leightweight）是相对于一些重量级的容器来说的，比如Spring的核心是一个轻量级的容器，Spring的核心包在文件容量上只有不到1M大小，使用Spring核心包所需要的资源也是很少的，您甚至可以在小型设备中使用Spring。
mongodb 环境搭建及简单CURD antlove Web Install curd NoSQL mongo
一搭建mongodb环境 1. 在mongo官网下载mongodb 2. 在本地创建目录 "D:\Program Files\mongodb-win32-i386-2.6.4\data\db" 3. 运行mongodb服务 [mongod.exe --dbpath "D:\Program Files\mongodb-win32-i386-2.6.4\data\
数据字典和动态视图百合不是茶 oracle 数据字典动态视图系统和对象权限
数据字典（data dictionary）是 Oracle 数据库的一个重要组成部分，这是一组用于记录数据库信息的只读（read-only）表。随着数据库的启动而启动,数据库关闭时数据字典也关闭数据字典中包含数据库中所有方案对象（schema object）的定义(包括表，视图，索引，簇，同义词，序列，过程，函数，包，触发器等等) 数据库为一
多线程编程一般规则 bijian1013 java thread 多线程 java多线程
如果两个工两个以上的线程都修改一个对象，那么把执行修改的方法定义为被同步的，如果对象更新影响到只读方法，那么只读方法也要定义成同步的。不要滥用同步。如果在一个对象内的不同的方法访问的不是同一个数据，就不要将方法设置为synchronized的。
将文件或目录拷贝到另一个Linux系统的命令scp bijian1013 linux unix scp
一.功能说明 scp就是security copy，用于将文件或者目录从一个Linux系统拷贝到另一个Linux系统下。scp传输数据用的是SSH协议，保证了数据传输的安全，其格式如下： scp 远程用户名@IP地址：文件的绝对路径
【持久化框架MyBatis3五】MyBatis3一对多关联查询 bit1129 Mybatis3
以教员和课程为例介绍一对多关联关系，在这里认为一个教员可以叫多门课程，而一门课程只有1个教员教，这种关系在实际中不太常见，通过教员和课程是多对多的关系。示例数据：地址表： CREATE TABLE ADDRESSES ( ADDR_ID INT(11) NOT NULL AUTO_INCREMENT, STREET VAR
cookie状态判断引发的查找问题 bitcarter form cgi
先说一下我们的业务背景： 1.前台将图片和文本通过form表单提交到后台，图片我们都做了base64的编码，并且前台图片进行了压缩 2.form中action是一个cgi服务 3.后台cgi服务同时供PC，H5，APP 4.后台cgi中调用公共的cookie状态判断方法（公共的，大家都用，几年了没有问题）问题：（折腾两天。。。。） 1.PC端cgi服务正常调用，cookie判断没
通过Nginx,Tomcat访问日志(access log)记录请求耗时 ronin47
一、Nginx通过$upstream_response_time $request_time统计请求和后台服务响应时间 nginx.conf使用配置方式： log_format main '$remote_addr - $remote_user [$time_local] "$request" ''$status $body_bytes_sent "$http_r
java-67- n个骰子的点数。把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 bylijinnan java
public class ProbabilityOfDice { /** * Q67 n个骰子的点数 * 把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 * 在以下求解过程中，我们把骰子看作是有序的。 * 例如当n=2时，我们认为（1，2）和（2，1）是两种不同的情况 */ private stati
看别人的博客，觉得心情很好 Cb123456 博客心情
以为写博客，就是总结，就和日记一样吧，同时也在督促自己。今天看了好长时间博客: 职业规划: http://www.iteye.com/blogs/subjects/zhiyeguihua android学习: 1.http://byandby.i
[JWFD开源工作流]尝试用原生代码引擎实现循环反馈拓扑分析 comsci 工作流
我们已经不满足于仅仅跳跃一次，通过对引擎的升级，今天我测试了一下循环反馈模式，大概跑了200圈，引擎报一个溢出错误在一个流程图的结束节点中嵌入一段方程，每次引擎运行到这个节点的时候，通过实时编译器GM模块，计算这个方程，计算结果与预设值进行比较，符合条件则跳跃到开始节点，继续新一轮拓扑分析，直到遇到
JS常用的事件及方法 cwqcwqmax9 js
事件描述 onactivate 当对象设置为活动元素时触发。 onafterupdate 当成功更新数据源对象中的关联对象后在数据绑定对象上触发。 onbeforeactivate 对象要被设置为当前元素前立即触发。 onbeforecut 当选中区从文档中删除之前在源对象触发。 onbeforedeactivate 在 activeElement 从当前对象变为父文档其它对象之前立即
正则表达式验证日期格式 dashuaifu 正则表达式 IT其它 java其它
正则表达式验证日期格式 function isDate(d){ var v = d.match(/^(\d{4})-(\d{1,2})-(\d{1,2})$/i); if(!v) { this.focus(); return false; } } <input value="2000-8-8" onblu
Yii CModel.rules() 方法、validate预定义完整列表、以及说说验证 dcj3sjt126com yii
public array rules () {return} array 要调用 validate() 时应用的有效性规则。返回属性的有效性规则。声明验证规则，应重写此方法。每个规则是数组具有以下结构：array('attribute list', 'validator name', 'on'=>'scenario name', ...validation
UITextAttributeTextColor = deprecated in iOS 7.0 dcj3sjt126com ios
In this lesson we used the key "UITextAttributeTextColor" to change the color of the UINavigationBar appearance to white. This prompts a warning "first deprecated in iOS 7.0." Ins
判断一个数是质数的几种方法 EmmaZhao Math python
质数也叫素数，是只能被1和它本身整除的正整数，最小的质数是2，目前发现的最大的质数是p=2^57885161-1【注1】。判断一个数是质数的最简单的方法如下： def isPrime1(n): for i in range(2, n): if n % i == 0: return False return True 但是在上面的方法中有一些冗余的计算，所以
SpringSecurity工作原理小解读坏我一锅粥 SpringSecurity
SecurityContextPersistenceFilter ConcurrentSessionFilter WebAsyncManagerIntegrationFilter HeaderWriterFilter CsrfFilter LogoutFilter Use
JS实现自适应宽度的Tag切换 ini JavaScript html Web css html5
效果体验：http://hovertree.com/texiao/js/3.htm 该效果使用纯JavaScript代码，实现TAB页切换效果，TAB标签根据内容自适应宽度，点击TAB标签切换内容页。 HTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"
Hbase Rest API : 数据查询 kane_xie REST hbase
hbase（hadoop）是用java编写的，有些语言（例如python）能够对它提供良好的支持，但也有很多语言使用起来并不是那么方便，比如c#只能通过thrift访问。Rest就能很好的解决这个问题。Hbase的org.apache.hadoop.hbase.rest包提供了rest接口，它内嵌了jetty作为servlet容器。启动命令：./bin/hbase rest s
JQuery实现鼠标拖动元素移动位置（源码+注释）明子健 jquery js 源码拖动鼠标
欢迎讨论指正！ print.html代码： <!DOCTYPE html> <html> <head> <meta http-equiv=Content-Type content="text/html;charset=utf-8"> <title>发票打印</title> &l
Postgresql 连表更新字段语法 update qifeifei PostgreSQL
下面这段sql本来目的是想更新条件下的数据，可是这段sql却更新了整个表的数据。sql如下： UPDATE tops_visa.visa_order SET op_audit_abort_pass_date = now() FROM tops_visa.visa_order as t1 INNER JOIN tops_visa.visa_visitor as t2 ON t1.
将redis,memcache结合使用的方案? tcrct redis cache
公司架构上使用了阿里云的服务，由于阿里的kvstore收费相当高，打算自建，自建后就需要自己维护，所以就有了一个想法，针对kvstore(redis)及ocs(memcache)的特点，想自己开发一个cache层，将需要用到list，set，map等redis方法的继续使用redis来完成，将整条记录放在memcache下，即findbyid，save等时就memcache，其它就对应使用redi
开发中遇到的诡异的bug wudixiaotie bug
今天我们服务器组遇到个问题：我们的服务是从Kafka里面取出数据，然后把offset存储到ssdb中，每个topic和partition都对应ssdb中不同的key，服务启动之后，每次kafka数据更新我们这边收到消息，然后存储之后就发现ssdb的值偶尔是-2,这就奇怪了，最开始我们是在代码中打印存储的日志，发现没什么问题，后来去查看ssdb的日志，才发现里面每次set的时候都会对同一个key

编译选项	SIMD/normal>	解读(延时比小于1则SIMD占优，大于1则后者的自动向量化占优)
g++>	1.9	编译器自动向量化生成了256的指令，相比128位性能加倍
g++>	0.99	两者近似，编译器自动向量化生成了128位指令
g++>	0.09	-O2无法自动向量化
clang++>	3.1	自动向量化生成了512位指令，相比128位性能3倍多
clang++>	1.6	编译器自动向量化生成了256位指令
clang++>	0.93	编译器自动生成了128位指令
clang++>	0.09	-O1无法向量化

	16字节	32字节	64字节
32位float	__m128	__m256	__m512
64位float	__m128d	__m256d	__m512d
整型数	__m128i	__m256i	__m512i

指令后缀	单条数据位数	数据类型
epi8	8	int
epi16	16	int
pi16	16	int
epi32	32	int
pi32	32	int
epi64	64	int
pu8	8	unsigned>
epu8	8	unsigned>
epu16	16	unsigned>
epu32	32	unsigned>
ps	32	float
pd	64	double

向量化代码实践与思考：如何借助向量化技术给代码提速

一、计算加速的技术

二、SIMD扩展指令集

三、编译器静态自动向量化

3.1 编译器选择和选项

四、如何写出可向量化的代码

1. 循环的次数要是可计数的

2. 简单直接的计算，不包含函数调用

3. 在循环的最内层

4. 访问连续的内存空间

5. 数据无依赖

6. 使用数组而不是指针

7. 使用循环的计数器作为数组的下标

8. 使用更高效的内存布局

9. 循环次数并不需要是指令宽度的整数倍

五、手写SIMD代码

5.1 SIMD代码例子和不同编译器性能对比

5.2 解读SIMD指令

1. SIMD内存操作

2. SIMD初始化寄存器指令

3. 位运算指令

4. 浮点数指令

5. 非并行指令，也能达到加速效果

5.3 手写SIMD指令的缺点

六、结论

你可能感兴趣的:(开发语言,经验分享)