发狂的小花

性能优化（CPU优化技术）-NEON指令介绍

「发表于知乎专栏《移动端算法优化》」

本文主要介绍了 NEON 指令相关的知识，首先通过讲解 arm 指令集的分类，NEON寄存器的类型，树立基本概念。然后进一步梳理了 NEON 汇编以及 intrinsics 指令的格式。最后结合指令的分类，使用例子讲述 NEON 指令的使用方法。

个人简介：一个全栈工程师的升级之路！
个人专栏：高性能（HPC）开发基础教程
CSDN主页发狂的小花
人生秘诀：学习的本质就是极致重复!

一、概述

二、NEON指令格式

2.1 Armv7，Armv8，Armv9的介绍

2.2 向量寄存器介绍

2.2.1 AArch64 向量寄存器

2.2.2 AArchh32 / ARMV7向量寄存器

2.3 汇编指令格式介绍

2.3.1 AArch64汇编指令格式

2.3.2 AArch32 / Armv7汇编指令格式

2.4 intrinsics指令格式

2.4.1 向量类型格式

2.4.2 NEON内联函数格式

三、intrinsics 指令介绍

3.1 intrinsics指令分类

3.2 NEON intrinsics指令详述

3.2.1 Load/Store

3.2.2 Arithmetic

3.2.3 Multiply

3.2.4 Shift

3.2.5 Logical and compare

3.2.6 Floating-point

3.2.7 Permutation

3.2.8 Miscellaneous

3.2.9 Data processing

3.2.10 Type conversion

四、NEON intrisics 指令在x86平台的仿真

五、 NEON指令的应用

5.1 RGB de-interleave 加载 / interleave 存储

5.2 查表操作

5.3 边缘处理

5.4 SAD操作

六、总结

一、概述

ARM NEON 可以提升计算机视觉等计算密集型程序的性能，编译器可以将 C/C++ 代码自动转换为 NEON 指令。但是想要有更好的性能还是需要手工编写 NEON 代码，熟练掌握 NEON 指令是第一步。

本文接下来会详细的介绍 Armv7 和 Armv8 架构下 NEON 向量寄存器、NEON 汇编指令格式、NEON Intrinsics 指令格式、常用的 Intrinsics 指令以及作用、在 x86 平台调试 NEON 代码，最后针对几个常用的 Intrinsics 指令结合实例进行说明。

二、NEON指令格式

2.1 Armv7，Armv8，Armv9的介绍

Armv7-A 和 Armv8-A 的关系如下图所示:

ARM ISA

Armv8-A 的执行状态可以分为 AArch64 和 AArch32 两种状态。

AArch64 是 64 位执行状态，支持 A64 指令集。
AArch32 是 32 位执行状态，支持 T32 和 A32 指令集，同时 AArch32 与 AArch64 中一些的功能保持一致，而且 AArch32 兼容 Armv7-A。

ARMV8 支持浮点类型的除法向量操作，这是ARMV7所没有的。另外AArch64还支持double类型的操作。

Armv9-A 是 arm 当前最新的指令架构，Armv9-A 除了向前兼容 Armv8-A，在性能计算上有了很大的提升，主要表现在安全、AI 以及改进矢量扩展（SVE2）和 DSP 能力。

2.2 向量寄存器介绍

向量寄存器用来存放向量数据，每个向量元素的类型必须相同。向量寄存器根据处理元素的大小可以划分为 2/4/8/16 个通道。

SIMD register

2.2.1 AArch64 向量寄存器

AArch64 有 32 个 128bit 的向量寄存器，这些寄存器又可以划分为：

32 个 128bit 的 V 寄存器，V0~V31。
32 个 64bit 的 D 寄存器，D0~D31。
32 个 32bit 的 S 寄存器，S0~S31。

每种类型寄存器的映射关系如下：

AArch64 SIMD register

2.2.2 AArchh32 / ARMV7向量寄存器

AArch32/Armv7 有 16 个 128bit 的向量寄存器，这些寄存器又可以划分为：

16 个128bit 的 Q 寄存器，Q0~Q15。
32 个 64bit 的 D 寄存器，D0~D31。
32 个 32bit 的 S 寄存器，S0~S31。

每种类型寄存器的映射关系如下：

AArch32 SIMD register

2.3 汇编指令格式介绍

AArch64 与AArch32 / Armv7-A 的 NEON 汇编指令除了种类上存在差异，格式上也存在很大差异。

其中指令中有一些通用的书写格式, 含义如下:

{}, 表示可选项
<>, 表示必选项

2.3.1 AArch64汇编指令格式

{}{} Vd., Vn., Vm.

1）表示前缀名字，包括以下几类：

S/U/F/P：表示数据类型，分别为 有符号整型/无符号整型/浮点型/布尔型。
Q：表示饱和（Saturating）计算。
R：表示舍入（Rounding）计算, Rounding 操作等价于加上 0.5 之后再截断。
H：表示折半（Halving）计算。
D：表示翻倍（Doubling）算。

2）表示具体的操作，例如 ADD，SUB 等等

3）表示后缀名字，包括以下几类：

V：表示 Reduction 计算。
P：表示 Pairwise 计算。
H：表示结果只取每个通道的高半部分（High）。
L/N/W/L2/N2/W2：表示数据长度的变化
- L / L2 ：表示输出向量是输入向量长度的 2 倍，其中 L 表示输入寄存器的低 64bit 数据有效，L2 表示输入寄存器的高 64bit 数据有效。

L/L2

- N/N2：表示输出向量是输入向量的 1/2 倍，N 表示输出向量只有低 64bit 有效，N2 则表示输出向量只有高 64bit 有效。

N/N2

- W/W2：表示输出向量和第一个输入向量长度相等，且这两个向量是第二个向量长度的 2 倍，其中 W 表示第二个输入向量的低 64bit 有效，W2 表示第二输入向量的高 64bit 有效。

W/W2

4）表示单个通道的数据类型，8B/16B/4H/8H/2S/4S/2D，B 表示 8bit，H 表示 16bit，S 表示 32bit，D 表示 64bit。

汇编指令例子

SQRSHRN2 表示对向量进行 Rouding 类型的右移操作，并对结果做饱和计算，最后将结果赋给目的向量的高半部分，并保持低半部分不改变，具体示例如下

// 指令语句作用：
//             将 V2 向量中每个元素按照 Rounding 方式右移动 2 位，然后对结果做饱和操作, 
//             并将结果保存到V0上半部分，而且保证V0的下半部分保持不变
// 指令格式说明：
//                 S -- 表示有符号操作
//                 Q -- 表示饱和操作
//                 R -- 表示舍入操作
//               SHR -- 表示向右位移
//                N2 -- 表示将结果保存到输出向量的高 64bit
//             V2.2D -- 表示输入向量寄存器，长度为 128bit，一共两个通道，每个通道 64bit
//             V0.4S -- 表示输出向量寄存器，长度为 128bit，一共四个通道，每个通道 32bit

SQRSHRN2 V0.4S,V2.2D,2

// 伪代码如下:
int shift = 2;
int round_const = (1 << (shift - 1));
V0[2] = SAT((V2[0] + round_const) >> shift)
V0[3] = SAT((V2[1] + round_const) >> shift)

SQRSHRN2

2.3.2 AArch32 / Armv7汇编指令格式

V{}{}{}{.}{,},{,}

1）V AArch32 / Armv7 的汇编指令以"V"开头

2）该修饰字可以表示为以下类型：

Q, 表示饱和（Saturating）计算。
R, 表示舍入（Rounding）计算，Rounding 操作等价于加上 0.5 之后再截断。
H, 表示折半（Halving）计算。
D, 表示翻倍（Doubling）计算。

3）表示具体的操作，例如 ADD，SUB等等

4）表示数据长度的变化，L/N/W。

5）表示指令执行的条件

6）.

表示数据类型，默认为第二个操作数的数据类型。如果第二个操作数不存在，为第一个操作数类型，仍不存在为结果操作数类型。

7）表示输出操作数

8）表示两个输入操作数

汇编指令例子

VQDMULL 表示两向量相乘，结果乘以 2。

// 指令语句作用：
//              64bit 向量 D1 和 D3 中每个元素对应相乘，并将结果乘以 2 
//              最后的结果做饱和之后赋值给 128bit 向量 Q0
//             
// 指令格式说明:
//              Q -- 表示饱和操作
//              D -- 表示 doubling 操作，即乘以 2
//            MUL -- 表示乘法操作
//              L -- 输出向量是输入向量长度的 2 倍
//           .S16 -- 表示操作元素的数据类型为有符号 16bit
//             Q0 -- 表示输出向量寄存器，长度为 128bit
//             D1 -- 表示输入向量寄存器，长度为 64bit
//             D3 -- 表示输入向量寄存器，长度为 64bit

VQDMULL.S16 Q0, D1, D3

// 伪代码
for (int i = 0; i < 4; i++)
{
    q0[i] = SAT(d1[i] * d3[i] * 2)
}

VQDMULL.S16

2.4 intrinsics指令格式

相比于汇编指令，NEON Intrinsics 是一种更简单的编写 NEON 代码的方法，NEON Intrinsics 类似于 C 函数调用，在编译时由编译器替换为相应的汇编指令，使用时需要包含头文件arm_neon.h。

2.4.1 向量类型格式

// 非数组向量格式
x_t
// 数组向量格式
xx_t

1）数据类型，如 int/uint/float/poly。

2）元素大小，如8/16/32/64。

3) 通道数。

4) 数组中元素个数。

向量类型示意图

2.4.2 NEON内联函数格式

v_

1）

q：表示饱和计算，例如

// a加b的结果做饱和计算
int8x8_t vqadd_s8(int8x8_t a, int8x8_t b);

h：表示折半计算，例如

// a减b的结果右移一位
int8x8_t vhsub_s8(int8x8_t a, int8x8_t b);

d：表示加倍计算，例如

// a乘b的结果扩大一倍, 最后做饱和操作
int32x4_t vqdmull_s16(int16x4_t a, int16x4_t b);

r：表示舍入计算，例如

// 将a与b的和减半,同时做rounding 操作, 每个通道可以表达为: (ai + bi + 1) >> 1
int8x8_t vrhadd_s8(int8x8_t a, int8x8_t b);

p：表示pairwise计算。例如

// 将a, b向量的相邻数据进行两两和操作
int8x8_t vpadd_s8(int8x8_t a, int8x8_t b);

2) 表示具体操作，比如 add，sub。

l：表示long，输出向量的元素长度是输入长度的2倍，例如

uint16x8_t vaddl_u8(uint8x8_t a, uint8x8_t b);

n：表示 narrow，输出向量的元素长度是输入长度的1/2倍，例如

uint32x2_t vmovn_u64(uint64x2_t a);

w：表示 wide，第一个输入向量和输出向量类型一样，且是第二个输入向量元素长度的2倍，例如

uint16x8_t vsubw_u8(uint16x8_t a, uint8x8_t b);

_high：AArch64专用，而且和 l/n 配合使用。
- 当使用 l(Long) 时，表示输入向量只有高 64bit 有效；
- 当使用 n(Narrow) 时，表示输出只有高 64bit 有效。

// a 和 b 只有高 64bit 参与运算
int16x8_t vsubl_high_s8(int8x16_t a, int8x16_t b);

_n：表示有标量参与向量计算，例如

// 向量 a 中的每个元素右移 n 位
int8x8_t vshr_n_s8(int8x8_t a, const int n);

_lane：指定向量中某个通道参与向量计算，例如

// 取向量 v 中下标为 lane 的元素与向量 a 做乘法计算
int16x4_t vmul_lane_s16(int16x4_t a, int16x4_t v, const int lane);

q：表示使用 128bit 的向量，否则使用 64bit 的向量。

5) 表示单个通道的数据类型，有u8、s8、u16、s16、u32、s32、f32、f64。

内联函数结构示意图

三、intrinsics 指令介绍

3.1 intrinsics指令分类

功能类别	介绍
Load/Store	对数据进行向量加载和存储，既可以对单个数据进行加载和存储，也可以对向量结构体数据进行加载和存储
Arithmetic	对整数和浮点数向量加减运算
Multiply	整型或浮点型的向量乘法运算，同时包含了乘法和加法混合运算，以及乘法和减法的运算的混合运算
Shift	向量位移操作，其中位移数据可以是立即数也可以是向量
Logical and compare	包含了逻辑运算（与或非运算等）和比较运算（等于、大于、小于等）
Floating-point	包含了浮点和其他类型数据之间的相互转化操作
Permutation	对向量进行重排操作
Misecllaneous	标量数据赋值到向量的操作
Data processing	一般性处理，极值操作、绝对值差、数值取反、平方根倒数等
Type conversion	数值类型转换，数据的组合及提取等

3.2 NEON intrinsics指令详述

本节将对每种类型的 NEON intrinsics 指令做出详细的描述。

3.2.1 Load/Store

以解交织的方式加载数据

// 以解交织方式加载数据到n个向量寄存器, n为1~4
Result_t vld[n]_type(Scalar_t *p_addr);

// 以解交织方式加载数据到n个向量寄存器的第N通道, n为1~4
Result_t vld[n]_lane_type(Scalar_t *p_addr, Vector_t M, int N);

以交织的方式存储数据

// 将n个向量寄存器数据以交织方式存储到内存中, n为1~4
void vst[n]_type(Scalar_t* N, Vector_t M);

// 将n个寄存器的N通道数据以交织方式存储到内存中, n为1~4
void vst[n]_lane_type(Scalar_t *p_addr, Vector_t M, int N);

2 个向量中多通道 load/store, 以及单个通道的load/store

3.2.2 Arithmetic

整数和浮点数的加减运算。

// 基本的加减操作
Result_t vadd_type(Vector1_t N, Vector2_t M);
Result_t vsub_type(Vector1_t N, Vector2_t M);

// L(Long)类型的指令加减运算，输出向量长度是输入的两倍。
Result_t vaddl_type(Vector1_t N, Vector2_t M);
Result_t vsubl_type(Vector1_t N, Vector2_t M);

// W(Wide)类型的指令加减运算，第一个输入向量的长度是第二个输入向量长度的两倍。
Result_t vaddw_type(Vector1_t N, Vector2_t M);
Result_t vsubw_type(Vector1_t N, Vector2_t M);

// H(half)类型的加减运算；将计算结果除以2。
Result_t vhadd_type(Vector1_t N, Vector2_t M);
Result_t vhsub_type(Vector1_t N, Vector2_t M);

// Q(Saturated)饱和类型的加减操作
Result_t vqadd_type(Vector1_t N, Vector2_t M);
Result_t vqsub_type(Vector1_t N, Vector2_t M);

// RH(Rounding Half)类型的加减运算
Result_t vrhadd_type(Vector1_t N, Vector2_t M);
Result_t vrhsub_type(Vector1_t N, Vector2_t M);

// HN(half Narrow)类型的加减操作
Result_t vaddhn_type(Vector1_t N, Vector2_t M);
Result_t vsubhn_type(Vector1_t N, Vector2_t M);

// RHN(rounding half Narrow)类型的加减操作
Result_t vraddhn_type(Vector1_t N, Vector2_t M);
Result_t vrsubhn_type(Vector1_t N, Vector2_t M);

vhadd_s32 instrisics指令的操作

3.2.3 Multiply

整型和浮点型的乘法运算, 参与计算的都是向量

// 基本乘法操作
Result_t vmul_type(Vector1_t N, Vector2_t M);

// l(Long)类型的乘法操作
Result_t vmull_type(Vector1_t N, Vector2_t M);

// QDL(Saturated, Double, Long)类型的乘法操作
Result_t vqdmull_type(Vector1_t N, Vector2_t M);

// 基本的乘加和乘减操作
Result_t vmla_type(Vector1_t N, Vector2_t M, Vector3_t P);
Result_t vmls_type(Vector1_t N, Vector2_t M, Vector3_t P);

// L(Long)类型的乘加和乘减操作
Result_t vmlal_type(Vector1_t N, Vector2_t M, Vector3_t P);
Result_t vmlsl_type(Vector1_t N, Vector2_t M, Vector3_t P);

// QDL(Saturated, Double, Long)类型的乘加和乘减操作
Result_t vqdmlal_type(Vector1_t N, Vector2_t M, Vector3_t P);
Result_t vqdmlsl_type(Vector1_t N, Vector2_t M, Vector3_t P);

// QDLH(Saturated, Double, Long, Half)类型的乘法操作
Result_t vqdmulh_type(Vector1_t N, Vector2_t M);

// QRDLH(Saturated, Rounding Double, Long, Half)类型的乘法操作
Result_t vqrdmulh_type(Vector1_t N, Vector2_t M);

带通道类型的乘法操作

// 基本的乘法操作
Result_t vmull_lane_type(Vector1_t N, Vector2_t M, int n);

// 基本的乘加和乘减操作
Result_t vmla_lane_type(Vector1_t N, Vector2_t M, Vector3_t P, int n);
Result_t vmls_lane_type(Vector1_t N, Vector2_t M, Vector3_t P, int n);

// L(long) 类型的乘加和乘减操作
Result_t vmlal_lane_type(Vector1_t N, Vector2_t M, Vector3_t P, int n);
Result_t vmlsl_lane_type(Vector1_t N, Vector2_t M, Vector3_t P, int n);

// QDL(Saturated, Double, long) 类型的乘加和乘减操作
Result_t vqdmlal_lane_type(Vector1_t N, Vector2_t M, Vector3_t P, int n);
Result_t vqdmlsl_lane_type(Vector1_t N, Vector2_t M, Vector3_t P, int n);

// QDH(Saturated, Double, Half) 类型的操作
Result_t vqdmulh_lane_type(Vector1_t N, Vector2_t M, int n);

vmla_lane_s32 intrinsics 指令的操作

向量和标量的乘法

// 基本的向量和标量的乘法
Result_t vmul_n_type(Vector_t N, Scalar_t M);

// L(Long) 类型的向量和标量的乘法
Result_t vmull_n_type(Vector_t N, Scalar_t M);

// QDL(Saturated, Double, long) 类型的向量和标量的乘法
Result_t vqdmull_n_type(Vector_t N, Scalar_t M);

// QDH(Saturated, Double, Half) 类型的向量和标量的乘法
Result_t vqdmulh_n_type(Vector_t N, Scalar_t M);

// QRDH(Saturated, Double, Half) 类型的向量和标量的乘法
Result_t vqrdmulh_n_type(Vector_t N, Scalar_t M);

// L(Long) 类型的乘加和乘减操作
Result_t vmlal_n_type(Vector1_t N, Vector2_t M, Scalar_t P);
Result_t vmlsl_n_type(Vector1_t N, Vector2_t M, Scalar_t P);

// QDL(Saturated, Double, long) 类型的乘加和乘减
Result_t vqdmlal_n_type(Vector1_t N, Vector2_t M, Scalar_t P);
Result_t vqdmlsl_n_type(Vector1_t N, Vector2_t M, Scalar_t P);

3.2.4 Shift

立即数类型的位移

// 基本的立即数左移和右移
Result_t vshr_n_type(Vector_t N, int n);
Result_t vshl_n_type(Vector_t N, int n);

// R(rounding) 类型的右移操作
Result_t vrshr_n_type(Vector_t N, int n);

// QL(Saturated, long) 类型的右移操作
Result_t vqshl_n_type(Vector_t N, int n);

// 右移累加操作
Result_t vsra_n_type(Vector1_t N, Vector2_t M, int n);

// R(rounding) 类型的右移累加操作
Result_t vrsraq_n_type(Vector1_t N, Vector2_t M, int n);

// Q(Saturated) 类型的左移操作,而且输入是有符号,输出是无符号的
Result_t vqshluq_n_type(Vector_t N, int n);

// N(Narrow) 类型的右移操作
Result_t vshrn_n_type(Vector_t N, int n);

// QN(Saturated, Narrow) 类型的右移操作, 而且输入是有符号,输出是无符号的
Result_t vqshrun_n_type(Vector_t N, int n);

// QRN(Saturated, Rounding, Narrow) 类型的右移操作, 而且输入是有符号,输出是无符号的
Result_t vqrshrun_n_type(Vector_t N, int n);

// QN(Saturated, Narrow) 类型的右移操作
Result_t vqshrn_n_type(Vector_t N, int n);

// RN(Rounding, Narrow) 类型的右移操作
Result_t vrshrn_n_type(Vector_t N, int n);

// QRN(Rounding, Rounding, Narrow) 类型的右移操作
Result_t vqrshrn_n_type(Vector_t N, int n);

// N(Narrow) 类型的左移操作
Result_t vshll_n_type(Vector_t N, int n);

非立即数类型的位移

// 左移
Result_t vshlq_type(Vector1_t N, Vector2_t M);

// Q(Saturated) 类型的左移操作
Result_t vqshl_type(Vector1_t N, Vector2_t M);

// QR(Saturated, rounding) 类型的左移操作
Result_t vrshl_type(Vector1_t N, Vector2_t M);

移位并插入

// 将向量 M 中各个通道先右移动 n 位, 然后将移动后元素插入到 N 对应的元素中,
// 并保持 N 中每个元素的高 n 位保持不变
Result_t vsri_n_type(Vector1_t N, Vector2_t M, int n);

// 将向量 M 中各个通道先左移动 n 位, 然后将移动后元素插入到 N 对应的元素中,
// 并保持 N 中第每个元素的低 n 位保持不变
Result_t vsli_n_type(Vector1_t N, Vector2_t M, int n);

vsliq_n_u32 intrinsics 指令的操作

3.2.5 Logical and compare

eq 表示相等， ge 表示大于或等于， gt 表示大于， le 表示小于或等于， lt 表示小于

逻辑比较操作，比较结果为true，输出向量的对应通道将被设置为全 1，否则设置为全0 。

Result_t vceq_type(Vector1_t N, Vector2_t M);
Result_t vcge_type(Vector1_t N, Vector2_t M);
Result_t vcle_type(Vector1_t N, Vector2_t M);
Result_t vcgt_type(Vector1_t N, Vector2_t M);
Result_t vclt_type(Vector1_t N, Vector2_t M);

向量的绝对值比较，比较结果为true时，输出向量对应通道将被设置为全1，否则设置为全0。

Result_t vcage_type(Vector1_t N, Vector2_t M);
Result_t vcale_type(Vector1_t N, Vector2_t M);
Result_t vcagt_type(Vector1_t N, Vector2_t M);
Result_t vcalt_type(Vector1_t N, Vector2_t M);

- 按位与\或\非\异或操作

Result_t vand_type(Vector1_t N, Vector2_t M);
Result_t vorr_type(Vector1_t N, Vector2_t M);
Result_t vmvn_type(Vector_t N);
Result_t veor_type(Vector1_t N, Vector2_t M);

vmvn_s32 intrinsics 指令操作

元素与操作

// 按通道做与操作，为 true 时，将输出向量对应通道设置为全 1，否则设置为全 0
Result_t vtst_type(Vector1_t N, Vector2_t M);

其他

// M 作为 mask，标识是否对 N 做清零操作。当 M 中某位为 1, 则将 N 中对应位清零
Result_t vbic_type(Vector1_t N, Vector2_t M);

// P 作为 mask，按位 select。当 P 中某位是 1 时，将选择 N 中对应位作为输出，否则选择 M
Result_t vbsl_type(Vector1_t N, Vector2_t M, Vector3_t P);

3.2.6 Floating-point

浮点数之间的转化, 以及浮点类型与整数类型之间的转化

// 单精度浮点转化为整数类型
Result_t vcvt_type_f32(Vector_t N);

// 整数类型转化为单精度浮点
Result_t vcvt_f32_type(Vector_t N);

// f16转化为f32
Result_t vcvt_f16_f32(Vector_t N);

// f32转化为f16
Result_t vcvt_f32_f16(Vector_t N);

浮点类型的乘加操作

Result_t vfma_type(Vector1_t N, Vector2_t M, Vector3_t P);

浮点类型的乘减操作

Result_t vfms_type(Vector1_t N, Vector2_t M, Vector3_t P);

vfms intrinsics 指令操作

3.2.7 Permutation

向量提取组合操作

Result_t vext_type(Vector1_t N, Vector2_t M, int n);

vextq_u8 intrinsics 指令操作

查表操作

Result_t vtbl[n]_type(Vector1_t N, Vector2_t M);
Result_t vtbx[n]_type(Vector1_t N, Vector2_t M, Vector3_t P);

向量翻转操作

Result_t vrev64_type(Vector_t N);
Result_t vrev32_type(Vector_t N);
Result_t vrev16_type(Vector_t N);

vrev16_type 按照 16bit 为块，块内数据按照 8bit 为单位进行翻转。
vrev32_type 按照 32bit 为块，块内数据按照 8bit，16bit 为单位进行翻转。
vrev64_type 按照 64bit 为块，块内数据按照8bit, 16bit, 32bit为单位进行翻转。

vrev16_s8, vrev32_s8 intrinsics 指令操作

旋转操作

旋转指令包含了两种矩阵旋转的指令， TRN1, TRAN2

Result_t vtrn1_type(Vector1_t N, Vector2_t M);
Result_t vtrn2_type(Vector1_t N, Vector2_t M);

vtrn1q_s32, vtrn2q_s32 intrinsics 指令操作

向量交织和解交织操作

// 交织操作
Result_t vzip_type(Vector1_t N, Vector2_t M);

// 解交织操作
Result_t vuzp_type(Vector1_t N, Vector2_t M);

vzip_u8 intrinsics 指令操作

3.2.8 Miscellaneous

将同一个标量填充到每个向量通道

Result_t vcreate_type(Scalar_t N);
Resutl_t vdup_type(Scalar_t N);
Result_t vdup_n_type(Scalar_t N);
Result_t vdupq_n_type(Scalar_t N);
Result_t vmov_n_type(Scalar_t N);
Result_t vmovq_n_type(Scalar_t N);

将向量中某个通道的数据填充到指定的向量中

Result_t vdup_lane_type(Vector_t N, int n);

vdup_lane_s32 intrinsics 指令操作

3.2.9 Data processing

max\min操作

// 基本的 max, min
Result_t vmax_type(Vector1_t N, Vector2_t M);
Result_t vmin_type(Vector1_t N, Vector2_t M);

// pairwise 类型的 max， min
Result_t vpmax_type(Vector1_t N, Vector2_t M);
Result_t vpmin_type(Vector1_t N, Vector2_t M);

vpmin_s16 intrinsics 指令操作

差的绝对值操作

// 基本的绝对值计算
Result_t vabs_type(Vector_t N);

// 差的绝对值操作
Result_t vabd_type(Vector1_t N, Vector2_t M);

// L(Long)类型, 差的绝对值
Result_t vabdl_type(Vector1_t N, Vector2_t M);

// 差的绝对值，并和另一个向量相加
Result_t vaba_type(Vector1_t N, Vector2_t M, Vector3_t P);

// L(Long)类型, 差的绝对值，并和另一个向量相加, 输出是输入长度的两倍
Result_t vabal_type(Vector1_t N, Vector2_t M, Vector3_t P);

取反操作

// 基本的取反操作
Result_t vneg_type(Vector_t N);

// Q(Saturated)类型，带饱和的取反操作
Result_t vqneg_type(Vector_t N);

按位统计 0 或 1 的个数

// 统计每个通道 1 的个数
Result_t vcnt_type(Vector_t N);

// 从符号位开始，统计每个通道中与符号位相同的位的个数，且这些位必须是连续的
Result_t vcls_type(Vector_t N);

// 从符号位开始，统计每个通道连续0的个数
Result_t vclz_type(Vector_t N);

倒数和平方根求倒计算

// 对每个通道近似求倒
Result_t vrecpe_type(Vector_t N);

// 对每个通道使用 newton-raphson 求倒
Result_t vrecps_type(Vector1_t N, Vector2_t M);

// 对每个通道平方根近似求倒
Result_t vrsqrte_type(Vector_t N);

// 对每个通道使用 newton-raphson 平方根近似求倒
Result_t vrsqrts_type(Vector1_t N, Vector2_t M);

向量赋值

// N(Narrow) 类型的赋值，取输入每个通道的高半部分，赋给目的向量
Result_t vmovn_type(Vector_t N);

// L(long) 类型的赋值，使用符号拓展或者 0 拓展的方式，将输入通道的数据赋给输出向量
Result_t vmovl_type(Vector_t N);

// QN(Saturated, Narrow) 类型的赋值，饱和的方式赋值，输出是输入宽度的两倍
Result_t vqmovn_type(Vector_t N);

// QN(Saturated, Narrow) 类型的赋值，饱和的方式赋值，输出是输入宽度的两倍，而且输入为有符号数据，输出无符号
Result_t vqmovun_type(Vector_t N);

3.2.10 Type conversion

元素类型的重新解释

Result_t vreinterpret_DSTtype_SRCtype(Vector1_t N);

两个 64bit 向量组合成一个 128bit 向量

Result_t vcombine_type(Vector1_t N, Vector2_t M);

提取 128bit 向量的高半部分或则低半部分

Result_t vget_high_type(Vector_t N);
Result_t vget_low_type(Vector_t N);

vget_low_s32 \ vget_high_s32 intrinsics 指令操作

四、NEON intrisics 指令在x86平台的仿真

为了便于 NEON 指令从 ARM 平台移植到 x86 平台使用，Intel 提供了一套转化接口 NEON2SSE，用于将 NEON 内联函数转化为 Intel SIMD(SSE) 内联函数。大部分 x86 平台 C/C++编译器均支持 SSE，因此只需下载并包含接口头文件NEON_2_SSE.h，即可在x86平台调试 NEON 指令代码。

#ifdef ARM_PLATFORM
#  include 
#else
#  include "NEON_2_SSE.h"
#endif

NEON2SSE 提供了 1700 多个 NEON 内联函数的转换接口，运算结果确保与 ARM 平台准确一致。

性能方面：

对于使用 128 位向量运算的 NEON 操作，NEON2SSE 在 x86 平台能得到与 ARM 类似的加速比；
如果使用 64 位向量做 NEON 运算，x86 平台的加速比将低于 ARM 平台。

五、 NEON指令的应用

本节将会结合实际应用场景介绍 NEON 指令的使用方法。

5.1 RGB de-interleave 加载 / interleave 存储

使用 vld3q 以解交织的方式加载 RGB 图像；vst3q 以交织的方式存储 RGB 图像。

// 输入地址为 in_ptr, 输出向量为 vec
uint8x16x3_t vec = vld3q(in_ptr);

// 输出地址为 out_ptr, 输入为 uint8x16x3_t 类型的 RGB 向量
vst3q(out_ptr, vec);

load/store 示意图

5.2 查表操作

大多数的重排操作中，重排模式都是固定的，这在使用上带来了一定的局限性。

NEON 在常规重排指令外，支持使用TBL和TBX指令来完成任意模式的重排操作，这两条指令本身也是查表指令。

TBL和 TBX 输入参数介绍:
- 向量类型的下标，通过下标向量到表中查找对应的元素。
- 向量类型的表，最多可以有 4 个寄存器向量值。

这两条指令使用下标向量到对应表中索引数据，并把找到的数据存放到输出向量中去。
TBL和 TBX的不同在于：当没有索引值超过范围时， TBL返回 0， TBX保持原有目的数据不变。

// a表示table, b表示index, c表示结果
uint8x8_t c = vtbl2_u8(a, b)

vtbl2_u8 intrisics 操作

5.3 边缘处理

处理图像边缘时，经常会有使用常数填充边界的情况。

NEON 开发中，可以使用DUP指令将常数填充到向量中，然后使用EXT指令组建新向量。

例如 7x7 的 boxfilter，处理边界时需要填充 3 个像素的值。

EXT指令还常常用于滤波向量的重组操作。

// 构造边界填充向量
uint8_t c_0 =0;
uint8x8_t v_c0 = v_dup_n_u8(c_0);

// 构建v_1
uint8x8_t v_1 = vext_u8(v_c0, v_0, 5)

// 使用 vext 构建边界向量，v0 表示从纵坐标为 0 起始的向量
uint8x8_t v_border = vext_u8(v_1, v_c0, 3)

边界扩展示意图

5.4 SAD操作

SAD(sum of absolute difference) 运算可以使用 NEON 指令来加速。

首先使用vabd做差的绝对值计算。
然后使用vdot将上面的结果做累加。

// 初始化 v_sum 和 v_c1  
uint32x4_t v_sum = vmovq_n_u32(0);
uint8x16_t v_c1  = vmovq_n_u8(1);

// v_src0, v_src1为两幅图的输入
// 将做差的绝对值计算
uint8x16_t v_abd_res = vabdq_u8(v_src0, v_src1);

// 做 vdot操作
v_sum = vdotq_u32(v_sum , v_abd_res, v_c1);
...
// 将最后的结果累加
uint32_t res = vaddvq_u32(v_sum);

NEON SAD 操作示意图

六、总结

本文主要介绍了 NEON 指令相关的知识，首先通过讲解 arm 指令集的分类，NEON寄存器的类型，树立基本概念。然后进一步梳理了 NEON 汇编以及 intrinsics 指令的格式。最后结合指令的分类，使用例子讲述 NEON 指令的使用方法。

七、附录

参考资料

[1] ARM Neon Programmer's Guide

[2] ARM NEON programming quick reference

[3] ARM Architecture Reference Manual Armv8, for A-profile architecture

[4] https://developer.arm.com/architectures/instruction-sets/intrinsics/

我的分享也就到此结束啦
如果我的分享也能对你有帮助，那就太好了！
若有不足，还请大家多多指正，我们一起学习交流！
未来的富豪们：点赞→收藏⭐→关注，如果能评论下就太惊喜了！
感谢大家的观看和支持！最后，☺祝愿大家每天有钱赚！！！欢迎关注、关注！

你可能感兴趣的:(高性能（HPC）开发基础教程,#,ARM,Neon入门教程,性能优化,CPU,ARM,NEON,SIMD,指令,Intrinsic)

ISO 14229 诊断服务测试要求概述小马测试之道 #车载测试全栈指南车载系统
ISO14229诊断服务测试要求概述大家好！我是小马，今天要和大家分享汽车电子领域另一个重要标准——ISO14229统一诊断服务(UDS)的测试要求。作为汽车诊断通信的基础，UDS协议对于车辆故障诊断、ECU刷新和维护至关重要。无论你是诊断工具开发者，还是ECU软件工程师，这篇文章都能帮你理清UDS测试的关键环节。让我们一起深入了解如何确保诊断服务的可靠性和一致性吧！1.标准简介ISO14229是
安心联车辆管理系统二次开发方向全分析安心联-车辆监控管理系统人工智能大数据
安心联车辆动态监控管理系统作为基于北斗/GPS的综合性车辆管理平台，其二次开发方向可从功能扩展、技术优化、行业适配等多个维度展开。结合搜索结果中的技术架构、功能模块及行业需求，以下是主要的二次开发方向及相关技术实现建议：1.协议兼容性与硬件集成扩展方向：支持更多行业协议与传感器类型。当前系统已兼容JT/T808、JT/T809等交通行业协议，可扩展至其他领域（如物流、冷链运输）的专用协议（如GB/
QML与C++集成之道 QT性能优化QT原理源码QT界面美化 qt qt6.3 qt5 QT教程 c++
QML与C++集成之道补天云火鸟博客创作软件1QML基础和C++整合入门1.1QML语言概览1.1.1QML语言概览QML语言概览QML语言概览QML简介及用途QML（QuickModelLanguage）是Qt库中的一种声明式编程语言，主要用于构建复杂的用户界面。它是一种面向对象的语言，但使用场景和传统面向对象编程有所不同。QML允许开发者以XML或JSON格式编写代码来描述UI组件、它们的属性
掌握 Postman：高级 GET 请求技术与响应分析
欢迎阅读本指南，它将详细介绍如何在Postman中发送GET请求并理解API响应。对于希望提升API测试和开发能力的开发者来说，这是不可或缺的技能。Postman对开发者的重要性Postman是API开发和测试中不可或缺的工具。它不仅简化了发送请求和分析响应的过程，还提供了一个有组织的环境来管理多个API版本和团队协作项目。在Postman中发送GET请求第1步：创建一个集合（Collection
一文（加代码示例）说透在线客服系统技术难点
我在业余时间开发了一款自己的独立产品：升讯威在线客服与营销系统。陆陆续续开发了几年，从一开始的偶有用户尝试，到如今线上环境和私有化部署均有了越来越多的稳定用户，时常有同行询问在线客服系统开发中的一些技术问题，在这篇文章中，我将从多个角度探讨在线客服系统的技术难点，并结合实际代码示例，帮助你更好地理解和应对这些挑战。无论你是正在开发在线客服系统，还是想深入了解相关技术，这篇文章都能为你提供有价值的参
C++ 的内存管理有哪些改进？ c++
C++20引入了对协程的官方支持，这是C++语言发展的一个重要里程碑。协程为异步编程、并发任务处理以及复杂的控制流提供了一种更高效、更简洁的解决方案。以下是C++20中协程支持的主要优势：一、简化异步编程在传统的异步编程中，开发者通常需要使用回调函数、std::future和std::promise等机制来处理异步任务。这些方法虽然有效，但代码往往难以阅读和维护，且容易出错。C++20的协程提供了
200.HarmonyOS NEXT系列教程之图案锁按钮交互详解 harmonyos-next
温馨提示：本篇博客的详细代码已发布到git:https://gitcode.com/nutpi/HarmonyosNext可以下载运行哦！HarmonyOSNEXT系列教程之图案锁按钮交互详解效果预览1.按钮布局设计Row({space:20}){Button($r('app.string.pattern_lock_button_1')).onClick(()=>{//重置功能实现})Button
技术书籍推荐(001):电子书免费下载 c++
[0000]CodeLikeaProinRust(英文版)免费电子书PDF下载下载地址：http://t-book.sunlogging.com/2025/03/19/book/book_0000/书籍简介：本书是一本面向中高级Rust开发者的进阶指南，旨在帮助读者快速掌握Rust语言的核心工具、数据结构、内存管理、测试策略、异步编程及优化技巧。全书分为五个部分：ProRust基础涵盖Rust项目
183.HarmonyOS NEXT系列教程之列表交换组件布局设计详解 harmonyos-next
温馨提示：本篇博客的详细代码已发布到git:https://gitcode.com/nutpi/HarmonyosNext可以下载运行哦！HarmonyOSNEXT系列教程之列表交换组件布局设计详解效果演示1.整体布局结构1.1布局层次Column(){//最外层容器Row(){//标题栏Text()//左侧文本Blank()//中间空白Text()//右侧文本}ListExchange({//列
「战友」变「对手」：Pump.fun 与 Raydium 正式打响争夺 Solana Memecoin 市场的战役比特币区块链web3
作者：Techub热点速递撰文：Yangz，TechubNews在关于Pump.fun将开发自家AMM的传闻发酵近一个月后，这一Solana生态龙头Memecoin发行平台今日正式宣布推出原生DEX——PumpSwap。加上本周早些时候Blockworks爆料的Raydium也将推出原生Memecoin发行平台LaunchLab的消息，曾经的「战友」已然变成了「对手」，争夺SolanaMemeco
Java有哪些编程技巧？ java
Java编程技巧：提升效率与质量的实用指南在Java编程中，掌握一些高效的编程技巧不仅可以提高开发效率，还能提升代码的可读性、可维护性和性能。以下是一些实用的Java编程技巧，供开发者参考和应用。一、代码优化技巧（一）合理使用数据类型选择合适的数据类型：根据实际需求选择合适的数据类型。例如，如果只需要存储整数，且数值范围较小，可以使用int而不是long，以节省内存。使用包装类时需谨慎：Java的
使用PHP对接StockTV全球金融市场数据API实战指南 php股票接口
关键词：PHPAPI开发、金融市场数据、WebSocket实时数据、cURL实战一、项目概述StockTV作为全球领先的金融数据平台，提供覆盖股票、外汇、期货和加密货币的实时行情服务。本文将手把手教你使用PHP实现以下核心功能：✅RESTAPI调用：获取历史行情数据✅WebSocket订阅：实时价格推送✅生产级特性：异常重试、速率控制、数据缓存✅高性能优化：连接池、异步处理二、环境准备1.运行环境
STM32最小系统板详解 QoyOle stm32 单片机嵌入式硬件
STM32最小系统板是一款基于STMicroelectronics的STM32微控制器的开发板，它提供了一个简化的硬件平台，用于快速原型设计和开发嵌入式系统。本文将详细介绍STM32最小系统板的特点、组成部分以及如何使用它进行开发。一、特点简化的硬件设计：STM32最小系统板采用了最小化的硬件设计，仅包含了必要的元件，如STM32微控制器、晶振、电源管理电路等。这使得开发者可以专注于软件开发，而无
C++20中哪些特性对内存管理有帮助？ c++
C++20引入了多项改进和新特性，这些特性在内存管理方面提供了更强大的支持和更高的灵活性。以下是C++20中对内存管理有帮助的主要特性：一、对齐分配器（AlignedAllocator）C++20引入了对齐分配器，允许开发者在分配内存时指定对齐参数，从而确保分配的内存块满足特定的对齐要求。这在处理需要特定对齐的硬件或数据结构时非常有用。cpp复制std::aligned_alloc(64,1024
数据权限访问控制（Apache Sentry） deepdata_cn 权限管理 apache sentry
ApacheSentry最初由Cloudera公司内部开发，针对Hadoop系统中的数据（主要是HDFS、Hive的数据）进行细粒度控制，对HDFS、Hive以及Impala有着良好的支持性。2013年Sentry成为Apache的孵化项目，为Hadoop集群元数据和数据存储提供集中、细粒度的访问控制。其架构包括DataEngine、Plugin、Policymetadata等部分，Plugin负
英伟达开源超强模型Nemotron-70B；OpenAI推出Windows版ChatGPT桌面客户端 go2coding AI日报 chatgpt
AI新闻英伟达开源超强模型Nemotron-70B摘要：英伟达近日开源了新型AI模型Nemotron-70B，迅速超越GPT-4o和Claude3.5Sonnet，成为AI社区的新宠。该模型在多项基准测试中表现优异，采用混合训练方法和人类反馈强化学习，模型权重已在HuggingFace发布。Niemotron-70B的开发基于Llama-3.1，且开源数据集加强其训练效果。分析指出，英伟达的策略是
前端vscode中好用的scss插件推荐熊宝王前端 vscode scss
一、LiveSassCompilerLiveSassCompiler是VisualStudioCode(VSCode)中非常流行的一个插件，用于将Sass/SCSS文件实时编译为标准的CSS文件。Sass（SyntacticallyAwesomeStyleSheets）是一种CSS预处理器，提供了变量、嵌套、混合（Mixins）、继承等强大功能，而LiveSassCompiler插件可以帮助开发者
C++开发内存监控工具推荐点云SLAM 开发工具开发环境 c++开发语言 AddProperty gperftools Address 内存监控访问越界
在C++开发中，内存管理是至关重要的，尤其是当程序处理大数据或长时间运行时，内存泄漏或不当使用可能导致性能下降或崩溃。以下是几种常见且有效的内存监控工具，它们可以帮助开发者实时分析、诊断和优化程序的内存使用。1.ValgrindValgrind是一个广泛使用的内存调试和性能分析工具，它的Memcheck工具可以帮助你检查程序中的内存泄漏、内存越界、未初始化内存使用等问题。特点：检测内存泄漏。检查内
React Native：跨平台移动应用开发的强大框架冬冬小圆帽 react native react.js javascript
ReactNative介绍ReactNative是由Facebook开发并开源的一款基于JavaScript和React的跨平台移动应用开发框架。它允许开发者使用React的语法和组件模型来构建原生移动应用（iOS和Android）。ReactNative的核心思想是“LearnOnce,WriteAnywhere”，即学习一次，编写多端应用。1.核心特点跨平台开发：使用JavaScript和Re
AI大模型产品经理学习路线，2025最新，从AI产品经理零基础入门到精通，非常详细收藏我这一篇够了！ AGI-杠哥人工智能产品经理学习语言模型 agi 自然语言处理
随着人工智能技术的发展，尤其是大模型（LargeModel）的兴起，越来越多的企业开始重视这一领域的投入。作为大模型产品经理，你需要具备一系列跨学科的知识和技能，以便有效地推动产品的开发、优化和市场化。以下是一份详细的大模型产品经理学习路线，旨在帮助你构建所需的知识体系，从零基础到精通。一、基础知识阶段1.计算机科学基础数据结构与算法：理解基本的数据结构（如数组、链表、树、图等）和常用算法（如排序
Dify1.01版本vscode 本地环境搭建运行实践 hamish-wu vscode 编辑器 dify 大模型 python flask
dify是python编写的低代码AI开发平台，是常用的大模型开发平台。本文基于最新的1.0.1版本实践完成，有需要的可以私信交流。咨询免费，详细文档及视频需要一定成本，大概相当于节约的时间成本。搭建环境windows11开发工具vscode搭建步骤：1.Startthedocker-composestackwindow环境下运行docker命令，需要下载docker官网镜像，会遇到timeout
vscode python 入门教程(一) window 10 环境下安装pyenv hamish-wu Python python 开发语言 pyenv
python的环境配置方法很多，由于python有两个大版本，很多时候需要切换某个固定的版本才能运行三方包，所以推荐使用pyenv配置python环境变量pyenv的安装安装方法：Invoke-WebRequest-UseBasicParsing-Uri"https://raw.githubusercontent.com/pyenv-win/pyenv-win/master/pyenv-win/i
《Astro 3.0 岛屿架构实战：用「零JS」打造百万PV内容网站》前端极客探险家架构 javascript 开发语言
文章目录一、传统内容站点的性能困局1.1企业级项目性能调研（N=200+）1.2Astro核心优势矩阵二、十分钟构建高性能内容站点2.1项目初始化2.2核心配置文件三、六大企业级场景实战3.1场景一：多框架组件混用3.2场景二：交互增强型Markdown四、性能优化深度解析4.1优化前后数据对比4.2关键优化策略五、企业级架构方案5.1内容站点技术栈5.2流量突增应对方案六、调试与监控体系6.1性
NestJS（基于 Express 的现代化框架） getapi express
NestJS是一个基于Express.js的现代化框架，同时支持Fastify作为底层HTTP平台。它结合了面向对象编程（OOP）、函数式编程（FP）和响应式编程（RxJS），提供了一个高度模块化、可扩展且易于维护的开发环境，非常适合构建大型企业级应用。以下是关于NestJS的详细介绍以及如何高效使用它的指南。1.为什么选择NestJS？NestJS在Express.js的基础上进行了封装和增强，
使用 Spring Security的一些常用功能代码代码快快显灵 springsecurity spring java 前端 SpringSecurity
在实际开发中，SpringSecurity常常涉及一些常用的功能。以下是一些在开发中经常使用的SpringSecurity功能：1.PasswordEncoderBean（密码加密）这段配置使用BCryptPasswordEncoder作为密码加密算法。它是SpringSecurity中常用的密码加密方式，通常用于存储和验证用户的密码。@BeanpublicPasswordEncoderpassw
ERROR: Failed building wheel for pyaudioFailed to build pyaudioERROR: ERROR: Failed to build insta 小李飞刀李寻欢 python audio pyaudio 安装库 python
ERROR:FailedbuildingwheelforpyaudioFailedtobuildpyaudioERROR:ERROR:Failedtobuildinstallablewheelsforsomepyproject.tomlbasedprojects(pyaudio)这个错误表明在编译pyaudio时缺少PortAudio开发库。以下是完整解决方案：Linux系统解决方案#1.安装系统
vscode python 入门教程(二) vscode使用gti 管理代码 hamish-wu vscode ide 编辑器
vscode代码管理需要用管道git的命令，这点和idea的代码管理区别比较大。作为java开发需要自己熟悉适应一下。一、GitHub新建一个仓库过程略二、本地git项目初始化gitinitvscode中可以看到文件状态gitstatus使用gitremote命令吧本地git仓库和远程git仓库链接起来[email protected]提交代码gitcommit-m"评论
【监控系列】open-falcon yunqi1215 Monitor 自动化
Open-Falcon是一款由小米开源的分布式监控系统，具备高性能、高可用性和易扩展的特点。以下从多个维度对其进行详细解析：1.核心特点分布式架构：模块化设计，各组件独立部署，支持水平扩展。高性能：单实例可处理百万级监控指标，采用RPC通信和数据分片优化。灵活的数据模型：支持Tag（标签）标记数据，便于多维查询。实时告警：支持多条件策略、表达式告警及依赖管理。可视化：提供Dashboard和图表，
Python密码学：cryptography库零度° python python 密码学
在数字时代，确保数据的安全性和隐私至关重要。Python中的cryptography库是一个全面的包，为Python开发者提供了密码学原语和配方。它支持高级配方和常见密码学算法的低级接口。cryptography库概述cryptography库旨在易于使用且默认安全。它包括各种密码学操作的高级和低级API，如：对称加密非对称加密哈希函数消息认证码（MAC）数字签名密钥管理cryptography库
一文弄懂 Python assert 断言宇寒风暖 python编程 python 开发语言学习笔记
在Python中，assert是一种用于调试的语句，用于检查某个条件是否为True。如果条件为False，assert会抛出AssertionError异常，并可选地输出错误信息。assert通常用于在开发阶段验证程序的假设条件，确保代码的正确性。1.assert的基本语法1.1语法assertcondition,messagecondition：需要检查的条件表达式。message：可选参数，当
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本

性能优化（CPU优化技术）-NEON指令介绍

一、 概述

二、NEON指令格式

2.1 Armv7，Armv8，Armv9的介绍

2.2 向量寄存器介绍

2.2.1 AArch64 向量寄存器

2.2.2 AArchh32 / ARMV7向量寄存器

2.3 汇编指令格式介绍

2.3.1 AArch64汇编指令格式

2.3.2 AArch32 / Armv7汇编指令格式

2.4 intrinsics指令格式

2.4.1 向量类型格式

2.4.2 NEON内联函数格式

三、intrinsics 指令介绍

3.1 intrinsics指令分类

3.2 NEON intrinsics指令详述

3.2.1 Load/Store

3.2.2 Arithmetic

3.2.3 Multiply

3.2.4 Shift

3.2.5 Logical and compare

3.2.6 Floating-point

3.2.7 Permutation

3.2.8 Miscellaneous

3.2.9 Data processing

3.2.10 Type conversion

四、NEON intrisics 指令在x86平台的仿真

五、 NEON指令的应用

5.1 RGB de-interleave 加载 / interleave 存储

5.2 查表操作

5.3 边缘处理

5.4 SAD操作

六、总结

七、附录

你可能感兴趣的:(高性能（HPC）开发基础教程,#,ARM,Neon入门教程,性能优化,CPU,ARM,NEON,SIMD,指令,Intrinsic)

一、概述