TYYJ-洪伟

【ARMv8 SIMD和浮点指令编程】NEON 减法指令——减法也好几种

向量减法包括常见的普通加指令，还包括长减、宽减、半减、饱和减、按对减、按对加并累加、选择高半部分结果加、全部元素加等。

1 SUB

减法（向量），该指令从第一个源 SIMD&FP 寄存器中的相应向量元素中减去第二个源 SIMD&FP 寄存器中的每个向量元素，将结果放入一个向量中，并将该向量写入目标 SIMD&FP 寄存器。

标量

SUB , ,

向量

SUB ., ., .

是宽度说明符，以“size”编码：

size
0x	RESERVED
10	RESERVED
11	D

是 SIMD&FP 目标寄存器的编号，在“Rd”字段中。

是第一个 SIMD&FP 源寄存器的编号，编码在“Rn”字段中。

是第二个 SIMD&FP 源寄存器的编号，编码在“Rm”字段中。

是 SIMD&FP 目标寄存器的名称，在“Rd”字段中编码。

是排列说明符，编码为“size:Q”：

size	Q
00	0	8B
00	1	16B
01	0	4H
01	1	8H
10	0	2S
10	1	4S
11	0	RESERVED
11	1	2D

是第一个 SIMD&FP 源寄存器的名称，在“Rn”字段中编码。

是第二个 SIMD&FP 源寄存器的名称，在“Rm”字段中编码。

下面是使用 SUB 指令的例子。

    auto *srcArr = new int[4];

    for (int i = 0; i < 4; i++) {
        srcArr[i] = 100 * (i + 1);
    }

    char *src = (char *) srcArr;
    LOGD("in srcArr: %d %d %d %d", srcArr[0], srcArr[1], srcArr[2], srcArr[3]);

    asm volatile(
        "LD1 {v0.4S}, [%[src]]\n"
        "SUB v1.4S, v0.4S, v0.4S\n"
        "ST1 {v1.4S}, [%[src]]\n"
    :[src] "+r"(src)
    :
    : "cc", "memory", "v0");

    LOGD("-----------------------------");
    LOGD("out srcArr: %d %d %d %d", srcArr[0], srcArr[1], srcArr[2], srcArr[3]);

    delete[] srcArr;

SUB v1.4S, v0.4S, v0.4S 将 v0 寄存器 S 通道的值减去 v0 寄存器 S 通道的值的结果写入 v1 的 S 通道，不难知道最终结果均为 0。

运行结果：

2023-05-25 07:42:14.624 13572-13639/com.demo.myapplication D/NativeCore: in srcArr: 100 200 300 400
2023-05-25 07:42:14.624 13572-13639/com.demo.myapplication D/NativeCore: -----------------------------
2023-05-25 07:42:14.624 13572-13639/com.demo.myapplication D/NativeCore: out srcArr: 0 0 0 0

2 SUBHN/SUBHN2

减法返回高窄，该指令从第一个源 SIMD&FP 寄存器中的相应向量元素中减去第二个源 SIMD&FP 寄存器中的每个向量元素，将结果的最高有效一半放入向量中，并将该向量写入目标 SIMD&FP 寄存器的下半部分或上半部分。该指令中的所有值都是有符号整数值。

结果被截断。有关四舍五入的结果，请使用 RSUBHN。

SUBHN 指令将向量写入目标寄存器的下半部分并清除上半部分，而 SUBHN2 指令将向量写入目标寄存器的上半部分而不影响寄存器的其他位。

SUBHN{2} ., ., .

2 是第二个和上半部分说明符。如果存在，它会导致对保存较窄元素的寄存器的高 64 位执行操作，并以“Q”编码：

Q	2
0	[absent]
1	[present]

是 SIMD&FP 目标寄存器的名称，在“Rd”字段中编码。

是排列说明符，以“size”编码：

size
00	8H
01	4S
10	2D
11	RESERVED

是第一个 SIMD&FP 源寄存器的名称，在“Rn”字段中编码。

是第二个 SIMD&FP 源寄存器的名称，在“Rm”字段中编码。

是排列说明符，编码为“size:Q”：

size	Q
00	0	8B
00	1	16B
01	0	4H
01	1	8H
10	0	2S
10	1	4S
11	x	RESERVED

下面是使用 SUBHN/SUBHN2 指令的例子。

    auto *srcArr = new unsigned long long int[4];
    auto *outArr = new unsigned int[4]{0};

    for (int i = 0; i < 4; i++) {
        srcArr[i] = 0x10010000000 * (i + 1);
    }

    char *src = (char *) srcArr;
    char *dst = (char *) outArr;
    LOGD("in srcArr: 0x%llx 0x%llx 0x%llx 0x%llx", srcArr[0], srcArr[1], srcArr[2], srcArr[3]);
    LOGD("in outArr: 0x%x 0x%x 0x%x 0x%x", outArr[0], outArr[1], outArr[2], outArr[3]);

    asm volatile(
        "LD1 {v0.2D, v1.2D}, [%[src]]\n"
        "SUBHN v2.2S, v1.2D, v0.2D\n"
        "SUBHN2 v2.4S, v0.2D, v1.2D\n"
        "ST1 {v2.4S}, [%[dst]]\n"
    :[src] "+r"(src),
    [dst] "+r"(dst)
    :
    : "cc", "memory", "v0", "v1", "v2");

    LOGD("-----------------------------");
    LOGD("out outArr: 0x%x 0x%x 0x%x 0x%x", outArr[0], outArr[1], outArr[2], outArr[3]);

    delete[] srcArr;
    delete[] outArr;

SUBHN v2.2S, v1.2D, v0.2D 将 v1 的两个 D 通道的值减去 v0 的两个 D 通道的值，接着取结果的高位（也就是 D 通道的高 S 通道部分）写入 v2 的两个低 S 通道，v2 寄存器高 S 通道全部清零。

SUBHN2 v2.4S, v0.2D, v1.2D 将 v0 的两个 D 通道的值减去 v1 的两个 D 通道的值，接着取结果的高位（也就是 D 通道的高 S 通道部分）写入 v2 的两个高 S 通道，并保持 v2 其它位不变。

0x10010000000 - 0x30030000000 = 0x20020000000 - 0x40040000000 = 0xFFFF FDFF E000 0000，截断的方式取高位即 0xFFFF FDFF。

运行结果：

2023-05-25 07:52:36.500 16479-16551/com.demo.myapplication D/NativeCore: in srcArr: 0x10010000000 0x20020000000 0x30030000000 0x40040000000
2023-05-25 07:52:36.500 16479-16551/com.demo.myapplication D/NativeCore: in outArr: 0x0 0x0 0x0 0x0
2023-05-25 07:52:36.500 16479-16551/com.demo.myapplication D/NativeCore: -----------------------------
2023-05-25 07:52:36.500 16479-16551/com.demo.myapplication D/NativeCore: out outArr: 0x200 0x200 0xfffffdff 0xfffffdff

3 USUBL/USUBL2

无符号长减，该指令从第一个源 SIMD&FP 寄存器的相应向量元素中减去第二个源 SIMD&FP 寄存器的下半部分或上半部分中的每个向量元素，将结果放入一个向量，并将该向量写入目标 SIMD&FP 寄存器。该指令中的所有值都是无符号整数值。目标向量元素的长度是源向量元素的两倍。

USUBL 指令从每个源寄存器的下半部分提取每个源向量。USUBL2 指令从每个源寄存器的上半部分提取每个源向量。

USUBL{2} ., ., .

2 是第二个和上半部分说明符。如果存在，它会导致对保存较窄元素的寄存器的高 64 位执行操作，并以“Q”编码：

Q	2
0	[absent]
1	[present]

是 SIMD&FP 目标寄存器的名称，在“Rd”字段中编码。

是排列说明符，以“size”编码：

size
00	8H
01	4S
10	2D
11	RESERVED

是第一个 SIMD&FP 源寄存器的名称，在“Rn”字段中编码。

是排列说明符，编码为“size:Q”：

size	Q
00	0	8B
00	1	16B
01	0	4H
01	1	8H
10	0	2S
10	1	4S
11	x	RESERVED

是第二个 SIMD&FP 源寄存器的名称，在“Rm”字段中编码。

下面是使用 USUBL/USUBL2 指令的例子。

    auto *srcArr = new unsigned int[8];
    auto *outArr = new unsigned long long int[4]{0};

    for (int i = 0; i < 8; i++) {
        srcArr[i] = 100 * (i + 1);
    }

    char *src = (char *) srcArr;
    char *dst = (char *) outArr;
    LOGD("in srcArr: %u %u %u %u %u %u %u %u", srcArr[0], srcArr[1], srcArr[2], srcArr[3],
         srcArr[4], srcArr[5], srcArr[6], srcArr[7]);

    asm volatile(
        "LD1 {v0.4S, v1.4S}, [%[src]]\n"
        "USUBL v2.2D, v1.2S, v0.2S\n"
        "USUBL2 v3.2D, v1.4S, v0.4S\n"
    "ST1 {v2.2D, v3.2D}, [%[dst]]\n"
    :[src] "+r"(src),
    [dst] "+r"(dst)
    :
    : "cc", "memory", "v0", "v1", "v2", "v3");

    LOGD("-----------------------------");
    LOGD("out outArr: %llu %llu %llu %llu", outArr[0], outArr[1], outArr[2], outArr[3]);

    delete[] srcArr;
    delete[] outArr;

USUBL v2.2D, v1.2S, v0.2S 将 v1 寄存器低半部分两个 S 通道的值减去 v0 寄存器低半部分两个 S 通道的值，并将结果写入 v2 寄存器的两个 D 通道。

USUBL2 v3.2D, v1.4S, v0.4S 将 v1 寄存器高半部分两个 S 通道的值减去 v0 寄存器高半部分两个 S 通道的值，并将结果写入 v3 寄存器的两个 D 通道。

运行结果：

2023-05-26 07:56:51.966 28776-28866/com.demo.myapplication D/NativeCore: in srcArr: 100 200 300 400 500 600 700 800
2023-05-26 07:56:51.967 28776-28866/com.demo.myapplication D/NativeCore: -----------------------------
2023-05-26 07:56:51.967 28776-28866/com.demo.myapplication D/NativeCore: out outArr: 400 400 400 400

4 USUBW/USUBW2

无符号宽减，该指令从第一个源 SIMD&FP 寄存器的下半部分或上半部分中的相应向量元素中减去第二个源 SIMD&FP 寄存器的每个向量元素，将结果放入一个向量中，并将该向量写入 SIMD&FP 目标寄存器。该指令中的所有值都是无符号整数值。目标寄存器和第一个源寄存器的向量元素是第二个源寄存器的向量元素的两倍长。

USUBW 指令从第一个源寄存器的下半部分提取向量元素。USUBW2 指令从第一个源寄存器的上半部分提取向量元素。

USUBW{2} ., ., .

2 是第二个和上半部分说明符。如果存在，它会导致对保存较窄元素的寄存器的高 64 位执行操作，并以“Q”编码：

Q	2
0	[absent]
1	[present]

是 SIMD&FP 目标寄存器的名称，在“Rd”字段中编码。

是排列说明符，以“size”编码：

size
00	8H
01	4S
10	2D
11	RESERVED

是第一个 SIMD&FP 源寄存器的名称，在“Rn”字段中编码。

是第二个 SIMD&FP 源寄存器的名称，在“Rm”字段中编码。

是排列说明符，编码为“size:Q”：

size	Q
00	0	8B
00	1	16B
01	0	4H
01	1	8H
10	0	2S
10	1	4S
11	x	RESERVED

下面是使用 USUBW/USUBW2 指令的例子。

    auto *srcArr = new unsigned int[4];
    auto *outArr = new unsigned long long int[4]{0};

    for (int i = 0; i < 4; i++) {
        srcArr[i] = 100 * (i + 1);
        outArr[i] = 1000 * (i + 1);
    }

    char *src = (char *) srcArr;
    char *dst = (char *) outArr;
    LOGD("in srcArr: %u %u %u %u", srcArr[0], srcArr[1], srcArr[2], srcArr[3]);
    LOGD("in outArr: %llu %llu %llu %llu", outArr[0], outArr[1], outArr[2], outArr[3]);

    asm volatile(
        "LD1 {v0.4S}, [%[src]]\n"
        "LD1 {v1.2D, v2.2D}, [%[dst]]\n"
        "USUBW v3.2D, v1.2D, v0.2S\n"
        "USUBW2 v4.2D, v2.2D, v0.4S\n"
        "ST1 {v3.2D, v4.2D}, [%[dst]]\n"
    :[src] "+r"(src),
    [dst] "+r"(dst)
    :
    : "cc", "memory", "v0", "v1", "v2", "v3", "v4");

    LOGD("-----------------------------");
    LOGD("out outArr: %llu %llu %llu %llu", outArr[0], outArr[1], outArr[2], outArr[3]);

    delete[] srcArr;
    delete[] outArr;

USUBW v3.2D, v1.2D, v0.2S 将 v1 寄存器的两个 D 通道的值减去 v0 寄存器低半部分两个 S 通道的值，并将结果写入 v3 寄存器的两个 D 通道。

USUBW2 v4.2D, v2.2D, v0.4S 将 v2 寄存器的两个 D 通道的值减去 v0 寄存器高半部分两个 S 通道的值，并将结果写入 v4 寄存器的两个 D 通道。

运行结果：

2023-05-26 08:06:59.172 31685-31752/com.demo.myapplication D/NativeCore: in srcArr: 100 200 300 400
2023-05-26 08:06:59.172 31685-31752/com.demo.myapplication D/NativeCore: in outArr: 1000 2000 3000 4000
2023-05-26 08:06:59.172 31685-31752/com.demo.myapplication D/NativeCore: -----------------------------
2023-05-26 08:06:59.172 31685-31752/com.demo.myapplication D/NativeCore: out outArr: 900 1800 2700 3600

5 UQSUB

无符号饱和减法，该指令从第一个源 SIMD&FP 寄存器的相应元素值中减去第二个源 SIMD&FP 寄存器的元素值，将结果放入向量中，并将向量写入目标 SIMD&FP 寄存器。如果任何结果发生溢出，这些结果就会饱和。如果发生饱和，则设置累积饱和位 FPSR.QC。

标量

UQSUB , ,

向量

UQSUB ., ., .

是宽度说明符，以“size”编码：

size
00	B
01	H
10	S
11	D

是 SIMD&FP 目标寄存器的编号，在“Rd”字段中。

是第一个 SIMD&FP 源寄存器的编号，编码在“Rn”字段中。

是第二个 SIMD&FP 源寄存器的编号，编码在“Rm”字段中。

是 SIMD&FP 目标寄存器的名称，在“Rd”字段中编码。

是排列说明符，编码为“size:Q”：

size	Q
00	0	8B
00	1	16B
01	0	4H
01	1	8H
10	0	2S
10	1	4S
11	0	RESERVED
11	1	2D

是第一个 SIMD&FP 源寄存器的名称，在“Rn”字段中编码。

是第二个 SIMD&FP 源寄存器的名称，在“Rm”字段中编码。

下面是使用 UQSUB 指令的例子。

    auto *srcArr = new unsigned int[4];
    auto *outArr = new unsigned int[4];
    long long fpsrBefore = 0, fpsrAfter = 0;

    for (int i = 0; i < 4; i++) {
        srcArr[i] = 0xFFFFFFFF;
        outArr[i] = i;
    }

    char *src = (char *) srcArr;
    char *dst = (char *) outArr;
    LOGD("in srcArr: %u %u %u %u", srcArr[0], srcArr[1], srcArr[2], srcArr[3]);
    LOGD("in outArr: %u %u %u %u", outArr[0], outArr[1], outArr[2], outArr[3]);

    asm volatile(
        "LD1 {v0.4S}, [%[src]]\n"
        "LD1 {v1.4S}, [%[dst]]\n"
        "MRS %[fpsrBefore], FPSR\n"
        "UQSUB v2.4S, v1.4S, v0.4S\n"
        "MRS %[fpsrAfter], FPSR\n"
        "ST1 {v2.4S}, [%[dst]]\n"
    :[src] "+r"(src),
     [dst] "+r"(dst),
     [fpsrBefore] "+r"(fpsrBefore),
     [fpsrAfter] "+r"(fpsrAfter)
    :
    : "cc", "memory", "v0", "v1", "v2");

    LOGD("-----------------------------");
    LOGD("out outArr: %u %u %u %u", outArr[0], outArr[1], outArr[2], outArr[3]);
    LOGD("out fpsrBefore: 0x%llx fpsrAfter: 0x%llx", fpsrBefore, fpsrAfter);

    delete[] srcArr;
    delete[] outArr;

UQSUB v2.4S, v1.4S, v0.4S 将 v1 寄存器的 S 通道的值减去 v0 寄存器 S 通道的值，由于 v1 减去 v0 不够减，可以看到 FPSR.QC（fpsrAfter 内，即运行 UQSUB 指令后的 FPSR 寄存器值的副本）已经被置为 1（从低到高第 27 位（低位从 0 开始））。

运行结果：

2023-05-26 08:45:39.794 17458-17538/com.demo.myapplication D/NativeCore: in srcArr: 4294967295 4294967295 4294967295 4294967295
2023-05-26 08:45:39.794 17458-17538/com.demo.myapplication D/NativeCore: in outArr: 0 1 2 3
2023-05-26 08:45:39.794 17458-17538/com.demo.myapplication D/NativeCore: -----------------------------
2023-05-26 08:45:39.794 17458-17538/com.demo.myapplication D/NativeCore: out outArr: 0 0 0 0
2023-05-26 08:45:39.794 17458-17538/com.demo.myapplication D/NativeCore: out fpsrBefore: 0x10 fpsrAfter: 0x8000010

6 UHSUB

无符号半减，该指令从第一个源 SIMD&FP 寄存器中的相应向量元素中减去第二个源 SIMD&FP 寄存器中的向量元素，将每个结果右移一位，将每个结果放入向量中，并将向量写入目标 SIMD&FP 寄存器。

UHSUB ., ., .

是 SIMD&FP 目标寄存器的名称，在“Rd”字段中编码。

是排列说明符，编码在“size:Q”字段中。它可以具有以下值：

size	Q
00	0	8B
00	1	16B
01	0	4H
01	1	8H
10	0	2S
10	1	4S
11	x	RESERVED

是第一个 SIMD&FP 源寄存器的名称，在“Rn”字段中编码。

是第二个 SIMD&FP 源寄存器的名称，在“Rm”字段中编码。

下面是使用 UHSUB 指令的例子。

    auto *srcArr = new unsigned int[4];
    auto *outArr = new unsigned int[4];

    for (int i = 0; i < 4; i++) {
        srcArr[i] = 0x01020304 * (i + 1);
        outArr[i] = 0x10203040 * (i + 1);
    }

    char *src = (char *) srcArr;
    char *dst = (char *) outArr;
    LOGD("in srcArr: 0x%x 0x%x 0x%x 0x%x", srcArr[0], srcArr[1], srcArr[2], srcArr[3]);
    LOGD("in outArr: 0x%x 0x%x 0x%x 0x%x", outArr[0], outArr[1], outArr[2], outArr[3]);

    asm volatile(
        "LD1 {v0.4S}, [%[src]]\n"
        "LD1 {v1.4S}, [%[dst]]\n"
        "UHSUB v2.4S, v1.4S, v0.4S\n"
        "ST1 {v2.4S}, [%[dst]]\n"
    :[src] "+r"(src),
     [dst] "+r"(dst)
    :
    : "cc", "memory", "v0", "v1", "v2");

    LOGD("-----------------------------");
    LOGD("out outArr: 0x%x 0x%x 0x%x 0x%x", outArr[0], outArr[1], outArr[2], outArr[3]);

    delete[] srcArr;
    delete[] outArr;

我们计算一组数值：0x10203040 - 0x1020304 = 0xF1E2D3C = 0b1111 00011110 00101101 00111100，右移一位后即 0b0111 10001111 00010110 10011110 = 0x78F169E。

运行结果：

2023-05-27 17:45:40.672 26560-26560/com.example.myapplication D/native-armv8a: in srcArr: 0x1020304 0x2040608 0x306090c 0x4080c10
2023-05-27 17:45:40.672 26560-26560/com.example.myapplication D/native-armv8a: in outArr: 0x10203040 0x20406080 0x306090c0 0x4080c100
2023-05-27 17:45:40.672 26560-26560/com.example.myapplication D/native-armv8a: -----------------------------
2023-05-27 17:45:40.672 26560-26560/com.example.myapplication D/native-armv8a: out outArr: 0x78f169e 0xf1e2d3c 0x16ad43da 0x1e3c5a78

7 RSUBHN/RSUBHN2

四舍五入减法返回高窄。该指令从第一个源 SIMD&FP 寄存器的相应向量元素中减去第二个源 SIMD&FP 寄存器的每个向量元素，将结果的最高有效一半放入向量，并将向量写入目标 SIMD&FP 寄存器的下半部分或上半部分。结果四舍五入。有关截断结果，请使用 SUBHN、SUBHN2。

RSUBHN 指令将向量写入目标寄存器的下半部分并清除上半部分，而 RSUBHN2 指令将向量写入目标寄存器的上半部分而不影响寄存器的其他位。

RSUBHN{2} ., ., .

2 是第二个和上半部分说明符。如果存在，它会导致对保存较窄元素的寄存器的高 64 位执行操作，并以“Q”编码：

Q	2
0	[absent]
1	[present]

是 SIMD&FP 目标寄存器的名称，在“Rd”字段中编码。

是排列说明符，以“size”编码：

size
00	8H
01	4S
10	2D
11	RESERVED

是第一个 SIMD&FP 源寄存器的名称，在“Rn”字段中编码。

是第二个 SIMD&FP 源寄存器的名称，在“Rm”字段中编码。

是排列说明符，编码为“size:Q”：

size	Q
00	0	8B
00	1	16B
01	0	4H
01	1	8H
10	0	2S
10	1	4S
11	x	RESERVED

下面是使用 RSUBHN/RSUBHN2 指令的例子。

    auto *srcArr = new unsigned long long int[4];
    auto *outArr = new unsigned int[4]{0};

    for (int i = 0; i < 4; i++) {
        srcArr[i] = 0x10010000000 * (i + 1);
    }

    char *src = (char *) srcArr;
    char *dst = (char *) outArr;
    LOGD("in srcArr: 0x%llx 0x%llx 0x%llx 0x%llx", srcArr[0], srcArr[1], srcArr[2], srcArr[3]);
    LOGD("in outArr: 0x%x 0x%x 0x%x 0x%x", outArr[0], outArr[1], outArr[2], outArr[3]);

    asm volatile(
        "LD1 {v0.2D, v1.2D}, [%[src]]\n"
        "RSUBHN v2.2S, v1.2D, v0.2D\n"
        "RSUBHN2 v2.4S, v0.2D, v1.2D\n"
        "ST1 {v2.4S}, [%[dst]]\n"
    :[src] "+r"(src),
    [dst] "+r"(dst)
    :
    : "cc", "memory", "v0", "v1", "v2");

    LOGD("-----------------------------");
    LOGD("out outArr: 0x%x 0x%x 0x%x 0x%x", outArr[0], outArr[1], outArr[2], outArr[3]);

    delete[] srcArr;
    delete[] outArr;

RSUBHN v2.2S, v1.2D, v0.2D 将 v1 的两个 D 通道的值减去 v0 的两个 D 通道的值，接着四舍五入取结果的高位（也就是 D 通道的高 S 通道部分）写入 v2 的两个低 S 通道，v2 寄存器高 S 通道全部清零。

RSUBHN2 v2.4S, v0.2D, v1.2D 将 v0 的两个 D 通道的值减去 v1 的两个 D 通道的值，接着四舍五入取结果的高位（也就是 D 通道的高 S 通道部分）写入 v2 的两个高 S 通道，并保持 v2 其它位不变。

0x10010000000 - 0x30030000000 = 0x20020000000 - 0x40040000000 = 0xFFFF FDFF E000 0000，四舍五入的方式取高位即 0xFFFF FE00。

运行结果：

2023-05-28 07:25:14.779 21437-21437/com.example.myapplication D/native-armv8a: in srcArr: 0x10010000000 0x20020000000 0x30030000000 0x40040000000
2023-05-28 07:25:14.779 21437-21437/com.example.myapplication D/native-armv8a: in outArr: 0x0 0x0 0x0 0x0
2023-05-28 07:25:14.779 21437-21437/com.example.myapplication D/native-armv8a: -----------------------------
2023-05-28 07:25:14.779 21437-21437/com.example.myapplication D/native-armv8a: out outArr: 0x200 0x200 0xfffffe00 0xfffffe00

8 其他

SHSUB —— 有符号半减

SQSUB —— 有符号饱和减法

SSUBL/SSUBL2 —— 有符号长减

SSUBW/SSUBW2 —— 有符号宽减

参考资料

1.《ARMv8-A-Programmer-Guide》
2.《Arm® A64 Instruction Set Architecture Armv8, for Armv8-A architecture profile》

你可能感兴趣的:(ARMv8,armv8,A64,neon,simd,sub)

消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
每日一题——第九十题互联网打工人no1 C语言程序设计每日一练 c语言
题目：判断子串是否与主串匹配#include#include#include//////判断子串是否在主串中匹配//////主串///子串///boolisSubstring(constchar*str,constchar*substr){intlenstr=strlen(str);//计算主串的长度intlenSub=strlen(substr);//计算子串的长度//遍历主字符串，对每个可能得
libyuv之linux编译 jaronho Linux linux 运维服务器
文章目录一、下载源码二、编译源码三、注意事项1、银河麒麟系统（aarch64）（1）解决armv8-a+dotprod+i8mm指令集支持问题（2）解决armv9-a+sve2指令集支持问题一、下载源码到GitHub网站下载https://github.com/lemenkov/libyuv源码，或者用直接用git克隆到本地，如：gitclonehttps://github.com/lemenko
esp32开发快速入门 8 : MQTT 的快速入门，基于esp32实现MQTT通信 z755924843 ESP32开发快速入门服务器网络运维
MQTT介绍简介MQTT（MessageQueuingTelemetryTransport，消息队列遥测传输协议），是一种基于发布/订阅（publish/subscribe）模式的"轻量级"通讯协议，该协议构建于TCP/IP协议上，由IBM在1999年发布。MQTT最大优点在于，可以以极少的代码和有限的带宽，为连接远程设备提供实时可靠的消息服务。作为一种低开销、低带宽占用的即时通讯协议，使其在物联
Armv8.3 体系结构扩展--原文版代码改变世界ctw ARM-TEE-Android armv8 嵌入式 arm架构安全架构芯片 Trustzone Secureboot
快速链接:.ARMv8/ARMv9架构入门到精通-[目录]付费专栏-付费课程【购买须知】:个人博客笔记导读目录(全部)TheArmv8.3architectureextensionTheArmv8.3architectureextensionisanextensiontoArmv8.2.Itaddsmandatoryandoptionalarchitecturalfeatures.Somefeat
ARMv8 Debug __pop_ ARMv8 ARM64 架构 linux 运维
内容来自DEN0024A_v8_architecture_PG.pdf本质ARMv8Debug是什么历史在ARMv4开始被引入,并已发展成一系列广泛的调试(debug1)和跟踪(trace)功能ARMv6和ARMv7-a新增了自托管调试(debug2)和性能评测(trace-enhance)ARMv8处理器提供硬件功能侵入式:调试工具能够对核心活动提供显著级别的控制非侵入式:以非侵入性方式收集有关
ARMV8体系结构简介：概述简单同学 ARMV8体系结构 ARMV8
1.前言本文主要概括的介绍ARMV8体系结构定义了哪些内容，概括的说：ARM体系结构定义了PE的行为，不会定义具体的实现ARM体系结构也定义了debug体系结构和trace体系结构ARM体系结构采用RISC指令集（1）长度一致的寄存器；（2）load/store架构，数据处理操作只能对寄存器内容进行处理，不会直接对内存的内容进行处理；（3）简单寻址方式，load/store地址来源于寄存器或指令域
python结束子进程_如何清除python中的子进程 weixin_39995943 python结束子进程
我们使用python进程来管理长时间运行的python子进程。有时需要终止子进程。kill命令不会完全终止进程，只会使其失效。运行以下脚本将演示此行为。importsubprocessp=subprocess.Popen(['sleep','400'],stdout=subprocess.PIPE,shell=False)或者p=subprocess.Popen('sleep400',stdout
LeetCode 53. Maximum Subarray 枯萎的海风算法与OJ C/C++leetcode
1.题目描述Findthecontiguoussubarraywithinanarray(containingatleastonenumber)whichhasthelargestsum.Forexample,giventhearray[−2,1,−3,4,−1,2,1,−5,4],thecontiguoussubarray[4,−1,2,1]hasthelargestsum=6.clicktos
【LeetCode】53. Maximum Subarray 墨染百城 LeetCode leetcode
问题描述问题链接：https://leetcode.com/problems/maximum-subarray/#/descriptionFindthecontiguoussubarraywithinanarray(containingatleastonenumber)whichhasthelargestsum.Forexample,giventhearray[-2,1,-3,4,-1,2,1,-
LeetCode 673. Number of Longest Increasing Subsequence (Java版; Meidum) littlehaes 字符串动态规划算法 leetcode 数据结构
welcometomyblogLeetCode673.NumberofLongestIncreasingSubsequence(Java版;Meidum)题目描述Givenanunsortedarrayofintegers,findthenumberoflongestincreasingsubsequence.Example1:Input:[1,3,5,4,7]Output:2Explanatio
linux 安装Sublime Text 3 hhyiyuanyu Python学习 linux sublime text
方法/步骤打开官网http://www.sublimetext.com/3，选择64位进行下载执行命令wgethttps://download.sublimetext.com/sublime_text_3_build_3126_x64.tar.bz2进行下载3、下载完成进行解压,执行tar-xvvfsublime_text_3_build_3126_x64.tar.bz解压4、解压完成以后，移动到
sublime个人设置 bawangtianzun sublime text 编辑器
如何拥有jiangly蒋老师同款编译器(sublimec++配置竞赛向）_哔哩哔哩_bilibiliSublimeText4的安装教程（新手竞赛向）-知乎(zhihu.com)创建文件自动保存为c++打开SublimeText软件。转到"Tools"（工具）>"Developer"（开发者）>"NewPlugin"（新建插件）。在打开的新文件中，粘贴以下代码：importsublimeimport
html+css网页设计旅游网站首页1个页面 html+css+js网页设计 html css 旅游
html+css网页设计旅游网站首页1个页面网页作品代码简单，可使用任意HTML辑软件（如：Dreamweaver、HBuilder、Vscode、Sublime、Webstorm、Text、Notepad++等任意html编辑软件进行运行及修改编辑等操作）。获取源码1，访问该网站https://download.csdn.net/download/qq_42431718/897527112，点击
vant-element-ts一起使用存在的问题 flynn_ 问题总结 vue
由于vant-ui与element-ui部分组件存在冲突，导致在vue-typescript中出现错误:Subsequentpropertydeclarationsmusthavethesametype.Property'$notify'mustbeoftype'ElNotification',butherehastype'Notify'.方案：一个全局导入，一个按需导入,避免冲突的组件同时使用，
漫谈QWidget及其派生类(二) Caiaolun
原文地址:https://blog.csdn.net/dbzhang800/article/details/6741344上一部分漫谈QWidget及其派生类(一)介绍了QWidget及其派生类,分：窗口、普通控件两种类型(其实有个Qt::SubWindow没有提，不过本系列中也没有介绍它的打算，因为我不熟)。本文接下来试图看看QLayout与窗口的几何尺寸控制。注意：本文只是试图解释，QLayo
SAP自动化-ME12批量更新最后一行的价格小九不懂SAP 自动化 SAP python
Python源码#-Begin-----------------------------------------------------------------#-Includes--------------------------------------------------------------importsys,win32com.clientimportosimporttime#-Sub
php状态监控源码,PHP服务器状态监控实现程序江子星 php状态监控源码
*/header('Content-type:text/html;charset=utf-8');include'./smtp/class.smtp.php';include'./smtp/class.phpmailer.php';functionsendmail($subject='',$body=''){date_default_timezone_set('Asia/Shanghai');//
STM32 的 RTC（实时时钟）详解千千道 STM32 stm32 物联网单片机
目录一、引言二、RTC概述三、RTC的工作原理1.时钟源2.计数器3.闹钟功能4.备份寄存器四、RTC寄存器1.RTC_TR（TimeRegister，时间寄存器）2.RTC_DR（DateRegister，日期寄存器）3.RTC_SSR（SubsecondRegister，亚秒寄存器）4.RTC_PRER（PrescalerRegister，预分频器寄存器）5.RTC_CR（ControlReg
python+adb 0o一人情 adb命令 Python项目 python 开发语言
#!/usr/bin/pythonenv#-*-coding:utf-8-*-importosimportsysimportsubprocessfromtimeimportsleepimportlogginglogging.basicConfig(level=logging.DEBUG)classScreenCapture():defget_screen_size(self):"""获取手机分辨率
Apache Shiro安全框架(2)-用户认证 heyrian Java shiro
身份认证在shiro中用户需要提供用户的principals（身份）和credentials（证明）来证明该用户属于当前系统用户。常见的认证方式即用户名/密码。在解释身份认证之前，我们先来看看shiro中的Subject和Realm,这是身份认证的两个关键的概念。Subjectsubject代表当前用户，内部主要维护当前用户信息。shiro中所有的subject都交给SecurityManager
报错 | pydantic.v1.error_wrappers.ValidationError ... subclass of BaseModel expected 程序猿林仔报错 python python langchain
文章目录01问题情景02分析问题03阅读源码04解决方案4.1方案1-指定版本安装4.2（通用）方案2-指定v1版本4.3（推荐）方案3-参考源码01问题情景最近在做Langchain的开发，可能是因为我更新了依赖库的版本，在执行下面这部分代码的时候出现了该异常：#出现该异常的代码(仅保留核心逻辑)fromlangchain.output_parsersimportPydanticOutputPa
python错误集锦--类型错误：‘NoneType‘ object is not subscriptable 程序员的修养 python python 开发语言后端
python类型错误：‘NoneType’objectisnotsubscriptable网上查到的原因和方案如下，但是小编给变量的命名不太像系统内置关键字。原因：变量使用了系统内置的关键字list解决：重新定义下这个变量小编需求是获取网络数据，从中获取某个key的值然后赋值给变量，代码如下targetData=monitorData['MonitorData’]既然是网络数据就有可能没有这个ke
prometheus中step或resolution的含义 iceman1952 prometheus
prometheus官方文档对resolution的解释真是语焉不详，只有下面寥寥几句话Queryingexamples|PrometheusSubqueryReturnthe5-minuterateofthehttp_requests_totalmetricforthepast30minutes,witharesolutionof1minute.rate(http_requests_total[
Unity3D多线程UI之ScrollYExtand 胡强_79a4
先附上git地址https://github.com/huqiang0204/huqiang.UnitySubThreadUI示例代码请看ScrollExTestPage可以绑定三种模型，头部，尾部，和中间数据部分这里只用到了中间数据模型和头部模型Listdatas=newList();ScrollYExtand.DataTemplatetmp=newScrollYExtand.DataTempl
信号与线性系统分析第4版吴大正课后习题答案 zgw100xuexi 考试信号与线性系统分析课后答案
完整版：http://zgw.100xuexi.com/SubItem/IndexInfoDetail.aspx?id=1d9ef631-a09d-4893-bb2f-597c745f5803第1章信号与系统1.1复习笔记本章是信号分析与系统分析的基础，详细介绍了信号与系统的概念与分类方法以及常用的连续信号与离散信号，讨论了冲激函数和冲激偶函数的重要性质，介绍了线性时不变（LTI）系统的特性，简要
十大复刻表排名，最值得入手的十款复刻表美鞋之家
随着现代科技的发展，复刻表的质量越来越高，很多人都喜欢收藏复刻表。但是，市面上的复刻表品牌繁多，如何选择一款口碑好的复刻表就成了很多人的难题。本文将为大家介绍最受欢迎的十大复刻表排名，帮助大家选购心仪的复刻表。微信:545825906(下单赠送精美礼品)十大复刻表排名如下：第一名：劳力士Submariner系列劳力士Submariner系列可以说是复刻手表中的经典之作。这一系列手表首次推出是在19
SIPp常用脚本之三：UAC weixin_34075551 网络
UAC是作为SIP消息的发起端，可以控制消息速率什么的，方便极了。一、uac.xml;tag=[call_number]To:Call-ID:[call_id]CSeq:1INVITEContact:sip:[field0]@[local_ip]:[local_port]Max-Forwards:70Subject:PerformanceTestContent-Type:application/s
一文搞懂 Flink Task 数据交互之数据写源码 mn_kw flink 交互 java
一文搞懂FlinkTask数据交互之数据写源码1.RecordWriterOutput2.RecordWriter3.数据分区器ChannelSelector4.数据输出模型ResultPartition5.子模型ResultSubpartition6.本地buffer池LocalBufferPool7.获取buffer8.将buffer添加到ResultSubpartitionFlink重要源码
【Mac/Linux终端快捷操作】Finder移动/复制/合并文件 TUTO_TUTO 终端快捷操作 linux macos 运维学习笔记
【注】所有使用相对路径的方法都需要：使用cd命令导航到指定文件夹目录（cd空格把文件夹直接拖进终端）补充在终端中使用cd命令导航文件系统:cd/full/path/to/folder进入特定文件夹。cdsubfolder进入当前目录的子文件夹。cd..返回上一级目录。cd或cd~返回主目录。注意:可以使用Tab键自动补全文件夹名1.多个txt文件中的内容合并成一个txt文件使用相对路径：cat./
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p