waterhawk

ARMv7 NEON内在函数和数据类型

文章目录

介绍
向量数据类型
内在函数

加减乘

加法
减法
乘法

比较
差值绝对值
最值
按对加
折叠最值
倒数/平方根

近似倒数
倒数
近似平方根倒数
平方根倒数

变量移位

按有符号变量移位
按常数移位
移位并插入

加载存储
初始化、设置值
组合拆分
向量类型转换
查表
标量运算
逻辑、转置

反转
逻辑位运算
转置元素
交叉存取元素
反向交叉存取元素

其他

参考链接

介绍

最近在学习NEON对数据运算的加速，用在神经网络加速的场景下。从基本的库开始了解如何做到这一点。
PS：学习后记：看了公司好多汇编加速代码后，结合自己以前工作，总体感觉如果完全使用汇编代码，代码的可读性确实太差了。我觉得在考虑寄存器、时序、流水线、cache等条件下的C+neon内建函数，会是一个开发效率和执行效率的权衡结果。经过几天的努力，基本把坑填完了。

向量数据类型

NEON 向量数据类型是根据以下模式命名的：

 (type)x(lanes)_t

int16x4_t 是一个包含四条向量线的向量，每条向量线包含一个有符号 16 位整数。

int8x8_t		int8x16_t
int16x4_t		int16x8_t
int32x2_t		int32x4_t
int64x1_t		int64x2_t
uint8x8_t		uint8x16_t
uint16x4_t		uint16x8_t
uint32x2_t		uint32x4_t
uint64x1_t		uint64x2_t
float16x4_t		float16x8_t
float32x2_t		float32x4_t
poly8x8_t		poly8x16_t
poly16x4_t		poly16x8_t

(1)、正常指令：生成大小相同且类型通常与操作数向量相同的结果向量；
(2)、长指令：对双字向量操作数执行运算，生成四字向量的结果。所生成的元素一般是操作数元素宽度的两倍，
并属于同一类型；
(3)、宽指令：一个双字向量操作数和一个四字向量操作数执行运算，生成四字向量结果。所生成的元素和第一个
操作数的元素是第二个操作数元素宽度的两倍；
(4)、窄指令：四字向量操作数执行运算，并生成双字向量结果，所生成的元素一般是操作数元素宽度的一半；
(5)、饱和指令：当超过数据类型指定的范围则自动限制在该范围内。
(6)、舍入：直接计算四舍五入后结果
(7)、半：运算结果/2。

内在函数

加减乘

其中（舍入，半）还没搞清楚，先挖坑以后填。

加法

以下内在函数对向量进行加法运算。结果中的每条向量线都是对每个操作数向量中的相应向量线执行加法运算的结果。执行的运算如下：
向量加法： vadd -> Vr[i]:=Va[i]+Vb[i]

Vr、Va、Vb 具有相等的向量线大小。

向量长型加法： vadd -> Vr[i]:=Va[i]+Vb[i]

Va、Vb 具有相等的向量线大小，结果为向量线宽度变成两倍的 128 位向量。

向量宽型加法： vadd -> Vr[i]:=Va[i]+Vb[i]
向量半加： vhadd -> Vr[i]:=(Va[i]+Vb[i])>>1
向量舍入半加： vrhadd -> Vr[i]:=(Va[i]+Vb[i]+1)>>1
向量饱和加法： vqadd -> Vr[i]:=sat(Va[i]+Vb[i])
高位半部分向量加法： vaddhn -> Vr[i]:=Va[i]+Vb[i]
高位半部分向量舍入加法 vraddhn

减法

向量减法：vsub -> Vr[i]:=Va[i]-Vb[i]
Vr、Va、Vb 具有相等的向量线大小。
向量长型减法：vsub -> Vr[i]:=Va[i]-Vb[i]
Va、Vb 具有相等的向量线大小，结果为向量线宽度变成两倍的 128 位向量。
向量宽型减法：vsub -> Vr[i]:=Va[i]-Vb[i]
Va、Vr 具有相等的向量线宽度
向量饱和减法：vqsub
向量半减：vhsub
高位半部分向量减法：vsubhn
高位半部分向量舍入减法：vrsubhn

乘法

向量乘法：vmul -> Vr[i] := Va[i] * Vb[i]
向量乘加：vmla -> Vr[i] := Va[i] + Vb[i] * Vc[i]
向量长型乘加：vmlal -> Vr[i] := Va[i] + Vb[i] * Vc[i]
向量乘减：vmls -> Vr[i] := Va[i] - Vb[i] * Vc[i]
向量长型乘减：vmlsl -> Vr[i] := Va[i] - Vb[i] * Vc[i]
向量高位饱和加倍乘法：vqdmulh
向量高位饱和舍入加倍乘法：vqrdmulh
向量长型饱和加倍乘加：vqdmlal
向量长型饱和加倍乘减：vqdmlsl
向量长型乘法：vmull
向量长型饱和加倍乘法：vqdmull

比较

如果对于一条向量线比较结果为 true，则该向量线的结果为将所有位设置为一。如果对于一条向量线比较结果为 false，则将所有位设置为零。返回类型是无符号整数类型。这意味着可以将比较结果用作 vbsl 内在函数的第一个参数。
向量比较：== , >= , <= , > , < ，绝对值比较

差值绝对值

最值

以下内在函数提供最大值和最小值运算。
vmax -> Vr[i] := (Va[i] >= Vb[i]) ?Va[i] :Vb[i]
vmin -> Vr[i] := (Va[i] >= Vb[i]) ?Vb[i] :Va[i]

按对加

按对加：vpadd 前半段r[i] = a[2i] + a[2i+1] ，后半段为b
长型按对加：vpaddl
长型按对加并累加：vpadal

折叠最值

vpmax -> 获取相邻对的最大值，a/b向量内相邻比较，再组合成新向量
vpmax -> Vr[i] := (Va[2i] >= Va[2i+1]) ?Va[2i] :Va[2i+1], i

int8x8_t    vpmax_s8(int8x8_t a, int8x8_t b);        // VPMAX.S8 d0,d0,d0 
float32x2_t vpmax_f32(float32x2_t a, float32x2_t b); // VPMAX.F32 d0,d0,d0

vpmin -> 获取相邻对的最小值

倒数/平方根

近似倒数

vrecpe(q)_type: 求近似倒数，type是f32或者u32

倒数

vrecps(q)_type：(牛顿 - 拉夫逊迭代)
注：vrecpe_type计算倒数能保证千分之一左右的精度，如1.0的倒数为0.998047。执行完如下语句后能提高百万分之一精度
float32x4_t recip = vrecpeq_f32(src);此时能达到千分之一左右的精度，如1.0的倒数为0.998047
recip = vmulq_f32 (vrecpsq_f32 (src, recip), recip);执行后能达到百万分之一左右的精度，如1.0的倒数为0.999996
recip = vmulq_f32 (vrecpsq_f32 (src, recip), recip);再次执行后能基本能达到完全精度，如1.0的倒数为1.000000

近似平方根倒数

vrsqrte(q)_type: 计算输入值的平方根的倒数，type是f32或者u32。输入值不能是负数，否则计算出来的值是nan。

平方根倒数

vrsqrts(q)_type

变量移位

按有符号变量移位

向量左移：vshl --> Vr[i] := Va[i] << Vb[i]（负值右移）
向量饱和左移：vqshl（负值右移）
向量舍入左移：vrshl（负值右移）
向量饱和舍入左移：vqrshl（负值右移）

按常数移位

向量按常数右移: vshr_n --> Vr[i] := Va[i] >> n
向量按常数左移: vshl_n --> Vr[i] := Va[i] << n
向量舍入按常数右移：vrshr_n
向量按常数右移并累加：vsra_n
向量舍入按常数右移并累加：vrsra_n
向量饱和按常数左移： vqshl_n
向量有符号‑>无符号饱和按常数左移：vqshlu_n
向量窄型饱和按常数右移：vshrn_n
向量有符号‑>无符号窄型饱和按常数右移：vqshrun_n
向量有符号‑>无符号舍入窄型饱和按常数右移：vqrshrun_n
向量窄型饱和按常数右移：vqshrn_n
向量舍入窄型按常数右移：vrshrn_n
向量舍入窄型饱和按常数右移：vqrshrn_n
向量扩大按常数左移：vshll_n

移位并插入

向量右移并插入vsri_n
向量左移并插入vsli_n

加载存储

加载并存储某类型的单个向量。
加载：将数组首地址转换成neon向量数据

uint8x16_t  vld1q_u8(__transfersize(16) uint8_t const * ptr);

加载：将一个元素复制为向量

uint8x16_t  vld1q_dup_u8(__transfersize(1) uint8_t const * ptr);

加载向量并部分赋值，语义为：
src向量拷贝到dst，并且dst[lane] = *ptr

uint8x16_t  vld1q_lane_u8(__transfersize(1) uint8_t const * ptr, uint8x16_t src, __constrange(0,15) int lane);

存储：将neon向量数据保存到数组中

void  vst1q_u8(__transfersize(16) uint8_t * ptr, uint8x16_t val);

存储：将向量中一个元素保存到内存*ptr=val[lane]

void  vst1q_lane_u8(__transfersize(1) uint8_t * ptr, uint8x16_t val, __constrange(0,15) int lane);

以下内在函数加载或存储 n-元素结构。数组结构的定义方式类似，例如 int16x4x2_t 结构定义如下：

struct int16x4x2_t
{
   int16x4_t val[2];
};

加载32,48,64个unit8到寄存器

uint8x16x2_t  vld2q_u8(__transfersize(32) uint8_t const * ptr);
uint8x16x3_t  vld3q_u8(__transfersize(48) uint8_t const * ptr);
uint8x16x4_t  vld4q_u8(__transfersize(64) uint8_t const * ptr);

图像处理中可以用来拆分RGB或YUV通道数据。
以上数据加载后结果是交叉的，以vld2q_u8为例，

uint8x16x2_t  dst={
	{ptr[0],ptr[2],ptr[4],...},
	{ptr[1],ptr[3],ptr[5]...}};

存储32,48,64个unit8到内存，结果同样是交叉的。

void  vst2q_u8(__transfersize(32) uint8_t * ptr, uint8x16x2_t val);
void  vst3q_u8(__transfersize(48) uint8_t * ptr, uint8x16x3_t val);
void  vst4q_u8(__transfersize(64) uint8_t * ptr, uint8x16x4_t val);

复制2，3，4个unit8，每个成unit8x8向量

uint8x8x2_t vld2_dup_u8(__transfersize(2) uint8_t const * ptr);
uint8x8x3_t vld3_dup_u8(__transfersize(3) uint8_t const * ptr);
uint8x8x4_t vld4_dup_u8(__transfersize(4) uint8_t const * ptr);

加载2条向量并部分赋值，语义为：
src向量拷贝到dst，并且dst[][lane] = *ptr

uint16x8x2_t  vld2q_lane_u16(__transfersize(2) uint16_t const * ptr, uint16x8x2_t src, __constrange(0,7) int lane);

存储2条向量中lane元素到ptr

void  vst2q_lane_u16(__transfersize(2) uint16_t * ptr, uint16x8x2_t val, __constrange(0,7) int lane);

初始化、设置值

从向量提取向量线：uint8_t vget_lane_u8(uint8x8_t vec, __constrange(0,7) int lane);
在向量内设置向量线：
uint8x8_t vset_lane_u8(uint8_t value, uint8x8_t vec, __constrange(0,7) int lane);
从位模式初始化向量：如float16x4_t vcreate_f16(uint64_t a);
将所有向量线设置为相同的值：uint8x8_t vdup_n_u8(uint8_t value);
将向量的所有向量线设置为一条向量线的值：
uint8x8_t vdup_lane_u8(uint8x8_t vec, __constrange(0,7) int lane);

组合拆分

组合：
int8x16_t vcombine_s8(int8x8_t low, int8x8_t high);
结果r = {low,high}; low指下标小的一半，high指下标大的一半。
拆分：
int8x8_t vget_high_s8(int8x16_t a);
int8x8_t vget_low_s8(int8x16_t a);
向量提取: vext_(type)
vext_type: 取第2个输入vector的低n个元素放入新vector的高位，新vector剩下的元素取自第1个输入vector最高的几个元素(可实现vector内元素位置的移动)
vextq_type:
如：src1 = {1,2,3,4,5,6,7,8}
src2 = {9,10,11,12,13,14,15,16}
dst = vext_type(src1,src2,3)时，则dst = {4,5,6,7,8, 9,10,11}

向量类型转换

从浮点转换:int32x2_t vcvt_s32_f32(float32x2_t a);
转换为浮点:float32x2_t vcvt_f32_s32(int32x2_t a);
在浮点之间转换:float16x4_t vcvt_f16_f32(float32x4_t a);
向量窄型整数:int8x8_t vmovn_s16(int16x8_t a);
向量长移:int16x8_t vmovl_s8(int8x8_t a);
向量饱和窄型整数:int8x8_t vqmovn_s16(int16x8_t a);
向量饱和窄型整数有符号‑>无符号的转换: uint8x8_t vqmovun_s16(int16x8_t a);

查表

表查找：uint8x8_t vtbl1_u8(uint8x8_t a, uint8x8_t b);
tbl1_type: b是索引，根据索引去a中搜索相应的元素，并输出新的vector，超过范围的索引返回的是0.
如：a = {1,2,3,4,5,6,7,8}
b= {0,0,1,1,2,2,7,8}
dst = vtbl1_u8(a, b)时，则dst = {1,1,2,2,3,3,8,0}

vtbl2（/3/4）_type: 数组长度扩大到2个vector
如：a.val[0] = {1,2,3,4,5,6,7,8}
a.val[[1]] = {9,10,11,12,13,14,15,16}
b= {0,0,1,1,2,2,8,10}
dst = vtbl2_u8(a, b)时，则dst = {1,1,2,2,3,3,9,11}
扩展表查找：
uint8x8_t vtbx1_u8(uint8x8_t pad, uint8x8_t table, uint8x8_t index);
区别在于TBL miss时填充0，TBX miss时填充pad对应位置的值。另一种理解可以是：根据index搜索table的元素是用来替换pad中的元素，并输出替换后的新vector，当索引超出范围时，则不替换pad中相应的元素。

标量运算

向量与标量进行的乘加
int16x4_t vmla_lane_s16(int16x4_t a, int16x4_t b, int16x4_t v, __constrange(0,3) int l);
vmla_lane_type: r[i] = a[i] + b[i] * v[l];
向量与标量进行的扩大乘加(同上，长度变化)
int32x4_t vmlal_lane_s16(int32x4_t a, int16x4_t b, int16x4_t v, __constrange(0,3) int l);
向量与标量进行的扩大饱和加倍乘加vqdmlal_lane_type
更多信息：
vfma_f32：ri = ai + bi * vi 在加法之前，bi、vi相乘的结果不会被四舍五入
vqdmlal_type: ri = sat(ai + bi * vi) bi/vi的元素大小是ai的一半
vqdmlal_n_type: ri = sat(ai + bi * v)
vqdmlal_lane_type: ri = sat(ai + bi * v[l])
其他所有运算用时参考：

向量与标量进行的乘加
向量与标量进行的扩大乘加
向量与标量进行的扩大饱和加倍乘加
向量与标量进行的乘减
向量与标量进行的扩大乘减
向量与标量进行的扩大饱和加倍乘减
向量乘以标量
向量与标量进行的长型乘法
向量与标量进行的长型乘法
向量与标量进行的饱和加倍长型乘法
向量与标量进行的饱和加倍长型乘法
向量与标量进行的高位饱和加倍乘法
向量与标量进行的高位饱和加倍乘法
向量与标量进行的高位饱和舍入加倍乘法
向量与标量进行的高位舍入饱和加倍乘法
向量与标量进行的乘加
向量与标量进行的扩大乘加
向量与标量进行的扩大饱和加倍乘加
向量与标量进行的乘减
向量与标量进行的扩大乘减
向量与标量进行的扩大饱和加倍乘减

逻辑、转置

反转

vrev(bit)_(type)
uint8x8_t src = {1,2,3,4,5,6,7,8};
dst = vrev16_u8(src) --> dst = {2,1,4,3,6,5,8,7}
dst = vrev64_u8(src) --> dst = {8,7,6,5,4,3,2,1}

逻辑位运算

按位非
按位与
按位或
按位异或（EOR 或 XOR）
位清零
按位或补
按位选择

转置元素

vtrn(q)_type: 将两个输入vector的元素通过转置生成一个有两个vector的矩阵
如：src.val[0] = {1,2,3,4,5,6,7,8}
src.val[[1]] = {9,10,11,12,13,14,15,16}
dst = vtrn_u8(src.val[0], src.val[[1]])时，
则 dst.val[0] = {1,9, 3,11,5,13,7,15}
dst.val[[1]] = {2,10,4,12,6,14,8,16}

交叉存取元素

vzip(q)_type: 将两个输入vector的元素通过交叉生成一个有两个vector的矩阵
如：src.val[0] = {1,2,3,4,5,6,7,8}
src.val[[1]] = {9,10,11,12,13,14,15,16}
dst = vzip_u8(src.val[0], src.val[[1]])时，
则dst.val[0] = {1,9, 2,10,3,11,4,12}
dst.val[[1]] = {5,13,6,14,7,15,8,16}

反向交叉存取元素

vuzp(q)_type: 将两个输入vector的元素通过反交叉生成一个有两个vector的矩阵（通过这个可实现n-way 交织）
如：src.val[0] = {1,2,3,4,5,6,7,8}
src.val[[1]] = {9,10,11,12,13,14,15,16}
dst = vuzp_u8(src.val[0], src.val[[1]])时，
则dst.val[0] = {1,3,5,7,9, 11,13,15}
dst.val[[1]] = {2,4,6,8,10,12,14,16}

其他

绝对值：Vd[i] = |Va[i]| vabs(q)_type
饱和绝对值：Vd[i] = sat(|Va[i]|)
求反：Vd[i] = ‑ Va[i] vneg_type
饱和求反：sat(Vd[i] = ‑ Va[i])
计算前导符号位数目vcls_type

vcls : counts the number of consecutive bits, starting from the most
significant bit,that are the same as the most significant bit, in each element in a
vector, and places the count in the result vector.

计算前导零数目vclz_type

vclz: counts the number of consecutive zeros, starting from the most
significant bit, in each element in a vector, and places the count in result vector.

计算设置位数 vcnt_type 数据中1的个数

参考链接

ARM RealView Version 4.0 中文用户手册
ARM NEON 编程系列2 - 基本指令集
neon指令速查
ARM和NEON指令
Neon Intrinsics各函数介绍(英文版)
Coding for NEON - Part 1: Load and Stores
Coding for NEON - Part 2: Dealing With Leftovers
Coding for NEON - Part 3: Matrix Multiplication
Coding for NEON - Part 4: Shifting Left and Right
Coding for NEON - Part 5: Rearranging Vectors
Neon 指令集 ARMv7/v8 对比
Neon Intrinsics各函数介绍

首席数据官CDO：企业数据资产的“首席架构师
一、CDO岗位的重要性解读：从数据爆炸到企业战略核心总的来说，CDO的诞生是技术、商业与监管三重驱动的结果。技术方面：21世纪初，随着互联网、移动设备和物联网（IoT）的普及，企业数据呈现爆炸式增长。传统IT部门难以兼顾基础设施运维与数据价值挖掘，企业开始意识到需要专职角色统筹数据管理，确保数据从“成本负担”变为“战略资产”。商业方面：2010年代，企业加速数字化转型，但数据孤岛、低质量数据等问题
C++ 使用 constexpr 、查表法、分治法加速位镜像翻转
代码//////@brief左右翻转位。//////@note翻转后，最低位位将变为最高位，最高位将变为最低位。//////templaterequires(std::is_same_v)constexprTReverse(Tvalue){int32_tbit_count=sizeof(T)*8;for(int32_ti=0;irequires(std::is_integral_v&&!std::
电动汽车充电秘籍之乾坤大挪移老柳说车
如今世界各国都在加速新源车的开发与推广，新能源车取代燃油车大势所趋，中国也是如此。在新能源中现在最快可以商用的能源就是电，但电动汽车充电与续航的问题，一百多年来并没有革命性的变化。借着这个势头，《老柳说车》工作室天马行空，为电动车充电支大招，以下内容均为饭后谈资。第一招：全面取消公务用车补贴，政府用车必须使用电动汽车。一但如此，这当官的没地儿充电，充电桩的推广会得到迅速的发展。话糙理不糙。第二招：
为什么你越害怕发生的事情，越容易发生猴得住
美国人爱德华·墨菲是一名工程师，他曾参加过美国空军于1949年进行的MX981实验。这个实验的目的是为了测定人类对加速度的承受极限。其中有一个实验项目是将16个火箭加速度计悬空装置在受试者上方，当时有两种方法可以将加速度计固定在支架上，而不可思议的是，竟然有人有条不紊地将16个加速度计全部装在错误的位置。于是墨菲作出了“事情如果有变坏的可能，不管这种可能性有多小，它总会发生，并引起最大可能的损失”
大模型部署的整体架构 flyair_China 人工智能云计算架构
一、大模型部署架构1.1部署架构大模型部署的整体架构是一个多层次、软硬件协同的系统工程，旨在解决模型规模庞大、计算资源密集、延迟敏感等挑战。1.1.1、基础架构层：硬件资源与网络算力集群GPU/NPU阵列：如NVIDIAA100/H100/H200/H800、华为昇腾、昆仑芯等，支持FP16/INT8量化计算，显存带宽需达TB级（如HBM3e显存带宽达3.35TB/s）。异构计算：CPU+GPU/
QCS8550 硬件性能全解析：参数、性能、优化，一篇讲透伊利丹~怒风 Qualcomm 算法 python 人工智能边缘计算无人机机器人
在物联网（IoT）设备向高性能、智能化演进的过程中，处理器作为核心算力单元扮演着关键角色。高通推出的Dragonwing™QCS8550处理器，凭借4nm工艺、异构计算架构、极致边缘AI处理能力及Wi-Fi7连接等特性，成为面向工业无人机、自主移动机器人、边缘AI盒子等高性能IoT场景的旗舰解决方案。本文将从核心参数、性能优势、优化亮点三个维度，全面解析这款处理器的技术实力。一、核心参数：4nm工
【每日健康小知识】20200522 冉听花开
今天来聊一聊高糖饮食的危害：①高血压美国心脏病杂志曾发文称，高糖饮食会引发高血压。主要是因为：高血糖水平作用于下丘脑的某个关键部位，会引起心率加快、血压升高。②癌症肿瘤专家认为，吃糖越多、越会帮助肿瘤加速生长，因此要尽量避免摄入太多精制糖。多吃甜食还会导致导入人体过早老化和皮肤受到损伤。③胆结石糖摄入过量，会加快胆固醇的积累，造成胆汁内胆固醇、胆汁酸、卵磷脂三者比例失调，而过多的胆固醇又会形成胆固
加入公会做直播有风险吗，谈谈我的感受糖葫芦不甜
成为一名主播似乎成了一条充满魅力的道路。而在这个过程中，加入公会成为了不少主播的选择，它既能提供资源支持，又能加速成长，但同时，也伴随着一系列的风险与挑战。作为一名有过此经历的人，我想谈谈我的感受。免费加入，一对一指导扶持↓公会的最大优势在于其资源整合能力。从专业培训、内容策划到营销推广，公会能为主播提供全方位的支持。这不仅能够帮助主播快速提升专业技能，还能通过精准定位和有效推广，扩大其影响力和粉
Kimi-Audio：最佳音LLM, 如何免费使用 Kimi-Audio AI 模型？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 kimi
简介继DeepSeek之后，字节跳动（现名MoonShotAI，又名Kimi）也在生成式人工智能领域加速发展，并发布了自己的音频模型Kimi-Audio，据说是迄今为止最好的音频模型。推荐文章《NvidiaGPU入门教程之02ubuntu安装A100显卡驱动(含8步快速浓缩教程)》权重2，安装A100显卡驱动《本地大模型知识库OpenWebUI系列之如何解决知识库上传文件故障Extractedco
Jetson平台编译Tengine space01 AIoT Jetson 人工智能深度学习计算机视觉
1.Tengine简介Tengine于2017年在GitHub（https://github.com/OAID/Tengine）开源，是OPENAILAB（开放智能）推出的自主知识产权的边缘AI计算框架，致力于解决AIoT产业链碎片化问题，加速AI产业化落地。Tengine兼容多种操作系统和深度学习算法框架，简化和加速面向场景的AI算法在嵌入式边缘设备上快速迁移，以及实际应用部署落地，可以十倍提升
XC7A75T‑2FGG484I Xilinx Artix‑7 FPGA AMD
XC7A75T‑2FGG484I属于Xilinx28 nmArtix‑7FPGA内部包含约75,000个查找表（LUT）及相应触发器，对应数十万级组合逻辑和状态存储；它还集成了4.9 Mb的分布式BlockRAM，满足高速缓存与FIFO需求；240个DSP48E1乘加单元为数字信号处理、滤波器及乘法累加运算提供硬件加速。超网格（super‑net）布局与高效的路由交换矩阵，确保了内部时钟域频率可达
非传统致富：被主流忽视的赚钱机会氧惠购物达人
在商业世界中，人们往往只看到那些炙手可热的行业和机会，而有些生意看似有利可图，但实际上却没人干或是很少有人干，然而这些生意由于竞争少、市场需求稳定，往往能够获得不错的利润。以下是一些可能被认为是能够挣钱却没人干或是很少有人干的生意，但实际上这些生意机会和潜力仍然很大。一、农业农业是一个古老而传统的行业，但在现代社会中，随着城市化进程的加速和劳动力成本的上升，农业的利润空间逐渐缩小。然而，农业作为人
2023-11-04 低代码云MES
近年来，全球新材料行业快速发展，我国新材料产业处于第二梯队，年均复合增速超过20%，但目前上游关键材料、设备发展仍存在诸多“卡脖子”环节，国产替代需求迫切、市场巨大、进程加速。未来一段时间内，国产替代将成为行业成长主旋律。因此，企业对数字化工厂的建设提出了更高的要求，新材料制造业工厂目前在生产管理和信息化方面存在如下不足：数据采集不及时：车间现场报表（包括流转、报工、废品数据、呆滞信息）录入不实时
初探机器学习与力学研究的交叉领域 faderbic 机器学习人工智能深度学习
目录关于如何踏入机器学习领域机器学习与力学研究的交叉方向1.使用机器学习加速有限元求解2.结合有限元计算和机器学习预测复杂材料结构与力学性能的关系3.结构健康检测4.疲劳寿命预测总结关于如何踏入机器学习领域因为我本科的专业是力学，所以当我开始关注机器学习领域时，首先考虑的是机器学习和力学的交叉领域。对于很多对人工智能感兴趣的朋友，想加入人工智能的潮流却不知道从何学起，我提供一个思路，我认为将自己学
借助 Amazon SageMaker Catalog 功能，简化从数据到洞察的路径
在数据驱动的时代，企业常陷于数据孤岛、特征重复开发、模型溯源困难等困境。AmazonSageMakerCatalog应运而生，作为统一的数据和特征治理中心，它能打通从原始数据到模型部署的全链路，显著加速数据科学项目落地。一、痛点：数据科学项目中的常见瓶颈数据发现困难：数据分散在S3、Redshift等不同存储中，缺乏统一视图特征管理混乱：特征工程脚本散落各处，无法复用和共享模型溯源缺失：无法追踪模
十大直播培训机构，一起来看看糖葫芦很甜
市场上涌现出了一大批专业的直播培训机构，它们以各自独特的优势，助力学员在直播领域脱颖而出。5星公会，免费加入，一对一指导扶持↓微信在文章底部。苏晟传媒核心竞争力：苏晟传媒直播培训中心注重个性化教学，为每位学员量身定制学习方案。通过小班授课、一对一指导等形式，精准解决学员在直播过程中遇到的问题，加速成长进程。此外，中心还与多家电商平台合作，为优秀学员提供直播带货机会。创新理念：未来直播教育秉承“科技
「RIA学习力」《第五项修炼》No.06，央央快乐幸福的央央
今天的内容来自《第5章心灵的转变》正负反馈和延迟系统思考的积木块有两种不同类型的反馈过程：正反馈和负反馈。正反馈（或放大反馈）过程是增长的引擎。只要你处在增长的局面，一定就有正反馈作用。正反馈过程也可以产生加速的衰减，很小的衰减被放大成越来越严重的衰减，就像金融恐慌时银行财产的衰减情况一样。负反馈（稳定反馈）起作用时，就有以目标为导向的表现。如果目标是稳定不动，那么负反馈的作用就像车上的刹车装置。
全球气温逐年增高 CATTLECODE 人工智能
根据全球主要气候监测机构的权威数据，**全球气温确实在持续升高**，且呈现加速趋势。以下是关键事实和数据分析：一、科学共识与核心数据长期升温趋势（1880-2023）：工业革命前（1850-1900）相比：全球平均气温上升约1.45°C2023年成为有记录以来最热年份（比19世纪基线高1.48°C）过去10年（2014-2023）是史上最热的十年（WMO数据）加速升温证据：二、权威机构数据验证机构
大模型日报10月21日大模型空间站人工智能
资讯篇资讯01清华开源混合精度推理系统MixQ量化权重与激活：MixQ同时量化权重和激活，使用INT8/INT4张量核心进行推理加速，并通过FP16张量核心处理少量激活中的离群值，既保持精度又提升吞吐量。其混合精度量化策略使推理精度几乎无损，精度下降不到0.1%。等价变换优化计算图：MixQ基于离群点的局部性，优化了混合精度推理的计算图，避免了重复检查离群点的开销。通过量化系数中的amax值判断矩
OpenCV中常用特征提取算法（SURF、ORB、SIFT和AKAZE）用法示例（C++和Python）点云SLAM 图形图像处理 opencv 算法 ORB算法 SIFT算法 SURF算法 AKAZE算法计算机视觉
OpenCV中提供了多种常用的特征提取算法，广泛应用于图像匹配、拼接、SLAM、物体识别等任务。以下是OpenCV中几个主流特征提取算法的用法总结与代码示例，涵盖C++和Python两个版本。常用特征提取算法列表算法特点是否需额外模块SIFT（尺度不变特征）稳定性强、可旋转缩放xfeatures2d模块SURF（加速稳健特征）快速但专利保护xfeatures2d模块ORB（OrientedFAST
Blender 云渲染高效流程：渲染 101 集群加速实战渲染101专业云渲染 blender houdini 分布式服务器 maya
一、核心优势：适配Blender全场景需求✅全渲染器深度兼容Cycles（CPU/GPU模式）：云端4090显卡渲染速度比本地快12倍，支持8K分辨率+16K纹理无压力Eevee实时渲染：集群同步输出预览动画，帧间延迟控制在0.5秒内，迭代效率提升300%插件无缝衔接：自动适配GeoNodes节点树、Hair粒子系统，流体模拟缓存文件完整同步✅效率与成本双突破二、5步上云流程（新手友好版）文件预处
【AI 赋能：Python 人工智能应用实战】5. 梯度下降家族：SGD/Adam优化器对比实验与选择策略 AI_DL_CODE 人工智能 python 梯度下降优化器 SGD Adam PyTorch
摘要：本文系统解析梯度下降优化器的核心原理与演进脉络，构建从理论到实战的完整知识体系。理论部分梳理优化器发展里程碑，从1951年的SGD到2018年的AdamW，揭示技术迭代逻辑；通过数学公式对比SGD、Momentum、Adam等核心算法的更新机制，解析动量加速、自适应学习率的创新点。结合损失曲面分析，阐释Momentum如何逃离鞍点、Adam如何处理悬崖梯度。实战模块基于PyTorch在MNI
使用UV管理PyTorch项目
PyTorch是深度学习研究和开发的流行选择。可以使用uv管理PyTorch项目，包括不同Python版本依赖、管理环境、甚至加速器选择等。安装Pytorch从打包角度来看，PyTorch有几个不常见的特点：许多PyTorchwheel托管在专门的索引上，而非Python包索引（PyPI）。因此，安装PyTorch通常需要配置项目使用PyTorch专属索引。PyTorch为每种加速器生成不同的构建
AI新纪元：2025年深度学习技术突破与行业应用全景像素笔记杂谈人工智能深度学习 ai 自动驾驶工业数字化转型未来趋势技术创新
2025年，人工智能技术迎来爆发式增长，大模型、生成式AI和多模态技术持续突破，人形机器人量产元年正式开启，自动驾驶商业化进程加速，工业数字化转型全面铺开。这些进展不仅重塑了技术边界，更在多个行业创造了实际价值，推动AI从实验室走向产业化。本文将深入剖析2025年深度学习与AI领域的核心技术突破、行业应用案例及未来发展趋势，为技术从业者提供全面视角。一、深度学习核心技术突破：大模型、生成式AI与多
PyTorch的基础概念和复杂模型的基本使用香蕉可乐荷包蛋 AI大模型项目中的使用 pytorch 人工智能 python
文章目录一、PyTorch基础概念二、复杂模型的学习使用一、PyTorch基础概念张量（Tensor）操作：张量是PyTorch中的基本数据结构，类似于NumPy的数组，但支持GPU加速常见操作包括创建张量、张量运算、索引、切片等importtorch#创建张量x=torch.randn(3,4)y=torch.zeros(3,4)#张量运算z=x+y自动求导（Autograd）：PyTorch的
也有从认错人开始的恋爱【日剧/1080p超清日语中字】也有从认错人开始的恋爱全集免费在线观看未删减完整版夸克网盘高清迅雷网盘百度云（2024新日腐） e95cfad15310
2024年，日剧市场再次迎来了让人心跳加速的浪漫爱情故事——《从认错人开始的爱情》。这部新日腐作品，以其精致的画面、感人的剧情和甜到发腻的CP组合，迅速吸引了广大观众的目光。《从认错人开始的爱情》2024新日腐，超清1080p，浪漫故事触动人心故事讲述了一对在偶然的机会下相识的男女，因为一系列误会和搞笑的事件，逐渐走进彼此的生活，最终发展出一段令人动容的爱情故事。这部日剧以其独特的视角，展现了从相
自己开发QEMU硬件模拟器 - 概念篇 EE工程师硬件仿真模拟 arm开发嵌入式硬件 c语言开源软件
前言-独特的软件开发在正式写这篇博客前，我想给读者分享一篇新思科技SYNOPSYS的文章《虚拟原型设计:加速SoC的关键嵌入式软件开发》中的一段，完整的内容读者可查看链接：虚拟原型设计:加速SoC的关键嵌入式软件开发在现代SoC设计中，整个设计过程中软件开发部分的时间和成本很容易超过硬件部分。除此之外，设计性能直接受到器件上运行的软件的影响，因此验证和优化嵌入式软件的性能和功耗至关重要。但是，
机器学习专栏（62）：手把手实现工业级ResNet-34及调优全攻略
目录一、ResNet革命性突破解析1.1残差学习核心思想1.2ResNet-34结构详解二、工业级Keras实现详解2.1数据预处理流水线2.2完整模型实现三、模型训练调优策略3.1学习率动态调整3.2混合精度训练四、性能优化技巧4.1分布式训练配置4.2TensorRT推理加速五、实战应用案例5.1医疗影像分类5.2工业质检系统六、模型可视化分析6.1特征热力图6.2参数量分析七、常见问题解决方
docker镜像加速源配置，目前可用镜像源列举(10月10日更新最新可用)
1.前提背景：这里列举一下目前暂且可用的镜像源，滑到最下方查看最新9月19日更新(9月18日测试阿里云的个人镜像服务可以正常使用，建议使用阿里云的个人镜像服务)9月24日测试阿里云个人镜像服务挂掉，互联网寒冬了属于10月8日正式上班后，扒了下外网的论坛，发现有个开发者自己搭建了个服务器，速度还不错，为爱发电的，如果感觉好的话可以去这个开发者的官网赞助一下，支持下这个开发者。（不是广告哈）10月10
2025年最新可用！Docker/DockerHub 国内镜像源/加速列表珍藏教育 docker java 容器
Docker镜像库Docker镜像库是一个用于存储和分发Docker镜像的服务。Docker镜像是一个包含应用程序及其依赖项的只读模板，可以用来创建Docker容器。Docker镜像库可以帮助开发者和团队共享和管理这些镜像。可用的docker镜像地址DockerHub镜像仓库镜像加速器地址https://docker.xuanyuan.mehttps://docker.1ms.run镜像使用说明h
log4j对象改变日志级别 3213213333332132 java log4j level log4j对象名称日志级别
log4j对象改变日志级别可批量的改变所有级别，或是根据条件改变日志级别。 log4j配置文件： log4j.rootLogger=ERROR,FILE,CONSOLE,EXECPTION #log4j.appender.FILE=org.apache.log4j.RollingFileAppender log4j.appender.FILE=org.apache.l
elk+redis 搭建nginx日志分析平台 ronin47 elasticsearch kibana logstash
elk+redis 搭建nginx日志分析平台 logstash,elasticsearch,kibana 怎么进行nginx的日志分析呢？首先，架构方面，nginx是有日志文件的，它的每个请求的状态等都有日志文件进行记录。其次，需要有个队列，redis的l
Yii2设置时区 dcj3sjt126com PHP timezone yii2
时区这东西，在开发的时候，你说重要吧，也还好，毕竟没它也能正常运行，你说不重要吧，那就纠结了。特别是linux系统，都TMD差上几小时，你能不痛苦吗？win还好一点。有一些常规方法，是大家目前都在采用的1、php.ini中的设置，这个就不谈了，2、程序中公用文件里设置，date_default_timezone_set一下时区3、或者。。。自己写时间处理函数，在遇到时间的时候，用这个函数处理（比较
js实现前台动态添加文本框，后台获取文本框内容 171815164 文本框
<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://w
持续集成工具 g21121 持续集成
持续集成是什么？我们为什么需要持续集成？持续集成带来的好处是什么？什么样的项目需要持续集成？... 持续集成(Continuous integration ,简称CI)，所谓集成可以理解为将互相依赖的工程或模块合并成一个能单独运行
数据结构哈希表(hash)总结永夜-极光数据结构
1.什么是hash 来源于百度百科: Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入，通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，所以不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
乱七八糟程序员是怎么炼成的
eclipse中的jvm字节码查看插件地址： http://andrei.gmxhome.de/eclipse/ 安装该地址的outline 插件后重启，打开window下的view下的bytecode视图 http://andrei.gmxhome.de/eclipse/ jvm博客： http://yunshen0909.iteye.com/blog/2
职场人伤害了“上司” 怎样弥补 aijuans 职场
由于工作中的失误，或者平时不注意自己的言行“伤害”、“得罪”了自己的上司，怎么办呢？　　在职业生涯中这种问题尽量不要发生。下面提供了一些解决问题的建议：　　一、利用一些轻松的场合表示对他的尊重　　即使是开明的上司也很注重自己的权威，都希望得到下属的尊重，所以当你与上司冲突后，最好让不愉快成为过去，你不妨在一些轻松的场合，比如会餐、联谊活动等，向上司问个好，敬下酒，表示你对对方的尊重，
深入浅出url编码 antonyup_2006 应用服务器浏览器 servlet weblogic IE
出处：http://blog.csdn.net/yzhz 杨争 http://blog.csdn.net/yzhz/archive/2007/07/03/1676796.aspx 一、问题：编码问题是JAVA初学者在web开发过程中经常会遇到问题，网上也有大量相关的
建表后创建表的约束关系和增加表的字段百合不是茶标的约束关系增加表的字段
下面所有的操作都是在表建立后操作的,主要目的就是熟悉sql的约束,约束语句的万能公式 1,增加字段(student表中增加姓名字段) alter table 增加字段的表名 add 增加的字段名增加字段的数据类型 alter table student add name varchar2(10); &nb
Uploadify 3.2 参数属性、事件、方法函数详解 bijian1013 JavaScript uploadify
一.属性属性名称默认值说明 auto true 设置为true当选择文件后就直接上传了，为false需要点击上传按钮才上传。 buttonClass ” 按钮样式 buttonCursor ‘hand’ 鼠标指针悬停在按钮上的样子 buttonImage null 浏览按钮的图片的路
精通Oracle10编程SQL(16)使用LOB对象 bijian1013 oracle 数据库 plsql
/* *使用LOB对象 */ --LOB(Large Object)是专门用于处理大对象的一种数据类型，其所存放的数据长度可以达到4G字节 --CLOB/NCLOB用于存储大批量字符数据，BLOB用于存储大批量二进制数据，而BFILE则存储着指向OS文件的指针 /* *综合实例 */ --建立表空间 --#指定区尺寸为128k,如不指定，区尺寸默认为64k CR
【Resin一】Resin服务器部署web应用 bit1129 resin
工作中，在Resin服务器上部署web应用，通常有如下三种方式：配置多个web-app 配置多个http id 为每个应用配置一个propeties、xml以及sh脚本文件配置多个web-app 在resin.xml中,可以为一个host配置多个web-app <cluster id="app&q
red5简介及基础知识白糖_ 基础
简介 Red5的主要功能和Macromedia公司的FMS类似，提供基于Flash的流媒体服务的一款基于Java的开源流媒体服务器。它由Java语言编写，使用RTMP作为流媒体传输协议，这与FMS完全兼容。它具有流化FLV、MP3文件，实时录制客户端流为FLV文件，共享对象，实时视频播放、Remoting等功能。用Red5替换FMS后,客户端不用更改可正
angular.fromJson boyitech AngularJS AngularJS 官方API AngularJS API
angular.fromJson 描述: 把Json字符串转为对象使用方法: angular.fromJson(json); 参数详解: Param Type Details json string JSON 字符串返回值: 对象, 数组, 字符串或者是一个数字示例: <!DOCTYPE HTML> <h
java-颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I bylijinnan java
public class ReverseWords { /** * 题目：颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I.词以空格分隔。 * 要求： * 1.实现速度最快,移动最少 * 2.不能使用String的方法如split,indexOf等等。 * 解答：两次翻转。 */ publ
web实时通讯 Chen.H Web 浏览器 socket 脚本
关于web实时通讯，做一些监控软件。由web服务器组件从消息服务器订阅实时数据，并建立消息服务器到所述web服务器之间的连接，web浏览器利用从所述web服务器下载到web页面的客户端代理与web服务器组件之间的socket连接，建立web浏览器与web服务器之间的持久连接；利用所述客户端代理与web浏览器页面之间的信息交互实现页面本地更新，建立一条从消息服务器到web浏览器页面之间的消息通路
[基因与生物]远古生物的基因可以嫁接到现代生物基因组中吗? comsci 生物
大家仅仅把我说的事情当作一个IT行业的笑话来听吧..没有其它更多的意思如果我们把大自然看成是一位伟大的程序员,专门为地球上的生态系统编制基因代码,并创造出各种不同的生物来,那么6500万年前的程序员开发的代码,是否兼容现代派的程序员的代码和架构呢?
oracle 外部表 daizj oracle 外部表 external tables
oracle外部表是只允许只读访问，不能进行DML操作，不能创建索引，可以对外部表进行的查询，连接，排序，创建视图和创建同义词操作。 you can select, join, or sort external table data. You can also create views and synonyms for external tables. Ho
aop相关的概念及配置 daysinsun AOP
切面(Aspect): 通常在目标方法执行前后需要执行的方法（如事务、日志、权限），这些方法我们封装到一个类里面，这个类就叫切面。连接点（joinpoint） spring里面的连接点指需要切入的方法，通常这个joinpoint可以作为一个参数传入到切面的方法里面（非常有用的一个东西）。通知（Advice）通知就是切面里面方法的具体实现，分为前置、后置、最终、异常环
初一上学期难记忆单词背诵第二课 dcj3sjt126com english word
middle 中间的，中级的 well 喔，那么；好吧 phone 电话，电话机 policeman 警察 ask 问 take 拿到；带到 address 地址 glad 高兴的，乐意的 why 为什么 China 中国 family 家庭 grandmother (外)祖母 grandfather (外)祖父 wife 妻子 husband 丈夫 da
Linux日志分析常用命令 dcj3sjt126com linux log
1.查看文件内容 cat -n 显示行号 2.分页显示 more Enter 显示下一行空格显示下一页 F 显示下一屏 B 显示上一屏 less /get 查询"get"字符串并高亮显示 3.显示文件尾 tail -f 不退出持续显示 -n 显示文件最后n行 4.显示头文件 head -n 显示文件开始n行 5.内容排序 sort -n 按照
JSONP 原理分析 fantasy2005 JavaScript jsonp jsonp 跨域
转自 http://www.nowamagic.net/librarys/veda/detail/224 JavaScript是一种在Web开发中经常使用的前端动态脚本技术。在JavaScript中，有一个很重要的安全性限制，被称为“Same-Origin Policy”（同源策略）。这一策略对于JavaScript代码能够访问的页面内容做了很重要的限制，即JavaScript只能访问与包含它的
使用connect by进行级联查询 234390216 oracle 查询父子 Connect by 级联
使用connect by进行级联查询 connect by可以用于级联查询，常用于对具有树状结构的记录查询某一节点的所有子孙节点或所有祖辈节点。来看一个示例，现假设我们拥有一个菜单表t_menu，其中只有三个字段：
一个不错的能将HTML表格导出为excel,pdf等的jquery插件 jackyrong jquery插件
发现一个老外写的不错的jquery插件，可以实现将HTML 表格导出为excel,pdf等格式，地址在： https://github.com/kayalshri/ 下面看个例子，实现导出表格到excel,pdf <html> <head> <title>Export html table to excel an
UI设计中我们为什么需要设计动效 lampcy UI UI设计
关于Unity3D中的Shader的知识首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，
如何禁止页面缓存 nannan408 html jsp cache
禁止页面使用缓存~ ------------------------------------------------ jsp:页面no cache： response.setHeader("Pragma","No-cache"); response.setHeader("Cache-Control","no-cach
以代码的方式管理quartz定时任务的暂停、重启、删除、添加等 Everyday都不同定时任务管理 spring-quartz
【前言】在项目的管理功能中，对定时任务的管理有时会很常见。因为我们不能指望只在配置文件中配置好定时任务就行了，因为如果要控制定时任务的 “暂停” 呢？暂停之后又要在某个时间点 “重启” 该定时任务呢？或者说直接 “删除” 该定时任务呢？要改变某定时任务的触发时间呢？ “添加” 一个定时任务对于系统的使用者而言，是不太现实的，因为一个定时任务的处理逻辑他是不
EXT实例 tntxia ext
（1）增加一个按钮 JSP: <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); Stri
数学学习在计算机研究领域的作用和重要性 xjnine Math
最近一直有师弟师妹和朋友问我数学和研究的关系，研一要去学什么数学课。毕竟在清华，衡量一个研究生最重要的指标之一就是paper,而没有数学，是肯定上不了世界顶级的期刊和会议的，这在计算机学界尤其重要！你会发现，不论哪个领域有价值的东西，都一定离不开数学！在这样一个信息时代，当google已经让世界没有秘密的时候，一种卓越的数学思维，绝对可以成为你的核心竞争力. 无奈本人实在见地