weixin_33805992

矩阵LU分解分块算法实现

本文主要描述实现LU分解算法过程中遇到的问题及解决方案，并给出了全部源代码。

1. 什么是LU分解？

矩阵的LU分解源于线性方程组的高斯消元过程。对于一个含有N个变量的N个线性方程组，总可以用高斯消去法，把左边的系数矩阵分解为一个单位下三角矩阵和一个上三角矩阵相乘的形式。这样，求解这个线性方程组就转化为求解两个三角矩阵的方程组。具体的算法细节这里不做过多的描述，有很多的教材和资源可以参考。这里推荐的参考读物如下：

Numerical recipes C++,还有包括MIT的线性代数公开课。

2. LU分解有何用？

LU分解来自线性方程组求解，那么它的直接应用就是快速计算下面这样的矩阵乘法

A^(-1)*B，这是矩阵方程 AX=B 的解
A^(-1)*b，这是线性方程组 Ax=b 的解

A^(-1), 这是矩阵方程AX=E的解，E是单位矩阵。

另外，LU分解之后还可以直接计算方阵的行列式。

3. 分块LU分解算法

如果矩阵很大，采用分块计算能有效减小系统cache miss，这也是很多商业软件的实现方法。分块算法需要根据非分块算法本身重新设计算法流程，而不是简单在代码结构上用分块内存直接去改。线性代数的开源软件有很多，这里我就不枚举了。我主要测试了MATLAB和openCv的实现。MATLAB的矩阵运算的效率是及其高效的，openCv里面调用了著名的LAPACK。大概看了LAPACK的实现，用的也是分块算法。

LU分解的分块算法的文献比较多，我主要参考了下面的两篇文献：

LU分解分快算法的研究与实现

LU分解递归算法的研究

我作了两张图，可以详细的描述算法，这里以应用比较广泛的部分选主元LU块分解算法的执行过程。

图中的画斜线的阴影部分，表示要把当前块LU分解得到的排列矩阵左乘以这部分数据组成的子矩阵，以实现行交换。从上图可以看出，在第一块分解之后，只需要按照排列矩阵交换A12，A22组成的子矩阵，而后面的每一次，则需要交换两个子矩阵。

块LU分解算法主要由4部分构成：

非块的任意瘦型矩阵的LU分解, 行交换，下三角矩阵方程求解, 矩阵乘法.

LU分解来自方阵的三角分解。实际上，任意矩阵都有LU分解。但这里一般需要求解非分块的瘦型矩阵的LU分解，可以采用任意的部分选主元的LU分解算法。但是实现起来仍然有讲究，如果按照LAPACK实现的算法仍然不会快，而采用crout算法实现的结果是很快的。在我的测试中，采用crout算法的1024大小的矩阵非分块的LU分解和LAPACK实现的分块大小为64时的性能相当。LAPACK实现的算法本身是很高效的，但是其代码本身没有做太多的优化。实际上，没有经过任何优化的LAPACK的代码仍然比较慢。

对于行交换，虽然在理论上有个排列矩阵，排列矩阵左乘以矩阵实现行交换，这只是理论上的分析。但实际编程并不能这样做，耗内存，而且大量的零元素存在。一般用一个一维数组存储排列矩阵的非零元素的位置。而原位矩阵多个行交换的快速实现我仍然没有找到有效的方法，我使用了另外一个缓存，这样极其简单。

求解下三角矩阵方程的实现也是有讲究的，主要还是需要改变循环变量的顺序，避免cache miss。

矩阵乘法则是所有线性代数运算的核心。矩阵乘法在LU分块算法中也占据大部分的时间。我会专门写一篇文章来论述本人自己实现的一种独特的方法。

4. 性能指标

经过本人的努力和进一步评估，在单核情况下，LU分解算法的计算时间可以赶上商业软件MATLAB的性能。

5. 实现代码

这里给出分块LU分解的全部代码。

void fast_block_matrix_lu_dec(ivf64* ptr_data, int row, int coln, int stride, iv32u* ipiv, ivf64* ptr_tmp)
{
	int i,j;
	int min_row_coln = FIV_MIN(row, coln);
	iv32u* loc_piv = NULL;
	ivf64 timer_1 = 0;
	ivf64 timer_2 = 0;
	ivf64 timer_3 = 0;
	ivf64 timer_4 = 0;
	if (row < coln){
		return;
	}
	memset(ipiv, 0, sizeof(iv32u) * row);
	if (min_row_coln <= LU_DEC_BLOCK_SIZE){
		fast_un_block_matrix_lu_dec(ptr_data, row, coln, stride, ipiv, ptr_tmp);
		return;
	}
	loc_piv = fIv_malloc(sizeof(iv32u) * row);
	for (j = 0; j < min_row_coln; j += LU_DEC_BLOCK_SIZE){
		ivf64* ptr_A11_data = ptr_data + j * stride + j;
		int jb = FIV_MIN(min_row_coln - j, LU_DEC_BLOCK_SIZE);
		memset(loc_piv, 0, sizeof(iv32u) * (row - j));
		fIv_time_start();
		fast_un_block_matrix_lu_dec(ptr_A11_data, row - j, jb,
				stride, loc_piv, ptr_tmp);
		timer_1 += fIv_time_stop();
		for (i = j; i < FIV_MIN(row, j + jb); i++){
			ipiv[i] = loc_piv[i - j] + j;
		}
		if (j > 0){
			ivf64* ptr_A0 = ptr_data + j * stride;
			fIv_time_start();
			swap_matrix_rows(ptr_A0, row - j, j, stride, loc_piv, row - j);
			timer_2 += fIv_time_stop();
		}
		if (j + jb < row){
			ivf64* arr_mat_data = ptr_A11_data + LU_DEC_BLOCK_SIZE;
			ivf64* ptr_U12 = arr_mat_data;
			ivf64* ptr_A22;
			ivf64* ptr_L21;
			int coln2 = coln - (j + LU_DEC_BLOCK_SIZE);
			if (coln2 > 0){
				fIv_time_start();
				swap_matrix_rows(arr_mat_data, row - j, coln2, stride, loc_piv, row - j);
				low_tri_solve(ptr_A11_data, stride, ptr_U12, LU_DEC_BLOCK_SIZE, coln2, stride);
				timer_3 += fIv_time_stop();
			}
			if (j + jb < coln){
				ptr_L21 = ptr_A11_data + LU_DEC_BLOCK_SIZE * stride;
				ptr_A22 = ptr_L21 + LU_DEC_BLOCK_SIZE;
				fIv_time_start();
				matrix_sub_matrix_mul(ptr_A22, ptr_L21, row - (j +  LU_DEC_BLOCK_SIZE),LU_DEC_BLOCK_SIZE, stride,
								  ptr_U12, coln - (j + jb));
				timer_4 += fIv_time_stop();
			}
		}
	}
	fIv_free(loc_piv);
	printf("unblock time = %lf\n", timer_2);
	printf("swap time = %lf\n", timer_4);
	printf("tri solve time = %lf\n", timer_3);
	printf("mul time = %lf\n", timer_1);
}

void fast_un_block_matrix_lu_dec(ivf64* LU, int m, int n, int stride, iv32s* piv, ivf64* LUcolj)
{
	int pivsign;
	int i,j,k,p;
	ivf64* LUrowi = NULL;
	ivf64* ptrTmp1,*ptrTmp2;
	ivf64 max_value;
	for(i = 0; i <= m - 4; i += 4){
		piv[i + 0] = i;
		piv[i + 1] = i + 1;
		piv[i + 2] = i + 2;
		piv[i + 3] = i + 3;
	}
	for (; i < m; i++){
		piv[i] = i;
	}
	pivsign = 1;
	for(j = 0; j < n; j++){
		ptrTmp1 = &LU[j];
		ptrTmp2 = &LUcolj[0];
		for(i = 0; i <= m - 4; i += 4){
			*ptrTmp2++ = ptrTmp1[i * stride];
			*ptrTmp2++ = ptrTmp1[(i + 1) * stride];
			*ptrTmp2++ = ptrTmp1[(i + 2) * stride];
			*ptrTmp2++ = ptrTmp1[(i + 3) * stride];
		}

		for (; i < m; i++){
			*ptrTmp2++ = ptrTmp1[i * stride];
		}
		for(i = 0; i < m; i++ ){
			ivf64 s = 0;
			int kmax;
			LUrowi = &LU[i * stride];
			kmax = (i < j)? i : j;
#if defined(X86_SSE_OPTED)
			{
				Array1D_mul_sum_real64(LUcolj, kmax, LUrowi, &s);
			}
#else
			for(k = 0; k < kmax; k++){
				s += LUrowi[k] * LUcolj[k];
			}
#endif
			LUrowi[j] = LUcolj[i] -= s;
		}

		// Find pivot and exchange if necessary.
		p = j;
		max_value = fabsl(LUcolj[p]);
		for(i = j + 1; i < m; ++i ){
			ivf64 t = fabsl(LUcolj[i]);
			if (t > max_value){
				max_value = t;
				p = i;
			}
		}

		if( p != j ){
			ptrTmp1 = &LU[p * stride];
			ptrTmp2 = &LU[j * stride];
#if defined(X86_SSE_OPTED)
			{
				__m128d t1,t2,t3,t4,t5,t6,t7,t8;
				for (k = 0; k <= n - 8; k += 8){
		
					t1 = _mm_load_pd(&ptrTmp1[0]);
					t2 = _mm_load_pd(&ptrTmp1[2]);
					t3 = _mm_load_pd(&ptrTmp1[4]);
					t4 = _mm_load_pd(&ptrTmp1[6]);

					t5 = _mm_load_pd(&ptrTmp2[0]);
					t6 = _mm_load_pd(&ptrTmp2[2]);
					t7 = _mm_load_pd(&ptrTmp2[4]);
					t8 = _mm_load_pd(&ptrTmp2[6]);


					_mm_store_pd(&ptrTmp2[0], t1);
					_mm_store_pd(&ptrTmp2[2], t2);
					_mm_store_pd(&ptrTmp2[4], t3);
					_mm_store_pd(&ptrTmp2[6], t4);

					_mm_store_pd(&ptrTmp1[0], t5);
					_mm_store_pd(&ptrTmp1[2], t6);
					_mm_store_pd(&ptrTmp1[4], t7);
					_mm_store_pd(&ptrTmp1[6], t8);

					ptrTmp1 += 8;
					ptrTmp2 += 8;
				}
				for (; k < n; k++){
					FIV_SWAP( ptrTmp1[0], ptrTmp2[0], ivf64);
					ptrTmp1++,ptrTmp2++;
				}
			}
#else
			for(k = 0; k <= n - 4; k += 4 ){
				FIV_SWAP( ptrTmp1[k + 0], ptrTmp2[k + 0], ivf64);
				FIV_SWAP( ptrTmp1[k + 1], ptrTmp2[k + 1], ivf64);
				FIV_SWAP( ptrTmp1[k + 2], ptrTmp2[k + 2], ivf64);
				FIV_SWAP( ptrTmp1[k + 3], ptrTmp2[k + 3], ivf64);
			}
			for (; k < n; k++){
				FIV_SWAP( ptrTmp1[k], ptrTmp2[k], ivf64);
			}
#endif
			k = piv[p];
			piv[p] = piv[j];
			piv[j] = k;
			pivsign = -pivsign;
		}

		if( (j < m) && ( LU[j * stride + j] != 0 )){
			ivf64 t = 1.0 / LU[j * stride + j];
			ptrTmp1 = &LU[j];
			for(i = j + 1; i <= m - 4; i +=4 ){
				ivf64 t1 = ptrTmp1[(i + 0)* stride];
				ivf64 t2 = ptrTmp1[(i + 1) * stride];
				ivf64 t3 = ptrTmp1[(i + 2) * stride];
				ivf64 t4 = ptrTmp1[(i + 3) * stride];

				t1 *= t, t2 *= t, t3 *= t, t4 *= t;

				ptrTmp1[(i + 0) * stride] = t1;
				ptrTmp1[(i + 1) * stride] = t2;
				ptrTmp1[(i + 2) * stride] = t3;
				ptrTmp1[(i + 3) * stride] = t4;

			}
			for(; i < m; i++ ){
				ptrTmp1[i * stride] *= t;
			}
		}
	}
}

void low_tri_solve(ivf64* L, int stride_L, ivf64* U, int row_u, int coln_u, int stride_u)
{
	int i,j,k;
	for (k = 0; k < row_u; k++){
		ivf64* ptr_t2 = &L[k];
		for (i = k + 1; i < row_u; i++){
			ivf64 t3 = ptr_t2[i * stride_L];
			ivf64* ptr_t4 = &U[i * stride_u];
			ivf64* ptr_t1 = &U[k * stride_u];
#if defined(X86_SSE_OPTED)
			__m128d m_t1,m_t2,m_t3,m_t4,m_t5,m_t6,m_t7,m_t8,m_t3_t3;
			m_t3_t3 = _mm_set1_pd(t3);
			for (j = 0; j <= coln_u - 8; j += 8){

				m_t1 = _mm_load_pd(&ptr_t1[0]);
				m_t2 = _mm_load_pd(&ptr_t1[2]);
				m_t3 = _mm_load_pd(&ptr_t1[4]);
				m_t4 = _mm_load_pd(&ptr_t1[6]);

				ptr_t1 += 8;

				m_t1 = _mm_mul_pd(m_t1, m_t3_t3);
				m_t2 = _mm_mul_pd(m_t2, m_t3_t3);
				m_t3 = _mm_mul_pd(m_t3, m_t3_t3);
				m_t4 = _mm_mul_pd(m_t4, m_t3_t3);

				m_t5 = _mm_load_pd(&ptr_t4[0]);
				m_t6 = _mm_load_pd(&ptr_t4[2]);
				m_t7 = _mm_load_pd(&ptr_t4[4]);
				m_t8 = _mm_load_pd(&ptr_t4[6]);

				m_t5 = _mm_sub_pd(m_t5, m_t1);
				m_t6 = _mm_sub_pd(m_t6, m_t2);
				m_t7 = _mm_sub_pd(m_t7, m_t3);
				m_t8 = _mm_sub_pd(m_t8, m_t4);

				_mm_store_pd(&ptr_t4[0], m_t5);
				_mm_store_pd(&ptr_t4[2], m_t6);
				_mm_store_pd(&ptr_t4[4], m_t7);
				_mm_store_pd(&ptr_t4[6], m_t8);

				ptr_t4 += 8;
			}	
#else
			for (j = 0; j <= coln_u - 4; j += 4){
				ptr_t4[0] -= ptr_t1[0]* t3;
				ptr_t4[1] -= ptr_t1[1]* t3;
				ptr_t4[2] -= ptr_t1[2]* t3;
				ptr_t4[3] -= ptr_t1[3]* t3;
				ptr_t1 += 4;
				ptr_t4 += 4;

			}
#endif
			for (; j < coln_u; j++){
				ptr_t4[0] -= ptr_t1[0]* t3;
				ptr_t1++,ptr_t4++;
			}
			
		}
	}
}

static ivf64* ptr_arr_t = NULL;
void swap_matrix_rows(ivf64* arr_data, int m, int n, int stride, iv32u* pivt, int pivt_size)
{
	int i,j;

	int loc_stride = n + (n & 1);

	if (loc_stride < LU_DEC_BLOCK_SIZE){
		loc_stride = LU_DEC_BLOCK_SIZE;
	}
	if (ptr_arr_t == NULL){
		ptr_arr_t = fIv_malloc(loc_stride * sizeof(ivf64) * m);
	}

	for (i = 0; i < m; i++){
		ivf64* ptr_src = arr_data + i * stride;
		ivf64* ptr_dst = ptr_arr_t + i * loc_stride;
#if defined(X86_SSE_OPTED)
		__m128d t1,t2,t3,t4,t5,t6,t7,t8;
		for (j = 0; j <= n - 16; j += 16){

			t1 = _mm_load_pd(&ptr_src[0]);
			t2 = _mm_load_pd(&ptr_src[2]);
			t3 = _mm_load_pd(&ptr_src[4]);
			t4 = _mm_load_pd(&ptr_src[6]);
			t5 = _mm_load_pd(&ptr_src[8]);
			t6 = _mm_load_pd(&ptr_src[10]);
			t7 = _mm_load_pd(&ptr_src[12]);
			t8 = _mm_load_pd(&ptr_src[14]);
			ptr_src += 16;

			_mm_store_pd(&ptr_dst[0], t1);
			_mm_store_pd(&ptr_dst[2], t2);
			_mm_store_pd(&ptr_dst[4], t3);
			_mm_store_pd(&ptr_dst[6], t4);
			_mm_store_pd(&ptr_dst[8], t5);
			_mm_store_pd(&ptr_dst[10], t6);
			_mm_store_pd(&ptr_dst[12], t7);
			_mm_store_pd(&ptr_dst[14], t8);
			ptr_dst += 16;
		}

		for (; j < n; j++){
			*ptr_dst++ = *ptr_src++;

		}
#else
		memcpy(ptr_dst, ptr_src, n * sizeof(ivf64));
#endif
	}
	for (i = 0; i < m; i++){
		ivf64* ptr_src = ptr_arr_t + pivt[i] * loc_stride;
		ivf64* ptr_dst = arr_data + i * stride;
#if defined(X86_SSE_OPTED)
		__m128d t1,t2,t3,t4,t5,t6,t7,t8;
		for (j = 0; j <= n - 16; j += 16){

			t1 = _mm_load_pd(&ptr_src[0]);
			t2 = _mm_load_pd(&ptr_src[2]);
			t3 = _mm_load_pd(&ptr_src[4]);
			t4 = _mm_load_pd(&ptr_src[6]);
			t5 = _mm_load_pd(&ptr_src[8]);
			t6 = _mm_load_pd(&ptr_src[10]);
			t7 = _mm_load_pd(&ptr_src[12]);
			t8 = _mm_load_pd(&ptr_src[14]);
			ptr_src += 16;

			_mm_store_pd(&ptr_dst[0], t1);
			_mm_store_pd(&ptr_dst[2], t2);
			_mm_store_pd(&ptr_dst[4], t3);
			_mm_store_pd(&ptr_dst[6], t4);
			_mm_store_pd(&ptr_dst[8], t5);
			_mm_store_pd(&ptr_dst[10], t6);
			_mm_store_pd(&ptr_dst[12], t7);
			_mm_store_pd(&ptr_dst[14], t8);
			ptr_dst += 16;
		}

		for (; j < n; j++){
			*ptr_dst++ = *ptr_src++;

		}
#else
		memcpy(ptr_dst, ptr_src, n * sizeof(ivf64));
#endif
	}

}

void matrix_sub_matrix_mul(real64* A22, real64* L21, int row_L21,int col_L21, int stirde,
						   real64* U12, int col_U21)
{
	int i,j,k;

	for (j = 0; j < row_L21; j++){

		real64* pTmp_A = &L21[j * stirde]; 
		real64* pTmp_C0 = &A22[j * stirde];

		for (k = 0; k < col_L21; k++){
			real64 t_A_d =  -pTmp_A[k];     
			real64* pTmp_B = &U12[k * stirde];  
			for (i = 0; i <= col_U21 - 4; i += 4){

				pTmp_C0[i + 0] += t_A_d * pTmp_B[i + 0];
				pTmp_C0[i + 1] += t_A_d * pTmp_B[i + 1];
				pTmp_C0[i + 2] += t_A_d * pTmp_B[i + 2];
				pTmp_C0[i + 3] += t_A_d * pTmp_B[i + 3];

			}
			for (; i < col_U21; i++){
				pTmp_C0[i] += t_A_d * pTmp_B[i];
			}
		}
	}
}

转载于:https://www.cnblogs.com/celerychen/p/3967049.html

前端项目架构设计要领
1.架构设计的核心目标在设计前端项目架构时，核心目标是模块化、可维护、可扩展、可测试，以及开发效率的最大化。这些目标可以通过以下几个方面来实现：组件化：将UI功能封装为可复用的组件。模块化：将业务逻辑分解为独立的模块或服务。自动化构建与部署：实现自动化构建、测试和部署流程，减少人为操作的错误。代码规范化与检查：确保团队协作时，代码风格和质量一致。2.项目目录结构设计一个清晰合理的目录结构对大型项目
基于架构的软件设计（Architecture-Based Software Design，ABSD）是一种以架构为核心的软件开发方法
ABSD方法与生命周期基于架构的软件设计（Architecture-BasedSoftwareDesign，ABSD）是一种以架构为核心的软件开发方法，强调在开发的各个阶段都要以架构为中心，确保系统的整体结构和质量属性得到有效管理。ABSD方法是一个自顶向下、递归细化的过程，软件系统的架构通过该方法得到细化，直到能产生软件构件和类。ABSD方法的三个基础功能的分解：使用基于模块的内聚和耦合技术，将
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
matlab卷积矩阵绝对值,MATLAB矩阵分析和计算 weixin_39928736 matlab卷积矩阵绝对值
MATLAB矩阵分析和计算编辑锁定讨论上传视频本词条缺少概述图，补充相关内容使词条更完整，还能快速升级，赶紧来编辑吧！《MATLAB矩阵分析和计算》是清华大学出版社出版的一本图书。[1]书名MATLAB矩阵分析和计算作者杜树春出版社清华大学出版社出版时间2019年6月1日定价59元ISBN9787302524816印次1-1印刷日期2019.04.23MATLAB矩阵分析和计算图书内容编辑本书侧重
【证明】对极几何：本质矩阵内在性质 Powerful_QI slam 线性代数矩阵
--这是目录--1.本质矩阵内在性质表述2.预备知识2.1线性代数基础2.1.1奇异值与特征值的关系2.1.2矩阵加减单位阵后特征值的变化2.2引理：一个常用的矩阵变换3.证明1.本质矩阵内在性质表述本质矩阵(EssentialMatrix)EEE是一个3阶方阵，满足E=t∧RE=t^{\land}RE=t∧R其中RRR为旋转矩阵，ttt为平移量，t∧t^{\land}t∧运算定义如下（参考了
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
LLM的表征做减法的是什么，自然语言是一个矩阵，怎么进行减法的 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 计算机视觉人工智能机器学习算法深度学习
LLM的表征做减法的是什么，自然语言是一个矩阵，怎么进行减法的有个假设：就是最后一个词语融合了前面词语的信息减法操作主要用于提取模型内部表征中的"诚实性"概念向量。具体来说，这是通过对比诚实和不诚实场景下的模型隐藏状态实现的。importtorchfromtransformersimportAutoModelForCausalLM,AutoTokenizer,AutoConfigimportnum
2025年渗透测试面试题总结-2025年HW(护网面试) 43（题目+回答）独行soc 2025年护网面试职场和发展 linux 科技渗透测试安全护网
安全领域各种资源，学习文档，以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各种好玩的项目及好用的工具，欢迎关注。目录2025年HW(护网面试)431.自我介绍与职业规划2.Webshell源码级检测方案3.2025年新型Web漏洞TOP54.渗透中的高价值攻击点5.智能Fuzz平台架构设计6.堆栈溢出攻防演进7.插桩技术实战应用8.二进制安全能力矩阵9.C语言内存管理精要10.Pyth
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
比亚迪创新脉冲自加热技术深度解析百态老人算法数据库
一、技术原理与核心创新比亚迪脉冲自加热技术通过电池包内部能量闭环利用实现低温环境下的高效自加热，其核心原理可分解为以下三级机制：内阻产热机制将电池包物理分割为两组（A/B），通过高频充放电（频率达数百Hz）使电流流经高内阻电芯产生焦耳热。在-30℃环境下，电池内阻可升高至常温的3-4倍，此时焦耳热功率密度可达：P=I2⋅Rint（其中I为脉冲电流，Rint为低温内阻）P=I^2\cdotR_{in
LeetCode第317题_离建筑物最近的距离 @蓝莓果粒茶算法 leetcode linux 算法 c#学习 python c++
LeetCode第317题：离建筑物最近的距离文章摘要本文详细解析LeetCode第317题"离建筑物最近的距离"，这是一道图论和广度优先搜索的问题。文章提供了基于多源BFS的解法，包含C#、Python、C++三种语言实现，配有详细的算法分析和性能对比。适合想要提升图论算法能力的程序员。核心知识点：广度优先搜索、图论、矩阵遍历难度等级：困难推荐人群：具有图论基础，想要提升算法能力的程序员题目描述
学习笔记(33):matplotlib绘制简单图表-绘制混淆矩阵热图宁儿数据安全 #机器学习学习笔记 matplotlib
学习笔记(33):matplotlib绘制简单图表-绘制混淆矩阵热图一、绘制混淆矩阵热图代码解析1.1、导入必要的库importmatplotlib.pyplotaspltfromsklearn.metricsimportconfusion_matriximportseabornassnsmatplotlib.pyplot：Python中最常用的绘图库，用于创建各种图表confusion_matr
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
FPS手游逆向分析--------矩阵柠檬味的榴莲 FPS手游的一些逆向分析矩阵线性代数 python
寻找游戏矩阵谈谈个人对于矩阵的理解:所谓矩阵就是相机即人物视角当今的游戏人物的移动分为两部分：游戏世界中的人物在移动和相机的移动相机的移动使得玩家可以跟得上人物的行动如果游戏中的人物在移动，相应的相机也会移动同样的转动视角其实就是在转动相机人物前后移动相机也会动。那我们是不是可以利用不断地改变矩阵来搜索游戏中变动的值从而找到矩阵呢。Ofcourse但是如果你拿来一个矩阵demo你就会发现，前后移动
FPS手游逆向分析--------矩阵的精确定位柠檬味的榴莲 FPS手游的一些逆向分析矩阵线性代数
2.1精确定位矩阵通过上述步骤我们找到了矩阵，但矩阵确会在每次打开游戏后由于内存的分配而重新加载，如何实现自动寻找矩阵便是我们要考虑的问题2.1.1通过特征码定位矩阵所谓特征码就是总出现在变动值附近的不变动的值与上文的通用特征码不同定位矩阵的特征码在不同的游戏中是不一样的矩阵16条的第一条就是矩阵头部主特征码是相对于矩阵头部计算的偏移副特征码是相对于主特征码计算的偏移填入模板即可模板特征码定位矩阵
任鸟飞FPS类型游戏绘制,骨骼,u3d,UE4和游戏安全,反外挂研究 (三) 任鸟飞逆向~ FPS C语言网络安全 3d 游戏 ue4
书接上文,我们非矩阵的方式绘制是没有那么的精确的在学习矩阵之前,我们先来了解下绘制的几种方法绘制的几种方法和反外挂建议第一种hookd3d/opengl优点:不闪,代码简单缺点:非常容易被检测第二种窗口上自行绘制,但是会闪优缺点适中第三种自建透明窗口,覆盖游戏窗口,透明窗口上绘制优点:稳定确定:代码复杂,会闪反外挂:无非就是针对外挂使用的函数进行检测深入学习矩阵对象的世界坐标列向量xyzw(w为了
资源分享-FPS, 矩阵, 骨骼, 绘制, 自瞄, U3D, UE4逆向辅助实战视频教程小零羊矩阵 3d ue4
文章底部获取资源教程概述本视频教程专为游戏开发者和安全研究人员设计，涵盖FPS游戏设计、矩阵运算、骨骼绘制、自瞄算法、U3D和UE4逆向辅助等实战内容。通过102节详细视频教程，您将掌握从基础到高级的游戏开发与安全防护技能。教程内容1.FPS类型游戏的设计研究和游戏安全,反外挂研究2.二维向量和平面距离3.atan2和tan4.三维向量和空间距离5.补充向量乘法6.矩阵和矩阵的运算7.矩阵的特性8
傅里叶级数分解问题
题目问题1.在区间[−l,l][-l,l][−l,l]上分解为完整傅里叶级数：(a)ezxe^{zx}ezx，其中z∈Cz\in\mathbb{C}z∈C；找出zzz的“例外”值；(b)cos⁡(ωx)\cos(\omegax)cos(ωx)，sin⁡(ωx)\sin(\omegax)sin(ωx)，其中00(\etal)^2+(n\pi)^2>0(ηl)2+(nπ)2>0对所有n≥1n\geq1
Java设计模式之行为型模式（策略模式）介绍与说明爪哇手记 #Java知识点 java 设计模式策略模式
一、策略模式简介策略模式（StrategyPattern）是一种行为型设计模式，它定义了一系列算法，并将每个算法封装起来，使它们可以相互替换，且算法的变化不会影响使用算法的客户。策略模式让算法独立于使用它的客户而变化，属于对象行为型模式。其核心思想是将算法的定义与使用分离，通过接口或抽象类来定义算法族，具体算法实现由具体策略类完成，客户端可以根据需要选择合适的策略。二、策略模式的结构抽象策略（St
每日一题3239.最少翻转次数使二进制矩阵回文；
本题出自LeetCode每日一题3239.最少翻转次数使二进制矩阵回文，初看想着就是一道暴力破解，双指针强硬遍历一横一竖题目给你一个mxn的二进制矩阵grid。如果矩阵中一行或者一列从前往后与从后往前读是一样的，那么我们称这一行或者这一列是回文的。你可以将grid中任意格子的值翻转，也就是将格子里的值从0变成1，或者从1变成0。请你返回最少翻转次数，使得矩阵要么所有行是回文的，要么所有列是回文的。
稀土-高分子复合材料：新一代功能材料的突破 DeepCeLa 稀土稀土科技磷酸镧
稀土元素（镧系及钪、钇）凭借其特殊的4f电子构型，在高分子材料改性中展现出独特价值。通过配位键合、物理掺杂或纳米复合等技术，稀土与聚合物基体结合可显著提升材料综合性能，并赋予多种特殊功能。一、核心优势稳定性升级：稀土离子（如Ce³⁺/Ce⁴⁺）通过捕获自由基和紫外光子，使材料热分解温度提升30-50℃，紫外耐受性提高5-8倍，适用于极端环境下的工程塑料。力学强化：稀土配合物可诱导聚合物结晶度提升，
Pandas 学习教程 _pass_ Data-Alaysis pandas 信息可视化
目录定义基本操作一维数组操作二维数组操作数据选择过滤数据处理数据清洗数据转换数据分析排序分组聚合数据透视表高级操作合并数据时间序列处理自定义函数调用数据可视化集成数据导出和导入大数据分块处理定义全称：'paneldata'and'pythondataanalysis'Analy:Series(一维数据)、DataFrame(二维数据)主要应用：数据清洗：处理缺失数据、重复数据等数据转换：改变数据的
二微矩阵碰撞检测 walterCui Unity3d
采用的是左下角为原点.//左上(x,y)右下(z,w).返回val2和val1是否发生碰撞,如果碰撞返回val2相对val1的位置1上2下4右8左.inttest(Vector4val1,Vector4val2){boolret=true;//if(val2.x>val1.x&&val2.x>val1.z)//ret=false;//elseif(val1.x>val2.x&&val1.x>val
动态时间规整（Dynamic Time Warping，DTW）补充案例 EmorZhong python 人工智能机器学习算法动态规划
DTW的边界条件是确保累积距离矩阵计算“有起点、有规则”的基础，它规定了矩阵中第一行和第一列的累积距离如何计算（因为这两行/列是路径的“起点边缘”，没有“上一步”的全部选择）。下面结合具体场景和例子展开说明：为什么需要边界条件？累积距离矩阵(D[i][j])的核心递归公式是：[D[i][j]=\text{dist}[i][j]+\min\left(D[i-1][j],\D[i][j-1],\D[i
深度学习预备知识 AmazingMQ 深度学习人工智能
1.Tensor张量定义：张量（tensor）表示一个由数值组成的数组，这个数组可能有多个维度（轴）。具有一个轴的张量对应数学上的向量，具有两个轴的张量对应数学上的矩阵，具有两个以上轴的张量目前没有特定的数学名称。importtorch#arange创建一个行向量x，这个行向量包含以0开始的前12个整数。x=torch.arange(12)print("x=",x)#x=tensor([0,1,2
视频号账号矩阵运营中定制开发开源 AI 智能名片 S2B2C 商城小程序的赋能研究说私域矩阵开源人工智能
摘要：本文聚焦于视频号运营者在打造账号矩阵过程中面临的微信号与粉丝管理难题。随着粉丝数量增长，传统管理方式力不从心，虽已有聚客通等社交用户管理平台提供一定助力，但仍存在局限性。本文引入定制开发开源AI智能名片S2B2C商城小程序，深入探讨其在视频号账号矩阵运营中的独特价值与赋能作用。通过分析其技术特性、功能优势以及与视频号运营的融合模式，旨在为视频号运营者提供更高效、精准的粉丝管理与商业运营解决方
力扣-73题矩阵置零（C++） JIngles123 #中等题
题目链接：https://leetcode-cn.com/problems/set-matrix-zeroes/题目如下：classSolution{public:voidsetZeroes(vector>&matrix){introw=matrix.size();intcol=matrix[0].size();vectorpos;//x0,y0,x1,y1,x2,y2...//通过一维数组的方式
力扣---矩阵置零 53488736abcdefg leetcode 矩阵算法
给定一个mxn的矩阵，如果一个元素为0，则将其所在行和列的所有元素都设为0。请使用原地算法。示例1：输入：matrix=[[1,1,1],[1,0,1],[1,1,1]]输出：[[1,0,1],[0,0,0],[1,0,1]]示例2：
第6章算法题 July尘深度优先算法
（1）分别以邻接矩阵和邻接表作为存储结构，实现以下图的基本操作：①增加一个新顶点v，InsertVex(G,v)；②删除顶点v及其相关的边，DeleteVex(G,v);③增加一条边，InsertArc(G,v,w);④删除一条边，DeleteArc(G,v,w)。[算法描述]假设图G为有向无权图，以邻接矩阵作为存储结构四个算法分别如下：①增加一个新顶点vStatusInsert_Vex(MGra
前沿交叉：Fluent与深度学习驱动的流体力学计算体系 m0_75133639 流体力学深度学习人工智能航空航天 fluent 流体力学材料科学 CFD
基础模块流体力学方程求解1、不可压缩N-S方程数值解法（有限差分/有限元/伪谱法）·Fluent工业级应用：稳态/瞬态流、两相流仿真（圆柱绕流、入水问题）·Tecplot流场可视化与数据导出2、CFD数据的AI预处理·基于PCA/SVD的流场数据降维·特征值分解与时空特征提取深度学习核心3.物理机理嵌入的神经网络架构·物理信息神经网络（PINN）：将N-S方程嵌入损失函数（JAX框架实现）·神经常
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http

矩阵LU分解分块算法实现

你可能感兴趣的:(矩阵LU分解分块算法实现)