celerychen2009

矩阵LU分解分块算法实现

本文主要描述实现LU分解算法过程中遇到的问题及解决方案，并给出了全部源代码。

1. 什么是LU分解？

矩阵的LU分解源于线性方程组的高斯消元过程。对于一个含有N个变量的N个线性方程组，总可以用高斯消去法，把左边的系数矩阵分解为一个单位下三角矩阵和一个上三角矩阵相乘的形式。这样，求解这个线性方程组就转化为求解两个三角矩阵的方程组。具体的算法细节这里不做过多的描述，有很多的教材和资源可以参考。这里推荐的参考读物如下：

Numerical recipes C++,还有包括MIT的线性代数公开课。

2. LU分解有何用？

LU分解来自线性方程组求解，那么它的直接应用就是快速计算下面这样的矩阵乘法

A^(-1)*B，这是矩阵方程 AX=B 的解
A^(-1)*b，这是线性方程组 Ax=b 的解

A^(-1), 这是矩阵方程AX=E的解，E是单位矩阵。

另外，LU分解之后还可以直接计算方阵的行列式。

3. 分块LU分解算法

如果矩阵很大，采用分块计算能有效减小系统cache miss，这也是很多商业软件的实现方法。分块算法需要根据非分块算法本身重新设计算法流程，而不是简单在代码结构上用分块内存直接去改。线性代数的开源软件有很多，这里我就不枚举了。我主要测试了MATLAB和openCv的实现。MATLAB的矩阵运算的效率是及其高效的，openCv里面调用了著名的LAPACK。大概看了LAPACK的实现，用的也是分块算法。

LU分解的分块算法的文献比较多，我主要参考了下面的两篇文献：

LU分解分快算法的研究与实现

LU分解递归算法的研究

我作了两张图，可以详细的描述算法，这里以应用比较广泛的部分选主元LU块分解算法的执行过程。

图中的画斜线的阴影部分，表示要把当前块LU分解得到的排列矩阵左乘以这部分数据组成的子矩阵，以实现行交换。从上图可以看出，在第一块分解之后，只需要按照排列矩阵交换A12，A22组成的子矩阵，而后面的每一次，则需要交换两个子矩阵。

块LU分解算法主要由4部分构成：

非块的任意瘦型矩阵的LU分解, 行交换，下三角矩阵方程求解, 矩阵乘法.

LU分解来自方阵的三角分解。实际上，任意矩阵都有LU分解。但这里一般需要求解非分块的瘦型矩阵的LU分解，可以采用任意的部分选主元的LU分解算法。但是实现起来仍然有讲究，如果按照LAPACK实现的算法仍然不会快，而采用crout算法实现的结果是很快的。在我的测试中，采用crout算法的1024大小的矩阵非分块的LU分解和LAPACK实现的分块大小为64时的性能相当。LAPACK实现的算法本身是很高效的，但是其代码本身没有做太多的优化。实际上，没有经过任何优化的LAPACK的代码仍然比较慢。

对于行交换，虽然在理论上有个排列矩阵，排列矩阵左乘以矩阵实现行交换，这只是理论上的分析。但实际编程并不能这样做，耗内存，而且大量的零元素存在。一般用一个一维数组存储排列矩阵的非零元素的位置。而原位矩阵多个行交换的快速实现我仍然没有找到有效的方法，我使用了另外一个缓存，这样极其简单。

求解下三角矩阵方程的实现也是有讲究的，主要还是需要改变循环变量的顺序，避免cache miss。

矩阵乘法则是所有线性代数运算的核心。矩阵乘法在LU分块算法中也占据大部分的时间。我会专门写一篇文章来论述本人自己实现的一种独特的方法。

4. 性能指标

经过本人的努力和进一步评估，在单核情况下，LU分解算法的计算时间可以赶上商业软件MATLAB的性能。

5. 实现代码

这里给出分块LU分解的全部代码。

void fast_block_matrix_lu_dec(ivf64* ptr_data, int row, int coln, int stride, iv32u* ipiv, ivf64* ptr_tmp)
{
	int i,j;
	int min_row_coln = FIV_MIN(row, coln);
	iv32u* loc_piv = NULL;
	ivf64 timer_1 = 0;
	ivf64 timer_2 = 0;
	ivf64 timer_3 = 0;
	ivf64 timer_4 = 0;
	if (row < coln){
		return;
	}
	memset(ipiv, 0, sizeof(iv32u) * row);
	if (min_row_coln <= LU_DEC_BLOCK_SIZE){
		fast_un_block_matrix_lu_dec(ptr_data, row, coln, stride, ipiv, ptr_tmp);
		return;
	}
	loc_piv = fIv_malloc(sizeof(iv32u) * row);
	for (j = 0; j < min_row_coln; j += LU_DEC_BLOCK_SIZE){
		ivf64* ptr_A11_data = ptr_data + j * stride + j;
		int jb = FIV_MIN(min_row_coln - j, LU_DEC_BLOCK_SIZE);
		memset(loc_piv, 0, sizeof(iv32u) * (row - j));
		fIv_time_start();
		fast_un_block_matrix_lu_dec(ptr_A11_data, row - j, jb,
				stride, loc_piv, ptr_tmp);
		timer_1 += fIv_time_stop();
		for (i = j; i < FIV_MIN(row, j + jb); i++){
			ipiv[i] = loc_piv[i - j] + j;
		}
		if (j > 0){
			ivf64* ptr_A0 = ptr_data + j * stride;
			fIv_time_start();
			swap_matrix_rows(ptr_A0, row - j, j, stride, loc_piv, row - j);
			timer_2 += fIv_time_stop();
		}
		if (j + jb < row){
			ivf64* arr_mat_data = ptr_A11_data + LU_DEC_BLOCK_SIZE;
			ivf64* ptr_U12 = arr_mat_data;
			ivf64* ptr_A22;
			ivf64* ptr_L21;
			int coln2 = coln - (j + LU_DEC_BLOCK_SIZE);
			if (coln2 > 0){
				fIv_time_start();
				swap_matrix_rows(arr_mat_data, row - j, coln2, stride, loc_piv, row - j);
				low_tri_solve(ptr_A11_data, stride, ptr_U12, LU_DEC_BLOCK_SIZE, coln2, stride);
				timer_3 += fIv_time_stop();
			}
			if (j + jb < coln){
				ptr_L21 = ptr_A11_data + LU_DEC_BLOCK_SIZE * stride;
				ptr_A22 = ptr_L21 + LU_DEC_BLOCK_SIZE;
				fIv_time_start();
				matrix_sub_matrix_mul(ptr_A22, ptr_L21, row - (j +  LU_DEC_BLOCK_SIZE),LU_DEC_BLOCK_SIZE, stride,
								  ptr_U12, coln - (j + jb));
				timer_4 += fIv_time_stop();
			}
		}
	}
	fIv_free(loc_piv);
	printf("unblock time = %lf\n", timer_2);
	printf("swap time = %lf\n", timer_4);
	printf("tri solve time = %lf\n", timer_3);
	printf("mul time = %lf\n", timer_1);
}

void fast_un_block_matrix_lu_dec(ivf64* LU, int m, int n, int stride, iv32s* piv, ivf64* LUcolj)
{
	int pivsign;
	int i,j,k,p;
	ivf64* LUrowi = NULL;
	ivf64* ptrTmp1,*ptrTmp2;
	ivf64 max_value;
	for(i = 0; i <= m - 4; i += 4){
		piv[i + 0] = i;
		piv[i + 1] = i + 1;
		piv[i + 2] = i + 2;
		piv[i + 3] = i + 3;
	}
	for (; i < m; i++){
		piv[i] = i;
	}
	pivsign = 1;
	for(j = 0; j < n; j++){
		ptrTmp1 = &LU[j];
		ptrTmp2 = &LUcolj[0];
		for(i = 0; i <= m - 4; i += 4){
			*ptrTmp2++ = ptrTmp1[i * stride];
			*ptrTmp2++ = ptrTmp1[(i + 1) * stride];
			*ptrTmp2++ = ptrTmp1[(i + 2) * stride];
			*ptrTmp2++ = ptrTmp1[(i + 3) * stride];
		}

		for (; i < m; i++){
			*ptrTmp2++ = ptrTmp1[i * stride];
		}
		for(i = 0; i < m; i++ ){
			ivf64 s = 0;
			int kmax;
			LUrowi = &LU[i * stride];
			kmax = (i < j)? i : j;
#if defined(X86_SSE_OPTED)
			{
				Array1D_mul_sum_real64(LUcolj, kmax, LUrowi, &s);
			}
#else
			for(k = 0; k < kmax; k++){
				s += LUrowi[k] * LUcolj[k];
			}
#endif
			LUrowi[j] = LUcolj[i] -= s;
		}

		// Find pivot and exchange if necessary.
		p = j;
		max_value = fabsl(LUcolj[p]);
		for(i = j + 1; i < m; ++i ){
			ivf64 t = fabsl(LUcolj[i]);
			if (t > max_value){
				max_value = t;
				p = i;
			}
		}

		if( p != j ){
			ptrTmp1 = &LU[p * stride];
			ptrTmp2 = &LU[j * stride];
#if defined(X86_SSE_OPTED)
			{
				__m128d t1,t2,t3,t4,t5,t6,t7,t8;
				for (k = 0; k <= n - 8; k += 8){
		
					t1 = _mm_load_pd(&ptrTmp1[0]);
					t2 = _mm_load_pd(&ptrTmp1[2]);
					t3 = _mm_load_pd(&ptrTmp1[4]);
					t4 = _mm_load_pd(&ptrTmp1[6]);

					t5 = _mm_load_pd(&ptrTmp2[0]);
					t6 = _mm_load_pd(&ptrTmp2[2]);
					t7 = _mm_load_pd(&ptrTmp2[4]);
					t8 = _mm_load_pd(&ptrTmp2[6]);


					_mm_store_pd(&ptrTmp2[0], t1);
					_mm_store_pd(&ptrTmp2[2], t2);
					_mm_store_pd(&ptrTmp2[4], t3);
					_mm_store_pd(&ptrTmp2[6], t4);

					_mm_store_pd(&ptrTmp1[0], t5);
					_mm_store_pd(&ptrTmp1[2], t6);
					_mm_store_pd(&ptrTmp1[4], t7);
					_mm_store_pd(&ptrTmp1[6], t8);

					ptrTmp1 += 8;
					ptrTmp2 += 8;
				}
				for (; k < n; k++){
					FIV_SWAP( ptrTmp1[0], ptrTmp2[0], ivf64);
					ptrTmp1++,ptrTmp2++;
				}
			}
#else
			for(k = 0; k <= n - 4; k += 4 ){
				FIV_SWAP( ptrTmp1[k + 0], ptrTmp2[k + 0], ivf64);
				FIV_SWAP( ptrTmp1[k + 1], ptrTmp2[k + 1], ivf64);
				FIV_SWAP( ptrTmp1[k + 2], ptrTmp2[k + 2], ivf64);
				FIV_SWAP( ptrTmp1[k + 3], ptrTmp2[k + 3], ivf64);
			}
			for (; k < n; k++){
				FIV_SWAP( ptrTmp1[k], ptrTmp2[k], ivf64);
			}
#endif
			k = piv[p];
			piv[p] = piv[j];
			piv[j] = k;
			pivsign = -pivsign;
		}

		if( (j < m) && ( LU[j * stride + j] != 0 )){
			ivf64 t = 1.0 / LU[j * stride + j];
			ptrTmp1 = &LU[j];
			for(i = j + 1; i <= m - 4; i +=4 ){
				ivf64 t1 = ptrTmp1[(i + 0)* stride];
				ivf64 t2 = ptrTmp1[(i + 1) * stride];
				ivf64 t3 = ptrTmp1[(i + 2) * stride];
				ivf64 t4 = ptrTmp1[(i + 3) * stride];

				t1 *= t, t2 *= t, t3 *= t, t4 *= t;

				ptrTmp1[(i + 0) * stride] = t1;
				ptrTmp1[(i + 1) * stride] = t2;
				ptrTmp1[(i + 2) * stride] = t3;
				ptrTmp1[(i + 3) * stride] = t4;

			}
			for(; i < m; i++ ){
				ptrTmp1[i * stride] *= t;
			}
		}
	}
}

void low_tri_solve(ivf64* L, int stride_L, ivf64* U, int row_u, int coln_u, int stride_u)
{
	int i,j,k;
	for (k = 0; k < row_u; k++){
		ivf64* ptr_t2 = &L[k];
		for (i = k + 1; i < row_u; i++){
			ivf64 t3 = ptr_t2[i * stride_L];
			ivf64* ptr_t4 = &U[i * stride_u];
			ivf64* ptr_t1 = &U[k * stride_u];
#if defined(X86_SSE_OPTED)
			__m128d m_t1,m_t2,m_t3,m_t4,m_t5,m_t6,m_t7,m_t8,m_t3_t3;
			m_t3_t3 = _mm_set1_pd(t3);
			for (j = 0; j <= coln_u - 8; j += 8){

				m_t1 = _mm_load_pd(&ptr_t1[0]);
				m_t2 = _mm_load_pd(&ptr_t1[2]);
				m_t3 = _mm_load_pd(&ptr_t1[4]);
				m_t4 = _mm_load_pd(&ptr_t1[6]);

				ptr_t1 += 8;

				m_t1 = _mm_mul_pd(m_t1, m_t3_t3);
				m_t2 = _mm_mul_pd(m_t2, m_t3_t3);
				m_t3 = _mm_mul_pd(m_t3, m_t3_t3);
				m_t4 = _mm_mul_pd(m_t4, m_t3_t3);

				m_t5 = _mm_load_pd(&ptr_t4[0]);
				m_t6 = _mm_load_pd(&ptr_t4[2]);
				m_t7 = _mm_load_pd(&ptr_t4[4]);
				m_t8 = _mm_load_pd(&ptr_t4[6]);

				m_t5 = _mm_sub_pd(m_t5, m_t1);
				m_t6 = _mm_sub_pd(m_t6, m_t2);
				m_t7 = _mm_sub_pd(m_t7, m_t3);
				m_t8 = _mm_sub_pd(m_t8, m_t4);

				_mm_store_pd(&ptr_t4[0], m_t5);
				_mm_store_pd(&ptr_t4[2], m_t6);
				_mm_store_pd(&ptr_t4[4], m_t7);
				_mm_store_pd(&ptr_t4[6], m_t8);

				ptr_t4 += 8;
			}	
#else
			for (j = 0; j <= coln_u - 4; j += 4){
				ptr_t4[0] -= ptr_t1[0]* t3;
				ptr_t4[1] -= ptr_t1[1]* t3;
				ptr_t4[2] -= ptr_t1[2]* t3;
				ptr_t4[3] -= ptr_t1[3]* t3;
				ptr_t1 += 4;
				ptr_t4 += 4;

			}
#endif
			for (; j < coln_u; j++){
				ptr_t4[0] -= ptr_t1[0]* t3;
				ptr_t1++,ptr_t4++;
			}
			
		}
	}
}

static ivf64* ptr_arr_t = NULL;
void swap_matrix_rows(ivf64* arr_data, int m, int n, int stride, iv32u* pivt, int pivt_size)
{
	int i,j;

	int loc_stride = n + (n & 1);

	if (loc_stride < LU_DEC_BLOCK_SIZE){
		loc_stride = LU_DEC_BLOCK_SIZE;
	}
	if (ptr_arr_t == NULL){
		ptr_arr_t = fIv_malloc(loc_stride * sizeof(ivf64) * m);
	}

	for (i = 0; i < m; i++){
		ivf64* ptr_src = arr_data + i * stride;
		ivf64* ptr_dst = ptr_arr_t + i * loc_stride;
#if defined(X86_SSE_OPTED)
		__m128d t1,t2,t3,t4,t5,t6,t7,t8;
		for (j = 0; j <= n - 16; j += 16){

			t1 = _mm_load_pd(&ptr_src[0]);
			t2 = _mm_load_pd(&ptr_src[2]);
			t3 = _mm_load_pd(&ptr_src[4]);
			t4 = _mm_load_pd(&ptr_src[6]);
			t5 = _mm_load_pd(&ptr_src[8]);
			t6 = _mm_load_pd(&ptr_src[10]);
			t7 = _mm_load_pd(&ptr_src[12]);
			t8 = _mm_load_pd(&ptr_src[14]);
			ptr_src += 16;

			_mm_store_pd(&ptr_dst[0], t1);
			_mm_store_pd(&ptr_dst[2], t2);
			_mm_store_pd(&ptr_dst[4], t3);
			_mm_store_pd(&ptr_dst[6], t4);
			_mm_store_pd(&ptr_dst[8], t5);
			_mm_store_pd(&ptr_dst[10], t6);
			_mm_store_pd(&ptr_dst[12], t7);
			_mm_store_pd(&ptr_dst[14], t8);
			ptr_dst += 16;
		}

		for (; j < n; j++){
			*ptr_dst++ = *ptr_src++;

		}
#else
		memcpy(ptr_dst, ptr_src, n * sizeof(ivf64));
#endif
	}
	for (i = 0; i < m; i++){
		ivf64* ptr_src = ptr_arr_t + pivt[i] * loc_stride;
		ivf64* ptr_dst = arr_data + i * stride;
#if defined(X86_SSE_OPTED)
		__m128d t1,t2,t3,t4,t5,t6,t7,t8;
		for (j = 0; j <= n - 16; j += 16){

			t1 = _mm_load_pd(&ptr_src[0]);
			t2 = _mm_load_pd(&ptr_src[2]);
			t3 = _mm_load_pd(&ptr_src[4]);
			t4 = _mm_load_pd(&ptr_src[6]);
			t5 = _mm_load_pd(&ptr_src[8]);
			t6 = _mm_load_pd(&ptr_src[10]);
			t7 = _mm_load_pd(&ptr_src[12]);
			t8 = _mm_load_pd(&ptr_src[14]);
			ptr_src += 16;

			_mm_store_pd(&ptr_dst[0], t1);
			_mm_store_pd(&ptr_dst[2], t2);
			_mm_store_pd(&ptr_dst[4], t3);
			_mm_store_pd(&ptr_dst[6], t4);
			_mm_store_pd(&ptr_dst[8], t5);
			_mm_store_pd(&ptr_dst[10], t6);
			_mm_store_pd(&ptr_dst[12], t7);
			_mm_store_pd(&ptr_dst[14], t8);
			ptr_dst += 16;
		}

		for (; j < n; j++){
			*ptr_dst++ = *ptr_src++;

		}
#else
		memcpy(ptr_dst, ptr_src, n * sizeof(ivf64));
#endif
	}

}

void matrix_sub_matrix_mul(real64* A22, real64* L21, int row_L21,int col_L21, int stirde,
						   real64* U12, int col_U21)
{
	int i,j,k;

	for (j = 0; j < row_L21; j++){

		real64* pTmp_A = &L21[j * stirde]; 
		real64* pTmp_C0 = &A22[j * stirde];

		for (k = 0; k < col_L21; k++){
			real64 t_A_d =  -pTmp_A[k];     
			real64* pTmp_B = &U12[k * stirde];  
			for (i = 0; i <= col_U21 - 4; i += 4){

				pTmp_C0[i + 0] += t_A_d * pTmp_B[i + 0];
				pTmp_C0[i + 1] += t_A_d * pTmp_B[i + 1];
				pTmp_C0[i + 2] += t_A_d * pTmp_B[i + 2];
				pTmp_C0[i + 3] += t_A_d * pTmp_B[i + 3];

			}
			for (; i < col_U21; i++){
				pTmp_C0[i] += t_A_d * pTmp_B[i];
			}
		}
	}
}

智能优化算法应用：基于JAYA算法与双伽马校正的图像自适应增强算法智能算法研学社（Jack旭）智能优化算法应用图像增强算法计算机视觉人工智能
智能优化算法应用：基于JAYA算法与双伽马校正的图像自适应增强算法-附代码文章目录智能优化算法应用：基于JAYA算法与双伽马校正的图像自适应增强算法-附代码1.全局双伽马校正2.JAYA算法3.适应度函数设计4.实验与算法结果5.参考文献6.Matlab代码摘要：本文主要介绍基于JAYA算法与双伽马校正的图像自适应增强算法。1.全局双伽马校正设图像的灰度值范围被归一化到[0,1]范围之内，基于全局
iOS系统下最佳的3款HTTP抓包工具：Thor、克魔助手和Http Catcher 游戏开发爱好者8 http udp https websocket 网络安全网络协议 tcp/ip
引言在苹果手机的iOS系统相对封闭的情况下，抓包工具并不是很常见。大多数人可能对这类工具并不熟悉，除了少数安全专家之外，一般用户很少会接触到这些工具。然而，在某些特定场景下，比如网络调试、安全测试等，抓包工具的作用不可忽视。本文将介绍几款在iOS系统下比较优秀的HTTP抓包工具，并探讨在使用过程中的一些优化方法和注意事项。1.ThorThor（锤子）是一款知名的抓包App，售价约为68美元。其最大
python用于科学计算的扩展库_python科学计算库沈一冰
一.numpy库和matplotlib库的学习(1)numpy库介绍：科学计算包，支持N维数组运算、处理大型矩阵、成熟的广播函数库、矢量运算、线性代数、傅里叶变换、随机数生成，并可与C++/Fortran语言无缝结合np.array([1,2,3])列表转换为数组；np.array((1,2,3))元组转换为数组;np.array(range(5))把range对象转换为数组；np.arange(
第十四届蓝桥杯大赛软件赛国赛C/C++大学C组大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 蓝桥杯 c语言 c++
以下是第十四届蓝桥杯大赛软件赛国赛C/C++大学C组的编程题目：题目1：数字矩阵的最大和子矩阵题目描述给定一个mxn的矩阵，其中每个元素为一个整数。编写程序求出该矩阵中最大和的子矩阵。子矩阵是指任意从原矩阵中选出的连续的一块子矩阵，可以是任意大小。要求编写一个程序计算出最大和的子矩阵，并输出其和。输入描述输入的第一行包含两个整数m和n，表示矩阵的行数和列数（1<=m,n<=1000）。接下来的m行
《Python实战进阶》第38集：机器学习模型优化与调参——Grid Search 与 Hyperopt 带娃的IT创业者 Python实战进阶 python 机器学习开发语言
第38集：机器学习模型优化与调参——GridSearch与Hyperopt摘要在机器学习项目中，超参数的设置对模型性能至关重要。本集聚焦于如何通过网格搜索（GridSearch）和Hyperopt这两种超参数优化方法，提升模型的性能。我们将从理论入手，介绍超参数搜索的核心概念，并通过两个对比实战案例展示如何使用这两种方法优化支持向量机（SVM）和XGBoost模型。最后，我们还将探讨自动化调参工具
YOLOv8--绘制中文标签耗时优化你的陈某某跑通YOLOv8 YOLO YOLOv8 中文标签绘制
设备：RTX4080运行环境：Python=3.8（要求>=3.8），torch1.12.0+cu113（要求>=1.8）问题：ultralytics代码绘制中文标签乱码，以及其他网上中文绘制推理脚本进行中文可视化时，绘制时间较长（甚至远大于推理时间），尤其目标数量100+时，可视化时间可能上百毫秒，对要求实时推理需求很不友好。本文方法：CPU/GPU上中文绘制耗时几乎忽略不计，接口代码可以集成到
如何优化SQL查询性能？破碎的天堂鸟学习教程数据库
以下是从多维度综合整理的SQL查询性能优化方案，结合索引设计、查询结构优化、数据库架构调整及硬件配置等关键因素，提供一套系统性的解决方案：一、索引优化策略（核心优化方向）精准索引定位在WHERE、JOIN条件、ORDERBY子句高频字段创建索引联合索引遵循最左前缀原则，区分度高的列靠左字符串索引采用前缀优化，如ALTERTABLEADDINDEX(col(20))避免在低选择性字段（如性别）建索引
《Python Web部署应知应会》No2：如何基于FastAPI 和 OLLAMA 架构实现高并发 AI 推理服务带娃的IT创业者 Python Web部署应知应会 python fastapi 架构 flask
《PythonWeb部署应知应会》No2：如何基于FastAPI和OLLAMA架构实现高并发AI推理服务（上）摘要：在FastAPI和OLLAMA架构中实现高并发AI推理服务，并优化性能指标采集和缓存策略，可以充分利用asyncio的异步I/O操作来提升吞吐量和响应速度。以下是一个详细的解决方案，分为基础实现架构概述、实现步骤、性能指标采集、结合FastAPI和OLLAMA、优化方案详细实现（批量
关于matlab和python谁快的问题小蜗笔记 matlab学习笔记 matlab python 算法
关于matlab和python谁快的问题，python比matlab在乘法上快10倍，指数计算快4倍，加减运算持平，略慢于matlab。或许matlab只适合求解特征值。importtorchimporttimen=50000#矩阵规模M=torch.rand(n,31)start_time=time.time()F_M=torch.exp(M)#将矩阵M映射到其指数值end_time=time.
activeloopai/deeplake v4.1.16震撼发布！版本控制+新数据类型+可观测性全面升级福大大架构师每日一题文心一言vschatgpt golang deepseek
引言：深度学习数据管理平台activeloopai/deeplake近日发布了v4.1.16版本，带来了多项重磅更新！本次升级聚焦于版本控制、新数据类型的支持以及可观测性增强，为数据科学家和工程师提供了更高效、更灵活的数据管理体验。核心更新亮点1.版本控制与分支管理更强大支持分支合并（MergeBranches）：现在可以像Git一样轻松合并不同分支的数据，团队协作更加流畅。标签管理优化：版本标记
算力基建与性能优化（Computility & Optimization） deepdata_cn 云计算量子计算性能优化算力
在当今数字化浪潮席卷全球的时代，人工智能、大数据、区块链等前沿技术正以前所未有的速度蓬勃发展。它们相互交织、相互促进，深刻地改变着我们的生活、工作和社会运行方式。而在这一系列变革的背后，算力作为数字经济时代的核心驱动力，正逐渐凸显出其无可替代的重要性。从复杂的科学研究领域，到追求高效生产的工业生产环节，再到人们日常生活中随处可见的智能应用，无一不需要强大的计算能力作为坚实支撑。在这样的背景下，单纯
DS彩虹系统7.0.3小森升级版新增供货商希希分享源码资源软希网58soho_cn DS彩虹系统7.0.3小森
小森升级版7.0.3是彩虹知识商城的最新版本，新增了开心学习供货商，为用户提供更多选择。此外，该版本还增加了邮件提醒功能，支持给用户发送订单、结算等邮件通知，同时也支持给管理员发送提现、域名审核等邮件通知。另外，该版本还支持设置手续费最低扣除金额，更加灵活方便。除此之外，我们还修复了其他一些已知问题，使得用户的使用体验更加稳定和流畅。快来下载小森升级版7.0.3，享受更多的功能和优化吧！源码下载：
LeetCode Hot100 刷题路线（Python版）熬夜造bug LeetCode Hot100刷题笔记 leetcode 算法职场和发展
目录1.LeetCodeHot100刷题笔记（1）——哈希、双指针、滑动窗口2.LeetCodeHot100刷题笔记（2）——子串、普通数组、矩阵3.LeetCodeHot100刷题笔记（3）——链表4.LeetCodeHot100刷题笔记（4）——二叉树、图论-CSDN博客5.LeetCodeHot100刷题笔记（5）——回溯-CSDN博客6.LeetCodeHot100刷题笔记（6）——栈、堆
MATLAB之数据分析图系列：从二维到三维（直接套用）技术干货贩卖机科研攻坚栈：技术论文写作从 0 到 1 全栈实战指南 matlab 数据分析算法
MATLAB以其强大的矩阵运算和可视化功能，成为科研、工程领域的标配工具。本文提供从基础二维图形到复杂三维模型的即用代码块，涵盖数据标注、多图排版、动态演示等核心技巧所有代码均经过MATLAB2023a实测，替换数据即可生成专业级图表。”一、二维图形1.带误差带的折线图%数据准备 x= 1:10; y=rand(1,10)*5; err= 0.2 +rand(1,10)*0.5; %绘制误差折线图
ERP、MES和CRM三大企业系统的详细介绍及对比分析 jakeswang coreJava java ERP
以下是关于ERP、MES和CRM三大企业系统的详细介绍及对比分析：1.ERP（企业资源计划，EnterpriseResourcePlanning）核心功能：集成管理：财务、采购、库存、生产、人力资源等核心业务流程资源优化：实现企业人、财、物等资源的统一规划和调度数据分析：提供跨部门报表和决策支持典型模块：财务管理（总账、应收应付）供应链管理（SCM）生产计划（MRP）人力资源管理（HRM）优势：打
基于springboot的企业OA管理系统 Olivia-gogogo spring boot 后端 java
摘要随着企业规模的扩大和业务的复杂化，传统的办公方式已难以满足企业高效管理的需求。本论文旨在设计并实现一个基于SpringBoot的企业OA（OfficeAutomation）管理系统，以提高企业办公效率、优化业务流程和加强信息共享。系统采用分层架构，结合MySQL数据库存储数据，前端使用Thymeleaf模板引擎和Bootstrap框架实现页面展示。通过需求分析、系统设计、代码实现和测试等环节，
Netty源码—9.性能优化和设计模式二东阳马生架构 Netty应用与源码 Netty 设计模式
大纲1.Netty的两大性能优化工具2.FastThreadLocal的实现之构造方法3.FastThreadLocal的实现之get()方法4.FastThreadLocal的实现之set()方法5.FastThreadLocal的总结6.Recycler的设计理念7.Recycler的使用8.Recycler的四个核心组件9.Recycler的初始化10.Recycler的对象获取11.Rec
(4-6）轨迹规划算法和优化：基于萤火虫算法优化（FLA）算法的无人机的路径规划系统码农三叔人工智能无人机算法 python 运动控制路径规划萤火虫算法优
FireflyAlgorithm（萤火虫算法，FLA）是一种启发式优化算法，其灵感来源于萤火虫的闪烁行为。FLA算法通过模拟萤火虫群体中的个体之间的相互吸引和相对亮度来搜索解空间，主要应用于全局优化问题，例如路径规划、函数优化等。FireflyAlgorithm（萤火虫算法，FLA）是一种启发式优化算法，其灵感来源于萤火虫的闪烁行为。FLA算法通过模拟萤火虫群体中的个体之间的相互吸引和相对亮度来搜
电力系统仿真：电力系统优化调度_5.电力系统优化调度基础 kkchenkx 电力系统仿真电力系统仿真 matlab
5.电力系统优化调度基础5.1优化调度的概念和重要性电力系统优化调度是指在满足电力系统安全、稳定、经济运行的前提下，通过数学模型和优化算法对系统中的各种资源进行合理配置和调度，以达到最佳运行状态的过程。优化调度的目标通常包括最小化运行成本、提高系统可靠性和灵活性、减少环境污染等。在微电网与分布式发电系统中，优化调度尤为重要，因为它涉及到多种能源的协调和管理，如太阳能、风能、储能系统等。5.2优化调
为什么String要定义成不可变的？ java干货仓库八股文汇总 java 面试 java
在Java中，String类被设计为final类型，主要基于以下关键原因，涵盖安全性、性能优化和设计哲学：1.不可变性（Immutability）的核心保障禁止继承：final修饰的类无法被继承，防止子类通过继承破坏String的不可变性（如重写方法修改内部字符数组value）。实例不可变：String内部存储字符的char[]value也是final的，确保一旦创建，引用和内容均不可变。示例：p
美团Leaf分布式ID生成算法深度解析与源码实现雪落山庄 java 分布式算法 leaf 美团分布式ID生成算法
美团Leaf分布式ID生成算法深度解析与源码实现前言在分布式系统中，全局唯一ID的生成是核心基础服务。美团点评（现美团）针对Snowflake算法在运维场景中的痛点，研发了Leaf分布式ID生成系统。本文将从设计原理、源码实现、优化策略等角度深入剖析Leaf算法。一、分布式ID生成方案对比常见方案对比方案优点缺点UUID简单无序、字符串存储效率低数据库自增ID简单可靠性能瓶颈、扩展困难Redis生
树莓派5智能家居中控：HomeAssistant全配置指南知识产权13937636601 计算机智能家居
一、硬件选型与系统架构1.1树莓派5的硬件优势2023年发布的树莓派5采用BroadcomBCM2712处理器（4核Cortex-A76架构），相比前代产品具有三大突破性改进：接口升级：首次支持PCIe2.0接口，可扩展万兆网卡或NVMe固态硬盘性能提升：CPU单核性能提升2-3倍，满足实时数据处理需求供电优化：新增PMIC电源管理芯片，支持27WPD快充协议1.2系统架构设计本方案采用三层架构设
深度学习篇---PaddleDetection&PaddleOCR Ronin-Lotus 程序代码篇深度学习篇上位机知识篇深度学习 paddlepaddle 人工智能 python paddledetection paddleocr
文章目录前言1.代码2.代码介绍2.1**导入模块**2.2**配置区域**2.3ExpressInfoProcessor类2.4**主程序**：3.使用说明3.1环境准备3.2模型准备3.3数据库初始化3.4串口配置3.5信息提取优化3.6注意事项前言本文简单介绍了PaddleDetection和PaddleOCR相结合的示例代码，通过两个PaddlePaddle框架下的工具包结合使用同时达到图
9.6.1 ACM-ICPC 数据结构并查集夏驰和徐策 ICPC 数据结构算法并查集
9.6.1ACM-ICPC数据结构：并查集并查集简介并查集（Union-Find或DisjointSetUnion）是一种用于管理不相交集合的数据结构，主要支持两种操作：合并（Union）和查找（Find）。它在解决连通性问题、图论问题（如最小生成树的Kruskal算法）以及其他需要动态连通性维护的场景中有着广泛应用。并查集的核心思想是通过树结构表示集合中的元素，并通过路径压缩和按秩合并等优化手段
【商城实战(103)】商城实战终章：携手共进，迈向新程奔跑吧邓邓子商城实战商城实战对读者的建议与期待
【商城实战】专栏重磅来袭！这是一份专为开发者与电商从业者打造的超详细指南。从项目基础搭建，运用uniapp、ElementPlus、SpringBoot搭建商城框架，到用户、商品、订单等核心模块开发，再到性能优化、安全加固、多端适配，乃至运营推广策略，102章内容层层递进。无论是想深入钻研技术细节，还是探寻商城运营之道，本专栏都能提供从0到1的系统讲解，助力你打造独具竞争力的电商平台，开启电商实战
服务器优化——高可用性与资源消耗的平衡 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介基于Kubernetes的集群监控系统、日志分析平台等应用，用于持续监测和分析业务运行状态和用户体验。本文将主要从以下几个方面进行阐述：服务器硬件配置及关键指标服务负载均衡及策略选择数据库的读写分离设计文件存储系统的选型及部署方案消息队列选型、架构设计及消息分发混合云环境下的资源优化2.服务器硬件配置及关键指标服务器硬件配置在Airbnb出租车频道的服务器部署中
SpringBoot分布式项目中MyBatis实战技巧：从配置到性能优化潘多编程 spring boot 分布式 mybatis
引言在分布式系统架构中，SpringBoot与MyBatis的组合已成为企业级开发的黄金搭档。但在实际项目中，开发者常面临多数据源管理、SQL性能优化、分布式事务等挑战。本文将从实战角度出发，分享7个关键技巧和避坑指南。一、多数据源动态切换实战1.1多数据源配置@ConfigurationpublicclassDataSourceConfig{@Bean(name="masterDataSourc
【Nginx】可以做哪些优化？重启就好 nginx linux 运维服务器
一、配置文件优化1.1性能优化开启网页压缩gzipon;设置网页缓存时间expires缓存时间;设置连接保持超时keepalive_timeout服务端超时时间客户端超时时间;设置连接保持最大请求数keepalive_requests设置工作进程数worker_processes与服务器CPU数量相同或auto设置工作进程连接数worker_connections设置工作进程绑核worker_cp
【商城实战(92)】高并发下的商城缓存进阶：从原理到实战奔跑吧邓邓子商城实战商城实战缓存 redis uniapp Element Plus SPringBoot
【商城实战】专栏重磅来袭！这是一份专为开发者与电商从业者打造的超详细指南。从项目基础搭建，运用uniapp、ElementPlus、SpringBoot搭建商城框架，到用户、商品、订单等核心模块开发，再到性能优化、安全加固、多端适配，乃至运营推广策略，102章内容层层递进。无论是想深入钻研技术细节，还是探寻商城运营之道，本专栏都能提供从0到1的系统讲解，助力你打造独具竞争力的电商平台，开启电商实战
cJSON-轻量级 C 语言 JSON 解析库的使用（一） clear code c语言 json 开发语言
文章目录cJSON：轻量级C语言JSON解析库的使用前言一、cJSON简介核心特点：二、核心数据结构解析三、深入解析API设计1.解析JSON2.访问数据3.构建JSON四、内存管理策略五、高级应用技巧1.引用系统2.批量操作3.原地修改六、性能优化技巧1.使用预分配缓冲区2.非格式化输出3.使用引用而非复制七、实战案例：配置文件解析器八、总结cJSON：轻量级C语言JSON解析库的使用前言在当今
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &

矩阵LU分解分块算法实现

你可能感兴趣的:(优化,矩阵LU分解)