进击的小菜菜

并行化实现基于BP神经网络的手写体数字识别

手写体数字识别可以堪称是神经网络学习的“Hello World” ，我今天要说的是如何实现BP神经网络算法的并行化，我们仍然是以手写体数字识别为例，会给出实现原理与不同参数的实例分析。
并行的实现是基于MPICH与OpenMP两种，运行环境是Linux 。

环境搭建

MPI

MPI的环境搭建说简单也简单，说难也难，CSDN上有各种教程，大部分都是对的，我只提一下我在搭建环境的时候遇到的问题以及要注意的地方。
1.如果只在一台机器上跑代码的话，就相对简单一些，只需要下载压缩包，解压，编译安装就好了，这里要注意的是安装的时候，MPI依赖于gcc、g++、Fortran等编译工具，我们大多数人的机器上应该只有C/C++的编译工具，如果我们不打算在Fortran上使用MPI的话，可以选择在安装的时候禁用掉Fortran，好像是在安装命令的末尾加上–disable Fortran就可以了。
2.如果是想搭集群，首先要把MPI安装在相同的目录例如：/usr/local/mpich，然后还要注意要使用相同的用户名进行ssh免密登录的配置。这些东西都有很完整的教程，我在这里就不进行详细说了。

OpenMP

如果你的编译链工具版本够新的话，编译OpenMP只需要加上一句-fopenmp即可

BP神经网络算法基础

1. 算法框架

BP神经网络的过程主要分为两个阶段，第一阶段是信号的前向传播，从输入层经过隐含层，最后到达输出层；第二阶段是误差的反向传播，从输出层到隐含层，最后到输入层，依次调节隐含层到输出层的权重和偏置，输入层到隐含层的权重和偏置。

2.样本训练

正向传播

对每一层遍历每一个神经细胞，做如下操作：

获取第n个神经细胞的输入权重数组
遍历输入权重数组每一个输入权重，累加该权重和相应输入的乘积
将累加后的值通过激活函数，得到当前神经细胞的最终输出
该输出作为下一层的输入，对下一层重复上述操作，直到输出层输出为止
激活函数： sigmoid（S型）函数

反向训练

1.首先输入期望输出，同输出层的输出进行计算得到输出误差数组
2.然后对包括输出层的每一层：遍历当前层的神经细胞，得到该神经细胞的输出，同时利用反向传播激活函数计算反向传播回来的误差, 进行调整权重矩阵。
激活函数： sigmoid（S型）函数的导函数

算法参考博客：
https://blog.csdn.net/xuanwolanxue/article/details/71565934
https://blog.csdn.net/qq_41645895/article/details/85265148
https://blog.csdn.net/u014303046/article/details/7820001

3. 数据处理

1. 训练数据集

简介

样本来源于美国提供的MNIST数据集一共包含7万个样本

数据集包含四个二进制文件：
train-images-idx3-ubyte: training set images #训练集图片
train-labels-idx1-ubyte: training set labels #训练集标签
t10k-images-idx3-ubyte: test set images #测试集图片
t10k-labels-idx1-ubyte: test set labels #测试集标签
训练集有60000个训练样本，测试集有10000个样本

文件的格式如下
TRAINING SET IMAGE FILE (train-images-idx3-ubyte):
[offset] [type] [value] [description]
0000 32 bit integer 0x00000803(2051) magic number #文件头魔数
0004 32 bit integer 60000 number of images #图像个数
0008 32 bit integer 28 number of rows #图像宽度
0012 32 bit integer 28 number of columns #图像高度
0016 unsigned byte ?? pixel #图像像素值
0017 unsigned byte ?? pixel
………
xxxx unsigned byte ?? pixel
数据来源：http://yann.lecun.com/exdb/mnist/

读取数据

数据集的读取单独设置一个类，每次读数据传进一个index参数，index表示要读取文件中第几张图片，这就需要用到C++文件流的seekg()函数来索引到正确的位置，seekg()函数有两种形式的重载，我们采用的单参数重载，参数是相对于文件初始的偏移量。
偏移量 = 文件头大小 + (index - 1) * 图片大小

bool dataLoader::readIndex(int* label, int pos) {
	if (mLabelFile.is_open() && !mLabelFile.eof()) {
		mLabelFile.seekg(mLableStartPos + pos*mLabelLen);
		mLabelFile.read((char*)label, mLabelLen);
		return mLabelFile.gcount() == mLabelLen;
	}
	return false;
}

bool dataLoader::readImage(char imageBuf[], int pos) {
	if (mImageFile.is_open() && !mImageFile.eof()) {
		mImageFile.seekg(mImageStartPos + pos*mImageLen);
		mImageFile.read(imageBuf, mImageLen);

		return mImageFile.gcount() == mImageLen;
	}
	return false;
}
//label 用于保存标签 imagebuf保存图片像素 pos表示需要读取数据集中第几张图片
bool dataLoader::read(int* label, char imageBuf[], int pos) {
	if (readIndex(label, pos)) {
		return readImage(imageBuf, pos);
	}

	return false;
}

2. 算法相关参数声明

样本参数：
每个图片样本从二进制文件中读取的格式是unsigned char [28 * 28] （图片大小为28 * 28）
然后对样本的像素矩阵进行归一化处理，转成double数组：像素值大于128置1否则置0

inline void preProcessInputData(const unsigned char src[], double out[], int size) {
    for (int i = 0; i < size; i++) {
        out[i] = (src[i] >= 128) ? 1.0 : 0.0;
    }
}

权重参数：
神经网络的每一层都有一个二维的权重数组，在隐藏层每一个神经细胞都会有28*28个输入，每个细胞对应一个输出，所以输出层的每个神经细胞对应有隐藏层细胞总数个的输入。权重的初始化是由随机数生成。

// 随机整数数[x, y]
inline int RandInt(int x, int y)
{ 
	return rand() % (y - x + 1) + x; 
}

// 随机浮点数（0， 1）
inline double RandFloat()
{ 
	return (rand()) / (RAND_MAX + 1.0); 
}

// 随机布尔值
inline bool RandBool()
{
	return RandInt(0, 1) ? true : false;
}

// 随机浮点数（-1， 1）
inline double RandomClamped()
{ 
	return rand() % 1000 * 0.001 - 0.5;
}


// 高斯分布
inline double RandGauss()
{
	static int	  iset = 0;
	static double gset = 0;
	double fac = 0, rsq = 0, v1 = 0, v2 = 0;

	if (iset == 0)
	{
		do
		{
			v1 = 2.0*RandFloat() - 1.0;
			v2 = 2.0*RandFloat() - 1.0;
			rsq = v1*v1 + v2*v2;
		} while (rsq >= 1.0 || rsq == 0.0);

		fac = sqrt(-2.0*log(rsq) / rsq);
		gset = v1*fac;
		iset = 1;
		return v2*fac;
	}
	else
	{
		iset = 0;
		return gset;
	}
}

4. 并行机制

MPI–数据并行

数据并行的方法适用于MPI，假设默认隐藏层的神经细胞数量为100，那么权重矩阵的大小为28 * 28 *100，这个大小并不是很适用于MPI进行矩阵运算并行，在这种小计算量的地方采用并行，有很大几率会由于过大的通信开销导致程序运行变慢，所以我们采用训练样本并行的方法。
采用训练样本并行需要慎重的考虑执行的进程数和粒度大小的设置，因为权重数组的更新是依赖于之前训练过的样本的，所以采用样本并行可能会导致识别率的降低。
1.基于模型的配置随机初始化网络模型参数
2.将当前这组参数分发到各个工作节点
3.在每个工作节点，用数据集的一部分数据进行训练
4.将各个工作节点的参数的均值作为全局参数值
5.若还有训练数据没有参与训练，则继续从第二步开始

因此MPI的数据并行就是一个不断分传样本->分进程计算权值->回传权值->主进程计算新权值->所有进程统一权值的过程。

double trainEpoch(dataLoader& src, NetWork& bpnn, int imageSize, int numImages) {
   //for mpi
   
   int task_count = 0;
   int rank = 0;
   int tag = 0;
   MPI_Status status;
   //for train
   double net_target[NUM_NET_OUT];
   char* temp = new char[imageSize];
   double* net_train = new double[imageSize];
   
   //get mpi message
   MPI_Comm_size(MPI_COMM_WORLD, &task_count);  //get num of ranks
   MPI_Comm_rank(MPI_COMM_WORLD, &rank);        //get current rank number
   --task_count;                                //the num of ranks used for training
   double comun_time = 0.0;
   for (int i = 0; i < numImages;) {
   	
       int row1 = bpnn.mNeuronLayers[0]->mNumNeurons;
       int row2 = bpnn.mNeuronLayers[1]->mNumNeurons;
       int col1 = bpnn.mNeuronLayers[0]->mNumInputsPerNeuron + 1;
       int col2 = bpnn.mNeuronLayers[1]->mNumInputsPerNeuron + 1;
       double weights1[row1][col1];
       double weights2[row2][col2];

       double new_weights1[row1][col1];
       double new_weights2[row2][col2];
       
       if(rank != 0){
           int sample_num = 0;
           if(i + task_count * SIZE > numImages){
               sample_num = (numImages - i) / task_count;
               if(rank <= ((numImages - i) % task_count))
                   sample_num++;
           }
           else{
               sample_num = SIZE;
           }
           for(int loop = 0; loop < sample_num; loop++){
               int label = 0;
               memset(net_target, 0, NUM_NET_OUT * sizeof(double));
               if (src.read(&label, temp, i + ((rank-1) * sample_num) + loop)) {
                   net_target[label] = 1.0;
                   preProcessInputData((unsigned char*)temp, net_train, imageSize);
                   bpnn.training(net_train, net_target);
               }
               else {
                   cout << "读取训练数据失败" << endl;
                   break;
               }
           }
       }
       if(rank != 0){
           for(int loop = 0; loop < row1; loop++){
               for(int loop1 = 0; loop1 < col1; loop1++)
                   weights1[loop][loop1] = bpnn.mNeuronLayers[0]->mWeights[loop][loop1];
           }
           for(int loop = 0; loop < row2; loop++){
               for(int loop1 = 0; loop1 < col2; loop1++)
                   weights2[loop][loop1] = bpnn.mNeuronLayers[1]->mWeights[loop][loop1];
           }
           for(int loop = 0; loop < row1; loop++){
               MPI_Send(weights1[loop], col1, MPI_DOUBLE, 0, tag, MPI_COMM_WORLD);    
           }
           MPI_Send(weights2, row2*col2, MPI_DOUBLE, 0, tag, MPI_COMM_WORLD);
       }
           
       MPI_Barrier(MPI_COMM_WORLD);
           
       if(rank == 0){//father rank
       	double cur_time = MPI_Wtime();
           for(int loop = 0; loop < row1; loop++){
               for(int loop1 = 0; loop1 < col1; loop1++)
                   new_weights1[loop][loop1] = 0;
           }
           for(int loop = 0; loop < row2; loop++){
               for(int loop1 = 0; loop1 < col2; loop1++)
                   new_weights2[loop][loop1] = 0;
           }

           for(int j = 1; j <= task_count; j++){//recv and calculate the new weights
               for(int loop = 0; loop < row1; loop++)
                   MPI_Recv(weights1[loop], row1*col1, MPI_DOUBLE, j, tag, MPI_COMM_WORLD, &status);
               MPI_Recv(weights2, row2*col2, MPI_DOUBLE, j, tag, MPI_COMM_WORLD, &status);
               for(int loop = 0; loop < row1; loop++){
                   for(int loop1 = 0; loop1 < col1; loop1++)
                       new_weights1[loop][loop1] += weights1[loop][loop1];
               }
               for(int loop = 0; loop < row2; loop++){
                   for(int loop1 = 0; loop1 < col2; loop1++)
                       new_weights2[loop][loop1] += weights2[loop][loop1];
               }
           }

           for(int loop = 0; loop < row1; loop++){
               for(int loop1 = 0; loop1 < col1; loop1++)
                   new_weights1[loop][loop1] /= task_count;
           }
           for(int loop = 0; loop < row2; loop++){
               for(int loop1 = 0; loop1 < col2; loop1++)
                   new_weights2[loop][loop1] /= task_count;
           }
       	
           for(int j = 1; j <= task_count; j++){
               for(int loop = 0; loop < row1; loop++)
                   MPI_Send(new_weights1[loop], col1, MPI_DOUBLE, j, tag, MPI_COMM_WORLD);
               MPI_Send(new_weights2, row2*col2, MPI_DOUBLE, j, tag, MPI_COMM_WORLD);
           }
           for(int loop = 0; loop < row1; loop++){
               for(int loop1 = 0; loop1 < col1; loop1++)
                   bpnn.mNeuronLayers[0]->mWeights[loop][loop1] = new_weights1[loop][loop1];
           }
           for(int loop = 0; loop < row2; loop++){
               for(int loop1 = 0; loop1 < col2; loop1++)
                   bpnn.mNeuronLayers[1]->mWeights[loop][loop1] = new_weights2[loop][loop1];
           }
           cout << "已学习：" << i << "\r";
           cur_time = MPI_Wtime() - cur_time;
           comun_time += cur_time;
       }
       if(rank !=0){
               //get new weights
           for(int loop = 0; loop < row1; loop++)
           MPI_Recv(weights1, col1, MPI_DOUBLE, 0, tag, MPI_COMM_WORLD, &status);
           
           MPI_Recv(weights2, row2*col2, MPI_DOUBLE, 0, tag, MPI_COMM_WORLD, &status);
           for(int loop = 0; loop < row1; loop++){
               for(int loop1 = 0; loop1 < col1; loop1++)
                   bpnn.mNeuronLayers[0]->mWeights[loop][loop1] = weights1[loop][loop1];
           }
           for(int loop = 0; loop < row2; loop++){
               for(int loop1 = 0; loop1 < col2; loop1++)
                   bpnn.mNeuronLayers[1]->mWeights[loop][loop1] = weights2[loop][loop1];
           }
              
       }
       MPI_Barrier(MPI_COMM_WORLD);
       i += task_count*SIZE;
       
   }
   if(rank == 0)
   	cout << " comun_time=" << comun_time << endl;

   delete []net_train;
   delete []temp;

   return bpnn.getError();

}
//

这里需要注意的是MPI_Recv和MPI_Send缓冲区大小有限制，当时我发送一个大小为7w+个double大小的数组就发生了一直阻塞的情况，后来借鉴了别人的经验，将数组分开多次发送就解决了，但是可能加大了通信的总开销

OpenMP–计算并行

当时我在考虑应该在哪里使用OpenMP来改进算法时，我的思路一直局限在样本并行上，我忽略了MPI与OpenMP的区别，后来我突然想起来，当时OpenMP的最经典应用就是用在矩阵运算上，而我们在本算法中，大量的计算开销都是产生于矩阵的运算。
因此使用OpenMP更改算法就变得简单了起来，只要找到矩阵运算的部分，加上合适的原语即可。

5. 可扩展性设计

在算法中，会有一些可以自由调整的参数，为了在进行不同维度的算法效果分析时的方便，我们把可变的参数放到一个文件中，在程序执行的开始，使用文件中的数据来初始化本次执行的一些可变参数。
文件包含：
训练样本量 #input_size 学习率 #learning_rate
隐含层神经元数量 #number 并行粒度 #para_size

6.结果分析

测试机器硬件型号：cups：8核 Intel® Core™ i7-4720HQ @ 2.60GHz
固定参数设置：
测试样本：1w 学习率：0.5 训练周期：1 隐藏层细胞：100 粒度：10 训练样本6w
串行程序：时间开销27.9s 正确率94.01%
8线程–OpenMP：时间开销7.9s 正确率93.86%
单节点8进程–MPI：时间开销18.1s 正确率91.2%

并行参数调整分析

1. 不同输入样本量

测试机器硬件型号：
cups：8核 Intel® Core™ i7-4720HQ @ 2.60GHz
固定参数设置：测试样本：1w 学习率：0.5 训练周期：1 进程数：8 隐藏层细胞：100 粒度：10
在OpenMP中，当我们输入维度随倍数递增，我们的时间开销基本上也随倍数递增，但是错误率随有提升，但是提升的效果不是十分显著，趋势已经趋于平缓。

在MPI中，当输入的维度随倍数递增，不论是总开销还是进程之间的通信开销依旧基本上随倍数递增，但是通信开销的占比几乎不变，与OpenMP相似，错误率的下降呈逐渐缓慢的趋势。

2.不同粒度

测试机器硬件型号：
cups：8核 Intel® Core™ i7-4720HQ @ 2.60GHz
固定参数设置：
测试样本：1w 训练样本：6w学习率：0.5 训练周期：1 进程数：8 隐藏层细胞：100

当我们改变MPI并行粒度的大小的时候，如图6，我们可以看到正确率是一个先下降后上升的过程。当粒度处于10-50之间的时候，由于权重数组的更新对于样本之间存在很强的依赖性，随着粒度的增大，我们回传参数的次数变小，导致了正确率的降低。当粒度再次增大，我们每一个进程分到的样本量变大，这时粒度的增大弥补了进程之间权重数组更新不同步的缺陷，正确率回升。
在时间开销上，计算量的变化基本不大，但是粒度增大，进程之间的通信量变少，导致了通信开销减小，也就造成了总开销变低。

3.不同进程/线程数

测试机器硬件型号：
cups：8核 Intel® Core™ [email protected]
固定参数设置：
测试样本：1w 训练样本：6w学习率：0.5 训练周期：1 粒度：10 隐藏层细胞：100
在OpenMP中，当我们开启的线程数不断增大时，时间的开销是一个先减小后增大的过程，由于程序在一个8核的机器上执行，所以当开启的线程数达到8的时候，时间开销达到最小，再增大之后，就需要8个核共同协调完成多出来的8个线程，也就导致了时间开销又再次加大。
在OpenMP中由于使用的是计算并行，所以调整线程的大小对正确率没有影响，图中的正确率的浮动在1%左右属于正常现象，可能是由于初始化时随机数的不同所导致。

测试机器硬件型号：
节点1: cups：8核 Intel® Core™ [email protected]
节点2: cpus：8核 Intel® Core™ [email protected]

固定参数设置：
测试样本：1w 训练样本：6w学习率：0.5 训练周期：1 粒度：10 隐藏层细胞：100

当我们在单台机器节点1上进行开启不同进程数的测试时，如图8我们可以发现开启4个进程和开启8个进程的总开销几乎一致，但是8个进程的通信开销占比变大了，这也就意味着，开启多个进程虽然能在计算上加速，但是通信开销也会变大，当我们开启更多的12个进程时，通信的开销占据了总开销的一半还多。
当我们同样开启12个进程在两个节点上执行的时候，时间的总开销更是高达2200多秒，通信占比更是高达98.83%。

由于权重参数的样本依赖性，我们开启的进程数越多，对正确率的影响也越大，错误率随着进程数的增大不断增加。

算法参数调整分析

1.不同训练周期数

测试机器硬件型号：
cups：8核 Intel® Core™ [email protected]
固定参数设置：
测试样本：1w 训练样本：6w学习率：0.5 线程/进程数：8 粒度：10 隐藏层细胞：100

在当我们不断加大训练周期的时候，不论采用哪种并行算法都是时间开销呈线性递增，识别的成功率也会有所增长。但是当训练周期达到一定的值的时候，正确率的提升微乎其微，似乎达到了一个极限，这个时候就不是单凭加大训练量就能继续提高正确率的，需要我们去改善训练所用的算法，例如改变其他参数、更换激活函数、使用卷积神经网络等。

2.不同学习率

测试机器硬件型号：
cups：8核 Intel® Core™ [email protected]
固定参数设置：
测试样本：1w训练样本：6w训练周期：1 线程/进程数：8 粒度：10 隐藏层细胞：100

随着学习率的增大，正确率的变化由平缓到线性急速降低，我们可以推测，最优的学习率大致在0-1之间，时间的变化在0.1秒之内，属于正常变化，几乎没有太大影响。

3.不同隐藏层细胞数

隐藏层细胞数的增加提高了正确率，但是到后面会有所收敛，由于计算量的倍增，时间开销同样也会倍增。

小结

当计算量不足够大，而且网络通信开销比较大的时候，使用OpenMP进行并行优化的效果要比MPI优化的效果更为明显。
同样是在单节点上执行，由于OpenMP是多线程并行，大多数的数据是共享的，每一个线程的计算是独立的、互不干扰的，因此在数据传递上就比MPI的多线程，数据不共享体现出了优势，有效的减小了通信的开销占比。当然，我们在多节点执行的时候，其中一个节点使用了虚拟机，有可能也是程序执行时间被拖慢的原因之一。
这并不是说MPI与OpenMP相比就失去了优势，这只能说明OpenMP更适合于我们这次所选的课题。MPI的优势在于，可以将多台机器组建成一个集群，而不是局限于单台机器。
这是本黑菜第一次写博客，如果文章里哪里出现了学术上的问题，还请各位大佬及时指正，谢谢。

参考资料

https://blog.csdn.net/a493823882/article/details/78683445
https://blog.csdn.net/xbinworld/article/details/74781605

CSDN下载

https://download.csdn.net/download/qq_41645895/11068914

deepseek: 通过命令行将 Windows 11 的右键菜单改为 Windows 10 风格 Alexon Xu deepseek windows
要通过命令行将Windows11的右键菜单改为Windows10风格，可以使用reg命令直接修改注册表。以下是具体步骤：使用命令行修改注册表打开命令提示符（以管理员身份运行），然后执行以下命令：启用Windows10风格的右键菜单regadd"HKCU\Software\Classes\CLSID\{86ca1aa0-34aa-4e8b-a509-50c905bae2a2}\InprocServe
平台再升级！接入DeepSeek AI，三大能力一键生成橙武科技低代码 AI deepseek 人工智能
在数字化项目落地过程中，很多企业都会面临相同的问题：数据库建模要写SQL表结构；业务流程需要画LogicFlow流程图；前端页面还要写AMISJSON配置。从想法到实现，中间至少要经历产品经理、架构师、后端、前端多轮沟通。每个环节都耗时，改起来还要推翻重来。demo地址：https://admin.cwcode.top✨我们的平台，现在直接整合了DeepSeekAI大模型只要输入一句需求，就能：✅
MCP-Proxy：开发多LLM & 多MCP 支持并安全访问MCP Server的秘密 IT古董技术杂谈安全 MCP MCP-Proxy
在构建多模型、多协议、可控可信的大模型接入平台时，MCP-Proxy扮演着关键中枢。它不仅要支持多个LLM接入，还要保障对后端MCPServer的安全访问、请求审计、能力切换与资源隔离。什么是MCP/MCP-Proxy？MCP（ModelCapabilityProtocol）是新一代模型能力调用协议，类似于OpenAI的API，但可支持：多厂商大模型（OpenAI、DeepSeek、Yi、Chat
DeepSeek-V3 通俗详解：从诞生到优势，以及与 GPT-4o 的对比码事漫谈 AI ai
前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站1.DeepSeek的前世今生1.1什么是DeepSeek？DeepSeek是一家专注于人工智能技术研发的公司，致力于打造高性能、低成本的AI模型。它的目标是让AI技术更加普惠，让更多人能够用上强大的AI工具。1.2DeepSeek-V3的诞生DeepSeek-V3是DeepSeek公司推出的最新一代A
基于摩尔线程 S80 显卡在 Ubuntu 系统下双卡交火部署 DeepSeek 流量留 Deepseek 人工智能
以下是基于摩尔线程S80显卡在Ubuntu系统下双卡交火部署DeepSeek的详细教程：###一、环境准备1.**操作系统**：推荐使用Ubuntu22.04。2.**显卡驱动**：-访问摩尔线程官网，登录账号后进入产品页面，找到软件部分下载MUSASDK。-安装显卡驱动，确保驱动版本与MUSASDK兼容。3.**安装Ollama**：-官方推荐使用命令安装Ollama，但下载速度可能较慢，可前往
线上正常，本地调用deepseek接口报错：Error:SSL certificate problem: unable to get local issuer certificate 落落鱼2013 ssl 服务器网络协议 deepseek
如题，线上调用deepseek接口正常，但本地调用接口时报以下错误：Error:SSLcertificateproblem:unabletogetlocalissuercertificate。问了下豆包，得知是缺少本地证书的问题。然后用小P配置了ssl证书用https访问依旧不行，报错不变：解决办法：调用curl函数时添加以下配置项：curl_setopt($ch,CURLOPT_SSL_VERI
青少年编程与数学 01-012 通用应用软件简介 15 人工智能助手明月看潮生编程与数学第01阶段青少年编程人工智能应用软件编程与数学
青少年编程与数学01-012通用应用软件简介15人工智能助手一、什么是人工智能助手二、人工智能助手的产生和发展（一）早期探索阶段（二）技术突破阶段（三）广泛应用阶段三、人工智能助手的主要功能（一）信息查询（二）日程管理（三）设备控制（四）知识问答四、人工智能助手的商业模式（一）广告收入（二）增值服务（三）数据服务（四）硬件销售五、DeepSeek（一）基本情况（二）技术水平（三）产品功能（四）市场
DeepSeek-V3混合精度推理（FP8/BF16）原理与实战全解析 CarlowZJ DEEPSEEK-V3
目录摘要混合精度推理的背景与意义DeepSeek-V3混合精度架构设计FP8与BF16核心原理详解混合精度推理核心实现实践案例：FP8权重转BF16与推理部署常见问题与注意事项最佳实践与扩展建议总结参考资料附录：可视化图表1.摘要本文系统梳理DeepSeek-V3在FP8/BF16混合精度推理方面的架构设计与工程实现，结合源码与实际案例，帮助开发者深入理解其混合精度推理原理、工程落地方法与性能优化
学习AI机器学习所需的数学基础 frostmelody 机器学习小知识点人工智能学习机器学习
一、机器学习岗位的数学需求矩阵机器学习岗位研究型职位工业界职位DeepMind/Meta/Google研究部门研究科学家/研究工程师普通科技公司机器学习工程师/数据科学家需硕士/博士数学水平本科数学基础二、数学需求深度解析1.研究型职位（需深度数学）学历要求：数学/物理/计算机/统计/工程本科基础硕士/博士优先（Kaggle调查显示博士占比高）薪资关联：学历与收入呈正相关2.工业界职位（基础数学）
深度学习详解：通过案例了解机器学习基础 beist 深度学习机器学习人工智能
引言机器学习（MachineLearning，ML）和深度学习（DeepLearning，DL）是现代人工智能领域中的两个重要概念。通过让机器具备学习的能力，机器可以从数据中自动找到函数，并应用于各种任务，如语音识别、图像识别和游戏对战等。在这篇笔记中，我们将通过一个简单的案例，逐步了解机器学习的基础知识。1.1机器学习案例学习1.1.1回归问题与分类问题在机器学习中，根据所要解决的问题类型，任务
浅说深拷贝（Deep Copy）与浅拷贝（Shallow Copy） =^_^=喵喵 javascript 前端开发语言
在JavaScript中，深拷贝和浅拷贝是两种不同的数据复制方式，主要区别在于如何处理引用类型数据（如对象、数组）。1.浅拷贝（ShallowCopy）定义：只复制对象的第一层属性，如果属性是引用类型（如对象、数组），则复制的是引用，而不是实际数据。特点：原始对象和拷贝后的对象共享引用类型的属性。修改其中一个对象的引用类型属性会影响另一个对象。实现方式：Object.assign()（仅第一层深拷
DeepSeek：开启教育测评智能化新时代奔跑吧邓邓子 DeepSeek 实战 DeepSeek 教育测评应用
目录一、引言二、DeepSeek技术概述2.1DeepSeek的发展历程与特点2.2工作原理与技术架构三、测评试题智能生成3.1生成原理与技术实现3.2生成试题的类型与应用场景3.3优势与面临的挑战四、学生学习评价报告4.1评价指标体系与数据来源4.2DeepSeek生成评价报告的流程与方法4.3评价报告的特点与应用价值五、教育测评系统优化5.1DeepSeek对教育测评系统的优化作用5.2实际案
从实验到生产：DeepSeek大模型工程化部署的关键步骤与风险控制一ge科研小菜菜人工智能人工智能
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注一、引言：大模型部署迈入“工程化时代”随着DeepSeek等开源大语言模型（LLM）的发展，大模型不再是AI实验室的专属工具，越来越多的企业正尝试将其纳入业务生产系统，应用于客服问答、合同审查、数据分析、自动写作等场景。但模型的能力≠可用的系统。从模型下载到模型上线，中间隔着“部署的鸿沟”：资源配置、服务稳定性、响应效率、安全控制、上线合规……一
DeepBI如何用AI竞价破解亚马逊广告ACOS困局扬帆起航13 人工智能
在亚马逊这个全球最大的电商竞技场中，广告投放早已成为卖家突围的必争之地。然而，当无数卖家反复纠结"亚马逊广告竞价设置多少合适"这一问题时，背后折射出的其实是整个行业面临的系统性难题。作为从业多年的广告优化师，我见证过太多卖家在手动调价、关键词管理和预算分配中疲于奔命，最终陷入"高投入低回报"的恶性循环。核心痛点往往集中在三个维度：竞价策略缺乏动态响应能力，关键词管理跟不上市场变化节奏，预算分配与库
深入浅出：KVM虚拟机连接LinuxBridge完全指南来自于狂人云计算
在虚拟化的世界里，网络连接如同现实世界的道路系统，而LinuxBridge就是那座关键的桥梁。本文将带你亲手搭建这座桥梁，让KVM虚拟机畅通无阻。一、核心概念：理解虚拟化网络的基石在动手配置前，我们需要理解几个关键概念：KVM(Kernel-basedVirtualMachine)基于Linux内核的完全虚拟化解决方案通过/dev/kvm接口直接使用硬件虚拟化扩展典型工具栈：libvirt+QEM
3秒搞定DeepSeek数学公式转Word！学生党救星（附代码实测） Uyker python 编辑器
适用场景：论文交稿deadline/报告美化/作业急救工具白嫖指南：免费+免安装方案优先一、终极方案：Mathpix截图转公式（强推！）效果：复杂矩阵→完美还原步骤：复制DeepSeek输出的LaTeX代码（例）\vec{F}=q(\vec{E}+\vec{v}\times\vec{B})打开Mathpix官网→按Ctrl+Alt+M截取公式右键粘贴到Word→自动变身标准公式！✅优势：识别准确率
DeepSeek 部署中的常见问题及解决方案：从环境配置到性能优化的全流程指南慌ZHANG 人工智能人工智能
个人主页：慌ZHANG-CSDN博客期待您的关注一、引言：大模型部署的现实挑战随着大模型技术的发展，以DeepSeek为代表的开源中文大模型，逐渐成为企业与开发者探索私有化部署、垂直微调、模型服务化的重要选择。然而，模型部署的过程并非“一键启动”那么简单。从环境依赖、资源限制，到推理性能和服务稳定性，开发者往往会遇到一系列“踩坑点”。本文将系统梳理DeepSeek模型在部署过程中的典型问题与实践经
【软件系统架构】系列四：嵌入式软件-M2M 与 NPU 技术对比及协同设计方案
目录一、基本定义二、技术目标差异三、架构组成对比四、功能能力对比五、应用场景对比六、综合对比总结表七、协同场景建议八、M2M+NPU协同系统设计方案1.系统架构图（简化逻辑）2.模块划分与功能说明三、通信时序图（关键路径）四、数据协议定义（JSON）上报事件（推理结果）云端控制命令五、协同机制设计建议六、典型应用示例（如：AI门锁、边缘安防）一、基本定义项目M2M（MachinetoMachine
MI300X vs H100：DeepSeek 部署在哪个 GPU 上性价比最高？卓普云技术科普 AIGC 人工智能 Deepseek H100 MI300x
随着大模型部署和推理变得越来越普及，开发者和企业对GPU的选择也越来越挑剔。特别是像DeepSeek这样的开源模型家族，从轻量级的6.7B，到动辄上百亿甚至数百亿参数的超大模型，背后对算力和显存的要求各不相同。最近，一则重磅消息在AI圈引起了轩然大波：连AI巨头OpenAI也在探索并计划使用AMDInstinctMI300xGPU！这无疑是对AMD这款高性能GPU的巨大认可，也预示着它将在AI算力
找组织——机器学习社区、团体洞察小哥伯涵机器学习人工智能
在Github上，有一些中文社区可以看一看：prompt“如果我是个AI小白，想参加到一个组织，接收最新的AI有趣源项目、一些定期的刊物等。我应该加入哪些组织？”AI社区——深度学习社区Reddit上的MachineLearningsubreddit:https://www.reddit.com/r/MachineLearning/是一个拥有超过400,000名成员的活跃社区。在这里，您可以找到有
SpringBoot接入DeepSeekAPI接口鱼见千寻 DeepSeek spring boot 后端 java
（前排提示！！！！！！！！！！！！这几天模型调用很卡有时候会失败）1、首先需要进入DeepSeek官网的发放平台https://platform.deepseek.com/usage，然后需要在该平台申请一个APIKEY需要注意的是调用这个东西是需要钱的，它刚开始会免费送你十块钱（有期限大概是一个月），你要是只是玩玩可以不充钱，充钱也只需要支付宝微信很方便快捷。2、创建配置类importorg.s
从零开始理解零样本学习：AI人工智能必学技术 AI学长带你学AI 学习人工智能 ai
从零开始理解零样本学习：AI人工智能必学技术关键词：零样本学习、跨模态映射、语义空间、AI泛化能力、大模型、少样本学习、数据效率摘要：传统AI需要“见多识广”才能识别新事物，但现实中很多场景（如稀有物种、冷门物品）缺乏足够数据。零样本学习（Zero-ShotLearning,ZSL）就像AI的“推理翻译官”，能让机器通过“文字描述”理解“没见过的图片”。本文将用“认新单词”的生活故事，一步步拆解零
如何使本地大模型拥有联网搜索的能力？ SugarPPig 人工智能人工智能
要让本地部署的大模型（如DeepSeek、LLaMA、ChatGLM等）具备联网搜索能力，需要将模型与外部工具结合，通过API调用、插件或代理机制实现实时信息获取。以下是具体实现方案：一、核心实现思路工具调用机制：为大模型添加调用搜索引擎API的能力工作流程：用户提问→模型判断是否需要搜索→调用搜索API→解析搜索结果→生成最终回答技术架构分层：交互层：接收用户包含实时信息需求的query决策层：
公钥密码体系崩溃风险：Shor算法可在多项式时间内破解RSA、ECC等基于大整数分解和离散对数问题的公钥算法。4099量子位的量子计算机运行Shor算法可在10秒内破解RSA2048 百态老人算法量子计算
基于我搜索到的资料，以下从四个维度全面分析公钥密码体系的量子威胁现状及应对策略：一、Shor算法对公钥密码体系的威胁机制算法原理与攻击效率Shor算法通过量子傅里叶变换（QFT）高效求解整数分解和离散对数问题：核心步骤包括随机数生成、模指数周期检测（f(x)=axmod Nf(x)=a^x\modNf(x)=axmodN）和量子并行计算，复杂度仅O(log⁡3N)O(\log^3N)O(log3
Python Robot Framework【自动化测试框架】简介老胖闲聊 Python库大全 python 开发语言
想全面了解DeepSeek的看过来【包邮】DeepSeek全攻略人人需要的AI通识课零基础掌握DeepSeek的实用操作手册指南【限量作者亲笔签名版售完即止】玩转DeepSeek这本就够了【自营包邮】DeepSeek实战指南deepseek从入门到精通实用操作指南现代科技科普读物AI普及知识读物人工智能使用教程中小学读物京东超级618Python初学者的入门教程动手学深度学习PyTorch版李沐和
Deepin Linux如何安装Terminus终端教程 yong9990 linux 运维服务器
在DeepinLinux上安装Terminus终端可以通过以下步骤完成：下载Terminus安装包：访问Terminus的官方网站（https://github.com/Eugeny/terminus/releases）或其他可靠资源，下载适用于Linux的Terminus安装包。选择适合你系统架构的版本，通常是amd64（64位）。安装依赖：在安装Terminus之前，确保你的系统已经安装了必要
深度学习学习指南努力的Lorre 深度学习人工智能
本帖子将以本书的逻辑和顺序做一个梳理：CS基础->AI算法->模型压缩->异构计算->AI框架->AI编译器《DeepLearningSystems》(https://deeplearningsystems.ai/)CS基础推荐书单所需的编程语言(C/C++、Python)就不多讲了，数据结构算法也是大学基础课程，不多赘述。对于操作系统需要多了解，推荐多看一看《深入理解计算机系统》(传说中的面试圣
Vue3.0深度选择器:deep()不生效 Gzzz__ Vue 前端 javascript vue.js
什么是:deep()选择器？首先，让我们来了解一下:deep()选择器的基本概念。:deep()选择器是Vue3中引入的一种选择器，它允许您在全局范围内选择元素，而不受到样式作用域的限制。这意味着您可以轻松地选择和样式化组件内的元素，而不必担心局部作用域。为什么:deep()可能不会生效？如果您发现:deep()选择器在Vue3组件中不起作用，这可能是由于多种原因引起的。在解决问题之前，让我们深入
Python 执行速度慢的原因及全面优化方案北辰alk python python 开发语言
文章目录一、Python执行速度慢的深层原因1.解释型语言特性2.内存管理机制3.数据结构特性4.优化器限制二、语言层面的优化策略1.选择高效的数据结构数据结构选择指南：2.利用内置函数和库常用高效内置函数：3.减少全局变量访问三、算法与设计优化1.时间复杂度优化案例2.空间换时间策略3.延迟计算与生成器四、系统级优化方案1.使用PyPy替代CPython2.Cython混合编程3.多进程并行计算
DeepSeek打破AI天花板：MoE架构+RL推理，效率提升5倍的底层逻辑泡泡Java AI大模型人工智能架构
文章目录一、引言二、MoE架构：高效计算的核心支撑（一）MoE架构概述（二）DeepSeekMoE架构的创新点（三）MoE架构的代码实现示例三、RL推理：智能提升的关键驱动（一）RL推理概述（二）R1的训练流程（三）RL推理中的关键技术（四）RL推理的代码实现示例四、MoE架构与RL推理的结合：效率提升的奥秘（一）计算效率的提升（二）推理能力的增强（三）整体性能的飞跃五、结论与展望《DeepSee
解线性方程组 qiuwanchi
package gaodai.matrix; import java.util.ArrayList; import java.util.List; import java.util.Scanner; public class Test { public static void main(String[] args) { Scanner scanner = new Sc
在mysql内部存储代码 annan211 性能 mysql 存储过程触发器
在mysql内部存储代码在mysql内部存储代码，既有优点也有缺点，而且有人倡导有人反对。先看优点： 1 她在服务器内部执行，离数据最近，另外在服务器上执行还可以节省带宽和网络延迟。 2 这是一种代码重用。可以方便的统一业务规则，保证某些行为的一致性，所以也可以提供一定的安全性。 3 可以简化代码的维护和版本更新。 4 可以帮助提升安全，比如提供更细
Android使用Asynchronous Http Client完成登录保存cookie的问题 hotsunshine android
Asynchronous Http Client是android中非常好的异步请求工具除了异步之外还有很多封装比如json的处理，cookie的处理引用 Persistent Cookie Storage with PersistentCookieStore This library also includes a PersistentCookieStore whi
java面试题 Array_06 java 面试
java面试题第一，谈谈final, finally, finalize的区别。 final-修饰符（关键字）如果一个类被声明为final，意味着它不能再派生出新的子类，不能作为父类被继承。因此一个类不能既被声明为 abstract的，又被声明为final的。将变量或方法声明为final，可以保证它们在使用中不被改变。被声明为final的变量必须在声明时给定初值，而在以后的引用中只能
网站加速 oloz 网站加速
前序:本人菜鸟，此文研究总结来源于互联网上的资料，大牛请勿喷！本人虚心学习，多指教. 1、减小网页体积的大小，尽量采用div+css模式，尽量避免复杂的页面结构，能简约就简约。 2、采用Gzip对网页进行压缩； GZIP最早由Jean-loup Gailly和Mark Adler创建，用于UNⅨ系统的文件压缩。我们在Linux中经常会用到后缀为.gz
正确书写单例模式随意而生 java 设计模式单例
　　单例模式算是设计模式中最容易理解，也是最容易手写代码的模式了吧。但是其中的坑却不少，所以也常作为面试题来考。本文主要对几种单例写法的整理，并分析其优缺点。很多都是一些老生常谈的问题，但如果你不知道如何创建一个线程安全的单例，不知道什么是双检锁，那这篇文章可能会帮助到你。　　懒汉式，线程不安全　　当被问到要实现一个单例模式时，很多人的第一反应是写出如下的代码，包括教科书上也是这样
单例模式香水浓 java
懒汉调用getInstance方法时实例化 public class Singleton { private static Singleton instance; private Singleton() {} public static synchronized Singleton getInstance() { if(null == ins
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" AdyZhang apache http server
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" 每次到这一步都很小心防它的端口冲突问题，结果，特意留出来的80端口就是不能用，烦。解决方法确保几处： 1、停止IIS启动 2、把端口80改成其它（譬如90，800，，，什么数字都好） 3、防火墙(关掉试试) 在运行处输入 cmd 回车，转到apa
如何在android 文件选择器中选择多个图片或者视频？ aijuans android
我的android app有这样的需求，在进行照片和视频上传的时候，需要一次性的从照片/视频库选择多条进行上传但是android原生态的sdk中，只能一个一个的进行选择和上传。我想知道是否有其他的android上传库可以解决这个问题，提供一个多选的功能，可以使checkbox之类的，一次选择多个处理方法官方的图片选择器(但是不支持所有版本的androi，只支持API Level
mysql中查询生日提醒的日期相关的sql baalwolf mysql
SELECT sysid,user_name,birthday,listid,userhead_50,CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')),CURDATE(), dayofyear( CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')))-dayofyear(
MongoDB索引文件破坏后导致查询错误的问题 BigBird2012 mongodb
问题描述： MongoDB在非正常情况下关闭时，可能会导致索引文件破坏，造成数据在更新时没有反映到索引上。解决方案：使用脚本，重建MongoDB所有表的索引。 var names = db.getCollectionNames(); for( var i in names ){ var name = names[i]; print(name);
Javascript Promise bijian1013 JavaScript Promise
Parse JavaScript SDK现在提供了支持大多数异步方法的兼容jquery的Promises模式，那么这意味着什么呢，读完下文你就了解了。一.认识Promises “Promises”代表着在javascript程序里下一个伟大的范式，但是理解他们为什么如此伟大不是件简
[Zookeeper学习笔记九]Zookeeper源代码分析之Zookeeper构造过程 bit1129 zookeeper
Zookeeper重载了几个构造函数，其中构造者可以提供参数最多，可定制性最多的构造函数是 public ZooKeeper(String connectString, int sessionTimeout, Watcher watcher, long sessionId, byte[] sessionPasswd, boolea
【Java命令三】jstack bit1129 jstack
jstack是用于获得当前运行的Java程序所有的线程的运行情况(thread dump），不同于jmap用于获得memory dump [hadoop@hadoop sbin]$ jstack Usage: jstack [-l] <pid> (to connect to running process) jstack -F
jboss 5.1启停脚本　动静分离部署 ronin47
以前启动jboss，往各种xml配置文件，现只要运行一句脚本即可。start nohup sh /**/run.sh -c servicename -b ip -g clustername -u broatcast jboss.messaging.ServerPeerID=int -Djboss.service.binding.set=p
UI之如何打磨设计能力? brotherlamp UI ui教程 ui自学 ui资料 ui视频
在越来越拥挤的初创企业世界里，视觉设计的重要性往往可以与杀手级用户体验比肩。在许多情况下，尤其对于 Web 初创企业而言，这两者都是不可或缺的。前不久我们在《右脑革命：别学编程了，学艺术吧》中也曾发出过重视设计的呼吁。如何才能提高初创企业的设计能力呢?以下是 9 位创始人的体会。 1.找到自己的方式如果你是设计师，要想提高技能可以去设计博客和展示好设计的网站如D-lists或
三色旗算法 bylijinnan java 算法
import java.util.Arrays; /** 问题：假设有一条绳子，上面有红、白、蓝三种颜色的旗子，起初绳子上的旗子颜色并没有顺序，您希望将之分类，并排列为蓝、白、红的顺序，要如何移动次数才会最少，注意您只能在绳子上进行这个动作，而且一次只能调换两个旗子。网上的解法大多类似：在一条绳子上移动，在程式中也就意味只能使用一个阵列，而不使用其它的阵列来
警告:No configuration found for the specified action: \'s chiangfai configuration
1.index.jsp页面form标签未指定namespace属性。  <%@taglib prefix="s" uri="/struts-tags"%> ... <s:form action="submit" method="post"&g
redis -- hash_max_zipmap_entries设置过大有问题 chenchao051 redis hash
使用redis时为了使用hash追求更高的内存使用率，我们一般都用hash结构，并且有时候会把hash_max_zipmap_entries这个值设置的很大，很多资料也推荐设置到1000，默认设置为了512，但是这里有个坑 #define ZIPMAP_BIGLEN 254 #define ZIPMAP_END 255 /* Return th
select into outfile access deny问题 daizj mysql txt 导出数据到文件
本文转自：http://hatemysql.com/2010/06/29/select-into-outfile-access-deny%E9%97%AE%E9%A2%98/ 为应用建立了rnd的帐号，专门为他们查询线上数据库用的，当然，只有他们上了生产网络以后才能连上数据库，安全方面我们还是很注意的，呵呵。授权的语句如下： grant select on armory.* to rn
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
<?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('This example should only be run from a Web Brows
美国电影超短200句 dcj3sjt126com 电影
1. I see．我明白了。2. I quit! 我不干了!3. Let go! 放手!4. Me too．我也是。5. My god! 天哪!6. No way! 不行!7. Come on．来吧(赶快)8. Hold on．等一等。9. I agree。我同意。10. Not bad．还不错。11. Not yet．还没。12. See you．再见。13. Shut up!
Java访问远程服务 dyy_gusi httpclient webservice get post
随着webService的崛起，我们开始中会越来越多的使用到访问远程webService服务。当然对于不同的webService框架一般都有自己的client包供使用，但是如果使用webService框架自己的client包，那么必然需要在自己的代码中引入它的包，如果同时调运了多个不同框架的webService，那么就需要同时引入多个不同的clien
Maven的settings.xml配置 geeksun settings.xml
settings.xml是Maven的配置文件，下面解释一下其中的配置含义： settings.xml存在于两个地方： 1.安装的地方：$M2_HOME/conf/settings.xml 2.用户的目录：${user.home}/.m2/settings.xml 前者又被叫做全局配置，后者被称为用户配置。如果两者都存在，它们的内容将被合并，并且用户范围的settings.xml优先。
ubuntu的init与系统服务设置 hongtoushizi ubuntu
转载自： http://iysm.net/?p=178 init Init是位于/sbin/init的一个程序，它是在linux下，在系统启动过程中，初始化所有的设备驱动程序和数据结构等之后，由内核启动的一个用户级程序，并由此init程序进而完成系统的启动过程。 ubuntu与传统的linux略有不同，使用upstart完成系统的启动，但表面上仍维持init程序的形式。运行
跟我学Nginx+Lua开发目录贴 jinnianshilongnian nginx lua
使用Nginx+Lua开发近一年的时间，学习和实践了一些Nginx+Lua开发的架构，为了让更多人使用Nginx+Lua架构开发，利用春节期间总结了一份基本的学习教程，希望对大家有用。也欢迎谈探讨学习一些经验。目录第一章安装Nginx+Lua开发环境第二章 Nginx+Lua开发入门第三章 Redis/SSDB+Twemproxy安装与使用第四章 L
php位运算符注意事项 home198979 位运算 PHP &
$a = $b = $c = 0; $a & $b = 1; $b | $c = 1 问a,b,c最终为多少? 当看到这题时，我犯了一个低级错误，误以为位运算符会改变变量的值。所以得出结果是1 1 0 但是位运算符是不会改变变量的值的，例如： $a=1;$b=2; $a&$b; 这样a,b的值不会有任何改变
Linux shell数组建立和使用技巧 pda158 linux
1.数组定义　　[chengmo@centos5 ~]$ a=(1 2 3 4 5) 　　[chengmo@centos5 ~]$ echo $a 　　1 　　一对括号表示是数组，数组元素用“空格”符号分割开。　　 2.数组读取与赋值　　得到长度：　　[chengmo@centos5 ~]$ echo ${#a[@]} 　　5 　　用${#数组名[@或
hotspot源码(JDK7) ol_beta java HotSpot jvm
源码结构图，方便理解： ├─agent Serviceab
Oracle基本事务和ForAll执行批量DML练习 vipbooks oracle sql
基本事务的使用：从账户一的余额中转100到账户二的余额中去，如果账户二不存在或账户一中的余额不足100则整笔交易回滚 select * from account; -- 创建一张账户表 create table account( -- 账户ID id number(3) not null, -- 账户名称 nam

并行化实现基于BP神经网络的手写体数字识别

并行化实现基于BP神经网络的手写体数字识别

环境搭建

MPI

OpenMP

BP神经网络算法基础

1. 算法框架

2.样本训练

正向传播

反向训练

3. 数据处理

1. 训练数据集

简介

读取数据

2. 算法相关参数声明

4. 并行机制

MPI–数据并行

OpenMP–计算并行

5. 可扩展性设计

6.结果分析

并行参数调整分析

1. 不同输入样本量

2.不同粒度

3.不同进程/线程数

算法参数调整分析

1.不同训练周期数

2.不同学习率

3.不同隐藏层细胞数

小结

参考资料

CSDN下载

你可能感兴趣的:(Machine,Learning/Deep,Learning,并行计算)