林北不要忍了

【CS231N笔记】P7 P8:训练神经网络

子豪兄YYDS
https://www.bilibili.com/video/BV1K7411W7So?p=7
https://www.bilibili.com/video/BV1K7411W7So?p=8

一、简介

神经网络的训练主要是包括三部分：固定性的设置、动态的训练以及评估。

固定性的设置包括激活函数的选择、预处理、权重初始化、正则化、梯度校验，这些内容在训练之前就可以确定好，在训练过程中不需要再关注这些内容。
动态的训练则包括验证集上的误差、参数的更新、超参数的寻找策略，这部分的内容在训练过程中会发生变化，所以需要在训练时进行处理。
评估则是在训练好后对模型的集成，比如说集成学习之类的。

二、激活函数

①Sigmoid激活函数
也称为挤压函数，因为这个函数可以将任何的数映射到0-1的范围内。这个激活函数可解释性好，可以类比神经细胞是否激活。但是也有三个问题，首先在输入特别小或者特别大的时候函数会出现饱和，同时也会出现梯度的消失，其次输出永远是正值，而且永远不会是0和1，这会导致更新权重时，一个神经元的所有权重要么都变大要么都变小。
具体来说，我们假设有一层的激活函数是下图的形式，这一神经元的上一层的所有神经元都是用的sigmoid激活函数。

在计算梯度的时候，对这个神经元的参数来说前面的总体梯度都是一样的，而计算局部梯度时，假设对w1求偏导，那么得到的是x1，同理对wi求导得到的就是xi，而上一层采用的sigmoid函数会让所有的输出都是正数，也就是说xi都是正的，也就是说所有的偏导都是正数，局部梯度是同号的，那么全局梯度也是同号的，这会导致更新权重时所有的参数更新要么都变大要么都变小，单独摘出来两个参数画图的话可以得到下面的图：

在这个图里面绿色的部分表示两个参数的更新方向，二者同增同减，只不过大小有区别，但如果更新方向是蓝色箭头所示的方向，那么整个参数就没有办法向着正确的方向更新，这个问题也称做zigzag问题。
最后，sigmoid函数由于使用了指数运算，所以会比较消耗计算资源。

②Tanh
翻译为双曲正切，这个激活函数和sigmoid很像，其实这两个激活函数可以通过缩放变换互相转换。不难看出双曲正切同样存在饱和问题，也就会带来极限情况下的梯度消失问题，但是好处输出空间关于0对称，有正有负，就不会产生zigzag问题。

③ReLU
翻译为修正线性单元，也会翻译为整流线性单元，因为这个函数将x<0的部分全部去掉了，相当于进行了一次整流。这个激活函数不会饱和，而且计算容易，几乎不占用计算资源，并且x>0的时候梯度能够得到保留，让网络的收敛速度快了很多。
但是缺点也很明显，当x<0的时候函数值恒为零，也就意味着梯度丢失，意味着一些神经元就是死的，虽然在神经网络中，但是因为输入值小于0，所以ReLU函数的结果是0，梯度也为0，因此永远不会更新。这个问题叫做dead ReLU，导致这个问题的原因主要有两个，一个是初始化不良，即我们随机初始化的时候随机的效果不太好，让输入加权求和之后的结果小于0，从而经过ReLU函数之后没法更新。另一个原因是学习率太大，导致修正的时候修正过大。解决方法是在初始化的时候在ReLU后面加一个正数的偏置项，让所有神经元至少有一个输出，之后再进行调整。

④Leaky ReLU
为了解决一般ReLU函数在x<0的时候没有梯度的问题而引进的一种改进方法，这种方法主要是修改了一下x<0的时候的表达式，加一个很小的系数，让这种情况下不一直为零，从而解决了梯度为0的问题。

⑤ELU
同样的修正ReLU还有ELU，同样是修改了x<0的情况，ELU将这部分换成了指数的表达形式，但是引入指数会导致计算量的增加。

⑥Maxout
这个激活函数有些奇怪，它是增加了k个神经元，也就是增加了k套权重，利用这新增的k套权重，计算出了k个输出值，选这k个中的最大值作为最终的输出值。

这种方法引入了新的神经元，改变了神经网络的结构，实际上是一种特殊的激活函数。

对于这些激活函数，使用ReLU时需要小心学习率过大带来的deadReLU问题，可以使用tanh但是不要寄予太大希望，不要在中间层轻易使用sigmoid函数。

三、数据预处理

数据预处理也称为特征工程，是十分重要的一部分，这个部分需要因地制宜，根据数据的特征和问题的内容来确定处理的方法。
常用的一种数据预处理的方法是数据的标准化，就是概率论里面将正态分布转换为标准正态分布的方法，减去均值再除以标准差，这样处理之后就可以得到服从标准正态分布的数据。

从图像里也可以看出，一开始的数据偏离原点而且分散不均匀，在减去均值之后，数据的分布就向中心位置靠拢了，再除以样本的标准差之后，数据就更加密集了，相比于原始数据，处理过后的数据更加密集而且分布也更加合理。

另一种方法叫做主成分分析，也叫做线性降维投影，选出原始数据中方差变化最大的方向作为第一主成分，对应的是协方差矩阵的主特征向量，之后选第一主成分的垂线方向作为第二主成分，对应协方差矩阵的次特征向量，按这两个方向投影，就可以更换数据的分布。
图中绿色的部分就是线性降维投影之后的结果，可以看见整个数据相当于转了转，让变化最大和变化最小的两个方向变成坐标轴的方向。蓝色的部分是除以标准差之后的结果，相当于又进行了一次处理，让分布更加的密集。

可以看出两次的调整都是将原本的数据调整到关于原点对称并且十分密集的程度，这种方法主要是为了降低损失函数对权重矩阵细小变化的敏感程度，当数据偏离原点而且十分分散的时候，对于权重矩阵的一点修改就可能导致损失函数产生很大的变化，采用数据的正则化，让数据移动到合适的位置，就可以降低敏感程度，从而在调整权重时可以适当调大学习率，也不会产生太大的波动。

四、权值初始化

权重初始化的主要目的，是为了让数据更好地分布，如果数据大量集中在一个部位，很可能导致梯度丢失，从而无法更新前面的权值。

权重可以通过梯度下降进行修正，但是初始化的结果可以影响到修正的花费时间，如果初始化结果很烂，那么修正到收敛耗费的时间也会很久。假设一个极限的情况，就是让同一层的所有的权重都为同一个常数，那么在前向传播和反向优化的过程中，所有节点的操作是完全一样的，这就相当于一层只有一个节点，就算有再多，输出的结果都是一样的，相当于只学习到了一个特制，也就是只有那么一个节点在工作。

在初始化时可以采用标准正态分布的方法，利用numpy里面的randn函数去产生一个符合输入输出的权重矩阵，这样的到的权重矩阵每个元素都符合标准正态分布，最后将权重矩阵同时乘以一个小数来进行一定程度的缩放。

在这种情况下，我们假设激活函数采用tanh，那么输出的结果也会根据前面的小数的变化而变化，当数比较小时，比如说取0.01，数据经过加权求和后会集中在0的附近，会因为取值为零在计算局部梯度的时候出现梯度丢失的现象，数比较大时，比如说取0.05，数据就集中在饱和的位置也就是±1处，会因为tanh函数的性质在计算全局梯度的时候出现梯度丢失。

这两张图正好是小数为0.01和0.05的时候的每一层的输出结果，对于前者，大量的输出趋向于0，这会导致在计算权重的局部梯度时，得到的局部梯度也就是上一层的输出会是0，这会导致梯度丢失，对于后者，大量的值趋向于饱和，这会导致计算全局梯度时结果为零进而导致梯度丢失。
可以看出，前面用于缩放的小数无论是过大还是过小都是不合适的，也就是说缩放需要进行，但是缩放到什么程度是个很重要的问题。为了解决这个问题，科学家引入了xavier方法。

这个方法是在随机生成的梯度矩阵上同时除以一个输入维度的开平方来表示缩放程度，而不是直接乘以一个人为指定的小数，也就是让初始化的权重根据输入的维度来变化，输入的维度很大，那就让权重矩阵缩小的多一些，反过来输入维度很小，权重矩阵缩小的就小一些。

可以看见经过处理之后，数据不再集中在0或者饱和点，而是很均匀地分布在-1到1之间，这样就避免了梯度丢失的问题。

如果将激活函数换成ReLU，那么结果也会发生变化，由于ReLU函数整流的特点，大量的负值的输出结果会变成0，这一点是ReLU作为激活函数不可避免的问题，但是从图里也可以看出越来越多的正值也在靠近0，这些数据都会导致导致梯度丢失的问题，所以这时候xavier就不管用了。为此引入了kaiming初始化。

kaiming初始化是乘以一个小数换为乘以2/Din的开根号。

更换xavier初始化之后，效果如下：

可以看出虽然大量负值依然被投射到了0的位置，但是正值并没有完全被投影到0，这对于ReLU就已经是很大的改进了。

五、Batch Normalization

在实际的模型训练中，我们更希望每一层结果是均匀地分布在0周围，而不是全集中在一个部分，也就是希望数据满足标准正态分布，一种方法是强行正则化，也就叫batch normalization，通过减去期望除以标准差来构造标准正态分布。
这里利用到了前面的mini batch的思想，每个batch里面有N个D维的特征向量，这些向量可以拼出来一个N×D的矩阵，讲这个矩阵的每一列都进行标准正态分布的处理，得到的就是强行处理后的特征矩阵。

但有时候这种强行操作的效果并不好，因此又引入了两个参数γβ，让强行处理后的结果再进行处理：

这个是训练阶段的batch normalization，也就是让对每个batch进行处理。而在测试阶段，用训练时的总均值和总方差去代替minibatch的均值和方差，也就是用全部数据的均值和方差去代替训练阶段每个batch的均值方差。
采用这种batch normalization的方法，主要目的是为了把数据拉平，让数据不要集中在一起，从而让梯度更好地暴露出来。

对于这个例子，一个batch中有N个D维向量，组成了一个N×D的矩阵，这个矩阵经过计算，会得到D个均值和方差，也就是数据在每一维上的均值和方差，之后在每一维度上学得一个γβ，也就是学习到D个γβ，最终组合成上图所示的样子。

而在卷积神经网络中，每个batch实际上是N个图片，用C个卷积核生成C个高H宽W的特征图，在进行batch normalization时同样道理也会学到C个均值方差，这个时候的均值方差代表的是每个特征图的均值方差，而不再是单独一个维度上的均值方差，同理也会在每个特征图上学得一个γβ，最后组成上图的形式。

Batch normalization一般单独拿出来作为一层，叫做BN层，一般放在非线性层之前，采用BN层，主要作用是将数据分开，从而可以加快收敛、改善梯度、降低对初始化的敏感程度、一定程度上还有正则化的作用，但是需要注意训练和测试的时候使用的均值和方差是不同的。但是需要注意训练过程和测试过程的均值和方差是不同的。

除此之外其实还有很多种的normalization：

上面这张图是将特征图的长宽压缩到了一个纬度里面，第一个图表示的是BN，其中的红色区域表示的是mini batch中N个图片用同样的卷积核卷积特征图，对这些特征图计算均值方差从而完成batch normalization。第二个图表示的是LN，图中的红色区域表示mini batch中第一个图片的全部卷积核计算得到的特征图，对这些特征图计算均值方差来完成normalization，也就是用每一张图片产生的全部特征图来normalization。第三张图表示的是IN，红色区域表示的是mini batch中一张图的一个特征图，单独计算这个图的方差均值再进行normalization，也就是一个特征图一个操作。最后一个图表示的是GN，其中红色区域是一个图片的某些卷积核产生的特征图，用这些特征图计算均值方差来进行normalization。

六、梯度下降优化器

使用传统的随机梯度下降的时候，有时会在梯度较大的方向上发生震荡，就像下面图里这样，这种情况下减小学习率并不会带来特别好的解决效果，因为减小了学习率会让两个方向的分量同时且同规模减小，从而产生不了好的效果。

另外在高维空间中会存在局部最优点和鞍点，一旦陷入了局部最优点，按照梯度下降法的内容是无法离开的，会被困在局部最优点。

对于最基本的随机梯度下降，我们可以看作是一个人在一步一步地走路，注意一定是一步一步前进，每走一步就停下，然后根据当前的梯度最大的方向确定下一步该往哪里走。这种思路是不考虑之前的移动方向对接下来移动的影响，因为我们是一步一步走的，每次都完全停下来。

一种改进策略就是在SGD随机梯度下降的基础上增加动量。首先初始化一个动量为0，依然计算梯度方向，然后同时考虑动量和梯度方向作为更新的方向。

这是加动量之后的计算方法，可以看出，现在移动的方向就变成了vx，而vx不仅考虑了梯度方向，还加上了一个rho控制的动量方向，根据rho参数的大小，对vx的影响也是不一样的，这个时候整个更新就像是一个人跑步下山，必然会根据梯度的方向跑，但是还会受到自身惯性带来的影响。
但是这种考虑上一个时刻方向的方式也会带来很明显的缺点，就是会出现惯性问题，会到达原本不该到达的地方，只有冲过了才能反向回来。这带来的明显问题就是收敛时间的增加，会让到达最小值的时间增加。

可以看见增加了动量之后，更新的方向就不会出现单独SGD时的迈步过大的问题。动量在这里起到了一个平均、平滑的作用。

基于动量的方法，又延伸出了一种预知的方法，完全基于梯度的更新策略实际上是向着速度和梯度的矢量和方向去移动，而基于预知的方法考虑的是速度和下一个时刻梯度的矢量和方向。

这种基于预知的梯度的名字叫Nesterov Momentum，简写是NAG，翻译一下的话前面这个词实在是翻译不出来，有道显示是一个俄语单词，这里干脆就叫毛子动量。毛子动量主要是更改了一般动量的梯度，这种方法属于向前看一步，计算梯度的位置不是当前所在的位置，而是按照当前速度方向，下一个时刻所在的位置的梯度，相当于预测了下一个时刻的梯度。
采用这种方式，主要是为了改善基于动量的方法中冲过头的问题，利用毛子方法，可以提前感知到到达了梯度小的位置，从而早点刹车，就不会冲过头了。

从代码可以看出，对比只考虑动量的方法，在更新方向时梯度的部分变成了当前时刻xt加上当前时刻的速度方向乘以控制参数，这样做相当于计算了下一个时刻的梯度，对应下面的图示：

可以看见，在xt点的时候，速度方向是绿色的方向，红色的是下一个时刻的梯度方向，利用这两个方向，合成出的是紫色的方向，也就是移动的方向，在这个方向上移动，得到的是下一个时刻的位置xt+1,重复这个过程直到到达极小值点。

上面的两种方法都是基于动量的优化策略，还有一种优化策略是增加惩罚项，这种方法叫做AdaGrada。因为一般的SGD是在梯度较大的地方出现震荡，那么按照这个思路，在梯度大的地方增加惩罚项，让这个时候的更新值变小，就可以防止迈步过大的问题。

可以看见计算梯度的部分并没有产生变化，变化的是后面的惩罚项，也就是分母的部分，这个部分是对所有之前位置梯度的平方的求和，也就是说之前到达的点的梯度越大，乘法也就越大，更新的值也就越小，从而防止出现震荡。
但是惩罚项也会越来越大，到了最后会导致每次都迈步很小，几乎没有更新，也就是长时间后更新量会衰减到0。
为了解决这个问题，又引入了RMSProp优化器，这个优化器也叫做削弱的AdaGrad
，它本质上还是增加惩罚项，但惩罚项变了，变成下面的格式：

它将累加的方法换了，增加了一个衰减量，每次综合考虑这次的更新和前面的累积
，从而防止长时间的累积带来的影响。

将这两个思路融合在一起，也就是同时考虑动量和惩罚项，得到的就是Adam算法：

第一动量和前面的动量，而第二动量是利用第一动量经过惩罚项处理得到的动量，用这个动量去更新位置，得到的就是新的位置。
对于这个算法，上面的式子中可以看出，两个动量初始值都是0，这意味着需要经过几轮更新动量才会到达一个比较大的程度，或者说是能够用于更新的程度。为了加快这个过程，在一开始就有一个比较大的值，我们增加了一个偏差处理。

增加了偏差处理之后可以看到，参与更新的量由动量变成了偏差，而偏差在计算过程中兼顾了动量和轮次，所以能够在轮次较少的时候起一个扩大的作用，从而避免了一开始移动过小的现象。

七、学习率

学习率也叫做步长，可以看作是训练过程中向着目标方向移动的距离，这个学习率不能过大也不能过小，过大了会导致震荡现象，过小了虽然可以收敛但是速度会很慢，需要让学习率在一个正确的范围内。

其实学习率的设置不一定要是一个固定值，学习率完全可以是一个变化值，比如说在刚开始的时候设置一个稍微大一点的学习率，随着训练的推进，换用更小的学习率从而一点点逼近最优值。

在ResNet中设置的就是学习率周期性折减，每训练30轮学习率就乘以0.1。
也可以用余弦形式来减小学习率，公式如下：

随着训练轮次的增加，cos值不断减小，从而让学习率也不断减小。

也可以使用各种函数的方法来降低学习率：

其实大多数的学习率设定都是先大后小，刚开始训练时大步向前，快速向正确方向前进，后期换成小碎步，一点点逼近更加优秀的点。

八、二维优化

到目前为止前面讲的全都是一阶的优化算法，使用的随机梯度下降或者说各种各样的优化方法，用到的梯度本质上都是一阶导数。这种优化的思路实际上是将损失函数在某处线性化，用切线方向的变化代替本身的变化，从而让点向着损失函数变小的方向去移动。

但实际上我们可以结合二阶导数去更好地近似，也就是使用二阶优化算法。

使用二阶优化算法的灵魂在于使用牛顿法，要求函数的最值，可以求导数为0的点，这个点对应的值至少也是个极值，也就是说要最小化函数值，就找导函数等于零的点，也就是方程导函数等于0的根，这个时候就会用到二阶导数。

关于牛顿法，之前整理的放在这里：

在这种方法下，就不需要设置学习率，每次的更新都是直接计算得出来的，并不是向梯度下降法那样向着一个方向移动一段距离。梯度下降属于典型的一阶收敛，只考虑当前坡度最大的方向，而牛顿法属于二阶优化，它还考虑了走一步之后坡度是否会变得更大。虽然二阶优化效果好，但是当参数过多的时候，海森矩阵的逆矩阵运算会很困难，所以一般在深度学习中不使用二阶优化算法。

九、正则化

防止过拟合是训练过程中很重要的一个步骤，出现过拟合之后会导致在训练集上的正确率提高，但是在测试集上的正确率反而会下降，也就是学到了太多没有用的东西。

过拟合是随着训练推进而产生的，所以一种解决办法是提前结束训练，在还没有出现过拟合之前就停止。此外，还可以使用集成学习的方法，训练多个模型最后投票决定结果，从而防止过拟合的发生。

前面提到过的正则化项也可以用来防止过拟合，也就是在损失函数后面加一个正则化项，用来惩罚结果过于依赖较少依据的模型。

还有一种正则化的方法是Dropout，也就是训练过程中每一步随机杀死一部分神经元，让其前向传播和反向传播都停止，相当于没有这个神经元，在下一轮训练中这部分神经元复活，重新确定哪些被杀死。

Dropout可以防止过拟合，主要是因为它打破了神经元直接的联合适应性，拿之前看无人驾驶原理与实践的时候的例子，把许多车的图片送入网络训练，如果里面大量的图片都是黑色的汽车，那么网络内部的神经元可能会产生一种依赖，比如说有四个轮子且是黑色的才是车，但从人的角度看，黑色并不是判断车的依据，这只是数据不完善导致的错误的依赖。而Dropout就可以打破这一点，通过随机掐死神经元，让一部分神经元可以独当一面，从而防止过拟合。

还有一种解释是Dropout起到了模型集成的作用，每次掐死神经元的概率是二分之一，相当于每个神经元都可以等概率地存在两种状态，那么对于有N个神经元的网络，就会有二的N次方种模型，而这么多模型被集成在了一起，所以过拟合就可以被防止。
只有在训练时才会采用Dropout，而在测试时我们希望所有的神经元都可以参与运算，所以并不使用Dropout。

还有数据增强方向的解释以及知识丢失方面的解释，都可以用来解释Dropout防止过拟合的作用。数据增强是说，我们随机杀死一部分神经元，相当于一部分神经元的输入输出为0，而世界上数据那么多，总有一个数据可以让输入后的处理和杀死神经元后的网络一样，所以我们杀死神经元，相当于增加了许多没有的数据，从而避免过拟合。而知识丢失就更容易解释了，过拟合是学习到了过多的知识，那么我随机丢弃一部分，不就相当于避免了过拟合。
还有一种和Dropout很像的防止过拟合的方法叫做Drop Connect，是随机切断神经元的输入，训练过程随机杀死输入，但是不杀死神经元，依然让神经元有输出。

十、超参数的选择

首先校验初始的损失函数值，之后再小数据集上尝试看会不会过拟合，如果小数据集上能够过拟合，那么在大的数据集上也会有比较好的效果，之后尝试学习率，一点点减小学习率，并且及时观察损失函数的图线，防止过拟合或者陷入局部最小值。

深度学习：马氏距离壹十壹深度学习深度学习人工智能
马氏距离（MahalanobisDistance）是一种用于计算不同维度数据点之间距离的度量方法。它考虑了数据的协方差结构，因此在处理具有相关性的多维数据时更加有效。与欧氏距离不同，马氏距离不仅考虑了各个变量的量纲，还考虑了它们之间的相关性。公式马氏距离计算两个向量(x)和(y)之间的距离，定义为：DM(x,y)=(x−y)TS−1(x−y)\D_M(x,y)=\sqrt{(x-y)^TS^{-1
深度学习：CPU和GPU算力壹十壹深度学习深度学习 gpu算力人工智能
一、算力“算力”（ComputingPower）通常是指计算机或计算系统执行计算任务的能力。它是衡量系统处理数据、运行算法以及执行计算任务效率的重要指标。根据上下文，算力可以在以下几种场景中具体化：1.单机算力CPU算力：中央处理器的计算能力，通常用核心数量（cores）、时钟频率（GHz）、以及每秒浮点运算次数（FLOPS）等指标衡量。GPU算力：图形处理单元用于并行处理的能力，尤其是在深度学习
深度学习：偏差和方差壹十壹深度学习深度学习人工智能 python 机器学习
偏差（Bias）偏差衡量了模型预测值的平均值与真实值之间的差距。换句话说，偏差描述了模型预测的准确度。一个高偏差的模型容易出现欠拟合，即模型无法捕捉数据中的真实关系，因为它对数据的特征做出了错误的假设。特征：高偏差的模型通常是过于简单的模型，无法对数据中的复杂关系进行准确建模。高偏差模型的训练误差和测试误差可能都较高。解决方法：增加模型复杂度：例如增加多项式的阶数、增加神经网络的层数等。使用更多的
麒麟arm架构系统_安装nginx-1.27.0_访问500 internal server error nginx解决_13: Permission denied---Linux工作笔记072 添柴程序猿 java nginx-1.27.0 nginx最新版安装麒麟v10 arm架构麒麟v10 安装nginx
[[email protected]]#wget-chttp://nginx.org/download/nginx-1.27.0.tar.gz--2024-07-0509:47:00--http://nginx.org/download/nginx-1.27.0.tar.gzResolvingnginx.org(nginx.org)...3.125.197.172,52.58.19
Zookeeper与Kafka学习笔记上海研博数据 zookeeper kafka 学习
一、Zookeeper核心要点1.核心特性分布式协调服务，用于维护配置/命名/同步等元数据采用层次化数据模型（Znode树结构），每个节点可存储<1MB数据典型应用场景：HadoopNameNode高可用HBase元数据管理Kafka集群选举与状态管理2.设计限制内存型存储，不适合大数据量场景数据变更通过版本号（Version）控制，实现乐观锁机制采用ZAB协议保证数据一致性二、Kafka核心架构
机器学习之线性代数珠峰日记 AI理论与实践机器学习线性代数人工智能
文章目录一、引言：线性代数为何是AI的基石二、向量：AI世界的基本构建块（一）向量的定义（二）向量基础操作（三）重要概念三、矩阵：AI数据的强大容器（一）矩阵的定义（二）矩阵运算（三）矩阵特性（四）矩阵分解（五）Python示例（使用NumPy库）四、线性代数在AI中的应用（一）数据表示（二）降维：PCA（三）线性回归（四）计算机视觉（五）自然语言处理一、引言：线性代数为何是AI的基石在人工智能领
GO语言学习笔记螺旋式上升abc golang 学习笔记
一、viper笔记【七米】https://liwenzhou.com/posts/Go/viper/二、优雅关机和平滑重启https://liwenzhou.com/posts/Go/graceful-shutdown/三、gin使用zaphttps://liwenzhou.com/posts/Go/zap-in-gin/四、flag用于命令行传参https://liwenzhou.com/pos
基于transformer实现机器翻译(日译中) 小白_laughter 课程学习 transformer 机器翻译深度学习
文章目录一、引言二、使用编码器—解码器和注意力机制来实现机器翻译模型2.0含注意力机制的编码器—解码器2.1读取和预处理数据2.2含注意力机制的编码器—解码器2.3训练模型2.4预测不定长的序列2.5评价翻译结果三、使用Transformer架构和PyTorch深度学习库来实现的日中机器翻译模型3.1、导入必要的库3.2、数据集准备3.3、准备分词器3.4、构建TorchText词汇表对象，并将句
【NLP 39、激活函数 ⑤ Swish激活函数】 L_cl NLP 自然语言处理人工智能
我的孤独原本是座荒岛，直到你称成潮汐，原来爱是让个体失序的永恒运动——25.2.25Swish激活函数是一种近年来在深度学习中广泛应用的激活函数，由GoogleBrain团队在2017年提出。其核心设计结合了Sigmoid门控机制和线性输入的乘积，通过引入平滑性和非单调性来提升模型性能。一、数学定义与变体1.基础形式Swish的标准表达式为：Swish(x)=x⋅σ(βx)其中：σ(x)是Sigm
机器学习(Machine Learning) 七指琴魔御清绝大数据学习
原文链接：http://blog.csdn.net/zhoubl668/article/details/42921187希望转载的朋友，你可以不用联系我．但是一定要保留原文链接，因为这个项目还在继续也在不定期更新．希望看到文章的朋友能够学到更多．《BriefHistoryofMachineLearning》介绍:这是一篇介绍机器学习历史的文章，介绍很全面，从感知机、神经网络、决策树、SVM、Ada
Qt 串口类QSerialPort 使用笔记一对一答疑的编程作家朱文伟 qt qt 笔记开发语言
Qt串口类QSerialPort使用笔记虽然现在大多数的家用PC机上已经不提供RS232接口了。但是由于RS232串口操作简单、通讯可靠，在工业领域中仍然有大量的应用。Qt以前的版本中，没有提供官方的对RS232串口的支持，编写串口程序很不方便。现在好了，在Qt5.1中提供了QtSerialPort模块，方便编程人员快速的开发应用串口的应用程序。本文就简单的讲讲QtSerialPort模块的使用。
Spike Neural Network Introduction and Research Directions Debug_Snail SNN Neuralnetwork 人工智能 AIGC
1.SNNs是一类神经网络,其中的神经元通过脉冲(spikes)来传递信息,而不是像传统的人工神经网络中那样使用实数值激活。SNNs更接近生物学上的神经系统,因为生物神经元也是通过电信号脉冲来传递信息的。与传统神经网络相比,SNNs具有以下几个特点:更低的功耗-因为只在发生脉冲时才激活神经元,所以整体功耗会比传统神经网络低很多。这使得SNNs很适合应用在对功耗要求非常严格的场景,如边缘计算。时序编
笔记:在.Net Core Web Api里使用JWT 风中的余烬~ .netcore 笔记 linux
首先，先建一个JWT配置类//////JWT配置类///publicclassJwtTokenOption{//////Token过期时间，默认为60分钟///publicintTokenExpireTime{get;set;}=60;//////接收人///publicstring?Audience{get;set;}//////秘钥///publicstring?SecurityKey{get
大语言模型(LLM)入门学习路线图_llm教程，从零基础到精通，理论与实践结合的最佳路径！ AGI学习社语言模型学习人工智能 LLM 大模型大数据自然语言处理
Github项目上有一个大语言模型学习路线笔记，它全面涵盖了大语言模型的所需的基础知识学习，LLM前沿算法和架构，以及如何将大语言模型进行工程化实践。这份资料是初学者或有一定基础的开发/算法人员入门活深入大型语言模型学习的优秀参考。这份资料重点介绍了我们应该掌握哪些核心知识，并推荐了一系列优质的学习视频和博客，旨在帮助大家系统性地掌握大型语言模型的相关技术。大语言模型（LargeLanguageM
机器学习实战——音乐流派分类（主页有源码）喵了个AI 机器学习实战机器学习分类人工智能
✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨1.简介音乐流派分类是音乐信息检索（MusicInformationRetrieval,MIR）中的一个重要任务，旨在通过分析音频信号的特征，将音乐自动分类到不同的流派（如古典、摇滚、爵士、流行等）。随着数字音乐平台的普及，音乐流派分类技术被广泛应用于音乐推荐、自动标签生成和音乐库管理
Oracle创建表空间、删除、状态、重命名、修改、增加、移动水煮白菜王 Oracle oracle 数据库
目录Oracle基本学习笔记创建表空间1.表空间创建格式3.表空间状态属性4.重命名表空间5.修改表空间数据文件的大小6.删除表空间的数据文件7.修改表空间中数据文件的状态8.表空间中数据文件的移动Oracle基本学习笔记创建表空间需要使用CREATETABLESPACE语句。其基本语法如下:CREATE[TEMPORARYIUNDO]TABLESPACEtablespacename[DATAFI
学习笔记09——并发编程之线程基础码代码的小仙女高级开发必备技能学习笔记 python
线程基础1.1进程与线程的区别，Java中线程的实现（用户线程与内核线程）进程是操作系统分配资源的基本单位，而线程是CPU调度的基本单位。每个进程有独立的内存空间，而同一进程内的线程共享内存.可以从资源分配、切换开销、通信方式和独立性四个方面来比较两者的区别资源分配进程：操作系统分配资源（如内存、文件句柄等）的基本单位，拥有独立的地址空间。线程：隶属于进程，共享进程的资源（如内存、文件等），是CP
学习笔记10——并发编程2线程安全问题与同步机制码代码的小仙女高级开发必备技能 java知识学习笔记
线程安全问题与同步机制线程安全的本质问题线程安全问题源于多线程环境下对共享资源（数据或状态）的非原子性、非可见性、非有序性访问，导致程序行为不符合预期。主要表现如下：竞态条件（RaceCondition）：多个线程对同一资源进行非原子操作，导致结果依赖线程执行顺序。示例：两个线程同时执行count++（非原子操作，实际包含读-改-写三步）。内存可见性问题：线程修改共享变量后，其他线程无法立即看到最
Java学习笔记——并发编程（三） __________习惯 java java
一、wait和notifywait和notify原理Owner线程发现条件不满足，调用wait方法，即可进入WaitSet变为WAITING状态BLOCKED和WAITING的线程都处于阻塞状态，不占用CPU时间片BLOCKED线程会在Owner线程释放锁时唤醒WAITING线程会在Owner线程调用notify或notifyAll时唤醒，但唤醒后并不意味着立刻获得锁，仍需进入EntryList重
SeisMoLLM: Advancing Seismic Monitoring via Cross-modal Transfer with Pre-trained Large Language UnknownBody LLM Daily Multimodal 语言模型人工智能自然语言处理
摘要深度学习的最新进展给地震监测带来了革命性变化，但开发一个能在多个复杂任务中表现出色的基础模型仍然充满挑战，尤其是在处理信号退化或数据稀缺的情况时。本文提出SeisMoLLM，这是首个利用跨模态迁移进行地震监测的基础模型，它无需在地震数据集上进行直接预训练，就能充分发挥大规模预训练大语言模型的强大能力。通过精心设计的波形标记化处理和对预训练GPT-2模型的微调，SeisMoLLM在DiTing和
学习笔记12——并发编程之线程之间协作方式码代码的小仙女高级开发必备技能 java jvm 开发语言
线程之间协作有哪些方式当多个线程可以一起工作去解决某个问题时，如果某些部分必须在其他部分之前完成，那么就需要对线程进行协调。共享变量和轮询方式实现：定义一个共享变量（如volatile修饰的布尔标志）。线程通过检查共享变量的状态来决定是否继续执行。publicclassTest{ privatestaticvolatilebooleanflag=false; publicstaticvoi
《Natural Actor-Critic》译读笔记 songyuc 笔记
《NaturalActor-Critic》摘要本文提出了一种新型的强化学习架构，即自然演员-评论家（NaturalActor-Critic）。Theactor的更新通过使用Amari的自然梯度方法进行策略梯度的随机估计来实现，而评论家则通过线性回归同时获得自然策略梯度和价值函数的附加参数。本文展示了使用自然策略梯度的actor改进特别有吸引力，因为这些梯度与所选策略表示的坐标框架无关，并且比常规策
如何通过深度学习优化操作系统中的故障诊断与恢复机制金枝玉叶9 程序员知识储备1 程序员知识储备2 程序员知识储备3 深度学习人工智能
如何通过深度学习优化操作系统中的故障诊断与恢复机制（副标题：智能监控、自适应诊断与自动恢复——操作系统故障自愈的新方向）摘要随着现代操作系统在多核、高并发和分布式环境中的广泛应用，系统故障及其恢复问题日益成为影响系统稳定性和业务连续性的关键挑战。传统的故障诊断方法依赖于预设规则和人工干预，难以应对复杂多变的故障场景。本文提出了一种基于深度学习的故障诊断与恢复机制，通过对大量历史日志、监控数据和故障
HarmonyNext实战案例：基于ArkTS的高性能分布式机器学习应用开发 harmonyos-next
HarmonyNext实战案例：基于ArkTS的高性能分布式机器学习应用开发引言在HarmonyNext生态系统中，分布式机器学习是其核心特性之一。通过分布式机器学习，开发者可以充分利用多设备的计算资源，实现复杂模型的训练与推理。本文将深入探讨如何使用ArkTS12+语法开发一个高性能的分布式机器学习应用，涵盖从基础概念到高级技巧的全面讲解。通过本案例，您将学习到如何利用HarmonyNext的分
使用 Python 合并微信与支付宝账单，生成财务报告 python后端
最近用思源笔记记东西上瘾，突然想每个月存一份收支记录进去。但手动整理账单太麻烦了，支付宝导出一份CSV，微信又导出一份，格式还不一样，每次复制粘贴头都大。干脆写了个Python脚本一键处理，核心就干两件事：把俩平台的CSV账单合并到一起自动生成带分类表格的Markdown（直接拖进思源就能渲染）代码主要折腾了这些：支付宝账单前24行都是废话，直接skiprows=24跳过去，GBK编码差点让我栽跟
成功案例丨开发时间从1小时缩短到3分钟：如何利用历史数据训练AI模型，预测设计性能？ Altair澳汰尔 PhysicsAI 仿真 AI 机器学习 HyperWorks 数据分析
案例简介PhysicsAI™助力HEROMOTOCORP实现设计效率提升99%印度领先的跨国摩托车和踏板车制造商HeroMotoCorpLtd.（以下简称Hero）致力于通过将人工智能（AI）和机器学习技术融入有限元分析（FEA）流程，以加速产品开发周期。在其首个AI驱动项目——摩托车把手设计优化中，Hero采用了PhysicsAI™几何深度学习解决方案，利用历史数据训练AI模型并预测设计性能。A
关于两次项目的学习感悟罗婕斯特大数据
经过这两次项目，我学到了以下几点：1.模块化与结构化思维：代码展示了如何将深度学习任务分解为多个模块（如数据加载、模型定义、训练循环、评估等）。这种模块化的思维方式不仅适用于编程，也可以应用于解决复杂问题时的结构化思考。2.细节决定成败：代码中涉及了许多细节，如数据预处理、学习率调整、损失函数的选择等。这些细节对模型的最终性能有着重要影响。这提醒我们，在解决实际问题时，细节往往决定成败，需要耐心和
Python学习指南：系统化路径 + 避坑建议程之编 Python全栈通关秘籍青少年编程 python 开发语言人工智能机器学习
新手小白学习编程就像搭积木——需要从基础开始，逐步构建知识体系。以下是为你量身定制的Python学习路径，帮你告别杂乱，高效入门！一、学习前的关键认知明确目标：想用Python做什么？数据分析（如Excel自动化、可视化）Web开发（如搭建网站）人工智能（如机器学习）自动化办公（如处理文件、邮件）目标不同，后续学习侧重点不同（但基础通用）。避免误区：❌只看教程不写代码✅边学边动手，哪怕抄代码也要运
机器学习之KMeans算法 Mr终游机器学习机器学习算法 kmeans
目录一、KMeans的核心思想二、KMeans算法流程三、KMeans的关键点1.优点：2.缺点：四、如何确定最佳k值1.肘部法则2.轮廓系数五、Kmeans的典型应用场景六、代码示例KMeans是一种广泛使用的无监督学习算法，主要用于聚类分析（Clustering）。它的目标是将数据集划分为K个互不重叠的子集（簇，Cluster），使得同一簇内的数据点尽可能相似，不同簇之间的数据点尽可能差异显著
大语言模型原理基础与前沿双层路由多模态融合、多任务学习和模块化架构 AI智能涌现深度研究 AI大语言模型和知识图谱融合 Python入门实战 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理基础与前沿：双层路由多模态融合、多任务学习和模块化架构关键词：大语言模型、双层路由、多模态融合、多任务学习、模块化架构、神经网络、自然语言处理1.背景介绍大语言模型（LargeLanguageModels，LLMs）已经成为人工智能和自然语言处理领域的重要研究方向。随着GPT-3、BERT等模型的出现，大语言模型在各种任务中展现出了惊人的性能。然而，随着模型规模的不断扩大和应用场景的
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR