Lee森

AI学习笔记（八）深度学习与神经网络、推理与训练

AI学习笔记之深度学习与神经网络、推理与训练

深度学习与神经网络
- 神经网络
- - 什么是神经网络
  - - 神经元
    - 多层神经网络
    - 前馈神经网络
  - bp神经网络
- 激活函数
- - 激活函数的种类
  - - sigmod函数
    - tanh函数
    - RelU函数（线性整流层）
    - Leaky RelU函数
    - 神经元系数
- 损失函数
- 学习率
- 深度学习
- - 张量tensor
  - 设计神经网络
  - 对隐藏层的感性认知
  - 深度神经网络与深度学习
推理与训练
- 监督学习与非监督学习
- 优化和泛化
- 泛化能力分类
- - 过拟合
  - - 过拟合的原因
    - 过拟合的解决办法
    - - Eearly Stopping
      - Dropout
- 数据集的分类
- 交叉验证
- 深度学习的推理和训练
- 神经网络的训练过程
- 参数的随机初始化
- 标准化
- 梯度下降法
- 神经网络的训练过程实例
- 用keras实现一个简单神经网络
- Softmax

深度学习与神经网络

神经网络

什么是神经网络

感知器：
1、外部刺激通过神经末梢，转化为电信号，转导到神经细胞（又叫神经元）
2、无数神经元构成神经中枢
3、神经中枢综合各种信号，做出判断
4、人体根据神经中枢的指令，对外部刺激做出反应。

生物神经网络的基本工作原理：
一个神经元的输入端有很多树突，主要从来接收输入信息的。输入信息经过突触处理，将输入的信息累加，当处理后的输入信息大于某一个特定的阈值，就不会吧信息通过轴突传输出去，这是神经元被刺激。相反，当处理后的输入信息小于阈值时，神经元就处于抑制状态，他不会像其他神经元传递信息。或者传递的信息很少。
人工神经网络分为两个阶段：
1、接受来自其他n个神经元传递过来的信号，这些输入信号与相应的权重进行加权就和传递给下个阶段。（预激活阶段）
2、把预激活的加权结果传递给激活函数。

人造神经元

输入： $x_1,x_2,x_3$
输出：Output
简化模型：约定每种输入只有只有两种可能为1或0
所有输入都是1，表示各种条件都成立，输出就是1；
所有输入都是0，表示条件都不成立，输出就是0
举例：
西瓜好坏？
颜色：青绿；根蒂：蜷缩；敲声：着响。—好瓜

神经网络由相互联系的神经元形成，这些神经元具有权重和网络训练期间根据错误来进行更新的偏差，目标是找到一个未知函数的近似值。其原理是受我们大脑的生理结构——互相交叉相连的神经元的启发，但与大脑一个神经元可以连接一定距离的任意神经元不同，人工神经网络具有离散的层，连接和数据传播的方向。

神经元

神经元是组成神经网络的最基本单位，它起初来源于人体，模仿人体的神经元，功能也与人体的神经元一致，得到信号的输入，进过数据处理，然后给出一个结果做出输出或者作为下一个神经元的输入。

输入是特向向量。特征向量代表的是变化的方向。或者说，是最能代表这个事物的特征的方向。权重（权值）就是特征值。有正有负，加强或抑制，同特征值一样。权重的绝对值大小，代表了输入信号对神经元的影响的大小。
最简单的把这两组向量分开的方法：
$ax+by+c=0\rightarrow y=kx+b\rightarrow y=wx+b$
把上式推广到n维空间：
$\rightarrow h=a_1x_1+a_2x_2+\cdots+a_nx_n+a_0=0$

神经元就是当h大于0时输出1，h小于0时输出0这么一个模型，它的实质就是把特征空间一切两半，认为两半分别属于两类。神经元的缺点在于智能一刀切，解决办法为多层神经网络。

神经网络是一种运算模型，由大量的节点（神经元）和之间相互的联结构成。
每个节点代表一种特定的输出函数，称为激活函数（activation function）。
每两个节点间的联结都代表一个对于通过该连接信号的加权值，称之为权重，这相当于人工神经网路的记忆。
网络的输出则依网络的连接方式，权重值和激励函数的不同而不同。而网络自身同城都是对自然界某种算法或者函数的逼近，也可能是对一种逻辑策略的表达。
单层神经网络（感知器）。

多层神经网络

神经网络是由多个神经元组合而成，前一个神经元的结果作为后一个神经元的输入，一次组合而成。神经网络一般分为三层，第一层作为输入层，最后一层作为输出层，中间的全部是隐含层。
理论证明，任何多层网络可以用三层网络近似地表示。
一般平禁言确定隐藏层到底应该有多少个节点，在测试过程中也可以不断调整节点数以取得最优结果。

前馈神经网络

人工神经网络模型主要考虑网络链接的拓扑结构、神经元特征、学习规则等。
其中，前馈神经网络也称为***多层感知机***。

bp神经网络

**BP网络（Back-Propagation Network）**是1986年被提出的，是一种按误差逆向传播算法训练的多层前馈网络，是目前应用最广泛的神经网络之一，用于函数逼近、模型识别分类、数据压缩和时间序列预测等。
BP网络又称为反向传播神经网络，它是一种有监督的学习算法，具有很强的自适应、自学习、非线性映射能力，能较好地解决数据少、信息贫、不确定性问题，且不受非线性模型的限制。
一个典型的BP网络应该包括三层：输入层、隐藏层和输出层。各层之间全连接。同层之间无连接，隐藏层可以有多层。

学习过程：
正向传播：输入信号从输入层经过各个隐藏层向输出层传播。在输出层得到实际的响应值，若实际值与期望值误差较大，就会转入误差反向传播阶段。
反向传播：按照梯度下降的方法从输出层经过各个隐含层并逐层不断地调整个神经元的连接权值和阈值，反复迭代，知道网络输出的误差减少到可以接受的成都，或者进行到预先设定的学习次数。
BP算法是一个思想，它的基本思想如下：
1、将训练集数据输入到神经网络的输入层，经过隐藏层，最后达到输出层并输出结果，这就是前向传播过程；
2、由于神经网络的输入结果与实际结果又误差，则计算估计值与实际值之间的误差，并将该误差从输出层向隐藏层方向传播，直至传播到输入层；
3、在方向传播的过程中，根据误差调整各种参数的值（相连神经元的权重），使得总损失函数减少。
4、迭代上述三个步骤（即对数据进行反复训练），直到满足停止准则。

激活函数

激活函数是神经网络设计的一个核心单元。
在神经网络中，把处于在活跃状态的神经元称为激活态，处于非活跃状态的神经元称为抑制态。激活函数赋予了神经元自我学习和适应的能力。
激活函数的作用是为了在神经网络中引入非线性的学习和处理能力。
常用的激活函数（满足非线性、可微性、单调性、近似恒等性）。

激活函数的种类

优秀的激活函数：（优化器根据梯度下降优化参数）
1）非线性：激活函数非线性时，多层神经网络可逼近所有函数
2）可微性：优化器大多用梯度下降更新参数
3）单调性：当激活函数是单调的，能保证单层网络的顺势函数使凸函数
4）近似恒等性：当参数初始化为随机小时，神经网络更稳定
激活函数输出值的范围：
1）激活函数输出为有限时，基于梯度的优化方法更稳定
2）激活函数输出为无限时，建议调小学习率

sigmod函数

$\left\{\begin{array}{l}f(x)=\frac1{1+e^{-x}}\\f'(x)=\frac{e^{-x}}{\left(1+e^{-x}\right)^2}\end{array}\right.$

特点：
a.易造成梯度消失（梯度消失）
b.输出非0均值，收敛慢
c.幂运算复杂，计算复杂，训练时间长

tanh函数

$\left\{\begin{array}{l}f(x)=\frac{1-e^{-2x}}{1+e^{-2x}}\\f'(x)=\frac{4e^{-2x}}{\left(1+e^{-2x}\right)^2}\end{array}\right.$

特点：
a.输出时0均值
b.易造成梯度消失
c.幂运算复杂，计算复杂，训练时间长

RelU函数（线性整流层）

$\left\{\begin{array}{l}f(x)=max(x,0)=\left\{\begin{array}{l}0\;\;x<0\\x\;\;x\geqslant0\end{array}\right.\\f'(x)=\left\{\begin{array}{l}0\;\;x<0\\1\;\;x\geqslant0\end{array}\right.\end{array}\right.$

优点：
a.解决了梯度消失问题（在正区间内）
b.只需判断输入是否大于0，计算速度快
c. 收敛速度远快于sigmod和tanh
缺点：
a. 输出0非均值，收敛慢
b. Dead ReIU问题，某些神经元可能不会被激活，导致相应的参数永远不能被更新
RelU起源于神经科学的研究：2001年，Dayan、Abott从生物学角度模拟处了脑神经元接收信号更精确的激活模型：

Leaky RelU函数

$\left\{\begin{array}{l}f(x)=max(\alpha x,0)\\f'(x)=max(\alpha,1)\end{array}\right.$

特点：
理论上来讲，Leaky Relu有Relu所有的有点，外加不会有Dead Relu问题，但是在实际操作中，并没有完全证明其比Relu好

神经元系数

ReLU函数其实是分段性函数，把所有的负值都变为0，而正值不变，这种操作被称为单侧抑制。
正因为有了这种单侧抑制，才使得神经网络中的神经元也具有了系数激活性。
当模型增加N层之后，理论上ReLU神经元的激活率将降低2的N次方倍。

损失函数

损失函数用于描述模型预测值与真实值的差距大小。一般有两种常见的算法——均值平方差（MSE）和交叉熵（cross entropy）。

均值平方差（Mean Squared Error，MSE），也称均方差：
$MSE={\textstyle\sum_{i=1}^n}\frac1n(f{(x_i)-y_i)}^2$
交叉熵（cross entropy）也是loss算法的一种，一般用在分类问题上，表达意思为预测输入样本属于哪一类的概率。值越小，代表预测结果越准。（y代表真实值分类（0或1），a代表预测值）：
$C=-\frac1n\underset x{\sum\left[y\ln a+(1-y)\ln(1-a)\right]}$
损失函数的选取取决于输入标签数据的类型：
1、如果输入的实数、无界的值，顺势函数使用MSE。
2、如果输入标签是位矢量（分类标志），使用交叉熵会更合适。

学习率

学习率是一个重要的超参数，它控制着我们基于损失梯度调整神经网络权值的速度。
学习率越小，我们沿着损失梯度下降的速度越慢。
从长远来看，这种谨慎慢行的选择可能还不错，因为可以避免错过任何局部最优解，但它也意味着我们要花更多的时间来收敛，尤其是如果我们处于曲线的至高点。

深度学习

张量tensor

任何算法得意运行，都必须依靠特定的数据结构，而用于将各种数据统一封装并输入网络模型的数据结构叫tensor，也就是张量。张量在不同的情况下存有不同的形式。
张量一大特征是维度，一个0维张量就是一个常量。在Python中，一个张量的维度可以通过读取它的ndim属性来获取。（我们常用的数组就等价于一维张量，一个二维数组就是一个二维张量）
所谓n维张量，其实就是一维数组，数组中的每个元素都是n-1维张量，由此可见，3维张量其实就是一个一维数组，数组中的每个元素就是2维数组。
一个n维张量经常用一组数据来表示例如下面的3维张量，它可以用（3,2,2)这组数据结合来表示，一个张量是几维度，那么括号里面就有几个数字。

设计神经网络

1、使用神经网络训练数据之前，必须确定神经网络层数，以及每层单元的个数
2、特征向量在被传入输入层时通常要先标准化到0~1之间（为了加速学习过程）
3、离散型变量可以被编码成每一个输入单元对弈一个特征量可能赋的值
比如：特征A可能取 $a_0,a_1,a_2)$ ，可以使用3个输入单元来代表A。
如果 $A=a_0$ ，那么代表 $a_0$ 的单元值就取1，其他取0；
如果 $A=a_1$ ，那么代表 $a_1$ 的单元值就取1，其他取0，以此类推；
4、神经网络既可以用来做分类（classification）问题，也可以解决回归（regression）问题
（1）对于分类问题，如果是2类，可以用一个输出单元表示（0和1分别代表2类）；如果多于2类，则每一个类别用一个输出单元表示
（2）没有明确的规则来设计最好有多少个隐藏层，可以更具实验测试和误差以及精度来实验并改进。
标准化代码如下：

import numpy as np
import matplotlib.pyplot as plt


def Normalization1(x):
    """
    归一化（0~1）
    x_=(x−x_min)/(x_max−x_min)
    """
    return [(float(i) - min(x)) / float(max(x) - min(x)) for i in x]


def Normalization2(x):
    """
    归一化（-1~1）
    x_=(x−x_mean)/(x_max−x_min)
    """
    return [(float(i) - np.mean(x)) / (max(x) - min(x)) for i in x]


def z_score(x):
    """
    标准化
    x∗=(x−μ)/σ
    """
    x_mean = np.mean(x)
    s2 = sum([(i - np.mean(x)) * (i - np.mean(x)) for i in x]) / len(x)
    return [(i - x_mean) / s2 for i in x]


l = np.random.randint(-10, 10, size=20)
n1 = Normalization1(l)
n2 = Normalization2(l)
x = list(range(-10, 10))
plt.plot(x, l, label='source data')
plt.plot(x, n1, label='Normalization1 data')
plt.plot(x, n2, label='Normalization2 data')
plt.legend(loc='best'), plt.title('Data normalization')
plt.show()

结果如下：

对隐藏层的感性认知

让我们从一个问题开始，假设区分一下三证图片哪个是人脸，也就是人脸识别，神经网络模型怎么建立呢？为了简单起见，输入层的每个节点代表图片的某个像素，个数为像素点的个数，输出层简单地定义为一个节点，表示“是”还是“不是”。

那么隐含层怎么分析呢？我们先从感性地角度认识这个人脸识别问题，试着将这个问题分解为一些子问题，比如：

在上方有头发吗？
在左上、右上各有一个眼睛吗？
在中间有鼻子吗？
在下方中间位置有嘴巴吗？
在左右两侧有耳朵吗？
$\cdots$
假设对以上这些问题的回答，都是“yes”，或者大本分都是“yes”，那么可以判定人脸，否则不是人脸。

深度神经网络与深度学习

传统的神经网络发展到了多隐藏层的情况。
具有多个隐藏层的神经网络被称为深度神经网络，基于深度神经网络的机器学习研究称之为深度学习。
若谷需要细化和区分别，那么，深度神经网络可以理解为对传统多层网络进行了结构、方法等方面的优化。

深度学习，就是多层人工神经网络。

图像识别：像素->边缘->纹理->图形->局部->物体
文字识别：字符->词->词组->子句->句子->故事
数据规律推动深度学习进步

推理与训练

监督学习与非监督学习

**Supervised Learning有监督学习：**输入的数据被称为训练数据，一个模型需要通过一个训练过程，在这个过程中进行预期判断，如果错误了再进行修正，训练过程一直持续到基于训练数据达到预期的精确性。其关键方法是分类和回归，算法是逻辑回归（Logistic Regression）和BP神经网络（Back Propagation Neural Network）。
**Unsupervised Learning无监督学习：**没有任何训练数据，基于没有标记的输入数据采取推到结构的模型，其关键方式是关联规则学习和聚合，算法有Apriori算法和K-Means。

优化和泛化

深度学习的根本问题是优化和泛化之间的对立。

优化（optimization）是指调节模型以在训练数据上得到最佳性能（及机器学习中的学习）。
泛化（generalization）是指训练好的模型在前所未见的数据上的性能好坏。

泛化能力分类

欠拟合：模型没有能够很好的表现数据的结构，而出现的拟合度不高的情况，模型不能再训练集上获得足够低的误差；
拟合：测试误差与训练误差差距较小；
过拟合：模型过分的拟合训练样本，但对测试赝本预测准确率不高的情况，也就是说模型的泛化能力差。训练误差和测试误差之间的差距太大。
不收敛：模型不是根据训练集训练得到的。

过拟合

过拟合指的是给定一堆数据，这对数据带有噪声，利用模型取拟合这对数据，可能会把噪声数据也过拟合了。
一方面会造成模型比较复杂
另一方面，模型的泛化能力太差了，遇到了新的数据，用所得到的过拟合模型，正确率很差。

过拟合的原因

1、建模样本选取了错误的选样方法、样本标签等，或样本数量太少，所选取的样本数据不足以代表预定的分类规则；
2、样本的噪音干扰过大，使得及其将部分噪音认为是特征从而扰乱了预设的分类规则
3、假设的模型无法合理存在，或者说是无法达到假设成立的条件
4、参数太多导致模型复杂度过高
5、对于神经网络模型：a）对样本数据可能存在分类决策面不唯一，随着学习的进行，BP算法使权重可能收敛过于复杂的决策面；b）权重学习迭代次数足够多，拟合了训练数据中心的噪声和训练样例中没有代表性的特征。

过拟合的解决办法

1、减少特征：删除与目标不相关的也正，如一些特征选择方法
2、Early stopping
3、更多的训练样本
4、重新清洗数据、数据增强
5、Dropout

Eearly Stopping

在每一个Epoch结束时，计算validation data的accuracy，当accuracy不再提高时，就停止训练；
那么该做法的一个重点便是怎样才认为validation accuracy不再提高了呢？并不是说validation accuracy一降下来边认为不再提高了，因为可能经过这个Epoch后，accuracy降低了，但是随后的Epoch又让accuracy上去了，所以不能根据一两次的连续降低就判断不在提高。
一般的做法是，在训练过程中，记录到目前为止最好的validation accuracy，当连续10次Epoch（或者更多次）没有达到最佳accuracy时，则可以认为accuracy不再提高了，此时便可以停止迭代了；
这种策略也称为“No-improvement-in-n"，n即Epoch的次数，可以根据实际情况取，如10、20、30

Dropout

在神经网络中，dropout方法是通过修改神经网络本身结构来实现的：
1、在训练开始是，随机删除一些（可以设定为1/2，也可以为1/3，1/4等）隐藏层神经元，即认为这些神经元不存在，同时保持输入层与输出层神经元个数不变。（相应权重变为0）
2、然后按照BP学习算法对ANN中的参数进行学习更新（虚拟连接的单元不更新，因为认为这些神经元被临时删除了）。这样一次迭代更新便完成了。下一次迭代中，同样随机删除一些神经元，与上次不一样，做随机选择。这样一直进行，直至训练结束。
Dropout方法是通过修改ANN中隐藏层的神经元个数来防止ANN的过拟合。

为什么Dropout能够减少过拟合
1、Dropout是随机选择忽略隐藏层节点，在每个批次的训练过程：由于每次随机忽略的隐藏层节点都不同，这样就使每次训练的网络都是不一样的，每次训练都可以当做一个“新”模型；
2、隐藏节点都是以一定概率随机出现，因此不能保证每2个隐含节点每次都同时出现。这样权值的更新不再依赖有固定关系隐含节点共同作用，阻止了某些特征仅仅在其他特定特征下才有效果的情况
Dropout是一个非常有效的神经网络平均方法，通过训练大量的不同的网络，来平均预测概率。不同的模型在不同的训练集上训练（每个epoch的训练数据都是随机选择），然后在每个模型用相同的权重来“融合”。

经过交叉验证，隐藏节点dropout率等于0.5的时候效果最好。
dropout也可以被用作一种添加噪声的方法，直接对input进行操作，输入层设为更接近于1的数，使得输入变化不会太大
dropout的缺点在于训练时间是没有dropout网络的2-3倍。

数据集的分类

数据集可以分为：

训练集：实际训练算法的数据集；用来计算梯度，并确定每次迭代中网络权值的更新；
验证集：用于跟踪其学习效果的数据集；是一个指示器，用来表明训练数据点之间所形成的的网络函数发生了什么，并且验证集上的误差值在整个训练过程中都被检测；
测试集：用于产生最终结果的数据集。
为了让测试集有效反映网络的泛化能力：
1、测试集绝不能以任何形式用于训练网络，即使适用于同一组备选网络中挑选网络。测试集只能在所有的训练和模型选择完后使用；
2、测试集必须代表网络使用中涉及的所有情形。

交叉验证

这里有一堆数据，我们把它切成3个部分（当然还可以更多）
第一部分做测试集，二三部分做训练集，算出准确度；
第二部分做测试集，一三部分做训练集，算出准确度；
第三部分做测试集，一二部分做训练集，算出准确度；
之后算出三个准确度的平均值，作为最后的准确度。

深度学习的推理和训练

**训练（Training）：**一个初始神经网络通过不断的优化自身参数，来让自己变得准确。这整个过程称之为训练（Training）。
**推理（Inference）：**训练好了一个模型，在训练数据集中表现良好，但是我们的期望是它可以对以前没看过的图片进行识别。当重新拍一张图片扔进网络让网络做判断，这种图片就叫做现场数据（live data），如果现场数据的区分准确率非常高，那么证明你的网络训练的是非常好的。这个过程，称为推理（Inference）。
我们利用神经网络取解决图像分割，边界探测等问题的时候，我们的输入（假设为x），与期望的输出（假设为y）之间的关系究竟是什么？也就是 $y = f (x)$ 中， $f$ 是什么，我们也不清楚，但是我们对一点很确信，那就是 $f$ 不是一个简单的线性函数，应该是一个抽象的复杂的关系，那么利用神经网络就是去学习这个关系，存放到model中，利用得到的model去推测训练集之外的数据，得到期望的结果。
**代（Epoch）：**使用训练集的全部数据对模型进行一次完整训练，被称为“一代训练”。
**批大小（Btach size）：**使用训练集的一部分样本对模型权重进行一次方向传播的参数更新，这一小部分样本被称为“一批数据”
**迭代（Iteration）：**使用一个Batch训练对模型进行一次参数更新的过程，被称为“一次训练”（一次迭代）。每一次迭代得到的结果都会被作为下一次迭代的初始值。一个迭代=一个正向通过+一个反向通过。
$Number\;of\;Batches\;=\;\frac{Training\;Set\;Size}{Batch\;Size}$
比如训练集有500个样本， $b a t c h s i z e = 10$ ，那么训练完整个样本集： $i t e r a t i o n = 50, e p o c h = 1$ 。

神经网络的训练过程

可描述为：
1、提取特征向量作为输入。
2、定义神经网络结构。包括隐藏层数，激活函数等。
3、通过训练利用反向传播算法不断优化权重的值，使之达到最合理水平。
4、使用训练好的神经网络来预测未知数据（推理），这里训练好的网络就是指权重达到最优的情况。
可描述为：
1、选择样本集合的一个样本（Ai，Bi），Ai为数据、Bi为标签（所属类别）
2、送入网络，计算网络的实际输出Y，（此时网络中的权重应该都是随机量）
3、计算D=Bi-Y（即预测值和实际值相差多少）
4、根据误差D调整权重矩阵W
5、对每个样本重复上述过程，直到对整个样本集来说，误差不超过规定范围
也可描述为：
1、参数的随机初始化
2、前向传播计算每个样本对应的输出节点激活函数值
3、计算损失函数
4、反向传播计算偏导数
5、计算梯度来进行梯度检查，以判断偏导数计算的正确性。如果正确就取消掉梯度检查。
6、使用梯度下降法或者先进的方法更新权值

参数的随机初始化

权重初始化并不是简单的随机初始化，而是一项会影响训练性能的关键一步，而且有时候会依赖于选择的激活函数。如果仅仅是权重随机初始化为一些很小的随机数，他会打破梯度更新对称性。
1、权重参数初始化从区间均匀随机取值。
2、XAvier初始化（sigmod、tanh） $W\sim U\left[-\frac{\sqrt6}{\sqrt{H_k+H_{k+1}}},\frac{\sqrt6}{\sqrt{H_k+H_{k+1}}}\right]$ 。
3、初始化为小的随机数（小型网络）：比如，可以初始化为均值为0，方差为0.01的高斯分布。
4、权重初始化为正态分布（relu）。
5、MSRA Filler(relu)：用均方差为0，方差为 $\sqrt{\frac4{n_{in}+n_{out}}}$ 的高斯分布。
6、偏置bias的初始化，一般初始化为0。

标准化

原因：由于进行分类器或模型的建立与训练时，输入的数据范围可能比较大，同时样本中各数据可能量纲不一致，这样的数据容易对模型训练或分类器的构建结果产生影响，因此需要对其进行标准化处理，去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权。
其中最典型的就是数据的归一化处理，即将数据统一映射到 $[0, 1]$ 区间上。
$y=\frac{x-min}{max-min}$
z-score标准化（零均值归一化zero-mean normalization）

经过处理后的数据均值为0，标准差为1（正态分布）
其中 $\mu$ 是样本的均值， $\sigma$ 是样本的标准差
$y=\frac{x-\mu}\sigma$

梯度下降法

梯度 $\nabla f=(\partial x_1\partial f;\partial f_2\partial f;\cdots\partial x_n\partial f)$ 指数函数关于变量x的导数，梯度的方向表示函数值增大的方向，梯度的模表示函数值增大的速率。
那么只要不断将参数的值向着梯度的方方向更新一定大小，就能得到函数的最小值（全局最小值或者局部最小值）。
一般利用梯度更新参数时会将梯度乘以一个小于1的学习率（learning rate），这是因为往往梯度的模还是比较大的，直接用其更新参数会使函数值不断波动，很难收敛到一个平衡点（这也是学习率不宜过大的原因）。
$\theta_{t+1}=\theta_t-\alpha_t\nabla f(\theta_t)$

紫色部分：正确结果与节点输出结果的插值，也就是误差；
红色部分：节点的激活函数，所有输入该节点的立案率把经过其上的信号与立案率权重做乘积后求和，再把求和结果进行激活函数运算；
绿色部分：链路 $w (j k)$ 前节点输出的信号值。

神经网络的训练过程实例

1、第一层是输入层，包含两个神经元： $i_1,i_2$ 和偏执 $b_1$ ；
2、第二层是隐藏层，包含两个神经元： $h_1,h_2$ 和偏执 $b_2$ ；
3、第三层是输出： $o_1,o_2$ ；
4、每条线上标的 $w_i$ 是层与层之间连接的权重；
5、激活函数是sigmod函数；
6、用 $z$ 表示某个神经元的加权输入和；用 $a$ 表示某神经元的输出。

神经网络训练过程实例-Step 1 前向传播
输入层->隐藏层
神经元 $h_1$ 的输入加权和：
$z_{h1}=w_1i_1+w_2i_2+b_1=0.15\ast0.05+0.2\ast0.1+0.35=0.3775$
神经元 $h_1$ 的输出 $a_{h1}$ ：
$a_{h1}=\frac1{1+e^{-z_{h1}}}=\frac1{1+e^{-0.3775}}=0.593269992$
同理可得，神经元 $h_2$ 的输出 $a_{h2}$ :
$a_{h2}=0.596884378$
隐藏层->输出层
计算输出层神经元 $o_1$ 和 $o_2$ 的值：
$z_{o1}=w_5a_{h1}+w_6a_{h2}+b_2\\=0.4\ast0.593269992+0.45\ast0.596884378+0.6=1.105905967$
$a_{o1}=\frac1{1+e^{-z_{a1}}}=\frac1{1+e^{-1.105905967}}=0.751365069$
同理可得：
$a_{o2}=0.772928465$
前向传播的过程就结束了，我们得到的输出值是 $[0.751365069, 0.772928465]$ ，与实际值 $[0.01, 0.99]$ 相差还很远。接下来我们对误差进行反向传播，更新权值，重新计算输出。
神经网络训练过程实例-Step 2反向传播
1、计算损失函数
$E_{total}=\underset{}{\sum\frac12{(target-output)}^2}$
两个输出，所以分别计算 $o_1$ 和 $o_2$ 的损失值，总误差为两者之和：
$E_{o_1}=\frac12{(0.01-0.751365069)}^2=0.274811083\\E_{o_2}=\frac12{(0.09-0.772928465)}^2=0.023560026\\E_{total}=\underset{}{E_{o_1}+E_{o_2}=0.274811083+0.023560026=0.298371109}$
2、隐藏层->输出层的权值更新
以权重参数 $w_5$ 为例，如果我们想知道 $w_5$ 对整体损失产生了多少影响，可以用整体损失对 $w_5$ 求骗导：
$\frac{\partial E_{total}}{\partial w_5}=\frac{\partial E_{total}}{\partial a_{o1}}\ast\frac{\partial a_{o1}}{\partial z_{o1}}\ast\frac{\partial z_{o1}}{\partial w_5}$

接下来分别计算每个式子的值：
计算 $\frac{\partial E_{total}}{\partial a_{o1}}$ :
$E_{total}=\frac12\left(target_{o1}-a_{o1}\right)^2+\frac12\left(target_{o2}-a_{o1}\right)^2\\\frac{\partial E_{total}}{\partial a_{o1}}=2\ast\frac12\left(target_{o1}-a_{o1}\right)\ast(-1)\\=-\left(target_{o1}-a_{o1}\right)=0.751365069-0.01=0.741365069$
计算 $\frac{\partial E_{total}}{\partial z_{o1}}$ :
$a_{o1}=\frac1{1+e^{-z_{o1}}}\\\frac{\partial a_{o1}}{\partial z_{o1}}=a_{o1}(1-a_{o1})=0.751365069\ast(1-0.751365069)=0.186815602$
计算 $\frac{\partial z_{o1}}{\partial w_5}$ :
$z_{o1}=w_5a_{h1}+w_6a_{h2}+b_2\\\frac{\partial z_{o1}}{\partial w_5}=a_{h1}=0.593269992$
最后三者相乘：
$z_{o1}=w_5a_{h1}+w_6a_{h2}+b_2\\\frac{\partial E_{total}}{\partial w_5}=0.741365069\ast0.186815602\ast0.593269992=0.082167041$
这样我们就算出整体损失 $E_{total}$ 对 $w_5$ 的偏导值。
$z_{o1}=w_5a_{h1}+w_6a_{h2}+b_2\\\frac{\partial E_{total}}{\partial w_5}=-\left(target_{o1}-a_{o1}\right)\ast a_{o1}\ast(1-a_{o1})\ast a_{h1}$
针对上述公式，为了方便表达，使用 $\delta_{o1}$ 来表示输出层的误差：
$\delta_{o1}=\frac{\partial E_{total}}{\partial a_{o1}}\frac{\partial a_{o1}}{\partial z_{o1}}=\frac{\partial E_{total}}{\partial z_{o1}}\\=-(target_{o1}-a_{o1})\ast a_{o1}\ast(1-a_{o1})$
因此整体损失 $E_{total}$ 对 $w_5$ 的偏导值可以表示为：
$\frac{\partial E_{total}}{\partial w_5}=\delta_{o1}\ast a_{h1}$
最后更新 $w_5$ 的值：
$w_5^+=w_5-\eta\frac{\partial E_{total}}{\partial w_5}=0.4-0.5\ast0.82167041=0.35891648$
同理更新 $w_6,w_7,w_8$ :
$w_6^+=0.408666186\\w_7^+=0.511301270\\w_8^+=0.561370121$
2、隐藏层->隐藏层的权值更新
$rac{\partial E_{total}}{\partial w_1}=\frac{\partial E_{total}}{\partial out_{h1}}\frac{\partial out_{h1}}{\partial net_{h1}}\frac{\partial net_{h1}}{\partial w_1}=\left(\frac{\partial E_{o1}}{\partial out_{h1}}+\frac{\partial E_{o2}}{\partial out_{h1}}\right)\frac{\partial out_{h1}}{\partial net_{h1}}\frac{\partial net_{h1}}{\partial w_1}$

计算 $\frac{\partial E_{total}}{\partial a_{h1}}$
$\frac{\partial E_{total}}{\partial a_{h1}}=\frac{\partial E_{o1}}{\partial a_{h1}}+\frac{\partial E_{o2}}{\partial a_{h1}}$
先计算 $\frac{\partial E_{o1}}{\partial out_{h1}}$
$\frac{\partial E_{o1}}{\partial a_{h1}}=\frac{\partial E_{o1}}{\partial a_{o1}}\ast\frac{\partial a_{o1}}{\partial z_{o1}}\ast\frac{\partial z_{o1}}{\partial a_{h1}}\\=0.741365069\ast0.18615602\ast0.4=0.055399425$
同理可得：
$\frac{\partial E_{o2}}{\partial a_{h1}}=-0.019049119$
两者相加得：
$\frac{\partial E_{total}}{\partial a_{h1}}=0.055399425-0.019049119=0.036350306$
计算 $\frac{\partial a_{h1}}{\partial z_{h1}}$
$\frac{\partial a_{h1}}{\partial z_{h1}}=a_{h1}\ast(1-a_{h1})=0.593269992\ast(1-0.593269992)=0.2413007086$
计算 $\frac{\partial a_{h1}}{\partial w_1}$
$\frac{\partial a_{h1}}{\partial w_1}=i_1=0.05$
最后三者相互乘：
$\frac{\partial E_{total}}{\partial w_1}=0.036350306\ast0.2413007086\ast0.04=0.000438568$
为了简化公式，用 $\delta_{h1}$ 表示隐藏层单元 $h_1$ 的误差：
$\frac{\partial E_{total}}{\partial w_1}=\left(\sum_i\frac{\partial E_{total}}{\partial a_i}\frac{\partial a_i}{\partial z_i}\frac{\partial z_i}{\partial h_1}\right)\frac{\partial a_{h1}}{\partial z_{h1}}\frac{\partial z_{h1}}{\partial w_1}\\=\left(\sum_i\delta_iw_{hi}\right)\ast a_{h1}\ast(1-a_{h1})\ast i_1=\delta_{h1}\ast i_1$
最后更新 $w_1$ 的权值：
$w_1^+=w_1-\eta\frac{\partial E_{total}}{\partial w_1}=0.15-0.5\ast0.0004358568=0.149780716$
同理，更新 $w_2,w_3,w_4$ 的权值：
$w_2^+=0.19956143\\w_3^+=0.24975114\\w_4^+=0.29950229$
这样，反向传播算法就完成了，最后再把更新的权值重新计算，不停地迭代。
在这个例子中第一次迭代之后，总误差0.298371109下降至0.291027924.
迭代10000次后，总误差为0.000035085，输出为[0.015912196,0.984065734]

用keras实现一个简单神经网络

Keras由纯pyhton编写的基于theano/tensorflow的深度学习框架。
Keras是一个高层次神经网络API，支持快速实验，能够迅速将idea转化为结果，当有如下需求时，可以优先选择Keras：
1、简易和快速的原型设计（keras具有高度模块化，极简，可扩充特性）
2、支持CNN，RNN，或二者的结合
3、无缝CPU和GPU切换

Softmax

Softmax用于多分类过程中，它将多个神经元的输出，映射到[0,1]区间内，可以看成概率来理解，从而来进行多分类。
假设有一组数据， $V$ ， $V_i$ 表示 $V$ 中的第 $i$ 个元素，那么这个元素的softmax值就是：
$S_i=\frac{e^{V_i}}{\sum_je^{V_j}}$

你可能感兴趣的:(AI)

【转】ASP.NET Core 实战：基于 Jwt Token 的权限控制全揭露 GoToDinner core
【转】https://www.cnblogs.com/danvic712/p/10331976.html?tdsourcetag=s_pcqq_aiomsgASP.NETCore实战：基于JwtToken的权限控制全揭露一、前言#在涉及到后端项目的开发中，如何实现对于用户权限的管控是需要我们首先考虑的，在实际开发过程中，我们可能会运用一些已经成熟的解决方案帮助我们实现这一功能，而在Grapefru
Grape-RAG disgare AI ai
Grape-RAG传统RAG的局限性图的优点用知识图谱来呈现数据关系GraphRAG传统RAG的局限性经典的RAG架构以向量数据库（VectorDB）为核心来检索语义相似性上下文，让大语言模型（LLM）不需要重新训练就能够获取最新的知识，其工作流如下图所示：这一架构目前广泛应用于各类AI业务场景中，例如问答机器人、智能客服、私域知识库检索等等。虽然RAG通过知识增强一定程度上缓解了LLM幻觉问题，
创建conda虚拟环境过慢问题 Rose'sPrince conda chrome 前端
创建虚拟环境网速过慢，要等太久怎么办？1.创建conda环境压缩包安装conda-pack包：condainstall-cconda-forgeconda-pack或者pipinstallconda-pack。-使用condapack命令开始打包环境（尽量在待打包的环境之外的环境运行）：condapack-n这个命令会将my_env环境打包生成一个my_env.tar.gz的压缩文件，保存在当前路
Springboot——整合SpringSecurity 发量堪忧的小伙子 spring boot spring java
目录一、核心概念二、Springboot整合SpringSecurity核心流程三、Springboot整合SpringSecurity3.1引入依赖3.2创建SecurityConfig配置文件3.3重写UserDetailsService参考文献一、核心概念SpringSecurity的核心包括认证和授权两个部分。认证认证过程主要是实现AuthenticationManager，Authent
小白学JVM调优一: 三种场景模拟OOM获得dump文件 hinsss Java jvm java linux
小白学JVM调优一:三种场景模拟OOM获得dump文件三种场景模拟OOM获得dump文件实操一.mac用idea启动main方法导致堆内存溢出,使用EclipseMemoryAnalyzer分析://VMoption:-Xms20m-Xmx20m-XX:+HeapDumpOnOutOfMemoryError//while循环往list对象中放对象publicclassHeapOOM{staticc
细嗦Transformer（三）：准备训练，讲解及代码实现优化器、学习率调整策略、正则化和KL散度损失 Ace_bb 算法 LLM transformer
文章目录关注我：细嗦大模型批处理对象/BatchesandMasking训练循环主函数/TrainingLoop优化器/Optimizer学习率调整策略/Learningrateadjustmentstrategy样例测试正则化/RegularizationLabelsmoothing标签平滑KL散度损失样例测试Github完整代码----求求了给个star和关注吧参考资料求求了，给个star和关
射频框架 YOYO--小天计算机硬件
版权声明：本文为博主原创文章，遵循CC4.0BY-SA版权协议，转载请附上原文出处链接和本声明。本文链接：关于射频————————————————版权声明：本文为CSDN博主「gecko001」的原创文章，遵循CC4.0BY-SA版权协议，转载请附上原文出处链接及本声明。原文链接：https://blog.csdn.net/gecko001/article/details/86569912RF前端
动手写分布式缓存 11 qq_50996930 Go语言学习专栏分布式缓存
main函数实现定义一个map模拟数据库。varmysql=map[string]string{"Tom":"630","Jack":"589","Sam":"567",}为多个端口处创建rpc服务服务名就是ip+端口。将各个服务器的ip+端口加到每个服务器的哈希环里。为每个服务器创建缓存池组。缓存池组和rpc服务绑定。持续监听端口addrs:=[]string{"localhost:9999",
Go的基础操作 qq_50996930 Go语言学习专栏 golang 后端
helloworld通过一段简单go代码打印helloworld。packagemainimport("fmt")funcmain(){fmt.Println("Hello,Golang!")}我们来逐行解析一下：packagemain：声明了当前这个go文件所在的包，Go用包来组织代码，一般一个文件夹是一个包，包内可以暴露类型供其他包使用。import（“fmt”）：fmt就是go语言的一个标准
day 21 qq_50996930 C++学习专栏 c++stl
C++11新特性智能指针右值引用和move语句auto关键字（根据初始化的值自动推导类型）lambda表达式for的范围遍历类和结构体中初始化列表nullptr代替null统一的初始化方式…智能指针：智能指针利用RAII思想将指针进行封装，使其在构造时分配内存，析构时释放内存，将动态分配的内存交给类对象管理，防止堆内存泄漏。常见的三种智能指针分别是unique_ptr，shared_ptr，wea
Docker的原理：如何理解容器技术的力量思维导图-java架构用心去追梦大数据 java storm
要理解Docker的原理以及容器技术的力量，可以通过一个思维导图来帮助整理和展示信息。以下是一个基于文本的思维导图结构，用于说明Docker和容器技术的关键概念，特别关注于Java架构师可能会感兴趣的部分：Docker与容器技术│├───基本概念│├───容器(Container)││└───是一个轻量级、可移植、自包含的软件包│├───镜像(Image)││└───包含应用程序及其所有依赖项的只
【人工智能 | 大数据】基于人工智能的大数据分析方法用心去追梦人工智能大数据数据分析
基于人工智能（AI）的大数据分析方法是指利用机器学习、深度学习和其他AI技术来分析和处理大规模数据集。这些方法能够自动识别模式、提取有用信息，并做出预测或决策，从而帮助企业和组织更好地理解市场趋势、客户行为以及其他关键因素。以下是几种主要的基于AI的大数据分析方法：机器学习模型：通过训练算法让计算机从历史数据中学习并做出预测或分类。常见的机器学习技术包括监督学习（如回归分析、支持向量机）、非监督学
深度求索DeepSeek V2.5-1210发布：AI代码生成器迎来全新升级前端
深度学习技术日新月异，而强大的AI代码生成器也随之不断进化。今天，我们将聚焦于深度求索团队发布的DeepSeekV2.5-1210版本，这款标志着DeepSeekV2系列收官之作，为我们带来了令人惊喜的Post-Training能力提升和备受期待的联网搜索功能。这篇文章将深入探讨DeepSeekV2.5-1210的各项改进，以及其开源带来的深远影响。DeepSeekV2系列的研发历程与V2.5-1
Go语言学习Day1 XXX-17 golang 开发语言后端
一、基本1）go基本目录结构goproject/src/gocode/testproject01/main(main下是具体代码）2）打开File/Openfolder(打开基本目录）3）新建源文件test01.go4）编译通过命令提示符窗口到达源文件根目录/然后cdgobuildtest01.go（生成test01.exe）5）执行接着上面的执行test01.exe(生成结果）4)和5)可以合并
AI赋能Flutter开发：新手也能轻松入门前端
Flutter作为一款跨平台移动应用开发框架，凭借其“一次编写，多端运行”的特性，赢得了众多开发者的青睐。然而，Flutter的学习曲线相对陡峭，特别是对于编程新手而言，上手难度较大。大量的代码编写、复杂的UI搭建以及对Dart语言的学习，都可能成为学习过程中的阻碍。但现在，借助AI写代码工具，这一切都将变得更加轻松便捷！本文将以ScriptEcho为例，介绍如何利用AI辅助工具高效入门Flutt
ChatGPT搜索漏洞：AI代码生成器安全隐患及应对策略前端
近年来，随着人工智能技术的飞速发展，各种AI代码生成器层出不穷，为程序员带来了极大的便利。然而，技术进步的同时也伴随着安全风险的提升。最近，OpenAI的ChatGPT搜索工具曝出重大安全漏洞，引发了业界广泛关注。本文将深入探讨该漏洞的细节、影响以及应对措施，并展望未来AI工具安全发展趋势。ChatGPT作为一款强大的AI工具，其搜索功能本意是帮助用户快速获取信息。然而，英国卫报近期报道揭露了Ch
求两个字符串的最长公共字串(dp) 未来的JAVA高级开发工程师算法 Java java 算法数据结构
packagecom.cjh.dp;importcom.sun.swing.internal.plaf.basic.resources.basic;publicclassDp2{publicstaticvoidmain(String[]args){//求两个字符串的最长公共子串method("itheima","thema");}privatestaticvoidmethod(Stringa,St
ctr、crictl和nerdctl命令介绍与常用命令列表篙芷容器
ctr、crictl和nerdctl命令区分ctr工具ctr是containerd提供的官方CLI（命令行工具），主要用于与containerd守护进程交互。它允许用户直接操作容器、镜像和任务等资源，是containerd的核心管理工具之一。crictl工具crictl是一个遵循CRI（ContainerRuntimeInterface）规范的命令行工具，用于检查和调试Kubernetes集群中的
1月更新｜国内可用的 ChatGPT 镜像网站整理合集人工智能chatgpt
一、ChatGPT镜像网站①ChatGPT中文版支持4o以及o1，支持MJ绘画②ChatGPT镜像网站支持通用全模型，支持文件读取、插件、绘画、AIPPT③ChatGPT工具站收集各种可以的ChatGPT镜像网站，免费的收费的。支持4o以及o1，支持MJ绘画1.什么是ChatGPT镜像网站ChatGPT镜像网站（ChatGPTMirrorSite）是指通过复制原始网站内容和结构，创建的备用网站。其
1月更新 | 国内可用的 ChatGPT中文版镜像网站攻略整理人工智能chatgpt
一、ChatGPT镜像网站①ChatGPT中文版支持4o以及o1，支持MJ绘画②ChatGPT镜像网站支持通用全模型，支持文件读取、插件、绘画、AIPPT③ChatGPT工具站收集各种可以用的ChatGPT镜像网站，免费的收费的。1.什么是ChatGPT镜像网站ChatGPT镜像网站（ChatGPTMirrorSite）是指通过复制原始网站内容和结构，创建的备用网站。其主要目的是在原始网站无法访问
12月更新｜国内可用的 ChatGPT中文版镜像网站合集~
一、ChatGPT镜像网站①ChatGPT中文版支持4o以及o1，支持MJ绘画②ChatGPT镜像网站支持通用全模型，支持文件读取、插件、绘画、AIPPT③ChatGPT工具站收集各种可以的ChatGPT镜像网站，免费的收费的。支持4o以及o1，支持MJ绘画1.什么是ChatGPT镜像网站ChatGPT镜像网站（ChatGPTMirrorSite）是指通过复制原始网站内容和结构，创建的备用网站。其
Android Rxjava3 使用场景 2401_89760309 android
Observable>>hotKey=ApiManager.getInstance().getApiService().getHotKey();Observable.just(articleList).subscribeOn(Schedulers.io()).observeOn(AndroidSchedulers.mainThread()).map(newFunction,Observable>>
04商品详情敲啊敲9527 vue3项目 javascript 开发语言 ecmascript
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录详情页-热榜区域在Detail文件夹中新建组件接口导入调用渲染模版适配不同标题title图片预览sku组件(商品的一些规格)把components文件中的组件注册为全局组件，方便共享总结详情页-热榜区域在Detail文件夹中新建组件src\views\Detail\components\DetailHot.vue周日榜单一双鞋
【大模型】Spring AI对接ChatGpt使用详解小码农叔叔微服务治理与实战 springboot 入门到精通 spring spring ai Aspring Ai spring ai对接gpt spring ai整合gpt spring ai使用详解 spring ai使用
目录一、前言二、springai介绍2.1什么是SpringAI2.2SpringAI特点2.3SpringAI为开发带来的便利2.4SpringAI应用领域2.4.1聊天模型2.4.2文本到图像模型2.4.3音频转文本2.4.4嵌入大模型使用2.4.5矢量数据库支持2.4.6用于数据工程ETL框架三、SpringAI对接ChatGPT3.1前置准备3.2添加依赖3.3接入流程3.3.1配置文件3
1月更新｜国内可用的 ChatGPT 中文版镜像网站合集~
一、ChatGPT镜像网站①ChatGPT中文版支持4o以及o1，支持MJ绘画②ChatGPT镜像网站支持通用全模型，支持文件读取、插件、绘画、AIPPT③ChatGPT工具站收集各种可以的ChatGPT镜像网站，免费的收费的。支持4o以及o1，支持MJ绘画1.什么是ChatGPT镜像网站ChatGPT镜像网站（ChatGPTMirrorSite）是指通过复制原始网站内容和结构，创建的备用网站。其
ChatGPT 中文版：国内可用的 ChatGPT 镜像网站整理合集（1月更新）人工智能chatgpt
一、ChatGPT镜像网站①ChatGPT中文版支持4o以及o1，支持MJ绘画②ChatGPT镜像网站支持通用全模型，支持文件读取、插件、绘画、AIPPT③ChatGPT工具站收集各种可以的ChatGPT镜像网站，免费的收费的。支持4o以及o1，支持MJ绘画④ChatGPT插件好用的插件~1.什么是ChatGPT镜像网站ChatGPT镜像网站（ChatGPTMirrorSite）是指通过复制原始网
Electron 项目运行问题：Electron failed to install correctly 我命由我12345 前端 -问题清单 electron 前端 javascript vue.js vue2 js 前端框架
问题描述与处理策略1、问题描述运行Electron项目，报如下错误Error:Electronfailedtoinstallcorrectly,pleasedeletenode_modules/electronandtryinstallingagain#翻译错误：Electron未能正确安装，请删除node_modules/electron，然后重试安装2、问题原因这个错误通常是由于Electro
从键盘输入一个大写字母，要求改用小写字母输出。 day day-up 蓝桥杯真题 java 算法
从键盘输入一个大写字母，要求改用小写字母输出。输入A输出aimportjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannerin=newScanner(System.in);charc=in.next().charAt(0);System.out.println(c+32);//97System.ou
深入解析如何进行TensorFlow框架下的算子开发与适配插件开发：基于昇腾AI的完整流程快撑死的鱼华为昇腾 Ascend C的算子开发系统学习人工智能 tensorflow python
深入解析如何进行TensorFlow框架下的算子开发与适配插件开发：基于昇腾AI的完整流程在人工智能领域中，算子（Operator）作为深度学习模型的基础执行单元，决定了整个模型的计算性能和结果准确性。随着硬件平台的多样化，如何将第三方深度学习框架中的算子适配到特定的硬件平台变得至关重要。本文将深入探讨如何在TensorFlow框架下开发适配昇腾AI处理器的算子插件，通过解析算子属性映射、数据排布
深入解析框架适配开发：基于CANN平台的自定义算子开发与第三方框架适配全流程详解快撑死的鱼华为昇腾 Ascend C的算子开发系统学习人工智能
深入解析框架适配开发：基于CANN平台的自定义算子开发与第三方框架适配全流程详解随着深度学习的发展，不同的深度学习框架如TensorFlow、PyTorch、ONNX等在AI开发者社区中占据了重要地位。然而，针对某些硬件平台（如华为昇腾AI处理器），算子库中的算子并非都已经适配了所有主流框架。为了解决这一问题，框架适配开发应运而生，它允许开发者将已存在于算子库中的算子适配到其他未支持的第三方框架上
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_