鱼与钰遇雨

网易云课程：深度学习与PyTorch入门实战

01 深度学习初见
- 1.1 深度学习框架简介
- 1.2 pytorch功能演示
2开发环境安装
3回归问题
- 3.1简单的回归问题（梯度下降算法）
- 3.3回归问题实战
- 3.4 分类问题引入
- 3.6手写数字识别体验
4Pytorch基础
- 4.1张量数据类型
- 4.2创建Tensor
- 4.3 索引与切片
- 4.4 维度变换
5随机梯度下降
- 5.1什么是梯度？
- 5.2 什么是梯度
- - 局部极小值
  - 鞍点
  - 影响搜索过程的其他因素
- 5.3 常见函数的梯度
- 激活函数与loss梯度1
- 激活函数与Loss梯度2
- 6.5 感知机的梯度推导-1
- 6.6 感知机的梯度推导-2
- 6.7 链式法则
- 6.8 MLP反向传播
- 6.9 2D函数优化问题
7 神经网络与全连接层
9卷积神经网络CNN
- 9.1什么是卷积？
- 9.2 卷积神经网络
- 9.3 池化层
- 9.4 Batch Norm
- 9.5 经典卷积神经网络(LeNet5、AlexNet、VGG、GoogleNet)
- - 9.5.1 LeNet-5（80年代）
  - 9.5.2 AlexNet
  - 9.5.3 VGGNet
  - 9.5.4 GoogleNet
- 9.6 ResNet（何凯佲）
- 9.7 InceptionNet
- 9.8 DenseNet
- 9.10 nn.Moudle

01 深度学习初见

1.1 深度学习框架简介

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MAdBgtvY-1627353571007)(5EB9766392EB434A9C110DCA000E54D9)]
Nn.linear 是全连接层
relu是relu层
Conv2d是卷积操作
Softmax激活函数
Sigmoid激活函数
CrossEntropyLoss交叉熵的损失激活函数

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-WyASig9a-1627353571009)(AF7EFC6E2C9343B7BB74C62AC636D57D)]

梯度下降算法就是，求导的迭代过程，每次我们求出一个导数，我们就在当前的x上面的值，减去导数的值，得到一个新的 $ x' $ 的值,这样就完成了一次求导迭代的过程,也就是一次梯度下降的过程。我们最终要求得的就是使得lossfunction最小的 $ x^* $

1.2 pytorch功能演示

学术;pytorch
工业界：TensorFlow2

pytorch：
自然语言处理：nlp包
计算机视觉：torchVision包
图卷积：pytorch geometric / fast.ai

pytorch训练好的模型，可以用ONNX协议，轻松部署

第一次在cuda上运行的时候，要完成一些环境的初始化，所以时间会边长，而在此运行时，反映的就是比较准确地时间了，加速了50倍左右。

2开发环境安装

3回归问题

3.1简单的回归问题（梯度下降算法）

closed form solution
可以精确求解的问题，称之为closed form solution
闭环问题？用高斯消元法

然后在现实生活中，我们拿到的数据往往都是带有一定的噪声的，或者说带有一定的观测误差，人会有自己的主观意志在里面，这使得我们拿到的数据样本会不太一样。就比如说我们在原本的wx+b上面，加上一个随机的高斯噪声，这个高斯噪声是采样自均值为0.01，方差为1的高斯分布。distribution（分布），这个噪声相对而言是比较小的，但是因为它的存在，使得我们拿到的这个数据样本，相对而言是准确的。这里下面的几个绿色的公式，我们拿到了两个方程，我们同样是可以求解的。因为我们引入了误差，我们希望多观测几次这个数据，来求得一个平均的稍微好一点的解，这样子的话，与其观测两个数据点，得到的误差可能会稍微有一点大，我们通过观测一组数据，通过观测者一组数据，来求得这一组数据之上的，整体表现好的这样的一个解，这样的一个解，虽然可能不是closed form solution，但是它被我们经验证明了可以有良好的表现。已经可以达到我们的需求了，因此对于实际的问题我们往往都不会，像初中时候那样，只给出两个观测样本，就比如说方程1和方程2，我们就可以求解了。这往往是不准确的，我们往往会拿到这样的100组或者是1000组这样的方程组，然后通过求解这1000或者100个方程组，整体表现好的一组参数量，来把它作为我们一组方程的解。我们把它写成矩阵形式就是这样子，(WX+b - y)^2，然后我们希望求解的是什么呢？我们为什么要把它写成这个样子呢？大家想想我们刚才讲过的那个例子，我们使用梯度下降算法是求什么？是求这个函数的最小值，但是对于Y = WX+b这个方程来说，我们是要求y的最小值吗？不是，我们是要求y与wx+b这两个差最小，因为我们希望，我们求解的这个w和b的参数使得wx+b这个值更加接近于我们真实的y的值，因此我们并不是要求y的极小值，而是希望求y和wx+b，之间的和最小。我们通过这个方法来衡量他们之间的差距。比如说我们希望求y和wx+b之间差的平方和最小，通过求他们两个之间的平方和最小，我们令这个新的函数称为loss函数，这个loss函数的值最小，我们就达到了使得y和wx+b非常接近的目的，为什么是这个样子的呢？

首先我们来看一下，这个loss 函数是不是大于等于0的，当这个loss function等于0的时候，也就是y等于wx+b的时候。因此我们求y = wx+b的最小值也就是求 y =wx+b，或者说y 近似于wx+b，这样也就得到了你想要的那样一个参数w和参数b，我们用非常真实的模型，来生成一系列的数据，那我们怎么生成呢？
比如说x我们从0-15之间，随便sample出来值，它对应的y的值也会sample出来，就等于上面的公式，我们通过这个具体的模型，sample出来一系列的值，比如说这里面有100个点，我们现在是拿到了一个有高斯噪声的100个数据的采样样本，我们知道这100个高斯噪声，也知道这个函数是怎么生成的，但是我们假设不知道，为什么呢？

因为在实际当中，我们是不知道这个模型是什么样子的。我们通过观察并且给出一定的假设，我们假设这个函数是符合线性分布的。就比如说它是如图的直线，我们就是要求出具体的w和b的参数，使得这条直线跟整体的这个误差比较小，我们怎么衡量这个误差呢？

就是用均方差，就是用我们求得的wx+b+艾普斯冷的值和真实的y值之间的平方和差最小，我们把这个标准作为我们要优化的目标，也就是说我们要求这个函数的极小值，我们把下面那个函数稍微的正式化一下。

对于一个具体的方程，我们要求解的参数是w和b，然后我们观测到的样本是x和y，xi表示我们第i个观测到的样本，我们通过借助于梯度下降的方法，梯度下降可以帮助我们求解一个极小值。我们这里是希望wx+b逼近于y，因此我们构建一个[y-(wx+b)]这样一个新的函数，来求这个新的函数的极小值，也就达到了我们x趋近于b这样一个目的，我们给这个新的函数取名为loss函数，在Loss函数取得极小值的时候，w和b的值，也就是我们要求解的值，我们通过最小化这个Loss function，使得我们求解了一个比较合适的解，合适解我们叫做w’(w派)和 b派(b’)，这样，对于一个新的观测样本，w’x’+b’与y’之间的符合度是非常非常高的，因为我们就是这么求解的，即使不知道y·，我们也能够给出一个y’(y派)的估计。

上面谈到的那个方程是非常容易求解的，现在我们来可视化的看一下，整个求解的过程，我们通过调整不同的w和b，会生成不同的loss值，如图示w轴和b变化的轴，我们是希望求解Loss最小的这个点，最小的这个点大概在什么位置？如图蓝色的点是比较低的点，红色的点是比较高的点，我们通过对这个图片的感测，大概可以目测出最低点的位置。所以说，如果Lossfunction能够可视化的话，我们就可以非常直观的来观察出loss function最低点的w和b的值，但是现实生活中往往都不能够可视化，因为我们的x的维度是非常非常高的，导致我们这个w的维度也非常非常高，因此我们很难在三维的空间中把函数loss function的图像画出来，大家可以看一下这个曲面是比较光滑的，是有一个固定的下降区间，你从任何一个点走走走，总会走到这样一个大概的范围里面，因为他有一个全局极小解，而且这个函数就像一个碗一样，你从这个碗里的任何一个地方滴一滴水的话，这个水滴总会顺着这个碗壁，流流流，流到碗底。这样的函数叫做凸函数。

对于凸函数，它有一个专门的学科来讲解如何优化凸函数，就叫做凸优化。对理论感兴趣的话可以稍微去关注一下这些书籍。但是我们做deeplearnning算法，一般来说，对这方面的深入了解会少一些，我们就直接用现成的这些优化器就可以了。这个函数，即使是非凸函数，我们也能够找到一个局部最小值，这个局部最小值根据经验往往来说，已经发现效果比较好了，因此我们即使是一个局部极小值，我们也可以先用着。

现在我们来动态的来看一下，w和b的动态求解过程，右边的这幅图就是说，我们从一个随机的初始点，比如说我们把w和b都随机地初始化为0，然后我们在每一处对w和b来求导，来更新这个w的值，大家可以看一下，这条红色的线，也就是y=wx + b 对应的一次函数不断向左逆时针走，看左边的图，我们会发现，我们更新100次之后，w和b的值，已经比较接近于我们的理论值了，这两幅图也比较直观地描述了整个学习的过程，这也是我们希望看到的，我们希望看到的就是，一条这样的直线穿过整个数据集，是的整体误差偏小。

现在我们来看一下，我们刚刚求解的问题，我们刚刚求解的问题是什么？我们要预测wx+b的一个值公式中各个参数的值，我们现在已经拿到了一些样本，我们通过观察这一系列的样本，来推测一个w和b的参数，使得我们对于任何一个给出的xn的值我们能够很好地预估yn，这就是我们最终的目的，我们这里的y的取值范围，大概是属于一个整体的实数空间，比如说是-无穷到+无穷，我们把这种案例，也就是y的取值范围是实数空间的这种案例，叫做linnie regresion线性回归。别看它的名字这么复杂，它其实非常非常简单，它就是说他要预测的一个值是连续的值，那什么是连续的值？就比如说我们要预测某一个数值的大小，它是连续的吧，我们要估计，年龄的大小，0-100，虽然说，他并不是在整个的实数空间，但是他在0-100的空间，我们也可以理解为y的值是连续的，因此它也是regression，然后，我们可以预测某一个指数，就比如说恒生指数啊，股票的指数呀，某一方面的指数呀，这些都是regression的问题，然后与regression相对的一个叫logistic regression，逻辑回归是什么意思呢？就是在原本的linear regression的基础上加了一个回归函数，也就是加了一个压缩函数，它会将y从负无穷到正无穷的一个去见范围压缩到0-1的这样一个范围，因此逻辑回归会把原来的一个实数的连续取值空间压缩到0-1的范围，那0-1有什么好处？首先0-1表示一个概率的问题，比如二分类的硬币正反面问题，我们需要的不是实数域的取值范围，而是一个0-1的取值范围，用0表示正面，用1表示反面。因此我们就可以用，logistic regression
来解决这个二分类问题。再比如说0-9的一个手写数字识别问题，这种问题有什么特点呢？就比如说我有十个点，每个点代表了当前这个lable的概率大小，因此它有一个这样的特点，就是说这十个点的概率加起来会等于一，对于这种问题，它的每一个点的范围是0-1，但是他还有另外一个属性，就是所有的点的概率加起来等于1，这就是分类问题和逻辑回归问题的一个小区别，逻辑回归问题对应的某个点的概率是0-1，他没有说所有的点的概率加起来要是0-1，它是单独的处理就可以了。而线性回归最简单，它是默认所有的取值点都是连续的，你可能不是属于负无穷或者正无穷，但是你是一个比较大的连续空间。

3.3回归问题实战

给位同学，我们上节课讲解了梯度下降算法，我们通过分析一个简单的二元一次方程组，讲解了我们初中时代，使用消元法的clossed fond解法，然后我们通过添加了一个高斯噪声，来模拟现实生活中遇到的一些问题，添加了噪声以后，如果只观测1-2个数据，这样子得出的模型，往往具有非常大的随机性，我们通过sample一些类的数据，来求解一个线性模型，使得这个线性模型，在这一系列数据上总的误差和最小，得到的模型往往具有非常好的鲁棒性。

鲁棒是Robust的音译，也就是健壮和强壮的意思。它是在异常和危险情况下系统生存的关键。比如说，计算机软件在输入错误、磁盘故障、网络过载或有意攻击情况下，能否不死机、不崩溃，就是该软件的鲁棒性。所谓“鲁棒性”，是指控制系统在一定（结构，大小）的参数摄动下，维持其它某些性能的特性。

模型能够透过噪声发现数据的真实的形态。

对于这种预测值属于连续实数空间的问题，
我们给它取个名字，称之为称之为线性回归 Linear Regression。

对于预测值在0-1之间的连续空间的问题，我们换了一个名字，称之为logistics regression，它就是在一般的线性回归模型的基础上加了一个额外的logistics function,这也就是我们常讲的sigmoid function，它的作用就是把x属于负无穷到正无穷之间的范围，压缩到0-1之间，这种压缩特表适合表达概率问题。比如说二分类的硬币，正面还是反面的一个概率问题，以及多分类问题的手写数字识别，我们除了知道它的数字范围在0-1之间外，它还有一个额外的约束，就是要求所有的输出节点之间的总的数据概率之和为1。这个就更加符合一个多分类问题。然后我们取概率最大的一个点作为预测值。

OK，至此，我们已经讲解了如何使用numpy，通过梯度下降的算法来求解一个简单的二元一次方程组，下一节课，我们将使用真正的梯度下降算法去求解一个现实的问题，因为对于这样一种简单的二元一次方程组，可能大家看起来非常的学术化，仅限于一些看起来像是比较简单的例子，下一节可，我们将使用梯度下降算法来求解一个非常具有现实意义的问题。比如说邮政编码的识别，比如说数字车牌的识别。

3.4 分类问题引入

例如数字0，它含有7000张照片，涵盖各种风格样式，可以每个数字用6000来训练，1000来测试。所以就是60K训练，10K来测试。
这样划分的目的是，防止过拟合，过于理想的结果。

现在我们来看一下，怎么计算loss？要计算Loss，首先要知道我们这个h3，如果作为最后一个输出的话，那么它怎么表达我们想要表达的lable信息呢？首先我们想到的第一种方法是，对于数字0-9，我们用一个维度，9个数字来表达，因此我们这里h3的输出就可以表示成H3：[1,1]，第一个1表示的是照片数量，第二个1表示的就是0-9的一个数字，对于图片来说，lable是1或者lable是3，他们之间是没有相关性的。我们可以对数字进行one-hot编码，这种编码方式就没有大小关系。

如上图，假设我们有一个十维的点，她的真实的lable，建设如图右边[0 1 0 0 0], 根据二维的欧式距离的一个算法，我们这里十维的点也可以直接相减。然后再求一个平方和，这就是欧氏距离的算法。欧氏距离适合于2维、三维、…十维等等这样的向量之间的差距。

我们pred值不采用0-9的数字来表示，因为我们刚刚讲了，我们采用一个10维的向量来表示。

现在还有一个很小的问题就是，因为我们这里的每一个模型都是线性的，即使通过嵌套，增强了她的表达能力，但是他总体的模型还是线性模型，对于一个手写数字来说，比如说1，我们人之所以能够把它识别成1，是因为人脑有很强的表达非线性的能力。对于一个线性模型来说，它是很难完成手写数字体识别这种显示世界中的简单问题的。那怎么解决这个问题呢，我们在这里引入一个新的东西。我们在每一个函数之后，添加一个非线性的部分，这个非线性的部分它是怎么来的呢？

这个非线性的部分是源自于生物学当中的神经元。对于一个神经元，它有多个输入，然后它还有一个输出，这个输出呢，它不是一个简单的线性求和，它是有一个阈值，就比如说，当你的输入非常非常小的时候，它的输出可能就是0，而当你的输入非常非常大的时候，你的输出也不会非常非常大。

简而言之，就是通过你的输入来进行调控。这个就是一个非线性的函数。最常见的有sigmod函数和relu函数。

3.6手写数字识别体验

我们用28*28的矩阵来表示一个图，图中的每个元素我们用0~1来表示，这个值代表了这个点的灰度值，0表示白色，1表示黑色。或者相反也可以。然后我们将这个矩阵打平，由二维变成一维，但是数据量是不变的。这样子的好处就是，我们忽略了二维的位置关系。

但是对于这个问题，我们仅用一个线性函数是无法解决的，我们要使用三个线性函数的嵌套，首先我们来看第一个线性函数，

一般来讲，我们最后一层的网络的输出，它的一个激活函数，一般不会是relu，它会根据你的一个具体的任务来选择函数。

下节课，我会向大家讲解如何使用Pytorch来把我们这节课讲的这个理论部分变成实践。并且很好地预测mins数据集的number数字。

batchsize的概念？因为GPU性能非常强大，一次可以处理多张图片，如果你一次只处理一张图片的话，你可能整个的传播过程大概是三毫秒，你一次处理十张或者100张图片，你占用的时间也就是4、5毫秒的样子，这样的话，通过并行处理图片，可以大大节省你的计算的时间。batch_size指的就是你一次处理的样本的数量，比如说图片的数量。比如说你一次处理的图片的数量。

4Pytorch基础

4.1张量数据类型

4.2创建Tensor

小写的tensor接受现有的数据（常用，尽量不要用大写的传现有数据，大写的传shape）

大写的Tensor接受的是数据的维度shape(也可接受数据，后面再讲)
torch.FloatTensor(d1,d2,d3)

如何申请未初始化数据的内存空间？注意直接使用这些内容空间时会有问题，因此初始化后作为容器一定要赋值使用

上面的没有初始化直接申请的空间会存在很多隐患，因此我们推荐使用随机初始化的tensor。

下面是正态分布

4.3 索引与切片

反向索引：是-3 -2 -1

4.4 维度变换

5随机梯度下降

5.1什么是梯度？

导数，反应的是y的值随着x值的变化的变化率。
导数本身是一个标量，它反映的是某个方向上的变换快慢的程度。

在大学里，学到了更高维度的函数，因此有了偏微分。导数的方向是可以随便指定的。但是偏微分讲定的是给定的自变量的方向。有多少个自变量，就有多少个方向。

梯度：定义为所有偏微分的向量。
函数的梯度：就是把所有的偏微分看成一个向量来理解，所以梯度他是一个向量，它不是一个标量。这一点是有本质的区别的。

我们讲偏微分就是一种特殊的导数，它的方向是给定了的。也就是函数沿着x轴沿着y轴变化的一个趋势。它也是一个标量。而对于导数来说，他是一个非常通用的概念。它反映的是在给定一个方向上面的变化量。因此它也是一个标量。它只有大小，没有方向性。

我们知道导数反应的是函数的变化量。那么梯度反应的是什么呢？
直观来看：
1、梯度的长度，反应函数的变化趋势，变化的快慢，越长越快，也可称之为速率
2、梯度的方向，代表它朝着它函数的值越来越大的方向走

那如何利用梯度向量来搜索极小值解呢？一般情况我们是搜索极小值，如果你想搜索极大值的话，你可以把这个Loss变为负号，这样子你就可以通过搜索极小值解来帮助你找到一个极大值解，我们这里只讨论极小值。

最开始的值，我们通常都是随机初始化的。

5.2 什么是梯度

我们来看一种更加通用的情况，对于x^2*sin(x)

随机初始化为右上角的一个解，这里自变量是x,y，所以是一个二维的平面，每一条曲线代表的是一种不同的优化算法，对于某一个向量来说，它的梯度下降就是 $\theta '= \theta - \alpha*\Delta_\theta$

左图下边的是局部最小值，左图右边的是全局最小值。

右边这个类似马鞍的图像，我们会发现，原始的SGD搜素卡在上面的位置了，我们后面会讲为什么会出现这种状况。因为你在搜索的时候，你只有目前的视野，所以，如果你没有其他的力量的话，你很有可能卡在一个局部的情况当中，动不了了。

图形中，对于任何的两个点，我们拉一条直线，这条直线中间的中点，以及这个中点所对应的的函数的值。分别定义为z1和z2,对于这个图形始终有z1>z2，这个图形像网一样，这样的图像对应的函数是凸函数。对于这样的图形，总可以找到一个全局最优解。

局部极小值

凸优化在现实生活中存在，但是不太常见。下图是现实生活中存在但是不太常见的例子。

ResNet-56 由华人何凯佲发明

左图是56层神经网络的损失函数的图像，右图是引入resnet机制，加入通道后的网络，图像明显变平滑，优化速度变快。这也就解释了为什么网络可以叠加地很深而且可以很好地优化。

鞍点

鞍点：对于一个方向（平面）是局部极小值而对于另一个方向（平面）是局部极大值

因此对于x和y这两个维度的局部最小值和局部最大值的情况是不一样的。因此鞍点是比局部极小值更可怕的一种情况，因为通常我们的网络有上百的输入，w0,w1…参数有成百上千个，总会出现鞍点的情况。就是说你在这个自变量上取得一个极大值，你在另外一个自变量上取得一个极小值。

在鞍点就会卡住，导致搜不到全局最小值解。

影响搜索过程的其他因素

初试状态
如果你不知道如何初始化的话，你就按照凯明在paper中讲的，凯明的初始方法。

同样的网络，同样的参数，不同的初始化，往往会导致不同的结果。
学习率

学习率最开始最好设置小一点，如果慢慢收敛了，你再试着把学习率增大一点，这样收敛地更快，但是如果你一开始就把学习率设置地很大的话，函数很有可能不收敛。

learnning rate即影响速度又影响精度。

动量（用于逃离局部极小值）
escape minima

这个动量，大家可以非常直观地理解为惯性。
就是你的惯性大于你梯度向后收敛的力度，从而导致你不会囿于局部极小值。

5.3 常见函数的梯度

在高中和大学，会陆陆续续学习一些，函数的梯度求解方法，我们这里将梯度和导数的概念混在一起讲，是因为导数是给定的方向，而梯度是所有方向上面的一个综合。

对于一个一维函数，它只有一个方向，因此一维函数的梯度和导数基本上就是一个东西，只不过导数是没有方向的，而梯度是有方向的。

w作为神经网络的参数,x作为神经网络的输入，b也是参数。
w,b是我们整个神经网络要优化的目标。w,b看成是两个自变量。x是参数。

这个式子稍微复杂一点，但是这个式子就是我们真真实实的单层感知机在使用均方差的一个loss度量的一个导数，或者说是一个梯度。因此我们对于一个单层的感知机，使用均方差的时候，它的梯度是可以直接使用closs found直接计算出来的，我们可以直接使用我们计算出的梯度信息，对任何的w和b的状态，求解出该状态下对应的梯度，然后直接进行更新就可以了。这个式子对于我们求解一个单层的感知机来说是非常非常方便的。

激活函数与loss梯度1

由于它不连续，不可导，因此我们必须对他进行优化，从而让激活函数可以进行梯度下降。

为了解决单层感知机不可导的问题，科学家提出了一个连续光滑的函数，名字叫做sigmoid或者叫做Logistic 就是逻辑回归。

因为 sigma 使我们神经网络当中的一部分，我们在做前向的时候，这个sigma的值等于多少是已知的，因此sigma这个值对w的导数等于sigma乘以1-sigema。因此这个导数也是已知的。

所以说它求导的过程中是非常非常简单的。需要再额外地再去求导。你只要根据它现有的值相乘一下就能够求出导数。

但是呢，当x特别大的时候呢？梯度=0，就会导致梯度长时间得不到更新，就会出现梯度弥散。

激活函数tanH 在RNN中用的比较多！
sigmoid Y轴放大两倍，X轴缩小两倍，再平移2.

整型线性单元 RelU, 神经网络的奠基之作
减少梯度弥散的出现，右侧部分的梯度永远是1，它在做向后传播的时候，因为你的梯度信息是1，导致你这个梯度计算起来非常非常方便，不会放大也不会缩小，因此对于搜索最优解，relu函数具有先天的优势。它的导数计算起来非常的简单，而且由于其梯度不变性，也不会出现梯度弥散和梯度爆炸的情况。

激活函数与Loss梯度2

p = F.softmax(a,dim=0)，这个建图过程会自动完成一个前向的操作。

每调用一次backward，就会进行一次反向传播，计算梯度，并把梯度信息放到成员变量w.grad内，并且把这个图的梯度信息给清除掉。因此当你第二次使用backword来操作的时候，就会报这个错误，他会提示你让你设置标志，p.backword(return_graph=True)，当你调用这句话，除了会得到你的梯度信息以外，他这个图是不会被清除的。因此你可以再次使用P.backword来获得t度信息。但是如果你在第二次Backword的时候没有设置这个标志，那么第三次backward就不行了。这个标志只会保持一次。因此我们这里本来已经写了这句话了，会因为你没有设置这个标志，当你再次使用的时候这个图就被清掉了，你就不能再次backward了。

然后下面需要注意啊，我们这里无论是使用grad函数，还是使用backword函数，我们最终要的这个loss，一定是一个维度为1长度为1的东西，或者说是维度为0的这样一个scale。就比如说你的Loss是一个长度为1，feature为3的时候，它是不可行的。你的Loss是必须只有一个量，不能有3个量，当你有3个量的时候，说明你的代码一定是有问题的。你的逻辑是有问题的。

我们来看一下，我们这里的P是，是长度为1，维度为3的这样一个vector向量，因此我们在求导的时候，不能够直接传P,因为P不是一个长度为1,维度为1的，我们只能对p中的第二个，或者是第三个（下标为2）进行一个求导，因此我们这里对P的第二个变量也就是

6.5 感知机的梯度推导-1

从这一节课开始，我们会带大家领略一个完整的多层神经网络梯度推导的过程。

首先我们来看一个，单层的感知机的梯度的计算，以及它的梯度更新的这样一个过程。首先我们来回顾一下，单层的感知机模型。单层感知机，每一个输入节点xi和他对应的权值wi节点，相乘累加以后，再跟一个bios相加，得到的就是它的预测值，下面是它的数学模型，我们已经见过了，因此我们不讲。

现在我们来看一下，对于单层的感知机，

对于单层的感知机，我们已经见过了，因此我们不讲。对于单层的感知机，我们前面讲过，它的激活函数是一个像楼梯一样的函数（不奇函数），这个函数是不可导的，我们在这里使用一个现代化的单层感知机的模型，也就是说它的激活函数不再是一个步进的模型，而是一个sigmoid函数，也就是sigma希腊字符来表示sgimoid函数，现在我们来对符号的定义来进行一个规范化，首先是，对于输入层，我们把每一层进行一个编号，比如说，对于这个输入层，它的层数是第0层，因此对于输入层上面所有的元素，我们的上标0，表示它是属于输入层的，它的下标0~n，表示第0层，一共有n个元素节点。输入，求和以及激活函数sigmoid的输出我们称之为一层，每一层中的参数包括权值w，权值的上标1表示第一层，也就是第一个隐藏层，同时它有两个下标，第一个下标i表示的是连接的上一层的xi结点，第二个下标j表示的是连接的是这一层的j号结点，也就是说，表示上一层的i和这一层的j相连接。因为我们这一层中间层只有一个节点，所以j总是等于0。因此我们这里的wi0，就表示上一层的i号结点与这一层的第0号结点，因为我们这里只有一个节点，然后他的上标1就表示这一层的编号，也就是第一个hidden layer,然后，我们把加权求和的变量起了一个名字，叫做x^1下标0,x1表示是第一层上面的x，x下标0表示第一层上面的0号结点，然后，对于x^{1下标0，它经过激活函数以后会得到一个输出值，我们把经过激活函数的这个输出值起个名字叫做O，O}1下标0，1表示第一层，0表示第0号结点，我们这里需要注意的是，因为我们这里仅仅推导了一个单层的感知机，也就是说，第一层只有一个节点，
，就是上图这个节点。

然后，对于我们后续还要推导的多层的感知机，也就是层数有多层，每一层上的结点数量也有多个，因此它可能存在x^1下标1，x1下标2，这样的结点。

然后对于每一个x，它的输出，也就是经过激活函数以后，它的编号变成了o^1下标1，o1下标2，o^1下标3，为了跟后面的编号保持一致，我们这里还有一些，重复的累赘，比如说这里0号结点我们也写出下标0来啦，这是为了后边方便我们很快地类推到多个输出节点，以及多层上面的一个编号，同样的我们这里的w20也保留了这样一个0的编号。

然后经过激活函数以后，O10跟他的target的值做一个Error或者一个loss，就是（O^{1下标0-t）}2，因为只有一个节点，所以求和符号可以省略。现在我们已经把命名规则和大家讲清楚了，对于任意的符号，比如说X，上标表示层的编号，下标表示当前层节点的编号。对于权值来说上标L表示层数，下标i表示上一层节点的编号，下标j表示该层节点的编号。

在这个编号的前提下，我们来推导一下单层感知机的梯度的推导公式，首先我们来写出单层感知机的输出的误差的计算公式，我们把输出的值和它的目标值做一个平方和。这里引入了一个额外的1/2，这个参数是为了跟后面的求导的2抵消掉，如果你写不写1/2都是一样的。因为它的梯度的单调性是不会改变的。下面我们进行一步步的推导。

首先是

输入是一个x节点，有十个feature。跟一个一维且有十个w权值做一个转置运算。

然后计算一个Loss,loss是一个标量，也可以理解成它是一个长度是1维的标量向量。

通过梯度下降的反复计算，就可以求得一个越来越优化的w权值。最终我们会得到一个相对较好的w权值，使得x*w的值越来越接近于趋近于它真实的y的值。这样就完成了一次梯度计算的过程。

本节课，我们通过手把手地推导一个单层的感知机的梯度，跟使用单层感知机的梯度，来更新，达到一个优化感知机的这样一个目的。

6.6 感知机的梯度推导-2

推导多层感知机梯度传导以及优化的过程。

有n × m个偏微分的计算。

6.7 链式法则

通过链式法则，我们就可以把最后一层的误差一层一层地输出到中间层的权值上面去，从而得到中间层的一个梯度信息。通过这个梯度信息，我们就可以很好地更新这个权值，从而达到一个最优化的效果。说到链式法则，我们前面的一些梯度推导过程中间其实不经意的就已经使用到了这一项法则，但是我们没有明说，在此我们正式地给它介绍一下。在介绍链式法则之前，我们来介绍一下一些其他的常用的公式。

包括：两个梯度的和、差、乘积、商、还有分子。

我们来看一个针对神经网络非常好的例子。

下面我们通过Pytorch提供的自动求导功能来验证一下链式法则。

6.8 MLP反向传播

本节课我们将会介绍一个完完整整的，与我们实际使用一摸一样的，多层感知机的反向传播方式。本节课的公式稍微来说比较多一些，但是大家不要害怕，因为这将是deeplearning最后的工序。如果你对这个掌握了以后，后面的一些东西你掌握起来就会非常非常快。

6.9 2D函数优化问题

这个函数有一个专门的名字，它是科学家用来专门检测优化器的一个效果，也就是说我们科学家找到了一系列的非常复杂的，或者说非常便于可视化的这样一些函数。通过在这些示例函数上来搜索和检测你这个优化器能不能找到一个比较好的解。像这个函数来说，它虽然有四个局部极小值，但是每一个值的解都是0，所以来说这四个解，其实都是权值最小解。因为它的解都是一样大的。

因此我们可以通过求解这个函数，来看一下我们设计的优化器，或者说我们设计的这个梯度下降法则能不能很好地找到这个解，因为这个解我们可以直接通过closed found方法求解出来了。我们只需要看我们通过mechine learnning方法求解出来的这个解跟我们真实的这个解的差距大不大，就知道我们这个优化器有没有真正找到比较好的最小值解。

7 神经网络与全连接层

9卷积神经网络CNN

9.1什么是卷积？

卷积指的就是局部相关性。

卷积名字的由来：因为它模拟的操作和我们信号模拟中的卷积运算操作是一样的，故得此名。

用于图像锐化的和：

用于模糊数据的和：

用于边缘检测的和：

9.2 卷积神经网络

一个kernel（核）一个观察的角度，多个就有多个观察的角度。

Input_channels指的是输入图像有多少个通道

Kernel_channels指的是你有多少个核（另一个意思下节课讲解：就是说kernel还有一个通道数的参数，与输入的通道数相同，用于对输入图片的每一个通道进行特征提取）

上图就是计算过程卷积后的结果层的H和W的Size的计算方法：

（输入尺度-+2*padding-kernel_size)÷stride下取整后-1

kernel的通道数= 输入图像的通道数

[2,3,3,3]
第一个channels指的是有多少个kernel,第二个channels与输入的通道数相同。

另外，每一个kernel都会带一个偏置，它与kernel的数量一致。

当时杨罗坤做邮政编码时的一个网络
LeNet-5

第一个卷积层kernel通常观测的是一些低纬度的特征，比如说下面这个车的菱形啊，角度啊，边缘啊，变化之类的。

而中间层的这些kernel呢，观察的是一些小维度的概念，比如说车的圆形等。

更高维度的卷积层提取的就是车的更高级的特征，比如说有没有玻璃、有没有轮子、有没有车玻璃等等。这些更高纬度的概念。
（以人脸为例，前免得卷积层观察轮廓、中间的卷积层观察肤色等等，再往下观察眼睛，鼻子等等。最红神经网络就根据这些高纬度的特征来进判断和分类。这就是特征学习，它就是一个特征不断提取的这样一个过程。

注意，用layer.forward函数可以完成前向计算。但是pytorch有包装在里面，它推荐使用类的实例加过括号的方式进行调用，它调用的是内置的call函数，而pytorch在里面封装了hooks，这些hooks是高阶的特性，如果你要使用这些hooks方法，要类的实例调用。因此除非你十分清楚你要干什么，否则不推荐使用layer.forward这种计算方式。使用layer()会先运行hooks再运行.forward函数，它不但能够完成你的目的，还能够完成pytorch自带的一些功能建设。

到这里，我们已经讲解了一层卷积是如何运算的，以及其中的input dimension 和 kernels dimesion的定义。根据kernels 的数量会得到我们一个output channels的数量。

9.3 池化层

pooling层:下采样层，是一个把feature map变小的一个操作，和图片缩小不太类似

upsample:上采样，图片放大操作

在LeNet中，不是使用pooling，而是使用subsampling隔行采样来降低数据量，降维，到了AlexNet我们就开始使用pooling滑动窗口了。

Relu函数，去掉负的响应低的函数。

9.4 Batch Norm

在sigmoid函数中，如果值超过-4或者4，就会导致导数为0，就会出现梯度弥散的情况，就是你的梯度会在很长时间内得不到更新，这并不是我们所希望的，我们会避免使用sigmoid函数，而会使用relu函数，因为relu函数不会出现这问题。但是，在有些场合必须使用sigmoid，因此我们希望把你输入的值控制在有效的范围之内。

Test时，1取的是全局的 $\mu 和 \sigma^2 $ 。

优势：
1收敛速度更快
2更好的最优解
3更稳定

9.5 经典卷积神经网络(LeNet5、AlexNet、VGG、GoogleNet)

9.5.1 LeNet-5（80年代）

最开始是用于手写数字识别
，386的年代。那时候深度学习还没有很大的热潮。

一个卷积层、一个下采样，当时用的是隔行采样，又一个卷积层，然后隔行采样，最后是三个打平之后使用的线性层。

9.5.2 AlexNet

对于AlexNet我们学习的是它对于当时的一个影响力，而不是它的结构，因为它的结构是当时的比较中间的一个做法，由于当时显卡内存的限制。

9.5.3 VGGNet

来自牛津大学的一个视觉研究组，他们一共发明了6种版本的网络结构。

9.5.4 GoogleNet

Filter Concatenation 过滤器连接

Convolutions卷积

Previous Layer 上一层

当层数更多的时候，22层左右以上，会导致training error会更高。

9.6 ResNet（何凯佲）

当前使用最广泛，意义影响最大的神经网络的变种。

华人研究学者，何凯佲在微软亚洲研究院研究出来的。

更深层次的网络，会出现梯度弥散（更新慢甚至不更新）和梯度爆炸（频繁更新，找不到最优解）的情况。

通过增加一个shortcut 捷径或者短路连接，使得你22层以上，更多层的网络连接的结果至少和22层的效果一样。因为你在这里加了一个x，你反向求导的时候的时候梯度的传播就不会进行衰减，因为求导的结果是1，任何学习率乘1结果还是那个数，不会出现梯度弥散的情况。

而这个shortcut具体实现起来呢，不是对后面的所有层搞一个shortcut，而是对每多少层就加一个shortcut。

空白意味着，如果你Resnet退化成一个直连，至少可以获得等同于一个vgg19的效果。Resnet对每个单元增加一个shortcut，所以说每个单元都可以退化成一个shortcut。退化的权利是交给这个网络去train的，就是这个网络它可以有一个选择权，它可以退化到一个更浅层次，如11层或者19层，来保证它的一个准确率。然后在你退化到这一层以后，你的准确率达到要求之后，也就是在网络训练好了之后，网络会想办法把退化掉的单元来训练上来，看能不能在已有的基础上再提升一点点。所以resnet就是这样一步一步train出来的。
当以后的优化技术变好了之后，那么resent可能就和vgg一样，变成一个中间产物了，但是目前来看的话，优化技术还达不到这个程度。因此我们认为来加了一个短接线，是的它train起来变得更加简单了。

对于优化器来说，你加了shortcut，它优化起来更加的方便、快捷、有效。

ResNet实现：
input和output不一致时的残差网络实现版本：

补充：resnet50说明

9.7 InceptionNet

是GoogelNet的下一个版本，加深的版本，略，有兴趣可以去了解一下。

9.8 DenseNet

9.10 nn.Moudle

你可能感兴趣的:(人工智能)

探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
cmd泛滥_与您的后泛滥同事见面：人工智能机器人 weixin_26644585 人工智能 leetcode
cmd泛滥Readytoswapyouroldcube-mateforadisembodiedAI?IPsoftCEOChetanDube,creatorofAIco-workerAMELIA,giveshistakeonthepost-COVIDofficelandscape.准备将您的旧立方体伙伴换成无形的AI？AIsoft同事AMELIA的创始人IPsoft首席执行官ChetanDube阐述
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
全自动解密解码神器 — Ciphey K'illCode python_模块 python vscode
Ciphey是一个使用自然语言处理和人工智能的全自动解密/解码/破解工具。简单地来讲，你只需要输入加密文本，它就能给你返回解密文本。就是这么牛逼。有了Ciphey，你根本不需要知道你的密文是哪种类型的加密，你只知道它是加密的，那么Ciphey就能在3秒甚至更短的时间内给你解密，返回你想要的大部分密文的答案。下面就给大家介绍Ciphey的实战使用教程。1.准备开始之前，你要确保Python和pip已
埃隆·马斯克表示特斯拉“没有必要”授权 xAI 模型喜好儿网人工智能 AIGC 马斯克
埃隆·马斯克近日在社交媒体上对《华尔街日报》的一篇报道进行了反驳。该报道指出，马斯克旗下的电动汽车公司特斯拉可能与人工智能初创公司xAI达成了一项收入分享协议，以便特斯拉能够使用xAI的人工智能模型。据称，这些模型将被集成到特斯拉的全自动驾驶（FSD）软件中，并可能用于开发特斯拉汽车的语音助手以及人形机器人擎天柱的软件。喜好儿网然而，马斯克否认了这一说法，他在社交媒体平台上表示，尽管特斯拉确实与x
Reflection 70B——HyperWrite推出的大型语言模型新加坡内哥谈技术语言模型人工智能自然语言处理
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/在AI技术飞速发展的过程中，我们已经见证了可以写作、编程，甚至创造艺术的模型问世。但有一
5条实操干货有效打造你的个人品牌长安行动派
这是ZerK的第46篇原创相信大家对个人品牌这个词已经不在陌生。尤其是在知识付费的年代，你的个人品牌，就是你的标签！在《深度工作》中说到，在未来有三种人会越来越贵第一种人:能与机器对话，操纵机器的人。人工智能时代的到来，机器毕竟部分取代人类。第二种人:IP，知识产权或者文学潜在财产就像有些网上课程一周卖出的钱和一个机构卖一年一样多。价值99元的课程，10万人购买，是很常见的。爱产出大概就是10万✖
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况 m0_57781768 python langchain 语言模型
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况在现代的人工智能开发中，大型语言模型（LLM）已经成为了不可或缺的工具，无论是用于自然语言处理、对话生成，还是其他复杂的文本生成任务。然而，随着这些模型的广泛应用，开发者面临的一个重要挑战是如何有效地追踪和管理Token的使用情况，特别是在生产环境中，Token的使用直接影响着API调用的成本
LangChain集成指南:如何利用多样化的AI提供商 aehrutktrjk 人工智能 langchain python
LangChain集成指南:如何利用多样化的AI提供商引言在人工智能和机器学习领域,LangChain已成为一个强大而灵活的框架,允许开发者轻松集成各种AI服务提供商。本文将深入探讨LangChain的集成能力,介绍如何利用不同的AI提供商来增强你的应用程序,并提供实用的代码示例。LangChain集成概览LangChain支持多种AI提供商的集成,这些集成可以分为两类:独立包集成:这些提供商有独
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构汤萌妮Margaret
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构scalable_agent项目地址:https://gitcode.com/gh_mirrors/sc/scalable_agent在当今的人工智能研究前沿，深度强化学习（DRL）因其在复杂任务中的卓越表现而备受瞩目。本文要介绍的是一个开源于GitHub的重量级项目：“ScalableDistributedDeep-RLwithImp
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
架构评审的自动化与人工智能: 如何提高效率光剑书架上的书架构自动化人工智能运维
1.背景介绍架构评审是软件开发过程中的一个关键环节，它旨在确保软件架构的质量、可维护性和可扩展性。传统的架构评审通常是由人工进行，需要大量的时间和精力。随着大数据技术和人工智能的发展，自动化和人工智能技术已经开始应用于架构评审，从而提高评审的效率和准确性。在本文中，我们将讨论如何通过自动化和人工智能技术来提高架构评审的效率。我们将从以下几个方面进行讨论：背景介绍核心概念与联系核心算法原理和具体操作
解锁企业潜能，Vatee万腾平台引领智能新纪元自媒体经济说其他
在数字化转型的浪潮中，企业正站在一个前所未有的十字路口，面对着前所未有的机遇与挑战。解锁企业内在潜能，实现跨越式发展，已成为众多企业的共同追求。而Vatee万腾平台，作为智能科技的先锋，正以其强大的智能赋能能力，引领企业步入一个全新的智能纪元。Vatee万腾平台，是一个集成了人工智能、大数据、云计算等前沿技术的综合性智能服务平台。它不仅仅是一个技术工具，更是企业转型升级的加速器，能够深入企业运营的
LiteBee Wing测评：走进中小学课堂，合适的编程无人机非常重要！ song_bcbd
“国务院在《新一代人工智能发展规划》中明确，要广泛开展人工智能科普活动，实施全民智能教育项目，要在中小学阶段设置人工智能相关课程，逐步推广编程教育，鼓励社会力量参与寓教于乐的编程教学软件、游戏的开发和推广，而且要进行人工智能竞赛。”作为从事创客教育多年的老师，感谢在这个大环境，让学生能够了解人工智能，接触到前沿科技，同时也鼓励更多学生学习编程，因为没有学编程，可能就会像现在的我们后悔以前没有学习好
释放“AI+”新质生产力，深算院如何“把大数据变小”？ YashanDB YashanDB 国产数据库数据库数据库大数据
近期，南都·湾财社推出《新质·中国造》栏目，深入千行百业，遍访湾区企业，解锁湾区新质生产力，共探高质量发展之道。本期对话深圳计算科学研究院YashanDB首席技术官陈志标，探讨国产数据库如何实现创新突围，抢抓数字经济时代的新机遇。以下是专访内容：如何应对AI时代所面临的算力挑战？南都·湾财社：数据、算力和算法是发展人工智能的三要素，深算院做了怎样的前瞻性布局？陈志标：今年，政府工作报告中首次提及开
Spring的注解积累 yijiesuifeng spring 注解
用注解来向Spring容器注册Bean。需要在applicationContext.xml中注册： <context:component-scan base-package=”pagkage1[,pagkage2,…,pagkageN]”/>。如：在base-package指明一个包 <context:component-sc
传感器百合不是茶 android 传感器
android传感器的作用主要就是来获取数据,根据得到的数据来触发某种事件下面就以重力传感器为例; 1,在onCreate中获得传感器服务 private SensorManager sm;// 获得系统的服务 private Sensor sensor;// 创建传感器实例 @Override protected void
[光磁与探测]金吕玉衣的意义 comsci
这是一个古代人的秘密:现在告诉大家信不信由你们: 穿上金律玉衣的人,如果处于灵魂出窍的状态,可以飞到宇宙中去看星星这就是为什么古代
精简的反序打印某个数沐刃青蛟打印
以前看到一些让求反序打印某个数的程序。比如：输入123，输出321。记得以前是告诉你是几位数的，当时就抓耳挠腮，完全没有思路。似乎最后是用到%和/方法解决的。而今突然想到一个简短的方法，就可以实现任意位数的反序打印（但是如果是首位数或者尾位数为0时就没有打印出来了）代码如下： long num, num1=0;
PHP：6种方法获取文件的扩展名 IT独行者 PHP 扩展名
PHP：6种方法获取文件的扩展名 1、字符串查找和截取的方法 1 $extension = substr ( strrchr ( $file , '.' ), 1); 2、字符串查找和截取的方法二 1 $extension = substr
面试111 文强chu 面试
1事务隔离级别有那些，事务特性是什么（问到一次） 2 spring aop 如何管理事务的，如何实现的。动态代理如何实现，jdk怎么实现动态代理的，ioc是怎么实现的，spring是单例还是多例，有那些初始化bean的方式，各有什么区别（经常问） 3 struts默认提供了那些拦截器（一次） 4 过滤器和拦截器的区别（频率也挺高） 5 final，finally final
XML的四种解析方式小桔子 dom jdom dom4j sax
在平时工作中，难免会遇到把 XML 作为数据存储格式。面对目前种类繁多的解决方案，哪个最适合我们呢？在这篇文章中，我对这四种主流方案做一个不完全评测，仅仅针对遍历 XML 这块来测试，因为遍历 XML 是工作中使用最多的（至少我认为）。　　预备　　测试环境：　　AMD 毒龙1.4G OC 1.5G、256M DDR333、Windows2000 Server
wordpress中常见的操作 aichenglong 中文注册 wordpress 移除菜单
1 wordpress中使用中文名注册解决办法 1)使用插件 2)修改wp源代码进入到wp-include/formatting.php文件中找到 function sanitize_user( $username, $strict = false
小飞飞学管理-1 alafqq 管理
项目管理的下午题，其实就在提出问题（挑刺），分析问题，解决问题。今天我随意看下10年上半年的第一题。主要就是项目经理的提拨和培养。结合我自己经历写下心得对于公司选拔和培养项目经理的制度有什么毛病呢？ 1，公司考察，选拔项目经理，只关注技术能力，而很少或没有关注管理方面的经验，能力。 2，公司对项目经理缺乏必要的项目管理知识和技能方面的培训。 3，公司对项目经理的工作缺乏进行指
IO输入输出部分探讨百合不是茶 IO
//文件处理在处理文件输入输出时要引入java.IO这个包； /* 1，运用File类对文件目录和属性进行操作 2，理解流，理解输入输出流的概念 3，使用字节/符流对文件进行读/写操作 4，了解标准的I/O 5，了解对象序列化 */ //1，运用File类对文件目录和属性进行操作 //在工程中线创建一个text.txt
getElementById的用法 bijian1013 element
getElementById是通过Id来设置/返回HTML标签的属性及调用其事件与方法。用这个方法基本上可以控制页面所有标签，条件很简单，就是给每个标签分配一个ID号。返回具有指定ID属性值的第一个对象的一个引用。语法： &n
励志经典语录 bijian1013 励志人生
经典语录1: 哈佛有一个著名的理论：人的差别在于业余时间，而一个人的命运决定于晚上8点到10点之间。每晚抽出2个小时的时间用来阅读、进修、思考或参加有意的演讲、讨论，你会发现，你的人生正在发生改变，坚持数年之后，成功会向你招手。不要每天抱着QQ/MSN/游戏/电影/肥皂剧……奋斗到12点都舍不得休息，看就看一些励志的影视或者文章，不要当作消遣；学会思考人生，学会感悟人生
[MongoDB学习笔记三]MongoDB分片 bit1129 mongodb
MongoDB的副本集(Replica Set)一方面解决了数据的备份和数据的可靠性问题，另一方面也提升了数据的读写性能。MongoDB分片(Sharding)则解决了数据的扩容问题，MongoDB作为云计算时代的分布式数据库，大容量数据存储，高效并发的数据存取，自动容错等是MongoDB的关键指标。本篇介绍MongoDB的切片(Sharding) 1.何时需要分片 &nbs
【Spark八十三】BlockManager在Spark中的使用场景 bit1129 manager
1. Broadcast变量的存储，在HttpBroadcast类中可以知道 2. RDD通过CacheManager存储RDD中的数据，CacheManager也是通过BlockManager进行存储的 3. ShuffleMapTask得到的结果数据，是通过FileShuffleBlockManager进行管理的，而FileShuffleBlockManager最终也是使用BlockMan
yum方式部署zabbix ronin47 yum方式部署zabbix
安装网络yum库#rpm -ivh http://repo.zabbix.com/zabbix/2.4/rhel/6/x86_64/zabbix-release-2.4-1.el6.noarch.rpm 通过yum装mysql和zabbix调用的插件还有agent代理#yum install zabbix-server-mysql zabbix-web-mysql mysql-
Hibernate4和MySQL5.5自动创建表失败问题解决方法 byalias J2EE Hibernate4
今天初学Hibernate4，了解了使用Hibernate的过程。大体分为4个步骤： ①创建hibernate.cfg.xml文件 ②创建持久化对象 ③创建*.hbm.xml映射文件 ④编写hibernate相应代码在第四步中，进行了单元测试，测试预期结果是hibernate自动帮助在数据库中创建数据表，结果JUnit单元测试没有问题，在控制台打印了创建数据表的SQL语句，但在数据库中
Netty源码学习-FrameDecoder bylijinnan java netty
Netty 3.x的user guide里FrameDecoder的例子，有几个疑问： 1.文档说：FrameDecoder calls decode method with an internally maintained cumulative buffer whenever new data is received. 为什么每次有新数据到达时，都会调用decode方法？ 2.Dec
SQL行列转换方法 chicony 行列转换
create table tb(终端名称 varchar(10) , CEI分值 varchar(10) , 终端数量 int) insert into tb values('三星' , '0-5' , 74) insert into tb values('三星' , '10-15' , 83) insert into tb values('苹果' , '0-5' , 93)
中文编码测试 ctrain 编码
循环打印转换编码 String[] codes = { "iso-8859-1", "utf-8", "gbk", "unicode" }; for (int i = 0; i < codes.length; i++) { for (int j
hive 客户端查询报堆内存溢出解决方法 daizj hive 堆内存溢出
hive> select * from t_test where ds=20150323 limit 2; OK Exception in thread "main" java.lang.OutOfMemoryError: Java heap space 问题原因： hive堆内存默认为256M 这个问题的解决方法为：修改/us
人有多大懒，才有多大闲 (评论『卓有成效的程序员』) dcj3sjt126com 程序员
卓有成效的程序员给我的震撼很大，程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得做着重复单调的工作。在看这本书之前，我属于勤奋的人，而看完这本书以后，我要努力变成懒惰的人。不要在去庞大的开始菜单里面一项一项搜索自己的应用程序，也不要在自己的桌面上放置眼花缭乱的快捷图标
Eclipse简单有用的配置 dcj3sjt126com eclipse
1、显示行号 Window -- Prefences -- General -- Editors -- Text Editors -- show line numbers 2、代码提示字符 Window ->Perferences，并依次展开 Java -> Editor -> Content Assist，最下面一栏 auto-Activation
在tomcat上面安装solr4.8.0全过程 eksliang Solr solr4.0后的版本安装 solr4.8.0安装
转载请出自出处： http://eksliang.iteye.com/blog/2096478 首先solr是一个基于java的web的应用，所以安装solr之前必须先安装JDK和tomcat，我这里就先省略安装tomcat和jdk了第一步：当然是下载去官网上下载最新的solr版本，下载地址
Android APP通用型拒绝服务、漏洞分析报告 gg163 漏洞 android APP 分析
点评：记得曾经有段时间很多SRC平台被刷了大量APP本地拒绝服务漏洞，移动安全团队爱内测（ineice.com）发现了一个安卓客户端的通用型拒绝服务漏洞，来看看他们的详细分析吧。 0xr0ot和Xbalien交流所有可能导致应用拒绝服务的异常类型时，发现了一处通用的本地拒绝服务漏洞。该通用型本地拒绝服务可以造成大面积的app拒绝服务。针对序列化对象而出现的拒绝服务主要
HoverTree项目已经实现分层 hvt 编程 .net Web C#ASP.ENT
HoverTree项目已经初步实现分层，源代码已经上传到 http://hovertree.codeplex.com请到SOURCE CODE查看。在本地用SQL Server 2008 数据库测试成功。数据库和表请参考：http://keleyi.com/a/bjae/ue6stb42.htmHoverTree是一个ASP.NET 开源项目，希望对你学习ASP.NET或者C#语言有帮助，如果你对
Google Maps API v3: Remove Markers 移除标记天梯梦 google maps api
Simply do the following: I. Declare a global variable: var markersArray = []; II. Define a function: function clearOverlays() { for (var i = 0; i < markersArray.length; i++ )
jQuery选择器总结 lq38366 jquery 选择器
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
基础数据结构和算法六：Quick sort sunwinner Algorithm Quicksort
Quick sort is probably used more widely than any other. It is popular because it is not difficult to implement, works well for a variety of different kinds of input data, and is substantially faster t
如何让Flash不遮挡HTML div元素的技巧_HTML/Xhtml_网页制作刘星宇 html Web
今天在写一个flash广告代码的时候，因为flash自带的链接，容易被当成弹出广告，所以做了一个div层放到flash上面，这样链接都是a触发的不会被拦截，但发现flash一直处于div层上面，原来flash需要加个参数才可以。让flash置于DIV层之下的方法，让flash不挡住飘浮层或下拉菜单，让Flash不档住浮动对象或层的关键参数：wmode=opaque。方法如下：
Mybatis实用Mapper SQL汇总示例 wdmcygah sql mysql mybatis 实用
Mybatis作为一个非常好用的持久层框架，相关资料真的是少得可怜，所幸的是官方文档还算详细。本博文主要列举一些个人感觉比较常用的场景及相应的Mapper SQL写法，希望能够对大家有所帮助。不少持久层框架对动态SQL的支持不足，在SQL需要动态拼接时非常苦恼，而Mybatis很好地解决了这个问题，算是框架的一大亮点。对于常见的场景，例如：批量插入/更新/删除，模糊查询，多条件查询，联表查询，