dby_freedom

超参数调试和 Batch Norm-- DeepLearning.ai 提炼笔记（2-3）

课程笔记地址：https://blog.csdn.net/column/details/26931.html
课程代码地址：https://github.com/duboya/DeepLearning.ai-pragramming-code/tree/master
欢迎大家fork及star！(-^O-)

改善深层神经网络：超参数调试、正则化以及优化 —超参数调试和Batch Norm

1. 超参数调试处理

在机器学习领域，超参数比较少的情况下，我们之前利用设置网格点的方式来调试超参数；
但在深度学习领域，超参数较多的情况下，不是设置规则的网格点，而是随机选择点进行调试。这样做是因为在我们处理问题的时候，是无法知道哪个超参数是更重要的，所以随机的方式去测试超参数点的性能，更为合理，这样可以探究更多超参数的潜在价值。

如果在某一区域找到一个效果好的点，将关注点放到点附近的小区域内继续寻找。

2. 为超参数选择合适的范围

Scale均匀随机

在超参数选择的时候，一些超参数是在一个范围内进行均匀随机取值，如隐藏层神经元结点的个数、隐藏层的层数等。但是有一些超参数的选择做均匀随机取值是不合适的，这里需要按照一定的比例在不同的小范围内进行均匀随机取值，以学习率 $\alpha$ 的选择为例，在 $0.001 \cdots, 1$ 范围内进行选择：

代码实现

r = -4 * np.random.rand() # r in [-4,0]
learning_rate = 10 ** r # 10^{r}

一般的，如果在 $10^a \thicksim 10^b$ 之间的范围内进行按比例的选择，则 $\in [a,b]$ ， $\alpha = 10^r$ 。

同样，在使用指数加权平均的时候，超参数 $\beta$ 也需要用上面这种方向进行选择.

3. 超参数调试实践–Pandas vs. Caviar

在超参数调试的实际操作中，我们需要根据我们现有的计算资源来决定以什么样的方式去调试超参数，进而对模型进行改进。下面是不同情况下的两种方式：

在计算资源有限的情况下，使用第一种，仅调试一个模型，每天不断优化；
在计算资源充足的情况下，使用第二种，同时并行调试多个模型，选取其中最好的模型。

Ng提出，事实上，很多做CV的小组由于训练图像所需计算资源很大，也都是采用babysitting方式。

Ng对于超参调试并未讲很多，大致说了：
（1）deeplearning同常规的机器学习算法（常规机器学习算法往往喜欢用grid search，即网格搜索来搜索最佳超参）不同，由于其参数调试比重差异很大（如学习率 $\alpha$ 就比某层神经元个数超参重要很多），故而往往采用随机选择超参值比较，即所谓的随机测试超参性能，当得到某组超参性能比较好时，再在该超参附近进行进一步的细化搜索。
（2）对于部分参数是按比例进行小范围搜索的，如针对学习率 $\alpha$ ，直接在取 $\gamma \in [a, b]$ 进行随机取值，然后得到超参数 $\alpha$ 的取值区间为 $10^a, 10^b]$ 。
（3）最后介绍了超参调试是一次性调试几个模型还是一次性调试一个模型需依据自身计算资源及模型所需计算能力来定。

4. 网络中激活值的归一化

在Logistic Regression 中，将输入特征进行归一化，可以加速模型的训练。那么对于更深层次的神经网络，我们是否可以归一化隐藏层的输出 $a^{[l]}$ 或者经过激活函数前的 $z^{[l]}$ ，以便加速神经网络的训练过程？答案是肯定的。

常用的方式是将隐藏层的经过激活函数前的 $z^{[l]}$ 进行归一化。

Batch Norm 的实现

以神经网络中某一隐藏层的中间值为例： $z^{(1)}, z^{(2)}, \cdots, z^{(m)}$ :

$\mu = \frac{1}{m}\sum_{i}z^{(i)}$
$\sigma^2 = \frac{1}{m}\sum_{i}(z^{(i)} - \mu)^2$
$z_{norm}^{(i)} = \frac{z^{(i)} - \mu}{\sqrt{\sigma^2 + \epsilon}}$

这里加上 $\epsilon$ 是为了保证数值的稳定。

到这里所有 $z$ 的分量都是平均值为0和方差为1的分布，但是我们不希望隐藏层的单元总是如此，也许不同的分布会更有意义，所以我们再进行计算：

$\tilde{z}^{(i)} = \gamma z^{(i)}_{norm} + \beta$

这里 $\gamma$ 和 $\beta$ 是可以更新学习的参数，如神经网络的权重 $w$ 一样，两个参数的值来确定 $\tilde{z}^{(i)}$ 所属的分布。

注意：normalization是针对各层加权和输出z，z还未经过激活函数的非线性变换。
这里解释Batch norm是为了加速模型的训练，原理可联想之前介绍椭圆及圆的梯度下降图形。

5. 在神经网络中融入Batch Norm

在深度神经网络中应用Batch Norm，这里以一个简单的神经网络为例，前向传播的计算流程如下图所示：

实现梯度下降

for t = 1 … num （这里num 为Mini Batch 的数量）：
- 在每一个 $X^t$ 上进行前向传播（forward prop）的计算：
  - 在每个隐藏层都用 Batch Norm 将 $z^{[l]}$ 替换为 $\tilde{z}^{[l]}$
- 使用反向传播（Back prop）计算各个参数的梯度： $dw^{[l]}$ 、 $d\gamma^{[l]}$ 、 $d\beta^{[l]}$
更新参数：
- $w^{l} := w^{[l]} - \alpha dw^{[l]}$
- $\gamma^{l} := \gamma^{[l]} - \alpha d\gamma^{[l]}$
- $\beta^{l} := \beta^{[l]} - \alpha d\beta^{[l]}$
同样与Mini-batch 梯度下降法相同，Batch Norm同样适用于momentum、RMSprop、Adam的梯度下降法来进行参数更新。

所谓的融入就是针对每次计算出来的 $z$ ，进行batch norm，转换为 $\tilde{z}$ ，注意 $\tilde{z}$ 里包含batch norm引入的参数 $\gamma$ ， $\beta$ 。

Notation：

这里没有写出偏置参数 $b^{[l]}$ 是因为 $z^{[l]} = w^{[l]}\alpha^{[l - 1]} + b^{[l]}$ ，而Batch Norm 要做的就是将 $z^{[l]}$ 归一化，结果成为均值为0，标准差为1的分布，再由 $\beta$ 和 $\gamma$ 进行重新的分布缩放，那就是意味着，无论 $b^{[l]}$ 值为多少，在这个过程中都会被减去，不会再起作用。所以如果在神经网络中应用Batch Norm 的话，就直接将偏置参数 $b^{[l]}$ 去掉，或者将其置零。

事实上，后面batch norm引入的参数 $\beta$ 正是起到了新的 $b^{[l]}$ 的作用。

6. Batch Norm 起作用的原因

First Reason

首先Batch Norm 可以加速神经网络训练的原因和输入层的输入特征进行归一化，从而改变Cost function的形状，使得每一次梯度下降都可以更快的接近函数的最小值点，从而加速模型训练过程的原理是有相同的道理。

只是Batch Norm 不是单纯的将输入的特征进行归一化，而是对各个隐藏层激活函数前的加权和进行归一化，并调整到另外的分布。（参数 $\gamma$ ， $\beta$ 控制）

不只针对输入层级进行归一化，对中间层的输出 $z$ 都进行了归一化。

Second Reason

Batch Norm 可以加速神经网络训练的另外一个原因是它可以使权重比网络更滞后或者更深层。

下面是一个判别是否是猫的分类问题，假设第一训练样本的集合中的猫均是黑猫，而第二个训练样本集合中的猫是各种颜色的猫。如果我们将第二个训练样本直接输入到用第一个训练样本集合训练出的模型进行分类判别，那么我们在很大程度上是无法保证能够得到很好的判别结果。

这是因为第一个训练集合中均是黑猫，而第二个训练集合中各色猫均有，虽然都是猫，但是很大程度上样本的分布情况是不同的，所以我们无法保证模型可以仅仅通过黑色猫的样本就可以完美的找到完整的决策边界。第二个样本集合相当于第一个样本的分布的改变，称为：Covariate shift。如下图所示：

那么存在Covariate shift的问题如何应用在神经网络中？就是利用Batch Norm来实现。如下面的网络结构：

网络的目的是通过不断的训练，最后输出一个更加接近于真实值的 $\hat{y}$ 。现在以第2个隐藏层为输入来看：

对于后面的神经网络，是以第二层隐层的输出值 $a^{[2]}$ 作为输入特征的，

通过前向传播得到最终的 $\tilde{y}$ ，但是因为我们的网络还有前面两层，由于训练过程， $w^{[1]}$ , $w^{[2]}$ 是不断变化的，那么也就是说对于后面的网络， $a^{[2]}$ 的值也是处于不断变化之中，所以就有了Covariate shift的问题。

那么如果对 $z^{[2]}$ 使用了Batch Norm，那么即使其值不断的变化，但是其均值和方差却会保持。**那么Batch Norm的作用便是其限制了前层的参数更新导致对后面网络数值分布程度的影响，使得输入后层的数值变得更加稳定。**另一个角度就是可以看作，Batch Norm 削弱了前层参数与后层参数之间的联系，使得网络的每层都可以自己进行学习，相对其他层有一定的独立性，这会有助于加速整个网络的学习。

Batch Norm 正则化效果

Batch Norm还有轻微的正则化效果。

这是因为在使用Mini-batch梯度下降的时候，每次计算均值和偏差都是在一个Mini-batch上进行计算，而不是在整个数据样集上。这样就在均值和偏差上带来一些比较小的噪声。那么用均值和偏差计算得到的 $\tilde{z}^{[l]}$ 也将会加入一定的噪声。

所以和Dropout相似，其在每个隐藏层的激活值上加入了一些噪声，（这里因为Dropout以一定的概率给神经元乘上0或者1）。所以和Dropout相似，Batch Norm 也有轻微的正则化效果。

这里引入一个小的细节就是，如果使用Batch Norm ，那么使用大的Mini-batch如256，相比使用小的Mini-batch如64，会引入跟少的噪声，那么就会减少正则化的效果。

只是起到了轻微了正则化效果，带入了噪声干扰，更有利于训练出来的模型具备鲁棒性，但不能将其当做正则化手段。

7. 在测试数据上使用 Batch Norm

训练过程中，我们是在每个Mini-batch使用Batch Norm，来计算所需要的均值 $\mu$ 和方差 $\sigma^2$ 。但是在测试的时候，我们需要对每一个测试样本进行预测，无法计算均值和方差。

此时，我们需要单独进行估算均值 $\mu$ 和方差 $\sigma^2$ 。通常的方法就是在我们训练的过程中，对于训练集的Mini-batch，使用指数加权平均，当训练结束的时候，得到指数加权平均后的均值 $\mu$ 和方差 $\sigma^2$ ，而这些值直接用于Batch Norm公式的计算，用以对测试样本进行预测。

得到均值 $\mu$ 和方差 $\sigma^2$ 的方式有很多种，也可以采用直接取总训练集的均值和方差，但一般都是用指数加权平均。

将第l层的各mini-batch中的均值、方差做指数加权平均，得到最终第l层的均值、方差（指数加权）。

8. Softmax 回归

在多分类问题中，有一种 logistic regression的一般形式，叫做Softmax regression。Softmax回归可以将多分类任务的输出转换为各个类别可能的概率，从而将最大的概率值所对应的类别作为输入样本的输出类别。

计算公式

下图是Softmax的公式以及一个简单的例子：

可以看出Softmax通过向量 $z^{[L]}$ 计算出总和为1的四个概率。

在没有隐藏隐藏层的时候，直接对Softmax层输入样本的特点，则在不同数量的类别下，Sotfmax层的作用：

9. 训练 Sotfmax 分类器

理解 Sotfmax

为什么叫做Softmax？我们以前面的例子为例，由 $z^{[L]}$ 到 $\alpha^{[L]}$ 的计算过程如下：

通常我们判定模型的输出类别，是将输出的最大值对应的类别判定为该模型的类别，也就是说最大值为的位置1，其余位置为0，这也就是所谓的“hardmax”。而Sotfmax将模型判定的类别由原来的最大数字5，变为了一个最大的概率0.842，这相对于“hardmax”而言，输出更加“soft”而没有那么“hard”。

Sotfmax回归将 logistic回归从二分类问题推广到了多分类问题上。

Softmax 的Loss function
在使用Sotfmax层时，对应的目标值y以及训练结束前某次的输出的概率值 $\hat{y}$ 分别为：

$\begin{bmatrix} 0\\1\\0\\0 \end{bmatrix} \quad$ , $\hat{y} = \begin{bmatrix} 0.3\\0.2\\0.1\\0.4 \end{bmatrix}$

Sotfmax使用的Loss function为：

$L(\hat{y}, y) = -\sum_{j=1}^{4}y_{i}log{\hat{y}_{j}} = -y_{2}log{\hat{y}_2} = -log{\hat{y}_2}$

所以为了最小化Loss function，我们的目标就变成了使得 $\hat{y}_2$ 的概率尽可能的大。

也就是说，这里的损失函数的作用就是找到你训练集中的真实的类别，然后使得该类别相应的概率尽可能地高，这其实是最大似然估计的一种形式。

对应的Cost function如下：

$J(w^{[1]}, b^{[1]},\dots) = \frac{1}{m}\sum_{i=1}^{m}L(\hat{y}^{(i)}, y^{(i)})$

使用softmax计算各类别概率，其实softmax 就是logistic的推广，从二分类到多分类，对softmax loss function： $L(\hat{y}, y) = -\sum_{i=1}^{m}y_{i}log{\hat{y}_{i}}$
对应的Cost function如下：
$J(w^{[1]}, b^{[1]},\dots) = \frac{1}{m}\sum_{i=1}^{m}L(\hat{y}^{(i)}, y^{(i)})$
对logistic loss function： $L(\hat{y}, y) = -(ylog(\hat{y}) + (1 - y)log(1 - \hat{y}))$
对应的Cost function也是：
$J(w^{[1]}, b^{[1]},\dots) = \frac{1}{m}\sum_{i=1}^{m}L(\hat{y}^{(i)}, y^{(i)})$
即logistic loss function就是softmax中类别为2的特殊情况。

Softmax 的梯度下降

在Softmax层的梯度计算公式为：

$\frac{\partial J}{\partial z^{[L]}} = dz^{[L]} = \hat{y} - y$

注：参考补充自：
https://blog.csdn.net/koala_tree/article/details/78234830

【OpenAI官方课程】第一课：GPT-Prompt 的构建原则指南 euffylee ChatGPT Prompt官方课程 gpt prompt 人工智能
欢迎来到ChatGPT开发人员提示工程课程（ChatGPTPromptEngineeringforDevelopers）！本课程将教您如何通过OpenAIAPI有效地利用大型语言模型（LLM）来创建强大的应用程序。本课程由OpenAI的IsaFulford和DeepLearning.AI的AndrewNg主讲，深入了解LLM的运作方式，提供即时工程的最佳实践，并演示LLMAPI在各种应用程序中的使
Coursera | Andrew Ng (02-week2-2.10)—局部最优的问题 ZJ_Improve 深度学习正则化以及优化深度学习吴恩达局部最优深度学习
该系列仅在原课程基础上部分知识点添加个人学习笔记，或相关推导补充等。如有错误，还请批评指教。在学习了AndrewNg课程的基础上，为了更方便的查阅复习，将其整理成文字。因本人一直在学习英语，所以该系列以英文为主，同时也建议读者以英文为主，中文辅助，以便后期进阶时，为学习相关领域的学术论文做铺垫。-ZJCoursera课程|deeplearning.ai|网易云课堂转载请注明作者和出处：ZJ微信公众
6、5 门关于 AI 和 ChatGPT 的免费课程，带您从 0-100 AI算法蒋同学一起来学习下ChatGPT吧人工智能 chatgpt
5门关于AI和ChatGPT的免费课程，带您从0-100想在2024年免费了解有关AI和ChatGPT的更多信息吗？图片由DALLE3提供活着是多么美好的时光啊。还有什么比现在更适合了解生成式人工智能（尤其是ChatGPT）等人工智能元素的呢！许多人对这个行业感兴趣，但有些人需要更多关于如何到达那里的知识。该博客为您提供了来自哈佛、IBM、DeepLearning.AI等可信机构的免费课程列表。让
吴恩达深度学习-学习笔记p1-p6 丢了橘子的夏天深度学习学习笔记
哔哩哔哩网站视频-[双语字幕]吴恩达深度学习deeplearning.ai网站：up主：mHarvey，视频：[双语字幕]吴恩达深度学习deeplearning.ai一.p11.1欢迎二.p21.2什么是神经网络1.举例：根据面积预测房价假设有六个房子的房屋面积和价格，根据这个数据集，房屋面积预测房价的函数，这些是一个简单的神经网络神经元的功能就是输入面积完成线性运算，取不小于0的值，最后得到预测
【吴恩达机器学习】第一周课程笔记 Estella_07 机器学习笔记人工智能
Hello，这里是小梁。下面是我近期学习机器学习的笔记，出发点是希望对自己起到一个督促和输出的作用如果你对我的笔记感兴趣欢迎Like，有不足之处也欢迎评论留言B站【2022吴恩达机器学习Deeplearning.ai课程】笔记参考【吴恩达《MachineLearning》精炼笔记】1机器学习的定义与分类1.1监督学习Supervisedlearning1.2无监督学习Unsupervisedlea
Coursera | Andrew Ng (01-week-2-2.11)—向量化 ZJ_Improve 深度学习深度学习吴恩达吴恩达深度学习
该系列仅在原课程基础上部分知识点添加个人学习笔记，或相关推导补充等。如有错误，还请批评指教。在学习了AndrewNg课程的基础上，为了更方便的查阅复习，将其整理成文字。因本人一直在学习英语，所以该系列以英文为主，同时也建议读者以英文为主，中文辅助，以便后期进阶时，为学习相关领域的学术论文做铺垫。-ZJCoursera课程|deeplearning.ai|网易云课堂转载请注明作者和出处：ZJ微信公众
ML学习安排和资源链接 Nice night #ML吴恩达机器学习
第一阶段：学习前置数学知识机器学习的数学基础_二进制人工智能的博客-CSDN博客第二阶段：认知机器学习吴恩达机器学习【2022中文版教程全集】_哔哩哔哩_bilibili视频5h，看了一点发现后面没字幕了，这个(强推|双字)2022吴恩达机器学习Deeplearning.ai课程_哔哩哔哩_bilibili视频19h。但是这个是属于新课，所以还是先看第三阶段上：仔细了解机器学习视频链接：[中英字幕
吴恩达《ChatGPT Prompt Engineering for Developers》学习笔记 stay_foolish12 人工智能
来自：口仆本笔记是deeplearning.ai最近推出的短期课程《ChatGPTPromptEngineeringforDevelopers》的学习总结。1引言总的来说，当前有两类大语言模型（LLM）：「基础LLM」和「指令微调LLM」。基础LLM基于大量文本数据训练而成，核心思想为预测一句话的下一个单词（即词语接龙）。基于语料的限制，有时会返回不符合预期的结果（如上图所示）。指令微调LLM基于
Assignment | 04-week1 -Convolutional Neural Networks: Application Part_2 ZJ_Improve 深度学习吴恩达-Assignment 汇总深度学习吴恩达卷积神经网络 tensorflow
该系列仅在原课程基础上课后作业部分添加个人学习笔记，如有错误，还请批评指教。在学习了AndrewNg课程的基础上，为了更方便的查阅复习，将其整理成文字。因本人一直在学习英语，所以该系列以英文为主，同时也建议读者以英文为主，中文辅助，以便后期进阶时，为学习相关领域的学术论文做铺垫。-ZJCoursera课程|deeplearning.ai|网易云课堂转载请注明作者和出处：ZJ微信公众号-「SelfI
【机器学习小记】【平面数据分类】deeplearning.ai course1 3rd week programming LittleSeedling #初学深度学习机器学习神经网络
带有一个隐藏层的平面数据分类数据集介绍数据集形状模型搭建参数初始化前向传播隐藏层输出层反向传播输出层隐藏层梯度下降更新参数预测其他np.dot()与np.multiply()的区别结果使用简单逻辑回归测试不同的隐藏层神经元数测试其他数据集原始数据集测试不同的隐藏层神经元数目标：带有一个隐藏层的平面数据分类神经网络参考自：【中文】【吴恩达课后编程作业】Course1-神经网络和深度学习-第三周作业数
Coursera | Andrew Ng (02-week-1-1.3)—机器学习基础 ZJ_Improve 深度学习正则化以及优化深度学习吴恩达机器学习深度学习吴恩达 coursera
该系列仅在原课程基础上部分知识点添加个人学习笔记，或相关推导补充等。如有错误，还请批评指教。在学习了AndrewNg课程的基础上，为了更方便的查阅复习，将其整理成文字。因本人一直在学习英语，所以该系列以英文为主，同时也建议读者以英文为主，中文辅助，以便后期进阶时，为学习相关领域的学术论文做铺垫。-ZJCoursera课程|deeplearning.ai|网易云课堂转载请注明作者和出处：ZJ微信公众
进大厂全靠自学，微软&头条实习生现身说法：我是这样自学深度学习的丨课程传送门... QbitAl
作者SannyKim郭一璞编译量子位出品|公众号QbitAI跟着网络资料自学、刷MOOC是许多人学深度学习的方式，但深度学习相关资源众多，应该从哪儿开始学呢？富有自学经验的GitHub用户SannyKim贡献出了一份深度学习自学指南。她自学成才，有Udacity、deeplearning.ai、Coursera的一大堆课程认证，甚至连大学都是上的以自学、MOOC著称的Minerva大学，自学卓有成
吴恩达机器学习Deeplearning.ai课程学习笔记(Supervised Machine Learning Regression and Classification---week1) 智能提桶工程师人工智能学习
一、机器学习定义：机器学习即Machinelearning，涉及很多学科，简单点来说，就是使用计算机通过“学习“大量的数据模拟实现人类的行为，也就是让计算机自己学习到一些所谓的”知识与技能“（例如什么是苹果？什么是香蕉？），而且能够通过一些算法组织其实现不断学习不断完善自身的性能与知识架构，换句话说，让计算机越来越”知识渊博“，也就是-----人工智能。二、机器学习分类：机器学习一般分为监督学习与
大手笔！吴恩达一口气开放了 3 个 AIGC 教程。。机器学习社区自然语言机器学习 AIGC 人工智能自然语言处理大模型算法
一个月前，DeepLearning.ai创始人吴恩达与OpenAI开发者IzaFulford联手推出了一门面向开发者的技术教程：ChatGPT提示工程。该教程总共分为9个章节，总一个多小时，里面主要涵盖：提示词最佳实践、评论情感分类、文本总结、邮件撰写、文本翻译、快速搭建一个聊天机器人等等。你除了能在这个教程里面学到如何使用Prompt，你还能学到GPT接口调用开发知识。一个月时间过去了，因课程质
GitHub Copilot Chat将于12月全面推出；DeepLearning.AI免费新课 go2coding AI日报 github copilot 人工智能
AI新闻GitHubCopilotChat将于12月全面推出，提升开发者的生产力摘要：GitHub宣布将于12月全面推出GitHubCopilotChat，这是GitHubCopilot的一个新功能，旨在帮助开发者编写代码。它能够集成到开发者的桌面IDE环境中，并能够根据上下文联想出后文，不仅限于代码缺省补充和纠错。与此同时，CopilotChat还能够与开发者进行对话，提供更加细致的人机交互体验
【深度学习】Coursera的TensorFlow课程练习题精华部分风度78
大家好，这次给大家翻译的是来自Coursera，由deeplearning.ai提供的TensorFlowinPractice的课程系列的QUIZ部分本文来源：www.kesci.com该系列课程共分为4个专项一、人工智能、机器学习和深度学习的TensorFlow简介二、TensorFlow中的卷积神经网络三、TensorFlow中的自然语言处理四、序列、时间序列与预测原教程链接在此：Tensor
sheng的学习笔记-【目录】【中文】【deplearning.ai】【吴恩达课后作业目录】 coldstarry 吴恩达作业-深度学习人工智能
学习吴恩达的深度学习，用于记录笔记知识目录和引用文章原文见下面，但已经变为收费的：【目录】【中文】【deplearning.ai】【吴恩达课后作业目录】_吴恩达深度学习何宽-CSDN博客免费的用于学习的github地址，包含笔记和代码，资料来源于深度学习GitHub-fengdu78/deeplearning_ai_books:deeplearning.ai（吴恩达老师的深度学习课程笔记及资源）机
微调大型语言模型(一)：为什么要微调(Why finetune)? -派神- NLP Langchain ChatGPT 语言模型人工智能自然语言处理 chatgpt
今天我们来学习Deeplearning.ai的在线课程微调大型语言模型(一)的第一课：为什么要微调(Whyfinetune)。我们知道像GPT-3.5这样的大型语言模型(LLM)它所学到的知识截止到2021年9月，那么如果我们向ChatGPT询问2022年以后发生的事情，它可能会产生“幻觉”从而给出错误的答案，再比如我们有一些关于企业的某些产品的业务数据，但是由于ChatGPT没有学习过这些数据，
2022吴恩达机器学习Deeplearning.ai课程编程作业C1_W2: Linear Regression alterego2380 机器学习 python numpy 机器学习线性回归人工智能
PracticeLab:LinearRegressionWelcometoyourfirstpracticelab!Inthislab,youwillimplementlinearregressionwithonevariabletopredictprofitsforarestaurantfranchise.Outline1-Packages2-Linearregressionwithonevar
LangChain 手记 Conclusion结语从流域到海域大语言模型 langchain
整理并翻译自DeepLearning.AI×LangChain的官方课程：ConclusionConclusion结语本系列短课展示了大量使用LangChain构建的大语言模型应用，包括处理用户反馈、文档上的问答系统甚至使用LLM来决定发起外部工具的调用（比如搜索）来回答复杂问题。使用LangChain的好处在于能很大程度上提升开发效率，仅需要适量代码，就可以实现复杂的llm应用。课程作者希望大家
卷积神经网络之一维卷积、二维卷积、三维卷积 bebr 机器学习卷积神经网络一维二维
1.二维卷积图中的输入的数据维度为14×1414×14，过滤器大小为5×55×5，二者做卷积，输出的数据维度为10×1010×10（14−5+1=1014−5+1=10）。如果你对卷积维度的计算不清楚，可以参考我之前的博客吴恩达深度学习笔记（deeplearning.ai）之卷积神经网络（CNN）（上）。上述内容没有引入channel的概念，也可以说channel的数量为1。如果将二维卷积中输入的
LangChain手记 Agent 智能体从流域到海域大语言模型 langchain 人工智能
整理并翻译自DeepLearning.AI×LangChain的官方课程：Agent（源代码可见）“人们有时会将LLM看作是知识库，因为它被训练所以记住了来自互联网或其他地方的海量信息，因而当你向它提问时，它可以回答你的问题。有一个更加有用的认知模式是将LLM看作是一个推理引擎，如果提供给他文本块或者额外信息，它可以理由从互联网或者其他地方学会的背景知识利用新信息来帮助回答问题或者进行文本推理或者
LangChain手记 Evalutation评估从流域到海域大语言模型 langchain 人工智能
整理并翻译自DeepLearning.AI×LangChain的官方课程：Evaluation（源代码可见）基于LLM的应用如何做评估是一个难点，本节介绍了一些思路和工具。“从传统开发转换到基于prompt的开发，开发使用LLM的应用，整个工作流的评估方式需要重新考虑，本节会介绍很多激动人心的概念。”Evaluation评估构建一个上节课介绍过的QAchain：不同之处仅在于加了一个参数：chai
DeepLearning.ai学习笔记（一）神经网络和深度学习--Week4深层神经网络 marsggbo 机器学习神经网络深度学习前向传播反向传播 Andrew-ng
一、深层神经网络深层神经网络的符号与浅层的不同，记录如下：-用L表示层数,该神经网络L=4-n[l]表示第l层的神经元的数量，例如n[1]=n[2]=5,n[3]=3,n[4]=1-a[l]表示第l层中的激活函数,a[l]=g[l](z[l])二、前向和反向传播1.第l层的前向传播输入为a[l−1]输出为a[l],cache(z[l])矢量化表示：Z[l]=W[l]⋅A[l−1]+b[l]A[l]
LangChain手记 Question Answer 问答系统从流域到海域大语言模型 langchain
整理并翻译自DeepLearning.AI×LangChain的官方课程：QuestionAnswer（源代码可见）本节介绍使用LangChian构建文档上的问答系统，可以实现给定一个PDF文档，询问关于文档上出现过的某个信息点，LLM可以给出关于该信息点的详情信息。这种使用方式比较灵活，因为并没有使用PDF上的文本对模型进行训练就可以实现文档上的信息点问答。本节介绍的Chain也比较常用，它涉及
LangChain手记 Chains 从流域到海域 langchain 人工智能
整理并翻译自DeepLearning.AI×LangChain的官方课程：Chains（源代码可见）Chains直译链，表达的意思更像是对话链，对话链的背后是思维链LLMChain（LLM链）首先介绍了一个最简单的例子，LLMChain：将一个大语言模型和prompt模板组合起来调用LLMChain，即可得到一个LLMChain对象，该对象的run实现的功能即给定输入自动使用prompt模板生成p
LangChain手记 Memory 从流域到海域大语言模型 langchain
整理并翻译自DeepLearning.AI×LangChain的官方课程：MemoryMemory使用openai的API调用GPT都是单次调用，所以模型并不记得之前的对话，多轮对话的实现其实是将前面轮次的对话过程保留，在下次对话时作为输入的message数组的一部分，再将新一轮对话的提问也放入message数组，再发起一次API调用，即构手动建对话流（以上笔者注）。构建对话流（LangChain
LangChain手记 Models,Prompts and Parsers 从流域到海域大语言模型 langchain
整理并翻译自DeepLearning.AI×LangChain的官方课程：Models,PromptsandParsers模型，提示词和解析器（Models,PromptsandParsers）模型：大语言模型提示词：构建传递给模型的输入的方式解析器：获取模型输入，转换为更为结构化的形式以在下游任务中使用为什么使用提示词模板提示词会非常长且具体在可以的时候能直接复用提示词LangChain也为常用
使用 Gradio 构建生成式 AI 应用程序(一): 图片内容读取app -派神- NLP 自然语言处理人工智能自然语言处理深度学习神经网络机器学习
今天我们来学习DeepLearning.AI的在线课程：BuildingGenerativeAIApplicationswithGradio，该课程主要讲述利用gradio来部署机器学习算法应用程序,今天我们来学习第一课：Imagecaptioningapp，该课程主要讲述如何从图片中读取图片的内容信息，如下图所示：今天我们会使用huggingface的Salesforce/blip-image-
深度学习阶段性回顾猫咪的白手套深度学习人工智能
本文针对过去两周的深度学习理论做阶段性回顾，学习资料来自吴恩达老师的2021版deeplearning.ai课程，内容涵盖深度神经网络改善一直到ML策略的章节。视频链接如下：吴恩达深度学习视频链接（注：本文出自深度学习初学者，此文内容将以初学者的感悟与见解讲述。当然我也会努力搜寻资料以弥补自身认知的不足，希望本文能对深度学习的其他初学者也有所帮助，文章若有不当之处，望大家在评论区多多指正，我将虚心
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。

超参数调试 和 Batch Norm-- DeepLearning.ai 提炼笔记（2-3）