jwj1342

李宏毅机器学习笔记-2022spring

机器学习笔记

文章目录

机器学习笔记
- Lecture 1
- - Colab的使用
  - 机器学习的基本概念
  - 一个简单的例子
  - - 1.方程的设立
    - 2.定义损失函数
    - 3.优化参数（Loss最小）
  - 对上例的改进
  - Hard sigmoid
  - 多层的神经网络
- Lecture 2
- - 调优模型的思路
  - - 训练数据Loss过大
    - 训练数据Loss过小
  - 局部最小值与鞍点
  - - 鞍点
    - 局部最小值
  - 训练技巧（Batch & Momentum）
  - 自动调整学习速率
  - - RMS(Root Mean Square,均方根)
    - RMSProp
    - Adam
    - Learning Rate Decay
    - Warm Up
  - Loss函数的选择
- Lecture 3
- - 机器学习原理
  - 卷积神经网络 (Convolutional Neural Networks, CNN)
  - - 第一种理解方式（神经元版）
    - 第二种理解方式（过滤器）
    - 两个理解方法的对比

Lecture 1

Colab的使用

首先是Colab中的两种代码块的语法形式：

谷歌硬盘的使用：

from google.colab import drive
drive.mount('/content/drive')

Linux命令(记得前面都要加!)：

ls : 列出当前目录中的所有文件

ls -l : 列出当前目录中所有文件的详细信息

pwd : 输出工作目录

mkdir : 创建一个目录 <目录名>

cd : 移动到目录 <目录名>

gdown：从谷歌驱动器下载文件

wget：从互联网下载文件

python ：执行 python 文件

该系统使用：

如果空闲超时（90 分钟，有时会发生变化）或屏幕变黑，Colab 将自动断开连接。

如果您的 GPU 使用量达到 12 小时，您的帐户将被停止一段时间

机器学习的基本概念

机器学习的本质其实是：寻找函数。我认为是给出一定的输入与输出，训练出一个所谓的“函数”，可以用于预测与判断。

而这种寻找的函数可以分为三大类：

Regression（回归问题）

回归问题多用来预测一个具体的数值，如预测房价、未来的天气情况等等。例如我们根据一个地区的若干年的PM2.5数值变化来估计某一天该地区的PM2.5值大小，预测值与当天实际数值大小越接近，回归分析算法的可信度越高。
Classification（分类问题）

分类问题是我们日常生活中最常遇到的一类问题，比如垃圾邮件的分类，识别我们所看到的是汽车还是火车抑或是别的物体，再或者去医院医生诊断病人身体里的肿瘤是否是恶性的，这些问题全部都属于分类问题的范畴。
Structured Learning（结构化预测）

会得到一个序列，一个句子，一个图，一颗树。经过训练所得到的函数得到的结果并非回归所得的预测或者分类中的类别。

一个简单的例子

目标：给出前一天的播放量预测后一天的播放量。

分析：要完成这个任务我们首先要将现有的播放量作为输入，将后一天的播放量作为输出来构造一个函数。接下来便要决定的就是这个函数的模样和其中参数的取值。

1.方程的设立

我们首先根据自己的Domain Knowledge（领域知识）得出一个基本的函数方程：
$y=b+wx_1$
因为x1为今天的播放量，y为明天的播放量。他们之间的比例系数为w,再加上一个修正因子便可以得到y。w和b都是待定参数，我们称w为weight(权重),称b为bias(偏移量)。

2.定义损失函数

损失函数的由来便是当我们的预测与真实值的偏差，而这些偏差的由来便是这些参数的改变。所以损失函数的输入为所有求解方程的参数。在这个例子中我们的损失函数为：
$L (b, w)$
所以在我们给出的模型中，对每一个样本点的损失函数的值求和便可以得到整个模型的损失。对于上述例子我们就可以得到整体模型的Loss为：
$e=\left| y-\overline{y} \right|\,\,OR\,\,e=\left( y-\widehat{y} \right) ^2 \\ L=\frac{1}{N}\sum_n^{}{e_n}$
在上述方程中上面的两个e分别为：

mean absolute error (MAE)

绝对误差
mean square error (MSE)

均方误差

除了这两个之外，如果我们的y是概论分布的话，其实我们应该用Cross-entropy（交叉熵）。

在我们得到了整个模型的Loss时候，就可以开始优化模型了。当然，我们优化的方向是向Loss更小的方向：

由上图所示，红色区域的Loss最大，蓝色区域的Loss最小。在该中状况下，我们按照向最小Loss的方向移动。

3.优化参数（Loss最小）

接上一个步骤的最后，我们利用梯度下降的方法求出Loss最小的地方。在一维图像中，我们可视化该步骤：

我们可以看到梯度下降的方法即是求解最小值的一个方法，在课堂上老师说到其实不用担心局部最优解的问题，会在后续的课程中进行解释。上图中还值得一提的是，每一次下降的步长即使学习率。

扩大到两个参数，我们得到梯度下降的方程：
$w^1\gets w^0-\eta \frac{\partial L}{\partial w}|_{w=w^0,b=b^0} \\ b^1\gets b^0-\eta \frac{\partial L}{\partial b}|_{w=w^0,b=b^0}$
不断地迭代这个方程最后得到的就是就是最小的Loss也是当前算法下的最优模型。

到此为止我们建立了一个机器学习的简易模型。

对上例的改进

贴合实际情况想想，也许播放量的决定因素并不止前一天的播放量，或许是以一周为周期进行的变化，所以我们可以不仅仅考虑一天数据作为输入，我们多考虑几天：

我们通过Loss可以看到，确实，通过增加输入数据的天数，我们改进模型可以使模型的误差减小。

通过上面两个模型的建立与求解，我们注意到该模型只能进行线性预测，因为我们的模型一开始提出的函数时一个一次函数：
$y=b+wx_1$
在图像上表现为一条直线，联系实际我们知道这个模型太过于简单了，并且数据并不一定都是成这种简单的线性增长，如下图所示：

我们模型的无论如何调参，都无法“弯曲“，所以我们需要一个可以分段的函数进行建模。

现在问题就变成了如何将红色简化成蓝色线段的形式，观察到每一个小分段都是由一次函数组成，我们猜想许多个函数：只在某一个区间内有变化，其余全部为0,得到如下图所示：

我们发现红色线段可以由许多蓝色线段进行替代，我们将蓝色线段抽象出来，得到蓝色线段的特征，

在数学上我们有Sigmoid函数可以近似该函数，同样这个带有棱角的分段蓝色函数就被叫做Hard Sigmoid我们观察Sigmoid函数的特征：

我们对于该函数简写成：
$y=c\frac{1}{1+e^{-\left( b+wx_1 \right)}} \\ =c\,\,sigmoid\left( b+wx_1 \right) \\$
所以我们便可将红色线段表示为：
$y=b+\sum_i{c_i\,\,sigmoid\left( b_i+w_ix_1 \right)} \\$
再考虑到不同线段由参数影响的变动，我们将x1不在固定，得：
$y=b+\sum_i{c_i\,\,sigmoid\left( b_i+\sum_j{w_{ij}x_j} \right)} \\$
在老师给的PPT上有更为详实的介绍：

在下面的这个图中，注意蓝色框中的元素，以及后面括号中的w与x所产生的原因。

通过线性代数中的矩阵知识，我们改写算式：

注意在该表达式中，那些量是需要计算机帮我们寻找的。仔细就会发现除了x和y都是需要计算机需要帮我们计算的。回顾我们上一次将那个线性模型进行建模之后，我们所需要进行的下一步便是计算损失函数。沿用上一次的方法我们将计算机所有需要帮我们确定的变量列成一个向量,所以损失函数即为如下：
$\theta =\left[ \begin{array}{c} \theta _1\\ \theta _2\\ \theta _3\\ ...\\ \end{array} \right] \\ L\left( \theta \right)$

在设计完损失函数后，我们便要对模型设计优化算法，经典的算法依旧是梯度下降：

我们随意取上面公式的一个值，然后求梯度。接下来开始迭代，直到梯度下降到结束。下述公式中，g为梯度（gradient）。
$g=\left[ \begin{array}{c} \frac{\partial L}{\partial \theta _1}|_{\theta =\theta ^0}\\ \frac{\partial L}{\partial \theta _2}|_{\theta =\theta ^0}\\ \vdots\\ \end{array} \right] \\ \left[ \begin{array}{c} \theta _{1}^{1}\\ \theta _{2}^{1}\\ \vdots\\ \end{array} \right] \gets \left[ \begin{array}{c} \theta _{1}^{0}\\ \theta _{2}^{0}\\ \vdots\\ \end{array} \right] -\left[ \begin{array}{c} \begin{array}{c} {\color{red} \eta }\frac{\partial L}{\partial \theta _1}|_{\theta =\theta ^0}\\ {\color{red} \eta }\frac{\partial L}{\partial \theta _2}|_{\theta =\theta ^0}\\ \end{array}\\ \vdots\\ \end{array} \right] \\$
实际上我们在做梯度下降的时候，我们会有一个很大的数据集。我们将这一大批资料分成batch（一捆，一组），batch是随机分成的。

在原先的情况下我们将所有的数据集拿去训练会得到一个Loss，在现在不同的batch可以得到不同的Loss。每一次更新参数就叫做一次update。我们把所有的batch都训练过一遍叫做一个Epoch（世纪）。

Hard sigmoid

上一个问题中为什么我们要用平滑的sigmoid函数，拟合Hard sigmoid，我们能不能直接使用Hard sigmoid进行呢？

我们仔细观察这个图像我们看到其实我们可以用两个分段函数进行组合：
$\max \left( 0,b+wx_1 \right) \\ \max \left( 0,b'+w'x_1 \right)$
便可以得到我们想要的蓝色线段：

当我们进行这种转换： Sigmoid ➡️ ReLU (Rectified Linear Unit)。我们公式会变成：

$y=b+\sum_i{c_i}sigmoid\left( b_i+\sum_j{w_{ij}x_j} \right) \\ \downarrow \\ Activation\,\,function(激活函数) \\ \uparrow \\ y=b+\sum_{2i}{c_i}\max \left( 0,b_i+\sum_j{w_{ij}x_j} \right) \\$

多层的神经网络

回到我们上面的步骤，我们通过输入x得到了一个相对的a,如下图：

我们进一步思考将输出的a再叠加一层，重复同样的步骤，如下图所示：

最后只得一提的是：Hyper Parameter（超参数）。

机器学习模型中一般有两类参数：一类需要从数据中学习和估计得到，称为模型参数（Parameter）—即模型本身的参数。比如，线性回归直线的加权系数（斜率）及其偏差项（截距）都是模型参数。还有一类则是机器学习算法中的调优参数（tuning parameters），需要人为设定，称为超参数（Hyperparameter）。比如说神经网络的层数，Learning Rate（学习率），几个sigmoid，Batch size。

Lecture 2

调优模型的思路

第二节课一开始，便是教会我们如何调优，在老师的PPT上有这个图：

我们知道，在验证一个模型的时候，要先进行对训练集数据的检验，不能一味的对测试集进行检验。

训练数据Loss过大

在我们发现对训练数据Loss过大的时候，我们有两种猜测：

模型过于简单（model bias）

例如，当我们的数据分布是二次函数的时候，我们始终用线性模型进行拟合的化，无论怎么调参都不会达到一个期望的Loss

解决方法是，重新设计模型，使得模型具有跟具有弹性，接上面的例子，如果我们改用二次函数或者三次函数进行拟合。
模型的调参程序无法达到最优解（optimization）

昨天提过，我们使用的方法也许会陷入局部最优解，所以会导致Loss增大。

那我们接下来就要判断到底是哪一种方法使得Loss增大到底是模型简单还是收敛方法有误。老师上课举了一个例子:当我们使用56层的神经网络与26层的神经网络分别检测他们的Loss，我们可以发现，56的Loss更加的高。在几年前，人们认为这是过拟合的问题，其实不是。我们假设在56层的神经网络中，有30层都是直接输出，不处理输入输出，其实是可以达到26层的Loss的，所以其实不是过拟合的问题(over-fitting)。

在检测中，我们我们需要检测Loss的时候，可以减少神经网络的层数，或者简化模型，对比简化后的模型的Loss是不是减少了。如果减少了就说明我们的模型的调优程序没有找到最优解。

训练数据Loss过小

当我们的训练数据的Loss小的时候我们不能就此认为这个模型就是完美的，要对测试数据进一步进行检验。如果这个时候我们发现对于测试集的数据Loss过大，我们就可以说这个时候发生了过拟合。过拟合的图示如下：

那么我们对于过拟合的数据如何处理呢？同样也是有两种办法：

增加更多的数据
数据增强（Data augmentation，使用原数据进行变换增加更多的数据）
限制模型

其实前两个方法是殊途同归的，都是增加机器的学习样本，使得拟合的点位增多，减小过拟合现象。第三个方法其实就相当于我们限制好该模型只能用二次函数进行调参或者指数函数。这样就可以避免上图右下角的过拟合模样。那如何固定这个函数或者模型就取决于我们每个人对于模型的理解。比如说CNN神经网络就是更具图像的特点固定模型的部分参数。

我们根据感觉可以得到一个训练集上的Loss与测试集上的Loss随着时间变化的图像：

而当我们无法增加原始数据量的时候，我们可以使用交叉验证（Cross Validation）：

我们将训练集中的数据拿出一部分来进行验证，从而保证最大限度的利用的原始数据集。但是，这就又有一个问题，我们如何进行分组呢？

这就是我曾经在Matlab中的K折交叉验证（N fold Cross Validation），我们从下图中可以看到，我们取不同的验证集，不同的模型，可以得到不同的MSE，我们将MSE取平均就可以的到可行性之内的最佳模型，这个模型可以说是很“中庸”，因为它既不会因为Loss太大而失去作用，也不会因为对原始数据的过拟合，导致在测试集上的表现很差。

局部最小值与鞍点

我们在迭代模型的时候，使用的方法为梯度下降，而当我们使用梯度下降时的两个所谓的局限性便是：局部最小值与鞍点。

根据高等数学的知识，我们知道鞍点其实不是最小值，他只有两个方向比它高，两个方向比它小。

鞍点

我们先看鞍点，在这个点，我们梯度求解为0，所以我们的计算机不知道像哪边走？但是我们知道其实这不是最小的点。我们如何判断这个点是鞍点还是最小值点呢？

我们只要知道这个点附近的值与他自己的值的比较。是全部都大于它还是有大有小。其实我们只要知道Loss函数是什么样子就能求出来这个点附近的情况。但是Loss函数过于复杂，我们一般不太可能把它写出来，于是我们就是用泰勒逼近，考察一下这个点附近的取值如何。
$L\left( \theta \right) \approx L\left( \theta ' \right) +\left( \theta -\theta ' \right) ^Tg+\frac{1}{2}\left( \theta -\theta ' \right) ^TH\left( \theta -\theta ' \right)$
上图中的g是是梯度向量，我们知道在这个点的梯度是0，所以我们的公式便是：
$L\left( \theta \right) \approx L\left( \theta ' \right) +\frac{1}{2}\left( \theta -\theta ' \right) ^TH\left( \theta -\theta ' \right)$
上图中的H为海瑟矩阵：
$H_{i j}=\frac{\partial^{2}}{\partial \boldsymbol{\theta}_{i} \partial \boldsymbol{\theta}_{j}} L\left(\boldsymbol{\theta}^{\prime}\right)$
到现在我们最关注的应该是最右边的这个含有海瑟矩阵的部分，我们进行如下替换，便可得到：
$\left( \theta -\theta ' \right) \rightarrow v \\ \left( \theta -\theta ' \right) ^TH\left( \theta -\theta ' \right)\rightarrow v^THv$
这个时候我们有:

eigen values：特征值

eigen vector：特征向量

到此为止，我们会判断一个梯度为0的点，到底是鞍点还是最小值点。如果是鞍点的话，我们下一步那是继续下降，不过不能是梯度下降了，那应该用什么办法呢？

其实海瑟矩阵就能完成这个任务，我们需要利用特征向量完成梯度的作用，如下:

在这堂课的最后，老师说了，其实利用这个方法来代替梯度其实不是最优解，因为计算时间很长。

局部最小值

我们在真实的训练情况中，大多数情况下都不会遇到局部最小值，大部分情况还是鞍点的情况多一点。)

下面会说如何对局部最小值进行处理。

训练技巧（Batch & Momentum）

老师上课又重新回顾了一下Batch的概念，然后提出了用每一个Batch中的训练数据与用一整个数据集进行训练的差别，具体如下：

	Small	Large
Speed for one update (no parallel)	Faster	Slower
Speed for one update (with parallel)	Same	Same (not too large)
Time for one epoch	Slower	Faster
Gradient	Noisy	Stable
Optimization	Better	Worse
Generalization	Better	Worse

对了，每一个Batch的大小也是一个hyperparameter。

Momentum(动量)，这是物理中的一个描述量，通过这个方法，我们可以减小我们的模型进入局部最小值的概率，因为如果我们的模型梯度下降到最小的梯度的时候，我们还有动量可以进行调整。具象化的图示如下：

那么用数学的方式来表达是怎样的呢？其实也就是在梯度下降的方向上加上动量：

值得注意的是，我们当前进行下降的判断并不是来自上一步的动量加上梯度乘以学习率。我们通过上图可以看出来，其实是将所有之前的步的动量都累加在一起了。

自动调整学习速率

首先我们以一个简单的例子来说明为什么要动态调整学习速率呢？

我们看上图的右侧的的Loss，这个时候其实Loss其实已经降得很低了，但这就是我们想要达到的目的吗？如果观察梯度就可以知道这个时候的梯度依旧波动很大，其实这个时候右边的这个图就很能反应状况，我们的学习率太大，导致太两侧的山脊上来回横跳。

那这个时候是不是我们只要调小学习率（步长）就可以了呢？其实不是，如果我们的学习率调的过于小的时候，我们就会发现在这个Error Surface很平缓的地方，我们就很难继续前进。这个时候我们就要引入我们的可变学习率。那么我们学习率的变化的参照是什么呢？我们想要在地形平缓的时候走的快一点，地形陡峭的时候，走的缓慢一点。

我们原先的参数更新过程就会变成：
$\boldsymbol{\theta }_{i}^{\boldsymbol{t}+\mathbf{1}}\gets \boldsymbol{\theta }_{i}^{\boldsymbol{t}}-\eta \boldsymbol{g}_{i}^{\boldsymbol{t}} \\ \boldsymbol{g}_{i}^{\boldsymbol{t}}=\left. \frac{\partial L}{\partial \boldsymbol{\theta }_i} \right|_{\boldsymbol{\theta }=\boldsymbol{\theta }^{\boldsymbol{t}}} \\ \downarrow \\ \boldsymbol{\theta }_{i}^{\boldsymbol{t}+\mathbf{1}}\gets \boldsymbol{\theta }_{i}^{\boldsymbol{t}}-\frac{\eta}{\sigma _{i}^{t}}\boldsymbol{g}_{i}^{\boldsymbol{t}}$
这个时候，我们如何处理学习率下面的这个参数就成了很重要的问题。

RMS(Root Mean Square,均方根)

$\begin{aligned} &\boldsymbol{\theta}_{i}^{\mathbf{1}} \leftarrow \boldsymbol{\theta}_{i}^{0}-\frac{\eta}{\sigma_{i}^{0}} g_{i}^{0} \quad \sigma_{i}^{0}=\sqrt{\left(g_{i}^{0}\right)^{2}}=\left|g_{i}^{0}\right|\\ &\boldsymbol{\theta}_{i}^{2} \leftarrow \boldsymbol{\theta}_{i}^{\mathbf{1}}-\frac{\eta}{\sigma_{i}^{1}} g_{i}^{1} \quad \sigma_{i}^{1}=\sqrt{\frac{1}{2}\left[\left(g_{i}^{0}\right)^{2}+\left(g_{i}^{1}\right)^{2}\right]}\\ &\boldsymbol{\theta}_{i}^{3} \leftarrow \boldsymbol{\theta}_{i}^{2}-\frac{\eta}{\sigma_{i}^{2}} g_{i}^{2} \quad \sigma_{i}^{2}=\sqrt{\frac{1}{3}\left[\left(g_{i}^{0}\right)^{2}+\left(g_{i}^{1}\right)^{2}+\left(g_{i}^{2}\right)^{2}\right]}\\ &\boldsymbol{\theta}_{i}^{\boldsymbol{t}+1} \leftarrow \boldsymbol{\theta}_{i}^{\boldsymbol{t}}-\frac{\eta}{\sigma_{i}^{t}} \boldsymbol{g}_{i}^{t} \quad \sigma_{i}^{t}=\sqrt{\frac{1}{t+1} \sum_{i=0}^{t}\left(\boldsymbol{g}_{i}^{t}\right)^{2}} \end{aligned}$

我们看上述方程的递推，每一步都考虑了以前所有布的情况，如果之前的所有梯度大的话，相对应的在分母上就会使整体下降的便慢，如果之前的梯度小的话，下降的就会快一点。

RMSProp

在上面RMS的方法中，我们没有考虑到就算是同一个参数，它需要的学习率也是随着时间的变化而不同的。我们想要一个可以在同一个参数，同一个方向也可以进行动态调整的学习率。

所以我们提出了第二种方法：RMSProp
$\sigma _{i}^{0}=\sqrt{\left( g_{i}^{0} \right) ^2} \\ \sigma _{i}^{1}=\sqrt{\alpha \left( \sigma _{i}^{0} \right) ^2+(1-\alpha )\left( g_{i}^{1} \right) ^2} \\ \,\,\sigma _{i}^{2}=\sqrt{\alpha \left( \sigma _{i}^{1} \right) ^2+(1-\alpha )\left( g_{i}^{2} \right) ^2} \\ \,\,\downarrow \\ \sigma _{i}^{t}=\sqrt{\alpha \left( \sigma _{i}^{t-1} \right) ^2+(1-\alpha )\left( g_{i}^{t} \right) ^2}$
我们从公式中可以看出来α是一个Hyper Parameter（超参数），这个参数说明了现在的的梯度相较于以前所有的梯度的重要性，这个参数的取值是0~1，越靠近1，越说明当前的梯度更加不重要。

Adam

其实Adam就是前面几个好的算法的集合：Adam = RMSProp + Momentum这个Adam的算法在Pytorch里了，所以不用过多了解。

Learning Rate Decay

下图是一个椭球，我们从一边下降到最低点，利用RMS算法，我们得到如下图所示的结果：

我们可以看到从开始到底部的平坦区域是正常的，然后在底部区域开始了一段时间后，突然有了一场，这是怎么回事呢？我们知道这个算法会累积梯度，所以一开始的时候我们纵向下降时累积了许多梯度的，所以在某一个时间就会有这样的“爆炸的”现象。在最后的时候我们的梯度会在纵向上来回反复，然后横向前进一段时间，又开始了波动，不过最后算是可以到达终点。

有什么方法可以避免这种反复横跳呢?我们可以将学习率与时间进行挂钩，我们知道越到终点，所需要的前面的梯度数据就越少，所以我们将学习率设置成一个函数：
$\boldsymbol{\theta}_{i}^{\boldsymbol{t}+\mathbf{1}} \leftarrow \boldsymbol{\theta}_{i}^{\boldsymbol{t}}-\frac{\eta^{t}}{\sigma_{i}^{t}} \boldsymbol{g}_{i}^{\boldsymbol{t}}$

于是我们的图像就不会出现最后左右横跳的无效下降了

Warm Up

用上面方法中将时间与学习率进行关联的方法其实过于简单，我们考虑到在一开始的时候信息量并没有之后的大，所以一开始的时候有一个预热，要多读一些之前的梯度，然后再根据时间进行减少便可以很好的达到训练的目的。这个时候训练率与时间的图像大致为：

总结来看，我们对梯度下降方法的改进便在三个地方，一个是学习率，一个是均方根，一个是动量。见下图：

Loss函数的选择

如果我们训练的问题时一个分类问题，我们很有可能在训练的时候找不到Loss最小，这个时候我们要考虑使用不一样的Loss函数。通常在分类问题中我们需要的是Cross entropy。

这个函数与原本的MSE（均方差）张这个样子：
$\begin{aligned} &e=\sum_{i}\left(\widehat{\boldsymbol{y}}_{i}-\boldsymbol{y}_{i}^{\prime}\right)^{2} \\ &e=-\sum_{i} \widehat{y}_{i} \ln \boldsymbol{y}_{i}^{\prime} \end{aligned}$
从下面两个图中我们可以看出来，在使用Cross entropy时，我们的Loss函数更加的连续，所以更容易走到Loss更低的地方去。

Lecture 3

机器学习原理

我们回顾机器学习的基本步骤：

Step 1: function with unknown

Step 2: define loss

Step 3: optimization

我们以数码宝贝与宝可梦分类器为例。我们需要输入数码宝贝或者宝可梦的图像，输出是一个分类判断。我们观察到宝可梦与数码宝贝的线条疏密程度不一样，而线条又以点构成，我们就可以将图片的边缘处理出来，然后统计黑白点的数目，这样就可以很好的达到分类的作用。

所以我们到这一步就确定了我们的未知函数，如上图所示，接下来，便是我们的参数确定方法即损失函数的确定。我们将损失函数设定成错误判断的累计，有如下函数:
$\mathcal{D})=\frac{1}{N} \sum_{n=1}^{N} l\left(h, x^{n}, \hat{y}^{n}\right)$
我们看到这个函数L的里面有一个l函数，这个函数有三个参数，x是数据集D中的图片，y是该图片所对应的正确的生物。所以我们可以得到这个三个参数的函数为：
$\text{If } f_h\left( x^{\mathrm{n}} \right) \ne \mathrm{\hat{y}}^{\mathrm{n}}\,\, \text{ , } \text{Output 1} \\ \text{Otherwise , Output 0} \\$
在这个函数的选择上，我们也可以用cross-entropy 但是为了方便，我们还是使用上面的方法定义Loss。

我们再来看训练集相关的事情，我们假设可以收集到全宇宙的宝可梦与神奇宝贝，我们就可以将这些收集到资料，进行训练。之后就会得到理想的参数选择，我们设为h:
${\color{red} h^{all}}=\mathrm{arg}\min_h L\left( h,{\color{red} \mathcal{D} _{all}} \right)$
但去掉这个假设，其实我们不能得到所有宝可梦与数码宝贝的图片，因为会出新的生物。这个时候，我们只有部分训练资料，我们进行训练，这个时候我们可以得到：
${\color{blue} h^{\mathrm{train}}}=\mathrm{arg}\min_h L\left( h,{\color{blue} \mathcal{D} _{\mathrm{train}}} \right)$
我们所希望的是这个h-train尽量的靠近h-all。我们自行设置一个阈值，如果这两者之差小于这个阈值我们就认定这个模型好：
$\text{We want } L\left( {\color{blue} h^{\mathrm{train}}},{\color{red} \mathcal{D} _{all}} \right) -L\left( {\color{red} h^{all}},{\color{red} \mathcal{D} _{all}} \right) \le \delta$
这个时候我们探究哪一种D-train可以满足条件，我们验证发现存在一个h满足如下规律：
$\forall {\color{green} h}\in \mathcal{H} ,\left| L\left( {\color{green} h},{\color{blue} \mathcal{D} _{\mathrm{train}}} \right) -L\left( {\color{green} h},{\color{red} \mathcal{D} _{\mathrm{all}}} \right) \right|\le \delta /2$
数学证明如下:
$L\left(h^{\text {train }}, \mathcal{D}_{\text {all }}\right) \leq L\left(h^{\text {train }}, \mathcal{D}_{\text {train }}\right)+\delta / 2$

$\leq L\left(h^{a l l}, \mathcal{D}_{\operatorname{train}}\right)+\delta / 2$

$\leq L\left(h^{\text {all }}, \mathcal{D}_{\text {all }}\right)+\delta / 2+\delta / 2=L\left(h^{\text {all }}, \mathcal{D}_{\text {all }}\right)+\delta$

我们将满足上面的这个式子叫做好的训练资料，把没有满足上面这个式子的叫做坏的资料，然后我们将其分成一个个训练集，在下图中蓝色是好的训练资料，橙色是坏的训练资料：

我们想要知道所有坏的数据所占的比例有多大，如果一个点一个点算会太麻烦。我们在一片区域中，只要存在一个可以弄坏数据的h我们就称之为坏数据，所以我们可以有以下范围的框定：

我们可以看到每个区域的概论是可以算出来的，比如说h1区域的概率就是以h1为参数的L（h，D-train）的概率。考虑到每个区域的概率是由重叠的，所以我们不能直接将各个区域的概率相加，所以我们取并集。而该并集一定小于所有概率面积之和。
$\begin{aligned} P\left(\mathcal{D}_{\text {train }} \text { is } \boldsymbol{b a d}\right) &=\bigcup_{h \in \mathcal{H}} P\left(\mathcal{D}_{\text {train }} \text { is bad due to } h\right) \\ & \leq \sum_{h \in \mathcal{H}} P\left(\mathcal{D}_{\text {train }} \text { is bad due to } h\right) \end{aligned}$
有统计学概率的知识，我们可以得到：
$\begin{aligned} &\leq \sum_{h \in \mathcal{H}} 2 \exp \left(-2 N \varepsilon^{2}\right) \\ &=|\mathcal{H}| \cdot 2 \exp \left(-2 N \varepsilon^{2}\right) \end{aligned}$
我们如何要让这个P（D-train is bad）尽可能的小呢？有两种方法：第一种是缩小|H|，即缩小可以选择的方程的数目（别忘了前面所讲的H的意义）。第二种是增加N即增加训练资料的数目。

但我们发现这两种方法其实是鱼与熊掌不可兼得的方法，如下图所示：

而我们如何做到鱼与熊掌兼得（调参）呢？深度学习！！

卷积神经网络 (Convolutional Neural Networks, CNN)

第一种理解方式（神经元版）

卷积神经网络是为图片设计的神经网络，当然不是说只能用于图片，我们等会会提到。首先我们假设有一张100x100的图片，我们需要识别这个图片，那么我们就需要将其转化成Tensor，我们就需要将图片分成RGB三个通道，每个通道都有100x100的数字。如下图所示：

我们将这三个通道的所有数据都拉长放入一个列向量里面。按照通常的处理方法我们接着需要进入Fully Connected Network，但是我们仔细想想就会发现，如果要是别图中的物体是什么的话就需要将这个物体的特征识别出来，这个特征肯定不是整张图片，这样我们就可以将一部分神经元负责一部分。我们人类其实也是这个方法去辨识物体，我们观察物体的特征，然后做出判断。

针对这种特性，我们让每一组神经元只观察部分（Receptive field）：

不同的Receptive field可以有重叠（overlapped），因为如果一个特征在两个区域的交界处就不能很好的起到检测的作用。在CNN中我们通常来说都会去看三个通道的数值，所以我们在描述的时候只描述它的平面数值。我们在一次检测中平移这个Receptive field,每次移动的步长我们叫做：stride,我们从开始移动到结束的时候，我们去考虑移动结束的时候，有的时候不会是完全的覆盖，会超出去一部分，我们把超出去的这一部分就叫做：Padding，而Padding的填充方法有很多，常见的是全部补充成0，或者全部区域取平均，或者部分区域取平均。

我们继续思考，在同一张图片，每一图片的不同特征很有可能出现在不同的区域，比如说一张景点打卡照，要检测其中的人脸，但人脸不一定出现在完全相同的区域。

这就引入了我们的下一个概念：共用参数

在最开始我们不同的区域是为了检测物体的特征，现在我们共用参数，即将不同Receptive field传递到神经元的权重设为一致，这是一种将模型的伸缩性减少的方法，但是对于图片的检测即为有用。需要注意的是，我们共用参数，但这不代表神经元输出的值完全相等。其实我们每一组Receptive field其实对应了一组参数，而我们把这些参数叫做：Filter

说了这么多，我们来总结一下，Fully Connected的网络弹性是最大的，但是对于特定领域的识别是由缺陷的，而我们加入Receptive Field，进一步减少了模型的弹性，而最后一步的Parameter Sharing更是限制了它的弹性。

第二种理解方式（过滤器）

我们先假设图片都是两个通道的，我们假设有很多过滤器（Filter），去扫面整张图片，我们的过滤器里面就装着图片的部分特征，如鸟嘴部分或者人脸部分。我们把这个过滤器放在图片的各个位置上相对的位置做内乘（Inner product），我们就能的到一个数值，这个数值越大呢，就代表这个区域与filter越相似。

这只是一个过滤器的结果，我们有多少个过滤器就可以叠多少层，我们把这个处理的结果叫做：Feature Map。其实我们折磨处理完，还是一个“图片“，只是这个图片不是三个通道而是上一个卷积层的Filter数目。通过这个方法，我们可以叠很多的卷积层：

两个理解方法的对比

神经元版本	过滤器版本
每个神经元只考虑一个感受区域（receptive field）	有一组过滤器检测小的模式（patterns）。
不同的神经元感受区域参数共享。	每个过滤器卷积在输入图像上。

其实是一样的。

要额外提一下的方法是：Pooling。实际上是一种化简，如下图所示：

我们知道不同的图片如果把所有的像素拿掉一半的话，其实图片的特征大概率还是存在的，所以我们每次Polling的时候就选取一片区域然后对该区域进行一个运算（取最高或者取平均），传导到下一层。但polling存在的理由很大一部分是因为，为了节省计算的资源，但在今天也是有很多模型没有Polling的。

你可能感兴趣的:(机器学习,机器学习,人工智能)

【深度学习与大模型基础】第7章-特征分解与奇异值分解 lynn-66 深度学习与大模型基础算法机器学习人工智能
一、特征分解特征分解（EigenDecomposition）是线性代数中的一种重要方法，广泛应用于计算机行业的多个领域，如机器学习、图像处理和数据分析等。特征分解将一个方阵分解为特征值和特征向量的形式，帮助我们理解矩阵的结构和性质。1.特征分解的定义对于一个n×n的方阵A，如果存在一个非零向量v和一个标量λ，使得：则称λ为矩阵A的特征值，v为对应的特征向量。特征分解将矩阵A分解为：其中：Q是由特征
《当人工智能遇上广域网：跨越地理距离的通信变革》程序猿阿伟人工智能
在数字化时代，广域网作为连接全球信息的纽带，让数据能够在不同地区的网络之间流动。然而，地理距离给广域网数据传输带来诸多挑战，如高延迟、低带宽、信号衰减和不稳定等问题。幸运的是，飞速发展的人工智能技术为解决这些难题提供了新的方向，开启了广域网传输的新篇章。广域网传输面临的地理挑战广域网覆盖范围极为广泛，可连接不同城市、国家甚至跨越洲际，这使得数据传输要跨越漫长的地理距离。以跨国公司的广域网为例，其总
【论文阅读】Persistent Homology Captures the Generalization of Neural Networks Without A Validation Set 开心星人论文阅读论文阅读
将神经网络表征为加权的无环图，直接根据模型的权重矩阵构造PD。计算相邻batch的权重矩阵PD之间的距离。比较同调收敛性与神经网络的验证精度变化趋势摘要机器学习从业者通常通过监控模型的某些指标来估计其泛化误差，并在训练数值收敛之前停止训练，以防止过拟合。通常，这种误差度量或任务相关的指标是通过一个验证集（holdoutset）来计算的。因为这些数据没有直接用于更新模型参数，通常假设模型在验证集上的
震惊！ “深度学习”都在学习什么扉间798 深度学习学习人工智能
常见的机器学习分类算法俗话说三个臭皮匠胜过诸葛亮这里面集成学习就是将单一的算法弱弱结合算法融合用投票给特征值加权重AdaBoost集成学习算法通过迭代训练一系列弱分类器，给予分类错误样本更高权重，使得后续弱分类器更关注这些样本，然后将这些弱分类器线性组合成强分类器，提高整体分类性能。（一）投票机制投票是一种直观且常用的算法融合策略。在多分类问题中，假设有多个分类器对同一数据进行分类判断。每个分类器
【论文阅读】Availability Attacks Create Shortcuts 开心星人论文阅读论文阅读
还得重复读这一篇论文，有些地方理解不够透彻可用性攻击通过在训练数据中添加难以察觉的扰动，使数据无法被机器学习算法利用，从而防止数据被未经授权地使用。例如，一家私人公司未经用户同意就收集了超过30亿张人脸图像，用于构建商业人脸识别模型。为解决这些担忧，许多数据投毒攻击被提出，以防止数据被未经授权的深度模型学习。它们通过在训练数据中添加难以察觉的扰动，使模型无法从数据中学习太多信息，从而导致模型在未见
NLP高频面试题（十）——目前常见的几种大模型架构是啥样的 Chaos_Wang_ NLP常见面试题自然语言处理架构人工智能
深入浅出：目前常见的几种大模型架构解析随着Transformer模型的提出与发展，语言大模型迅速崛起，已经成为人工智能领域最为关注的热点之一。本文将为大家详细解析几种目前常见的大模型架构，帮助读者理解其核心差异及适用场景。1.什么是LLM（大语言模型）？LLM通常指参数量巨大、能够捕捉丰富语义信息的Transformer模型，它们通过海量的文本数据训练而成，能够实现高度逼真的文本生成、复杂的语言理
机器学习 Day01人工智能概述山北雨夜漫步机器学习人工智能
1.什么样的程序适合在gpu上运行计算密集型的程序：此类程序主要运算集中在寄存器，寄存器读写速度快，而GPU拥有强大的计算能力，能高效处理大量的寄存器运算，因此适合在GPU上运行。像科学计算中的数值模拟、密码破解等场景的程序，都属于计算密集型，在GPU上运行可大幅提升运算速度。易于并行的程序：GPU采用SIMD架构，有众多核心，同一时间每个核心适合做相同的事。易于并行的程序能充分利用GPU这一特性
《今日AI-人工智能-编程日报》-源自2025年3月20日小亦编辑部每日AI-人工智能-编程日报人工智能大数据
一、AI行业动态英伟达新一代AI芯片Rubin发布计划英伟达宣布其新一代AI芯片Rubin将于2026年下半年推出，下下一代AI芯片架构命名为Feynman，计划于2028年登场。同时，英伟达还推出了RTXPRO6000系列Blackwell专业卡，拥有24064核心、96GB显存和最高600W功耗。OpenAI星际之门数据中心建设进展OpenAI的首个数据中心“星际之门”预计于2026年中在德克
机器学习：让计算机学会思考的艺术平凡而伟大. 机器学习机器学习人工智能
目录什么是机器学习？机器学习的基本步骤常见的机器学习算法机器学习的实际应用如何入门机器学习？结语在当今数字化时代，机器学习（MachineLearning,ML）已经成为一个炙手可热的话题。从推荐系统到自动驾驶汽车，再到语音助手，机器学习的应用无处不在。然而，对于许多人来说，机器学习仍然是一个神秘而复杂的领域。本文将用通俗易懂的语言，带你走进机器学习的世界，了解它的基本原理和应用。什么是机器学习？
机器学习中的 K-均值聚类算法及其优缺点平凡而伟大. 机器学习机器学习算法均值算法
K-均值聚类是一种常用的无监督学习算法，用于将数据集中的样本分成K个簇。其基本原理是将所有样本点划分到K个簇使得簇内样本点之间的距离尽可能接近，而不同簇之间的距离尽可能远。算法流程如下：随机选择K个样本点作为初始的聚类中心。将每个样本点分配到与其最近的聚类中心所在的簇。更新每个簇的聚类中心为该簇所有样本点的平均值。重复第2步和第3步，直到聚类中心不再变化或者达到最大迭代次数。优点：简单且易于实现。
一文讲清楚深度学习和机器学习平凡而伟大. 机器学习人工智能深度学习机器学习人工智能
目录1.定义机器学习（MachineLearning,ML）深度学习（DeepLearning,DL）2.工作原理机器学习深度学习3.应用场景机器学习深度学习4.主要区别5.为什么选择深度学习？6.总结深度学习和机器学习是人工智能（AI）领域中两个密切相关但有所区别的概念。要清楚地解释它们之间的关系，我们可以从定义、工作原理、应用场景以及两者的主要区别等方面进行探讨。1.定义机器学习（Machin
AIOps：解决企业IT挑战的智能利器雅菲奥朗认证培训 AIOps SRE 可观测性
前言：在当今数字化的时代，企业IT基础设施和应用程序规模不断扩大，面临着日益复杂的挑战。在这种情况下，AIOps人工智能运维成为解决企业IT运维困境的智能利器。AIOps与可观测性密切相关，可观测性是实现AIOps的基础。通过收集、监视和理解系统数据，AIOps能够自动化运维任务、实时监控系统状态、预测潜在问题，从而提高效率和稳定性。AIOps尤其适用于IT运维部门，这是一个迫切需要此类技术的群体
使用AIOps进行更好的事件管理茵赛飞3D CAD数据转换软件 pagerduty devops 人工智能运维
DevOps为科技界带来了更加协作和高效的工作流程。随着AIOps的集成，自动化更进一步，使用人工智能为团队提供更快的根本原因分析和算法降噪。主要从采用AIOps中受益的主要领域之一是事件管理。AIOps可以帮助DevOps团队自动化工作流程，以实现更智能、更高效的事件管理，从而腾出时间让IT运营团队成员专注于创新以改善用户体验。在本文中，我们将了解AIOps如何从检测和识别到响应改进事件管理，以
AI大模型编程能力对比：Deepseek&Claude&Gemini 黑夜路人（heiyeluren） AI人工智能人工智能 ai AIGC 语言模型
在当今快速发展的技术领域，人工智能（AI）模型在编程和数据处理方面的应用越来越广泛。不同的AI模型因其独特的设计理念和技术优势，适用于不同的编程任务和场景。本文将对三种主流的AI模型——DeepSeekv3、GeminiFlash2.0和Claude3.5Sonnet的编程能力进行详细对比，帮助读者根据具体需求选择最合适的工具。同时对DeepSeekv3、GeminiFlash2.0和Claude
DeepSeek：智能搜索与分析的新纪元 XRC2231 学习
在人工智能浪潮席卷全球的今天，DeepSeek如同一颗璀璨的新星，以其独特的魅力和强大的功能，在AI领域脱颖而出。DeepSeek，这一基于深度学习和数据挖掘技术的智能搜索与分析系统，不仅重新定义了搜索引擎的边界，更以其卓越的性能和广泛的应用场景，为全球用户带来了前所未有的智能体验。本文将从DeepSeek的定义、特点、应用场景、优势等方面进行全面而深入的介绍，带您领略这一新兴技术的独特魅力。一、
哈尔滨工业大学DeepSeek公开课人工智能：大模型原理技术与应用-从GPT到DeepSeek｜附视频下载方法你觉得205 人工智能机器学习大数据 ai 知识图谱 python 运维
导读INTRODUCTION今天继续哈尔滨工业大学车万翔教授带来了一场主题为“DeepSeek技术前沿与应用”的报告。本报告深入探讨了大语言模型在自然语言处理（NLP）领域的核心地位及其发展历程，从基础概念出发，延伸至语言模型在机器翻译、拼音输入法、语音识别等任务中的关键作用。强调了语言模型不仅辅助其他NLP任务，本身也蕴含大量知识，如地理信息、语义理解和推理能力。随着技术的发展，尤其是trans
机器学习knnlearn1 XW-ABAP 机器学习机器学习人工智能
importmatplotlib.pyplotaspltimportnumpyasnpimportoperator#定义一个函数用于创建数据集defcreateDataSet():#定义特征矩阵，每个元素是一个二维坐标点，代表不同策略数据点的坐标group=np.array([[20,3],[15,5],[18,1],[5,17],[2,15],[3,20]])#定义每个数据点对应的标签，用于区分
基于 MySQL 和 Spring Boot 的在线论坛管理系统设计与实现城南|阿洋-计算机从小白到大神 mysql spring boot 数据库
markdownCopy✌全网粉丝20W+,csdn特邀作者、博客专家、CSDN[新星计划]导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、pyhton、机器学习技术领域和毕业项目实战✌哈喽兄弟们，好久不见哦～最近整理了一下之前写过的一些小项目/毕业设计。发现还是有很多存货的，想一想既然放在电脑里面也吃灰，那么还不如分享出去，没准还可以帮助到
零基础入门机器学习：用Scikit-learn实现鸢尾花分类藍海琴泉机器学习 scikit-learn 分类
适合人群：机器学习新手|数据分析爱好者|需快速展示案例的学生一、引言：为什么要学这个案例？目的：明确机器学习解决什么问题，建立学习信心。机器学习定义：让计算机从数据中自动学习规律（如分类鸢尾花品种）。为什么选鸢尾花数据集：数据量小、特征明确，适合教学演示。Scikit-learn优势：提供现成算法和工具，无需从头写数学公式。二、环境准备：5分钟快速上手目的：搭建可运行的代码环境，避免卡在工具安装环
机器学习--DBSCAN聚类算法详解 2201_75491841 机器学习算法聚类人工智能
目录引言1.什么是DBSCAN聚类？2.DBSCAN聚类算法的原理3.DBSCAN算法的核心概念3.1邻域（Neighborhood）3.2核心点（CorePoint）3.3直接密度可达（DirectlyDensity-Reachable）3.4密度可达（Density-Reachable）3.5密度相连（Density-Connected）4.DBSCAN算法的步骤5.DBSCAN算法的优缺点5
【机器学习】机器学习工程实战-第3章数据收集和准备腊肉芥末果机器学习工程实战机器学习人工智能
上一章：第2章项目开始前文章目录3.1关于数据的问题3.1.1数据是否可获得3.1.2数据是否相当大3.1.3数据是否可用3.1.4数据是否可理解3.1.5数据是否可靠3.2数据的常见问题3.2.1高成本3.2.2质量差3.2.3噪声（noise）3.2.4偏差（bias）3.2.5预测能力低（lowpredictivepower）3.2.6过时的样本3.2.7离群值3.2.8数据泄露/目标泄漏3
机器学习实战第一章机器学习基础 LuoY、 Machine Learning 机器学习算法人工智能
第一章机器学习1.1何谓机器学习1.2关键术语1.3机器学习的主要任务1.4如何选择合适的算法1.5开发机器学习应用程序的步骤1.6Python语言的优势1.1何谓机器学习 1、简单地说，机器学习就是把无序的数据转换成有用的信息； 2、机器学习能让我们自数据集中受启发，我们会利用计算机来彰显数据背后的真实含义； 3、机器学习横跨计算机科学、工程技术和统计学等多个学科，需要多学科的
数据挖掘实战-基于机器学习的垃圾邮件检测模型艾派森数据挖掘实战合集数据挖掘机器学习人工智能 python
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍
集成学习（随机森林） herry57 数学建模大数据随机森林集成学习
目录一、集成学习概念二、Bagging集成原理三、随机森林四、例子（商品分类）一、集成学习概念集成学习通过建⽴⼏个模型来解决单⼀预测问题。它的⼯作原理是⽣成多个分类器/模型，各⾃独⽴地学习和作出预测。这些预测最后结合成组合预测，因此优于任何⼀个单分类的做出预测。只要单分类器的表现不太差，集成学习的结果总是要好于单分类器的二、Bagging集成原理分类圆形和长方形三、随机森林在机器学习中，随机森林是
【机器学习】朴素贝叶斯入门：从零到垃圾邮件过滤实战吴师兄大模型 0基础实现机器学习入门到精通机器学习人工智能朴素贝叶斯深度学习 pytorch sklearn 开发语言
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
【机器学习】机器学习工程实战-第2章项目开始前腊肉芥末果机器学习工程实战机器学习人工智能
上一章：第1章概述文章目录2.1机器学习项目的优先级排序2.1.1机器学习的影响2.1.2机器学习的成本2.2估计机器学习项目的复杂度2.2.1未知因素2.2.2简化问题2.2.3非线性进展2.3确定机器学习项目的目标2.3.1模型能做什么2.3.2成功模型的属性2.4构建机器学习团队2.4.1两种文化2.4.2机器学习团队的成员2.5机器学习项目为何失败2.5.1缺乏有经验的人才2.5.2缺乏领
机器学习怎么做特征工程全栈你个大西瓜人工智能机器学习人工智能特征工程数据预处理特征变换特征降维特征构造
一、特征工程通俗解释特征工程就像厨师做菜前的食材处理：原始数据是“生肉和蔬菜”，特征工程是“切块、腌制、调料搭配”，目的是让机器学习模型（食客）更容易消化吸收，做出更好预测（品尝美味）。二、为什么要做特征工程？数据质量差：原始数据常有缺失、噪声、不一致问题（如年龄列混入“未知”）。模型限制：算法无法直接理解原始数据（如文本、日期需要数值化）。提升效果：好特征能显著提升模型性能（准确率提升10%~5
【机器学习】机器学习四大分类藓类少女机器学习机器学习分类人工智能
机器学习的方法主要可以分为四大类，根据学习方式和数据标注情况进行分类：1.监督学习（SupervisedLearning）特点：有标注数据（即训练数据有明确的输入(X)和输出(Y)）。学习目标是找到一个映射(f(X)\approxY)。适用于分类和回归问题。主要算法：分类（Classification）：逻辑回归（LogisticRegression）支持向量机（SVM）朴素贝叶斯（NaïveBa
大模型学习终极指南：从新手到专家的必经之路，全网最详尽解析，你敢挑战吗？大模型入门教程学习人工智能 AI 大模型大模型学习大模型教程 AI大模型
随着人工智能技术的飞速发展，大模型（Large-ScaleModels）已经成为推动自然语言处理（NLP）、计算机视觉（CV）等领域进步的关键因素。本文将为您详细介绍从零开始学习大模型直至成为专家的全过程，包括所需掌握的知识点、学习资源以及实践建议等。无论您是初学者还是有一定基础的专业人士，都能从中获得有价值的指导。一、基础知识准备在开始学习大模型之前，需要先掌握一些基础知识，这些知识将为后续的学
机器学习——KNN超参数练习AI两年半机器学习人工智能深度学习
sklearn.model_selection.GridSearchCV是scikit-learn中用于超参数调优的核心工具，通过结合交叉验证和网格搜索实现模型参数的自动化优化。以下是详细介绍：一、功能概述GridSearchCV在指定参数网格上穷举所有可能的超参数组合，通过交叉验证评估每组参数的性能，最终选择最优参数组合。其核心价值在于：自动化调参：替代手动参数调试，提升效率3。交叉验证支持：通
遍历dom 并且存储（将每一层的DOM元素存在数组中）换个号韩国红果果 JavaScript html
数组从0开始！！ var a=[],i=0; for(var j=0;j<30;j++){ a[j]=[];//数组里套数组，且第i层存储在第a[i]中 } function walkDOM(n){ do{ if(n.nodeType!==3)//筛选去除#text类型 a[i].push(n); //con
Android+Jquery Mobile学习系列(9)-总结和代码分享白糖_ JQuery Mobile
目录导航经过一个多月的边学习边练手，学会了Android基于Web开发的毛皮，其实开发过程中用Android原生API不是很多，更多的是HTML/Javascript/Css。个人觉得基于WebView的Jquery Mobile开发有以下优点： 1、对于刚从Java Web转型过来的同学非常适合，只要懂得HTML开发就可以上手做事。 2、jquerym
impala参考资料 dayutianfei impala
记录一些有用的Impala资料 1. 入门资料 >>官网翻译： http://my.oschina.net/weiqingbin/blog?catalog=423691 2. 实用进阶 >>代码&架构分析： Impala/Hive现状分析与前景展望：http
JAVA 静态变量与非静态变量初始化顺序之新解周凡杨 java 静态非静态顺序
今天和同事争论一问题，关于静态变量与非静态变量的初始化顺序，谁先谁后，最终想整理出来！测试代码： import java.util.Map; public class T { public static T t = new T(); private Map map = new HashMap(); public T(){ System.out.println(&quo
跳出iframe返回外层页面 g21121 iframe
在web开发过程中难免要用到iframe，但当连接超时或跳转到公共页面时就会出现超时页面显示在iframe中，这时我们就需要跳出这个iframe到达一个公共页面去。首先跳转到一个中间页，这个页面用于判断是否在iframe中，在页面加载的过程中调用如下代码： <script type="text/javascript"> //<!-- function
JAVA多线程监听JMS、MQ队列 510888780 java多线程
背景：消息队列中有非常多的消息需要处理，并且监听器onMessage（）方法中的业务逻辑也相对比较复杂，为了加快队列消息的读取、处理速度。可以通过加快读取速度和加快处理速度来考虑。因此从这两个方面都使用多线程来处理。对于消息处理的业务处理逻辑用线程池来做。对于加快消息监听读取速度可以使用1.使用多个监听器监听一个队列；2.使用一个监听器开启多线程监听。对于上面提到的方法2使用一个监听器开启多线
第一个SpringMvc例子布衣凌宇 spring mvc
第一步：导入需要的包；第二步：配置web.xml文件 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee" xmlns:xsi=
我的spring学习笔记15-容器扩展点之PropertyOverrideConfigurer aijuans Spring3
PropertyOverrideConfigurer类似于PropertyPlaceholderConfigurer，但是与后者相比，前者对于bean属性可以有缺省值或者根本没有值。也就是说如果properties文件中没有某个bean属性的内容，那么将使用上下文（配置的xml文件）中相应定义的值。如果properties文件中有bean属性的内容，那么就用properties文件中的值来代替上下
通过XSD验证XML antlove xml schema xsd validation SchemaFactory
1. XmlValidation.java package xml.validation; import java.io.InputStream; import javax.xml.XMLConstants; import javax.xml.transform.stream.StreamSource; import javax.xml.validation.Schem
文本流与字符集百合不是茶 PrintWrite()的使用字符集名字别名获取
文本数据的输入输出; 输入;数据流,缓冲流输出;介绍向文本打印格式化的输出PrintWrite(); package 文本流; import java.io.FileNotFound
ibatis模糊查询sqlmap-mapping-**.xml配置 bijian1013 ibatis
正常我们写ibatis的sqlmap-mapping-*.xml文件时，传入的参数都用##标识，如下所示： <resultMap id="personInfo" class="com.bijian.study.dto.PersonDTO"> <res
java jvm常用命令工具——jdb命令(The Java Debugger) bijian1013 java jvm jdb
用来对core文件和正在运行的Java进程进行实时地调试，里面包含了丰富的命令帮助您进行调试，它的功能和Sun studio里面所带的dbx非常相似，但 jdb是专门用来针对Java应用程序的。现在应该说日常的开发中很少用到JDB了，因为现在的IDE已经帮我们封装好了，如使用ECLI
【Spring框架二】Spring常用注解之Component、Repository、Service和Controller注解 bit1129 controller
在Spring常用注解第一步部分【Spring框架一】Spring常用注解之Autowired和Resource注解（http://bit1129.iteye.com/blog/2114084）中介绍了Autowired和Resource两个注解的功能，它们用于将依赖根据名称或者类型进行自动的注入，这简化了在XML中，依赖注入部分的XML的编写，但是UserDao和UserService两个bea
cxf wsdl2java生成代码super出错,构造函数不匹配 bitray super
由于过去对于soap协议的cxf接触的不是很多,所以遇到了也是迷糊了一会.后来经过查找资料才得以解决. 初始原因一般是由于jaxws2.2规范和jdk6及以上不兼容导致的.所以要强制降为jaxws2.1进行编译生成.我们需要少量的修改: 我们原来的代码 wsdl2java com.test.xxx -client http://..... 修改后的代
动态页面正文部分中文乱码排障一例 ronin47
公司网站一部分动态页面，早先使用apache+resin的架构运行，考虑到高并发访问下的响应性能问题，在前不久逐步开始用nginx替换掉了apache。不过随后发现了一个问题，随意进入某一有分页的网页，第一页是正常的（因为静态化过了）；点“下一页”，出来的页面两边正常，中间部分的标题、关键字等也正常，唯独每个标题下的正文无法正常显示。因为有做过系统调整，所以第一反应就是新上
java-54- 调整数组顺序使奇数位于偶数前面 bylijinnan java
import java.util.Arrays; import java.util.Random; import ljn.help.Helper; public class OddBeforeEven { /** * Q 54 调整数组顺序使奇数位于偶数前面 * 输入一个整数数组，调整数组中数字的顺序，使得所有奇数位于数组的前半部分，所有偶数位于数组的后半
从100PV到1亿级PV网站架构演变 cfyme 网站架构
一个网站就像一个人，存在一个从小到大的过程。养一个网站和养一个人一样，不同时期需要不同的方法，不同的方法下有共同的原则。本文结合我自已14年网站人的经历记录一些架构演变中的体会。 1：积累是必不可少的架构师不是一天练成的。 1999年，我作了一个个人主页，在学校内的虚拟空间，参加了一次主页大赛，几个DREAMWEAVER的页面，几个TABLE作布局，一个DB连接，几行PHP的代码嵌入在HTM
[宇宙时代]宇宙时代的GIS是什么？ comsci Gis
我们都知道一个事实，在行星内部的时候，因为地理信息的坐标都是相对固定的，所以我们获取一组GIS数据之后，就可以存储到硬盘中，长久使用。。。但是，请注意，这种经验在宇宙时代是不能够被继续使用的宇宙是一个高维时空
详解create database命令 czmmiao database
完整命令 CREATE DATABASE mynewdb USER SYS IDENTIFIED BY sys_password USER SYSTEM IDENTIFIED BY system_password LOGFILE GROUP 1 ('/u01/logs/my/redo01a.log','/u02/logs/m
几句不中听却不得不认可的话 datageek
1、人丑就该多读书。 2、你不快乐是因为：你可以像猪一样懒，却无法像只猪一样懒得心安理得。 3、如果你太在意别人的看法，那么你的生活将变成一件裤衩，别人放什么屁，你都得接着。 4、你的问题主要在于：读书不多而买书太多，读书太少又特爱思考，还他妈话痨。 5、与禽兽搏斗的三种结局：(1)、赢了，比禽兽还禽兽。(2)、输了，禽兽不如。(3)、平了，跟禽兽没两样。结论：选择正确的对手很重要。 6
1 14:00 PHP中的“syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM”错误 dcj3sjt126com PHP
原文地址：http://www.kafka0102.com/2010/08/281.html 因为需要，今天晚些在本机使用PHP做些测试，PHP脚本依赖了一堆我也不清楚做什么用的库。结果一跑起来，就报出类似下面的错误：“Parse error: syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM in /home/kafka/test/
xcode6 Auto layout and size classes dcj3sjt126com ios
官方GUI https://developer.apple.com/library/ios/documentation/UserExperience/Conceptual/AutolayoutPG/Introduction/Introduction.html iOS中使用自动布局（一） http://www.cocoachina.com/ind
通过PreparedStatement批量执行sql语句【sql语句相同，值不同】梦见x光 sql 事务批量执行
比如说：我有一个List需要添加到数据库中，那么我该如何通过PreparedStatement来操作呢？ public void addCustomerByCommit(Connection conn , List<Customer> customerList) { String sql = "inseret into customer(id
程序员必知必会----linux常用命令之十【系统相关】 hanqunfeng Linux常用命令
一.linux快捷键 Ctrl+C : 终止当前命令 Ctrl+S : 暂停屏幕输出 Ctrl+Q : 恢复屏幕输出 Ctrl+U : 删除当前行光标前的所有字符 Ctrl+Z : 挂起当前正在执行的进程 Ctrl+L : 清除终端屏幕，相当于clear 二.终端命令 clear : 清除终端屏幕 reset : 重置视窗，当屏幕编码混乱时使用 time com
NGINX IXHONG nginx
pcre 编译安装 nginx conf/vhost/test.conf upstream admin { server 127.0.0.1:8080; } server { listen 80; &
设计模式--工厂模式 kerryg 设计模式
工厂方式模式分为三种： 1、普通工厂模式：建立一个工厂类，对实现了同一个接口的一些类进行实例的创建。 2、多个工厂方法的模式：就是对普通工厂方法模式的改进，在普通工厂方法模式中，如果传递的字符串出错，则不能正确创建对象，而多个工厂方法模式就是提供多个工厂方法，分别创建对象。 3、静态工厂方法模式：就是将上面的多个工厂方法模式里的方法置为静态，
Spring InitializingBean/init-method和DisposableBean/destroy-method mx_xiehd java spring bean xml
1.initializingBean/init-method 实现org.springframework.beans.factory.InitializingBean接口允许一个bean在它的所有必须属性被BeanFactory设置后，来执行初始化的工作，InitialzingBean仅仅指定了一个方法。通常InitializingBean接口的使用是能够被避免的，（不鼓励使用，因为没有必要
解决Centos下vim粘贴内容格式混乱问题 qindongliang1922 centos vim
有时候，我们在向vim打开的一个xml，或者任意文件中，拷贝粘贴的代码时，格式莫名其毛的就混乱了，然后自己一个个再重新，把格式排列好，非常耗时，而且很不爽，那么有没有办法避免呢？答案是肯定的，设置下缩进格式就可以了，非常简单：在用户的根目录下直接vi ~/.vimrc文件然后将set pastetoggle=<F9> 写入这个文件中，保存退出，重新登录，
netty大并发请求问题 tianzhihehe netty
多线程并发使用同一个channel java.nio.BufferOverflowException: null at java.nio.HeapByteBuffer.put(HeapByteBuffer.java:183) ~[na:1.7.0_60-ea] at java.nio.ByteBuffer.put(ByteBuffer.java:832) ~[na:1.7.0_60-ea]
Hadoop NameNode单点问题解决方案之一 AvatarNode wyz2009107220 NameNode
我们遇到的情况 Hadoop NameNode存在单点问题。这个问题会影响分布式平台24*7运行。先说说我们的情况吧。我们的团队负责管理一个1200节点的集群(总大小12PB)，目前是运行版本为Hadoop 0.20，transaction logs写入一个共享的NFS filer(注：NetApp NFS Filer)。经常遇到需要中断服务的问题是给hadoop打补丁。 DataNod