StarCoo

Coursera 机器学习（by Andrew Ng）课程学习笔记 Week 3——逻辑回归、过拟合与正则化

此系列为 Coursera 网站机器学习课程个人学习笔记（仅供参考）
课程网址：https://www.coursera.org/learn/machine-learning
参考资料：http://blog.csdn.net/scut_arucee/article/details/49889405

一、Classification and Representation

1.1 分类问题（classification）

在第一讲中我们提到监督学习分为两类：回归问题和分类问题，之前描述的房价问题就属于回归问题，因为要预测的变量是连续的，接下来我们会介绍另一种——分类问题（classification）。分类问题中要预测的变量是离散的。

现在有一些肿瘤大小和相应性质（ 0 代表良性，1代表恶性）的训练数据，如下图红色叉点。若仍以线性回归进行学习，则可以学习出如下黄色的假设函数 hθ(x) ，对于新的输入 x ，可按下列阈值分类器预测y：

hθ(x)≥0.5（x≥X1）,预测y=1

hθ(x)≤0.5（x≥X2）,预测y=0

Coursera 机器学习（by Andrew Ng）课程学习笔记 Week 3——逻辑回归、过拟合与正则化_第1张图片

如果在图中加上一点（如上图绿色叉点），仍符合上述分类器的判定，但是按线性回归，最后的分类器如图中绿色直线所示，说明线性回归不适于用以解决分类问题。我们可以选择逻辑回归（logistic regression）来解决分类问题。

1.2 逻辑回归的假设函数 hθ(x) 的定义

对于两类分类问题， y=0,or,1 ，但之前线性回归中 hθ(x)=θTx 的定义可能使 hθ(x) 大于 1 或者小于0。
逻辑回归中， 0⩽hθ(x)⩽1 ，要使得 hθ(x) 满足上述要求，定义：

hθ(x)=g(θTx)

其中， g(z)=11+e−z ，被称为 logistic function（sigmoid function）。设 z=θTx ，逻辑回归的假设函数表达式为：

hθ(x)=11+e−θTx

因为logistic function的图像在 −∞ 渐进于 0 而在 +∞ 渐进于 1 ，如下图，故其刚好满足了逻辑回归对hθ(x)的取值范围要求。

Coursera 机器学习（by Andrew Ng）课程学习笔记 Week 3——逻辑回归、过拟合与正则化_第2张图片

-
下面我们就来解释一下 hθ(x) 的含义。

“probability that y=1，given x，parameterized by θ ”

对于二类分类问题， y 只有两个输出0和 1 ，hθ(x)给出了输出 y=1 的概率。
用数学表达式表示：

hθ(x)=P(y=1∣x,θ)=1−P(y=0∣x,θ)

1.3 决策边界（Decision Boundary）

当得到一个新的x，我们如何通过上面的假设函数 hθ(x) 预测输出 y ？
根据hθ(x)的含义，我们可以做出如下假设：

hθ(x)≥0.5⇒y=1

hθ(x)<0.5⇒y=0

根据上面logistic函数的图像我们可以看出，当 g(z)≥0.5 ， z≥0 ，而 z=θTx ，我们可以得到：

θTx≥0⇒y=1

θTx<0⇒y=0

下面我们举一个例子来更好地理解决策边界：
我们现在有如下图所示的数据集，假设函数模型为： hθ(x)=g(θ0+θ1x1+θ2x2) （这里怎么确定参数，我们会在之后的小节再讲）。

Coursera 机器学习（by Andrew Ng）课程学习笔记 Week 3——逻辑回归、过拟合与正则化_第3张图片

假设我们已经得到：

θ=⎡⎣⎢θ0θ1θ2⎤⎦⎥=⎡⎣⎢−311⎤⎦⎥

根据前面所讲的，我们可以得到：

当

−3+x1+x2≥0⇒y=1

当

−3+x1+x2<0⇒y=0

我们在图中画出 −x1+x2=3 这条直线，如下图黄线所示

Coursera 机器学习（by Andrew Ng）课程学习笔记 Week 3——逻辑回归、过拟合与正则化_第4张图片

我们可以直观地看出，当 (x1,x2) 在这条直线的上方，则预测 y=1 ；当 (x1,x2) 在这条直线的下方，则预测 y=0 。 −x1+x2=3 这条直线就是这里的决策边界（Decision Boundary）。它将空间分为两个区域，预测 y=0 和预测 y=1 。这条直线并不是数据集本身的属性，而是假设函数（hypothesis）和其参数 θ 的属性。

值得注意的是，logistic 函数 g(z) 的输入（e.g. θTx ）并不总是线性的：

上面的决策边界 −x1+x2=3 属于线性决策边界，再看一个非线性决策边界的例子。假设训练数据的分布如下图所示，则可用高阶多项式进行拟合。

Coursera 机器学习（by Andrew Ng）课程学习笔记 Week 3——逻辑回归、过拟合与正则化_第5张图片

如假设 hθ(x)=g（θTx）=g(θ0+θ1x1+θ2x2)+θ3x21+θ4x22 ，并且通过拟合，我们得到：

θ=⎡⎣⎢⎢⎢⎢⎢⎢θ0θ1θ2θ3θ4⎤⎦⎥⎥⎥⎥⎥⎥=⎡⎣⎢⎢⎢⎢⎢⎢−10011⎤⎦⎥⎥⎥⎥⎥⎥

此时的决策边界为一个圆心在原点，半径为1的圆，当 (x1,x2) 位于圆外部，我们可以预测 y=1 ；当 (x1,x2) 位于圆内部，我们可以预测 y=0 。

二、逻辑回归（Logistic Regression）

2.1 逻辑回归的代价函数

前面提到决策边界由假设函数和参数 θ 决定，那么我们如何求解参数 θ ？在线性回归中，我们利用代价函数（cost function）来求 θ ，在逻辑回归中仍然适用。

我们仍然采用之前的符号定义：

Coursera 机器学习（by Andrew Ng）课程学习笔记 Week 3——逻辑回归、过拟合与正则化_第6张图片

线性回归中，代价函数表达式为：

J(θ)=1m∑mi=112(hθ(x(i))−y(i))2

-
下面我们讨论逻辑回归，定义单个样本的代价：

Cost(hθ(x(i)),y(i))=12(hθ(x(i))−y(i))2

为了简化表达，可略去上标，即：

Cost(hθ(x),y)=12(hθ(x)−y)2

-
如果仍然像线性回归那样定义逻辑回归的代价函数 J(θ) ，则由于 hθ(x)=11+e−θTx ，导致 J(θ) 变成非凸函数，如下图，这就可能有很多局部最小值，用梯度下降法很难保证其收敛到全局最小值。

Coursera 机器学习（by Andrew Ng）课程学习笔记 Week 3——逻辑回归、过拟合与正则化_第7张图片

因此，在逻辑回归中，需要另寻一个代价函数，使其是凸函数（单弓形），如下图，这样就可以使用梯度下降法找到全局最小值。

Coursera 机器学习（by Andrew Ng）课程学习笔记 Week 3——逻辑回归、过拟合与正则化_第8张图片

我们选择如下的代价函数来表示单个样本的代价：

Coursera 机器学习（by Andrew Ng）课程学习笔记 Week 3——逻辑回归、过拟合与正则化_第9张图片

这个函数看起来很复杂。下面我们通过画出它的图像来解释选择它的原因。

1、当y=1， Cost(hθ(x),y) 关于 hθ(x) 的图像：

注意横坐标为 hθ(x) ，而 hθ(x) 的取值范围为 (0,−1) ，所以图像只取 (0,−1) 段。
我们可以看出，当 hθ(x)=1 ，则假设函数预测结果与事实一致， Cost=0 ；当 hθ(x)=0 ，则预测结果与事实不符， Cost=∞ ，说明要通过一个很大的代价 Cost→∞ 来惩罚学习算法。

2、当y=1， Cost(hθ(x),y) 关于 hθ(x) 的图像：

横坐标为 hθ(x) ，而 hθ(x) 的取值范围为 (0,−1) ，所以图像只取 (0,−1) 段。
同理，若 y=0 ，而 hθ(x)=1 ，将通过一个很大的代价 Cost→∞ 来惩罚学习算法。

以上说明在求解参数 θ 时，当选择合适的代价函数（代价函数转化为一个凸函数），我们就可以将问题转化为凸优化问题（convex optimization problem），方便我们求解全局最小值。

简化代价函数
为了方便书写和接下来的梯度下降，我们将上面代价函数的两个式子压缩为一个：

Cost(hθ(x),y)=−ylog(hθ(x))−(1−y)log(1−hθ(x))

由单个样本的代价函数，最终我们得到逻辑回归总的代价函数:

Coursera 机器学习（by Andrew Ng）课程学习笔记 Week 3——逻辑回归、过拟合与正则化_第12张图片

2.2 用梯度下降求解参数 θ

与线性回归相同，我们的目标是找到使代价函数 J(θ) 最小的参数 θ 。
回忆我们之前的梯度下降共公式：

Coursera 机器学习（by Andrew Ng）课程学习笔记 Week 3——逻辑回归、过拟合与正则化_第13张图片

将 ∂∂θjJ(θ) 代入，得到：

Coursera 机器学习（by Andrew Ng）课程学习笔记 Week 3——逻辑回归、过拟合与正则化_第14张图片

注意这里也要同时更新所有的 θ 值。

我们回忆之前所讲的线性回归中梯度下降的更新公式，你会发现，线性回归和逻辑回归的梯度下降更新公式是一样的。（视频中并未说明为什么，但是推导出的结果确实如此，推导过程可见这里）

但我们需要注意，两个公式中 hθ(x) 是不同的，线性回归中， hθ(x)=θTx ，而逻辑回归中， hθ(x)=11+e−θTx ，所以两者的梯度下降还是不同的。

梯度下降更新公式用向量表示（代码实现时常用到）：

Coursera 机器学习（by Andrew Ng）课程学习笔记 Week 3——逻辑回归、过拟合与正则化_第15张图片

我们之前所讲的梯度下降常见两个问题的解决方法以及特征缩放对于逻辑回归也是适用的，在此不再赘述。

2.3 高级优化

在编写代码时，我们需要写代码表示 J(θ) ， ∂∂θjJ(θ) ，但一般情况下我们只需要编写代码表示 ∂∂θjJ(θ) 将其代入更新公式就可以了，但如果你想要通过画 J(θ) 曲线图判断梯度下降是否正常工作或收敛，也可以编写 J(θ) 的代码。

逻辑回归找出最优的算法除了梯度下降外，还有其他一些高级优化算法例如共轭梯度，变尺度法(BFGS)，限制变尺度法(L-BFGS)等，这些高级优化算法不需人为选择学习率 α ，拥有比梯度下降更快的速度，但同时也更加复杂。

三、多分类问题：One vs all

这一部分我们主要讲一下如何用逻辑回归解决多类别分类问题。这里，我们采用一种“一对多”（one vs all）的分类算法。
举例，一个二类分类问题的数据集分布如下图左所示，一个多类分类问题的数据集分布如下图右所示（用不同的符号表示不同的类别）：

Coursera 机器学习（by Andrew Ng）课程学习笔记 Week 3——逻辑回归、过拟合与正则化_第16张图片

在之前所讲的二类分类问题中，我们可以使用逻辑回归用直线将数据集一分为二为正类和负类。那么我们如何用一对多（one vs all）的分类思想解决多分类问题？

用上图右数据集举例说明。图中数据一共有三类，我们可以将其转化为三个二分类问题。在每一个两类分类问题中，把待识别的类别当作正类别，其余合为一类作为负类别。如下图：

Coursera 机器学习（by Andrew Ng）课程学习笔记 Week 3——逻辑回归、过拟合与正则化_第17张图片

每一个类别拥有一个假设函数，故这里一共有3个假设函数：

h(i)θ(x)=P(y=i|x;θ)

相当于给每个类别单独训练一个逻辑回归分类器，用 h(i)θ(x) 去预测 y=i 的概率。给出一个新的 x ，我们取使h(i)θ(x)最大的 i 作为它的输出类别。

总结：

One vs all：
Train a logistic regression classifier h(i)θ(x) for each class to predict the probability that y=i .
To make a prediction on a new x , pick the class that maximizes h(i)θ(x)： maxi(h(i)θ(x))

四、过拟合（Overfitting）和正则化（Regularization）

前面我们已经讲了线性回归和逻辑回归，它们能够有效地解决许多问题，但当将它们应用于某些特定的机器学习应用时，我们会遇到过拟合问题（overfitting），会导致结果特别差。这一小节内容会为大家解释什么过拟合问题，并且介绍一种可以改善或减少过度拟合问题的技术——正则化技术（ regularization），。

4.1 过拟合（overfitting）

在利用训练数据拟合假设函数时，可能会有如下图三种情况：

① 欠拟合（underfitting）

欠拟合（underfitting）也称为高偏差（high bias）。即，拟合出的假设函数在训练数据集上不能很好地拟合数据， h(i)θ(x) 和 y 的偏差比较大，如下图（左为线性回归欠拟合，右为逻辑回归欠拟合）

② 适度拟合（just right）

即，拟合出的假设函数在训练数据集上能较好的反映输出和输入的关系，hθ(x)和y的偏差不大，如下图（左为线性回归适度拟合，右为逻辑回归适度拟合）

③ 过拟合（overfitting）

过拟合（overfitting）也称为高方差(high variance)。即，由于特征变量太多，导致学习到的假设函数太过适合于训练数据集，甚至J(θ)≈0，导致无法泛化（generalize）到新的数据样本，如下图（左为线性回归过拟合，右为逻辑回归过拟合）。
泛化能力：指一个假设模型能够应用于新样本（没有出现在训练集）的能力。

这（过拟合）对于训练数据集来说当然是好的，但我们的最终目的不是让假设函数完美适配训练数据，而是让它去预测新的问题。过拟合带来的问题是假设函数很精准地适配了训练数据，但是却无法泛化到新的例子，对新的输入无法很好地预测其输出。

当我们遇到过拟合（overfitting）问题时，我们应该如何解决呢？
前面通过绘制假设函数曲线我们可以选择合适的多项式阶次，但当特征变量变得很多时，画图本身就变得很难。这里给出两种规避过拟合的方法：

★ 减少特征变量的数量
我们可以人工选择保留或舍弃哪些变量，也可以通过模型选择算法（model selection algorithm）自动选择采用哪种特征变量。
★正则化（regularization）
即，保留所有特征变量，但要减小 θj 的数量级或值。

4.2 正则化（Regularization）

在前面过拟合的图示中假设函数 hθ(x)=θ0+θ1x1+θ2x2+θ3x3+θ4x4 ，这时会出现过拟合现象；如果我们想要消减 θ3x3 和 θ4x4 两项的影响，来避免过拟合，同时，我们不希望删去这两个特征变量或者说不改变假设函数的形式，那么我们可以在代价函数后添加惩罚项如下：

J(θ)=12m∑mi=1(hθ(x(i))−y(i))2+1000θ23+1000θ24

-
则在 minθJ(θ) 的任务中， θ3 , θ4 将会非常小（ →0 ），相当于没有后面两项，这样假设函数就近似于一个二次函数，就可以恰当的拟合数据集。

当有很多特征时，我们并不知道哪些项是关联度较小的项，无法像上面挑出 θ3 , θ4 那样提前挑出对应的 θ 参数以缩小它们。我们可以惩罚所有的参数，

J(θ)=12m[∑mi=1(hθ(x(i))−y(i))2+λ∑nj=1θ2j]

-
注意 j 从1开始，不惩罚 θ0 ， θ0 仍然可能是较大的。（在实践中即使加入 θ0 项，结果也只有非常小的差异）

λ∑nj=1θ2j 项称为正则化项， λ 称为正则化参数，它控制着正则化两个目标之间的平衡。

正则化的两个目标：

① 更好的拟合训练数据，使假设函数很好的适应训练集
② 保持 θ 参数值较小，避免过拟合

正则化参数 λ 的影响：

① λ 如果太小，则相当于正则化项没起到作用，无法控制过拟合；
② λ 如果太大，则除了 θ0 ，其余的参数都会约等于 0 ，相当于去掉了那些项，使hθ(x)=θ0，毫无疑问这会得不偿失地导致欠拟合。
（在之后的课程中我们会讲一些自动选择 λ 参数的算法。）

4.3 正则化在线性回归中的应用

对于线性回归的求解，我们之前推导了两种学习算法：一种基于梯度下降；一种基于正规方程。

带有正则化的梯度下降
为了惩罚除了 θ0 以外的所有参数，我们将梯度下降的公式修改为如下形式：

除 θ0 外， θj 的表达式中，中括号中的部分为对带有正则化项的代价函数 J(θ) 求偏导的结果。这个式子还可以写成下面的形式：

其中 (1−αλm)<1 ，当 α 很小，m很大时，相当于把 θj 向 0 压缩了一点点；后面一项 α1m∑mi=1(hθ(x(i))−y(i))x(i)j 与无正则化的线性回归梯度下降表达式中相应的项一致。这相当于我们只是将 θj 变小了一点点，然后执行和以前一样的更新。

带有正则化的正规方程
我们将输入输出用矩阵和向量表示出来：

X=⎡⎣⎢⎢⎢⎢⎢(x(1))T(x(2))T⋮(x(m))T⎤⎦⎥⎥⎥⎥⎥∈Rm×(n+1)，y=⎡⎣⎢⎢⎢⎢y1y2⋮ym⎤⎦⎥⎥⎥⎥∈Rm

原正规方程给出的求解 minθJ(θ) 的式子为：

θ=(XTX)−1XTy

如果加入正则化，则公式变为：

θ=(XTX+λ⋅L)−1XTy

其中，

L=⎡⎣⎢⎢⎢⎢⎢00⋮001⋮0⋯⋯⋱⋯00⋮1⎤⎦⎥⎥⎥⎥⎥

L 是一个对角线为0,1,1,1,⋯,1,其余全为 0 的(n+1)×(n+1)维矩阵。事实上，带有正则化的正规方程加上 (λ⋅L) 后，还可解决之前 XTX 不可逆的问题。

利用正则化，即使是在较小的数据集里有很多特征，也可以更好地进行线性回归。

4.4 正则化在逻辑回归中的应用

回忆我们之前讲的逻辑回归的代价函数：

我们可以通过在后面添加如下一项来进行正则化：

带有正则化的梯度下降：

注意，虽然这里，逻辑回归的正则化后梯度下降公式与线性回归相同，但由于假设函数不同，两者并不是一样的。

附：课后测试题答案

1、答案：C

2、答案：B

Java 大视界 -- Java 大数据机器学习模型在金融市场波动预测与资产配置动态调整中的应用（355）青云交大数据新视界 Java 大视界 java 大数据机器学习金融市场波动预测资产配置 LSTM
Java大视界--Java大数据机器学习模型在金融市场波动预测与资产配置动态调整中的应用（355））引言：正文：一、Java构建的金融数据处理架构1.1多源数据实时融合与清洗1.2跨市场数据关联（风险传导分析）二、Java驱动的市场波动预测模型2.1LSTM+随机森林融合预测（股市案例）2.2资产配置动态调整（风险预算模型）三、实战案例：从“被动亏损”到“主动盈利”3.1公募基金：加息波动中的1.
深入解析LoRA：低秩适应的高效大模型微调技术 Zhong Yang 大模型微调人工智能机器学习算法
1.背景与动机随着大语言模型（如GPT-3、Llama）的参数规模突破千亿级，传统全参数微调面临三大挑战：显存爆炸：微调70B模型需数千GB显存（如Llama-270B全微调需1.2TB显存）计算成本：全参数微调的计算量随模型规模呈二次增长过拟合风险：大规模模型对少量下游数据易产生过拟合LoRA（Low-RankAdaptation）由微软研究院提出，通过低秩矩阵分解技术，将微调参数量压缩至原模型
机器学习—交叉验证 hwang_zhic
1、经验误差与过拟合通常我们把分类错误的样本数占样本总数的比例称为"错误率”，学习器在训练集上的误差称为“经验误差”或“训练误差”，在新样本上的误差称为“泛化误差”。我们需要的是泛化误差低的学习器，但是我们只能习得一个经验误差很小、在训练集上表现很好的学习器。然而，如果学习器把训练样本的自身的一些特点当做了所有潜在样本都具有的一般性质，会导致泛化性能下降，这称为“过拟合”，相对的“欠拟合”是指对样
PyTorch深度学习工具箱整理总结前网易架构师-高司机深度学习+AI pytorch
一、pytorch简介Pytorch是torch的python版本，是由Facebook开源的神经网络框架，专门针对GPU加速的深度神经网络（DNN）编程。Torch是一个经典的对多维矩阵数据进行操作的张量（tensor）库，在机器学习和其他数学密集型应用有广泛应用。与Tensorflow的静态计算图不同，pytorch的计算图是动态的，可以根据计算需要实时改变计算图。但由于Torch语言采用Lu
计算机毕业设计——springboot的准妈妈孕期交流平台
**欢迎来到琛哥的技术世界！**博主小档案：琛哥，一名来自世界500强的资深程序猿，毕业于国内知名985高校。技术专长：琛哥在深度学习任务中展现出卓越的能力，包括但不限于java、python等技术。近年来，琛哥更是将触角延伸至AI领域，对于机器学习、自然语言处理、智能推荐等前沿技术都有独到的见解和实践经验。博客亮点：琛哥坚信“授人以渔胜于授人以鱼”，因此我的博客中，你不仅可以找到关于技术的深入解
Python机器学习：从零基础到项目实战 Yuner2000 Python 机器学习人工智能
目录第一部分：思想与基石——万法归宗，筑基问道第1章：初探智慧之境——机器学习世界观1.1何为学习？从人类学习到机器智能1.2机器学习的“前世今生”：一部思想与技术的演进史1.3为何是Python？——数据科学的“通用语”1.4破除迷思：AI是“神”还是“器”？第2章：工欲善其事——Python环境与核心工具链2.1“乾坤在握”：Anaconda与JupyterNotebook的安装与配置2.2“
数据集标准化:软件2.0的基石工程 AI大模型应用之禅 java python javascript kotlin golang 架构人工智能
数据集标准化,软件工程,数据质量,机器学习,人工智能,数据治理,数据可信度1.背景介绍在当今数据爆炸的时代，数据已成为企业和组织的核心资产。然而，海量的原始数据往往杂乱无章，格式不统一，质量参差不齐，这严重阻碍了数据价值的挖掘和应用。数据标准化作为解决这一问题的关键技术，已成为软件2.0时代不可或缺的基石工程。软件2.0时代，人工智能、机器学习等技术蓬勃发展，对数据质量提出了更高的要求。传统的软件
Day9: OpenCV学习（一）—— 图像基础
系列文章目录上一篇：Day8：Python工程化——模块、包文章目录系列文章目录前言一、安装和导入1.安装二、图像认识1.图像2.图像分类三、基础图像操作1.图像读取2.图像显示3.图像裁剪4.图形尺寸修改5.图像保存6.图像绘制7.视频捕获即显示总结前言OpenCV（OpenSourceComputerVisionLibrary）是一个开源的计算机视觉和机器学习软件库。由一系列C++类和函数构成
Python 现代时间序列预测第二版（五）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/22eab741fce9c15dfad894ecf37bdd51译者：飞龙协议：CCBY-NC-SA4.0第十七章：概率预测及更多在整本书中，我们学习了生成预测的不同技术，包括一些经典方法，使用机器学习以及一些深度学习架构。但我们一直在关注一种典型的预测问题——为连续时间序列生成点预测，并且没有层级关系且历史数据足够丰富。我们之所以这样做，是因为这
云服务器性能优化全攻略：CPU、内存、磁盘IO调优实战 Gloria歌洛莉亚 c语言数据库服务器 python 性能优化
在云计算时代，服务器性能直接影响应用响应速度、用户体验和运营成本。无论是高并发网站、实时数据分析还是机器学习训练，优化云服务器性能都是开发者必须掌握的核心技能。本攻略将从CPU调度、内存管理、磁盘IO三个维度，结合Linux系统特性和实际场景，提供可落地的优化方案。一、CPU性能调优：从调度策略到并行计算1.1CPU资源监控与瓶颈定位实时监控工具：top-c#动态查看进程CPU占用（按P键按CPU
AI 驱动自动化运维平台架构与实现大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 算法机器学习人工智能决策树大数据
摘要：随着云计算、容器化和大规模分布式系统的普及，传统人工运维方法已难以满足现代IT环境中海量指标、日志和拓扑关系的实时分析与故障响应需求。AI驱动的自动化运维（AIOps）平台通过融合机器学习、深度学习、图分析以及强化学习等多学科技术，实现对海量运维数据的智能感知、预测、诊断和自动化修复。本文深入探讨AI驱动自动化运维平台的整体架构设计与核心技术实现，涵盖数据采集与预处理、AI引擎设计、自动化执
开源模型应用落地-qwen模型小试-Qwen2.5-7B-Instruct-玩转ollama（一）开源技术探险家开源模型-实际应用落地 #深度学习自然语言处理语言模型
一、前言在AI大模型百花齐放的时代，很多人都对新兴技术充满了热情，都想尝试一下。然而，实际上要入门AI技术的门槛非常高。除了需要高端设备，还需要面临复杂的部署和安装过程，这让很多人望而却步。在这样的背景下，Ollama的出现为广大开发者和爱好者提供了一条便捷的道路，极大地降低了应用机器学习的门槛。Ollama的优势在于其极致的简化。通过这个平台，用户可以轻松下载、运行和管理各种机器学习模型，而无需
机器学习之——认识机器学习 -睡到自然醒~ golang 重构开发语言
首先，什么是机器学习？参照百度百科的讲解，“机器学习是一门多领域交叉学科，设计概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习能力，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。”什么意思呢？也就是说，机器学习是一门跨领域的学科，是一种能够让机器模仿人类学习能力的一种学科。在Andrew的课程中，提到了几个机器学习的定义：1，A
Epoch 老兵发新帖人工智能
在深度学习和机器学习中，Epoch（轮次或周期）是一个核心训练概念，指模型在整个训练数据集上完成一次完整遍历的过程。以下是关于Epoch的详细解析：一、核心定义基本含义Epoch表示模型将所有训练数据完整学习一次的过程。例如：若训练集有10,000个样本，则1个Epoch即模型用这10,000个样本训练一轮。与相关概念的关系Batch（批次）：数据集被分割成的小组（如每批32个样本）。Iterat
Python --- day 10 Opencv模块的使用 AnAn__kang python opencv 开发语言
系列文章目录前言今天博主带大家进入Opencv的学习，这是一个专门针对处理图像和视频的一个模块，大家以理解为主，增强自己的编程思维，再后续我们训练模型时会大批量的处理图片时会经常用到这个模块。1OpenCV介绍OpenCV（开放源代码计算机视觉库）是一个开源的计算机视觉和机器学习软件库。由一系列C++类和函数构成，用于图像处理、计算机视觉领域的算法实现。1.1OpenCV优势**开源免费：**完全
机器学习数据预处理阶段为什么需要——归一化处理
参考：https://www.cnblogs.com/bjwu/p/8977141.html通常，在DataScience中，预处理数据有一个很关键的步骤就是数据的标准化。这里主要引用sklearn文档中的一些东西来说明，主要把各个标准化方法的应用场景以及优缺点总结概括，以来充当笔记。提升模型精度在机器学习算法的目标函数(例如SVM的RBF内核或线性模型的l1和l2正则化)，许多学习算法中目标函数
车辆云端威胁情报共享系统的多维解析与发展路径百态老人大数据人工智能
第一部分：内容本质提取原始内容描述了一个闭环网络安全体系：“车辆实时上传异常行为日志至安全运营中心（VSOC），云端通过机器学习分析攻击模式并下发全局防御策略”。其核心架构包含：数据采集层：车辆端持续收集异常行为日志数据，包含CAN总线通信模式、网络流量特征及驾驶行为数据传输层：通过V2X通信协议和OTA更新通道实现车云双向通信分析层：安全运营中心(VSOC)采用CNN-BiSRU等深度学习模型进
过拟合、欠拟合及其解决方案；梯度消失、梯度爆炸；循环神经网络进阶 Ryan_sz1
1、过拟合、欠拟合及其解决方案过拟合、欠拟合机器学习或者训练深度神经网络的时候经常会出现欠拟合和过拟合这两个问题，但是，一开始我们的模型往往是欠拟合的，也正是因为如此才有了优化的空间，我们需要不断的调整算法来使得模型的表达能拿更强。但是优化到了一定程度就需要解决过拟合的问题了。也就是说欠拟合是模型表达能力不够，达不到很好的表达效果。而过拟合是在训练集的范围内表达能力过强，导致完全拟合了训练集。解决
数字人系统：AI界的超级巨星，你准备好了吗？优秘智能UMI 数字人人工智能深度学习计算机视觉机器学习自然语言处理语言模型图像处理
在这个日新月异的科技时代，每一个创新的火花都可能点燃一场变革的燎原之火。今天，我们要聊的，正是那颗在AI领域熠熠生辉的璀璨新星——优秘数字人系统。它不仅仅是技术的飞跃，更是对未来生活方式的深刻重塑，一场关于人机交互、智能共生的美好预演。技术原理：深度解析与智能构建的奥秘1.深度学习：智能的基石数字人系统的核心技术之一在于深度学习。深度学习是一种模仿人脑神经网络结构和功能的机器学习技术，通过构建多层
聚焦基础研究突破，北电数智联合复旦大学等团队提出“AI安全”DDPA方法入选ICML CSDN资讯人工智能安全数据要素大数据
近日，由北电数智首席科学家窦德景教授牵头，联合复旦大学和美国奥本大学等科研团队共同研发，提出一种DDPA（DynamicDelayedPoisoningAttack）新型对抗性攻击方法，为机器学习领域的安全研究提供新视角与工具，相关论文已被国际机器学习大会（ICML2025）收录。ICML由国际机器学习学会（IMLS）主办，聚焦深度学习、强化学习、自然语言处理等机器学习前沿方向，是机器学习与人工智
阿里云态势感知和安骑士有什么区别？阿腾云
阿里云态势感知和安骑士均是阿里云云盾安全产品，态势感知属于安全管理类的产品，安骑士数据服务器安全类产品，阿里云百科网来详细说下阿里云态势感知和安骑士之间的区别：态势感知和安骑士的区别简单来说，安骑士是检测云服务器漏洞的，态势感知提供安全类的大数据分析服务。态势感知：安全大数据分析平台，通过机器学习和结合全网威胁情报，发现传统防御软件无法覆盖的网络威胁，溯源攻击手段、并且提供可行动的解决方案。安骑士
「日拱一码」035 机器学习——调参过程可视化胖达不服输「日拱一码」机器学习人工智能调参过程可视化神经网络 python 模型可解释性
目录超参数搜索的3D曲面可视化交互式3D可视化神经网络学习率的3D可视化SVM超参数的3D决策边界可视化超参数优化的3D动画超参数搜索的3D曲面可视化##超参数搜索的3D曲面可视化importnumpyasnpimportmatplotlib.pyplotaspltfrommpl_toolkits.mplot3dimportAxes3Dfromsklearn.datasetsimportmake_
数据质量是机器学习项目的核心痛点，AI技术能提供智能化解决方案。 zzywxc787 python pandas numpy 人工智能自动化运维 AI编程
一、数据质量诊断系统（Python实现）importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.clusterimportKMeansfromsklearn.ensembleimportIsolationForestfromtensorflow.keras.modelsimportSequentialfromte
7.机器学习-十大算法之一拉索回归（Lasso）算法原理讲解以山河作礼。 #机器学习算法机器学习算法回归
7.机器学习-十大算法之一拉索回归（Lasso）算法原理讲解一·摘要二·个人简介三·前言四·原理讲解五·算法流程六·代码实现6.1坐标下降法6.2最小角回归法七·第三方库实现7.1scikit-learn实现（坐标下降法）：7.2scikit-learn实现（最小角回归法）：一·摘要拉索回归（LassoRegression）是一种线性回归的正则化形式，它通过引入L1范数惩罚项来实现模型的稀疏性，从
机器学习算法之回归算法福葫芦机器学习回归算法
一、回归算法思维导图二、算法概念、原理、应用场景和实例代码1、线性回归1.1、概念‌‌线性回归算法是一种统计分析方法，用于确定两种或两种以上变量之间的定量关系。‌线性回归算法通过建立线性方程来预测因变量（y）和一个或多个自变量（x）之间的关系。其基本形式为y=wx+e，其中w是权重，x是自变量，e是误差项。1.2、算法原理线性回归算法的核心在于找到最佳的拟合直线，使得预测值与实际值之间的误差最小。
7篇1章7节：机器学习算法解读，与数值预测回归模型构建 MD分析用R探索医药数据科学机器学习算法回归 r语言数据挖掘
机器学习是当今数据分析和人工智能的核心工具之一，其算法广泛应用于分类、回归、排序和推荐等领域。本篇将详细讲解机器学习的四大经典算法类型，并以回归问题为例深入探讨数值预测的关键步骤，包括数据准备、线性回归模型构建、模型预测及误差评估，帮助读者更系统地理解和掌握机器学习的基础知识及实际应用。一、机器学习的算法在数据科学和人工智能的浪潮中，机器学习算法成为了解决各种数据问题的关键工具。机器学习主要处理四
基于逻辑回归的图像二分类算法实现（Pytorch版）哎呦哥哥、图像分类 pytorch 逻辑回归分类
基于逻辑回归的图像二分类算法实现（Pytorch版）数据集模型代码数据集链接：FastFoodClassificationDataset我们只使用Burger和Pizza这两类。模型代码importtorchimporttorch.nnasnnfromtorchvision.models.utilsimportload_state_dict_from_urlmodel_urls={'resnet5
支持向量机SVM 李昊哲小课 sklearn 人工智能机器学习支持向量机算法机器学习 sklearn 人工智能数据挖掘
支持向量机SVM一、支持向量机算法支持向量机（SupportVectorMachine，SVM）是一种用于分类和回归分析的机器学习算法。分类场景举例（更容易理解）假设现在有一个二维平面上散落着一些点，这些点分为两类，一类是红色的圆形点，另一类是蓝色的方形点。我们的任务就是找到一条直线，能够把这两类点尽可能准确地分开。支持向量机算法做的事情就和这个类似。算法核心思想它不是随便找一条能分开两类数据的直
高斯混合模型（GMM）中的协方差矩阵类型与聚类形状关系详解码字的字节机器学习机器学习人工智能高斯混合模型 GMM
高斯混合模型（GMM）简介高斯混合模型（GaussianMixtureModel,GMM）是概率统计与机器学习交叉领域的重要模型，其核心思想是通过多个高斯分布的线性组合来描述复杂数据分布。与单一高斯分布不同，GMM能够捕捉数据中的多模态特性，这使得它在处理真实世界非均匀分布数据时展现出独特优势。从数学形式上看，一个包含K个分量的GMM可表示为：其中(\pi_k)是第k个高斯分量的混合系数（满足(\
机器学习初学者理论初解 Mikhail_G 机器学习人工智能
大家好!为什么手机相册能自动识别人脸？为什么购物网站总能推荐你喜欢的商品？这些“智能”背后，都藏着一位隐形高手——机器学习（MachineLearning）。一、什么是机器学习？简单说，机器学习是教计算机从数据中自己找规律的技术。就像教孩子认猫：不是直接告诉他“猫有尖耳朵和胡须”，而是给他看100张猫狗照片，让他自己总结出猫的特征。传统程序vs机器学习传统程序：输入规则+数据→输出结果（例：按“温
C/C++Win32编程基础详解视频下载择善Zach 编程 C++Win32
课题视频：C/C++Win32编程基础详解视频知识：win32窗口的创建 windows事件机制主讲：择善Uncle老师学习交流群：386620625 验证码：625 --
Guava Cache使用笔记 bylijinnan java guava cache
1.Guava Cache的get/getIfPresent方法当参数为null时会抛空指针异常我刚开始使用时还以为Guava Cache跟HashMap一样，get(null)返回null。实际上Guava整体设计思想就是拒绝null的，很多地方都会执行com.google.common.base.Preconditions.checkNotNull的检查。 2.Guava
解决ora-01652无法通过128（在temp表空间中） 0624chenhong oracle
解决ora-01652无法通过128（在temp表空间中）扩展temp段的过程一个sql语句后，大约花了10分钟，好不容易有一个结果，但是报了一个ora-01652错误，查阅了oracle的错误代码说明：意思是指temp表空间无法自动扩展temp段。这种问题一般有两种原因：一是临时表空间空间太小，二是不能自动扩展。分析过程：既然是temp表空间有问题，那当
Struct在jsp标签不懂事的小屁孩 struct
非UI标签介绍：控制类标签： 1：程序流程控制标签 if elseif else <s:if test="isUsed"> <span class="label label-success">True</span> </
按对象属性排序换个号韩国红果果 JavaScript 对象排序
利用JavaScript进行对象排序，根据用户的年龄排序展示 <script> var bob={ name;bob, age:30 } var peter={ name;peter, age:30 } var amy={ name;amy, age:24 } var mike={ name;mike, age:29 } var john={
大数据分析让个性化的客户体验不再遥远蓝儿唯美数据分析
顾客通过多种渠道制造大量数据，企业则热衷于利用这些信息来实现更为个性化的体验。分析公司Gartner表示，高级分析会成为客户服务的关键，但是大数据分析的采用目前仅局限于不到一成的企业。挑战在于企业还在努力适应结构化数据，疲于根据自身的客户关系管理（CRM）系统部署有效的分析框架，以及集成不同的内外部信息源。然而，面对顾客通过数字技术参与而产生的快速变化的信息，企业需要及时作出反应。要想实
java笔记4 a-john java
操作符 1，使用java操作符操作符接受一个或多个参数，并生成一个新值。参数的形式与普通的方法调用不用，但是效果是相同的。加号和一元的正号（+）、减号和一元的负号（-）、乘号（*）、除号（/）以及赋值号（=）的用法与其他编程语言类似。操作符作用于操作数，生成一个新值。另外，有些操作符可能会改变操作数自身的
从裸机编程到嵌入式Linux编程思想的转变------分而治之：驱动和应用程序 aijuans 嵌入式学习
笔者学习嵌入式Linux也有一段时间了，很奇怪的是很多书讲驱动编程方面的知识，也有很多书将ARM9方面的知识，但是从以前51形式的（对寄存器直接操作，初始化芯片的功能模块）编程方法，和思维模式，变换为基于Linux操作系统编程，讲这个思想转变的书几乎没有，让初学者走了很多弯路，撞了很多难墙。笔者因此写上自己的学习心得，希望能给和我一样转变
在springmvc中解决FastJson循环引用的问题 asialee 循环引用 fastjson
我们先来看一个例子： package com.elong.bms; import java.io.OutputStream; import java.util.HashMap; import java.util.Map; import co
ArrayAdapter和SimpleAdapter技术总结百合不是茶 android SimpleAdapter ArrayAdapter 高级组件基础
ArrayAdapter比较简单，但它只能用于显示文字。而SimpleAdapter则有很强的扩展性，可以自定义出各种效果 ArrayAdapter;的数据可以是数组或者是队列 // 获得下拉框对象 AutoCompleteTextView textview = (AutoCompleteTextView) this
九封信 bijian1013 人生励志
有时候，莫名的心情不好，不想和任何人说话，只想一个人静静的发呆。有时候，想一个人躲起来脆弱，不愿别人看到自己的伤口。有时候，走过熟悉的街角，看到熟悉的背影，突然想起一个人的脸。有时候，发现自己一夜之间就长大了。 2014，写给人
Linux下安装MySQL Web 管理工具phpMyAdmin sunjing PHP Install phpMyAdmin
PHP http://php.net/ phpMyAdmin http://www.phpmyadmin.net Error compiling PHP on CentOS x64 一、安装Apache 请参阅http://billben.iteye.com/admin/blogs/1985244 二、安装依赖包 sudo yum install gd
分布式系统理论 bit1129 分布式
FLP One famous theory in distributed computing, known as FLP after the authors Fischer, Lynch, and Patterson, proved that in a distributed system with asynchronous communication and process crashes,
ssh2整合(spring+struts2+hibernate)-附源码白糖_ eclipse spring Hibernate mysql 项目管理
最近抽空又整理了一套ssh2框架，主要使用的技术如下： spring做容器，管理了三层(dao,service,actioin)的对象 struts2实现与页面交互(MVC)，自己做了一个异常拦截器，能拦截Action层抛出的异常 hibernate与数据库交互 BoneCp数据库连接池，据说比其它数据库连接池快20倍，仅仅是据说 MySql数据库项目用eclipse
treetable bug记录 braveCS table
// 插入子节点删除再插入时不能正常显示。修改： //不知改后有没有错，先做个备忘 Tree.prototype.removeNode = function(node) { // Recursively remove all descendants of +node+ this.unloadBranch(node); // Remove
编程之美-电话号码对应英语单词 bylijinnan java 算法编程之美
import java.util.Arrays; public class NumberToWord { /** * 编程之美电话号码对应英语单词 * 题目： * 手机上的拨号盘，每个数字都对应一些字母，比如2对应ABC，3对应DEF.........，8对应TUV，9对应WXYZ， * 要求对一段数字，输出其代表的所有可能的字母组合
jquery ajax读书笔记 chengxuyuancsdn jQuery ajax
1、jsp页面 <%@ page language="java" import="java.util.*" pageEncoding="GBK"%> <% String path = request.getContextPath(); String basePath = request.getScheme()
JWFD工作流拓扑结构解析伪码描述算法 comsci 数据结构算法工作活动 J#
对工作流拓扑结构解析感兴趣的朋友可以下载附件，或者下载JWFD的全部代码进行分析 /* 流程图拓扑结构解析伪码描述算法 public java.util.ArrayList DFS(String graphid, String stepid, int j)
oracle I/O 从属进程 daizj oracle
I/O 从属进程　　I/O从属进程用于为不支持异步I/O的系统或设备模拟异步I/O.例如，磁带设备(相当慢)就不支持异步I/O.通过使用I/O 从属进程，可以让磁带机模仿通常只为磁盘驱动器提供的功能。就好像支持真正的异步I/O 一样，写设备的进程(调用者)会收集大量数据，并交由写入器写出。数据成功地写出时，写入器(此时写入器是I/O 从属进程，而不是操作系统)会通知原来的调用者，调用者则会
高级排序:希尔排序 dieslrae 希尔排序
public void shellSort(int[] array){ int limit = 1; int temp; int index; while(limit <= array.length/3){ limit = limit * 3 + 1;
初二下学期难记忆单词 dcj3sjt126com english word
kitchen 厨房 cupboard 厨柜 salt 盐 sugar 糖 oil 油 fork 叉；餐叉 spoon 匙；调羹 chopsticks 筷子 cabbage 卷心菜；洋白菜 soup 汤 Italian 意大利的 Indian 印度的 workplace 工作场所 even 甚至；更 Italy 意大利 laugh 笑 m
Go语言使用MySQL数据库进行增删改查 dcj3sjt126com mysql
目前Internet上流行的网站构架方式是LAMP，其中的M即MySQL, 作为数据库，MySQL以免费、开源、使用方便为优势成为了很多Web开发的后端数据库存储引擎。MySQL驱动Go中支持MySQL的驱动目前比较多，有如下几种，有些是支持database/sql标准，而有些是采用了自己的实现接口,常用的有如下几种: http://code.google.c...o-mysql-dri
git命令 shuizhaosi888 git
---------------设置全局用户名： git config --global user.name "HanShuliang" //设置用户名 git config --global user.email "[email protected]" //设置邮箱 ---------------查看环境配置 git config --li
qemu-kvm 网络 nat模式 (四) haoningabc kvm qemu
qemu-ifup-NAT #!/bin/bash BRIDGE=virbr0 NETWORK=192.168.122.0 GATEWAY=192.168.122.1 NETMASK=255.255.255.0 DHCPRANGE=192.168.122.2,192.168.122.254 TFTPROOT= BOOTP= function check_bridge()
不要让未来的你，讨厌现在的自己 jingjing0907 生活奋斗工作梦想
故事one 　23岁，他大学毕业，放弃了父母安排的稳定工作，独闯京城，在家小公司混个小职位，工作还算顺手，月薪三千，混了混，混走了一年的光阴。　　　　24岁，有了女朋友，从二环12人的集体宿舍搬到香山民居，一间平房，二人世界，爱爱爱。偶然约三朋四友，打扑克搓麻将，日子快乐似神仙；　　　　25岁，出了几次差，调了两次岗，薪水涨了不过百，生猛狂飙的物价让现实血淋淋，无力为心爱银儿购件大牌
枚举类型详解一路欢笑一路走 enum 枚举详解 enumset enumMap
枚举类型详解一.Enum详解 1.1枚举类型的介绍 JDK1.5加入了一个全新的类型的”类”—枚举类型，为此JDK1.5引入了一个新的关键字enum,我们可以这样定义一个枚举类型。 Demo:一个最简单的枚举类 public enum ColorType { RED
第11章动画效果（上） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Eclipse中jsp、js文件编辑时，卡死现象解决汇总 ljf_home eclipse jsp卡死 js卡死
使用Eclipse编辑jsp、js文件时，经常出现卡死现象，在网上百度了N次，经过N次优化调整后，卡死现象逐步好转，具体那个方法起到作用，不太好讲。将所有用过的方法罗列如下： 1、取消验证 windows–>perferences–>validation 把除了manual 下面的全部点掉，build下只留 classpath dependency Valida
MySQL编程中的6个重要的实用技巧 tomcat_oracle mysql
每一行命令都是用分号(;)作为结束对于MySQL，第一件你必须牢记的是它的每一行命令都是用分号(;)作为结束的，但当一行MySQL被插入在PHP代码中时，最好把后面的分号省略掉，例如： mysql_query("INSERT INTO tablename(first_name,last_name)VALUES('$first_name',$last_name')");
zoj 3820 Building Fire Stations(二分+bfs) 阿尔萨斯 Build
题目链接：zoj 3820 Building Fire Stations 题目大意：给定一棵树，选取两个建立加油站，问说所有点距离加油站距离的最大值的最小值是多少，并且任意输出一种建立加油站的方式。解题思路：二分距离判断，判断函数的复杂度是o(n)，这样的复杂度应该是o(nlogn)，即使常数系数偏大，但是居然跑了4.5s，也是醉了。判断函数里面做了3次bfs，但是每次bfs节点最多

Coursera 机器学习（by Andrew Ng）课程学习笔记 Week 3——逻辑回归、过拟合与正则化

一、Classification and Representation

1.1 分类问题（classification）

1.2 逻辑回归的假设函数 hθ(x) 的定义

1.3 决策边界（Decision Boundary）

二、逻辑回归（Logistic Regression）

2.1 逻辑回归的代价函数

2.2 用梯度下降求解参数 θ

2.3 高级优化

三、多分类问题：One vs all

四、过拟合（Overfitting）和正则化（Regularization）

4.1 过拟合（overfitting）

4.2 正则化（Regularization）

4.3 正则化在线性回归中的应用

4.4 正则化在逻辑回归中的应用

你可能感兴趣的:(机器学习,机器学习,正则化,逻辑回归,过拟合)