qq_28264857

第一章线性回归 Linear Regression

1 什么是回归

1.1 回归概念的来源

“回归”是由英国著名生物学家兼统计学家高尔顿(Francis Galton,1822～1911.生物学家达尔文的表弟)在研究人类遗传问题时提出来的。为了研究父代与子代身高的关系，高尔顿搜集了1078对父亲及其儿子的身高数据。他发现这些数据的散点图大致呈直线状态，也就是说，总的趋势是父亲的身高增加时，儿子的身高也倾向于增加。但是，高尔顿对试验数据进行了深入的分析，发现了一个很有趣的现象—回归效应。因为当父亲高于平均身高时，他们的儿子身高比他更高的概率要小于比他更矮的概率；父亲矮于平均身高时，他们的儿子身高比他更矮的概率要小于比他更高的概率。它反映了一个规律，即这两种身高父亲的儿子的身高，有向他们父辈的平均身高回归的趋势。对于这个一般结论的解释是:大自然具有一种约束力，使人类身高的分布相对稳定而不产生两极分化，这就是所谓的回归效应。

1.2 机器学习中的回归

样本 S(i)（x(i)，y(i)），如房价的样本， x 表示局势数，y表示价格。
如果样本中， y 是连续的，我们叫做回归；如果y是离散的，我们叫做分类。
在机器学习中，只要说到回归，就是指样本中 y 是连续的。

2 线性回归

2.1 单变量的情形

如图1所示的x轴为房屋面积，y轴为房屋价格。
模型为：y=ax+b
通过样本，我们可以得出参数a，b。

2.2 多变量的情形

如上图2所示，现在考虑两个因素对价格的影响，居室面积和居室数量。
模型为：

$h θ (x) = θ 0 + θ 1 x 1 + θ 2 x 2$
$h θ (x) = \sum i = 0 n θ i x i = θ T x$
同样，样本 x 是已知的，而参数θ是未知的，我们要求的是参数θ。

2.3 误差服从高斯分布

根据公式，我们求出的估计值ŷ (i)。而估计值 ŷ (i) 和真实值 y(i) 之间会有一个 ε(i) 。
根据中心极值定理， ε(i) 服从正态分布，也就是高斯分布。服从均值为0，方差为 σ2 。
记做： ε ~ N(0,σ2)
由此得出似然函数：

$y (i) = θ T x (i) + ε (i)$

2.4 中心极值定理

在实际问题中，很多随机现象可以看作众多因素的独立影响的综合反应，往往近似服从正态分布。
如：城市耗电量，大量用户的耗电量总和。
测量误差，许多观察不到的，微小误差的总和。
注：应用前提是多个随机变量的和，有些问题是乘性误差，则需要鉴别或取对数后再使用

3 最大似然估计MLE

3.1 根据似然函数，求出L(θ)

根据似然函数， y(i)=θTx(i)+ε(i) ,又根据 ε ~ N(0,σ2) 。根据正态分布的概率密度，可以推导出：

3.2 高斯的对数似然

因为此时 L(θ) 为连乘。为了得到相加的结果，将 L(θ) 取对数。推导过程如下图：

此时的目标函数就成了 J(θ) ,此时 hθ(x(i)) 为估计值， y(i) 为真实值。
最终求其最小值。

3.3 向量的倒数

将M个N维样本组成矩阵 X ：
X的每一行对应一个样本，M个样本； X 的每一列对应样本的一个维度，共N维；还有一个维度常数项，全为1。

标量对向量的导数：

3.4 θ的解析式的求解过程
1、目标函数

$J (θ) = 1 2 \sum i = 1 m (h θ (x (i)) - y (i)) 2 = 1 2 (X θ - y) T (X θ - y)$
2、梯度

3、参数 θ 的解析式为
$θ = (X T X) - 1 X T y$
此时， XTX 可逆。
4、加入 λ 扰动
若 XTX 不可逆或者过拟合，增加 λ 扰动
$θ = (X T X + λ I) - 1 X T y$
因为 XTX 是半正定阵，因此对于任意非零向量 u ，
$u T X T X u = (X u) T X u - \to - - - - 令 v = X u v T v \geq 0$
所以，对于任意实数 λ>0 , XTX+λI 为正定，从而可逆。由此保证了回归公式有意义。
$θ = (X T X + λ I) - 1 X T y$
5、正定阵
对于n阶方阵A，若任意n阶向量x，都有 xTAx>0 ，则称A是正定阵。
若条件变成了 xTAx≥0 ，则A称作半正定阵。
类似还有负定阵，半负定阵。
6、过拟合
overfitting一般在描述统计学模型随机误差或噪音时用到。它通常发生在模型过于复杂的情况下，如参数过多等。overfitting会使得模型的预测性能变弱，并且增加数据的波动性。
一般来说，如到了8阶以后，参数过大，震荡厉害。我们不希望参数 (θ0,θ1,θ2......θn) 过大。

4 线性回归的复杂度惩罚因子

4.1 增加损失函数

1、目标函数：

$J (θ) = 1 2 \sum i = 1 m (h θ (x (i)) - y (i)) 2$
2、加入增加平方和损失
为了使得参数（θ0，θ1，θ2…..θn）不至于过大，将目标函数增加平方和损失。我们机器学习中，几乎是所有机器学习的办法，就是将参数的平方加起来。
$J (θ ⃗) = 1 2 \sum i = 1 m (h θ ⃗ (x (i)) - y (i)) 2 + λ \sum j = 1 n θ 2 j$

4.2 正则项和防过拟合

L2-norm，Ridge：

$J (θ ⃗) = 1 2 \sum i = 1 m (h θ ⃗ (x (i)) - y (i)) 2 + λ \sum j = 1 n θ 2 j$
L2-norm，LASSO：
$J (θ ⃗) = 1 2 \sum i = 1 m (h θ ⃗ (x (i)) - y (i)) 2 + λ \sum j = 1 n ∣ ∣ θ j ∣ ∣$
Elastic Net：
$J (θ ⃗) = 1 2 \sum i = 1 m (h θ ⃗ (x (i)) - y (i)) 2 + λ ⎛ ⎝ ⎜ ⎜ ρ \sum j = 1 n ∣ ∣ θ j ∣ ∣ + （ 1 - ρ ） \sum j = 1 n θ 2 j ⎞ ⎠ ⎟ ⎟$

4.3 ridge回归，和LASSO有什么区别，有什么优势和劣势

1、如果给定一个指标，如 R2 损失，精确度λ等，选用Ridge，效果好。Ridge要比LASSO性能指标上要好。
2、LASSO具有稀疏性，可以做特征选择。
3、举例，通过下图，可以看出LASSO将后面的数值很小，起到了特征选择的作用。

4、稀疏性是指找到重要的信息。如果参数超过一个定值就不再使用。
5、形式化表示

第一个是LASSO，第二个是Ridge。
将 J(θ)=(Xθ−y)T(Xθ−y) ,看作两维 w1 和 w2 。从图中可以看出是一个等高线，是因为二元高斯分布，二者不同处，高斯分布中央点是最大的，我们这个图是最小的。
LASSO的方程是 ∣∣w1∣∣+∣∣w2∣∣=c ，Ridge的方程是 (w1)2+(w2)2=c 。
LASSO会在坐标轴上取到最值（0， w2A ）,而Ridge的最值会在相切处，就无法选择特征值。

通过这幅图可以很明显的看出岭回归和lasso之间的差异。图中是两个变量回归的情况，等高线图表示的是残差平方和的等高线。残差在最小二乘估计处最小。阴影部分分别是岭回归和lasso的限制区域。显然圆形为岭回归，菱形为lasso的。这两种带有惩罚项的方法都是要找到第一个落到限制区域上的等高线的那个位置的坐标（即岭估计和lasso估计）。因为菱形带尖角，所以更有可能使得某个变量的系数为0（即所找到的第一个点是菱形四个顶点之一）。当回归变量增多时，lasso的尖角也会变得更多，从而增大更多系数变0的可能性。而光滑的高维球面的显然不可能有这样的概率。这也就是说lasso可以用于变量选择。这是lasso相较于Ridge有优势的一点。

5 机器学习与数据使用

5.1 数据的使用

1、根据训练数据（x,y），可得出 θ 。
2、测试数据，用来测试模型，如SVM、决策树等。模型哪个好，是由测试数据决定的。
3、如果有 λ ,验证数据决定了 λ 。

5.2 如何确定 λ

通过同一个数据进行训练，
λ=0.01=>Q0.01,f(Q0.01,0.01)=>0.10
λ=0.05=>Q0.05,f(Q0.05,0.05)=>0.08
λ=1=>Q0.01,f(Q1,1)=>0.04 —最小最好
λ=5=>Q0.01,f(Q5,5)=>0.6

5.3 交叉验证

如果训练数据和验证数据是2:1，就是一个三折交叉验证，也就是将训练数据分为三份，其中一份作为验证数据。如1 2|1 3|2 3。
再利用是一个例子， λ 分别取0.01，0.05，1，5，这四个值。这样的话，3*4,就是做了12个线性回归，来确定一个模型。

6 梯度下降算法

6.1 利用广义逆矩阵，求参数

利用公式：

$X Q = y = > Q = x + y$
这时可以通过公式，求的参数Q。
注：如果 X 是一个几百*几百的矩阵，完成可以计算。但是如果是几万或者过亿级别的矩阵，就无法计算了。我们往往会绕过矩阵求逆的过程。这样我们就要使用下面的方法，梯度下降方法。

6.2 梯度下降

1、目标函数：
$J (θ) = 1 2 \sum i = 1 m (h θ (x (i)) - y (i)) 2$
我们的目标是目标函数求最小。
2、方法：

首先，初始化 θ (随机初始化)
然后，沿着负梯度方向迭代，更新后的 θ 使得 J(θ) 更小。
$θ = θ - α \partial J ( θ ) \partial x$
注： α :学习率，步长
这样我们最终会得到 θ∗ 。 θ0−>θ1−>θ2.....θ∗
此方法可以得到局部极小值。
3、梯度方向
定义 θ=[θ0 θ1 ⋮ θn],θj=[0….n]
推导过程如下图：

6.3 批量梯度下降算法

Repeat until convergence{
θj:=θj+α∑mi=1(y(i)−hθ(x(i)))x(i)j
}
这里的 ∑mi=1(y(i)−hθ(x(i)))x(i)j 就是所有样本的梯度的加和。再给定一个 α ，不断的迭代就可以得到 θj 。
因为目标函数 J(θ) 是一个凸函数。因此线性回归一定能找到一个全局最优解。
批量下降梯度图示如下：

6.4 随机梯度下降算法 SGD

Loop{
for i=1 to m,{
θj:=θj+α(y(i)−hθ(x(i)))x(i)j
}
}
这里的 (y(i)−hθ(x(i)))x(i)j 是第i个样本的梯度。不需要拿到所有样本，再处理。只要拿到一个样本，就开始做更新，这样的算法就是随机梯度下降算法。

6.5 SGD与BGD比较

1、BGD一定可以找一个局部极值，而SGD不保证结果。因为
2、BGD的损失函数是直接下降的，而SGD的损失函数是震荡下降的。
3、一般选用SGD。
4、SGD经常能够跳过目标函数中局部极值，达到一个更好的值。
5、SGD更适合在线学习，不一定非要离线的。

6.6 折中：mini-batch

在实际中用得最多的是mini-batch，但是一般表述就是SGD。
如果不是没拿到一个样本及更改梯度，而是若干个样本的平均梯度作为更新方向，就是mini-batch。

注：我们在实际工作中，步长 α 往往是选一个0.01，如果小了，再变大点。

7 线性回归的进一步分析

如上面左边的图，根据所给定的样本，我们通过线性回归能够得到一条直线。但是如果是一条曲线，效果会更好，如上右边的图。
根据所给样本 S(i)(x(i),y(i)) ，将其变形，添加两列，常数项 (11⋯1) 和 x 的平方(x21x22⋯x2m)。这样样本变形为：

$⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ 11 ⋮ 1 x 1 x 2 ⋱ x m x 21 x 22 ⋮ x 2 m ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ - > ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ y 1 y 2 ⋮ y m ⎤ ⎦ ⎥ ⎥ ⎥ ⎥$
这样，我们建立方程（模型） y=θ2x2+θ1x+θ0 ，其中 θ=(θ0θ1θ2) 。
同样，我们使用 θ=(XTX)(−1)XTy 来计算。因此得到的二次曲线。
注：我们利用线性回归的技术，得到曲线是非线性的。线性回归不仅仅绝对样本的线性的，也可以是曲线。只要是对参数 θ 是线性的。
再扩展一下，如果是 (x1,x2) 两个参考变量如面积、居室数量，可以取得更多的参数 (x1,x2,x21,x22,x1x2) 。

7.1 特征选择

上面说到我们可以将特征选择成为多种，如 (1,x) ， (1,x,x2) ， (1,x,x2,x3) 。

(1,x)

(1,x,x2)

(1,x,x2,x3)
注：特征选择并不是参数越多越好，而是需要根据MSE或者 R2 的指标，如果不再有显著下降，就不再需要增加参数。

7.2 测定系数，coefficient of determination

对于m个样本 (x1→,y1),(x2→,y2),....,(xm→,ym)
某模型的估计值为 (x1→,y1^),(x2→,y2^),....,(xm→,ym^)
1、样本的总平方和TSS（Total Sum of Squares）：

$T S S = \sum i = 1 m (y i - y ⎯ ⎯) 2$
2、样本的伪方差：
$V a r (Y) = T S S m$
3、残差平方和（Residual Sum of Squares）：
$R S S = \sum i = 1 m (y i^- y i) 2$
注：RSS就是误差平方和SSE（Sum of Squares for Error）
4、定义 R2
$R 2 = 1 - R S S T S S = 1 - \sum m i = 1 ( y i ^ - y i ) 2 \sum m i = 1 ( y i - y ⎯ ⎯ ) 2$
* R2 越大，拟合效果越好
* R2 的最优解为1，若模型预测为随机值， R2 可能为负
* 若预测值恒为样本期望， R2 为0。
5、定义ESS：
$E S S = \sum i = 1 m (y i^- y ⎯ ⎯) 2$
* TSS=ESS+RSS ，此公式成立，只有在无偏估计时成立，否则， TSS≥ESS+RSS
* 无偏估计，是指期望是不是真实值。 E(x)=Xtrue 就称为无偏估计。
* ESS 又称为回归平方和 SSR (Sum of Squares for Regression)

8 局部加权回归

8.1 定义

上图中黑色的点是样本点；红色的线是线性回归曲线；绿色的线就是局部加权回归曲线。

8.2 局部加权线性回归 LWR（Locally Weighted linear Regression）

模型：

$\sum i ω (i) (y (i) - θ T x (i)) 2$
求出 θ 最小值。

8.3 权值的设置

1、 ω 的一种可能的选择方式（高斯核函数）

$ω (i) = e x p (- ∥ x - x i ∥ 2 2 σ 2)$
其中 ∥x−xi∥22σ2 是二范式；
2、二范式
样本 x(x1x2.....xm)
样本 y(y1y2.....ym)
二范式的距离： (x1−y1)2+(x2−y2)2+.....+(xm−ym)2‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾√
3、有参模型与无參模型
首先这里的无參模型是指参数无穷多，也是指与样本m的个数相当。
举例：
线性回归，特征包括： (x1,x2,...,xn) n个特征，那么参数就是 (θ0,θ1,θ2,...θn) n+1个参数。
局部加权回归，因为每一样本点都是有若干个样本点组成的小线段，这样的话参数的个数就是无穷多个，甚至于与样本个数相同。

9 总结

1、特征选择很重要，除了人工选择，还可以用机器学习的方法，如随机森林、PCA、LDA等。
2、梯度下降算法是参数优化的重要手段，尤其是SGD。

参考

1、邹博小象机器学习课程。
2、机器学习入门：线性回归及梯度下降
3、从理论到应用——浅谈lasso模型
4、LaTeX 各种命令，符号

PINN物理信息网络 | 基于物理信息神经网络PINN求解Burger方程算法如诗物理信息网络（PINN）神经网络人工智能深度学习物理信息网络
基于物理信息神经网络（PINN）求解Burger方程的研究背景源于对非线性偏微分方程（PDE）求解方法的不断探索和改进。传统的数值方法，如有限差分法和有限元法，通常需要进行网格离散化和迭代求解，对于复杂的非线性问题计算成本较高。因此，研究人员开始探索基于机器学习和神经网络的新方法来求解PDEs。神经网络在近年来取得了显著的发展，能够通过学习大量数据来建立输入和输出之间的复杂映射关系。然而，将神经网
python实现KNN算法的手写数字识别：深入解析与完整项目流程快撑死的鱼 Python算法精解算法
随着人工智能和机器学习的快速发展，图像识别技术在多个领域得到广泛应用。而手写数字识别作为图像识别的典型场景之一，已经成为研究者和开发者学习、应用机器学习算法的经典项目。本文将深入解析如何使用Python编程语言，结合KNN（K-最近邻）算法实现手写数字识别系统。文章不仅介绍了算法的核心原理，还从用户交互、图像处理、数据预处理等多个角度对整个项目进行了全方位的讲解。读者通过本文，可以全面掌握手写数字
云原生周刊：基于 KubeSphere LuBan 架构打造DeepSeek 插件云计算
开源项目推荐KubeAIKubeAI是一个K8s上的AI推理操作器，旨在简化在生产环境中部署和管理大型语言模型（LLM）、向量嵌入和语音处理等机器学习模型。它提供与OpenAI兼容的API，支持在CPU和GPU上运行，并具备按需自动扩缩容的能力。KubeAI无需依赖Istio、Knative等其他系统，能够在几乎任何K8s集群中开箱即用。此外，它内置了模型代理，优化了键值缓存利用率，从而显著提升系
AI 之路——数据分析（1）Pandas小结与框架整理 Robin_Pi 机器学习之路数据分析数据分析 python 人工智能可视化
目录1.写在前面1.1AI之路：1.2工具/技能：2.数据分析2.1数据分析的流程2.2数据的基本操作方法2.2.1Pandas概览2.2.2使用Pandas操作数据的核心(1)选择数据(2)操作数据2.2.2数据详解3.写在最后1.写在前面主要是阶段性框架总结1.1AI之路：数据分析——机器学习——深度学习——CV/NLP1.2工具/技能：Python、NumPy、Pandas、Matplotl
2025 年最值得收听的 AI 播客推荐！助你轻松掌握人工智能前沿动态！真智AI 人工智能开发语言机器学习
如今，几乎每个人都被告知需要提升技能，而当前许多组织最看重的技能之一就是人工智能（AI）。学习AI相关技能通常涉及数学、统计学和机器学习，但除此之外，你还需要了解行业趋势、业内人士的观点以及各大公司的动态。然而，学习并不意味着时刻都要埋头苦读！有时候，你需要给大脑一个喘息的机会，同时依然能获取有价值的信息。而收听AI相关的播客，就是一个轻松高效的方式。以下是2025年你必须关注的AI播客！1.Th
人工智能概念 zhangpeng455547940 计算机人工智能
机器学习、深度学习、大模型机器学习提供框架，使得系统可以从数据中学习算法：线性回归、逻辑回归、支持向量机、决策树、随机森林、K近邻算法深度学习是实现这一目标的工具，模仿人脑，使用多层神经网络进行学习算法：多层感知器、卷积神经网络、循环神经网络、长短期记忆网络大模型指参数量巨大的深度学习模型人工智能应用：自然语言处理、图像识别与生成、语音识别、政务与企业服务...
机器学习(二) 本文(2.5万字) | KNN算法原理及Python复现 | 小酒馆燃着灯机器学习算法 k近邻算法
文章目录一KNN算法原理二KNN三要素三机器学习中标准化四KNN分类预测规则五KNN回归预测规则六KNN算法实现方式七KDTree7.1构造KDtree7.2KDtree查找最近邻八KNN特点九KNN算法实现案例一案例二1.机器学习2.深度学习与目标检测3.YOLOv54.YOLOv5改进5.YOLOv8及其改进6.Python与PyTorch7.工具8.小知识点9.杂记一KNN算法原理K近邻分类
院士领衔、IEEE Fellow 坐镇，清华、上交大、复旦、同济等专家齐聚 2025 全球机器学习技术大会 CSDN资讯机器学习人工智能
随着Manus出圈，OpenManus、OWL迅速开源，OpenAI推出智能体开发工具，全球AI生态正经历新一轮智能体革命。大模型如何协同学习？大模型如何自我进化？新型强化学习技术如何赋能智能体？围绕这些关键问题，由CSDN&Boolan联合举办的「2025全球机器学习技术大会」将于4月18-19日在上海隆重举行。大会云集院士、10所高校科研工作者、近30家一线科技企业技术实战专家组成的超50位重
手写机器学习算法系列——K-Means聚类算法(一) 木有鱼丸223 手写机器学习算法系列机器学习算法聚类
代码仓库(数字空间项目，GN可上)不想看的话，我也将代码上传到本博客中。1.聚类算法简介在数据科学和机器学习领域，聚类(Clustering)算法是一种无监督学习方法，它将相似的对象分到同一个组，而不同的对象则被分到不同的组。这种算法的主要目标是根据数据的特征进行分组，以此找出数据的内在结构。聚类算法的一个核心特点就是它并不需要预先知道数据的类别，而是通过算法自动进行分组。在实际应用中，我们常见的
深入解析：大型机器学习模型的基本概念与特点 AI大模型-大飞机器学习人工智能 AI大模型 AI 神经网络大模型
大模型是指具有大规模参数和复杂计算结构的机器学习模型。本文从大模型的基本概念出发，对大模型领域容易混淆的相关概念进行区分，并就大模型的发展历程、特点和分类、泛化与微调进行了详细解读，供大家在了解大模型基本知识的过程中起到一定参考作用。本文目录如下：·大模型的定义·大模型相关概念区分·大模型的发展历程·大模型的特点·大模型的分类·大模型的泛化与微调1.大模型的定义大模型是指具有大规模参数和复杂计算结
深入浅出 K 近邻算法：原理、实践与应用烂蜻蜓机器学习近邻算法算法
引言在机器学习的众多算法中，K近邻算法（K-NearestNeighbors，简称KNN）以其简洁而强大的特性占据着重要地位。它既可以用于分类任务，也能在回归任务中发挥作用。无论是处理简单数据集，还是面对复杂的数据分布，KNN都展现出独特的魅力。本文将深入探讨KNN算法的原理、特点、优缺点、实现步骤以及在分类和回归任务中的具体应用。KNN算法的基本原理KNN算法属于监督学习范畴，其核心思想质朴而直
【漫话机器学习系列】137.随机搜索（Randomized Search） IT古董漫话机器学习系列专辑机器学习人工智能
随机搜索（RandomizedSearch）详解在机器学习和深度学习的模型训练过程中，超参数调优（HyperparameterTuning）是至关重要的一环。随机搜索（RandomizedSearch）是一种高效的超参数优化方法，它通过在候选超参数的数值分布（如正态分布、均匀分布等）中随机选择超参数组合，从而找到最优的超参数配置。1.超参数调优的必要性超参数是模型在训练之前需要人为设定的参数，例如
【大模型学习】第十九章什么是迁移学习好多渔鱼好多 AI大模型人工智能大模型 AI 机器学习迁移学习
目录1.迁移学习的起源背景1.1传统机器学习的问题1.2迁移学习的提出背景2.什么是迁移学习2.1迁移学习的定义2.2生活实例解释3.技术要点与原理3.1迁移学习方法分类3.1.1基于特征的迁移学习（Feature-basedTransfer）案例说明代码示例3.1.2基于模型的迁移（Model-basedTransfer）案例说明BERT用于情感分析的例子3.1.3基于实例的迁移（Instanc
大模型开发教程：从零开始的入门指南！程序员二飞人工智能 java 数据库职场和发展深度学习
概述大模型开发教程引领人工智能领域前沿，从基础概念至实战项目，全面覆盖Python与深度学习框架使用，指导初学者构建线性回归、逻辑回归、神经网络等模型，深入探索图像分类、情感分析等复杂应用，为探索未来智能世界提供坚实基石。前排提示，文末有大模型AGI-CSDN独家资料包哦！二、基础知识2.1人工智能与深度学习的概念人工智能(AI)是计算机科学的一个分支，旨在使计算机能够执行通常需要人类智能的任务。
Python实现机器学习项目教程：房价预测向着开发进攻 python python 机器学习开发语言
Python实现机器学习小项目教程：房价预测案例机器学习（MachineLearning）是数据科学中的一项重要技术，它通过从数据中学习规律，进行预测和决策。对于初学者来说，通过实际的项目来学习机器学习的原理和实现方法，是非常有效的。本篇教程将通过Python实现一个简单的机器学习小项目——房价预测。我们将使用scikit-learn库来构建并训练一个线性回归模型，预测房价。项目背景假设我们拥有一
AI Agent在企业预算管理与成本控制中的应用 SuperAGI2025 DeepSeek 人工智能大数据 ai
AIAgent在企业预算管理与成本控制中的应用关键词：AIAgent、企业预算管理、成本控制、机器学习、预测模型、优化算法摘要：本文深入探讨了AIAgent在企业预算管理与成本控制中的应用。通过详细的背景介绍、核心概念解析、算法原理讲解和实际案例剖析，本文展示了AIAgent如何通过智能预测和优化算法，为企业带来更高的效率和精确度，从而实现成本控制和预算优化的目标。背景介绍核心概念AIAgent:
常见的深度学习优化器青灯剑客算法 python 人工智能机器学习自然语言处理深度学习
一直用优化器解决问题，但是没有对它进行一个系统的总结。。不对，系统的总结进行过，只是时过境迁，早已忘却。一、照进我脑海的几个家伙一开始学习的当然是SGD，只是学着学着就忘记了。后来呢，接触到网上介绍的几种常用的优化器，看着原理挺给力，可是记了好几次都记不住。直到遇到《百面机器学习》，它从最基本的原理出发，给了我一点灵感。（1）几种常用的优化器，详情见这里链接34（2）二、以为自己遇见了大海老师说，
PyTorch 和 Python关系一只积极向上的小咸鱼 python pytorch 人工智能
1PyTorch和Python关系PyTorch和Python是两个不同但相互关联的工具，主要用于机器学习和深度学习领域。以下是它们之间的关系和各自的作用：Python编程语言:Python是一种高级编程语言，以其简洁易读的语法而闻名。广泛使用:Python在数据科学、人工智能、Web开发、自动化等多个领域有着广泛的应用。库和生态系统丰富:Python拥有丰富的第三方库和工具，如NumPy、pan
Python与人工智能：为何它们是天作之合？纪至训至 python 人工智能开发语言
引言在人工智能（AI）飞速发展的今天，Python已成为这一领域的“明星语言”。从机器学习到深度学习，从自然语言处理到计算机视觉，Python的身影无处不在。那么，Python究竟为何能成为AI开发的首选工具？本文将探讨Python与AI之间的深度关联，并解析其背后的原因。1.Python的简洁性与可读性AI开发的核心在于快速迭代和实验，而Python以其简洁的语法和直观的代码结构著称。开发者无需
Python深度学习033：Python、PyTorch、CUDA和显卡驱动之间的关系若北辰 Python深度学习 python 深度学习 pytorch
Python、PyTorch、CUDA和显卡驱动之间的关系相当紧密，它们共同构成了一个能够执行深度学习模型的高效计算环境。下面是它们之间关系的简要概述：PythonPython是一种编程语言，广泛用于科学计算、数据分析和机器学习。它是开发和运行PyTorch代码的基础环境。PyTorchPyTorch是一个开源的机器学习库，用于应用如自然语言处理和计算机视觉的深度学习模型。它提供了丰富的API，使
机器学习算法在司法预测中的应用【附保姆级代码】一键难忘机器学习算法人工智能
本文收录于专栏：精通AI实战千例专栏合集https://blog.csdn.net/weixin_52908342/category_11863492.html从基础到实践，深入学习。无论你是初学者还是经验丰富的老手，对于本专栏案例和项目实践都有参考学习意义。每一个案例都附带关键代码，详细讲解供大家学习，希望可以帮到大家。正在不断更新中~机器学习算法在司法预测中的应用司法预测作为法律领域的前沿研究
PyTorch深度学习框架60天进阶学习计划 - 第19天：时间序列预测凡人的AI工具箱深度学习 pytorch 学习人工智能 AI编程迁移学习 python
PyTorch深度学习框架60天进阶学习计划-第19天：时间序列预测目录时间序列预测概述滑动窗口数据构造方法归一化策略对比：MinMaxvsZ-ScoreLSTM基础原理Attention机制与LSTM结合LSTM-Attention模型实现TeacherForcing技术与应用Prophet基准模型对比多步预测的滚动验证方法综合实战：股票价格预测1.时间序列预测概述时间序列预测是机器学习中的一个
Python爬虫学习笔记_DAY_26_Python爬虫之requests库的安装与基本使用【Python爬虫】_requests库ip 苹果Android开发组程序员 python 爬虫学习
最后Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习Python门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的Pytho
大模型相关知识学习随记 m0_65156252 语言模型人工智能自然语言处理
2024/3/151，概念解释：通义千问，是阿里云推出的一个超大规模的语言模型，功能包括多轮对话、文案创作、逻辑推理、多模态理解、多语言支持。能够跟人类进行多轮的交互，也融入了多模态的知识理解，且有文案创作能力，能够续写小说，编写邮件等。2，多模态大模型：多模态大模型是一种基于深度学习的机器学习技术，其核心思想是将不同媒体数据（如文本、图像、音频和视频等）进行融合，通过学习不同模态之间的关联，实现
DeepSeek在供热行业中的应用杨航 AI 人工智能深度学习 python 机器学习算法
目录引言1.1DeepSeek技术概述1.2供暖行业业务挑战1.3DeepSeek在供暖行业的应用前景DeepSeek技术基础2.1深度学习与机器学习2.2自然语言处理（NLP）2.3图像识别与处理2.4数据挖掘与分析供暖行业应用场景3.1设备监控与维护3.1.1设备状态监控3.1.2故障预测与诊断3.1.3维护计划优化3.2能源管理与优化3.2.1能耗数据分析3.2.2热负荷预测3.2.3节能优
Anaconda与VS Code wei099
最近在学习机器学习和计算机视觉，使用GoogleColab来运行网上的示例代码。考虑到网页上写代码效率太低，没有代码补全功能，没有函数提示，不利于对代码的了解，于是还是决定折腾一下在自己的Windows本上安装工作环境。想要学习机器学习的技能，不可避免要具备熟练使用Python编程的能力。Anaconda是Python软件包管理器，可以大大减少使用者安装各种包的麻烦，提高工作效率。我先后安装了An
适合机器学习的Linux系统推荐及基本配置指南金外飞176 信息分享机器学习 linux 人工智能
适合机器学习的Linux系统推荐及基本配置指南在机器学习领域，选择一个合适的Linux发行版至关重要。它不仅影响开发效率，还可能影响模型训练的性能。经过广泛调研和用户反馈，Ubuntu脱颖而出，成为众多机器学习爱好者的首选。下面将详细介绍为何推荐Ubuntu以及其基本配置需求。一、推荐Ubuntu的理由1.用户友好的界面和强大的社区支持Ubuntu提供了直观的图形用户界面，对于初次接触Linux的
使用Python进行火焰检测与识别：从基础理论到高级实现的全面指南快撑死的鱼 python算法解析 python 开发语言
使用Python进行火焰检测与识别：从基础理论到高级实现的全面指南火灾是一种常见而危险的自然灾害，在工业、家庭和公共场所中，实时检测火焰并做出响应是保障安全的重要手段。随着计算机视觉技术的发展，使用图像处理和机器学习的方法进行火焰检测已经成为可能。Python作为一种功能强大且广泛使用的编程语言，提供了丰富的库和工具，能够有效地实现火焰检测和识别。在本文中，我们将深入探讨如何使用Python进行火
[每日一学]数据分析与可视化：anaconda与pythoncharm使用上的区别之处及优越点，使用哪款比较好用拼命绽放 python 开发语言
anaconda、.jupyter·jupyter的基本使用，开发环境与pythoncharm有什么区别？在数据分析和可视化使用中有什么区别？哪个在数据分析和可视化上更占优势？如果用pythoncharm如何去实现数据分析与可视化有影响吗？一、Anaconda是一个开源的Python发行版本，集成了多个常用的数据科学、机器学习、深度学习等相关工具，例如JupyterNotebook、Spyder、
差分革命：清华微软携手，用物理智慧重塑Transformer“慧眼” YINWA AI 人工智能科技 AI 人工智能科技 ai
当物理学遇上AI，一场精准捕捉的变革悄然上演想象一下，在信息的汪洋大海中，寻找一根至关重要的“针”，难度无异于“大海捞针”。然而，随着诺贝尔物理学奖的光芒照耀到“机器学习之父”GeoffreyHinton的肩头，另一场跨界融合也在悄然进行——微软与清华大学的科研团队携手，将物理学的智慧融入AI，推出DifferentialTransformer（DIFFTransformer），让Transfor
LeetCode[位运算] - #137 Single Number II Cwind java Algorithm LeetCode 题解位运算
原题链接：#137 Single Number II 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现三次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：与#136类似，都是考察位运算。不过出现两次的可以使用异或运算的特性 n XOR n = 0, n XOR 0 = n，即某一
《JavaScript语言精粹》笔记 aijuans JavaScript
0、JavaScript的简单数据类型包括数字、字符创、布尔值（true/false）、null和undefined值，其它值都是对象。 1、JavaScript只有一个数字类型，它在内部被表示为64位的浮点数。没有分离出整数，所以1和1.0的值相同。 2、NaN是一个数值，表示一个不能产生正常结果的运算结果。NaN不等于任何值，包括它本身。可以用函数isNaN(number)检测NaN,但是
你应该更新的Java知识之常用程序库 Kai_Ge java
在很多人眼中，Java 已经是一门垂垂老矣的语言，但并不妨碍 Java 世界依然在前进。如果你曾离开 Java，云游于其它世界，或是每日只在遗留代码中挣扎，或许是时候抬起头，看看老 Java 中的新东西。 Guava Guava[gwɑ:və]，一句话，只要你做Java项目，就应该用Guava（Github）。 guava 是 Google 出品的一套 Java 核心库，在我看来，它甚至应该
HttpClient 120153216 httpclient
/** * 可以传对象的请求转发，对象已流形式放入HTTP中 */ public static Object doPost(Map<String,Object> parmMap,String url) { Object object = null; HttpClient hc = new HttpClient(); String fullURL
Django model字段类型清单 2002wmj django
Django 通过 models 实现数据库的创建、修改、删除等操作，本文为模型中一般常用的类型的清单，便于查询和使用： AutoField：一个自动递增的整型字段，添加记录时它会自动增长。你通常不需要直接使用这个字段；如果你不指定主键的话，系统会自动添加一个主键字段到你的model。(参阅自动主键字段) BooleanField：布尔字段,管理工具里会自动将其描述为checkbox。 Cha
在SQLSERVER中查找消耗CPU最多的SQL 357029540 SQL Server
返回消耗CPU数目最多的10条语句 SELECT TOP 10 total_worker_time/execution_count AS avg_cpu_cost, plan_handle, execution_count, (SELECT SUBSTRING(text, statement_start_of
Myeclipse项目无法部署，Undefined exploded archive location 7454103 eclipse MyEclipse
做个备忘！错误信息为： Undefined exploded archive location 原因：在工程转移过程中，导致工程的配置文件出错；解决方法：
GMT时间格式转换 adminjun GMT 时间转换
普通的时间转换问题我这里就不再罗嗦了，我想大家应该都会那种低级的转换问题吧，现在我向大家总结一下如何转换GMT时间格式，这种格式的转换方法网上还不是很多，所以有必要总结一下，也算给有需要的朋友一个小小的帮助啦。 1、可以使用 SimpleDateFormat SimpleDateFormat EEE-三位星期 d-天 MMM-月 yyyy-四位年
Oracle数据库新装连接串问题 aijuans oracle数据库
割接新装了数据库，客户端登陆无问题，apache/cgi-bin程序有问题，sqlnet.log日志如下： Fatal NI connect error 12170. VERSION INFORMATION: TNS for Linux: Version 10.2.0.4.0 - Product
回顾java数组复制 ayaoxinchao java 数组
在写这篇文章之前，也看了一些别人写的，基本上都是大同小异。文章是对java数组复制基础知识的回顾，算是作为学习笔记，供以后自己翻阅。首先，简单想一下这个问题：为什么要复制数组？我的个人理解：在我们在利用一个数组时，在每一次使用，我们都希望它的值是初始值。这时我们就要对数组进行复制，以达到原始数组值的安全性。java数组复制大致分为3种方式：①for循环方式 ②clone方式 ③arrayCopy方
java web会话监听并使用spring注入 bewithme Java Web
在java web应用中，当你想在建立会话或移除会话时，让系统做某些事情，比如说，统计在线用户，每当有用户登录时，或退出时，那么可以用下面这个监听器来监听。 import java.util.ArrayList; import java.ut
NoSQL数据库之Redis数据库管理(Redis的常用命令及高级应用) bijian1013 redis 数据库 NoSQL
一 .Redis常用命令 Redis提供了丰富的命令对数据库和各种数据库类型进行操作，这些命令可以在Linux终端使用。 a.键值相关命令 b.服务器相关命令 1.键值相关命令 &
java枚举序列化问题 bingyingao java 枚举序列化
对象在网络中传输离不开序列化和反序列化。而如果序列化的对象中有枚举值就要特别注意一些发布兼容问题: 1.加一个枚举值新机器代码读分布式缓存中老对象，没有问题，不会抛异常。老机器代码读分布式缓存中新对像，反序列化会中断，所以在所有机器发布完成之前要避免出现新对象，或者提前让老机器拥有新增枚举的jar。 2.删一个枚举值新机器代码读分布式缓存中老对象，反序列
【Spark七十八】Spark Kyro序列化 bit1129 spark
当使用SparkContext的saveAsObjectFile方法将对象序列化到文件，以及通过objectFile方法将对象从文件反序列出来的时候，Spark默认使用Java的序列化以及反序列化机制，通常情况下，这种序列化机制是很低效的，Spark支持使用Kyro作为对象的序列化和反序列化机制，序列化的速度比java更快，但是使用Kyro时要注意，Kyro目前还是有些bug。 Spark
Hybridizing OO and Functional Design bookjovi erlang haskell
推荐博文： Tell Above, and Ask Below - Hybridizing OO and Functional Design 文章中把OO和FP讲的深入透彻，里面把smalltalk和haskell作为典型的两种编程范式代表语言，此点本人极为同意，smalltalk可以说是最能体现OO设计的面向对象语言，smalltalk的作者Alan kay也是OO的最早先驱，
Java-Collections Framework学习与总结-HashMap BrokenDreams Collections
开发中常常会用到这样一种数据结构，根据一个关键字，找到所需的信息。这个过程有点像查字典，拿到一个key，去字典表中查找对应的value。Java1.0版本提供了这样的类java.util.Dictionary(抽象类)，基本上支持字典表的操作。后来引入了Map接口，更好的描述的这种数据结构。 &nb
读《研磨设计模式》-代码笔记-职责链模式-Chain Of Responsibility bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 业务逻辑：项目经理只能处理500以下的费用申请，部门经理是1000，总经理不设限。简单起见，只同意“Tom”的申请 * bylijinnan */ abstract class Handler { /*
Android中启动外部程序 cherishLC android
1、启动外部程序引用自： http://blog.csdn.net/linxcool/article/details/7692374 //方法一 Intent intent=new Intent(); //包名包名+类名（全路径） intent.setClassName("com.linxcool", "com.linxcool.PlaneActi
summary_keep_rate coollyj SUM
BEGIN /*DECLARE minDate varchar(20) ; DECLARE maxDate varchar(20) ;*/ DECLARE stkDate varchar(20) ; DECLARE done int default -1; /* 游标中注册服务器地址 */ DE
hadoop hdfs 添加数据目录出错 daizj hadoop hdfs 扩容
由于原来配置的hadoop data目录快要用满了，故准备修改配置文件增加数据目录，以便扩容，但由于疏忽，把core-site.xml, hdfs-site.xml配置文件dfs.datanode.data.dir 配置项增加了配置目录，但未创建实际目录，重启datanode服务时，报如下错误： 2014-11-18 08:51:39,128 WARN org.apache.hadoop.h
grep 目录级联查找 dongwei_6688 grep
在Mac或者Linux下使用grep进行文件内容查找时，如果给定的目标搜索路径是当前目录，那么它默认只搜索当前目录下的文件，而不会搜索其下面子目录中的文件内容，如果想级联搜索下级目录，需要使用一个“-r”参数： grep -n -r "GET" . 上面的命令将会找出当前目录“.”及当前目录中所有下级目录
yii 修改模块使用的布局文件 dcj3sjt126com yii layouts
方法一：yii模块默认使用系统当前的主题布局文件，如果在主配置文件中配置了主题比如: 'theme'=>'mythm', 那么yii的模块就使用 protected/themes/mythm/views/layouts 下的布局文件；如果未配置主题，那么 yii的模块就使用 protected/views/layouts 下的布局文件，总之默认不是使用自身目录 pr
设计模式之单例模式 come_for_dream 设计模式单例模式懒汉式饿汉式双重检验锁失败无序写入
今天该来的面试还没来，这个店估计不会来电话了，安静下来写写博客也不错，没事翻了翻小易哥的博客甚至与大牛们之间的差距，基础知识不扎实建起来的楼再高也只能是危楼罢了，陈下心回归基础把以前学过的东西总结一下。 *********************************
8、数组豆豆咖啡二维数组数组一维数组
一、概念数组是同一种类型数据的集合。其实数组就是一个容器。二、好处可以自动给数组中的元素从0开始编号，方便操作这些元素三、格式 //一维数组 1,元素类型[] 变量名 = new 元素类型[元素的个数] int[] arr =
Decode Ways hcx2013 decode
A message containing letters from A-Z is being encoded to numbers using the following mapping: 'A' -> 1 'B' -> 2 ... 'Z' -> 26 Given an encoded message containing digits, det
Spring4.1新特性——异步调度和事件机制的异常处理 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
squid3(高命中率)缓存服务器配置 liyonghui160com
系统:centos 5.x 需要的软件:squid-3.0.STABLE25.tar.gz 1.下载squid wget http://www.squid-cache.org/Versions/v3/3.0/squid-3.0.STABLE25.tar.gz tar zxf squid-3.0.STABLE25.tar.gz &&
避免Java应用中NullPointerException的技巧和最佳实践 pda158 java
1) 从已知的String对象中调用equals()和equalsIgnoreCase()方法，而非未知对象。　　总是从已知的非空String对象中调用equals()方法。因为equals()方法是对称的，调用a.equals(b)和调用b.equals(a)是完全相同的，这也是为什么程序员对于对象a和b这么不上心。如果调用者是空指针，这种调用可能导致一个空指针异常 Object unk
如何在Swift语言中创建http请求 shoothao http swift
概述：本文通过实例从同步和异步两种方式上回答了”如何在Swift语言中创建http请求“的问题。如果你对Objective-C比较了解的话，对于如何创建http请求你一定驾轻就熟了，而新语言Swift与其相比只有语法上的区别。但是，对才接触到这个崭新平台的初学者来说，他们仍然想知道“如何在Swift语言中创建http请求？”。在这里,我将作出一些建议来回答上述问题。常见的
Spring事务的传播方式 uule spring事务
传播方式：新建事务 required required_new - 挂起当前非事务方式运行 supports &nbs

第一章 线性回归 Linear Regression

1 什么是回归

1.1 回归概念的来源

1.2 机器学习中的回归

2 线性回归

2.1 单变量的情形

2.2 多变量的情形

2.3 误差服从高斯分布

2.4 中心极值定理

3 最大似然估计MLE

3.1 根据似然函数，求出L(θ)

3.2 高斯的对数似然

3.3 向量的倒数

4 线性回归的复杂度惩罚因子

4.1 增加损失函数

4.2 正则项和防过拟合

4.3 ridge回归，和LASSO有什么区别，有什么优势和劣势

5 机器学习与数据使用

5.1 数据的使用

5.2 如何确定 λ

5.3 交叉验证

6 梯度下降算法

6.1 利用广义逆矩阵，求参数

6.2 梯度下降

6.3 批量梯度下降算法

6.4 随机梯度下降算法 SGD

6.5 SGD与BGD比较

6.6 折中：mini-batch

7 线性回归的进一步分析

7.1 特征选择

7.2 测定系数，coefficient of determination

8 局部加权回归

8.1 定义

8.2 局部加权线性回归 LWR（Locally Weighted linear Regression）

8.3 权值的设置

9 总结

参考

你可能感兴趣的:(机器学习,机器学习,线性回归)

第一章线性回归 Linear Regression