Medlen

线性回归&梯度下降

什么是线性回归？

学习首先从定义开始，下面是百度百科和维基百科对线性回归的定义：

百度百科

线性回归是利用数理统计中回归分析，来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。

维基百科

线性回归（linear regression）是利用称为线性回归方程的最小二乘函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。

了解了线性回归的定义，接下来我们再说一下什么是线性、什么是回归？

什么是线性？

线性：自变量之间只存在线性关系，即自变量只能通过相加、或者相减进行组合¹

这里我们举一个例子：假设我们要找到变量x、y之间的关系，那我们能进行组合的就只有像 $y = a x + b$ 这样的，我们可以对x,y进行任意加减，但不能进行乘除操作，也就是像 $y=ax^2+b$ 或者 $y^2=ax+b$ 就是非线性关系。同理我们可以扩展到变量超过两种的，例如： $y=a_1x_1+a_2x_2+a_3x_3...a_nx_n+b$

下面我们形象的看一下图像：

上面左图是二维空间中的两个变量之间的线性关系，是一条直线，右图是三维空间中三个变量之间的线性关系，是一个平面，超过三维则是一个超平面。

什么是回归？

回归：预测连续的变量称为回归。

线性回归的分类？

分为一元线性回归和多元线性回归

如果只包括一个自变量和一个因变量，且二者关系是线性的，称为一元线性回归

如果包括两个及以上自变量，且自变量和因变量关系是线性的，称为多元线性回归

一元线性回归

问题提出：

给定一组房屋面积和对应的房价，预测任意房屋面积所对应的房价？

房屋面积	房价
80	3550
85	3560
90	3642
95	3622
100	3688
110	3714
120	3719
150	3865
200	4135

散点图如下：

解：

假设要拟合的函数为 $\hat{y} = wx + b$ ，既然找到了要拟合的直线，接下来只要确定参数w和b即可。那么如何确定w和b呢？这就需要我们接下来要介绍的内容–损失函数（cost function）。

什么是损失函数？

损失函数可以理解为用来量化真实值与预测值之间差异程度的函数。简单来说，真实值就是我们实际收集到的数据，预测值是用我们的模型估算出的数据。那么估算出的数据跟真实数据越接近，说明我们的模型的可靠程度越高。

损失函数是一类函数，包括平方损失函数、指数损失函数、对数损失函数、绝对值损失函数、0-1损失函数、Hinge损失函数等。

针对线性回归问题，我们使用平方损失函数，下面是这个损失函数的表达形式：
$J(w,b)=\frac{1}{2} \sum_{i=1}^{n} (y_i-\hat{y}_i)^2$
其中 $y_i$ 表示真实值， $\hat{y_i}$ 代表给定输入 $x_i$ 的预测值。将目标函数带入可得：
$J(w,b)=\frac{1}{2} \sum_{i=1}^{n} (y_i-wx_i-b)^2$
于是为了求得w和b，我们只需找到一组w和b使上式最小即可，即：
$\begin{aligned} \underset{w,b}{\operatorname{arg\,min}} J(w,b) &= \underset{w,b}{\operatorname{arg\,min}} \frac{1}{2}\sum_{i=1}^{n} (y_i-\hat{y}_i)^2 \\ &= \underset{w,b}{\operatorname{arg\,min}} \frac{1}{2} \sum_{i=1}^{n} (y_i-wx_i-b)^2 \end{aligned}$
注：这个公式前面的常数 $\frac{1}{2}$ 主要是为了求解方便，也有用 $\frac{1}{n}$ 的还有什么都不加的，不影响最终结果,至于原因，可以从下面推导过程看出来。

接下来是对公式的推导求解过程：

思路：既然是求上述公式的最小值，那么我们只需要找到其最小值点即可，又因其为凸函数，故最小值点必然存在。所以分别对w和b求导，然后另其等于0即可。
$\frac{\partial J(w,b)}{\partial w} = \sum_{i=1}^{n}(y_i-wx_i-b)x = 0 \\ \frac{\partial J(w,b)}{\partial b} = \sum_{i=1}^{n}(y_i-wx_i-b) = 0$
从这个公式可以看出，无论前面的非零系数是多少，最终都可以被消去。

先求解第二个公式：
$\sum_{i=1}^{n}(y_i-wx_i-b) = 0$
求得：
$\frac{1}{n} \sum_{i=1}^{n}y_i - \frac{w}{n}\sum_{i=1}^{n}x_i$
之后令 $\overline{x} = \frac{1}{n} \sum_{i=1}^{n}x_i$ , $\overline{y} = \frac{1}{n} \sum_{i=1}^{n}y_i$ 得到：
$\overline{y} - w\overline{x}$
再求解第一个公式：
$\sum_{i=1}^{n}(y_i-wx_i-b)x = 0$
将之前求得的b带入这个公式，可求得w：
$\begin{aligned} w &= \frac{\sum_{i=1}^{n}x_iy_i - \overline{y}\sum_{i=1}^{n}x_i}{\sum_{i=1}^{n}x_i^2-\overline{x}\sum_{i=1}^{n}x_i} \\ &= \frac{\sum_{i=1}^{n}x_iy_i - \frac{1}{n}\sum_{i=1}^{n}y_i\sum_{i=1}^{n}x_i}{\sum_{i=1}^{n}x_i^2-\frac{1}{n}\sum_{i=1}^{n}x_i\sum_{i=1}^{n}x_i} \\ &=\frac{\sum_{i=1}^{n}(x_i-\overline{x})(y_i-\overline{y})}{\sum_{i=1}^{n}(x_i-\overline{x})^2} \end{aligned}$
上述推导的最后两个步骤，是下述公式转换得到的：
$\sum_{i=1}^{n}x_iy_i - \frac{1}{n}\sum_{i=1}^{n}y_i\sum_{i=1}^{n}x_i = \sum_{i=1}^{n}(x_i-\overline{x})(y_i-\overline{y}) \\ \sum_{i=1}^{n}x_i^2-\frac{1}{n}\sum_{i=1}^{n}x_i\sum_{i=1}^{n}x_i=\sum_{i=1}^{n}(x_i-\overline{x})^2$
上面的公式可以通过右边推导得到左边来证明其正确性。
$\begin{aligned} &\sum_{i=1}^{n}(x_i-\overline{x})(y_i-\overline{y}) \\ &= \sum_{i=1}^{n}(x_iy_i-x_i\overline{y}-\overline{x}y_i+\overline{x}\overline{y}) \\ &= \sum_{i=1}^{n}(x_iy_i) - \sum_{i=1}^{n}x_i\frac{1}{n}\sum_{i=1}^{n}y_i - \frac{1}{n}\sum_{i=1}^{n}x_i\sum_{i=1}^{n}y_i + \sum_{i=1}^{n}(\frac{1}{n^2}\sum_{i=1}^{n}x_i\sum_{i=1}^{n}y_i) \\ &=\sum_{i=1}^{n}x_iy_i - \frac{1}{n}\sum_{i=1}^{n}y_i\sum_{i=1}^{n}x_i \end{aligned}$
这里需要注意的是 $\sum_{i=1}^{n}x_i$ 跟 $\sum_{i=1}^{n}y_i$ 都是常数，因为他们的值一开始就是已知的。
$\begin{aligned} \sum_{i=1}^{n}(x_i-\overline{x})^2 &= \sum_{i=1}^{n}(x_i^2-2x_i\overline{x}+\overline{x}^2) \\ &= \sum_{i=1}^{n}x_i^2 - 2\sum_{i=1}^{n}x_i\frac{1}{n}\sum_{i=1}^{n}x_i + \sum_{i=1}^{n}(\frac{1}{n^2}\sum_{i=1}^{n}x_i\sum_{i=1}^{n}x_i) \\ &= \sum_{i=1}^{n}x_i^2-\frac{1}{n}\sum_{i=1}^{n}x_i\sum_{i=1}^{n}x_i \end{aligned}$
最后将w带入可求得b：
$\overline{y} - \frac{\sum_{i=1}^{n}(x_i-\overline{x})(y_i-\overline{y})}{\sum_{i=1}^{n}(x_i-\overline{x})^2}\overline{x}$
有了w和b，代入 $\hat{y} = wx + b$ ，便得到了房价的预测函数。

这里我们可以计算一下，根据上述数据，带入公式可求得 $w = 4.676743097800655, b = 3186.4394010294805$ .画出图像如下图：

多元线性回归

一元线性回归问题比较简单，只包含两个变量，只需要将数据带入公式就可以直接求出回归方程。接下来介绍涉及两个以上线性回归问题的求解思路，即多元线性回归问题。

这里我们假设有n个样本，每个样本有m个属性，以房价为例：我们获取了n条房价信息，但是影响房价的因素不止房屋面积这一条，还可能包含房子到市中心的距离（北京几环），房子到学校的距离（学区房），房屋的配置（几室几厅）、是否有阳台、是否装修、装修程度、是否包含家具等因素。假设影响因素为 $x_1,x_2,...x_m)$ 共m个，于是我们要找的便是这m个影响因素 $x_1,x_2,...x_m)$ 跟房价 $y$ 之间的关系（注：这里仅是以房价预测作为例子以便于理解）。

因此，多元线性回归方程可写为如下形式：
$\hat{y}^{(i)}=w_0+ w_1x_1^{(i)} + w_2x_2^{(i)} + w_3x_3^{(i)} +...+w_nx_n^{(i)}$
其中 $x_j^i$ ，i代表第i个样本，j代表样本的第j个属性。

为了简化表示，同时也为了方便计算，我们用矩阵对上述形式进行转换：

令：
$\left[ \begin{matrix} y_1 \\ y_2 \\ y_3 \\ ... \\ y_n \end{matrix} \right] X=\left[\begin{matrix} 1 & x_1^{(1)} & x_2^{(1)} & ... &x_m^{(1)} \\ 1 & x_1^{(2)} & x_2^{(2)} & ... & x_m^{(2)} \\ 1 & x_1^{(3)} & x_2^{(3)} & ... & x_m^{(3)} \\ ... & ... & ... & ... & ... \\ 1 & x_1^{(n)} & x_2^{(n)} & ... & x_m^{(n)} \\ \end{matrix}\right] W=\left[\begin{matrix} w_0 \\ w_1 \\ w_2 \\ ... \\w_m \end{matrix}\right]$
其中， $Y$ 矩阵每一行代表一个房价信息，共n行，需要注意的是这个是实际的房价，不是预测的房价； $X$ 矩阵每一行代表一条样本数据（影响房价的属性），同样是n行； $W$ 矩阵则是对应影响房价属性的权值。 $X$ 和 $Y$ 矩阵代表了我们的收集的所有样本数据。

于是可以将要求得的多元线性回归方程简化表示为：
$\hat{y}=XW$
于是我们可以用下面的形式表示损失函数：
$\frac{1}{2}(Y-XW)^T(Y-XW)$
顺带一提，之所以能代替 $\frac{1}{2}\sum_{i=1}^{n} (y_i-\hat{y}_i)^2$ ，是因为Y和X矩阵中已经包含了所有的样本数据，不需要再逐条样本求和。

接下来对其化简求导，并令其等于0，即可求得权重矩阵W。
$\begin{aligned} J(W) &= \frac{1}{2}(Y-XW)^T(Y-XW) \\ &= \frac{1}{2}(Y^T-(XW)^T)(Y-XW) \\ &= \frac{1}{2}(Y^TY-Y^TXW-(XW)^TY+(XW)^TXW) \\ &= \frac{1}{2}Y^TY-Y^TXW + \frac{1}{2}W^TX^TXW \end{aligned} \\$
根据求导公式：
$\begin{aligned} & \frac{\partial{Ax}}{\partial{x}} = A^T \\ & \frac{\partial{x^TAx}}{\partial{x}} = (A+A^T)x \end{aligned}$
对其求导可得：
$\frac{\partial J(W)}{\partial W} = -X^TY+X^TXW$
令其等于0可求得：
$W = (X^TX)^{-1}X^TY$
到这一步已经求得权重矩阵W，但是需要讨论一下：结果中用到了矩阵的逆，但是无法保证在所有情况下 $X^TX$ 是满秩矩阵，因此无法求得唯一的解。

解决办法：对原始数据进行特征筛选或者正则化。（这一块也有一些问题）

为什么正则化之后解就是唯一的了？

以上是用正规方程的方式进行求解，使用正规方程的形式可以直接进行求解，但是也有其不足之处，如果数据量巨大，比如上百万条数据，还是用矩阵进行计算的话，复杂度过高。下面我们引入另一种解决方案–梯度下降法

梯度下降

什么是梯度？

梯度是一个向量，沿梯度方向函数增长速度最快。

如何求梯度？
$gradf(x_0,x_1,...x_n)=(\frac{\partial{f}}{\partial{x_0}},\frac{\partial{f}}{\partial{x_1}},\frac{\partial{f}}{\partial{x_2}},...，\frac{\partial{f}}{\partial{x_n}})$
什么是梯度下降？

梯度下降是迭代算法的一种，通过一步步的迭代来找到损失函数的最小值。前面我们提到梯度方向是函数增长速度最快的方向，那么我们只要沿梯度反方向走就可以找到函数的最小值（也可能是局部最小值）。

梯度下降算法可以用下面公式表示：
$\begin{aligned} & repeat \quad until \quad coveragge \{\\ & w_0 = w_0 - \alpha \frac{\partial{J(w_0, w_1, w_2, ...w_n)}}{\partial{w_0}} \\ & w_1 = w_1 - \alpha \frac{\partial{J(w_0, w_1, w_2, ...w_n)}}{\partial{w_1}} \\ & w_2 = w_2 - \alpha \frac{\partial{J(w_0, w_1, w_2, ...w_n)}}{\partial{w_2}} \\ & ... \\ & w_n = w_n - \alpha \frac{\partial{J(w_0, w_1, w_2, ...w_n)}}{\partial{w_n}} \\ \\ \} \end{aligned}$
简化表示为：
$\begin{aligned} &repeat \quad until \quad coverage \{ \\ &w_i = w_i - \alpha \frac{\partial{J(w_0, w_1, w_2, ...w_n)}}{\partial{w_i}} \\ \} \end{aligned}$
其中 $w_0,w_1,...w_n$ 是待更新的权重，也是我们梯度下降算法要求得的值； $\alpha$ 代表学习率，决定梯度下降的快慢。

如何形象的理解？

以 $y=0.5 x ^2+1$ 的图像为例，理解梯度下降算法。

首先选取一个随机的x值，为了便于计算，我们选择 $x = - 4$ , $\alpha=0.5$ 。确定了初始的点，接下来我们就根据这个初始点找到函数的最小值。

（1）第1次迭代：
$\alpha \frac{\partial{y}}{\partial{x}}=-4-0.5*(-4)=-2$
（2）第2次迭代：
$\alpha \frac{\partial{y}}{\partial{x}}=-2-0.5*(-2)=-1$
（3）第3次迭代：
$\alpha \frac{\partial{y}}{\partial{x}}=-1-0.5*(-1)=-0.5$
…

（15）第15次迭代：
$\alpha \frac{\partial{y}}{\partial{x}}=-0.0001220703125$
很明显，才经过15次迭代， $x$ 就已经十分接近函数的最低点0了。

为什么这种方法可以找到函数的最低点？

首先看公式中的求导部分 $\frac{\partial{J(w_0, w_1, w_2, ...w_n)}}{\partial{w_i}}$ ,它代表的是函数在该点的切线斜率，如果是正斜率，为了找到最小值，需要向左移动，用原来的值减去要移动的距离（ $\alpha$ 乘上正斜率）；如果是负斜率，那么为了找到最小值，需要向右移动，用原来的值加上要移动的距离，但是因为 $\alpha$ 乘负斜率结果是负值，所以还是要减去这个值。因此 $x$ 的更新步骤是 $w_i - \alpha \frac{\partial{J(w_0, w_1, w_2, ...w_n)}}{\partial{w_i}} (i=0,1,2...n)$ 。可以结合下图进行理解，在A点斜率为正，需要向左移动；在B点斜率为负，需要向右移动。

这里 $\alpha$ 的作用是什么？

$\alpha$ 代表学习率，它决定了沿函数下降速度最快方向能够移动的距离有多大。

如果 $\alpha$ 过大，就会导致移动的时候越过最低点，甚至可能无法收敛；

如果 $\alpha$ 过小，就会导致每次移动的距离很小，需要迭代更多次才能到达最低点；

从公式上看，斜率更重要的作用是指明了移动的方向，那么是否可以只保留方向而将斜率值换成其他值呢？

这里我们假设将斜率值换成一个常数a，如果a值比较小，那么我们要达到最低点需要更多的迭代步数（值越小，需要迭代的次数越多）；如果a值比较大，就可能导致在原点左右无限摆动，而无法收敛到原点。显然替换成常数是不合适的。

既然常数不合适，那么使用斜率又有什么好处呢？

使用斜率的最大好处是它是变化的。最初的时候斜率比较大，每更新一步，移动的也距离比较大，可以快速接近函数最小值点；随着x值越来越接近最小值，斜率也无限趋近于0，因此更新的时候，移动的距离就会非常小，可以防止越过最小值点；

再以一个三维图像为例，理解梯度下降算法：

下图是函数 $z=x^2+y^2$ 在三维坐标系中的图像。

这里以 $x = - 10, y = 10$ 为起点, $\alpha=0.1$ ，进行梯度下降求最小值；

（1）第1次迭代：
$\begin{aligned} & x = x-\alpha \frac{\partial{z}}{x} = -10 - 0.1*(-20) = -8 \\ & y = y-\alpha \frac{\partial{z}}{y} = 10 - 0.1*20 = 8 \end{aligned}$
（2）第2次迭代：
$\begin{aligned} & x = x-\alpha \frac{\partial{z}}{x} = -8 - 0.1*(-16) = -6.4 \\ & y = y-\alpha \frac{\partial{z}}{y} = 8 - 0.1*16 = 6.4 \end{aligned}$
（3）第3次迭代：
$\begin{aligned} & x = x-\alpha \frac{\partial{z}}{x} = -6.4 - 0.1*(-12.8) = -5.12 \\ & y = y-\alpha \frac{\partial{z}}{y} = 6.4 - 0.1*12.8 = 5.12 \end{aligned}$
…

（4）第51次迭代：
$\begin{aligned} & x = x-\alpha \frac{\partial{z}}{x} = -6.4 - 0.1*(-12.8) = -0.00011417981541647683 \\ & y = y-\alpha \frac{\partial{z}}{y} = 6.4 - 0.1*12.8 = 0.00011417981541647683 \end{aligned}$
经过51次迭代后也接近最小值点（0,0,0）了，只要无限迭代下去，就可以无限接近于0，而我们只需要取到某一精度即可。

我们还可以比较一下 $\alpha$ 对迭代次数的影响，我们这次选择的 $\alpha = 0.2$ 迭代51次才接近最低点，如果选择 $\alpha = 0.5$ ，我们只需要迭代一次就可以到达最低点。因此选择合适的 $\alpha$ 可以省去很多迭代步骤。

参考：

【1】【从入门到放弃】线性回归

【2】小白入门线性回归：原理+代码

【3】线性回归与最小二乘法

【4】[机器学习] ML重要概念：梯度（Gradient）与梯度下降法（Gradient Descent）

【5】梯度下降算法原理讲解——机器学习

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
【机器学习笔记Ⅰ】9 特征缩放巴伦是只猫机器学习机器学习笔记人工智能
特征缩放（FeatureScaling）详解特征缩放是机器学习数据预处理的关键步骤，旨在将不同特征的数值范围统一到相近的尺度，从而加速模型训练、提升性能并避免某些特征主导模型。1.为什么需要特征缩放？(1)问题背景量纲不一致：例如：特征1：年龄（范围0-100）特征2：收入（范围0-1,000,000）梯度下降的困境：量纲大的特征（如收入）会导致梯度更新方向偏离最优路径，收敛缓慢。量纲小的特征（如
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
Python OpenCV教程从入门到精通的全面指南【文末送书】一键难忘 python opencv 开发语言
文章目录PythonOpenCV从入门到精通1.安装OpenCV2.基本操作2.1读取和显示图像2.2图像基本操作3.图像处理3.1图像转换3.2图像阈值处理3.3图像平滑4.边缘检测和轮廓4.1Canny边缘检测4.2轮廓检测5.高级操作5.1特征检测5.2目标跟踪5.3深度学习与OpenCVPythonOpenCV从入门到精通【文末送书】PythonOpenCV从入门到精通OpenCV(Ope
第八周 tensorflow实现猫狗识别降花绘 365天深度学习 tensorflow系列 tensorflow 深度学习人工智能
本文为365天深度学习训练营内部限免文章（版权归K同学啊所有）**参考文章地址：[TensorFlow入门实战｜365天深度学习训练营-第8周：猫狗识别（训练营内部成员可读）]**作者：K同学啊文章目录一、本周学习内容:1、自己搭建VGG16网络2、了解model.train_on_batch（）3、了解tqdm，并使用tqdm实现可视化进度条二、前言三、电脑环境四、前期准备1、导入相关依赖项2、
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路一、医疗领域：AI驱动的精准诊疗与效率提升1.医学影像诊断AI算法通过深度学习技术，已实现对X光、CT、MRI等影像的快速分析，辅助医生检测癌症、骨折等疾病。例如，GoogleDeepMind的AI系统在乳腺癌筛查中，误检率比人类专家低9.4%；中国的推想医疗AI系统可在20秒内完成肺部CT扫描分析，为急诊救治争取黄金时间。2.药物研发传统药
专题：2025云计算与AI技术研究趋势报告|附200+份报告PDF、原数据表汇总下载
原文链接：https://tecdat.cn/?p=42935关键词：2025,云计算，AI技术，市场趋势，深度学习，公有云，研究报告云计算和AI技术正以肉眼可见的速度重塑商业世界。过去十年，全球云服务收入激增8倍，中国云计算市场规模突破6000亿元，而深度学习算法的应用量更是暴涨400倍。这些数字背后，是企业从“自建机房”到“云原生开发”的转型，是AI从“实验室”走向“产业级应用”的跨越。本报告
【大模型与机器学习解惑】什么是A/B测试，为何进行A/B测试？
以下内容将围绕机器学习中的A/B测试展开，从概念与背景到实施细节、示例代码、优化思路和未来建议，并在最后给出一个整体的“输出目录”供参考。目录什么是机器学习的A/B测试为何要进行A/B测试A/B测试的实施流程示例代码与详细解释优化方向与未来建议结语1.什么是机器学习的A/B测试A/B测试（也常被称作对照试验、SplitTest）最早多用于互联网产品的功能或界面迭代中，指的是将用户或样本随机分为两组
【深度学习解惑】在实践中如何发现和修正RNN训练过程中的数值不稳定？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 人工智能 tensorflow pytorch 神经网络机器学习
在实践中发现和修正RNN训练过程中的数值不稳定目录引言与背景介绍原理解释代码说明与实现应用场景与案例分析实验设计与结果分析性能分析与技术对比常见问题与解决方案创新性与差异性说明局限性与挑战未来建议和进一步研究扩展阅读与资源推荐图示与交互性内容语言风格与通俗化表达互动交流1.引言与背景介绍循环神经网络(RNN)在处理序列数据时表现出色，但训练过程中常面临梯度消失和梯度爆炸问题，导致数值不稳定。当网络
【深度学习实战】当前三个最佳图像分类模型的代码详解云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习人工智能分类模型机器学习 Transformer EfficientNet ConvNeXt
下面给出三个在当前图像分类任务中精度表现突出的模型示例，分别基于SwinTransformer、EfficientNet与ConvNeXt。每个模型均包含：训练代码（使用PyTorch）从预训练权重开始微调（也可注释掉预训练选项，从头训练）数据集目录结构：└──dataset_root├──buy#第一类图像└──nobuy#第二类图像随机拆分：80%训练，20%验证每个Epoch输出一次loss
第35周—————糖尿病预测模型优化探索
目录目录前言1.检查GPU2.查看数据编辑3.划分数据集4.创建模型与编译训练5.编译及训练模型6.结果可视化7.总结前言本文为365天深度学习训练营中的学习记录博客原作者：K同学啊1.检查GPUimporttorch.nnasnnimporttorch.nn.functionalasFimporttorchvision,torch#设置硬件设备，如果有GPU则使用，没有则使用cpudevice=
详解LLMOps，将DevOps用于大语言模型开发
大家好，在机器学习领域，随着技术的不断发展，将大型语言模型（LLMs）集成到商业产品中已成为一种趋势，同时也带来了许多挑战。为了有效应对这些挑战，数据科学家们转向了一种新型的DevOps实践LLM-OPS，专为大型语言模型的开发和维护而设计。本文将介绍LLM-OPS的核心思想，并分析这一策略如何帮助数据科学家更高效地运用DevOps的优秀实践，从而在语言模型的开发和部署过程中，提升工作效率和成果的
搜广推校招面经九十一
美团机器学习/数据挖掘算法工程师_二面一、介绍一下ESMM模型，是否有进行过函数推导传统的转化率建模方式：只用发生点击（click=1）的样本来训练CVR模型。CVR定义如下：CVR=P(y=1∣x,z=1)CVR=P(y=1|x,z=1)CVR=P(y=1∣x,z=1)y=1表示用户发生了转化（如购买）z=1表示用户点击了广告这样做的问题：样本选择偏差（SampleSelectionBias,S
python 计算生态概览的概述
文章目录前言python计算生态库的介绍1.网络爬虫2.数据分析3.文本处理4.数据可视化5.机器学习6.图形用户界面7.游戏开发8.网络应用开发前言python计算生态概览的解释Python计算生态概览是对Python作为一门强大而广泛使用的编程语言所拥有的庞大软件集合的整体描述和概述。这个生态体系不仅包含了Python的标准库（stdlib），即随Python解释器安装的基本模块，还涵盖了极其
深度学习预备知识 AmazingMQ 深度学习人工智能
1.Tensor张量定义：张量（tensor）表示一个由数值组成的数组，这个数组可能有多个维度（轴）。具有一个轴的张量对应数学上的向量，具有两个轴的张量对应数学上的矩阵，具有两个以上轴的张量目前没有特定的数学名称。importtorch#arange创建一个行向量x，这个行向量包含以0开始的前12个整数。x=torch.arange(12)print("x=",x)#x=tensor([0,1,2
Google机器学习实践指南(模型预测偏差) AI_Auto 人工智能机器学习人工智能
Google机器学习（31）-模型预测偏差预测偏差：模型为何总是"猜不准"的真相揭秘你的模型预测准确率高达95%，却总是与实际情况差那么一点点？这可能是预测偏差在作祟！本文将带你深入探索这个被忽视的模型"隐形杀手"。一、什么是预测偏差？一个生活化案例想象一下，你网购了一个智能体重秤，连续一周称重显示都是60kg。但你去健身房用专业设备测量，实际是62kg。这种系统性的测量偏差，就是预测偏差在现实中
根茎式装配体（RA）作为下一代协同智能范式的理论、架构与应用由数入道人工智能思维框架软件工程智能体
一、引言——范式危机与新大陆的召唤1.1表征主义的黄昏：当前AI协同范式的认知天花板自艾伦·图灵在《计算机器与智能》中播下思想的种子以来，人工智能的漫长征途始终被一个强大而内隐的哲学范式所笼罩——我们称之为“表征主义”（Representationism）。这一范式，无论其外在形态如何演变，从早期的符号逻辑、专家系统，到如今风靡全球的深度学习神经网络，其核心信念从未动摇：智能的核心，在于构建一个关
面向对象面向过程 3213213333332132 java
面向对象：把要完成的一件事，通过对象间的协作实现。面向过程：把要完成的一件事，通过循序依次调用各个模块实现。我把大象装进冰箱这件事为例，用面向对象和面向过程实现，都是用java代码完成。 1、面向对象 package bigDemo.ObjectOriented; /** * 大象类 * * @Description * @author FuJian
Java Hotspot: Remove the Permanent Generation bookjovi HotSpot
openjdk上关于hotspot将移除永久带的描述非常详细，http://openjdk.java.net/jeps/122 JEP 122: Remove the Permanent Generation Author Jon Masamitsu Organization Oracle Created 2010/8/15 Updated 2011/
正则表达式向前查找向后查找,环绕或零宽断言 dcj3sjt126com 正则表达式
向前查找和向后查找 1. 向前查找：根据要匹配的字符序列后面存在一个特定的字符序列(肯定式向前查找)或不存在一个特定的序列(否定式向前查找)来决定是否匹配。.NET将向前查找称之为零宽度向前查找断言。对于向前查找，出现在指定项之后的字符序列不会被正则表达式引擎返回。 2. 向后查找：一个要匹配的字符序列前面有或者没有指定的
BaseDao 171815164 seda
import java.sql.Connection; import java.sql.DriverManager; import java.sql.SQLException; import java.sql.PreparedStatement; import java.sql.ResultSet; public class BaseDao { public Conn
Ant标签详解--Java命令 g21121 Java命令
这一篇主要介绍与java相关标签的使用终于开始重头戏了，Java部分是我们关注的重点也是项目中用处最多的部分。 1
[简单]代码片段_电梯数字排列 53873039oycg 代码
今天看电梯数字排列是9 18 26这样呈倒N排列的,写了个类似的打印例子，如下: import java.util.Arrays; public class 电梯数字排列_S3_Test { public static void main(S
Hessian原理云端月影 hessian原理
Hessian 原理分析一．远程通讯协议的基本原理网络通信需要做的就是将流从一台计算机传输到另外一台计算机，基于传输协议和网络 IO 来实现，其中传输协议比较出名的有 http 、 tcp 、 udp 等等， http 、 tcp 、 udp 都是在基于 Socket 概念上为某类应用场景而扩展出的传输协
区分Activity的四种加载模式----以及Intent的setFlags aijuans android
在多Activity开发中，有可能是自己应用之间的Activity跳转，或者夹带其他应用的可复用Activity。可能会希望跳转到原来某个Activity实例，而不是产生大量重复的Activity。这需要为Activity配置特定的加载模式，而不是使用默认的加载模式。加载模式分类及在哪里配置 Activity有四种加载模式： standard singleTop
hibernate几个核心API及其查询分析 antonyup_2006 html .net Hibernate xml 配置管理
(一) org.hibernate.cfg.Configuration类读取配置文件并创建唯一的SessionFactory对象.(一般,程序初始化hibernate时创建.) Configuration co
PL/SQL的流程控制百合不是茶 oracle PL/SQL编程循环控制
PL/SQL也是一门高级语言,所以流程控制是必须要有的,oracle数据库的pl/sql比sqlserver数据库要难,很多pl/sql中有的sqlserver里面没有流程控制; 分支语句 if 条件 then 结果 else 结果 end if ; 条件语句 case when 条件 then 结果; 循环语句 loop
强大的Mockito测试框架 bijian1013 mockito 单元测试
一.自动生成Mock类在需要Mock的属性上标记@Mock注解，然后@RunWith中配置Mockito的TestRunner或者在setUp()方法中显示调用MockitoAnnotations.initMocks(this);生成Mock类即可。二.自动注入Mock类到被测试类 &nbs
精通Oracle10编程SQL(11)开发子程序 bijian1013 oracle 数据库 plsql
/* *开发子程序 */ --子程序目是指被命名的PL/SQL块，这种块可以带有参数，可以在不同应用程序中多次调用 --PL/SQL有两种类型的子程序：过程和函数 --开发过程 --建立过程：不带任何参数 CREATE OR REPLACE PROCEDURE out_time IS BEGIN DBMS_OUTPUT.put_line(systimestamp); E
【EhCache一】EhCache版Hello World bit1129 Hello world
本篇是EhCache系列的第一篇，总体介绍使用EhCache缓存进行CRUD的API的基本使用，更细节的内容包括EhCache源代码和设计、实现原理在接下来的文章中进行介绍环境准备 1.新建Maven项目 2.添加EhCache的Maven依赖 <dependency> <groupId>ne
学习EJB3基础知识笔记白糖_ bean Hibernate jboss webservice ejb
最近项目进入系统测试阶段，全赖袁大虾领导有力，保持一周零bug记录，这也让自己腾出不少时间补充知识。花了两天时间把“传智播客EJB3.0”看完了，EJB基本的知识也有些了解，在这记录下EJB的部分知识，以供自己以后复习使用。 EJB是sun的服务器端组件模型，最大的用处是部署分布式应用程序。EJB (Enterprise JavaBean)是J2EE的一部分，定义了一个用于开发基
angular.bootstrap boyitech AngularJS AngularJS API angular中文api
angular.bootstrap 描述：手动初始化angular。这个函数会自动检测创建的module有没有被加载多次，如果有则会在浏览器的控制台打出警告日志，并且不会再次加载。这样可以避免在程序运行过程中许多奇怪的问题发生。使用方法： angular .
java-谷歌面试题-给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数 bylijinnan java
public class SearchInShiftedArray { /** * 题目：给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数。 * 请在这个特殊数组中找出给定的整数。 * 解答： * 其实就是“旋转数组”。旋转数组的最小元素见http://bylijinnan.iteye.com/bl
天使还是魔鬼？都是我们制造 ducklsl 生活教育情感
----------------------------剧透请原谅，有兴趣的朋友可以自己看看电影，互相讨论哦！！！从厦门回来的动车上，无意中瞟到了书中推荐的几部关于儿童的电影。当然，这几部电影可能会另大家失望，并不是类似小鬼当家的电影，而是关于“坏小孩”的电影！自己挑了两部先看了看，但是发现看完之后，心里久久不能平
[机器智能与生物]研究生物智能的问题 comsci 生物
我想,人的神经网络和苍蝇的神经网络,并没有本质的区别...就是大规模拓扑系统和中小规模拓扑分析的区别.... 但是,如果去研究活体人类的神经网络和脑系统,可能会受到一些法律和道德方面的限制,而且研究结果也不一定可靠,那么希望从事生物神经网络研究的朋友,不如把
获取Android Device的信息 dai_lm android
String phoneInfo = "PRODUCT: " + android.os.Build.PRODUCT; phoneInfo += ", CPU_ABI: " + android.os.Build.CPU_ABI; phoneInfo += ", TAGS: " + android.os.Build.TAGS; ph
最佳字符串匹配算法（Damerau-Levenshtein距离算法）的Java实现 datamachine java 算法字符串匹配
原文：http://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html------------------------------------------------------------------------------------------------------------
小学5年级英语单词背诵第一课 dcj3sjt126com english word
long 长的 show 给...看，出示 mouth 口，嘴 write 写 use 用，使用 take 拿，带来 hand 手 clever 聪明的 often 经常 wash 洗 slow 慢的 house 房子 water 水 clean 清洁的 supper 晚餐 out 在外 face 脸，
macvim的使用实战 dcj3sjt126com mac vim
macvim用的是mac里面的vim, 只不过是一个GUI的APP, 相当于一个壳 1. 下载macvim https://code.google.com/p/macvim/ 2. 了解macvim :h vim的使用帮助信息 :h macvim
java二分法查找蕃薯耀 java二分法查找二分法 java二分法
java二分法查找 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 11:40:03 星期二 http:/
Spring Cache注解+Memcached hanqunfeng spring memcached
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>com.google.code.simple-spring-memcached</groupId> <artifactId>simple-s
apache commons io包快速入门 jackyrong apache commons
原文参考 http://www.javacodegeeks.com/2014/10/apache-commons-io-tutorial.html Apache Commons IO 包绝对是好东西，地址在http://commons.apache.org/proper/commons-io/，下面用例子分别介绍： 1）工具类 2
如何学习编程 lampcy java 编程 C++c
首先,我想说一下学习思想.学编程其实跟网络游戏有着类似的效果.开始的时候,你会对那些代码,函数等产生很大的兴趣,尤其是刚接触编程的人,刚学习第一种语言的人.可是,当你一步步深入的时候,你会发现你没有了以前那种斗志.就好象你在玩韩国泡菜网游似的,玩到一定程度,每天就是练级练级,完全是一个想冲到高级别的意志力在支持着你.而学编程就更难了,学了两个月后,总是觉得你好象全都学会了,却又什么都做不了,又没有
架构师之spring-----spring3.0新特性的bean加载控制@DependsOn和@Lazy nannan408 Spring3
1.前言。如题。 2.描述。 @DependsOn用于强制初始化其他Bean。可以修饰Bean类或方法，使用该Annotation时可以指定一个字符串数组作为参数，每个数组元素对应于一个强制初始化的Bean。 @DependsOn({"steelAxe","abc"}) @Comp
Spring4+quartz2的配置和代码方式调度 Everyday都不同代码配置 spring4 quartz2.x 定时任务
前言：这些天简直被quartz虐哭。。因为quartz 2.x版本相比quartz1.x版本的API改动太多，所以，只好自己去查阅底层API…… quartz定时任务必须搞清楚几个概念： JobDetail——处理类 Trigger——触发器，指定触发时间，必须要有JobDetail属性，即触发对象 Scheduler——调度器，组织处理类和触发器，配置方式一般只需指定触发
Hibernate入门 tntxia Hibernate
前言使用面向对象的语言和关系型的数据库，开发起来很繁琐，费时。由于现在流行的数据库都不面向对象。Hibernate 是一个Java的ORM（Object/Relational Mapping）解决方案。 Hibernte不仅关心把Java对象对应到数据库的表中，而且提供了请求和检索的方法。简化了手工进行JDBC操作的流程。如
Math类 xiaoxing598 Math
一、Java中的数字（Math）类是final类，不可继承。 1、常数 PI：double圆周率 E：double自然对数 2、截取（注意方法的返回类型） double ceil(double d) 返回不小于d的最小整数 double floor(double d) 返回不大于d的整最大数 int round(float f) 返回四舍五入后的整数 long round

线性回归&梯度下降

什么是线性回归？

一元线性回归

多元线性回归

梯度下降

你可能感兴趣的:(机器学习&深度学习)