Annaaphq

python学习——线性回归

一、线性回归简介

1、线性回归应用场景

房价预测、销售额度预测、贷款额度预测

2、什么是线性回归

线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式

特点：只有一个自变量的情况称为单变量回归，多于一个自变量情况的叫做多元回归

2.1 单变量线性回归

一种可能的表达方式为：ℎ () = 0 + 1，因为只含有一个输入变量，因此这样的问题叫作单变量线性回归问题

ℎ 代表代表学习算法的解决方案或函数，也称为hypothesis(假设)，ℎ表示一个函数，也是模型，例如输入是房屋尺寸大小，输出是房屋的价格
代表训练集中实例的数量
代表特征/输入变量
代表目标变量/输出变量
(, ) 代表训练集中的实例
代表第个观察实例

2.2 多变量线性回归

多维特征

仍以房价模型为例，对模型增加更多的特征，例如房间的数量，楼层数和房屋的年龄等，构成一个含有多变量的模型，模型中的特征为（x1,x2,…,xn），增添更多特征后，我们引入新的注释：

n 代表特征的数量
$x^{(i)}$ 代表第i个训练实例，表示特征矩阵中的第i行，是一个向量，比如说，上图的
$x^{(2)}=\begin{pmatrix} 1416\ 3\ 2\ 40\ 232 \end{pmatrix}$
$x_{j}^{(i)}$ 代表特征矩阵中第行的第个特征，也就是第个训练实例的第个特征

这个时候的假设函数也就相应变成了：

这个公式中有n+1个参数和n个变量，为了能够使公式简化一些，引入 $x_{0}=1$ ,则公式转化为：

此时该模型中的参数和变量都是n+1维的向量，可以写成如下的形式：

$\theta =\begin{pmatrix} \theta _{0}\ \theta _{1}\ \theta _{2}\ ...\ \theta _{n} \end{pmatrix},X=\begin{pmatrix} x_{0}\ x_{1}\ x_{2}\ ...\ x_{n} \end{pmatrix}$ ,所以 $h_{\theta }(x)=\theta ^{T}X$ ,其中上标T代表矩阵的转置

特征和多项式回归

线性回归并不适用于所有的数据，有时我们需要曲线来适应我们的数据，比如是一个二次方模型，或一个三次方模型，通常我们需要先观察数据然后再决定准备尝试怎样的模型

注：如果我们采用多项式回归模型，在运行梯度下降算法前，特征缩放非常有必要 （下面）

3、线性回归步骤

假设目标值（因变量y）与特征值（自变量x）之间线性关系（即满足一个多元一次方程，如：f(x)=w1x1+…+wnxn+b.）
构建损失函数（下面）
通过损失函数的最小值，最后确定参数（最重要的一步）

4、线性回归的特征与目标的分析关系

线性回归当中主要有两种模型，一种是线性关系，另一种是非线性关系（如多变量回归中多项式）

5、优缺点

5.1优点

运算速度快：由于算法很简单，而且符合非常简洁的数学原理，不管是建模速度，还是预测速度都
是非常快的
可解释性强：由于最终我们可以得到一个函数公式，根据计算出的公式系数就可以很明确地知道每
个变量的影响大小
对线性关系拟合效果好：当然，相比之下，如果数据是非线性关系，那么就不合适了

5.2缺点

预测的精确度较低：由于获得的模型只是要求最小的损失，而不是对数据良好的拟合，所以精确度
略低
不相关的特征会影响结果：对噪声数据也比较难处理，所以在数据处理阶段需要剔除不相关的特征
以及噪声数据
容易出现过拟合：尤其在数据量较少的情况下，可能出现这种问题

二、线性回归的损失和优化

1、损失函数

不要被这个高大上的名称吓到，用一句话来解释，就是计算每一个样本点的结果值和当前的函数值的差值。当然具体到这里面，所使用的是残差平方和（Sum of Squares for Error），这是一种最常用的损失函数。如果你对具体的公式感兴趣，可以在网上查到它的具体信息，用公式表示如下：

如何去减少这个损失，使我们预测的更加准确些？存在以下的优化算法

2、优化算法

2.1 正规方程

正规方程是求代价函数最小值的一种方法

X为特征值矩阵，y为目标值矩阵。直接求到最好的结果

缺点：当特征过多过复杂时，求解速度太慢并且得不到结果

正规方程的推导：

把该损失函数转换成矩阵写法

其中y是真实值矩阵，X是特征值矩阵，w是权重矩阵

对其求解关于w的最小值，起止y,X 均已知二次函数直接求导，导数为零的位置，即为最小值。

求导：

注：式(1)到式(2)推导过程中, X是一个m行n列的矩阵，并不能保证其有逆矩阵，但是右乘XT把其变成一个方阵，保证其有逆矩阵。

式（5）到式（6）推导过程中，和上类似

2.2 梯度下降法（Gradient Descent）

梯度下降法的基本思想可以类比为一个下山的过程

假设这样一个场景：一个人被困在山上，需要从山上下来(i.e.
找到山的最低点，也就是山谷)。但此时山上的浓雾很大，导致可视度很低。因此，下山的路径就无法确定，他必须利用自己周围的信息去找到下山的路径。这个时候，他就可以利用梯度下降算法来帮助自己下山。具体来说就是，以他当前的所处的位置为基准，寻找这个位置最陡峭的地方，然后朝着山的高度下降的地方走，（同理，如果我们的目标是上山，也就是爬到山顶，那么此时应该是朝着最陡峭的方向往上走）。然后每走一段距离，都反复采用同一个方法，最后就能成功的抵达山谷

梯度下降的基本过程就和下山的场景很类似。

首先，我们有一个可微分的函数。这个函数就代表着一座山。

我们的目标就是找到这个函数的最小值，也就是山底

根据之前的场景假设，最快的下山的方式就是找到当前位置最陡峭的方向，然后沿着此方向向下走，对应到函数中，就是找到给定点的梯度
，然后朝着梯度相反的方向，就能让函数值下降的最快！因为梯度的方向就是函数之变化最快的方向。
所以，我们重复利用这个方法，反复求取梯度，最后就能到达局部的最小值，这就类似于我们下山的过程。而求取梯度就确定了最陡峭的方向，也就是场景中测量方向的手段

梯度的概念

梯度是微积分中一个很重要的概念

在单变量的函数中，梯度其实就是函数的微分，代表着函数在某个给定点的切线的斜率

在多变量函数中，梯度是一个向量，向量有方向，梯度的方向就指出了函数在给定点的上升最快的方向

这也就说明了为什么我们需要千方百计的求取梯度！我们需要到达山底，就需要在每一步观测到此时最陡峭的地方，梯度就恰巧告诉了我们这个方向。梯度的方向是函数在给定点上升最快的方向，那么梯度的反方向就是函数在给定点下降最快的方向，这正是我们所需要的。所以我们只要沿着梯度的反方向一直走，就能走到局部的最低点
梯度下降（Gradient Descent）公式：

α在梯度下降算法中被称作为学习率或者步长，意味着我们可以通过α来控制每一步走的距离，以保证不要步子跨的太大,其实就是不要走太快，错过了最低点。同时也要保证不要走的太慢，导致太阳下山了，还没有走到山下。所以α的选择在梯度下降法中往往是很重要的！α不能太大也不能太小，太小的话，可能导致迟迟走不到最低点，太大的话，会导致错过最低点，所以我们通常可以考虑尝试这些学习率： = 0.01*，* 0.03 ， 0.1 ， 0.3 ， 1 ， 3 *，*10

为什么梯度要乘以一个负号？

梯度前加一个负号，就意味着朝着梯度相反的方向前进！我们在前文提到，梯度的方向实际就是函数在此点上升最快的方向！而我们需要朝着下降最快的方向走，自然就是负的梯度的方向，所以此处需要加上负号

梯度下降和正规方程的对比:

梯度下降	正规方程
需要选择学习率	不需要
需要迭代求解	一次运算得出
特征数量较大可以使用	需要计算方程，时间复杂度高O(n3)

全梯度下降算法（FG）

计算训练集所有样本误差，对其求和再取平均值作为目标函数。

权重向量沿其梯度相反的方向移动，从而使当前目标函数减少得最多。

因为在执行每次更新时，我们需要在整个数据集上计算所有的梯度，所以批梯度下降法的速度会很慢，同时，批梯度下降法无法处理超出内存容量限制的数据集。

批梯度下降法同样也不能在线更新模型，即在运行的过程中，不能增加新的样本

其是在整个训练数据集上计算损失函数关于参数θ的梯度：

随机平均梯度下降算法（SAG）

在SG方法中，虽然避开了运算成本大的问题，但对于大数据训练而言，SG效果常不尽如人意，因为每一轮梯度更新都完全与上一轮的数据和梯度无关。

随机平均梯度算法克服了这个问题，在内存中为每一个样本都维护一个旧的梯度，随机选择第i个样本来更新此样本的梯度，其他样本的梯度保持不变，然后求得所有梯度的平均值，进而更新了参数。

如此，每一轮更新仅需计算一个样本的梯度，计算成本等同于SG，但收敛速度快得多

随机梯度下降算法（SG）

由于FG每迭代更新一次权重都需要计算所有样本误差，而实际问题中经常有上亿的训练样本，故效率偏低，且容易陷入局部最优解，因此提出了随机梯度下降算法。

其每轮计算的目标函数不再是全体样本误差，而仅是单个样本误差，即每次只代入计算一个样本目标函数的梯度来更新权重，再取下一个样本重复此过程，直到损失函数值停止下降或损失函数值小于某个可以容忍的阈值

此过程简单，高效，通常可以较好地避免更新迭代收敛到局部最优解。其迭代形式为:

每次只使用一个样本迭代，若遇上噪声则容易陷入局部最优解

其中，x(i)表示一条训练样本的特征值，y(i)表示一条训练样本的标签值

小批量梯度下降算法（mini-bantch）

小批量梯度下降算法是FG和SG的折中方案,在一定程度上兼顾了以上两种方法的优点。每次从训练样本集上随机抽取一个小样本集，在抽出来的小样本集上采用FG迭代更新权重

被抽出的小样本集所含样本点的个数称为batch_size，通常设置为2的幂次方，更有利于GPU加速处理。特别的，若batch_size=1，则变成了SG；若batch_size=n，则变成了FG.其迭代形式为：

多变量梯度下降实践：特征缩放

在我们面对多维特征问题的时候，我们要保证这些特征都具有相近的尺度，这将帮助梯度下降算法更快地收敛。以房价问题为例，假设我们使用两个特征，房屋的尺寸和房间的数量，尺寸的值为 0- 2000 平方英尺，而房间数量的值则是 0-5 ，以两个参数分别为横纵坐标，绘制代价函数的等高线图能，看出图像会显得很扁，梯度下降算法需要非常多次的迭代才能收敛

解决的方法是尝试将所有特征的尺度都尽量缩放到-1 到 1 之间，如图：

这样迭代的次数会大大降低。那么具体我们应该怎么做呢？

最简单的方法是令： $x_{n}=\frac{x_{n}-u_{n}}{s_{n}}$ ,其中， $u_{n}$ 是平均值， $s_{n}$ 是标准差。

2.3 最小二乘法

线性关系：以y = wx + b为例。我们得到了一个损失函数J(w,b)，而它很明显是一个二次函数，我们现在要想让它的值变小，甚至是想求出它的最小值，按照我们常规求二次函数的最小值的方法，我们是不是该对它求导啊，而事实也是如此，我们分别对损失函数J(w,b)的两个参数w，b求偏导(注意，这里是对w，b求导，而不是对x求偏导)，可以得到：

最后可以得到：

最小二乘法计算量过大，往往不采用，往往采用梯度下降法更多

三、欠拟合与过拟合

1、定义

过拟合：一个假设在训练数据上能够获得比其他假设更好的拟合，
但是在测试数据集上却不能很好地拟合数据，此时认为这个假设出现了过拟合的现象。(模型过于复杂)

欠拟合：一个假设在训练数据上不能获得更好的拟合，并且在测试数据集上也不能很好地拟合数据，此时认为这个假设出现了欠拟合的现象。(模型过于简单)

那么是什么原因导致模型复杂？线性回归进行训练学习的时候变成模型会变得复杂，这里就对应前面再说的线性回归的两种关系，非线性关系的数据，也就是存在很多无用的特征或者现实中的事物特征跟目标值的关系并不是简单的线性关系

2、原因及解决办法

2.1欠拟合原因及解决办法

原因：学习到数据的特征过少

解决办法：
1、添加其他特征项，有时候我们模型出现欠拟合的时候是因为特征项不够导致的，可以添加其他特征项来很好地解决。例如，“组合”、“泛化”、“相关性”三类特征是特征添加的重要手段，无论在什么场景，都可以照葫芦画瓢，总会得到意想不到的效果。除上面的特征之外，“上下文特征”、“平台特征”等等，都可以作为特征添加的首选项。
2、添加多项式特征，这个在机器学习算法里面用的很普遍，例如将线性模型通过添加二次项或者三次项使模型泛化能力更强。

2.2过拟合原因及解决办法

原因：原始特征过多，存在一些嘈杂特征，模型过于复杂是因为模型尝试去兼顾各个测试数据点。

解决办法：

1、重新清洗数据，导致过拟合的一个原因也有可能是数据不纯导致的，如果出现了过拟合就需要我们重新清洗数据。
2、增大数据的训练量，还有一个原因就是我们用于训练的数据量太小导致的，训练数据占总数据的比例过小。
3、正则化
4、减少特征维度，防止维灾难

3、正则化线性模型

3.1 正则化

在解决回归过拟合中，我们选择正则化。但是对于其他机器学习算法如分类算法来说也会出现这样的问题，除了一些算法本身作用之外（决策树、神经网络），我们更多的也是去自己做特征选择，包括之前说的删除、合并一些特征

如何解决？

在学习的时候，数据提供的特征有些影响模型复杂度或者这个特征的数据点异常较多，所以算法在学习的时候尽量减少这个特征的影响（甚至删除某个特征的影响），这就是正则化

3.2 岭回归（Ridge Regression 、又名 Tikhonov regularization）

岭回归是线性回归的正则化版本，即在原来的线性回归的 cost function 中添加正则项（regularization term）:
以达到在拟合数据的同时，使模型权重尽可能小的目的,岭回归代价函数:

α=0：岭回归退化为线性回归

sklearn.linear_model.Ridge(alpha=1.0, fit_intercept=True,solver="auto", normalize=False)

具有l2正则化的线性回归
alpha:正则化力度，也叫 λ
λ取值：0~1 1~10
solver:会根据数据自动选择优化方法
sag:如果数据集、特征都比较大，选择该随机梯度下降优化
normalize:数据是否进行标准化,normalize=False:可以在fit之前调用preprocessing.StandardScaler标准化数据
Ridge.coef_:回归权重
Ridge.intercept:回归偏置

Ridge方法相当于SGDRegressor(penalty=‘l2’, loss=“squared_loss”),只不过SGDRegressor实现了一个普通的随机梯度下降学习，推荐使用Ridge(实现了SAG)

sklearn.linear_model.RidgeCV(_BaseRidgeCV, RegressorMixin)

具有l2正则化的线性回归，可以进行交叉验证
coef_:回归系数

3.3 Lasso回归（Lasso Regression）

Lasso 回归是线性回归的另一种正则化版本，正则项为权值向量的ℓ1范数。

Lasso回归的代价函数：

备注：

Lasso Regression 的代价函数在 θi=0处是不可导的.
解决方法：在θi=0处用一个次梯度向量(subgradient vector)代替梯度，如下式
Lasso Regression 的次梯度向量

Lasso Regression 有一个很重要的性质是：倾向于完全消除不重要的权重。

例如：当α 取值相对较大时，高阶多项式退化为二次甚至是线性：高阶多项式特征的权重被置为0。

也就是说，Lasso Regression 能够自动进行特征选择，并输出一个稀疏模型（只有少数特征的权重是非零的）。

3.4 弹性网络（Elastic Net ）

弹性网络在岭回归和Lasso回归中进行了折中，通过混合比(mix ratio) r 进行控制：
弹性网络的代价函数：r=0：弹性网络变为岭回归、r=1：弹性网络便为Lasso回归

四、代码举例

1、一般线性回归

import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
import numpy as np

#生成数据。我假设了我们的数据偏移量为 2.128，并且生成了 100 个点，作为我们的样本数据
def generateData():
X = []
y = []
for i in range(0, 100):
tem_x = []
tem_x.append(i)
X.append(tem_x)
tem_y = []
tem_y.append(i + 2.128 + np.random.uniform(-15,15))
y.append(tem_y)
plt.scatter(X, y, alpha=0.6)
return X,y

#在我们的主方法中，首先使用生成样本的方法生成了我们的数据，然后这次使用了 sklearn 中自带的数
据切割方法对数据进行了切分，80% 作为训练集、20% 作为测试集。然后调用了线性回归算法，并使
用预测方法对测试数据进行预测
if __name__ == '__main__':
np.random.seed(0)
X,y = generateData()
print(len(X))
X_train,X_test, y_train, y_test = train_test_split(X, y, test_size=0.2,
random_state=0)
regressor = LinearRegression()
regressor.fit(X_train, y_train)
y_result = regressor.predict(X_test)
plt.plot(X_test, y_result, color='red',alpha=0.6, linewidth=3,
label='Predicted Line')
plt.show()

2、其他

以波士顿房价预测为例：

步骤：

数据分割与标准化处理：回归当中的数据大小不一致，是否会导致结果影响较大。所以需要做标准化处理，可参照特征缩放

回归预测：均方误差(Mean Squared Error)MSE)评价机制：

注：yi为预测值，¯y为真实值

sklearn.metrics.mean_squared_error(y_true, y_pred)
    均方误差回归损失
    y_true:真实值
    y_pred:预测值
    return:浮点数结果

线性回归的算法效果评估

代码：

from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression,SGDRegressor,Ridge,RidgeCV
from sklearn.metrics import mean_squared_error

def linear_model1():
    # 正规方程
    data = load_boston();

    x_train,x_test,y_train,y_test = train_test_split(data.data,data.target,train_size=0.8)

    transfer = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.fit_transform(x_test)

    estimator = LinearRegression()
    estimator.fit(x_train,y_train)

    y_predict = estimator.predict(x_test)

    print("预测值为：\n",y_predict)
    print("模型中的系数为：\n",estimator.coef_)
    print("模型中的偏置为：\n",estimator.intercept_)

    print("准确率为：\n",estimator.score(x_test,y_test))
    print("均方误差：\n",mean_squared_error(y_test,y_predict))

    print("模型偏置：\n",estimator.intercept_)


def linear_model2():
    # 梯度下降
    data = load_boston();

    x_train,x_test,y_train,y_test = train_test_split(data.data,data.target,train_size=0.8)

    transfer = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.fit_transform(x_test)

    estimator = SGDRegressor()
    estimator.fit(x_train,y_train)

    y_predict = estimator.predict(x_test)

    print("预测值为：\n",y_predict)
    print("模型中的系数为：\n",estimator.coef_)
    print("模型中的偏置为：\n",estimator.intercept_)

    print("准确率为：\n",estimator.score(x_test,y_test))
    print("均方误差：\n",mean_squared_error(y_test,y_predict))

    print("模型偏置：\n",estimator.intercept_)


def linear_model3():
    # 岭回归
    data = load_boston();

    x_train,x_test,y_train,y_test = train_test_split(data.data,data.target,train_size=0.8)

    transfer = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.fit_transform(x_test)

    estimator = RidgeCV(alphas=(1000,100,10,1,0.1,0.01,0.001))
    estimator.fit(x_train,y_train)

    y_predict = estimator.predict(x_test)

    print("预测值为：\n",y_predict)
    print("模型中的系数为：\n",estimator.coef_)
    print("模型中的偏置为：\n",estimator.intercept_)

    print("准确率为：\n",estimator.score(x_test,y_test))
    print("均方误差：\n",mean_squared_error(y_test,y_predict))

    print("模型偏置：\n",estimator.intercept_)

if __name__ == '__main__':
    linear_model1()
    linear_model2()
    linear_model3()

————————————————
资料来源：
CSDN博主「零陵上将军_xdr」的原创文章，遵循CC 4.0 BY-SA版权协议，附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/qq_45771939/article/details/119800382

为CSDN博主「无咎.lsy」的原创文章，遵循CC 4.0 BY-SA版权协议，附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/weixin_51781852/article/details/122627291

你可能感兴趣的:(python,学习,线性回归)

windows使用ssh-copy-id命令的解决方案爱编程的喵喵 Windows实用技巧 windows ssh ssh-copy-id 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了windows使用ssh-copy-
easyswoole学习记录司江龙 swoole PHP easyswoole swoole
php-fpm的工作方式php-fpm就是php-fastcgi进程管理器主要工作的就是mastr进程，主要和linux进行一个协调，当请求从nginx到fpm的时候，master会把请求交给自己下面管理的子进程一个池模型，问题：一个work进程内只会处理一个请求，也就是说这个进程内在同一时刻只会处理一个request请求，不会处理多个，所以一台服务器的并发数就取决于服务器开启了多少个work进程
鸿蒙NEXT版实战开发：使用WebRTC进行Web视频会议那只斑马不睡觉鸿蒙5.0 ArkWeb OpenHarmony harmonyos 华为前端 android ArkWeb
往期鸿蒙全套实战精彩文章必看内容：鸿蒙开发核心知识点，看这篇文章就够了最新版！鸿蒙HarmonyOSNext应用开发实战学习路线鸿蒙HarmonyOSNEXT开发技术最全学习路线指南鸿蒙应用开发实战项目，看这一篇文章就够了（部分项目附源码）使用WebRTC进行Web视频会议Web组件可以通过W3C标准协议接口拉起摄像头和麦克风。开发者在使用该功能时，需配置ohos.permission.CAMER
ARM架构薄记小记1——ARM架构的快速介绍 charlie114514191 嵌入式面试笔记整理计算机架构学习从0开始的学习ARMv7a IMX6ULL芯片 arm开发架构
ARM架构薄记小记1——ARM架构的快速介绍笔者最近正在简单的了解一下ARM架构，特别是ARMCortexA架构的部分，这里，笔者想要薄记的问题有这样一些，也算是简单记录一下自己学习ARM架构的记录。问题1：ARM架构的历史是如何的，以此我们可以洞察ARM架构设计的一些动机问题2：我们知道，ARM架构中常见的架构是ARMv7到ARMv9，这些架构有发生怎样的变化？每一个架构的一些纲领性的东西是什么
struts1+struts2项目兼容升级到了spring boot 2.7 和稀泥 struts spring boot java
原项目比较复杂，集成了各种框架（struts1struts2spring3等），趁工作之余练练手，学习一下springboot。大概花了一周时间才调通。一、调整jar版本，寻找合适的版本。第一步、首先原项目JDK6，要用springbootJDK肯定要升级了。原来的struts2也有漏洞了，也要升级。在不升级其他框架的情况下。jdk2117都可以运行，索性选择jdk21，反正是练手。第二步、str
python实际应用场景代码 yzx991013 python 前端服务器
1.自动化文件整理importosimportshutildeforganize_downloads_folder():download_path="/Users/YourName/Downloads"#修改为你的下载路径file_types={"Images":[".jpg",".png",".gif"],"Documents":[".pdf",".docx",".txt"],"Videos":
强化学习 Reward 百态老人算法
在强化学习中，奖励（Reward）是智能体（Agent）与环境（Environment）交互过程中获得的重要反馈信号。奖励机制在强化学习中扮演着至关重要的角色，因为它不仅指导智能体如何在环境中行动，还影响其策略的优化和最终的学习效果。奖励是智能体在执行某个动作后从环境中获得的即时反馈，用于评估该动作的好坏。这种反馈帮助智能体调整其行为策略，以期在未来获得更多的奖励。奖励可以是正数、负数或零，其或负
C++有哪些高级特性值得学习？ c++
C++是一种功能丰富且复杂的编程语言，其中许多高级特性可以帮助开发者编写更高效、更安全、更灵活的代码。以下是一些值得深入学习的C++高级特性：模板编程（Templates）模板是C++中实现泛型编程的核心机制，允许开发者编写与数据类型无关的代码。模板函数cpp复制templateTmax(Ta,Tb){return(a>b)?a:b;}优点：模板函数可以处理多种数据类型，避免了代码重复。应用场景：
python大赛对名_用100行Python爬虫代码抓取公开的足球数据玩（一）司马各 python大赛对名
在《用Python模拟2018世界杯夺冠之路》一文中，我选择从公开的足球网站用爬虫抓取数据，从而建模并模拟比赛，但是略过了爬虫的实施细节。虽然爬虫并不难做，但希望可以让更多感兴趣的朋友自己动手抓数据下来玩，提供便利，今天就把我抓取球探网的方法和Python源码拿出来分享给大家，不超过100行代码。希望球友们能快速get爬虫的技能。#-*-coding:utf-8-*-from__future__i
从入门到进阶：Python数据可视化实战技巧 Blossom.118 分布式系统与高性能计算领域信息可视化 python 开发语言网络协议 spring boot java 后端
在数据分析和数据科学领域，数据可视化是将复杂数据以直观图形展示的重要手段。Python作为数据科学领域的首选语言之一，提供了强大的数据可视化库，如Matplotlib、Seaborn、Plotly等。本文将从入门到进阶，逐步介绍Python数据可视化的实战技巧，帮助读者快速提升数据可视化能力。一、入门：Matplotlib基础Matplotlib是Python中最基础、最强大的数据可视化库之一。它
【DeepThinking】人生反思洞察之「知行合一」（经验贴）碣石潇湘无限路经验分享笔记生活人生深度思考知行合一
引言最近，我深刻体会到一种焦虑：既有生活的现实压力，也有对人生方向的迷茫与无奈。回顾自身，我发现这并不是物质层面的匮乏或欲望驱动，而是对“我是谁”“我想要什么”“我能做什么”的追问。这种焦虑，常常让我想起人的出生：起初我们依赖父母和环境，被动地活着；成年后，我们凭借主动学习、工作和不断积累的信念，去实现自我价值。但终有一天，我们会停下来审视自己，看清一些本质问题，并且发觉自己需要对这一生负责：我应
【人工智能】大模型的幻觉问题：DeepSeek 的解决策略与实践蒙娜丽宁 Python杂谈人工智能人工智能
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界大语言模型（LLM）的“幻觉”问题，即模型生成与事实不符或脱离上下文的内容，是限制其广泛应用的关键挑战之一。本文深入探讨了幻觉问题的成因，包括训练数据的偏差、推理过程中的过度泛化以及缺乏外部验证机制。以DeepSeek系列模型为研究对象，我们分析了其在解
Yolo系列之Yolo的基本理解是十一月末 YOLO python 开发语言 yolo
YOLO的基本理解目录YOLO的基本理解1YOLO1.1概念1.2算法2单、多阶段对比2.1FLOPs和FPS2.2one-stage单阶段2.3two-stage两阶段1YOLO1.1概念YOLO(YouOnlyLookOnce)是一种基于深度学习的目标检测算法，由JosephRedmon等人于2016年提出。它的核心思想是将目标检测问题转化为一个回归问题，通过一个神经网络直接预测目标的类别和位
wooyun知识库爬虫（自动整理保存为pdf）大囚长编程人生黑客帝国 spider python
#!C:\Python27\python.exe#coding=utf8importosimportpdfkitimporturllib2frombs4importBeautifulSoupfrommultiprocessingimportPoolimportsocketsocket.setdefaulttimeout(60)importsysreload(sys)sys.setdefaulten
HCIA-AI人工智能笔记3：数据预处理噗老师华为认证人工智能笔记 wpf 数据处理 AI 华为认证
统讲解数据预处理的核心技术体系，通过Python/Pandas与华为MindSpore双视角代码演示，结合特征工程优化实验，深入解析数据清洗、标准化、增强等关键环节。一、数据预处理技术全景图graphTDA[原始数据]-->B{数据清洗}B-->B1[缺失值处理]B-->B2[异常值检测]B-->B3[重复值删除]A-->C{特征工程}C-->C1[标准化/归一化]C-->C2[离散化分箱]C--
python画画加粗_Matplotlib'粗体'字体 - python weixin_39569747 python画画加粗
跟随thisexample：importnumpyasnpimportmatplotlib.pyplotaspltfig=plt.figure()fori,labelinenumerate(('A','B','C','D')):ax=fig.add_subplot(2,2,i+1)ax.text(0.05,0.95,label,transform=ax.transAxes,fontsize=16,
matplotlib使用大字体，粗线 weixin_34254823 python
2019独角兽企业重金招聘Python工程师标准>>>matplotlib在绘图时缺省的字体和线条都有些细，所以需要加粗一下importmatplotlib.pyplotaspltdefuseLargeSize(axis,marker_lines=None,fontsize='xx-large',fontproperties=None):'''将X,Y坐标轴的标签、刻度以及legend都使用大字体
六种方法教你将Python源代码打包成exe xuefeng_210 python 开发语言 linux
将Python源代码打包成可执行文件（exe）是一种常见的需求，它可以使我们的程序在没有安装Python解释器的环境中运行。在本文中，我们将介绍六种常用的方法来实现这个目标，并详细说明每种方法的使用过程。cx_Freezecx_Freeze是一个用于将Python脚本打包成可执行文件的工具。它可以将Python代码和依赖的库文件一起打包，并生成一个独立的可执行文件。使用cx_Freeze的步骤如下
Python Excel操作新玩法：从零到高手掌握openpyxl xuefeng_210 python 自动化 java
openpyxl是Python中一个强大的第三方库，用于操作Excel文件，它可以读取、写入和修改Excel文件，并且支持Excel文件中的样式、图表等元素。openpyxl使得在Python中处理Excel文件变得非常简单和高效。本文将从入门到精通地介绍openpyxl的使用方法，带你掌握在Python中处理Excel文件的技巧。目录安装和导入创建和保存Excel文件读取Excel文件写入Exc
CentOS7下安装python3.8 讓丄帝愛伱 Linux 编程语言
查看系统版本#查看系统版本cat/etc/centos-release>CentOSLinuxrelease7.2.1511(Core)uname-a>Linuxlocalhost.localdomain3.10.0-327.el7.x86_64#1SMPThuNov1922:10:57UTC2015x86_64x86_64x86_64GNU/Linux#查看python版本python-V>Py
Ubuntu18.04切换python3.8版本波波维琦 python linux ubuntu
安装python3.8sudoaptinstallpython3.8赋予python优先级sudoupdate-alternatives--install/usr/bin/pythonpython/usr/bin/python3.82切换python默认版本sudoupdate-alternatives--configpython选择python3.8的编号，回车赋予python3优先级sudou
PyTorch基础知识讲解（一）完整训练流程示例苏雨流丰机器学习 pytorch 人工智能 python 机器学习深度学习
文章目录Tutorial1.数据处理2.网络模型定义3.损失函数、模型优化、模型训练、模型评价4.模型保存、模型加载、模型推理Tutorial大多数机器学习工作流程涉及处理数据、创建模型、优化模型参数和保存训练好的模型。本教程向你介绍一个用PyTorch实现的完整的ML工作流程，并提供链接来了解这些概念中的每一个。我们将使用FashionMNIST数据集来训练一个神经网络，预测输入图像是否属于以下
Python连接StarRocks全流程实践: SQL文件调用与Pandas混合优化 ToreanonyTang python sql pandas 数据库开发语言
文章目录一环境准备与连接方法1.安装核心依赖库2.连接字符串配置3.多模式连接验证二SQL文件调用与动态执行1.外部SQL文件结构设计2.Python动态加载执行三Pandas混合使用技巧1.查询结果直接转DataFrame2.批量数据写入优化四深度性能优化策略1.StarRocks服务端优化2.Python客户端优化3.混合计算策略五完整业务场景示例1:用户转化漏斗业务场景实现代码公用表表达式(
DJANGO 中间件的白名单配置换个网名有点难 django python
在处理白名单内的多个Apps的URL链接时，可以采用以下几种方法来简化白名单的配置：1.使用reverse动态获取URL如果你在urls.py中为每个App的URL定义了名称（name参数），可以使用reverse函数动态获取这些URL，而不是硬编码路径。这样可以避免手动维护大量的路径字符串。Python复制fromdjango.urlsimportreverseclassLoginRequire
MySQL Connector / Python weixin_30369087
MySQLConnector/Python允许Python程序使用符合Python数据库API规范v2.0（PEP249）的API访问MySQL数据库。MySQLConnector/Python包括对以下内容的支持：几乎所有MySQLServer提供的功能都包括MySQLServer版本5.7。Connector/Python8.0也支持XDevAPI。有关使用XDevAPI的MySQLConne
机器学习中的贝叶斯网络：如何构建高效的风险预测模型 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术文章目录机器学习中的贝叶斯网络：如何构建高效的风险预测模型1.背景介绍2.基本概念术语说明2.1马尔科夫随机场（MarkovRandomField）2.2条件随机场（ConditionalRandomField，CRF）2.3变量elimination算法2.4贝叶斯网络3.核心算法原理和具体操作步骤以及数学公式讲解3.1原理介绍1.贝叶斯网络基础2.贝叶斯网络构建风险
基于交替方向乘法（ADMM）的PAPR约束下传输波束成形器设计的方法研究（Matlab代码实现）创新优化代码学习 matlab 前端算法
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录1概述2运行结果3参考文献4Matlab代码、数据、文章下载1概述上一次介绍的是用Python代码编程的，这次用Matlab代码实现。回顾见：基于交替方向乘法（ADMM）的PAPR约束下传输波束成形器设计的方法研究（Python代码实现）摘要本文研究了峰值平均功率比(
红宝书第十一讲：超易懂版「ES6类与继承」零基础教程：用现实例子+图解实现 kovlistudio 前端 es6 javascript 开发语言前端学习
红宝书第十一讲：超易懂版「ES6类与继承」零基础教程：用现实例子+图解实现资料取自《JavaScript高级程序设计（第5版）》。查看总目录：红宝书学习大纲一、ES6类的核心语法：把事物抽象成“模板”想象你要设计一款「动物养成游戏」，需要创建多种动物对象。ES6的class就是一个代码模板：//基础类（Animal是模板，有名称和吃东西方法）classAnimal{constructor(name
探索HTML5 Canvas的无限可能：一个丰富多彩的开源项目黎情卉Desired
探索HTML5Canvas的无限可能：一个丰富多彩的开源项目去发现同类优质开源项目:https://gitcode.com/在这个充满活力的数字时代，JavaScript、HTML和CSS已经成为构建互动式网页体验的核心技术。今天，我们向您推荐一个独特而有趣的开源项目，它将这些技术结合在一起，创造出一系列生动活泼的可视化元素，包括时钟、计时器、地图、国际象棋、温度计等，让您在学习和实践中感受HTM
网络安全-信息收集 One_Blanks 网络安全网络安全
声明学习视频来自B站UP主泷羽sec，如涉及侵权马上删除文章。笔记的只是方便各位师傅学习知识，以下网站只涉及学习内容，其他的都与本人无关，切莫逾越法律红线，否则后果自负。目录X一、Whois信息1.思路2.工具3.社工库二、搜索1.Google、bing、baidu三、Github四、搜索引擎FOFA：[https://fofa.info/](https://fofa.info/)360网络空间测
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s