weixin_39958019

怎么用python实现回归_手把手教你用Python进行回归（附代码、学习资料）-阿里云开发者社区...

我刚开始学习数据科学时，第一个接触到的算法就是线性回归。在把这个方法算法应用在到各种各样的数据集的过程中，我总结出了一些它的优点和不足。

首先，线性回归假设自变量和因变量之间存在线性关系，但实际情况却很少是这样。为了改进这个问题模型，我尝试了多项式回归，效果确实好一些(大多数情况下都是如此会改善)。但又有一个新问题：当数据集的变量太多的时候，用多项式回归很容易产生过拟合。

由于而且我建立的模型总是过于灵活，它可能在测试集上结果很好，但在那些“看不见的”数据上表现的就差强人意了。后来我看到另外一种称为样条回归的非线性方法---它将线性/多项式函数进行组合，用最终的结果来拟合数据。

在这篇文章中，我将会介绍线性回归、多项式回归的基本概念，然后详细说明关于样条回归的更多细节以及它的Python实现。

注：为了更好的理解本文中所提到的各种概念，你需要有线性回归和多项式回归的基础知识储备。这里有一些相关资料可以参考：

https://www.analyticsvidhya.com/blog/2015/08/comprehensive-guide-regression/

本文结构

了解数据

简单回顾线性回归

多项式回归：对线性会回归的改进

理解样条回归及其实现

分段阶梯函数

基函数

分段多项式

约束和样条

三次样条和自然三次样条

确定节点的数量和位置

比较样条回归和多项式回归

了解数据

为了更好的理解这些概念，我们选择了工资预测数据集来做辅助说明。你可以在这儿下载：

https://drive.google.com/file/d/1QIHCTvHQIBpilzbNxGmbdEBEbmEkMd_K/view

这个数据集是从一本最近热门的书《Introduction to Statistical learning》(http://www-bcf.usc.edu/~gareth/ISL/ ISLR%20Seventh%20Printing.pdf)上摘取下来的。

我们的数据集包括了诸如ID、出生年份、性别、婚姻状况、种族、教育程度、职业、健康状况、健康保险和工资记录这些信息。为了详细解释样条回归，我们将只用年龄作为自变量来预测工资(因变量)。

让我们开始吧：

#导入需要的包

import pandas as pd

import numpy as np

import statsmodels.api as sm

import matplotlib.pyplot as plt

%matplotlib inline

#读入数据

data = pd.read_csv("Wage.csv")

data.head()

我们会得到这样的结果：

继续：

data_x = data['age']

data_y = data['wage']

#将数据划分为训练集和验证集

from sklearn.model_selection import train_test_split

train_x, valid_x, train_y, valid_y = train_test_split(data_x, data_y, test_size=0.33, random_state = 1)

#对年龄和工资的关系进行可视化

import matplotlib.pyplot as plt

plt.scatter(train_x, train_y, facecolor='None', edgecolor='k', alpha=0.3)plt.show()

我们会得到这样的图：

看到上边这个散点图，你会想到什么？这到底是代表正相关还是负相关？或者说根本没有联系？大家可以在下方的评论区说说自己的观点。

介绍线性回归

线性回归是预测模型中最简单同时应用最广泛的统计方法。它是用来解决基于回归任务的一种监督学习方法。

这种方法建立了自变量和因变量之间线性的关系，所以被称为线性回归。主要是一个线性方程，就像下边这个式子。可以这么理解：我们的特征就是一组带系数的自变量。

这个式子中，我们认为Y是因变量，X为自变量，所有的β都是系数。这些系数即为对应特征的权重，表示了每个特征的重要性。比如说：某个预测的结果高度依赖于诸多特征中的一个(X1)，则意味着与其他所有特征相比，X1的系数(即权重)值会更高。

下面我们来试着理解一下只有一个特征的线性回归。即：只有一个自变量。它被称为简单线性回归。对应的式子是这样的：

前面提到，我们只用年龄这一个特征来预测工资，所以很显然，可以在训练集上应用简单线性回归，并且在验证集上计算该模型的误差(RMSE)

from sklearn.linear_model import LinearRegression

#拟合线性回归模型

x = train_x.reshape(-1,1)

model = LinearRegression()

model.fit(x,train_y)

print(model.coef_)

print(model.intercept_)

-> array([0.72190831])

-> 80.65287740759283

#在验证集上进行预测

valid_x = valid_x.reshape(-1,1)

pred = model.predict(valid_x)

#可视化

#我们将使用valid_x的最小值和最大值之间的70个点进行绘制

xp = np.linspace(valid_x.min(),valid_x.max(),70)

xp = xp.reshape(-1,1)

pred_plot = model.predict(xp)

plt.scatter(valid_x, valid_y, facecolor='None', edgecolor='k', alpha=0.3)

plt.plot(xp, pred_plot)

plt.show()

得出图像如下：

现在对预测出的结果算一下RMSE:

from sklearn.metrics import mean_squared_error

from math import sqrt

rms = sqrt(mean_squared_error(valid_y, pred))

print(rms)

-> 40.436

从上边的图中我们可以看出，线性回归模型并没有抓住数据的全部特点，对于工资预测问题来说，这个方法表现的并不理想。

所以结论是，尽管线性模型在描述和实现上比较简单，并且非常容易理解并应用。但它在预测能力方面还是比较有限。这是因为线性模型假定自变量和因变量之间总是存在线性关系。这个假设是很弱的，它仅仅是近似，而且在有些情况下，近似效果非常差。

在下面要提到的其他方法中，得把这种线性的假设暂且搁到一边，但也不能完全抛之脑后。我们会在这个最简单的线性模型基础上进行拓展，得到多项式回归、阶梯函数，或者更复杂一点的，比如样条回归，也会在下面进行介绍。

线性回归的改进：多项式回归

来看看这样一组可视化的图：

这些图看起来挖掘出了年龄和工资之间的更多联系。它们是非线性的，因为在建立年龄和工资模型的时候使用的是非线性等式。这种使用非线性函数的回归方法，叫做多项式回归。

多项式回归通过增加额外的预测项对简单线性模型进行了拓展。具体来讲，是将每个原始预测项提升了幂次。例如，一个三次回归使用了这样三个变量：

作为预测项。它提供了一个简单的办法来让非线性更好的拟合数据。

那这种方法是如何做到用非线性模型来代替线性模型，在自变量和因变量之间建立关系的呢？这种改进的根本，是使用了一个多项式方程取代了原来的线性关系。

from sklearn.metrics import mean_squared_error

from math import sqrt

rms = sqrt(mean_squared_error(valid_y, pred))

print(rms)

-> 40.436

但当我们增加幂次的值时，曲线开始高频震荡。这导致曲线的形状过于复杂，最终引起过拟合现象。

#为回归函数生成权重，设degree=2

weights = np.polyfit(train_x, train_y, 2)

print(weights)

-> array([ -0.05194765, 5.22868974, -10.03406116])

#根据给定的权重生成模型

model = np.poly1d(weights)

#在验证集上进行预测

pred = model(valid_x)

#我们只画出其中的70个点

xp = np.linspace(valid_x.min(),valid_x.max(),70)

pred_plot = model(xp)

plt.scatter(valid_x, valid_y, facecolor='None', edgecolor='k', alpha=0.3)

plt.plot(xp, pred_plot)

plt.show()

类似的，我们画出不同degree值对应的图:

不幸的是，多项式回归也有很多问题，随着等式的复杂性的增加，特征的数量也会增长到很难控制的地步。而且，即便是在上述这个简单的一维数据集上，多项式回归也可能会导致过拟合。

除此之外，还有其他问题。比如：多项式回归本质是非局部性的。也就是说，在训练集中改变其中一个点的y值，会影响到离这个点很远的其他数据的拟合效果。因此，为了避免在整个数据集上使用过高阶的多项式，我们可以用很多不同的低阶多项式函数来作为替代。

样条回归法及其实现

为了克服多项式回归的缺点，我们可以用另外一种改进的回归方法。这种方法没有将模型应用到整个数据集中，而是将数据集划分到多个区间，为每个区间中的数据单独拟合一个模型。这种方法被称为样条回归。

样条回归是最重要的非线性回归方法之一。在多项式回归中，我们通过在已有的特征上应用不同的多项式函数来产生新的特征，这种特征对数据集的影响是全局的。为了解决这个问题，我们可以根据数据的分布特点将其分成不同的部分，并在每一部分上拟合线性或低阶多项式函数。

进行分区的点被称为节点。我们可以用分段函数来对每个区间中的数据进行建模。有很多不同的分段函数可以用来拟合这些数据。

在下一小节中，我们会详细介绍这些函数。

分段阶梯函数

阶梯函数是一种最常见的分段函数。它的函数值在一段时间个区间内会保持一个常数不变。我们可以对不同的数据区间应用不同的阶梯函数，以免对整个数据集的结构产生影响。

在这里我们将X的值进行分段处理，并且对每一部分拟合一个不同的常数。

更具体来讲，我们设置分割点C1，C2，...Ck。在X的范围内构造K+1个新变量。

上图中的I()是一个指示函数，如果条件满足，则返回1，反之则返回0.比如当Ck≤X时，函数值I(Ck≤X)为1，反之它就等于0.。对于任意给定的值X，C1，C2，...Ck只能有一个值为非零。因为X只能被分到一个区间中。

#将数据划到四个区间中

df_cut, bins = pd.cut(train_x, 4, retbins=True, right=True)

df_cut.value_counts(sort=False)

->(17.938, 33.5] 504

(33.5, 49.0] 941

(49.0, 64.5] 511

(64.5, 80.0] 54

Name: age, dtype: int64

df_steps = pd.concat([train_x, df_cut, train_y],

keys=['age','age_cuts','wage'], axis=1)

#将讲年龄编码为哑变量

df_steps_dummies = pd.get_dummies(df_cut)

df_steps_dummies.head()

df_steps_dummies.columns = ['17.938-33.5','33.5-49','49-64.5','64.5-80']

#拟合广义线性模型

fit3 = sm.GLM(df_steps.wage, df_steps_dummies).fit()

#同样将验证集划分到四个桶中

bin_mapping = np.digitize(valid_x, bins)

X_valid = pd.get_dummies(bin_mapping)

#去掉离群点

X_valid = pd.get_dummies(bin_mapping).drop([5], axis=1)

#进行预测

pred2 = fit3.predict(X_valid)

#计算RMSE

from sklearn.metrics import mean_squared_error

from math import sqrt

rms = sqrt(mean_squared_error(valid_y, pred2))

print(rms)

->39.9

#在这我们只画出70个观察点的图

xp = np.linspace(valid_x.min(),valid_x.max()-1,70)

bin_mapping = np.digitize(xp, bins)

X_valid_2 = pd.get_dummies(bin_mapping)

pred2 = fit3.predict(X_valid_2)

#进行可视化

fig, (ax1) = plt.subplots(1,1, figsize=(12,5))

fig.suptitle('Piecewise Constant', fontsize=14)

#画出样条回归的散点图

ax1.scatter(train_x, train_y, facecolor='None', edgecolor='k', alpha=0.3)

ax1.plot(xp, pred2, c='b')

ax1.set_xlabel('age')

ax1.set_ylabel('wage')

plt.show()

但是这种分段的方法有明显的概念性问题。最明显的问题是，我们研究的大多数问题会随着输入的改变有一个连续变化的趋势。但这种方法不能构建预测变量的连续函数，因此大多数情况下，应用这种方法，首先得假定输入和输出之间没有什么关系。

例如在上面的图表中，我们可以看到，拟合第一个区间的函数显然没有捕捉到工资随年龄的增长而增长的趋势。

基函数

为了捕捉回归模型中的非线性，我们得变换部分或者全部的预测项。而为了避免将每个自变量视为线性的，我们希望有一个更普遍的“变换族”来应用到预测项中。它应该有足够的灵活性，以拟合各种各样形状的曲线(当模型合适时)，同时注意但不能过拟合。

这种可以组合在一起捕捉一般数据分布的变换被称为基函数。在这个例子中，基函数是b1(x),b2(x),...,bk(x)

此时，我们拟合的不再是一个线性模型，而是如下所示：

下面我们来看一个普遍使用的基函数：分段多项式。

分段多项式

首先，分段多项式在X的不同范围内拟合的是不同的低阶多项式，而不是像分段阶梯函数那样拟合常数。由于我们使用的多项式次数较低，因此不会观察到曲线有什么大的震荡。

比如：分段二次多项式通过拟合二次回归方程来起作用：

上式中的系数β0、β1还有β2在X的不同区间内是取值不一样的。

一个分段三次多项式，在点C处存在节点，那么它会具有以下形式：

换句话说，我们在数据上拟合了两个不同的三次多项式：一个应用于满足XiC的那部分。

第一个多项式函数的系数为： β01, β11, β21, β31，第二个系数则是 β02, β12, β22, β32。这两个多项式函数中的每一个都可以用最小均方误差来拟合。

注意：这个多项式函数有8个自由度，每个多项式有4个(因为是4个变量)。

使用的节点越多，得到的分段多项式就更加灵活，因为我们对X的每一个区间都使用不同的函数，并且这些函数仅仅与该区间中数据的分布情况相关。一般来说，如果我们在X的范围内设置K个不同的节点，最终会拟合K+1个不同的三次多项式。而且我们其实可以使用任何低阶的多项式来拟合某一段的数据。比如：可以改用分段线性函数，实际上，上面使用的阶梯函数是0阶的分段多项式。

下面我们来看看构建分段多项式时应遵循的一些必要条件和约束。

约束和样条

在使用分段多项式时，我们得非常小心，因为它有很多的限制条件。看看下边这幅图：

我们可能会遇到这种情况----节点两端的多项式在节点上不连续。这是要避免的，因为多项式应该为每一个输入生成一个唯一的输出。

上面那幅图很显然：在第一个节点处有两个不同的值。所以，为了避免这种情况，要有一个限制条件：节点两端的多项式在节点上也必须是连续的。

增加这个限制条件之后，我们得到了一组连续的多项式。但这样就够了吗？答案显然是否定的。在继续阅读下文之前，读者可以先考虑一下这个问题，看看我们是不是漏掉了什么。

观察上面的图可以发现，在节点处，曲线还是不平滑。为了得到在节点处依然光滑的曲线，我们又加了一个限制条件：两个多项式的一阶导数必须相同。要注意的一点是：我们每在分段三次多项式上增加一个约束，都相当于降了一个自由度。因为我们降低了分段多项式拟合的复杂性。因此，在上述问题中，我们只使用了10个自由度而不是12个。

在加上关于一阶导数的约束以后，我们得到了如上所示的图形。因为刚才新增加约束的缘故，它的自由度从12个减少到了8个。但即便目前曲线看起来好多了，但还有一些可以改进的空间。现在，我们又要新增加一个约束条件：两个多项式在节点处的二次导数必须相等。

这次的结果看起来真的是好多了。它进一步将自由度下降为6个。像这样具有m-1阶连续导数的m阶多项式被称为样条。所以，在上边的图中，我们实际上是建立了一个三次样条。

三次样条和自然三次样条

三次样条是具有一组额外约束(连续性、一阶导数连续性、二阶导数连续性)的分段多项式。通常，一个有K个节点的三次样条其自由度是4+K。很少会用到比三次还要高阶的样条(除非是对光滑性非常感兴趣)

from patsy import dmatrix

import statsmodels.api as sm

import statsmodels.formula.api as smf

#生成一个三节点的三次样条(25,40,60)

transformed_x = dmatrix("bs(train, knots=(25,40,60), degree=3, include_intercept=False)", {"train": train_x},return_type='dataframe')

#在数据集及上拟合广义线性模型

fit1 = sm.GLM(train_y, transformed_x).fit()

#生成一个4节点的三次样条曲线

transformed_x2 = dmatrix("bs(train, knots=(25,40,50,65),degree =3, include_intercept=False)", {"train": train_x}, return_type='dataframe')

#在数据集上拟合广义线性模型

fit2 = sm.GLM(train_y, transformed_x2).fit()

#在两个样条上均进行预测

pred1 = fit1.predict(dmatrix("bs(valid, knots=(25,40,60), include_intercept=False)", {"valid": valid_x}, return_type='dataframe'))

pred2 = fit2.predict(dmatrix("bs(valid, knots=(25,40,50,65),degree =3, include_intercept=False)", {"valid": valid_x}, return_type='dataframe'))

#计算RMSE值

valuesrms1 = sqrt(mean_squared_error(valid_y, pred1))

print(rms1)

-> 39.4

rms2 = sqrt(mean_squared_error(valid_y, pred2))

print(rms2)

-> 39.3

#我们将使用70个点进行图形的绘制

xp = np.linspace(valid_x.min(),valid_x.max(),70)

#进行一些预测

pred1 = fit1.predict(dmatrix("bs(xp, knots=(25,40,60), include_intercept=False)", {"xp": xp}, return_type='dataframe'))

pred2 = fit2.predict(dmatrix("bs(xp, knots=(25,40,50,65),degree =3, include_intercept=False)", {"xp": xp}, return_type='dataframe'))

#画出样条曲线和误差图

plt.scatter(data.age, data.wage, facecolor='None', edgecolor='k', alpha=0.1)

plt.plot(xp, pred1, label='Specifying degree =3 with 3 knots')

plt.plot(xp, pred2, color='r', label='Specifying degree =3 with 4 knots')

plt.legend()

plt.xlim(15,85)

plt.ylim(0,350)

plt.xlabel('age')

plt.ylabel('wage')

plt.show()

众所周知，多项式拟合数据在边界附近往往表现的很不稳定。这是很危险的。样条也有类似的问题。那些拟合超出边界节点数据的多项式比该区域区间中相应的全局多项式得出的结果更加让人意外。为了将这种曲线的平滑性延伸到边界之外的节点上，我们将使用被称为自然样条的特殊类型样条。

自然三次样条又多一个约束条件，即：要求函数在边界之外是线性的。这个条件将三次和二次部分变为0，每次自由度减少2个，两个端点共减少4个自由度，最后k+4减少为k。

#生成自然三次样条

transformed_x3 = dmatrix("cr(train,df = 3)", {"train": train_x}, return_type='dataframe')

fit3 = sm.GLM(train_y, transformed_x3).fit()

#在验证集上进行预测

pred3 = fit3.predict(dmatrix("cr(valid, df=3)", {"valid": valid_x}, return_type='dataframe'))

#计算RMSE的值

rms = sqrt(mean_squared_error(valid_y, pred3))

print(rms)

-> 39.44

#选取其中70个点进行作图

xp = np.linspace(valid_x.min(),valid_x.max(),70)

pred3 = fit3.predict(dmatrix("cr(xp, df=3)", {"xp": xp}, return_type='dataframe'))

#画出样条曲线

plt.scatter(data.age, data.wage, facecolor='None', edgecolor='k', alpha=0.1)

plt.plot(xp, pred3,color='g', label='Natural spline')

plt.legend()

plt.xlim(15,85)

plt.ylim(0,350)

plt.xlabel('age')

plt.ylabel('wage')

plt.show()

如何选取确定节点的数量和位置

当我们拟合一个样条曲线时，该如何选取节点呢？一个可行的方法是选择那些剧烈变化的区域，因为在这种地方，多项式的系数会迅速改变。所以，可以将在那些我们认为函数值变化剧烈的地方设置更多的节点，在比较稳定的地方少放一些。

不过虽然这种方法虽然效果还可以，但是实际上经常是以一种统一的方式来选取节点。一种方法是指定所需的自由度，然后由软件自动的将相应数量的节点放在数据的统一分位数处。

或者另一种选择是改变节点的数量，不断实践来测试到底哪一种方案会得到更好的曲线。

当然还有一种更加客观的做法-----交叉验证，要是用这种方法，我们要做到以下几点：

取走一部分数据

选择一定数量的节点使样条能拟合剩下的这些数据

再用样条去预测之前取走的那部分数据

不断重复这个过程，直到所有的数据都被取走一次。再计算整个交叉验证的RMSE。这个过程可以针对不同数量的节点进行重复，最后我们选择使得RMSE值最小的那个K值。

比较对样条回归和多项式回归进行比较

通常情况下，样条回归总是表现得的总是比多项式回归要好一些。这是因为多项式回归必须要用很高阶的项才能对数据拟合出比较灵活的模型。但是样条回归则是通过增加节点的数量做到这一点，同时还保持了阶数不变。

而且样条回归方法会得到更加稳定的模型。它允许我们在函数变化比较剧烈的地方增加更多节点，反之，函数变化平缓的地方节点就会少一些。多项式模型如果要求更灵活，它就会牺牲边界上的稳定性，但三次自然样条却很好的兼顾了灵活性和稳定性。

结语

在这篇文章中，我们学习了样条回归以及其在与线性回归及多项式回归相比时的一些优势。还有另外一种生成样条的方法叫做平滑样条。它与Ridge/Lasso正则化类似，乘惩罚结合了损失函数和平滑函数。大家可以在《统计学习入门》一书中阅读更多的内容。或者你感兴趣的话，也可以在一个具有很多变量的数据集上试试看这些方法，亲身体会一下个中差异。

译者补充

本文所有实验需要的包汇总：

原文发布时间为：2018-04-12

本文作者：GURCHETAN SINGH

本文来自云栖社区合作伙伴“数据派THU”，了解相关信息可以关注“数据派THU”。

你可能感兴趣的:(怎么用python实现回归)

【C++】：位图（bitset） -元清- 重制C++版 c++开发语言 c语言数据结构算法
目录位图的概念位图的应用场景位图的构造函数位图的使用位图的概念位图（Bitmap）是一种基于二进制位（bit）的高效数据结构，用于表示一组布尔值（存在或不存在、真或假）。它的核心思想是：用每一个二进制位（0或1）来标记某个状态或资源是否被占用。第i位为1→表示第i个元素存在/被占用。第i位为0→表示第i个元素不存在/未被占用。关键特性：内存高效：每个布尔值仅占用1个二进制位（bit），而非传统布尔
常见的数学统计模型若木胡数学模型
以下是常见的数学统计模型分类及简要说明，适用于数据分析、预测和推断等场景：1.参数模型（ParametricModels）假设数据服从特定分布（如正态分布），通过估计参数来描述数据规律。1.1线性回归模型数学形式：(y=\beta_0+\beta_1x_1+\beta_2x_2+\cdots+\beta_px_p+\epsilon)应用：预测连续型目标变量（如房价预测）。特点：简单、可解释性强，假
Spring Boot 中使用 @Transactional 注解配置事务管理 m0_74823434 面试学习路线阿里巴巴 spring boot 数据库 sql
事务管理是应用系统开发中必不可少的一部分。Spring为事务管理提供了丰富的功能支持。Spring事务管理分为编程式和声明式的两种方式。编程式事务指的是通过编码方式实现事务；声明式事务基于AOP,将具体业务逻辑与事务处理解耦。声明式事务管理使业务代码逻辑不受污染,因此在实际使用中声明式事务用的比较多。声明式事务有两种方式，一种是在配置文件（xml）中做相关的事务规则声明，另一种是基于@Transa
java for循环内执行多线程 m0_74823434 面试学习路线阿里巴巴资料职业发展 java python 开发语言后端
目录一、java用多线程来加快循环效率（推荐第3种！！！！）?第一种：线程池搭配闭锁?第二种：分页概念执行线程?第三种：分页概念执行线程进阶版！！！！一、java用多线程来加快循环效率（推荐第3种！！！！）第一种：线程池搭配闭锁涉及知识：Executors（线程池）、CountDownLatch（闭锁）优点：代码简洁，方便阅读，性能稳定；缺点：Executors创建的线程池是公用的，如果多个地方使
机器学习之KMeans算法知舟不叙机器学习算法 kmeans
文章目录引言1.KMeans算法简介2.KMeans算法的数学原理3.KMeans算法的步骤3.1初始化簇中心3.2分配数据点3.3更新簇中心3.4停止条件4.KMeans算法的优缺点4.1优点4.2缺点5.KMeans算法的应用场景5.1图像分割5.2市场细分5.3文档聚类5.4异常检测6.Python实现KMeans算法7.总结引言KMeans算法是机器学习中最经典的无监督学习算法之一，广泛应
HTML音频、视频--课后作业实践 Heetun html5
浅学了web一段时间，用浅显的知识做了一个小小的实践，各位大佬们多多包涵，指正。主要知识重现：标记语法：src:设置媒体文件的路径width、height:设置媒体文件的宽度、高度autostart:逻辑值，true为自动播放；false为不自动播放loop:逻辑值，true自动循环播放；false不循环播放2.CSS的内部样式表选择器1{属性1：属性值1；属性2：属性值2；......}选择器2
金融领域股票价格预测：线性回归原理、实现与应用 ZhShy23 python 机器学习入门实战 #机器学习 #Python学习金融线性回归机器学习
金融领域股票价格预测：线性回归原理、实现与应用一、线性回归原理线性回归是一种用于建立自变量和因变量之间线性关系的统计模型。在股票价格预测中，我们可以将一些可能影响股票价格的因素（如成交量、市场指数等）作为自变量，股票价格作为因变量，通过线性回归模型来建立它们之间的关系。线性回归的基本方程为：[y=\beta_0+\beta_1x_1+\beta_2x_2+\cdots+\beta_nx_n+\ep
【C#语言】C#中的同步与异步编程：原理、示例与最佳实践 JosieBook #C#语言 c#开发语言同步异步
文章目录⭐前言⭐一、同步编程：简单但低效的线性执行代码示例执行流程示意图同步编程特点⭐二、异步编程：非阻塞的高效执行代码示例执行流程示意图异步编程核心机制适用场景⭐三、并行异步编程：最大化性能代码示例执行流程示意图并行异步优势⭐四、同步vs异步vs并行异步：对比总结⭐五、实际开发中的选择建议何时用同步？何时用异步？何时用并行异步？⭐总结标题详情作者JosieBook头衔CSDN博客专家资格、阿里云
docker部署rabbitMQ 人间有清欢 docker docker rabbitmq
docker部署rabbitMQ如果用目录挂载会启动失败，要用数据卷挂载。dockerpullrabbitmq:3.8-management#挂载数据卷-vmq-plugins:/plugins\#设置主机名--hostnamemq\dockerrun\-eRABBITMQ_DEFAULT_USER=rabbitmq\-eRABBITMQ_DEFAULT_PASS=1234\-vmq-plugin
程序员不用写代码？DeepSeek这个隐藏功能让我惊掉下巴后端
凌晨三点半，显示器蓝光映着我的黑眼圈。就在我第18次修改接口文档时，同事老王突然在微信甩来个神秘链接："用这个，今晚能睡个好觉"。我点开那个叫DeepSeek的页面，没想到接下来的三个小时，我经历了职业生涯最魔幻的加班夜。你见过会自己写测试用例的AI吗？那天晚上，我把项目需求文档往DeepSeek的对话框一扔，它竟然像资深架构师似的，先把需求拆解成模块，接着自动生成了带注释的接口文档。最绝的是，在
集团公司邮箱格式怎么写？ html安全
在现代企业中，邮箱不仅是日常沟通的工具，更是企业形象的重要组成部分。尤其是对于集团公司来说，邮箱格式的规范性和专业性尤为重要，因为它直接影响外界对公司的第一印象。那么，集团公司邮箱的格式该如何设计？本文将从邮箱格式的重要性、常见格式设计、命名规则以及注意事项等方面为您一一解析。一、为什么集团公司邮箱格式如此重要？集团公司邮箱不仅是员工之间沟通的工具，也是对外展示企业文化和品牌形象的重要窗口。一个规
06.动态代理设计模式 java
06.动态代理设计模式目录介绍01.为何要动态代理1.1为何要动态代理1.2动态代理思考02.动态代理的概念2.1动态代理定义2.2动态代理类比理解2.3动态代理参与者2.4动态代理步骤03.动态代理的实现3.1罗列一个场景3.2用一个例子理解代理3.3基于接口动态代理3.4基于类动态代理3.5动态代理模版代码04.动态代理案例4.1动态代理和反射4.2Java中代理4.3Retrofit核心思想
企业数据存储的几种方式对比存储
在当今信息化时代，企业常见的数据存储方式包括本地存储、云存储、网络附加存储（NAS）、对象存储等，它们在安全性、扩展性与成本方面各有优势。其中，云存储凭借高弹性、低维护成本等特点备受青睐。它利用网络将数据托管于远程服务器，企业无需自建机房，也能快速扩容并进行全球化部署，极大降低了初期投入成本。这种方式实现了随用随付、自动备份，为众多中小型企业提供了便捷且经济的选择。一、本地存储本地存储是指企业将数
Python 项目自动化与 CI/CD 实践：让部署和发布像开挂一样简单全栈探索者chen python python 自动化 ci/cd 开发语言程序人生性能优化可用性测试
Python项目自动化与CI/CD实践：让部署和发布像开挂一样简单在软件开发的世界里，自动化和持续集成/持续部署（CI/CD）是超级英雄，它们不仅让我们的工作更加高效，还能避免那些令人头疼的手动操作。它们就像开发者的最佳伙伴，随时准备打击bug，拯救开发进度。那么，今天我们就来聊聊怎么在Python项目中玩转自动化和CI/CD，让你从繁琐的手动部署中解脱出来，飞速交付高质量的代码。文章目录什么是C
现在的AI，到底是背答案的高手，还是真正的会思考沐凡资源人工智能
你的孩子用AI写作业，你以为他在抄答案，但AI可能连自己都不知道答案是怎么来的。最近朋友圈被小学生用DeepSeek秒杀作业的新闻给刷屏了。家长们一方面惊叹，“这玩意儿比家教还靠谱呢”，另一方面又焦虑，“孩子会不会被AI养废啦”。这让我也产生了一个疑问：现在的AI究竟是背答案的复读机呢，还是真会推理的最强大脑？于是我搜索了很多资料来了解这件事。毕竟这事儿可不单单跟作业有关系——它对未来的AI起着决
Python零基础通关教程（二）：列表、字典与函数详解（附生活化案例）中意可口可乐 python 开发语言 windows python列表
一、前情回顾与学习路线第一篇重点复习：✅变量与数据类型✅条件判断✅循环结构本篇新知识地图：graphLRA[基础语法]-->B[列表]A-->C[字典]B-->D[函数进阶]C-->D二、列表(List)：你的数据收纳盒1.列表是什么？现实比喻：像超市购物车，可以随时添加/取出商品代码定义：用方括号[]包裹，元素用逗号分隔#创建购物车列表cart=["苹果","牛奶","面包"]print("购物
Niushop开源微信商城+小程序商城源码喵喵源码微信小程序小程序微信前端
Niushop开源微信单商户V4Niushop单商户V4版，微信商城、小程序商城，支持分销、团购、直播、秒杀、优惠券、自定义页面等众多营销功能，插件化开发，全开源，更适合二开。做最牛、功能最强大的开源商城快速搭建专属店铺，迅速展开线上业务NIUSHOP开源商城B2C单商户V4,功能强大，安全便捷，框架成熟稳定便于扩展，源码100%开源，支持二次开发定制，让企业用更低的成本、更少的人力，更快的速度构
使用AI python实现将前端angularjs工程转换成vue工程案例银行金融科技前端人工智能 python
以下是一个结合Python和AI技术实现AngularJS到Vue工程迁移的完整案例，包含关键转换策略和代码实现：案例背景目标：将使用AngularJS1.x的电商后台管理系统转换为Vue3工程，主要转换以下部分：模板语法控制器逻辑服务依赖路由配置状态管理原始AngularJS代码片段：javascript//app.jsangular.module('app',['ui.router']).co
从零开始搭量化系统：那些教程里没说的脏活累活 ZQ917 python 量化行情接口 level2
去年某天，我对着满屏的均线交叉策略发呆——回测曲线完美得能上教科书的策略，实盘跑了两周亏掉20%。后来才发现，问题出在基础行情延迟了整整5秒。这才明白过来：市面上教人写策略的教程，和真正能跑通的交易系统之间，隔着一整条马里亚纳海沟。今天要聊的，不是怎么设计策略（这种内容已经烂大街了），而是实实在在的工程难题：‌如何用最低成本把策略变成真金白银的交易‌。别担心，不需要租机房搞专线，咱们普通散户也能玩
Spring Boot项目如何使用MyBatis实现分页查询 m0_74825003 面试学习路线阿里巴巴 spring boot mybatis 数据库
写在前面：大家好！我是。如果博客中有不足或者的错误的地方欢迎在评论区或者私信我指正，感谢大家的不吝赐教。我的唯一博客更新地址是：https://ac-fun.blog.csdn.net/。非常感谢大家的支持。一起加油，冲鸭！用知识改变命运，用知识成就未来！加油(???o??)?(???o??)?文章目录为什么需要分页查询减少数据库压力减少网络传输数据量提高系统的稳定性提升用户体验原始的实现方式计算
手机抓https包安卓7以上ca证书安装方法慕城南风 android
用charles或fiddler抓app包的https接口必须要安装ca证书,才能正常抓包,安卓7之前把ca证书安装到用户证书下即可,但安卓7以上只有系统级证书才能被信任,所以为了能正常抓包,需要把ca证书安装到系统证书下流程:下载OpenSSL制作证书导入到手机准备工作:电脑安装了OpenSSL电脑安装了Charles(其他抓包工具也是一样的原理)一台已root手机(模拟器也可以,但部分app会
KV 缓存简介 dev.null AI 缓存
以下是关于KV缓存（Key-ValueCache）的简介，涵盖其定义、原理、作用及优化意义：1.什么是KV缓存？KV缓存是Transformer架构（如GPT、LLaMA等大模型）在自回归生成任务（如文本生成）中，用于加速推理过程的核心技术。其本质是：在生成序列时，缓存历史token的Key和Value矩阵，避免重复计算，从而显著减少计算量。2.为什么需要KV缓存？传统自注意力计算的问题在生成第t
C++ 树状数组 LIUJH1233 c++开发语言
一.树状数组是什么?二.树状数组的特性？可以解决大部分区间上面的修改以及查询的问题，例如1.单点修改，单点查询，2.区间修改，单点查询，3.区间查询，区间修改等问题；三.树状数组讲解lowbit的使用如何计算一个非负整数n在二进制下的最低为1及其后面的0构成的数？答案就是lowbit(x)。那么lowbit运算时怎么实现的呢？44的二进制=(101100)，我们对44的二进制数取反+1，也即~44
hashmap为什么每次扩容都是2倍？给我个面子中不哈希算法散列表 java
HashMap扩容为什么是2倍，且可以用移位操作代替与运算？在HashMap中，哈希桶（数组）的大小总是2的幂，扩容时也是原大小的2倍。这样做的主要目的是优化哈希计算，使得索引计算可以用位运算（&）替代取模（%），提高性能。1.HashMap扩容规则HashMap的数组容量始终是2的幂（16,32,64...）。扩容时，容量翻倍。索引计算采用(n-1)&hash，而不是hash%n。2.为什么扩容
kafka相关问题给我个面子中不 Java学习 kafka 分布式 java
Kafka通过事务机制与幂等性功能相结合，实现了跨会话的幂等性。以下是详细解释：kafka是怎么通过事物保证跨会话的幂等性？1.幂等性与跨会话幂等性幂等性：指相同的操作被执行多次，其结果是一样的。在Kafka中，主要是指生产者发送相同的消息不会导致重复。跨会话幂等性：在生产者会话关闭并重启后，Kafka仍能保证发送的消息不会被重复处理。2.Kafka的幂等性原理Kafka的幂等性主要通过Produ
程序员996写bug？这个AI工具让你头发越秃代码越香后端
凌晨三点的写字楼里，小王第18次按下F5刷新浏览器，控制台又跳出了新的报错信息。咖啡杯底的褐色痕迹在显示器蓝光下格外刺眼，他突然想起入职时主管说的"程序员越秃越强"，摸了摸发际线苦笑——原来这句话的潜台词是"用头发换代码"啊。直到上个月团建时，我发现隔壁工位的老张居然在团建现场掏出笔记本写代码。凑近一看，他正在用DeepSeek的智能提示功能自动补全单元测试。更气人的是，这厮今年居然还长出了新发茬
python gridfs_【已解决】用Python去连接本地mongoDB去用GridFS保存文件 weixin_39622225 python gridfs
折腾：期间，命令行方式的mongofiles去putgetdeletedelete_id等，已经基本上搞清楚了。接着就是去用Python代码，通过driver：的方式，调用API，去保存数据了。pythonmongodbgridfs需要先安装：pymongo就是这些API了。通过：发现，对于此处：➜英语资源mongod--versiondbversionv3.6.3gitversion:9586e
Golang Gin框架 go中 websocket使用 gorilla/websocket使用教程莫忘初心丶 golang gin websocket
前言公司新项目需要用websockt做及时通讯，golang语言，看了下websocket的库，选用使用人数比较多的gorilla/websocket框架介绍Gin框架是一个用Go语言编写的轻量级Web框架，而gorilla/websocket是Go语言中用于处理WebSocket的库。结合这两者可以实现在Gin应用中添加WebSocket功能。以下是一个简单的例子，演示了如何在Gin应用中使用g
斗地主老是输？一起用Python做个AI出牌器！姬姬姬姬姬姬 python 人工智能
前言最近在网上看到一个有意思的开源项目，基于快手团队开发的开源AI斗地主——DouZero做的一个“成熟”的AI，项目开源地址【https://github.com/tianqiraf/DouZero_For_HappyDouDiZhu–tianqiraf】。今天我们就一起来学习下是如何制作一个基于DouZero的出牌器，看看AI是如何来帮助斗地主的！一、核心功能设计首先这款出牌器是基于DouZe
nginx实现反向代理出现502的解决方法小白写代码hh nginx 运维
目录1.出现原因1.1.防火墙拦截了端口1.1.1.使用iptables1.1.2.使用firewall-cmd（适用于CentOS/RHEL7+）1.2.docker容器中的ip和宿主机ip不一致1.出现原因这里我是用的docker容器来进行nginx的启动的，在我们用nginx的配置进行反向代理的时候，有时候访问反向代理的url会出现BadGateway也就是坏请求，这里无非就是几种情况：这里
Linux的Initrd机制被触发 linux
Linux 的 initrd 技术是一个非常普遍使用的机制，linux2.6 内核的 initrd 的文件格式由原来的文件系统镜像文件转变成了 cpio 格式，变化不仅反映在文件格式上， linux 内核对这两种格式的 initrd 的处理有着截然的不同。本文首先介绍了什么是 initrd 技术，然后分别介绍了 Linux2.4 内核和 2.6 内核的 initrd 的处理流程。最后通过对 Lin
maven本地仓库路径修改 bitcarter maven
默认maven本地仓库路径：C:\Users\Administrator\.m2 修改maven本地仓库路径方法： 1.打开E:\maven\apache-maven-2.2.1\conf\settings.xml 2.找到
XSD和XML中的命名空间 darrenzhu xml xsd schema namespace 命名空间
http://www.360doc.com/content/12/0418/10/9437165_204585479.shtml http://blog.csdn.net/wanghuan203/article/details/9203621 http://blog.csdn.net/wanghuan203/article/details/9204337 http://www.cn
Java 求素数运算周凡杨 java 算法素数
网络上对求素数之解数不胜数，我在此总结归纳一下，同时对一些编码，加以改进，效率有成倍热提高。第一种：原理: 6N(+-)1法任何一个自然数，总可以表示成为如下的形式之一： 6N，6N+1，6N+2，6N+3，6N+4，6N+5 (N=0，1，2，…)
java 单例模式 g21121 java
想必单例模式大家都不会陌生，有如下两种方式来实现单例模式： class Singleton { private static Singleton instance=new Singleton(); private Singleton(){} static Singleton getInstance() { return instance; }
Linux下Mysql源码安装 510888780 mysql
1.假设已经有mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz (1)创建mysql的安装目录及数据库存放目录解压缩下载的源码包，目录结构，特殊指定的目录除外：
32位和64位操作系统墙头上一根草 32位和64位操作系统
32位和64位操作系统是指：CPU一次处理数据的能力是32位还是64位。现在市场上的CPU一般都是64位的，但是这些CPU并不是真正意义上的64 位CPU，里面依然保留了大部分32位的技术，只是进行了部分64位的改进。32位和64位的区别还涉及了内存的寻址方面，32位系统的最大寻址空间是2 的32次方= 4294967296（bit）= 4（GB）左右，而64位系统的最大寻址空间的寻址空间则达到了
我的spring学习笔记10-轻量级_Spring框架 aijuans Spring 3
一、问题提问： → 请简单介绍一下什么是轻量级？轻量级（Leightweight）是相对于一些重量级的容器来说的，比如Spring的核心是一个轻量级的容器，Spring的核心包在文件容量上只有不到1M大小，使用Spring核心包所需要的资源也是很少的，您甚至可以在小型设备中使用Spring。
mongodb 环境搭建及简单CURD antlove Web Install curd NoSQL mongo
一搭建mongodb环境 1. 在mongo官网下载mongodb 2. 在本地创建目录 "D:\Program Files\mongodb-win32-i386-2.6.4\data\db" 3. 运行mongodb服务 [mongod.exe --dbpath "D:\Program Files\mongodb-win32-i386-2.6.4\data\
数据字典和动态视图百合不是茶 oracle 数据字典动态视图系统和对象权限
数据字典（data dictionary）是 Oracle 数据库的一个重要组成部分，这是一组用于记录数据库信息的只读（read-only）表。随着数据库的启动而启动,数据库关闭时数据字典也关闭数据字典中包含数据库中所有方案对象（schema object）的定义(包括表，视图，索引，簇，同义词，序列，过程，函数，包，触发器等等) 数据库为一
多线程编程一般规则 bijian1013 java thread 多线程 java多线程
如果两个工两个以上的线程都修改一个对象，那么把执行修改的方法定义为被同步的，如果对象更新影响到只读方法，那么只读方法也要定义成同步的。不要滥用同步。如果在一个对象内的不同的方法访问的不是同一个数据，就不要将方法设置为synchronized的。
将文件或目录拷贝到另一个Linux系统的命令scp bijian1013 linux unix scp
一.功能说明 scp就是security copy，用于将文件或者目录从一个Linux系统拷贝到另一个Linux系统下。scp传输数据用的是SSH协议，保证了数据传输的安全，其格式如下： scp 远程用户名@IP地址：文件的绝对路径
【持久化框架MyBatis3五】MyBatis3一对多关联查询 bit1129 Mybatis3
以教员和课程为例介绍一对多关联关系，在这里认为一个教员可以叫多门课程，而一门课程只有1个教员教，这种关系在实际中不太常见，通过教员和课程是多对多的关系。示例数据：地址表： CREATE TABLE ADDRESSES ( ADDR_ID INT(11) NOT NULL AUTO_INCREMENT, STREET VAR
cookie状态判断引发的查找问题 bitcarter form cgi
先说一下我们的业务背景： 1.前台将图片和文本通过form表单提交到后台，图片我们都做了base64的编码，并且前台图片进行了压缩 2.form中action是一个cgi服务 3.后台cgi服务同时供PC，H5，APP 4.后台cgi中调用公共的cookie状态判断方法（公共的，大家都用，几年了没有问题）问题：（折腾两天。。。。） 1.PC端cgi服务正常调用，cookie判断没
通过Nginx,Tomcat访问日志(access log)记录请求耗时 ronin47
一、Nginx通过$upstream_response_time $request_time统计请求和后台服务响应时间 nginx.conf使用配置方式： log_format main '$remote_addr - $remote_user [$time_local] "$request" ''$status $body_bytes_sent "$http_r
java-67- n个骰子的点数。把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 bylijinnan java
public class ProbabilityOfDice { /** * Q67 n个骰子的点数 * 把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 * 在以下求解过程中，我们把骰子看作是有序的。 * 例如当n=2时，我们认为（1，2）和（2，1）是两种不同的情况 */ private stati
看别人的博客，觉得心情很好 Cb123456 博客心情
以为写博客，就是总结，就和日记一样吧，同时也在督促自己。今天看了好长时间博客: 职业规划: http://www.iteye.com/blogs/subjects/zhiyeguihua android学习: 1.http://byandby.i
[JWFD开源工作流]尝试用原生代码引擎实现循环反馈拓扑分析 comsci 工作流
我们已经不满足于仅仅跳跃一次，通过对引擎的升级，今天我测试了一下循环反馈模式，大概跑了200圈，引擎报一个溢出错误在一个流程图的结束节点中嵌入一段方程，每次引擎运行到这个节点的时候，通过实时编译器GM模块，计算这个方程，计算结果与预设值进行比较，符合条件则跳跃到开始节点，继续新一轮拓扑分析，直到遇到
JS常用的事件及方法 cwqcwqmax9 js
事件描述 onactivate 当对象设置为活动元素时触发。 onafterupdate 当成功更新数据源对象中的关联对象后在数据绑定对象上触发。 onbeforeactivate 对象要被设置为当前元素前立即触发。 onbeforecut 当选中区从文档中删除之前在源对象触发。 onbeforedeactivate 在 activeElement 从当前对象变为父文档其它对象之前立即
正则表达式验证日期格式 dashuaifu 正则表达式 IT其它 java其它
正则表达式验证日期格式 function isDate(d){ var v = d.match(/^(\d{4})-(\d{1,2})-(\d{1,2})$/i); if(!v) { this.focus(); return false; } } <input value="2000-8-8" onblu
Yii CModel.rules() 方法、validate预定义完整列表、以及说说验证 dcj3sjt126com yii
public array rules () {return} array 要调用 validate() 时应用的有效性规则。返回属性的有效性规则。声明验证规则，应重写此方法。每个规则是数组具有以下结构：array('attribute list', 'validator name', 'on'=>'scenario name', ...validation
UITextAttributeTextColor = deprecated in iOS 7.0 dcj3sjt126com ios
In this lesson we used the key "UITextAttributeTextColor" to change the color of the UINavigationBar appearance to white. This prompts a warning "first deprecated in iOS 7.0." Ins
判断一个数是质数的几种方法 EmmaZhao Math python
质数也叫素数，是只能被1和它本身整除的正整数，最小的质数是2，目前发现的最大的质数是p=2^57885161-1【注1】。判断一个数是质数的最简单的方法如下： def isPrime1(n): for i in range(2, n): if n % i == 0: return False return True 但是在上面的方法中有一些冗余的计算，所以
SpringSecurity工作原理小解读坏我一锅粥 SpringSecurity
SecurityContextPersistenceFilter ConcurrentSessionFilter WebAsyncManagerIntegrationFilter HeaderWriterFilter CsrfFilter LogoutFilter Use
JS实现自适应宽度的Tag切换 ini JavaScript html Web css html5
效果体验：http://hovertree.com/texiao/js/3.htm 该效果使用纯JavaScript代码，实现TAB页切换效果，TAB标签根据内容自适应宽度，点击TAB标签切换内容页。 HTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"
Hbase Rest API : 数据查询 kane_xie REST hbase
hbase（hadoop）是用java编写的，有些语言（例如python）能够对它提供良好的支持，但也有很多语言使用起来并不是那么方便，比如c#只能通过thrift访问。Rest就能很好的解决这个问题。Hbase的org.apache.hadoop.hbase.rest包提供了rest接口，它内嵌了jetty作为servlet容器。启动命令：./bin/hbase rest s
JQuery实现鼠标拖动元素移动位置（源码+注释）明子健 jquery js 源码拖动鼠标
欢迎讨论指正！ print.html代码： <!DOCTYPE html> <html> <head> <meta http-equiv=Content-Type content="text/html;charset=utf-8"> <title>发票打印</title> &l
Postgresql 连表更新字段语法 update qifeifei PostgreSQL
下面这段sql本来目的是想更新条件下的数据，可是这段sql却更新了整个表的数据。sql如下： UPDATE tops_visa.visa_order SET op_audit_abort_pass_date = now() FROM tops_visa.visa_order as t1 INNER JOIN tops_visa.visa_visitor as t2 ON t1.
将redis,memcache结合使用的方案? tcrct redis cache
公司架构上使用了阿里云的服务，由于阿里的kvstore收费相当高，打算自建，自建后就需要自己维护，所以就有了一个想法，针对kvstore(redis)及ocs(memcache)的特点，想自己开发一个cache层，将需要用到list，set，map等redis方法的继续使用redis来完成，将整条记录放在memcache下，即findbyid，save等时就memcache，其它就对应使用redi
开发中遇到的诡异的bug wudixiaotie bug
今天我们服务器组遇到个问题：我们的服务是从Kafka里面取出数据，然后把offset存储到ssdb中，每个topic和partition都对应ssdb中不同的key，服务启动之后，每次kafka数据更新我们这边收到消息，然后存储之后就发现ssdb的值偶尔是-2,这就奇怪了，最开始我们是在代码中打印存储的日志，发现没什么问题，后来去查看ssdb的日志，才发现里面每次set的时候都会对同一个key