数据分析v

手把手教你用Python进行回归（附代码、学习资料）

作者： GURCHETAN SINGH 翻译：张逸校对：丁楠雅

本文共5800字，建议阅读8分钟。
本文从线性回归、多项式回归出发，带你用Python实现样条回归。

我刚开始学习数据科学时，第一个接触到的算法就是线性回归。在把这个方法算法应用在到各种各样的数据集的过程中，我总结出了一些它的优点和不足。

首先，线性回归假设自变量和因变量之间存在线性关系，但实际情况却很少是这样。为了改进这个问题模型，我尝试了多项式回归，效果确实好一些（大多数情况下都是如此会改善）。但又有一个新问题：当数据集的变量太多的时候，用多项式回归很容易产生过拟合。

由于而且我建立的模型总是过于灵活，它可能在测试集上结果很好，但在那些“看不见的”数据上表现的就差强人意了。后来我看到另外一种称为样条回归的非线性方法---它将线性/多项式函数进行组合，用最终的结果来拟合数据。

在这篇文章中，我将会介绍线性回归、多项式回归的基本概念，然后详细说明关于样条回归的更多细节以及它的Python实现。

注：为了更好的理解本文中所提到的各种概念，你需要有线性回归和多项式回归的基础知识储备。这里有一些相关资料可以参考：

https://www.analyticsvidhya.com/blog/2015/08/comprehensive-guide-regression/

本文结构

了解数据
简单回顾线性回归
多项式回归：对线性会回归的改进
理解样条回归及其实现

分段阶梯函数

基函数
分段多项式
约束和样条
三次样条和自然三次样条
确定节点的数量和位置
比较样条回归和多项式回归

了解数据

为了更好的理解这些概念，我们选择了工资预测数据集来做辅助说明。你可以在这儿下载：

https://drive.google.com/file/d/1QIHCTvHQIBpilzbNxGmbdEBEbmEkMd_K/view

这个数据集是从一本最近热门的书《Introduction to Statistical learning》（http://www-bcf.usc.edu/~gareth/ISL/ ISLR%20Seventh%20Printing.pdf）上摘取下来的。

我们的数据集包括了诸如ID、出生年份、性别、婚姻状况、种族、教育程度、职业、健康状况、健康保险和工资记录这些信息。为了详细解释样条回归，我们将只用年龄作为自变量来预测工资（因变量）。

让我们开始吧：

#导入需要的包

import pandas as pd

import numpy as np

import statsmodels.api as sm

import matplotlib.pyplot as plt

%matplotlib inline

#读入数据

data = pd.read_csv("Wage.csv")

data.head()

我们会得到这样的结果：

继续：

data_x = data['age']

data_y = data['wage']

#将数据划分为训练集和验证集

from sklearn.model_selection import train_test_split

train_x, valid_x, train_y, valid_y = train_test_split(data_x, data_y, test_size=0.33, random_state = 1)

#对年龄和工资的关系进行可视化

import matplotlib.pyplot as plt

plt.scatter(train_x, train_y, facecolor='None', edgecolor='k', alpha=0.3)plt.show()

我们会得到这样的图：

看到上边这个散点图，你会想到什么？这到底是代表正相关还是负相关？或者说根本没有联系？大家可以在下方的评论区说说自己的观点。

介绍线性回归

线性回归是预测模型中最简单同时应用最广泛的统计方法。它是用来解决基于回归任务的一种监督学习方法。

这种方法建立了自变量和因变量之间线性的关系，所以被称为线性回归。主要是一个线性方程，就像下边这个式子。可以这么理解：我们的特征就是一组带系数的自变量。

这个式子中，我们认为Y是因变量，X为自变量，所有的β都是系数。这些系数即为对应特征的权重，表示了每个特征的重要性。比如说：某个预测的结果高度依赖于诸多特征中的一个（X1），则意味着与其他所有特征相比，X1的系数（即权重）值会更高。

下面我们来试着理解一下只有一个特征的线性回归。即：只有一个自变量。它被称为简单线性回归。对应的式子是这样的：

前面提到，我们只用年龄这一个特征来预测工资，所以很显然，可以在训练集上应用简单线性回归，并且在验证集上计算该模型的误差（RMSE）

from sklearn.linear_model import LinearRegression

#拟合线性回归模型

x = train_x.reshape(-1,1)

model = LinearRegression()

model.fit(x,train_y)

print(model.coef_)

print(model.intercept_)

-> array([0.72190831])

-> 80.65287740759283

#在验证集上进行预测

valid_x = valid_x.reshape(-1,1)

pred = model.predict(valid_x)

#可视化

#我们将使用valid_x的最小值和最大值之间的70个点进行绘制

xp = np.linspace(valid_x.min(),valid_x.max(),70)

xp = xp.reshape(-1,1)

pred_plot = model.predict(xp)

plt.scatter(valid_x, valid_y, facecolor='None', edgecolor='k', alpha=0.3)

plt.plot(xp, pred_plot)

plt.show()

得出图像如下：

现在对预测出的结果算一下RMSE:

from sklearn.metrics import mean_squared_error

from math import sqrt

rms = sqrt(mean_squared_error(valid_y, pred))

print(rms)

-> 40.436

从上边的图中我们可以看出，线性回归模型并没有抓住数据的全部特点，对于工资预测问题来说，这个方法表现的并不理想。

所以结论是，尽管线性模型在描述和实现上比较简单，并且非常容易理解并应用。但它在预测能力方面还是比较有限。这是因为线性模型假定自变量和因变量之间总是存在线性关系。这个假设是很弱的，它仅仅是近似，而且在有些情况下，近似效果非常差。

在下面要提到的其他方法中，得把这种线性的假设暂且搁到一边，但也不能完全抛之脑后。我们会在这个最简单的线性模型基础上进行拓展，得到多项式回归、阶梯函数，或者更复杂一点的，比如样条回归，也会在下面进行介绍。

线性回归的改进：多项式回归

来看看这样一组可视化的图：

这些图看起来挖掘出了年龄和工资之间的更多联系。它们是非线性的，因为在建立年龄和工资模型的时候使用的是非线性等式。这种使用非线性函数的回归方法，叫做多项式回归。

多项式回归通过增加额外的预测项对简单线性模型进行了拓展。具体来讲，是将每个原始预测项提升了幂次。例如，一个三次回归使用了这样三个变量：作为预测项。它提供了一个简单的办法来让非线性更好的拟合数据。

那这种方法是如何做到用非线性模型来代替线性模型，在自变量和因变量之间建立关系的呢？这种改进的根本，是使用了一个多项式方程取代了原来的线性关系。

但当我们增加幂次的值时，曲线开始高频震荡。这导致曲线的形状过于复杂，最终引起过拟合现象。

#为回归函数生成权重，设degree=2

weights = np.polyfit(train_x, train_y, 2)

print(weights)

-> array([ -0.05194765, 5.22868974, -10.03406116])

#根据给定的权重生成模型

model = np.poly1d(weights)

#在验证集上进行预测

pred = model(valid_x)

#我们只画出其中的70个点

xp = np.linspace(valid_x.min(),valid_x.max(),70)

pred_plot = model(xp)

plt.scatter(valid_x, valid_y, facecolor='None', edgecolor='k', alpha=0.3)

plt.plot(xp, pred_plot)

plt.show()

类似的，我们画出不同degree值对应的图:

不幸的是，多项式回归也有很多问题，随着等式的复杂性的增加，特征的数量也会增长到很难控制的地步。而且，即便是在上述这个简单的一维数据集上，多项式回归也可能会导致过拟合。

除此之外，还有其他问题。比如：多项式回归本质是非局部性的。也就是说，在训练集中改变其中一个点的y值，会影响到离这个点很远的其他数据的拟合效果。因此，为了避免在整个数据集上使用过高阶的多项式，我们可以用很多不同的低阶多项式函数来作为替代。

样条回归法及其实现

为了克服多项式回归的缺点，我们可以用另外一种改进的回归方法。这种方法没有将模型应用到整个数据集中，而是将数据集划分到多个区间，为每个区间中的数据单独拟合一个模型。这种方法被称为样条回归。

样条回归是最重要的非线性回归方法之一。在多项式回归中，我们通过在已有的特征上应用不同的多项式函数来产生新的特征，这种特征对数据集的影响是全局的。为了解决这个问题，我们可以根据数据的分布特点将其分成不同的部分，并在每一部分上拟合线性或低阶多项式函数。

进行分区的点被称为节点。我们可以用分段函数来对每个区间中的数据进行建模。有很多不同的分段函数可以用来拟合这些数据。

在下一小节中，我们会详细介绍这些函数。

分段阶梯函数

阶梯函数是一种最常见的分段函数。它的函数值在一段时间个区间内会保持一个常数不变。我们可以对不同的数据区间应用不同的阶梯函数，以免对整个数据集的结构产生影响。

在这里我们将X的值进行分段处理，并且对每一部分拟合一个不同的常数。

更具体来讲，我们设置分割点C1，C2，...Ck。在X的范围内构造K+1个新变量。

上图中的I()是一个指示函数，如果条件满足，则返回1，反之则返回0.比如当Ck≤X时，函数值I(Ck≤X)为1，反之它就等于0.。对于任意给定的值X，C1，C2，...Ck只能有一个值为非零。因为X只能被分到一个区间中。

#将数据划到四个区间中

df_cut, bins = pd.cut(train_x, 4, retbins=True, right=True)

df_cut.value_counts(sort=False)

->(17.938, 33.5] 504

(33.5, 49.0] 941

(49.0, 64.5] 511

(64.5, 80.0] 54

Name: age, dtype: int64

df_steps = pd.concat([train_x, df_cut, train_y],

keys=['age','age_cuts','wage'], axis=1)

#将讲年龄编码为哑变量

df_steps_dummies = pd.get_dummies(df_cut)

df_steps_dummies.head()

df_steps_dummies.columns = ['17.938-33.5','33.5-49','49-64.5','64.5-80']

#拟合广义线性模型

fit3 = sm.GLM(df_steps.wage, df_steps_dummies).fit()

#同样将验证集划分到四个桶中

bin_mapping = np.digitize(valid_x, bins)

X_valid = pd.get_dummies(bin_mapping)

#去掉离群点

X_valid = pd.get_dummies(bin_mapping).drop([5], axis=1)

#进行预测

pred2 = fit3.predict(X_valid)

#计算RMSE

from sklearn.metrics import mean_squared_error

from math import sqrt

rms = sqrt(mean_squared_error(valid_y, pred2))

print(rms)

->39.9

#在这我们只画出70个观察点的图

xp = np.linspace(valid_x.min(),valid_x.max()-1,70)

bin_mapping = np.digitize(xp, bins)

X_valid_2 = pd.get_dummies(bin_mapping)

pred2 = fit3.predict(X_valid_2)

#进行可视化

fig, (ax1) = plt.subplots(1,1, figsize=(12,5))

fig.suptitle('Piecewise Constant', fontsize=14)

#画出样条回归的散点图

ax1.scatter(train_x, train_y, facecolor='None', edgecolor='k', alpha=0.3)

ax1.plot(xp, pred2, c='b')

ax1.set_xlabel('age')

ax1.set_ylabel('wage')

plt.show()

但是这种分段的方法有明显的概念性问题。最明显的问题是，我们研究的大多数问题会随着输入的改变有一个连续变化的趋势。但这种方法不能构建预测变量的连续函数，因此大多数情况下，应用这种方法，首先得假定输入和输出之间没有什么关系。

例如在上面的图表中，我们可以看到，拟合第一个区间的函数显然没有捕捉到工资随年龄的增长而增长的趋势。

基函数

为了捕捉回归模型中的非线性，我们得变换部分或者全部的预测项。而为了避免将每个自变量视为线性的，我们希望有一个更普遍的“变换族”来应用到预测项中。它应该有足够的灵活性，以拟合各种各样形状的曲线（当模型合适时），同时注意但不能过拟合。

这种可以组合在一起捕捉一般数据分布的变换被称为基函数。在这个例子中，基函数是b1(x),b2(x),...,bk(x)

此时，我们拟合的不再是一个线性模型，而是如下所示：

下面我们来看一个普遍使用的基函数：分段多项式。

分段多项式

首先，分段多项式在X的不同范围内拟合的是不同的低阶多项式，而不是像分段阶梯函数那样拟合常数。由于我们使用的多项式次数较低，因此不会观察到曲线有什么大的震荡。

比如：分段二次多项式通过拟合二次回归方程来起作用：

上式中的系数β0、β1还有β2在X的不同区间内是取值不一样的。

一个分段三次多项式，在点C处存在节点，那么它会具有以下形式：

换句话说，我们在数据上拟合了两个不同的三次多项式：一个应用于满足XiC的那部分。

第一个多项式函数的系数为： β01, β11, β21, β31，第二个系数则是 β02, β12, β22, β32。这两个多项式函数中的每一个都可以用最小均方误差来拟合。

注意：这个多项式函数有8个自由度，每个多项式有4个（因为是4个变量）。

使用的节点越多，得到的分段多项式就更加灵活，因为我们对X的每一个区间都使用不同的函数，并且这些函数仅仅与该区间中数据的分布情况相关。一般来说，如果我们在X的范围内设置K个不同的节点，最终会拟合K+1个不同的三次多项式。而且我们其实可以使用任何低阶的多项式来拟合某一段的数据。比如：可以改用分段线性函数，实际上，上面使用的阶梯函数是0阶的分段多项式。

下面我们来看看构建分段多项式时应遵循的一些必要条件和约束。

约束和样条

在使用分段多项式时，我们得非常小心，因为它有很多的限制条件。看看下边这幅图：

我们可能会遇到这种情况----节点两端的多项式在节点上不连续。这是要避免的，因为多项式应该为每一个输入生成一个唯一的输出。

上面那幅图很显然：在第一个节点处有两个不同的值。所以，为了避免这种情况，要有一个限制条件：节点两端的多项式在节点上也必须是连续的。

增加这个限制条件之后，我们得到了一组连续的多项式。但这样就够了吗？答案显然是否定的。在继续阅读下文之前，读者可以先考虑一下这个问题，看看我们是不是漏掉了什么。

观察上面的图可以发现，在节点处，曲线还是不平滑。为了得到在节点处依然光滑的曲线，我们又加了一个限制条件：两个多项式的一阶导数必须相同。要注意的一点是：我们每在分段三次多项式上增加一个约束，都相当于降了一个自由度。因为我们降低了分段多项式拟合的复杂性。因此，在上述问题中，我们只使用了10个自由度而不是12个。

在加上关于一阶导数的约束以后，我们得到了如上所示的图形。因为刚才新增加约束的缘故，它的自由度从12个减少到了8个。但即便目前曲线看起来好多了，但还有一些可以改进的空间。现在，我们又要新增加一个约束条件：两个多项式在节点处的二次导数必须相等。

这次的结果看起来真的是好多了。它进一步将自由度下降为6个。像这样具有m-1阶连续导数的m阶多项式被称为样条。所以，在上边的图中，我们实际上是建立了一个三次样条。

三次样条和自然三次样条

三次样条是具有一组额外约束（连续性、一阶导数连续性、二阶导数连续性）的分段多项式。通常，一个有K个节点的三次样条其自由度是4+K。很少会用到比三次还要高阶的样条（除非是对光滑性非常感兴趣）

from patsy import dmatrix

import statsmodels.api as sm

import statsmodels.formula.api as smf

#生成一个三节点的三次样条（25,40,60）

transformed_x = dmatrix("bs(train, knots=(25,40,60), degree=3, include_intercept=False)", {"train": train_x},return_type='dataframe')

#在数据集及上拟合广义线性模型

fit1 = sm.GLM(train_y, transformed_x).fit()

#生成一个4节点的三次样条曲线

transformed_x2 = dmatrix("bs(train, knots=(25,40,50,65),degree =3, include_intercept=False)", {"train": train_x}, return_type='dataframe')

#在数据集上拟合广义线性模型

fit2 = sm.GLM(train_y, transformed_x2).fit()

#在两个样条上均进行预测

pred1 = fit1.predict(dmatrix("bs(valid, knots=(25,40,60), include_intercept=False)", {"valid": valid_x}, return_type='dataframe'))

pred2 = fit2.predict(dmatrix("bs(valid, knots=(25,40,50,65),degree =3, include_intercept=False)", {"valid": valid_x}, return_type='dataframe'))

#计算RMSE值

valuesrms1 = sqrt(mean_squared_error(valid_y, pred1))

print(rms1)

-> 39.4

rms2 = sqrt(mean_squared_error(valid_y, pred2))

print(rms2)

-> 39.3

#我们将使用70个点进行图形的绘制

xp = np.linspace(valid_x.min(),valid_x.max(),70)

#进行一些预测

pred1 = fit1.predict(dmatrix("bs(xp, knots=(25,40,60), include_intercept=False)", {"xp": xp}, return_type='dataframe'))

pred2 = fit2.predict(dmatrix("bs(xp, knots=(25,40,50,65),degree =3, include_intercept=False)", {"xp": xp}, return_type='dataframe'))

#画出样条曲线和误差图

plt.scatter(data.age, data.wage, facecolor='None', edgecolor='k', alpha=0.1)

plt.plot(xp, pred1, label='Specifying degree =3 with 3 knots')

plt.plot(xp, pred2, color='r', label='Specifying degree =3 with 4 knots')

plt.legend()

plt.xlim(15,85)

plt.ylim(0,350)

plt.xlabel('age')

plt.ylabel('wage')

plt.show()

众所周知，多项式拟合数据在边界附近往往表现的很不稳定。这是很危险的。样条也有类似的问题。那些拟合超出边界节点数据的多项式比该区域区间中相应的全局多项式得出的结果更加让人意外。为了将这种曲线的平滑性延伸到边界之外的节点上，我们将使用被称为自然样条的特殊类型样条。

自然三次样条又多一个约束条件，即：要求函数在边界之外是线性的。这个条件将三次和二次部分变为0，每次自由度减少2个，两个端点共减少4个自由度，最后k+4减少为k。

#生成自然三次样条

transformed_x3 = dmatrix("cr(train,df = 3)", {"train": train_x}, return_type='dataframe')

fit3 = sm.GLM(train_y, transformed_x3).fit()

#在验证集上进行预测

pred3 = fit3.predict(dmatrix("cr(valid, df=3)", {"valid": valid_x}, return_type='dataframe'))

#计算RMSE的值

rms = sqrt(mean_squared_error(valid_y, pred3))

print(rms)

-> 39.44

#选取其中70个点进行作图

xp = np.linspace(valid_x.min(),valid_x.max(),70)

pred3 = fit3.predict(dmatrix("cr(xp, df=3)", {"xp": xp}, return_type='dataframe'))

#画出样条曲线

plt.scatter(data.age, data.wage, facecolor='None', edgecolor='k', alpha=0.1)

plt.plot(xp, pred3,color='g', label='Natural spline')

plt.legend()

plt.xlim(15,85)

plt.ylim(0,350)

plt.xlabel('age')

plt.ylabel('wage')

plt.show()

如何选取确定节点的数量和位置

当我们拟合一个样条曲线时，该如何选取节点呢？一个可行的方法是选择那些剧烈变化的区域，因为在这种地方，多项式的系数会迅速改变。所以，可以将在那些我们认为函数值变化剧烈的地方设置更多的节点，在比较稳定的地方少放一些。

不过虽然这种方法虽然效果还可以，但是实际上经常是以一种统一的方式来选取节点。一种方法是指定所需的自由度，然后由软件自动的将相应数量的节点放在数据的统一分位数处。

或者另一种选择是改变节点的数量，不断实践来测试到底哪一种方案会得到更好的曲线。

当然还有一种更加客观的做法-----交叉验证，要是用这种方法，我们要做到以下几点：

取走一部分数据
选择一定数量的节点使样条能拟合剩下的这些数据
再用样条去预测之前取走的那部分数据

不断重复这个过程，直到所有的数据都被取走一次。再计算整个交叉验证的RMSE。这个过程可以针对不同数量的节点进行重复，最后我们选择使得RMSE值最小的那个K值。

比较对样条回归和多项式回归进行比较

通常情况下，样条回归总是表现得的总是比多项式回归要好一些。这是因为多项式回归必须要用很高阶的项才能对数据拟合出比较灵活的模型。但是样条回归则是通过增加节点的数量做到这一点，同时还保持了阶数不变。

而且样条回归方法会得到更加稳定的模型。它允许我们在函数变化比较剧烈的地方增加更多节点，反之，函数变化平缓的地方节点就会少一些。多项式模型如果要求更灵活，它就会牺牲边界上的稳定性，但三次自然样条却很好的兼顾了灵活性和稳定性。

结语

在这篇文章中，我们学习了样条回归以及其在与线性回归及多项式回归相比时的一些优势。还有另外一种生成样条的方法叫做平滑样条。它与Ridge/Lasso正则化类似，乘惩罚结合了损失函数和平滑函数。大家可以在《统计学习入门》一书中阅读更多的内容。或者你感兴趣的话，也可以在一个具有很多变量的数据集上试试看这些方法，亲身体会一下个中差异。

译者补充

本文所有实验需要的包汇总：

原文标题：Introduction to Regression Splines (with Python codes)

原文链接：https://www.analyticsvidhya.com /blog/2018/03/introduction-regression-splines-python-codes/

译者简介:张逸，中国传媒大学大三在读，主修数字媒体技术。对数据科学充满好奇，感慨于它创造出来的新世界。目前正在摸索和学习中，希望自己勇敢又热烈，学最有意思的知识，交最志同道合的朋友。

END

关联阅读：

原创系列文章：

1：从0开始搭建自己的数据运营指标体系（概括篇）

2 ：从0开始搭建自己的数据运营指标体系（定位篇）

3 ：从0开始搭建自己的数据运营体系（业务理解篇）

4 ：数据指标的构建流程与逻辑

5 ：系列：从数据指标到数据运营指标体系

6: 实战：为自己的公号搭建一个数据运营指标体系

7: 从0开始搭建自己的数据运营指标体系（运营活动分析）

数据运营关联文章阅读：

运营入门，从0到1搭建数据分析知识体系

推荐：数据分析师与运营协作的9个好习惯

干货：手把手教你搭建数据化用户运营体系

推荐：最用心的运营数据指标解读

干货 : 如何构建数据运营指标体系

从零开始，构建数据化运营体系

干货：解读产品、运营和数据三个基友关系

干货：从0到1搭建数据运营体系

数据分析、数据产品 关联文章阅读：

干货：数据分析团队的搭建和思考

关于用户画像那些事，看这一文章就够了

数据分析师必需具备的10种分析思维。

如何构建大数据层级体系，看这一文章就够了

干货：聚焦于用户行为分析的数据产品

如何构建大数据层级体系，看这一文章就够了

80%的运营注定了打杂？因为你没有搭建出一套有效的用户运营体系

从底层到应用，那些数据人的必备技能

读懂用户运营体系：用户分层和分群

做运营必须掌握的数据分析思维，你还敢说不会做数据分析

你可能感兴趣的:(手把手教你用Python进行回归（附代码、学习资料）)

QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
关于沟通这件事，项目经理不需要每次都面对面进行流程大师兄
很多项目经理都会遇到这样的问题，项目中由于事情太多，根本没有足够的时间去召开会议，那在这种情况下如何去有效地管理项目中的利益相关者？当然，不建议电子邮件也不需要开会的话，建议可以采取下面几种方式来形成有效的沟通，这几种方式可以帮助你努力的通过各种办法来保持和各方面的联系。项目经理首先要问自己几个问题，项目中哪些利益相关者是必须要进行沟通的？可以列出项目中所有的利益相关者清单，同时也整理出项目中哪些
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
如何在 Fork 的 GitHub 项目中保留自己的修改并同步上游更新？github_fork_update iBaoxing github
如何在Fork的GitHub项目中保留自己的修改并同步上游更新？在GitHub上Fork了一个项目后，你可能会对项目进行一些修改，同时原作者也在不断更新。如果想要在保留自己修改的基础上，同步原作者的最新更新，很多人会不知所措。本文将详细讲解如何在不丢失自己改动的情况下，将上游仓库的更新合并到自己的仓库中。问题描述假设你在GitHub上Fork了一个项目，并基于该项目做了一些修改，随后你发现原作者对
html 中如何使用 uniapp 的部分方法某公司摸鱼前端 html uni-app 前端
示例代码：Documentconsole.log(window);效果展示：好了，现在就可以uni.使用相关的方法了
回溯 Leetcode 332 重新安排行程 mmaerd Leetcode刷题学习记录 leetcode 算法职场和发展
重新安排行程Leetcode332学习记录自代码随想录给你一份航线列表tickets，其中tickets[i]=[fromi,toi]表示飞机出发和降落的机场地点。请你对该行程进行重新规划排序。所有这些机票都属于一个从JFK（肯尼迪国际机场）出发的先生，所以该行程必须从JFK开始。如果存在多种有效的行程，请你按字典排序返回最小的行程组合。例如，行程[“JFK”,“LGA”]与[“JFK”,“LGB
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
第四天旅游线路预览——从换乘中心到喀纳斯湖陟彼高冈yu 基于Google earth studio 的旅游规划和预览旅游
第四天：从贾登峪到喀纳斯风景区入口，晚上住宿贾登峪；换乘中心有4路车，喀纳斯①号车，去喀纳斯湖，路程时长约5分钟；将上面的的行程安排进行动态展示，具体步骤见”Googleearthstudio进行动态轨迹显示制作过程“、“Googleearthstudio入门教程”和“Googleearthstudio进阶教程“相关内容，得到行程如下所示：Day4-2-480p
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
2020.11.19 隆非凡
日精进，今日体验：在维修过程中遇到的问题，把源头找到，在进行下一步开始。不要停留在一个点上，合理调整心态，把当下事做好。
使用 FinalShell 进行远程连接（ssh 远程连接 Linux 服务器）编程经验分享开发工具服务器 ssh linux
目录前言基本使用教程新建远程连接连接主机自定义命令路由追踪前言后端开发，必然需要和服务器打交道，部署应用，排查问题，查看运行日志等等。一般服务器都是集中部署在机房中，也有一些直接是云服务器，总而言之，程序员不可能直接和服务器直接操作，一般都是通过ssh连接来登录服务器。刚接触远程连接时，使用的是XSHELL来远程连接服务器，连接上就能够操作远程服务器了，但是仅用XSHELL并没有上传下载文件的功能
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
数组去重好奇的猫猫猫
整理自js中基础数据结构数组去重问题思考？如何去除数组中重复的项例如数组：[1,3,4,3,5]我们在做去重的时候，一开始想到的肯定是，逐个比较，外面一层循环，内层后一个与前一个一比较，如果是久不将当前这一项放进新的数组，挨个比较完之后返回一个新的去过重复的数组不好的实践方式上述方法效率极低，代码量还多，思考？有没有更好的方法这时候不禁一想当然有了！！！hashtable啊，通过对象的hash办法
GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
springmvc 下 freemarker页面枚举的遍历输出杨白白 enum freemarker
spring mvc freemarker 中遍历枚举 1枚举类型有一个本地方法叫values（），这个方法可以直接返回枚举数组。所以可以利用这个遍历。 enum public enum BooleanEnum { TRUE(Boolean.TRUE, "是"), FALSE(Boolean.FALSE, "否");
实习简要总结 byalias 工作
来白虹不知不觉中已经一个多月了，因为项目还在需求分析及项目架构阶段，自己在这段时间都是在学习相关技术知识，现在对这段时间的工作及学习情况做一个总结：（1）工作技能方面大体分为两个阶段，Java Web 基础阶段和Java EE阶段 1）Java Web阶段在这个阶段，自己主要着重学习了 JSP, Servlet, JDBC, MySQL，这些知识的核心点都过了一遍，也
Quartz——DateIntervalTrigger触发器 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208559 一.概述 simpleTrigger 内部实现机制是通过计算间隔时间来计算下次的执行时间，这就导致他有不适合调度的定时任务。例如我们想每天的 1：00AM 执行任务，如果使用 SimpleTrigger，间隔时间就是一天。注意这里就会有一个问题，即当有 misfired 的任务并且恢复执行时，该执行时间
Unix快捷键 18289753290 unix Unix；快捷键;
复制，删除，粘贴： dd:删除光标所在的行 &nbs
获取Android设备屏幕的相关参数酷的飞上天空 android
包含屏幕的分辨率以及屏幕宽度的最大dp 高度最大dp TextView text = (TextView)findViewById(R.id.text); DisplayMetrics dm = new DisplayMetrics(); text.append("getResources().ge
要做物联网？先保护好你的数据蓝儿唯美数据
根据Beecham Research的说法，那些在行业中希望利用物联网的关键领域需要提供更好的安全性。在Beecham的物联网安全威胁图谱上，展示了那些可能产生内外部攻击并且需要通过快速发展的物联网行业加以解决的关键领域。 Beecham Research的技术主管Jon Howes说：“之所以我们目前还没有看到与物联网相关的严重安全事件，是因为目前还没有在大型客户和企业应用中进行部署，也就
Java取模（求余）运算随便小屋 java
整数之间的取模求余运算很好求，但几乎没有遇到过对负数进行取模求余，直接看下面代码： /** * * @author Logic * */ public class Test { public static void main(String[] args) { // TODO A
SQL注入介绍 aijuans sql注入
二、SQL注入范例这里我们根据用户登录页面 <form action="" > 用户名：<input type="text" name="username"><br/> 密码：<input type="password" name="passwor
优雅代码风格 aoyouzi 代码
总结了几点关于优雅代码风格的描述：代码简单：不隐藏设计者的意图，抽象干净利落，控制语句直截了当。接口清晰：类型接口表现力直白，字面表达含义，API 相互呼应以增强可测试性。依赖项少：依赖关系越少越好，依赖少证明内聚程度高，低耦合利于自动测试，便于重构。没有重复：重复代码意味着某些概念或想法没有在代码中良好的体现，及时重构消除重复。战术分层：代码分层清晰，隔离明确，
布尔数组百合不是茶 java 布尔数组
androi中提到了布尔数组; 布尔数组默认的是false, 并且只会打印false或者是true 布尔数组的例子; 根据字符数组创建布尔数组 char[] c = {'p','u','b','l','i','c'}; //根据字符数组的长度创建布尔数组的个数 boolean[] b = new bool
web.xml之welcome-file-list、error-page bijian1013 java web.xml servlet error-page
welcome-file-list 1.定义： <welcome-file-list> <welcome-file>login.jsp</welcome> </welcome-file-list> 2.作用：用来指定WEB应用首页名称。 error-page1.定义： <error-page&g
richfaces 4 fileUpload组件删除上传的文件 sunjing clear Richfaces 4 fileupload
页面代码 <h:form id="fileForm"> <rich:
技术文章备忘 bit1129 技术文章
Zookeeper http://wenku.baidu.com/view/bab171ffaef8941ea76e05b8.html http://wenku.baidu.com/link?url=8thAIwFTnPh2KL2b0p1V7XSgmF9ZEFgw4V_MkIpA9j8BX2rDQMPgK5l3wcs9oBTxeekOnm5P3BK8c6K2DWynq9nfUCkRlTt9uV
org.hibernate.hql.ast.QuerySyntaxException: unexpected token: on near line 1解决方案白糖_ Hibernate
文章摘自：http://blog.csdn.net/yangwawa19870921/article/details/7553181 在编写HQL时，可能会出现这种代码： select a.name,b.age from TableA a left join TableB b on a.id=b.id 如果这是HQL，那么这段代码就是错误的，因为HQL不支持
sqlserver按照字段内容进行排序 bozch 按照内容排序
在做项目的时候，遇到了这样的一个需求：从数据库中取出的数据集，首先要将某个数据或者多个数据按照地段内容放到前面显示，例如:从学生表中取出姓李的放到数据集的前面； select * fro
编程珠玑-第一章-位图排序 bylijinnan java 编程珠玑
import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.io.Writer; import java.util.Random; public class BitMapSearch {
Java关于==和equals chenbowen00 java
关于==和equals概念其实很简单，一个是比较内存地址是否相同，一个比较的是值内容是否相同。虽然理解上不难，但是有时存在一些理解误区，如下情况： 1、 String a = "aaa"; a=="aaa"; ==> true 2、 new String("aaa")==new String("aaa
[IT与资本]软件行业需对外界投资热情保持警惕 comsci it
我还是那个看法,软件行业需要增强内生动力,尽量依靠自有资金和营业收入来进行经营,避免在资本市场上经受各种不同类型的风险,为企业自主研发核心技术和产品提供稳定,温和的外部环境... 如果我们在自己尚未掌握核心技术之前,企图依靠上市来筹集资金,然后使劲往某个领域砸钱,然
oracle 数据块结构 daizj oracle 块数据块块结构行目录
oracle 数据块是数据库存储的最小单位，一般为操作系统块的N倍。其结构为：块头－－〉空行－－〉数据，其实际为纵行结构。块的标准大小由初始化参数DB_BLOCK_SIZE指定。具有标准大小的块称为标准块（Standard Block）。块的大小和标准块的大小不同的块叫非标准块（Nonstandard Block）。同一数据库中，Oracle9i及以上版本支持同一数据库中同时使用标
github上一些觉得对自己工作有用的项目收集 dengkane github
github上一些觉得对自己工作有用的项目收集技能类 markdown语法中文说明回到顶部全文检索 elasticsearch bigdesk elasticsearch管理插件回到顶部 nosql mapdb 支持亿级别map, list, 支持事务. 可考虑做为缓存使用 C
初二上学期难记单词二 dcj3sjt126com english word
dangerous 危险的 panda 熊猫 lion 狮子 elephant 象 monkey 猴子 tiger 老虎 deer 鹿 snake 蛇 rabbit 兔子 duck 鸭 horse 马 forest 森林 fall 跌倒；落下 climb 爬；攀登 finish 完成；结束 cinema 电影院；电影 seafood 海鲜；海产食品 bank 银行
8、mysql外键(FOREIGN KEY)的简单使用 dcj3sjt126com mysql
一、基本概念 1、MySQL中“键”和“索引”的定义相同，所以外键和主键一样也是索引的一种。不同的是MySQL会自动为所有表的主键进行索引，但是外键字段必须由用户进行明确的索引。用于外键关系的字段必须在所有的参照表中进行明确地索引，InnoDB不能自动地创建索引。 2、外键可以是一对一的，一个表的记录只能与另一个表的一条记录连接，或者是一对多的，一个表的记录与另一个表的多条记录连接。 3、如
java循环标签 Foreach shuizhaosi888 标签 java循环 foreach
1. 简单的for循环 public static void main(String[] args) { for (int i = 1, y = i + 10; i < 5 && y < 12; i++, y = i * 2) { System.err.println("i=" + i + " y="
Spring Security（05）——异常信息本地化 234390216 exception Spring Security 异常信息本地化
异常信息本地化 Spring Security支持将展现给终端用户看的异常信息本地化，这些信息包括认证失败、访问被拒绝等。而对于展现给开发者看的异常信息和日志信息（如配置错误）则是不能够进行本地化的，它们是以英文硬编码在Spring Security的代码中的。在Spring-Security-core-x
DUBBO架构服务端告警Failed to send message Response javamingtingzhao 架构 DUBBO
废话不多说，警告日志如下，不知道有哪位遇到过，此异常在服务端抛出(服务器启动第一次运行会有这个警告)，后续运行没问题，找了好久真心不知道哪里错了。 WARN 2015-07-18 22:31:15,272 com.alibaba.dubbo.remoting.transport.dispatcher.ChannelEventRunnable.run(84)
JS中Date对象中几个用法 leeqq JavaScript Date 最后一天
近来工作中遇到这样的两个需求 1. 给个Date对象，找出该时间所在月的第一天和最后一天 2. 给个Date对象，找出该时间所在周的第一天和最后一天需求1中的找月第一天很简单，我记得api中有setDate方法可以使用使用setDate方法前，先看看getDate var date = new Date(); console.log(date); // Sat J
MFC中使用ado技术操作数据库你不认识的休道人 sql mfc
1.在stdafx.h中导入ado动态链接库 #import"C:\Program Files\Common Files\System\ado\msado15.dll" no_namespace rename("EOF","end")2.在CTestApp文件的InitInstance()函数中domodal之前写::CoIniti
Android Studio加速 rensanning android studio
Android Studio慢、吃内存！启动时后会立即通过Gradle来sync & build工程。（1）设置Android Studio a) 禁用插件 File -> Settings... Plugins 去掉一些没有用的插件。比如：Git Integration、GitHub、Google Cloud Testing、Google Cloud
各数据库的批量Update操作 tomcat_oracle java oracle sql mysql sqlite
MyBatis的update元素的用法与insert元素基本相同，因此本篇不打算重复了。本篇仅记录批量update操作的 sql语句，懂得SQL语句，那么MyBatis部分的操作就简单了。　　注意：下列批量更新语句都是作为一个事务整体执行，要不全部成功，要不全部回滚。 MSSQL的SQL语句　WITH R AS（　　SELECT 'John' as name, 18 as
html禁止清除input文本输入缓存 xp9802 input
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; eg: <input type="text" autocomplete="off" name