Fo*(Bi)

Python数据分析与挖掘——回归模型的诊断

当回归模型构建好之后，并不意味着建模过程的结束，还需要进一步对模型进行诊断，目的就是使诊断后的模型更加健壮。统计学家在发明线性回归模型的时候就提出了一些假设前提，只有在满足这些假设前提的情况下，所得的模型才是合理的。本节的主要内容就是针对如下几点假设，完成模型的诊断工作：

误差项 ε 服从正态分布。
无多重共线性。
线性相关性。
误差项 ε 的独立性。
方差齐性。

除了上面提到的五点假设之外，还需要注意的是，线性回归模型对异常值是非常敏感的，即模型的构建过程非常容易受到异常值的影响，所以诊断过程中还需要对原始数据的观测进行异常点识别和处理。接下来，结合理论知识与Python代码逐一展开模型的诊断过程。

正态性检验

虽然模型的前提假设是对残差项要求服从正态分布，但是其实质就是要求因变量服从正态分布。对于多元线性回归模型y=Xβ+ε来说，等式右边的自变量属于已知变量，而等式左边的因变量为未知变量（故需要通过建模进行预测）。所以，要求误差项服从正态分布，就是要求因变量服从正态分布，关于正态性检验通常运用两类方法，分别是定性的图形法（直方图、PP图或QQ图）和定量的非参数法（Shapiro检验和K-S检验），接下来通过具体的代码对原数据集中的利润变量进行正态性检验。

1．直方图法

import scipy.stats as stats
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

#导入数据
Profit_data = pd.read_excel(r'Predict to Profit.xlsx')
#中文和负号的正常显示
plt.rcParams['font.sans-serif'] = ['Microsoft YaHei']
plt.rcParams['axes.unicode_minus'] = False
#绘制直方图
sns.distplot(a=Profit_data.Profit, bins=10, fit=stats.norm, norm_hist=True,
             hist_kws={'color':'steelblue', 'edgecolor':'black'},
             kde_kws={'color':'black', 'linestyle':'--', 'label':'核密度曲线'},
             fit_kws={'color':'red', 'linestyle':':', 'label':'正态密度曲线'})
#显示图例
plt.legend()
#显示图形
plt.show()

结果：

上图中绘制了因变量Profit的直方图、核密度曲线和理论正态分布的密度曲线，添加两条曲线的目的就是比对数据的实际分布与理论分布之间的差异。如果两条曲线近似或吻合，就说明该变量近似服从正态分布。从图中看，核密度曲线与正态密度曲线的趋势比较吻合，故直观上可以认为利润变量服从正态分布。

2．PP图与QQ图

import pandas as pd
import matplotlib.pyplot as plt
import statsmodels.api as sm

#导入数据
Profit_data = pd.read_excel(r'Predict to Profit.xlsx')
#中文和负号的正常显示
plt.rcParams['font.sans-serif'] = ['Microsoft YaHei']
plt.rcParams['axes.unicode_minus'] = False
#残差的正态性检验（PP图和QQ图法）
pp_qq_plot = sm.ProbPlot(Profit_data.Profit)
#绘制PP图
pp_qq_plot.ppplot(line='45')  #line='45'
#设置横纵坐标的刻度范围
plt.xlim((0, 1.2))   #x轴的刻度范围被设为a到b
plt.ylim((0, 1.2))    #y轴的刻度范围被设为a'到b'
plt.title('P-P图')
#绘制QQ图
pp_qq_plot.qqplot(line='q')
plt.title('Q-Q图')

#显示图形
plt.show()

结果：

PP图的思想是比对正态分布的累计概率值和实际分布的累计概率值，而QQ图则比对正态分布的分位数和实际分布的分位数。
判断变量是否近似服从正态分布的标准是：如果散点都比较均匀地散落在直线上，就说明变量近似服从正态分布，否则就认为数据不服从正态分布。从上图可知，PP图绘制的散点离直线较远，且全是1，可能程序有误（但我不知道错在何处），这种偏离较大的就说明不服从正态分布。而QQ图，绘制的散点均落在直线的附近，没有较大的偏离，故认为利润变量近似服从正态分布。
参考此链接，重新画PP图
python q-q图和PP图

import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats

#导入数据
Profit_data = pd.read_excel(r'Predict to Profit.xlsx')
#中文和负号的正常显示
plt.rcParams['font.sans-serif'] = ['Microsoft YaHei']
plt.rcParams['axes.unicode_minus'] = False

stats.probplot(Profit_data.Profit, dist=stats.norm, sparams=(0,1), plot=plt)
plt.show()

结果：

这次就比较正常了。PP图，绘制的散点均落在直线的附近，没有较大的偏离，故认为利润变量近似服从正态分布。

3．Shapiro检验和K-S检验

这两种检验方法均属于非参数方法，它们的原假设被设定为变量服从正态分布，两者的最大区别在于适用的数据量不一样，若数据量低于5000，则使用shapiro检验法比较合理，否则使用K-S检验法。scipy的子模块stats提供了专门的检验函数，分别是shapiro函数和kstest函数，由于利润数据集的样本量小于5000，故下面运用shapiro函数对利润做定量的正态性检验：

Shapiro检验

import scipy.stats as stats
import pandas as pd

#导入数据
Profit_data = pd.read_excel(r'Predict to Profit.xlsx')

#Shapiro检验
Shapiro_test = stats.shapiro(Profit_data.Profit)
print(Shapiro_test)

结果：

(0.9793398380279541, 0.537902295589447)

如上结果所示，元组中的第一个元素是shapiro检验的统计量值，第二个元素是对应的概率值p。由于p值大于置信水平0.05，故接受利润变量服从正态分布的原假设。

K-S检验

为了应用K-S检验的函数kstest，这里随机生成正态分布变量x₁和均匀分布变量x₂，具体操作代码如下：

import scipy.stats as stats
import pandas as pd
import numpy as np

#导入数据
Profit_data = pd.read_excel(r'Predict to Profit.xlsx')

#生成正态分布和均匀分布随机数
rnorm = np.random.normal(loc=5, scale=2, size=10000)
runif = np.random.uniform(low=1, high=100, size=10000)
#正态性检验
KS_Test1 = stats.kstest(rvs=rnorm, args=(rnorm.mean(), rnorm.std()), cdf='norm')
KS_Test2 = stats.kstest(rvs=runif, args=(runif.mean(), runif.std()), cdf='norm')
print(KS_Test1)
print(KS_Test2)

结果：

KstestResult(statistic=0.004649394170337412, pvalue=0.9820888807219965)
KstestResult(statistic=0.06005710016181054, pvalue=9.381733550745589e-32)

如上结果所示，正态分布随机数的检验 p 值大于置信水平0.05，则需接受原假设；均匀分布随机数的检验 p 值远远小于0.05，则需拒绝原假设。需要说明的是，如果使用 kstest 函数对变量进行正态性检验，必须指定 args 参数，它用于传递被检验变量的均值和标准差。

多重共线性检验

多重共线性是指模型中的自变量之间存在较高的线性相关关系，它的存在会给模型带来严重的后果，例如由“最小二乘法”得到的偏回归系数无效、增大偏回归系数的方差、模型缺乏稳定性等，所以，对模型的多重共线性检验就显得尤其重要了。
关于多重共线性的检验可以使用方差膨胀因子VIF来鉴定，如果 VIF大于10，则说明变量间存在多重共线性；如果VIF大于100，则表名变量间存在严重的多重共线性。方差膨胀因子VIF的计算步骤如下：

Python中的statsmodels模块提供了计算方差膨胀因子VIF的函数，下面利用该函数计算两个自变量的方差膨胀因子：

import pandas as pd
import statsmodels.api as sm
from statsmodels.stats.outliers_influence import variance_inflation_factor

#导入数据
Profit_data = pd.read_excel(r'Predict to Profit.xlsx')

#自变量X（包含RD_Spend、Marketing_Spending和常数列1）
X = sm.add_constant(Profit_data.loc[:,['RD_Spend','Marketing_Spend']])

#构造空的数据框，用于存储VIF值
vif = pd.DataFrame()
vif['features'] = X.columns
vif['VIF Faxtor'] = [variance_inflation_factor(X.values, i) for i in range(X.shape[1])]
#返回VIF的值
print(vif)

结果：

          features  VIF Faxtor
0            const    4.540984
1         RD_Spend    2.026141
2  Marketing_Spend    2.026141

如上结果所示，两个自变量对应的方差膨胀因子均低于10，说明构建模型的数据并不存在多重共线性。如果发现变量之间存在多重共线性的话，可以考虑删除变量或者重新选择模型（如岭回归模型或LASSO模型）。

线性相关性检验

线性相关性检验，顾名思义，就是确保用于建模的自变量和因变量之间存在线性关系。关于线性关系的判断，可以使用Pearson相关系数和可视化方法进行识别，有关Pearson相关系数的计算公式如下：

Pearson相关系数的计算可以直接使用数据框的corrwith“方法”，该方法最大的好处是可以计算任意指定变量间的相关系数。下面使用该方法计算因变量与每个自变量之间的相关系数，具体代码如下：

import pandas as pd

#导入数据
Profit_data = pd.read_excel(r'Predict to Profit.xlsx')
#生成由State变量衍生的哑变量
dummies = pd.get_dummies(Profit_data.State)

#将哑变量与原始数据集水平合并
Profit_data = pd.concat([Profit_data, dummies], axis=1)
#计算数据集Profit_data中每个自变量与因变量利润之间的相关系数
coefficient_of_association = Profit_data.drop('Profit', axis=1).corrwith(Profit_data.Profit)
print(coefficient_of_association)

结果：

RD_Spend           0.978437
Administration     0.205841
Marketing_Spend    0.739307
California        -0.083258
Florida            0.088008
New York          -0.004679
dtype: float64

如上结果所示，自变量中只有研发成本和市场营销成本与利润之间存在较高的相关系数，相关性分别达到0.978和0.739，而其他变量与利润之间几乎没有线性相关性可言。通常情况下，可以参考下表判断相关系数对应的相关程度：

以管理成本Administration为例，与利润之间的相关系数只有0.2，被认定为不相关，这里的不相关只能说明两者之间不存在线性关系。如果利润和管理成本之间存在非线性关系时，Pearson相关系数也同样会很小，所以还需要通过可视化的方法，观察自变量与因变量之间的散点关系。
读者可以应用matplotlib模块中的scatter函数绘制五个自变量与因变量之间的散点图，那样做可能会使代码显得冗长。这里介绍另一个绘制散点图的函数，那就是seaborn模块中的pairplot函数，它可以绘制多个变量间的散点图矩阵。

import pandas as pd
import matplotlib.pyplot as plt
import seaborn
#导入数据
Profit_data = pd.read_excel(r'Predict to Profit.xlsx')
#生成由State变量衍生的哑变量
dummies = pd.get_dummies(Profit_data.State)

#将哑变量与原始数据集水平合并
Profit_New = pd.concat([Profit_data, dummies], axis=1)
#绘制散点图矩阵
seaborn.pairplot(Profit_New.loc[:, ['RD_Spend', 'Administration', 'Marketing_Spend', 'Profit']])
#显示图形
plt.show()

结果：

如上图所示，由于California与Florida都是哑变量，故没有将其放入散点图矩阵中。从图中结果可知，研发成本与利润之间的散点图几乎为一条向上倾斜的直线（见左下角的散点图），说明两种变量确实存在很强的线性关系；市场营销成本与利润的散点图同样向上倾斜，但很多点的分布还是比较分散的（见第一列第三行的散点图）；管理成本与利润之间的散点图呈水平趋势，而且分布也比较宽，说明两者之间确实没有任何关系（见第一列第二行的散点图）。
以Python数据分析与挖掘——线性回归预测模型中最后一个多元线性回归案例中重构的模型model为例，综合考虑相关系数、散点图矩阵和t检验的结果，最终确定只保留模型model中的RD_Spend和Marketing_Spend两个自变量，下面重新对该模型做修正：

import pandas as pd
import statsmodels.api as sm
from sklearn import model_selection
#导入数据
Profit_data = pd.read_excel(r'Predict to Profit.xlsx')
#生成由State变量衍生的哑变量
dummies = pd.get_dummies(Profit_data.State)

#将哑变量与原始数据集水平合并
Profit_New = pd.concat([Profit_data, dummies], axis=1)
#删除State变量和New York变量（因为State变量已被分解为哑变量，New York变量需要作为参照组）
Profit_New.drop(labels=['State', 'New York'], axis=1, inplace=True)
#将数据集拆分为训练集和测试集
train, test = model_selection.train_test_split(Profit_New, test_size=0.2, random_state=1234)
#根据train数据集建模
model = sm.formula.ols('Profit ~ RD_Spend + Marketing_Spend', data=train).fit()
print(model.params)

结果：

Intercept          51902.112471
RD_Spend               0.785116
Marketing_Spend        0.019402
dtype: float64

如上结果所示，返回的是模型两个自变量的系数估计值，可以将多元线性回归模型表示成：
Profit = 51902.11 + 0.79RD_Spend + 0.02Marketing_Spend

异常值检验

由于多元线性回归模型容易受到极端值的影响，故需要利用统计方法对观测样本进行异常点检测。如果在建模过程中发现异常数据，需要对数据集进行整改，如删除异常值或衍生出是否为异常值的哑变量。对于线性回归模型来说，通常利用帽子矩阵、DFFITS准则、学生化残差或Cook距离进行异常点检测。接下来，分别对这四种检测方法做简单介绍。

如果使用如上四种方法判别数据集的第 i 个样本是否为异常点，前提是已经构造好一个线性回归模型，然后基于 get_influence “方法”获得四种统计量的值。为了检验模型中数据集的样本是否存在异常，这里沿用上节中构造的模型model，具体代码如下：

import pandas as pd
import statsmodels.api as sm
from sklearn import model_selection
#导入数据
Profit_data = pd.read_excel(r'Predict to Profit.xlsx')
#生成由State变量衍生的哑变量
dummies = pd.get_dummies(Profit_data.State)

#将哑变量与原始数据集水平合并
Profit_New = pd.concat([Profit_data, dummies], axis=1)
#删除State变量和New York变量（因为State变量已被分解为哑变量，New York变量需要作为参照组）
Profit_New.drop(labels=['State', 'New York'], axis=1, inplace=True)
#将数据集拆分为训练集和测试集
train, test = model_selection.train_test_split(Profit_New, test_size=0.2, random_state=1234)
#根据train数据集建模
model = sm.formula.ols('Profit ~ RD_Spend + Marketing_Spend', data=train).fit()
#异常值检验
outliers = model.get_influence()
#高杠杆值点（帽子矩阵）
leverage = outliers.hat_matrix_diag
#DFFITS值
dffits = outliers.dffits[0]
#学生化残差
resid_stu = outliers.resid_studentized_external
#Cook距离
cook = outliers.cooks_distance[0]
#合并各种异常值检验的统计量值
contat1 = pd.concat([pd.Series(leverage, name='leverage'), pd.Series(dffits, name='dffits'), pd.Series(resid_stu, name='resid_stu'), pd.Series(cook, name='cook')], axis=1)
#重设train数据的行索引
train.index = range(train.shape[0])
#将上面的统计量与train数据集合并
profit_outliers = pd.concat([train, contat1], axis=1)
#横向最多显示多少个字符， 一般80不适合横向的屏幕，平时多用200
pd.set_option('display.width', 200)
#显示所有列
pd.set_option('display.max_columns',None)
#显示所有行
pd.set_option('display.max_rows', None)
print(profit_outliers)

结果：

     RD_Spend  Administration  Marketing_Spend     Profit  California  Florida  leverage    dffits  resid_stu      cook
0    28663.76       127056.21        201126.82   90708.19           0        1  0.066517  0.466410   1.747255  0.068601
1    15505.73       127382.30         35534.17   69758.98           0        0  0.093362  0.221230   0.689408  0.016556
2    94657.16       145077.58        282574.31  125370.37           0        0  0.032741 -0.156225  -0.849138  0.008199
3   101913.08       110594.11        229160.95  146121.95           0        1  0.039600  0.270677   1.332998  0.023906
4    78389.47       153773.43        299737.29  111313.02           0        0  0.042983 -0.228563  -1.078496  0.017335
5    76253.86       113867.30        298664.47  118474.03           1        0  0.044181  0.026111   0.121448  0.000234
6    73994.56       122782.75        303319.26  110352.25           0        1  0.048683 -0.168768  -0.746047  0.009613
7   162597.70       151377.59        443898.53  191792.06           1        0  0.139015  0.205420   0.511222  0.014360
8    63408.86       129219.61         46085.25   97427.84           1        0  0.104886 -0.245154  -0.716172  0.020308
9     1315.46       115816.21        297114.46   49490.75           0        1  0.234707 -0.782584  -1.413128  0.198645
10   72107.60       127864.55        353183.81  105008.31           0        0  0.087053 -0.450209  -1.457963  0.065514
11   46426.07       157693.92        210797.67   96712.80           1        0  0.041879  0.119666   0.572383  0.004864
12   64664.71       139553.16        137962.62  107404.34           1        0  0.040765  0.056572   0.274422  0.001095
13   55493.95       103057.49        214634.81   96778.92           0        1  0.033414 -0.070685  -0.380175  0.001706
14  165349.20       136897.80        471784.10  192261.83           0        0  0.157309  0.085344   0.197530  0.002494
15  100671.96        91790.61        249744.55  144259.40           1        0  0.034674  0.217372   1.146938  0.015613
16  130298.13       145530.06        323876.68  155752.60           0        1  0.064526 -0.168778  -0.642633  0.009653
17  144372.41       118671.85        383199.62  182901.99           0        0  0.092154  0.459079   1.440910  0.068212
18   44069.95        51283.14        197029.42   89949.14           1        0  0.041515 -0.010429  -0.050112  0.000037
19  134615.46       147198.87        127716.82  156122.51           1        0  0.198225 -0.287490  -0.578189  0.028069
20  153441.51       101145.55        407934.54  191050.39           0        1  0.111903  0.547076   1.541196  0.096093
21   46014.02        85047.44        205517.64   96479.51           0        0  0.041069  0.123798   0.598206  0.005201
22    1000.23       124153.04          1903.93   64926.08           0        0  0.123066  0.665447   1.776351  0.139268
23  123334.88       108679.17        304981.62  149759.96           1        0  0.055189 -0.159797  -0.661171  0.008647
24   78013.11       121597.55        264346.06  126992.93           1        0  0.030444  0.208746   1.178029  0.014370
25  131876.90        99814.71        362861.36  156991.12           0        0  0.072362 -0.209529  -0.750203  0.014814
26   66051.52       182645.56        118148.20  103282.38           0        1  0.051354 -0.086574  -0.372092  0.002560
27   28754.33       118546.05        172795.67   78239.91           1        0  0.057602  0.013626   0.055116  0.000064
28   38558.51        82982.09        174999.30   81005.76           1        0  0.044443 -0.132193  -0.612965  0.005928
29   61994.48       115641.28         91131.24   99937.59           0        1  0.065062 -0.085819  -0.325321  0.002518
30   75328.87       144135.98        134050.07  105733.54           0        1  0.050435 -0.248326  -1.077499  0.020464
31   27892.92        84710.77        164470.71   77798.83           0        1  0.057331  0.026752   0.108479  0.000245
32   67532.53       105751.03        304768.73  108733.99           0        1  0.057031 -0.069590  -0.282969  0.001657
33  114523.61       122616.84        261776.23  129917.04           0        0  0.047971 -0.552373  -2.460744  0.089182
34   77044.01        99281.34        140574.81  108552.04           0        0  0.048516 -0.200692  -0.888771  0.013505
35   93863.75       127320.38        249839.44  141585.52           0        1  0.030038  0.268459   1.525517  0.023169
36   20229.59        65947.93        185265.10   81229.06           0        0  0.077273  0.397774   1.374542  0.051470
37   86419.70       153514.11             0.00  122776.86           0        0  0.215634  0.234526   0.447292  0.018751
38       0.00       135426.92             0.00   42559.73           1        0  0.125090 -0.505557  -1.337025  0.083372

如上面结果所示，合并了train数据集和四种统计量的值，接下来要做的就是选择一种或多种判断方法，将异常点查询出来。为了简单起见，这里使用标准化残差，当标准化残差大于2时，即认为对应的数据点为异常值。

import pandas as pd
import statsmodels.api as sm
from sklearn import model_selection
import numpy as np
#导入数据
Profit_data = pd.read_excel(r'Predict to Profit.xlsx')
#生成由State变量衍生的哑变量
dummies = pd.get_dummies(Profit_data.State)

#将哑变量与原始数据集水平合并
Profit_New = pd.concat([Profit_data, dummies], axis=1)
#删除State变量和New York变量（因为State变量已被分解为哑变量，New York变量需要作为参照组）
Profit_New.drop(labels=['State', 'New York'], axis=1, inplace=True)
#将数据集拆分为训练集和测试集
train, test = model_selection.train_test_split(Profit_New, test_size=0.2, random_state=1234)
#根据train数据集建模
model = sm.formula.ols('Profit ~ RD_Spend + Marketing_Spend', data=train).fit()
#异常值检验
outliers = model.get_influence()
#高杠杆值点（帽子矩阵）
leverage = outliers.hat_matrix_diag
#DFFITS值
dffits = outliers.dffits[0]
#学生化残差
resid_stu = outliers.resid_studentized_external
#Cook距离
cook = outliers.cooks_distance[0]
#合并各种异常值检验的统计量值
contat1 = pd.concat([pd.Series(leverage, name='leverage'), pd.Series(dffits, name='dffits'), pd.Series(resid_stu, name='resid_stu'), pd.Series(cook, name='cook')], axis=1)
#重设train数据的行索引
train.index = range(train.shape[0])
#将上面的统计量与train数据集合并
profit_outliers = pd.concat([train, contat1], axis=1)
#计算异常值数量的比例
outliers_ratio = sum(np.where( (np.abs(profit_outliers.resid_stu)>2), 1, 0)) / profit_outliers.shape[0]
print(outliers_ratio)

结果：

0.02564102564102564

如上结果所示，通过标准化残差监控到了异常值，并且异常比例为2.5%。对于异常值的处理办法，可以使用两种策略，如果异常样本的比例不高（如小于等于5%），可以考虑将异常点删除；如果异常样本的比例比较高，选择删除会丢失一些重要信息，所以需要衍生哑变量，即对于异常点，设置哑变量的值为1，否则为0。如上可知，建模数据的异常比例只有2.5%，故考虑将其删除。

import pandas as pd
import statsmodels.api as sm
from sklearn import model_selection
import numpy as np
#导入数据
Profit_data = pd.read_excel(r'Predict to Profit.xlsx')
#生成由State变量衍生的哑变量
dummies = pd.get_dummies(Profit_data.State)

#将哑变量与原始数据集水平合并
Profit_New = pd.concat([Profit_data, dummies], axis=1)
#删除State变量和New York变量（因为State变量已被分解为哑变量，New York变量需要作为参照组）
Profit_New.drop(labels=['State', 'New York'], axis=1, inplace=True)
#将数据集拆分为训练集和测试集
train, test = model_selection.train_test_split(Profit_New, test_size=0.2, random_state=1234)
#根据train数据集建模
model = sm.formula.ols('Profit ~ RD_Spend + Marketing_Spend', data=train).fit()
#异常值检验
outliers = model.get_influence()
#高杠杆值点（帽子矩阵）
leverage = outliers.hat_matrix_diag
#DFFITS值
dffits = outliers.dffits[0]
#学生化残差
resid_stu = outliers.resid_studentized_external
#Cook距离
cook = outliers.cooks_distance[0]
#合并各种异常值检验的统计量值
contat1 = pd.concat([pd.Series(leverage, name='leverage'), pd.Series(dffits, name='dffits'), pd.Series(resid_stu, name='resid_stu'), pd.Series(cook, name='cook')], axis=1)
#重设train数据的行索引
train.index = range(train.shape[0])
#将上面的统计量与train数据集合并
profit_outliers = pd.concat([train, contat1], axis=1)
# 挑选出非异常的观测点
none_outliers = profit_outliers.loc[np.abs(profit_outliers.resid_stu)<=2]
# 应用无异常值的数据集重新建模
model_new = sm.formula.ols('Profit ~ RD_Spend + Marketing_Spend', data = none_outliers).fit()
print(model_new.params)

结果：

Intercept          51827.416821
RD_Spend               0.797038
Marketing_Spend        0.017740
dtype: float64

如上结果所示，经过异常点的排除，重构模型的偏回归系数发生了变动，故可以将模型写成如下公式：
Profit = 51827.42 + 0.80RD_Spend + 0.02Marketing_Spend

独立性检验

残差的独立性检验，说白了也是对因变量 y 的独立性检验，因为在线性回归模型的等式左右只有 y 和残差项 ε 属于随机变量，如果再加上正态分布，就构成了残差项独立同分布于正态分布的假设。关于残差的独立性检验通常使用Durbin-Watson统计量值来测试，如果DW值在2左右，则表明残差项之间是不相关的；如果与2偏离的较远，则说明不满足残差的独立性假设。对于DW统计量的值，其实都不需要另行计算，因为它包含在模型的概览信息中，以上节模型model_new为例：

import pandas as pd
import statsmodels.api as sm
from sklearn import model_selection
import numpy as np
#导入数据
Profit_data = pd.read_excel(r'Predict to Profit.xlsx')
#生成由State变量衍生的哑变量
dummies = pd.get_dummies(Profit_data.State)

#将哑变量与原始数据集水平合并
Profit_New = pd.concat([Profit_data, dummies], axis=1)
#删除State变量和New York变量（因为State变量已被分解为哑变量，New York变量需要作为参照组）
Profit_New.drop(labels=['State', 'New York'], axis=1, inplace=True)
#将数据集拆分为训练集和测试集
train, test = model_selection.train_test_split(Profit_New, test_size=0.2, random_state=1234)
#根据train数据集建模
model = sm.formula.ols('Profit ~ RD_Spend + Marketing_Spend', data=train).fit()
#异常值检验
outliers = model.get_influence()
#高杠杆值点（帽子矩阵）
leverage = outliers.hat_matrix_diag
#DFFITS值
dffits = outliers.dffits[0]
#学生化残差
resid_stu = outliers.resid_studentized_external
#Cook距离
cook = outliers.cooks_distance[0]
#合并各种异常值检验的统计量值
contat1 = pd.concat([pd.Series(leverage, name='leverage'), pd.Series(dffits, name='dffits'), pd.Series(resid_stu, name='resid_stu'), pd.Series(cook, name='cook')], axis=1)
#重设train数据的行索引
train.index = range(train.shape[0])
#将上面的统计量与train数据集合并
profit_outliers = pd.concat([train, contat1], axis=1)
# 挑选出非异常的观测点
none_outliers = profit_outliers.loc[np.abs(profit_outliers.resid_stu)<=2]
# 应用无异常值的数据集重新建模
model_new = sm.formula.ols('Profit ~ RD_Spend + Marketing_Spend', data = none_outliers).fit()
print(model_new.summary())

结果：

                            OLS Regression Results                            
==============================================================================
Dep. Variable:                 Profit   R-squared:                       0.967
Model:                            OLS   Adj. R-squared:                  0.966
Method:                 Least Squares   F-statistic:                     520.7
Date:                Thu, 04 Mar 2021   Prob (F-statistic):           9.16e-27
Time:                        22:49:45   Log-Likelihood:                -389.18
No. Observations:                  38   AIC:                             784.4
Df Residuals:                      35   BIC:                             789.3
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
===================================================================================
                      coef    std err          t      P>|t|      [0.025      0.975]
-----------------------------------------------------------------------------------
Intercept        5.183e+04   2501.192     20.721      0.000    4.67e+04    5.69e+04
RD_Spend            0.7970      0.034     23.261      0.000       0.727       0.867
Marketing_Spend     0.0177      0.013      1.391      0.173      -0.008       0.044
==============================================================================
Omnibus:                        7.188   Durbin-Watson:                   2.065
Prob(Omnibus):                  0.027   Jarque-Bera (JB):                2.744
Skew:                           0.321   Prob(JB):                        0.254
Kurtosis:                       1.851   Cond. No.                     5.75e+05
==============================================================================

Notes:
[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.
[2] The condition number is large, 5.75e+05. This might indicate that there are
strong multicollinearity or other numerical problems.

如上表所示，残差项对应的DW统计量值为2.065，比较接近于2，故可以认为模型的残差项之间是满足独立性这个假设前提的。

方差齐性检验

方差齐性是要求模型残差项的方差不随自变量的变动而呈现某种趋势，否则，残差的趋势就可以被自变量刻画。如果残差项不满足方差齐性（方差为一个常数），就会导致偏回归系数不具备有效性，甚至导致模型的预测也不准确。所以，建模后需要验证残差项是否满足方差齐性。关于方差齐性的检验，一般可以使用两种方法，即图形法（散点图）和统计检验法（BP检验）。

1.图形法

如上所说，方差齐性是指残差项的方差不随自变量的变动而变动，所以只需要绘制残差与自变量之间的散点图，就可以发现两者之间是否存在某种趋势：

import pandas as pd
import statsmodels.api as sm
from sklearn import model_selection
import numpy as np
import matplotlib.pyplot as plt
#导入数据
Profit_data = pd.read_excel(r'Predict to Profit.xlsx')
#生成由State变量衍生的哑变量
dummies = pd.get_dummies(Profit_data.State)

#将哑变量与原始数据集水平合并
Profit_New = pd.concat([Profit_data, dummies], axis=1)
#删除State变量和New York变量（因为State变量已被分解为哑变量，New York变量需要作为参照组）
Profit_New.drop(labels=['State', 'New York'], axis=1, inplace=True)
#将数据集拆分为训练集和测试集
train, test = model_selection.train_test_split(Profit_New, test_size=0.2, random_state=1234)
#根据train数据集建模
model = sm.formula.ols('Profit ~ RD_Spend + Marketing_Spend', data=train).fit()
#异常值检验
outliers = model.get_influence()
#高杠杆值点（帽子矩阵）
leverage = outliers.hat_matrix_diag
#DFFITS值
dffits = outliers.dffits[0]
#学生化残差
resid_stu = outliers.resid_studentized_external
#Cook距离
cook = outliers.cooks_distance[0]
#合并各种异常值检验的统计量值
contat1 = pd.concat([pd.Series(leverage, name='leverage'), pd.Series(dffits, name='dffits'), pd.Series(resid_stu, name='resid_stu'), pd.Series(cook, name='cook')], axis=1)
#重设train数据的行索引
train.index = range(train.shape[0])
#将上面的统计量与train数据集合并
profit_outliers = pd.concat([train, contat1], axis=1)
# 挑选出非异常的观测点
none_outliers = profit_outliers.loc[np.abs(profit_outliers.resid_stu)<=2]
# 应用无异常值的数据集重新建模
model_new = sm.formula.ols('Profit ~ RD_Spend + Marketing_Spend', data = none_outliers).fit()

#设置第一张子图的位置
ax1 = plt.subplot2grid(shape=(2,1), loc=(0,0))
#绘制散点图
ax1.scatter(none_outliers.RD_Spend, (model_new.resid - model_new.resid.mean())/model_new.resid.std())
#添加水平参考线
ax1.hlines(y=0, xmin=none_outliers.RD_Spend.min(), xmax=none_outliers.RD_Spend.max(), colors='red', linestyles='--')
#添加x轴和y轴标签
ax1.set_xlabel('RD_Spend')
ax1.set_ylabel('Std_Residual')

#设置第二张子图的位置
ax2 = plt.subplot2grid(shape=(2,1), loc=(1,0))
#绘制散点图
ax2.scatter(none_outliers.Marketing_Spend, (model_new.resid - model_new.resid.mean())/model_new.resid.std())
#添加水平参考线
ax2.hlines(y=0, xmin=none_outliers.Marketing_Spend.min(), xmax=none_outliers.Marketing_Spend.max(), colors='red', linestyles='--')
#添加x轴和y轴标签
ax2.set_xlabel('Marketing_Spend')
ax2.set_ylabel('Std_Residual')

#调整子图之间的水平间距和高度间距
plt.subplots_adjust(hspace=0.6, wspace=0.3)
#显示图形
plt.show()

结果：

如上图所示，标准化残差并没有随自变量的变动而呈现喇叭形，所有的散点几乎均匀地分布在参考线y=0的附近。所以，可以说明模型的残差项满足方差齐性的前提假设。

2．BP检验

方差齐性检验的另一个统计方法是BP检验，它的原假设是残差的方差为一个常数，通过构造拉格朗日乘子LM统计量，实现方差齐性的检验。该检验可以借助于statsmodels模块中的het_breushpagan函数完成，具体代码如下：

import pandas as pd
import statsmodels.api as sm
from sklearn import model_selection
import numpy as np

#导入数据
Profit_data = pd.read_excel(r'Predict to Profit.xlsx')
#生成由State变量衍生的哑变量
dummies = pd.get_dummies(Profit_data.State)

#将哑变量与原始数据集水平合并
Profit_New = pd.concat([Profit_data, dummies], axis=1)
#删除State变量和New York变量（因为State变量已被分解为哑变量，New York变量需要作为参照组）
Profit_New.drop(labels=['State', 'New York'], axis=1, inplace=True)
#将数据集拆分为训练集和测试集
train, test = model_selection.train_test_split(Profit_New, test_size=0.2, random_state=1234)
#根据train数据集建模
model = sm.formula.ols('Profit ~ RD_Spend + Marketing_Spend', data=train).fit()
#异常值检验
outliers = model.get_influence()
#高杠杆值点（帽子矩阵）
leverage = outliers.hat_matrix_diag
#DFFITS值
dffits = outliers.dffits[0]
#学生化残差
resid_stu = outliers.resid_studentized_external
#Cook距离
cook = outliers.cooks_distance[0]
#合并各种异常值检验的统计量值
contat1 = pd.concat([pd.Series(leverage, name='leverage'), pd.Series(dffits, name='dffits'), pd.Series(resid_stu, name='resid_stu'), pd.Series(cook, name='cook')], axis=1)
#重设train数据的行索引
train.index = range(train.shape[0])
#将上面的统计量与train数据集合并
profit_outliers = pd.concat([train, contat1], axis=1)
# 挑选出非异常的观测点
none_outliers = profit_outliers.loc[np.abs(profit_outliers.resid_stu)<=2]
# 应用无异常值的数据集重新建模
model_new = sm.formula.ols('Profit ~ RD_Spend + Marketing_Spend', data = none_outliers).fit()

#BP检验
BP_test = sm.stats.diagnostic.het_breuschpagan(model_new.resid, exog_het=model_new.model.exog)
print(BP_test)

结果：

(1.4675103668308342, 0.48010272699006384, 0.7029751237162462, 0.5019659740962872)

如上结果所示，元组中一共包含四个值：

第一个值1.468为LM统计量；
第二个值是统计量对应的概率p值，该值大于0.05，说明接受残差方差为常数的原假设；
第三个值为F统计量，用于检验残差平方项与自变量之间是否独立，如果独立则表明残差方差齐性；
第四个值则为F统计量的概率p值，同样大于0.05，则进一步表示残差项满足方差齐性的假设。

如果模型的残差不满足齐性的话，可以考虑两类方法来解决：

一类是模型变换法；
另一类是“加权最小二乘法”（可以使用statsmodels模块中的wls函数）。

对于模型变换法来说，主要考虑残差与自变量之间的关系：

如果残差与某个自变量x成正比，则需将原模型的两边同除以x^1/2；
如果残差与某个自变量x的平方成正比，则需将原始模型的两边同除以x；

对于加权最小二乘法来说，关键是如何确定权重，根据多方资料的搜索和验证，一般选择如下三种权重来进行对比测试：

残差绝对值的倒数作为权重。
残差平方的倒数作为权重。
用残差的平方对数与自变量X重新拟合建模，并将得到的拟合值取指数，用指数的倒数作为权重。

3．回归模型的预测

经过前文的模型构造、假设检验和模型诊断，最终确定合理的模型model_new。接下来要做的就是利用该模型完成测试集上的预测，具体代码如下：

import pandas as pd
import statsmodels.api as sm
from sklearn import model_selection
import numpy as np
import matplotlib.pyplot as plt
#导入数据
Profit_data = pd.read_excel(r'Predict to Profit.xlsx')
#生成由State变量衍生的哑变量
dummies = pd.get_dummies(Profit_data.State)

#将哑变量与原始数据集水平合并
Profit_New = pd.concat([Profit_data, dummies], axis=1)
#删除State变量和New York变量（因为State变量已被分解为哑变量，New York变量需要作为参照组）
Profit_New.drop(labels=['State', 'New York'], axis=1, inplace=True)
#将数据集拆分为训练集和测试集
train, test = model_selection.train_test_split(Profit_New, test_size=0.2, random_state=1234)
#根据train数据集建模
model = sm.formula.ols('Profit ~ RD_Spend + Marketing_Spend', data=train).fit()
#异常值检验
outliers = model.get_influence()
#高杠杆值点（帽子矩阵）
leverage = outliers.hat_matrix_diag
#DFFITS值
dffits = outliers.dffits[0]
#学生化残差
resid_stu = outliers.resid_studentized_external
#Cook距离
cook = outliers.cooks_distance[0]
#合并各种异常值检验的统计量值
contat1 = pd.concat([pd.Series(leverage, name='leverage'), pd.Series(dffits, name='dffits'), pd.Series(resid_stu, name='resid_stu'), pd.Series(cook, name='cook')], axis=1)
#重设train数据的行索引
train.index = range(train.shape[0])
#将上面的统计量与train数据集合并
profit_outliers = pd.concat([train, contat1], axis=1)
# 挑选出非异常的观测点
none_outliers = profit_outliers.loc[np.abs(profit_outliers.resid_stu)<=2]
# 应用无异常值的数据集重新建模
model_new = sm.formula.ols('Profit ~ RD_Spend + Marketing_Spend', data = none_outliers).fit()

#modle_new对测试集的预测
pred_new = model_new.predict(exog=test.loc[:, ['RD_Spend', 'Marketing_Spend']])
#绘制预测值与实际值的散点图
plt.scatter(x=test.Profit, y=pred_new)
#添加斜率为1、截距项为0的参考线
plt.plot([test.Profit.min(), test.Profit.max()], [test.Profit.min(), test.Profit.max()], color='red', linestyle='--')
#添加轴标签
plt.xlabel('实际值')
plt.ylabel('预测值')
#处理中文乱码
plt.rcParams['font.sans-serif'] = ['Microsoft YaHei']
#显示图形
plt.show()

结果：

如上图所示，绘制了有关模型在测试集上的预测值和实际值的散点图，该散点图可以用来衡量预测值与实际值之间的距离差异。如果两者非常接近，那么得到的散点图一定会在对角线附近微微波动。从上图的结果来看，大部分的散点都落在对角线附近，说明模型的预测效果还是不错的。

你可能感兴趣的:(算法,数据挖掘与数据分析,python,数据分析,机器学习)

这知识点真细，Python获取HTTP响应头和响应体梦想橡皮擦 Python爬虫120 python 浏览器工具爬虫 python爬虫开发者工具
哈喽！大家好，我是【梦想橡皮擦】，10年产研经验，致力于Python相关技术栈传播本文如果觉得不错，动动小手点个赞赞吧本文如果发现错误，欢迎在评论区中指正哦技术博客日更者，我喜欢写文章，如果任意一篇文章对你有帮助，就挺好的~欢迎大家订阅专栏⭐️⭐️《Python爬虫120》⭐️⭐️最近更新：2022年3月23日，橡皮擦的第610篇原创博客文章目录⛳️实战案例场景⛳️可获取的响应头⛳️实战案例场景这
BabyAGI：开创智能自动化新时代，赋能人工智能的下一次飞跃 gs80140 基础知识科谱 AI 人工智能自动化运维
目录BabyAGI：开创智能自动化新时代，赋能人工智能的下一次飞跃什么是BabyAGI？BabyAGI的核心功能BabyAGI的应用领域BabyAGI与传统AI系统的区别BabyAGI的挑战与未来发展BabyAGI的未来展望结语BabyAGI：开创智能自动化新时代，赋能人工智能的下一次飞跃随着人工智能（AI）的不断演进，机器学习和自我优化系统已经逐步渗透到各个行业，从医疗健康到金融服务，从零售到制
SpringCloud面试题御风行云天面试题大全 spring cloud spring 后端
SpringCloud面试题1SpringCloud基础与原理1.1什么是SpringCloud？1.2解释SpringCloud中微服务架构的优势。1.3描述SpringCloud与SpringBoot的关系。2服务发现与注册2.1SpringCloud如何实现服务发现和注册？2.2使用Eureka服务注册中心的原因。2.3描述使用Consul或Zookeeper作为服务注册中心的场景。3配置管
Python字符模糊匹配指南 RapidFuzz | python小知识 aiweker 跟我学python python 服务器 linux
Python字符模糊匹配指南RapidFuzz|python小知识最近在看一个rag评估的框架中，看一个字符模糊匹配的库RapidFuzz，在这里介绍给大家。1.RapidFuzz简介RapidFuzz是一个用于Python的快速模糊字符串匹配库，它基于Levenshtein距离和其他相似度度量方法，能够高效地进行字符串比较和匹配。RapidFuzz旨在提供一个快速、准确、易用的模糊匹配工具，特别
Oracle 数据库管理工具鱼弦人工智能时代数据库 oracle
Oracle数据库管理工具使用SQL*Plus简介SQL*Plus是Oracle提供的一个命令行界面工具，用于与Oracle数据库进行交互。它允许用户执行SQL、PL/SQL命令，查看和管理数据库对象。应用使用场景数据库查询：执行简单或复杂的SQL查询。脚本执行：运行批量SQL脚本以自动化数据库操作。日常管理任务：如创建用户、分配权限、监控系统性能等。实际详细应用代码示例实现#连接到Oracle数
【Linux&Python】linux中通过源码方式安装python环境 atwdy 环境安装与配置 linux python 运维
python环境安装直接看第二部分即可。文章目录1.背景2.python安装3.包环境复制1.背景部署一个线上任务时，相同的代码本地开发机正常产出数据，线上产出数据为0，排查到原因是：...File"/home/disk1/wangdeyong/venv/python3_shapely_new/lib/python3.9/site-packages/mcpack/pack.py",line15,i
VS中x86（x32）,x64,any CPU，Debug和Release的区别 Conchpeng 学习资料[非纸质]
x86（x32）,x64,AnyCPU之间的联系x86编译的.exe或者dll都是32位的，x64是64位的，AnyCPU是根据操作系统决定dll必须与调用它的主程序保持一致但是由AnyCPU生成的dll，也会保持生成它的主程序的性质：随平台（此时是调用它的主程序）改变而改变。也就是说，若dll由AnyCPU编译的，可以任意被x86或者x64主程序调用Debug和Release的区别调试版本、运行
使用OpenCV在Visual Studio上编译x86或x64平台的应用程序程序世界航海 opencv visual studio 人工智能编程
OpenCV是一个广泛使用的计算机视觉库，它提供了丰富的图像处理和计算机视觉算法。如果你想在VisualStudio上编译一个使用OpenCV的应用程序，并且需要针对特定的x86或x64平台进行优化，那么本文将为你提供一些指导。以下是在VisualStudio中编译x86或x64平台上的OpenCV应用程序的步骤：步骤1：安装VisualStudio和OpenCV首先，确保你已经安装了最新版本的V
2025广州国际汽车内外饰技术展览会：引领汽车内外饰发展新潮流-Automotive Interiors JSZNZZ 汽车制造科技
随着科技的不断进步和消费者对汽车品质的要求日益提高，汽车内外饰的设计和制造也在不断创新和发展。AUTOTECHChina2025广州国际汽车内外饰技术展览会作为行业内的重要盛会，将于2025年11月20日至22日在广州保利世贸博览馆盛大举办。本次展览会将汇集全球500多家领先参展商，展示最新的汽车内外饰设计、材料、制造和生产设备、信息娱乐系统等方面的产品和服务，为汽车行业的发展提供一个重要的交流与
机器学习和线性回归、softmax回归小名叫咸菜人工智能线性回归
监督学习监督学习（supervisedlearning）擅⻓在“给定输⼊特征”的情况下预测标签。每个“特征-标签”对都称为一个样本（example）。我们的目标是生成一个模型，能够将任何输⼊特征映射到标签（即预测）。回归——平方误差损失函数回归（regression）是最简单的监督学习任务之一。分类——交叉熵样本属于“哪一类”的问题称为分类问题回归是训练一个回归函数来输出一个数值；分类是训练一个分
未来网络的高速引擎：800G光模块市场预测与应用前景益莱储中国信息与通信
近年来，VR、物联网、云计算等新业务的出现，对网络带宽、并发、实时性能提出了更高的要求。随着带宽需求持续飙升，100G、200G和400G光模块将保持重要的市场份额，800G光模块也将获得吸引力。800G光模块是AI算力产业链上的重要环节。随着AI算力需求的激增，800G光模块等高速光模块的需求显著增长，其市场规模也有望进一步扩大。光通信行业市场研究机构LightCounting指出，2022至2
盘点：哪些科技公司接入了DeepSeek，它们在做什么？人工智能深度学习
在人工智能蓬勃发展的当下，DeepSeek以其独特的技术优势和创新理念，吸引了众多科技公司的目光，成为行业内广泛接入的对象。这些公司与DeepSeek的合作，不仅为自身业务注入了新的活力，也推动了AI技术在更多领域的落地应用。下面，就让我们一同盘点接入DeepSeek的科技公司及其接入情况和功能。互联网巨头：百度与腾讯百度：搜索与智能体平台的全面升级2月16日晚，百度搜索和文心智能体平台宣布全面接
AI 编程工具崛起，程序员的未来是否岌岌可危？
一、AI编程工具的现状AI编程工具的出现与迅猛发展是技术进步的必然结果。这一趋势首先得益于开源社区和代码托管平台提供的丰富代码样本，它们为AI模型的学习提供了充足的素材。其次，编程语言本身的严格语法和结构化特点，使得AI能够高效、精确地理解和生成代码。再者，深度学习技术的突破，尤其是大语言模型在代码理解与生成方面的显著进展，为AI编程提供了坚实的技术基础。最后，随着软件开发需求的不断增加，传统开发
武圣破难上山之他要学习——《贪心》曼珠沙华算法学习算法
一、贪心算法原理与实例剖析贪心算法作为一种独具特色且应用广泛的策略，占据着重要地位。其核心策略在于将复杂的整体问题，拆解为一系列紧密相连的步骤。每一个步骤都选取当前状态下的最优方案，通过这样的方式步步推进，直至完成所有步骤。从本质而言，贪心算法在处理问题时，着重于当下的抉择，全力聚焦于当下时刻的最优选择，而暂且搁置对最终结果的预先考量。然而，运用贪心算法时需格外留意一个关键前提：每一步所做出的选择
写好C/C++代码，大学生必读：林锐博士的《高质量 C++/C 编程指南》晚风る C\C++c++c语言
作为一名大学生，我深知在学习编程的过程中，写出高质量的代码是多么重要。最近，我读了林锐博士的《高质量C++/C编程指南》，这本书让我受益匪浅，今天想和大家分享一下我的学习心得。目录一、初识《高质量C++/C编程指南》二、书中的精华内容（一）编程规范与代码风格（二）内存管理（三）函数设计（四）类的构造函数、析构函数与赋值函数三、我的学习与实践四、收获与感悟五、推荐与分享一、初识《高质量C++/C编程
DeepSeek：国产AI的荣耀之光晚风る AI人工智能人工智能
DeepSeek：国产AI的荣耀之光在国产AI领域，DeepSeek（深度求索）犹如一颗璀璨的新星，以其卓越的技术实力和创新精神，迅速成为行业的焦点，被誉为“国产之光”。本文将深入探讨DeepSeek的技术亮点、市场表现以及其对行业的深远影响。一、技术突破：创新与高效并存1.混合专家架构（MoE）DeepSeek-V3采用了自主研发的混合专家架构（MoE），模型参数高达6710亿，激活参数为370
评测系统的神经架构搜索优化 AI天才研究院 ChatGPT 计算 DeepSeek R1 &大数据AI人工智能大模型 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
评测系统的神经架构搜索优化关键词评测系统神经架构搜索优化强化学习人工智能摘要本文将探讨评测系统的神经架构搜索优化这一主题。首先，我们将介绍评测系统的基本概念和重要性，然后深入解析神经架构搜索优化的基本原理和算法。接下来，我们将探讨神经架构搜索优化的应用场景和实战案例分析，最后进行总结和展望。第1章：引言1.1评测系统的重要性评测系统在各个领域都有着广泛的应用，如教育、工业、金融等。它的主要作用是对
Python 源码编译安装详解：跨平台指南及完整步骤解析敲代码不忘补水一起学 Python python 开发语言编译安装
Python源码编译安装详解：跨平台指南及完整步骤解析文章目录Python源码编译安装详解：跨平台指南及完整步骤解析一准备工作1）Ubuntu/Debian2）CentOS/RHEL3）macOS二下载Python源码三编译与安装1）解压源码2）配置安装选项3）编译源码4）安装四验证安装本文详细介绍了如何在不同操作系统（Ubuntu/Debian、CentOS/RHEL、macOS）上，从源码编译
行业专家推荐：2024年CRM系统Top10 saascrm销售管理软件
2024年，是CRM系统引入中国的第25年。CRM系统已经从逐渐走向深水区。自20世纪90年代末，CRM理念开始进入中国。国内的CRM系统经历了引入期、快速成长期、本土化创新期以及智能化成熟期，哪些国内CRM系统突出重围成为客户的首选？未来CRM系统该走向哪？一、国内CRM系统发展：从引入到集成引入与初期发展阶段大约在2000年左右，随着全球经济一体化和企业竞争的加剧，CRM理念开始被中国企业所认
Jackson ObjectMapper
背景在最近写邓白氏项目的时候遇到一个需求，就是JSON字符串和Java对象之间相互转换，这就是涉及到数据反序列化。概述JacksonObjectMapper是Java中处理JSON数据的强大工具，具有以下主要功能：JSON与Java对象的相互转换：ObjectMapper可以将JSON数据转换为Java对象，以及将Java对象转换为JSON格式。这种转换过程称为序列化和反序列化。通过ObjectM
Python aiohttp YOYO__2018
客户端importaiohttpimportasyncioasyncdeffetch(session,url):asyncwithsession.get(url)asresponse:returnawaitresponse.text()asyncdefmain():asyncwithaiohttp.ClientSession()assession:html=awaitfetch(session,'
【数据结构】数据结构类型、定义、如何选择 L-ololois 数据结构
文章目录一、数据结构类型与定义二、数据结构在实际编程里的应用三、如何根据不同的需求选择适合的数据结构四、在数据库中选择数据结构要考虑的因素一、数据结构类型与定义数组（Array）●定义：一种线性数据结构，用于存储相同类型的元素，元素之间通过索引访问。●想象一排连续的盒子，每个盒子里放一个元素，这些盒子排成一行，每个盒子都有一个编号，你可以通过编号快速找到对应的盒子。●解决的问题：快速访问和存储相同
版本控制与Git实战指南：从入门到WebStorm集成 The god of big data 教程大Big数据Data 建站 git webstorm elasticsearch
一、版本控制：数字时代的时光机器在软件开发的世界里，每一次代码修改都如同一次时间旅行。版本控制系统（VersionControlSystem）正是这个领域的时光机器，它不仅能完整记录项目的演化历史，更能让开发者自由穿梭于各个版本之间。Git作为分布式版本控制系统的代表，已成为全球开发者必备的核心工具。Git与传统版本控制系统（如SVN）的关键差异：分布式架构：每个开发者都拥有完整的仓库副本闪电级操
【Three.js】JS 3D library（一个月进化史） Tiffany_Ho 前端 Three.js
#春节过完了，该继续投入学习了~作为一个平面开发者，想要增进更多的技能，掌握web3D开发#前置知识与技能1.JavaScript基础-掌握ES6+语法（类、模块、箭头函数、解构等）-熟悉异步编程（Promise、async/await）-了解事件循环和DOM操作2.HTML5和CSS3-熟悉Canvas和WebGL的基础概念-了解CSS3动画和变换（transform、transition）3.
【目标检测】多模态航空目标检测：A SIMPLE AERIAL DETECTION BASELINE OF MULTIMODAL LANGUAGE MODELS 慕容紫英问情目标检测目标检测人工智能计算机视觉
阅读并理解一篇论文：ASIMPLEAERIALDETECTIONBASELINEOFMULTIMODALLANGUAGEMODELS该文首次提出了一种将多模态语言模型应用于航空检测的简单基线方法，名为LMMRotate。贡献：具体而言，首先引入一种归一化方法，将检测输出转换为文本输出，以适配多模态语言模型框架。接着，提出一种评估方法，确保多模态语言模型与传统目标检测模型之间能够进行公平比较。通过微
Python如何播放本地音乐并在web页面播放玩人工智能的辣条哥开源项目AI Sphere Butler python 前端开发语言
环境：Python问题描述：Python如何播放本地音乐并在web页面播放解决方案：要在Python中播放本地音乐并在Web页面中播放，您可以采用两种不同的方法：一种是在服务器端使用Python播放音频文件，另一种是创建一个Web应用程序，在客户端通过HTML5的标签来播放音频文件。下面我将分别介绍这两种方法。方法1:使用Python播放本地音乐如果您只是想在服务器端（例如在开发环境中）播放本地音
翻译TypeError: GetPath() takes 1 positional argument but 2 were given 李姝瑶
这个错误是Type错误：GetPath()函数只需要1个位置参数，但是给了2个。该错误通常发生在Python代码中，因为该语言要求函数的参数数量必须与函数定义中声明的参数数量相同。在这个例子中，GetPath()函数只接受1个参数，但是在调用函数时给出了2个参数，这导致了TypeError错误。要解决此错误，您需要检查函数调用并确保只传递一个参数给GetPath()函数。如果您需要传递多个参数，请
python aiohttp简易使用教程 Amos_x python python aiohttp 异步
0.前言本文翻译自aiohttp的官方文档，如有纰漏，欢迎指出。aiohttp分为服务器端和客户端，本文只介绍客户端。另外我已经对aiohttp和asyncio进行了封装，可以参考我的github地址：https://github.com/web-trump/ahttp由于上下文的缘故，请求代码必须在一个异步的函数中进行：asyncdeffn():pass1.aiohttp安装pip3instal
python aiohttp_Python-异步之aiohttp weixin_39864101 python aiohttp
什么是aiohttp？一个异步的HTTP客户端\服务端框架，基于asyncio的异步模块。可用于实现异步爬虫，更快于requests的同步爬虫。aiohttp和requestsrequests版爬虫requests同步方式连续30次简单爬取http://httpbin.org网站importrequestsfromdatetimeimportdatetimedeffetch(url):r=requ
如何在Ubuntu中切换多个PHP版本小小虫码 ubuntu php linux
在Ubuntu环境下实现PHP版本的灵活切换，是众多开发者与系统管理员的重要技能之一。下面，我们将深入探讨如何在Ubuntu系统中安装、配置及管理多个PHP版本，确保您的开发环境随心所欲地适应各类项目需求。开始前的准备确保您的Ubuntu系统保持最新状态，使用以下命令进行系统更新：sudoapt-getupdatesudoapt-getupgrade随后，安装必要的软件包，为后续的PHP版本管理
ASM系列六利用TreeApi 添加和移除类成员 lijingyao8206 jvm 动态代理 ASM 字节码技术 TreeAPI
同生成的做法一样，添加和移除类成员只要去修改fields和methods中的元素即可。这里我们拿一个简单的类做例子，下面这个Task类，我们来移除isNeedRemove方法，并且添加一个int 类型的addedField属性。 package asm.core; /** * Created by yunshen.ljy on 2015/6/
Springmvc-权限设计 bee1314 spring Web jsp
万丈高楼平地起。权限管理对于管理系统而言已经是标配中的标配了吧，对于我等俗人更是不能免俗。同时就目前的项目状况而言，我们还不需要那么高大上的开源的解决方案，如Spring Security，Shiro。小伙伴一致决定我们还是从基本的功能迭代起来吧。目标： 1.实现权限的管理（CRUD） 2.实现部门管理（CRUD) 3.实现人员的管理（CRUD） 4.实现部门和权限
算法竞赛入门经典（第二版）第2章习题 CrazyMizzz c 算法
2.4.1 输出技巧 #include <stdio.h> int main() { int i, n; scanf("%d", &n); for (i = 1; i <= n; i++) printf("%d\n", i); return 0; } 习题2-2 水仙花数(daffodil
struts2中jsp自动跳转到Action 麦田的设计者 jsp webxml struts2 自动跳转
1、在struts2的开发中，经常需要用户点击网页后就直接跳转到一个Action，执行Action里面的方法，利用mvc分层思想执行相应操作在界面上得到动态数据。毕竟用户不可能在地址栏里输入一个Action（不是专业人士） 2、＜jsp:forward page="xxx.action" /＞，这个标签可以实现跳转，page的路径是相对地址,不同与jsp和j
php 操作webservice实例 IT独行者 PHP webservice
首先大家要简单了解了何谓webservice，接下来就做两个非常简单的例子，webservice还是逃不开server端与client端。我测试的环境为：apache2.2.11 php5.2.10做这个测试之前，要确认你的php配置文件中已经将soap扩展打开，即extension=php_soap.dll; OK 现在我们来体验webservice //server端 serve
Windows下使用Vagrant安装linux系统 _wy_ windows vagrant
准备工作：下载安装 VirtualBox ：https://www.virtualbox.org/ 下载安装 Vagrant ：http://www.vagrantup.com/ 下载需要使用的 box ：官方提供的范例：http://files.vagrantup.com/precise32.box 还可以在 http://www.vagrantbox.es/
更改linux的文件拥有者及用户组(chown和chgrp) 无量 c linux chgrp chown
本文（转） http://blog.163.com/yanenshun@126/blog/static/128388169201203011157308/ http://ydlmlh.iteye.com/blog/1435157 一、基本使用：使用chown命令可以修改文件或目录所属的用户：命令
linux下抓包工具矮蛋蛋 linux
原文地址： http://blog.chinaunix.net/uid-23670869-id-2610683.html tcpdump -nn -vv -X udp port 8888 上面命令是抓取udp包、端口为8888 netstat -tln 命令是用来查看linux的端口使用情况 13 . 列出所有的网络连接 lsof -i 14. 列出所有tcp 网络连接信息 l
我觉得mybatis是垃圾！：“每一个用mybatis的男纸，你伤不起” alafqq mybatis
最近看了每一个用mybatis的男纸，你伤不起原文地址：http://www.iteye.com/topic/1073938 发表一下个人看法。欢迎大神拍砖；个人一直使用的是Ibatis框架，公司对其进行过小小的改良；最近换了公司，要使用新的框架。听说mybatis不错；就对其进行了部分的研究；发现多了一个mapper层；个人感觉就是个dao；
解决java数据交换之谜百合不是茶数据交换
交换两个数字的方法有以下三种，其中第一种最常用 /* 输出最小的一个数 */ public class jiaohuan1 { public static void main(String[] args) { int a =4; int b = 3; if(a<b){ // 第一种交换方式 int tmep =
渐变显示 bijian1013 JavaScript
<style type="text/css"> #wxf { FILTER: progid:DXImageTransform.Microsoft.Gradient(GradientType=0, StartColorStr=#ffffff, EndColorStr=#97FF98); height: 25px; } </style>
探索JUnit4扩展：断言语法assertThat bijian1013 java 单元测试 assertThat
一.概述 JUnit 设计的目的就是有效地抓住编程人员写代码的意图，然后快速检查他们的代码是否与他们的意图相匹配。 JUnit 发展至今，版本不停的翻新，但是所有版本都一致致力于解决一个问题，那就是如何发现编程人员的代码意图，并且如何使得编程人员更加容易地表达他们的代码意图。JUnit 4.4 也是为了如何能够
【Gson三】Gson解析{"data":{"IM":["MSN","QQ","Gtalk"]}} bit1129 gson
如何把如下简单的JSON字符串反序列化为Java的POJO对象? {"data":{"IM":["MSN","QQ","Gtalk"]}} 下面的POJO类Model无法完成正确的解析： import com.google.gson.Gson;
【Kafka九】Kafka High Level API vs. Low Level API bit1129 kafka
1. Kafka提供了两种Consumer API High Level Consumer API Low Level Consumer API(Kafka诡异的称之为Simple Consumer API，实际上非常复杂) 在选用哪种Consumer API时，首先要弄清楚这两种API的工作原理，能做什么不能做什么，能做的话怎么做的以及用的时候，有哪些可能的问题
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-归并排序 bylijinnan java
import java.util.Arrays; public class MergeSort { public static void main(String[] args) { int[] a={20,1,3,8,5,9,4,25}; mergeSort(a,0,a.length-1); System.out.println(Arrays.to
Netty源码学习-CompositeChannelBuffer bylijinnan java netty
CompositeChannelBuffer体现了Netty的“Transparent Zero Copy” 查看API（ http://docs.jboss.org/netty/3.2/api/org/jboss/netty/buffer/package-summary.html#package_description）可以看到，所谓“Transparent Zero Copy”是通
Android中给Activity添加返回键 hotsunshine Activity
// this need android:minSdkVersion="11" getActionBar().setDisplayHomeAsUpEnabled(true); @Override public boolean onOptionsItemSelected(MenuItem item) {
静态页面传参 ctrain 静态
$(document).ready(function () { var request = { QueryString : function (val) { var uri = window.location.search; var re = new RegExp("" + val + "=([^&?]*)", &
Windows中查找某个目录下的所有文件中包含某个字符串的命令 daizj windows 查找某个目录下的所有文件包含某个字符串
findstr可以完成这个工作。 [html] view plain copy >findstr /s /i "string" *.* 上面的命令表示，当前目录以及当前目录的所有子目录下的所有文件中查找"string&qu
改善程序代码质量的一些技巧 dcj3sjt126com 编程 PHP 重构
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短尽管很多人都遵
SharedPreferences对数据的存储 dcj3sjt126com
SharedPreferences简介： &nbs
linux复习笔记之bash shell (2) bash基础 eksliang bash bash shell
转载请出自出处： http://eksliang.iteye.com/blog/2104329 1.影响显示结果的语系变量（locale） 1.1locale这个命令就是查看当前系统支持多少种语系，命令使用如下： [root@localhost shell]# locale LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8"
Android零碎知识总结 gqdy365 android
1、CopyOnWriteArrayList add(E) 和remove(int index)都是对新的数组进行修改和新增。所以在多线程操作时不会出现java.util.ConcurrentModificationException错误。所以最后得出结论：CopyOnWriteArrayList适合使用在读操作远远大于写操作的场景里，比如缓存。发生修改时候做copy，新老版本分离，保证读的高
HoverTree.Model.ArticleSelect类的作用 hvt Web .net C#hovertree asp.net
ArticleSelect类在命名空间HoverTree.Model中可以认为是文章查询条件类，用于存放查询文章时的条件，例如HvtId就是文章的id。HvtIsShow就是文章的显示属性，当为-1是，该条件不产生作用，当为0时，查询不公开显示的文章，当为1时查询公开显示的文章。HvtIsHome则为是否在首页显示。HoverTree系统源码完全开放，开发环境为Visual Studio 2013
PHP 判断是否使用代理 PHP Proxy Detector 天梯梦 proxy
1. php 类 I found this class looking for something else actually but I remembered I needed some while ago something similar and I never found one. I'm sure it will help a lot of developers who try to
apache的math库中的回归——regression（翻译） lvdccyb Math apache
这个Math库，虽然不向weka那样专业的ML库，但是用户友好，易用。多元线性回归，协方差和相关性（皮尔逊和斯皮尔曼），分布测试（假设检验，t，卡方，G），统计。数学库中还包含，Cholesky，LU，SVD，QR，特征根分解，真不错。基本覆盖了：线代，统计，矩阵，最优化理论曲线拟合常微分方程遗传算法（GA），还有3维的运算。。。
基础数据结构和算法十三：Undirected Graphs (2) sunwinner Algorithm
Design pattern for graph processing. Since we consider a large number of graph-processing algorithms, our initial design goal is to decouple our implementations from the graph representation
云计算平台最重要的五项技术 sumapp 云计算云平台智城云
云计算平台最重要的五项技术 1、云服务器云服务器提供简单高效，处理能力可弹性伸缩的计算服务，支持国内领先的云计算技术和大规模分布存储技术，使您的系统更稳定、数据更安全、传输更快速、部署更灵活。特性机型丰富通过高性能服务器虚拟化为云服务器，提供丰富配置类型虚拟机，极大简化数据存储、数据库搭建、web服务器搭建等工作；仅需要几分钟，根据CP
《京东技术解密》有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的12月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 12月试读活动回顾： http://webmaster.iteye.com/blog/2164754 本次技术图书试读活动获奖名单及相应作品如下：一等奖（两名） Microhardest：http://microhardest.ite