irober

数据科学案例3 线性回归之汽车贷款（代码）

7 线性回归模型与诊断

Step1、导入数据和数据清洗
Step2、相关性分析
Step3、线性回归算法

1、简单线性回归
3、多元线性回归

3.1 多元线性回归的变量筛选

Step4、残差分析
Step5、强影响点分析
Step6、多重共线性分析（vif函数）
Step7、正则算法

1、岭回归
2、使用scikit-learn进行正则化参数调优

7 线性回归模型与诊断

数据说明：本数据是一份汽车贷款数据

字段名	中文含义
id	id
Acc	是否开卡(1=已开通)
avg_exp	月均信用卡支出（元）
avg_exp_ln	月均信用卡支出的自然对数
gender	性别(男=1)
Age	年龄
Income	年收入（万元）
Ownrent	是否自有住房（有=1；无=0)
Selfempl	是否自谋职业(1=yes, 0=no)
dist_home_val	所住小区房屋均价(万元)
dist_avg_income	当地人均收入
high_avg	高出当地平均收入
edu_class	教育等级：小学及以下开通=0，中学=1，本科=2，研究生=3

get_ipython().magic('matplotlib inline')

import matplotlib.pyplot as plt
import os
import numpy as np
import pandas as pd
import statsmodels.api as sm
from statsmodels.formula.api import ols

Step1、导入数据和数据清洗

(直接去除了缺失值)

raw = pd.read_csv(r'.\data\creditcard_exp.csv', skipinitialspace=True)
raw.head()

	id	Acc	avg_exp	avg_exp_ln	gender	Age	Income	Ownrent	Selfempl	dist_home_val	dist_avg_income	age2	high_avg	edu_class
0	19	1	1217.03	7.104169	1	40	16.03515	1	1	99.93	15.932789	1600	0.102361	3
1	5	1	1251.50	7.132098	1	32	15.84750	1	0	49.88	15.796316	1024	0.051184	2
2	95	0	NaN	NaN	1	36	8.40000	0	0	88.61	7.490000	1296	0.910000	1
3	86	1	856.57	6.752936	1	41	11.47285	1	0	16.10	11.275632	1681	0.197218	3
4	50	1	1321.83	7.186772	1	28	13.40915	1	0	100.39	13.346474	784	0.062676	2

exp = raw[raw['avg_exp'].notnull()].copy().iloc[:, 2:].drop('age2',axis=1)

exp_new = raw[raw['avg_exp'].isnull()].copy().iloc[:, 2:].drop('age2',axis=1)

exp.describe(include='all')

	avg_exp	avg_exp_ln	gender	Age	Income	Ownrent	Selfempl	dist_home_val	dist_avg_income	high_avg	edu_class
count	70.000000	70.000000	70.000000	70.000000	70.000000	70.000000	70.000000	70.000000	70.000000	70.000000	70.000000
mean	983.655429	6.787787	0.285714	31.157143	7.424706	0.385714	0.028571	74.540857	8.005472	-0.580766	1.928571
std	446.294237	0.476035	0.455016	7.206349	3.077986	0.490278	0.167802	36.949228	3.070744	0.432808	0.873464
min	163.180000	5.094854	0.000000	20.000000	3.493900	0.000000	0.000000	13.130000	3.828842	-1.526850	0.000000
25%	697.155000	6.547003	0.000000	26.000000	5.175662	0.000000	0.000000	49.302500	5.915553	-0.887981	1.000000
50%	884.150000	6.784627	0.000000	30.000000	6.443525	0.000000	0.000000	65.660000	7.084184	-0.612068	2.000000
75%	1229.585000	7.114415	1.000000	36.000000	8.494237	1.000000	0.000000	105.067500	9.123105	-0.302082	3.000000
max	2430.030000	7.795659	1.000000	55.000000	16.900150	1.000000	1.000000	157.900000	18.427000	0.259337	3.000000

Step2、相关性分析

散点图

exp.plot('Income', 'avg_exp', kind='scatter')
plt.show()

exp[['Income', 'avg_exp', 'Age', 'dist_home_val']].corr(method='pearson')

	Income	avg_exp	Age	dist_home_val
Income	1.000000	0.674011	0.369129	0.249153
avg_exp	0.674011	1.000000	0.258478	0.319499
Age	0.369129	0.258478	1.000000	0.109323
dist_home_val	0.249153	0.319499	0.109323	1.000000

Step3、线性回归算法

1、简单线性回归

lm_s = ols('avg_exp ~ Income', data=exp).fit()
lm_s.summary()

OLS Regression Results
Dep. Variable:	avg_exp	R-squared:	0.454
Model:	OLS	Adj. R-squared:	0.446
Method:	Least Squares	F-statistic:	56.61
Date:	Thu, 06 Feb 2020	Prob (F-statistic):	1.60e-10
Time:	10:14:45	Log-Likelihood:	-504.69
No. Observations:	70	AIC:	1013.
Df Residuals:	68	BIC:	1018.
Df Model:	1
Covariance Type:	nonrobust

	coef	std err	t	P>\|t\|	[0.025	0.975]
Intercept	258.0495	104.290	2.474	0.016	49.942	466.157
Income	97.7286	12.989	7.524	0.000	71.809	123.648

Omnibus:	3.714	Durbin-Watson:	1.424
Prob(Omnibus):	0.156	Jarque-Bera (JB):	3.507
Skew:	0.485	Prob(JB):	0.173
Kurtosis:	2.490	Cond. No.	21.4

Warnings:
[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.

# Predict-在原始数据集上得到预测值和残差
pd.DataFrame([lm_s.predict(exp), lm_s.resid], index=['predict', 'resid']
            ).T.head()

	predict	resid
0	1825.141904	-608.111904
1	1806.803136	-555.303136
3	1379.274813	-522.704813
4	1568.506658	-246.676658
5	1238.281793	-422.251793

# 在待预测数据集上得到预测值
lm_s.predict(exp_new)[:5]

2     1078.969552
11     756.465245
13     736.919530
19     687.077955
20     666.554953
dtype: float64

3、多元线性回归

lm_m = ols('avg_exp ~ Age + Income + dist_home_val + dist_avg_income',
           data=exp).fit()
lm_m.summary()

OLS Regression Results
Dep. Variable:	avg_exp	R-squared:	0.542
Model:	OLS	Adj. R-squared:	0.513
Method:	Least Squares	F-statistic:	19.20
Date:	Thu, 06 Feb 2020	Prob (F-statistic):	1.82e-10
Time:	10:15:18	Log-Likelihood:	-498.59
No. Observations:	70	AIC:	1007.
Df Residuals:	65	BIC:	1018.
Df Model:	4
Covariance Type:	nonrobust

	coef	std err	t	P>\|t\|	[0.025	0.975]
Intercept	-32.0078	186.874	-0.171	0.865	-405.221	341.206
Age	1.3723	5.605	0.245	0.807	-9.822	12.566
Income	-166.7204	87.607	-1.903	0.061	-341.684	8.243
dist_home_val	1.5329	1.057	1.450	0.152	-0.578	3.644
dist_avg_income	261.8827	87.807	2.982	0.004	86.521	437.245

Omnibus:	5.234	Durbin-Watson:	1.582
Prob(Omnibus):	0.073	Jarque-Bera (JB):	5.174
Skew:	0.625	Prob(JB):	0.0752
Kurtosis:	2.540	Cond. No.	459.

Warnings:
[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.

3.1 多元线性回归的变量筛选

'''forward select'''
def forward_select(data, response):
    remaining = set(data.columns)
    remaining.remove(response)
    selected = []
    current_score, best_new_score = float('inf'), float('inf')
    while remaining:
        aic_with_candidates=[]
        for candidate in remaining:
            formula = "{} ~ {}".format(
                response,' + '.join(selected + [candidate]))
            aic = ols(formula=formula, data=data).fit().aic
            aic_with_candidates.append((aic, candidate))
        aic_with_candidates.sort(reverse=True)
        best_new_score, best_candidate=aic_with_candidates.pop()
        if current_score > best_new_score: 
            remaining.remove(best_candidate)
            selected.append(best_candidate)
            current_score = best_new_score
            print ('aic is {},continuing!'.format(current_score))
        else:        
            print ('forward selection over!')
            break
            
    formula = "{} ~ {} ".format(response,' + '.join(selected))
    print('final formula is {}'.format(formula))
    model = ols(formula=formula, data=data).fit()
    return(model)

data_for_select = exp[['avg_exp', 'Income', 'Age', 'dist_home_val', 
                       'dist_avg_income']]
lm_m = forward_select(data=data_for_select, response='avg_exp')
print(lm_m.rsquared)

aic is 1007.6801413968117,continuing!
aic is 1005.4969816306302,continuing!
aic is 1005.2487355956046,continuing!
forward selection over!
final formula is avg_exp ~ dist_avg_income + Income + dist_home_val 
0.541151292841195

Step4、残差分析

ana1 = lm_s

exp['Pred'] = ana1.predict(exp)
exp['resid'] = ana1.resid
exp.plot('Income', 'resid',kind='scatter')
plt.show()

# 遇到异方差情况,教科书上会介绍使用加权最小二乘法，但是实际上最常用的是对被解释变量取对数
ana1 = ols('avg_exp ~ Income', data=exp).fit()
ana1.summary()

OLS Regression Results
Dep. Variable:	avg_exp	R-squared:	0.454
Model:	OLS	Adj. R-squared:	0.446
Method:	Least Squares	F-statistic:	56.61
Date:	Thu, 06 Feb 2020	Prob (F-statistic):	1.60e-10
Time:	10:15:54	Log-Likelihood:	-504.69
No. Observations:	70	AIC:	1013.
Df Residuals:	68	BIC:	1018.
Df Model:	1
Covariance Type:	nonrobust

	coef	std err	t	P>\|t\|	[0.025	0.975]
Intercept	258.0495	104.290	2.474	0.016	49.942	466.157
Income	97.7286	12.989	7.524	0.000	71.809	123.648

Omnibus:	3.714	Durbin-Watson:	1.424
Prob(Omnibus):	0.156	Jarque-Bera (JB):	3.507
Skew:	0.485	Prob(JB):	0.173
Kurtosis:	2.490	Cond. No.	21.4

Warnings:
[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.

ana2 = ols('avg_exp_ln ~ Income', exp).fit()
exp['Pred'] = ana2.predict(exp)
exp['resid'] = ana2.resid
#exp.plot('Income', 'resid',kind='scatter')
ana2.summary()

OLS Regression Results
Dep. Variable:	avg_exp_ln	R-squared:	0.403
Model:	OLS	Adj. R-squared:	0.394
Method:	Least Squares	F-statistic:	45.92
Date:	Thu, 06 Feb 2020	Prob (F-statistic):	3.58e-09
Time:	10:15:59	Log-Likelihood:	-28.804
No. Observations:	70	AIC:	61.61
Df Residuals:	68	BIC:	66.11
Df Model:	1
Covariance Type:	nonrobust

	coef	std err	t	P>\|t\|	[0.025	0.975]
Intercept	6.0587	0.116	52.077	0.000	5.827	6.291
Income	0.0982	0.014	6.776	0.000	0.069	0.127

Omnibus:	10.765	Durbin-Watson:	1.197
Prob(Omnibus):	0.005	Jarque-Bera (JB):	12.708
Skew:	-0.688	Prob(JB):	0.00174
Kurtosis:	4.569	Cond. No.	21.4

Warnings:
[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.

# 取对数会使模型更有解释意义(R-squre甚至减小，考虑因变量取对数)
exp['Income_ln'] = np.log(exp['Income'])
ana3 = ols('avg_exp_ln ~ Income_ln', exp).fit()
exp['Pred'] = ana3.predict(exp)
exp['resid'] = ana3.resid
exp.plot('Income_ln', 'resid',kind='scatter')
plt.show()
ana3.summary()

OLS Regression Results
Dep. Variable:	avg_exp_ln	R-squared:	0.480
Model:	OLS	Adj. R-squared:	0.473
Method:	Least Squares	F-statistic:	62.87
Date:	Thu, 06 Feb 2020	Prob (F-statistic):	2.95e-11
Time:	10:16:30	Log-Likelihood:	-23.950
No. Observations:	70	AIC:	51.90
Df Residuals:	68	BIC:	56.40
Df Model:	1
Covariance Type:	nonrobust

	coef	std err	t	P>\|t\|	[0.025	0.975]
Intercept	5.0611	0.222	22.833	0.000	4.619	5.503
Income_ln	0.8932	0.113	7.929	0.000	0.668	1.118

Omnibus:	8.382	Durbin-Watson:	1.368
Prob(Omnibus):	0.015	Jarque-Bera (JB):	8.074
Skew:	-0.668	Prob(JB):	0.0177
Kurtosis:	3.992	Cond. No.	13.2

Warnings:
[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.

# 寻找最优的模型
r_sq = {'exp~Income':ana1.rsquared, 'ln(exp)~Income':ana2.rsquared, 
        'ln(exp)~ln(Income)':ana3.rsquared}
print(r_sq)

{'exp~Income': 0.45429062315565294, 'ln(exp)~Income': 0.4030855555329651, 'ln(exp)~ln(Income)': 0.48039279938931057}

Step5、强影响点分析

# 法一：
# Find outlier：
exp['resid_t'] = (exp['resid'] - exp['resid'].mean()) / exp['resid'].std()
exp[abs(exp['resid_t']) > 2]

	avg_exp	avg_exp_ln	gender	Age	Income	Ownrent	Selfempl	dist_home_val	dist_avg_income	high_avg	edu_class	Pred	resid	Income_ln	resid_t
73	251.56	5.527682	0	29	5.1578	0	0	63.23	5.492947	-0.335147	0	6.526331	-0.998649	1.640510	-2.910292
98	163.18	5.094854	0	22	3.8159	0	0	63.27	3.997789	-0.181889	0	6.257191	-1.162337	1.339177	-3.387317

# Drop outlier
exp2 = exp[abs(exp['resid_t']) <= 2].copy()
ana4 = ols('avg_exp_ln ~ Income_ln', exp2).fit()
exp2['Pred'] = ana4.predict(exp2)
exp2['resid'] = ana4.resid
exp2.plot('Income', 'resid', kind='scatter')
plt.show()
ana4.rsquared

0.49397191385172456

#法二：
# statemodels包提供了更多强影响点判断指标
from statsmodels.stats.outliers_influence import OLSInfluence
OLSInfluence(ana3).summary_frame().head()

	dfb_Intercept	dfb_Income_ln	cooks_d	standard_resid	hat_diag	dffits_internal	student_resid	dffits
0	0.343729	-0.381393	0.085587	-1.319633	0.089498	-0.413732	-1.326996	-0.416040
1	0.307196	-0.341294	0.069157	-1.201699	0.087409	-0.371907	-1.205702	-0.373146
3	0.207619	-0.244956	0.044984	-1.440468	0.041557	-0.299947	-1.452165	-0.302382
4	0.112301	-0.127713	0.010759	-0.575913	0.060926	-0.146693	-0.573062	-0.145967
5	0.120572	-0.150924	0.022274	-1.221080	0.029011	-0.211064	-1.225579	-0.211842

# ### 增加变量
# 经过单变量线性回归的处理，我们基本对模型的性质有了一定的了解，接下来可以放入更多的连续型解释变量。在加入变量之前，要注意变量的函数形式转变。比如当地房屋均价、当地平均收入，其性质和个人收入一样，都需要取对数

exp2['dist_home_val_ln'] = np.log(exp2['dist_home_val'])
exp2['dist_avg_income_ln'] = np.log(exp2['dist_avg_income'])

ana5 = ols('''avg_exp_ln ~ Age + Income_ln + 
           dist_home_val_ln + dist_avg_income_ln''', exp2).fit()
exp2.plot('Income', 'resid', kind='scatter')
plt.show()
ana5.rsquared

0.5529068646270383

Step6、多重共线性分析（vif函数）

Step regression is not always work.

ana5.bse # The standard errors of the parameter estimates

Intercept             0.317453
Age                   0.005124
Income_ln             0.568848
dist_home_val_ln      0.058210
dist_avg_income_ln    0.612197
dtype: float64

# The function "statsmodels.stats.outliers_influence.variance_inflation_factor" uses "OLS" to fit data, and it will generates a wrong rsquared. So define it ourselves!
def vif(df, col_i):
    cols = list(df.columns)
    cols.remove(col_i)
    cols_noti = cols
    formula = col_i + '~' + '+'.join(cols_noti)
    r2 = ols(formula, df).fit().rsquared
    return 1. / (1. - r2)

exog = exp2[['Income_ln', 'dist_home_val_ln',
             'dist_avg_income_ln']]
for i in exog.columns:
    print(i, '\t', vif(df=exog, col_i=i))

Income_ln 	 36.653639058963186
dist_home_val_ln 	 1.053596313570258
dist_avg_income_ln 	 36.894876856102

# Income_ln与dist_avg_income_ln具有共线性，使用“高出平均收入的比率”代替其中一个
exp2['high_avg_ratio'] = exp2['high_avg'] / exp2['dist_avg_income']

exog1 = exp2[['high_avg_ratio', 'dist_home_val_ln', 
              'dist_avg_income_ln']]

for i in exog1.columns:
    print(i, '\t', vif(df=exog1, col_i=i))

high_avg_ratio 	 1.1230220802048871
dist_home_val_ln 	 1.0527009887483532
dist_avg_income_ln 	 1.1762825351755393

var_select = exp2[['avg_exp_ln', 'high_avg_ratio', 
                   'dist_home_val_ln', 'dist_avg_income_ln']]
ana7 = forward_select(data=var_select, response='avg_exp_ln')
print(ana7.rsquared)

aic is 23.816793700737392,continuing!
aic is 20.830952279560805,continuing!
forward selection over!
final formula is avg_exp_ln ~ dist_avg_income_ln + dist_home_val_ln 
0.552039773684598

formula8 = '''
avg_exp_ln ~ dist_avg_income_ln + dist_home_val_ln + 
C(gender) + C(Ownrent) + C(Selfempl) + C(edu_class)
'''
ana8 = ols(formula8, exp2).fit()
ana8.summary()

OLS Regression Results
Dep. Variable:	avg_exp_ln	R-squared:	0.873
Model:	OLS	Adj. R-squared:	0.858
Method:	Least Squares	F-statistic:	58.71
Date:	Thu, 06 Feb 2020	Prob (F-statistic):	1.75e-24
Time:	11:17:40	Log-Likelihood:	35.337
No. Observations:	68	AIC:	-54.67
Df Residuals:	60	BIC:	-36.92
Df Model:	7
Covariance Type:	nonrobust

	coef	std err	t	P>\|t\|	[0.025	0.975]
Intercept	4.5520	0.212	21.471	0.000	4.128	4.976
C(gender)[T.1]	-0.4301	0.060	-7.200	0.000	-0.550	-0.311
C(Ownrent)[T.1]	0.0184	0.045	0.413	0.681	-0.071	0.107
C(Selfempl)[T.1]	-0.3805	0.119	-3.210	0.002	-0.618	-0.143
C(edu_class)[T.2]	0.2895	0.051	5.658	0.000	0.187	0.392
C(edu_class)[T.3]	0.4686	0.060	7.867	0.000	0.349	0.588
dist_avg_income_ln	0.9563	0.098	9.722	0.000	0.760	1.153
dist_home_val_ln	0.0522	0.034	1.518	0.134	-0.017	0.121

Omnibus:	3.788	Durbin-Watson:	2.129
Prob(Omnibus):	0.150	Jarque-Bera (JB):	4.142
Skew:	0.020	Prob(JB):	0.126
Kurtosis:	4.208	Cond. No.	60.2

Warnings:
[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.

formula9 = '''
avg_exp_ln ~ dist_avg_income_ln + dist_home_val_ln + 
C(Selfempl) + C(gender):C(edu_class)
'''
ana9 = ols(formula9, exp2).fit()
ana9.summary()

OLS Regression Results
Dep. Variable:	avg_exp_ln	R-squared:	0.914
Model:	OLS	Adj. R-squared:	0.902
Method:	Least Squares	F-statistic:	78.50
Date:	Thu, 06 Feb 2020	Prob (F-statistic):	1.42e-28
Time:	11:17:48	Log-Likelihood:	48.743
No. Observations:	68	AIC:	-79.49
Df Residuals:	59	BIC:	-59.51
Df Model:	8
Covariance Type:	nonrobust

	coef	std err	t	P>\|t\|	[0.025	0.975]
Intercept	4.4098	0.178	24.839	0.000	4.055	4.765
C(Selfempl)[T.1]	-0.2945	0.101	-2.908	0.005	-0.497	-0.092
C(edu_class)[T.2]	0.3164	0.045	7.012	0.000	0.226	0.407
C(edu_class)[T.3]	0.5576	0.054	10.268	0.000	0.449	0.666
C(gender)[T.1]:C(edu_class)[1]	-0.0054	0.098	-0.055	0.956	-0.201	0.190
C(gender)[T.1]:C(edu_class)[2]	-0.4357	0.068	-6.374	0.000	-0.573	-0.299
C(gender)[T.1]:C(edu_class)[3]	-0.6001	0.065	-9.230	0.000	-0.730	-0.470
dist_avg_income_ln	0.9893	0.078	12.700	0.000	0.833	1.145
dist_home_val_ln	0.0654	0.029	2.278	0.026	0.008	0.123

Omnibus:	5.023	Durbin-Watson:	1.722
Prob(Omnibus):	0.081	Jarque-Bera (JB):	5.070
Skew:	-0.328	Prob(JB):	0.0793
Kurtosis:	4.166	Cond. No.	61.2

Warnings:
[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.

Step7、正则算法

1、岭回归

# L1_wt参数为0则使用岭回归，为1使用lasso
lmr = ols('avg_exp ~ Income + dist_home_val + dist_avg_income',
          data=exp).fit_regularized(alpha=1, L1_wt=0)

lmr.summary()

# ### LASSO算法
lmr1 = ols('avg_exp ~ Age + Income + dist_home_val + dist_avg_income',
           data=exp).fit_regularized(alpha=1, L1_wt=1)
lmr1.summary()

2、使用scikit-learn进行正则化参数调优

from sklearn.preprocessing import StandardScaler

continuous_xcols = ['Age', 'Income', 'dist_home_val', 
                    'dist_avg_income']   #  抽取连续变量
scaler = StandardScaler()  # 标准化
X = scaler.fit_transform(exp[continuous_xcols])
y = exp['avg_exp_ln']

d:\Anaconda3\lib\site-packages\sklearn\preprocessing\data.py:645: DataConversionWarning: Data with input dtype int64, float64 were all converted to float64 by StandardScaler.
  return self.partial_fit(X, y)
d:\Anaconda3\lib\site-packages\sklearn\base.py:464: DataConversionWarning: Data with input dtype int64, float64 were all converted to float64 by StandardScaler.
  return self.fit(X, **fit_params).transform(X)

from sklearn.linear_model import RidgeCV

alphas = np.logspace(-2, 3, 100, base=10)

# Search the min MSE by CV
rcv = RidgeCV(alphas=alphas, store_cv_values=True) 
rcv.fit(X, y)

RidgeCV(alphas=array([1.00000e-02, 1.12332e-02, ..., 8.90215e+02, 1.00000e+03]),
    cv=None, fit_intercept=True, gcv_mode=None, normalize=False,
    scoring=None, store_cv_values=True)

print('The best alpha is {}'.format(rcv.alpha_))
print('The r-square is {}'.format(rcv.score(X, y))) 
# Default score is rsquared

The best alpha is 0.2915053062825176
The r-square is 0.47568267770194916

X_new = scaler.transform(exp_new[continuous_xcols])
np.exp(rcv.predict(X_new)[:5])

d:\Anaconda3\lib\site-packages\ipykernel_launcher.py:1: DataConversionWarning: Data with input dtype int64, float64 were all converted to float64 by StandardScaler.
  """Entry point for launching an IPython kernel.

array([759.67677561, 606.74024213, 661.20654568, 681.888929  ,
       641.06967182])

cv_values = rcv.cv_values_
n_fold, n_alphas = cv_values.shape

cv_mean = cv_values.mean(axis=0)
cv_std = cv_values.std(axis=0)
ub = cv_mean + cv_std / np.sqrt(n_fold)
lb = cv_mean - cv_std / np.sqrt(n_fold)

plt.semilogx(alphas, cv_mean, label='mean_score')
plt.fill_between(alphas, lb, ub, alpha=0.2)
plt.xlabel("$\\alpha$")
plt.ylabel("mean squared errors")
plt.legend(loc="best")
plt.show()

# 手动选择正则化系数——根据业务判断

# 岭迹图

# In[42]:

from sklearn.linear_model import Ridge

ridge = Ridge()

coefs = []
for alpha in alphas:
    ridge.set_params(alpha=alpha)
    ridge.fit(X, y)
    coefs.append(ridge.coef_)


# In[43]:

ax = plt.gca()

ax.plot(alphas, coefs)
ax.set_xscale('log')
plt.xlabel('alpha')
plt.ylabel('weights')
plt.title('Ridge coefficients as a function of the regularization')
plt.axis('tight')
plt.show()

rcv.coef_

array([ 0.03321449, -0.30956185,  0.05551208,  0.59067449])

ridge.set_params(alpha=40)
ridge.fit(X, y)
ridge.coef_

array([0.03293109, 0.09907747, 0.04976305, 0.12101456])

ridge.score(X, y)

0.4255673043353688

np.exp(ridge.predict(X_new)[:5])

array([934.79025945, 727.11042209, 703.88143602, 759.04342764,
       709.54172995])

# lasso

from sklearn.linear_model import LassoCV

lasso_alphas = np.logspace(-3, 0, 100, base=10)
lcv = LassoCV(alphas=lasso_alphas, cv=10) # Search the min MSE by CV
lcv.fit(X, y)

print('The best alpha is {}'.format(lcv.alpha_))
print('The r-square is {}'.format(lcv.score(X, y))) 
# Default score is rsquared

The best alpha is 0.04037017258596556
The r-square is 0.4426451069862233

from sklearn.linear_model import Lasso

lasso = Lasso()
lasso_coefs = []
for alpha in lasso_alphas:
    lasso.set_params(alpha=alpha)
    lasso.fit(X, y)
    lasso_coefs.append(lasso.coef_)
ax = plt.gca()
ax.plot(lasso_alphas, lasso_coefs)
ax.set_xscale('log')
plt.xlabel('alpha')
plt.ylabel('weights')
plt.title('Lasso coefficients as a function of the regularization')
plt.axis('tight')
plt.show()
lcv.coef_

array([0.        , 0.        , 0.02789489, 0.26549855])

# 弹性网络
from sklearn.linear_model import ElasticNetCV

l1_ratio = [.1, .5, .7, .9, .95, .99, 1] #0取消

encv = ElasticNetCV(l1_ratio=l1_ratio)
encv.fit(X,y)

print('The best l1_ratio is {}'.format(encv.l1_ratio_))
print('The best alpha is {}'.format(encv.alpha_))

d:\Anaconda3\lib\site-packages\sklearn\model_selection\_split.py:2053: FutureWarning: You should specify a value for 'cv' instead of relying on the default value. The default value will change from 3 to 5 in version 0.22.
  warnings.warn(CV_WARNING, FutureWarning)
The best l1_ratio is 0.1
The best alpha is 0.6293876843197391

你可能感兴趣的:(#,数据科学,案例篇,python数据挖掘)

为什么说仪式和习惯非常重要？章鱼老师zy
这是章鱼姐第【40】篇原创文章，日更计划第【37/100】天。阅读张萌萌姐【精力管理手册】第【6/7】章。一阅读摘要这一章萌姐讲到了习惯的重要性，为什么说养成一个习惯很重要？如何养成一个好习惯？如何建立自己的仪式感？二金句精力管理最重要的是产生什么效果。当你想做却没有动力去做一件事情时，你就应该把它养成习惯。习惯可以帮我们创造稳定框架。对于那些特别考验意志的事情，我们应该先行后思。三思考题，萌姐讲
Django之Debug篇菜鸟之编程 Django django python 后端
一、DebugToolBar基本使用1.1、概述Django框架的调试工具栏使用django-debug-toolbar库，是一组可配置的面板，显示有关当前请求/响应的各种调试信息，点击时，显示有关面板内容的更多详细信息。官方文档：DjangoDebugToolbar—DjangoDebugToolbar4.3.0documentation1.2、安装pipinstalldjango-debug-
【嵌入式模块】步进电机使用总结记录无知岁月 #嵌入式设备嵌入式硬件步进电机
关于本博客此前上了一门课《自动控制元件》，但是由于学时有限，讲到步进电机就不讲了，留下了一个小遗憾，导致需要使用步进电机时就有点懵，于是找了一篇博客，链接在这里，推荐具有电机知识（如直流电机，异步电机等）的朋友看，如果完全不懂，建议先啃书。
用XMLHttpRequest发送和接收JSON数据潭池先生 json XMLHttpRequest 前端
百度的AI回答了一个案例：varxhr=newXMLHttpRequest();varurl="your_endpoint_url";//替换为你的API端点vardata=JSON.stringify({key1:"value1",key2:"value2"});xhr.open("POST",url,true);xhr.setRequestHeader("Content-Type","appl
直返APP所属的公司是何时成立的?它的发展历程和业务范围好项目高省
直返APP为我们带来了返利购物的便利，那么这款APP所属的公司是如何成立的呢？它的背后又有怎样的发展历程和业务范围呢？让我们一起探寻。【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，是2021年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。高省是公认的返利最高的软件。古楼导师高省邀请码5558
OpenCV 如何使用 XML 和 YAML 文件的文件输入和输出愚梦者深度学习人工智能计算机视觉 c++opencv
返回：OpenCV系列文章目录（持续更新中......）上一篇：如何利用OpenCV4.9离散傅里叶变换下一篇:目标本文内容主要介绍：如何使用YAML或XML文件打印和读取文件和OpenCV的文本条目？如何对OpenCV数据结构做同样的事情？如何为您的数据结构执行此操作？使用OpenCV数据结构，例如cv::FileStorage,cv::FileNodeorcv::FileNodeIterato
【真诚子】通晓鬼谷第七篇读书日记。真诚子l通晓鬼谷
今天把个人品牌，从193读到208页，书的内容质量出奇的高，尤其是这一段。对标学习法，找一个比自己强，或者你期望成为的人进行模仿性学习，对标学习，不是到处，去找人对标兵学习很多人的优点，或是学习自己认为好的方面，而是找准一个对标高手，然后全方位的学习这个人。我在做品牌咨询时就对标，学习了一个在国内很有名的行业顶尖大咖。我先找到他公司的方案，进行完全模仿，连PPT的排版都一样，而且我只参照他一个人的
《金文成〈正蒙〉日记124。2020-11-9》金吾生
《金文成〈正蒙〉日记124。2020-11-9》今天是庚子丁亥丙子，九月廿四，2020年11月9日星期一。作者篇7【舜之孝，汤、武之武，虽顺逆不同，其为不幸均矣。】船山讲解说，顺，指的是舜的父亲最终受到感化，转变了态度，结局圆满之事；逆，指的是＂桀放、纣诛＂，即，商汤放桀，周武诛纣，都是采用暴力，不是感化方式，所以是逆。顺与逆，都是为了解决弊政，然其差异之大如此，然而，无论圆满还是遗憾，其实他们都
SQLite版本3中的文件锁定和并发(七）代码工匠云数据库 SQLite C与c++sqlite c++数据库
返回：SQLite—系列文章目录上一篇：自己编译SQLite或将SQLite移植到新的操作系统（六）下一篇：SQLite—系列文章目录正文：1.0SQLite版本3中的文件锁定和并发SQLite版本3.0.0引入了新的锁定和日志功能旨在提高SQLite版本2的并发性的机制并减少作家的饥饿问题。新机制还允许交易的原子提交涉及多个数据库文件。本文档介绍新的锁定机制。目标受众是想要理解和/或修改的程序员
上班族适合兼职的副业有哪些？分享五个适合上班族做的副业高省张导师
对于许多上班族来说，除了日常工作外，还有大量的空闲时间，因此兼职成为了一项非常普遍的选择。下面将向您介绍五个不错的兼职副业，每个兼职都可以很容易地从家中启动，同时也是一个短期见效的方式，可以让您很快增加收入。大家好，我是高省APP最大团队，【高省】是一个可省钱佣金高，能赚钱有收益的平台，百度有几百万篇报道，也期待你的加入。高省邀请码520888，注册送2皇冠会员，送万元推广大礼包。1、社交导购电商
排序算法太多？常用排序都在这了，一篇文章总结和实现所有面试会考的排序算法（基于Python实现）宇宙之一粟不归路之Python #IT面试题收集与总结数据结构与算法算法数据结构排序算法 python java
文章目录排序算法1.常见的排序算法1.1选择排序1.1.1思想1.1.2实现**1.1.3选择排序分析**1.2冒泡排序**1.2.1思想****1.2.2实现****1.2.3冒泡排序分析**1.3插入排序**1.3.1思想****1.3.2实现****1.3.3插入排序分析**1.4归并排序☆☆★**1.4.1思想****1.4.2实现****1.4.3归并排序分析**1.5快速排序☆★★**
2018-12-02 子分小
姓名：张颖公司：菲尔德国际英语【反省总结第146天，始于20180709今天是20181202】【知～学习】六项精进大纲背诵3遍每天十个单词坚持第181天每天学习一篇英文文章第94天英语流利说课程第71天学习30分钟【行～实践】一、修身：（对自己个人）步行5000步二、齐家：（对家庭和家人）无三、建功：（对工作)完成与Arti活动课和两节Demo准备开班事宜｛积善｝：发愿从2018年7月9日起1年
读后感——《我遥远的清平湾》吴奕凯
我遥远的清平湾是史铁生的作品。这是一篇散文集，里面第一篇就是“我遥远的清平湾”。里面主要讲述了史铁生在“文革”时，插队到了一个地方，名字叫“清平湾”。里面有一个老汉别人都叫他破老汉。可能是因为他太穷了——破与poor同音。史铁生就在插队时插到了破老汉的家中。破老汉的家中有几头牛。这几头牛跟史铁生发生了很多事情。比如说：有一个晚上，史铁生起来去给牛喂草。在黑暗中，发现有一头牛，仍然没有睡觉。他觉得很
边缘计算网关在机械制造企业的应用效果和价值-天拓四方北京天拓四方科技股份有限公司边缘计算其他物联网
随着智能制造行业的飞速发展，数据量的激增和实时性要求的提高，传统的数据处理方式已经难以满足生产需求。而边缘计算网关的出现，为智能制造行业带来了革命性的变化。下面，我们将通过一个具体案例展示边缘计算网关在智能制造行业的应用效果和价值。一、案例背景某大型机械制造企业，拥有多条生产线，涉及众多设备和传感器。在生产过程中，企业需要实时监控设备的运行状态，收集生产数据，以便进行生产优化和决策支持。然而，传统
直返APP是由哪个团队开发的？这个团队有哪些特点和优势？日常购物技巧呀
关于直返的创始人以及直返APP属于哪个公司，目前没有确切的公开信息。不过，一些网友认为，直返这种商业模式可能由多个不同的公司或团队所创造和运营。【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，是2021年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。高省是公认的返利最高的软件。古楼导师高省邀请
Python dict字符串转json对象，小数精度丢失问题朝如青丝暮成雪 json python
一前言JSON(JavaScriptObjectNotation)是一种轻量级的数据交换格式，dict是Python的一种数据格式。本篇介绍一个float数据转换时精度丢失的案例。二问题描述importjsontest_str1='{"π":3.1415926535897932384626433832795028841971}'test_str2='{"value":10.00000}'print
遗落的光阴古诗风光
第七篇，小明的学生时代。小明和他的同桌的共听一首歌的行为已经实现了。所以每次没事就和他的同桌一起畅听音乐，这也导致了一些场面都发生，一就是她的隔壁同桌时不时的鄙夷的眼光，二是他进一步加聚了他同桌对他的态度，他的同桌除了平时的听音乐交流之外，还增加了与他的交流。其中最关键的就是，因为他的同桌没事就与他的进行生活的交流。其中最关键的就是在一个不上课的周末小明独自一人回到了宿舍进行学习。而这时他的同桌带
开始写吧默默醉无为
曾经无数次在心中纠结，要不要在双日更群坚持下去，曾经无数次差点就要放弃了，最后的心里微小的一点点挣扎让我还是坚持了下来。写吧，没有人能把你打垮——除了你自己。从1月份加入“007不写就出局”三月份加入“日更写作群”以来，我写到了现在，一共在上发表文章203篇。还有十天，我就能圆满的坚持到了一年。其中，有过写不出但又不得不写的尴尬，也有过虽写得不好但最终能完成的喜悦。虽然磕磕碰碰，但还是走过来了。这
随心，日更第463天，第654篇原创闲鱼玩家随心
早上收到了一个好消息，不用居家隔离了。但是，要继续三天两检，健康码才能变绿。看着这变化多端的防疫政策，我沉默了许久。想了想，货还是要囤的。因为你不知道什么时候城市就会静止。看到各种各样的说法，各种各样的谣言，我也懒得分辨真假了。这个时刻，更多的还是应该关注自身。锻炼身体了没有，赚钱了没有，学习了没有。因为这些东西才是跟我们自己息息相关的，至于其他不必要的信息还是屏蔽掉好一些。从上个月开始，就在想各
一个可以随时被打扰的人南询yi
今日分享十点读书一篇推文，有个可以随时打扰的人真好。在这个世界上，有没有一个你可以随时打扰的人？当你累了的时候，可以彼此依靠；当你想哭的时候，可以借你肩膀；当你开心的时候，可以一起大笑。正因为有这样的人存在，我们才不会觉得孤立无援。他们就像无坚不摧的铠甲，时刻保护着我们，帮我们抵御痛苦、驱散阴霾。无论是在茫茫戈壁，还是艰难坎坷的人生，有一个人能随时可以打扰，都是一种莫大的幸福。在这个人面前，我们不
亲子日记第110篇爱水的鱼鱼
今天孩子们在学校提前过元旦，老师一一给表演节目的孩子们拍了视频，分享到群里让我们也能看节目。谢谢老师的用心，辛苦了！下午孩子们都放学回家，爸爸提议要请我们吃饭，提前过元旦，一致通过。吃饭回到家爸爸说，吃好喝好了你们也该做作业了。老大老二各自回屋去写作业了，而且很专心，老二做了两张试题一张口算，速度不用说比平时快错的还少。问我还给她点啥题做做，我说不用做了，洗刷睡觉去，明天还要早起上架子鼓课。时间就
济公的曾祖和达观禅师的这段对话虽短，读完开悟人生水如天如水
原创水如天如水古今小茶馆2023-05-0607:29发表于山东点击蓝字·关注我们古今小茶馆一杯香茗，几个知己，一段历史，几度回忆！243篇原创内容公众号李端愿在宋仁宗时被任命为太子太保。他除了尽心竭力地教育太子之外，自己还经常在空闲的时候，听禅礼佛。他有一个好朋友叫达观禅师，是一位得道高僧。有什么迷惑，李端愿都会第一时间找到他来答疑解惑。有一次达观禅师对李端愿说：“佛祖在本无意义的生命中，发现了
【前端学习——js篇】7.函数缓存笔下无竹墨下有鱼前端学习前端学习 javascript
具体见：https://github.com/febobo/web-interview7.函数缓存函数缓存，就是将函数运算过的结果进行缓存本质上就是用空间（缓存存储）换时间（计算过程）常用于缓存数据计算结果和缓存对象。其实现主要通过闭包、柯里化和高阶函数。下面主要介绍下柯里化：①柯里化柯里化（currying)是一种函数式编程的概念，指的是将一个带有多个参数的函数转换成一系列只接受一个参数的函数的
OpenCV（一个C++人工智能领域重要开源基础库）简介愚梦者 OpenCV 人工智能人工智能 opencv c++图像处理计算机视觉开源
返回：OpenCV系列文章目录（持续更新中......）上一篇：OpenCV4.9.0配置选项参考下一篇：OpenCV4.9.0开源计算机视觉库安装概述引言：OpenCV（全称OpenSourceComputerVisionLibrary）是一个基于开放源代码发行的跨平台计算机视觉库，可以用来进行图像处理、计算机视觉和机器学习等领域的开发。该库由英特尔公司于1999年开始开发，最初是为了加速处理器
动态多态的注意事项 Austin_1024 动态多态静态多态虚函数子类重写父类虚函数实现动态多态
大家好：衷心希望各位点赞。您的问题请留在评论区，我会及时回答。多态的基本概念多态是C++面向对象三大特性之一（多态、继承、封装）多态分为两类：静态多态：函数重载和运算符重载属于静态多态，复用函数名。动态多态：通过派生类和虚函数实现运行时多态。静态多态和动态多态的区别：静态多态的函数地址早绑定——编译阶段确定函数地址。动态多态的函数地址晚绑定——运行阶段确定函数地址。下面通过案例讲解多态：#incl
山东省大数据局副局长禹金涛一行莅临聚合数据走访调研聚合数据 API 大数据人工智能 API
3月19日，山东省大数据局党组成员、副局长禹金涛莅临聚合数据展开考察调研。山东省大数据局数据应用管理与安全处处长杨峰，副处长都海明参加调研，苏州市大数据局副局长汤晶陪同。聚合数据董事长左磊等人接待来访。调研组一行参观了聚合数据展厅，了解了聚合数据的发展历程、数据产品、应用案例、奖项荣誉等情况。并就企业在数据处理和应用方面取得的成绩进行了深入交流。作为最早一批进入大数据行业的企业，聚合数据深耕行业十
【循环神经网络rnn】一篇文章讲透 CX330的烟花 rnn 人工智能深度学习算法 python 机器学习数据结构
目录引言二、RNN的基本原理代码事例三、RNN的优化方法1长短期记忆网络（LSTM）2门控循环单元（GRU）四、更多优化方法1选择合适的RNN结构2使用并行化技术3优化超参数4使用梯度裁剪5使用混合精度训练6利用分布式训练7使用预训练模型五、RNN的应用场景1自然语言处理2语音识别3时间序列预测六、RNN的未来发展七、结论引言众所周知，CNN与循环神经网络（RNN）或生成对抗网络（GAN）等算法结
企业案例库康森爱学习
目前进度：福州提交了“坤兴海洋”案例内容，已经整理出本案例对外版本（初稿），对内版本是在对外版本基础上，新增推动经验，目前还未整理。漳州分会的案例还未提交，夏艳同意整理。厦门分会案例还未整理，倾向“仁铭创投”遇到问题：下属分会对案例库的兴趣不大，没有直接收益，怎么让下属分会有动力去推动案例库建设。案例来源于下属分会，他们的态度很关键。两条思路：第一，把入选案例库作为一种荣誉，反馈给企业，以此给分会
【PHP】通过PHP开启/暂停Apache、MySQL或其他服务下页、再停留 PHP php apache mysql
目录一、前言二、代码一、前言有些时候我们需要开启或暂停一些服务，比如说开启Apach或暂停MySQL服务等，最近工作中也开发了这方面的功能，记录下来怎样使用PHP语言来开启或暂停Apache、MySQL服务的运行状态。这种方法也适用其他服务。如果想了解怎么实时监控服务的运行状态，可以看上一篇文章【PHP】通过PHP实时监控Apache、MySQL服务运行状态-CSDN博客二、代码有三个参数需要根据
《唐阿姨的电脑》唐晓莉林浩（完结篇）全文免费阅读【笔趣阁】小说推书
《唐阿姨的电脑》唐晓莉林浩（完结篇）全文免费阅读【笔趣阁】主角：唐晓莉林浩简介：这天中午，林浩接到了唐晓莉的电话，说家里电脑坏了，问他有没有时间过去帮忙看一眼。可以关注微信公众号【枫叶赏文】去回个书號【唐晓莉】，即可免费阅读【唐阿姨的电脑】小说全文！这天中午，林浩接到了唐晓莉的电话，说家里电脑坏了，问他有没有时间过去帮忙看一眼。“当然有了，我今天没课，唐阿姨你在家等我，十分钟就到。”说完，林浩立马
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s

数据科学 案例3 线性回归之汽车贷款（代码）