线性回归

线性回归模型与诊断

数据说明：本数据是一份汽车贷款数据

字段名	中文含义
id	id
Acc	是否开卡(1=已开通)
avg_exp	月均信用卡支出（元）
avg_exp_ln	月均信用卡支出的自然对数
gender	性别(男=1)
Age	年龄
Income	年收入（万元）
Ownrent	是否自有住房（有=1；无=0)
Selfempl	是否自谋职业(1=yes, 0=no)
dist_home_val	所住小区房屋均价(万元)
dist_avg_income	当地人均收入
high_avg	高出当地平均收入
edu_class	教育等级：小学及以下开通=0，中学=1，本科=2，研究生=3

%matplotlib inline

import matplotlib.pyplot as plt
import os
import numpy as np
import pandas as pd
import statsmodels.api as sm
from statsmodels.formula.api import ols

os.chdir('E:/data')
pd.set_option('display.max_columns', 8)

E:\Anaconda3\lib\site-packages\statsmodels\compat\pandas.py:56: FutureWarning: The pandas.core.datetools module is deprecated and will be removed in a future version. Please use the pandas.tseries module instead.
  from pandas.core import datetools

导入数据和数据清洗

raw = pd.read_csv('creditcard_exp.csv', skipinitialspace=True)
raw.head()

	id	Acc	avg_exp	avg_exp_ln	...	dist_avg_income	age2	high_avg	edu_class
0	19	1	1217.03	7.104169	...	15.932789	1600	0.102361	3
1	5	1	1251.50	7.132098	...	15.796316	1024	0.051184	2
2	95	0	NaN	NaN	...	7.490000	1296	0.910000	1
3	86	1	856.57	6.752936	...	11.275632	1681	0.197218	3
4	50	1	1321.83	7.186772	...	13.346474	784	0.062676	2

5 rows × 14 columns

exp = raw[raw['avg_exp'].notnull()].copy().iloc[:, 2:]\
.drop('age2',axis=1)

exp_new = raw[raw['avg_exp'].isnull()].copy().iloc[:, 2:]\
.drop('age2',axis=1)

exp.describe(include='all')

	avg_exp	avg_exp_ln	gender	Age	...	dist_home_val	dist_avg_income	high_avg	edu_class
count	70.000000	70.000000	70.000000	70.000000	...	70.000000	70.000000	70.000000	70.000000
mean	983.655429	6.787787	0.285714	31.157143	...	74.540857	8.005472	-0.580766	1.928571
std	446.294237	0.476035	0.455016	7.206349	...	36.949228	3.070744	0.432808	0.873464
min	163.180000	5.094854	0.000000	20.000000	...	13.130000	3.828842	-1.526850	0.000000
25%	697.155000	6.547003	0.000000	26.000000	...	49.302500	5.915553	-0.887981	1.000000
50%	884.150000	6.784627	0.000000	30.000000	...	65.660000	7.084184	-0.612068	2.000000
75%	1229.585000	7.114415	1.000000	36.000000	...	105.067500	9.123105	-0.302082	3.000000
max	2430.030000	7.795659	1.000000	55.000000	...	157.900000	18.427000	0.259337	3.000000

8 rows × 11 columns

	Income	avg_exp	Age	dist_home_val
Income	1.000000	0.674011	0.369129	0.249153
avg_exp	0.674011	1.000000	0.258478	0.319499
Age	0.369129	0.258478	1.000000	0.109323
dist_home_val	0.249153	0.319499	0.109323	1.000000

线性回归算法

简单线性回归

lm_s = ols('avg_exp ~ Income', data=exp).fit()
print(lm_s.params)

Intercept    258.049498
Income        97.728578
dtype: float64

Predict-在原始数据集上得到预测值和残差

lm_s.summary()

OLS Regression Results
Dep. Variable:	avg_exp	R-squared:	0.454
Model:	OLS	Adj. R-squared:	0.446
Method:	Least Squares	F-statistic:	56.61
Date:	Mon, 30 Apr 2018	Prob (F-statistic):	1.60e-10
Time:	16:59:33	Log-Likelihood:	-504.69
No. Observations:	70	AIC:	1013.
Df Residuals:	68	BIC:	1018.
Df Model:	1
Covariance Type:	nonrobust

	coef	std err	t	P>\|t\|	[0.025	0.975]
Intercept	258.0495	104.290	2.474	0.016	49.942	466.157
Income	97.7286	12.989	7.524	0.000	71.809	123.648

Omnibus:	3.714	Durbin-Watson:	1.424
Prob(Omnibus):	0.156	Jarque-Bera (JB):	3.507
Skew:	0.485	Prob(JB):	0.173
Kurtosis:	2.490	Cond. No.	21.4

pd.DataFrame([lm_s.predict(exp), lm_s.resid], index=['predict', 'resid']
            ).T.head()

	predict	resid
0	1825.141904	-608.111904
1	1806.803136	-555.303136
3	1379.274813	-522.704813
4	1568.506658	-246.676658
5	1238.281793	-422.251793

在待预测数据集上得到预测值

lm_s.predict(exp_new)[:5]

2     1078.969552
11     756.465245
13     736.919530
19     687.077955
20     666.554953
dtype: float64

多元线性回归

lm_m = ols('avg_exp ~Income + dist_home_val + dist_avg_income',
           data=exp).fit()
lm_m.summary()

OLS Regression Results
Dep. Variable:	avg_exp	R-squared:	0.541
Model:	OLS	Adj. R-squared:	0.520
Method:	Least Squares	F-statistic:	25.95
Date:	Mon, 30 Apr 2018	Prob (F-statistic):	3.34e-11
Time:	16:59:33	Log-Likelihood:	-498.62
No. Observations:	70	AIC:	1005.
Df Residuals:	66	BIC:	1014.
Df Model:	3
Covariance Type:	nonrobust

	coef	std err	t	P>\|t\|	[0.025	0.975]
Intercept	2.3507	122.525	0.019	0.985	-242.278	246.980
Income	-164.4378	86.487	-1.901	0.062	-337.115	8.239
dist_home_val	1.5396	1.049	1.468	0.147	-0.555	3.634
dist_avg_income	260.7522	87.058	2.995	0.004	86.934	434.570

Omnibus:	5.379	Durbin-Watson:	1.593
Prob(Omnibus):	0.068	Jarque-Bera (JB):	5.367
Skew:	0.642	Prob(JB):	0.0683
Kurtosis:	2.563	Cond. No.	325.

exp.Income

0     16.03515
1     15.84750
3     11.47285
4     13.40915
5     10.03015
6     11.70575
7     11.81885
8      9.31260
9     16.28885
10     8.21290
12    10.31100
14    16.90015
15     9.81175
16     8.37990
17     9.57100
18     7.91000
22     8.36860
23     7.43320
25     6.62415
26     8.53830
27     6.67270
29    10.96410
30     7.37330
32     7.02025
34     9.13150
35     7.62235
39     6.14075
40     5.92290
41     7.93215
42     7.79915
        ...   
56     5.91685
57     5.04755
58     3.99125
60     4.91825
61     5.66840
62     5.80935
64     5.02000
67     7.78860
68     7.30525
69     6.07935
71     4.93595
72     4.90190
73     5.15780
74     6.35895
75     5.09540
76     5.89170
78     4.81890
80     5.06555
81     4.19345
82     4.62600
83     6.42760
84     6.17745
85     5.33175
87     5.44810
89     5.22925
93     4.05520
94     3.89305
96     4.37960
97     3.49390
98     3.81590
Name: Income, Length: 70, dtype: float64

多元线性回归的变量筛选

'''forward select'''
def forward_select(data, response):
    remaining = set(data.columns)
    remaining.remove(response)
    selected = []
    current_score, best_new_score = float('inf'), float('inf')
    while remaining:
        aic_with_candidates=[]
        for candidate in remaining:
            formula = "{} ~ {}".format(
                response,' + '.join(selected + [candidate]))
            aic = ols(formula=formula, data=data).fit().aic
            aic_with_candidates.append((aic, candidate))
        aic_with_candidates.sort(reverse=True)
        best_new_score, best_candidate=aic_with_candidates.pop()
        if current_score > best_new_score: 
            remaining.remove(best_candidate)
            selected.append(best_candidate)
            current_score = best_new_score
            print ('aic is {},continuing!'.format(current_score))
        else:        
            print ('forward selection over!')
            break
            
    formula = "{} ~ {} ".format(response,' + '.join(selected))
    print('final formula is {}'.format(formula))
    model = ols(formula=formula, data=data).fit()
    return(model)

data_for_select = exp[['avg_exp', 'Income', 'Age', 'dist_home_val', 
                       'dist_avg_income']]
lm_m = forward_select(data=data_for_select, response='avg_exp')
print(lm_m.rsquared)

aic is 1007.6801413968115,continuing!
aic is 1005.4969816306302,continuing!
aic is 1005.2487355956046,continuing!
forward selection over!
final formula is avg_exp ~ dist_avg_income + Income + dist_home_val 
0.541151292841195

线性回归的诊断

残差分析

ana1 = lm_s

exp['Pred'] = ana1.predict(exp)
exp['resid'] = ana1.resid
exp.plot('Income', 'resid',kind='scatter')
plt.show()

[外链图片转存(img-2JPBqa8G-1562725477554)(output_24_0.png)]

遇到异方差情况,教科书上会介绍使用加权最小二乘法，但是实际上最常用的是对被解释变量取对数

ana2 = ols('avg_exp_ln ~ Income', exp).fit()
exp['Pred'] = ana2.predict(exp)
exp['resid'] = ana2.resid
exp.plot('Income', 'resid',kind='scatter')
plt.show()

[外链图片转存(img-py8qc9gM-1562725477555)(output_26_0.png)]

取对数会使模型更有解释意义

exp['Income_ln'] = np.log(exp['Income'])

ana3 = ols('avg_exp_ln ~ Income_ln', exp).fit()
exp['Pred'] = ana3.predict(exp)
exp['resid'] = ana3.resid
exp.plot('Income_ln', 'resid',kind='scatter')
plt.show()

[外链图片转存(img-ETbm7yUC-1562725477555)(output_29_0.png)]

寻找最优的模型

r_sq = {'exp~Income':ana1.rsquared, 'ln(exp)~Income':ana2.rsquared, 
        'ln(exp)~ln(Income)':ana3.rsquared}
print(r_sq)

{'ln(exp)~Income': 0.4030855555329649, 'ln(exp)~ln(Income)': 0.4803927993893108, 'exp~Income': 0.45429062315565294}

强影响点分析

exp['resid_t'] = \
(exp['resid'] - exp['resid'].mean()) / exp['resid'].std()

Find outlier：

exp[abs(exp['resid_t']) > 2]

	avg_exp	avg_exp_ln	gender	Age	...	Pred	resid	Income_ln	resid_t
73	251.56	5.527682	0	29	...	6.526331	-0.998649	1.640510	-2.910292
98	163.18	5.094854	0	22	...	6.257191	-1.162337	1.339177	-3.387317

2 rows × 15 columns

Drop outlier

exp2 = exp[abs(exp['resid_t']) <= 2].copy()
ana4 = ols('avg_exp_ln ~ Income_ln', exp2).fit()
exp2['Pred'] = ana4.predict(exp2)
exp2['resid'] = ana4.resid
exp2.plot('Income', 'resid', kind='scatter')
plt.show()

[外链图片转存(img-YVNFKJRc-1562725477556)(output_37_0.png)]

ana4.rsquared

0.49397191385172456

statemodels包提供了更多强影响点判断指标

from statsmodels.stats.outliers_influence import OLSInfluence

OLSInfluence(ana3).summary_frame().head()

	dfb_Intercept	dfb_Income_ln	cooks_d	dffits	dffits_internal	hat_diag	standard_resid	student_resid
0	0.343729	-0.381393	0.085587	-0.416040	-0.413732	0.089498	-1.319633	-1.326996
1	0.307196	-0.341294	0.069157	-0.373146	-0.371907	0.087409	-1.201699	-1.205702
3	0.207619	-0.244956	0.044984	-0.302382	-0.299947	0.041557	-1.440468	-1.452165
4	0.112301	-0.127713	0.010759	-0.145967	-0.146693	0.060926	-0.575913	-0.573062
5	0.120572	-0.150924	0.022274	-0.211842	-0.211064	0.029011	-1.221080	-1.225579

增加变量

经过单变量线性回归的处理，我们基本对模型的性质有了一定的了解，接下来可以放入更多的连续型解释变量。在加入变量之前，要注意变量的函数形式转变。比如当地房屋均价、当地平均收入，其性质和个人收入一样，都需要取对数

exp2['dist_home_val_ln'] = np.log(exp2['dist_home_val'])
exp2['dist_avg_income_ln'] = np.log(exp2['dist_avg_income'])

ana5 = ols('''avg_exp_ln ~ Age + Income_ln + 
           dist_home_val_ln + dist_avg_income_ln''', exp2).fit()
ana5.summary()

OLS Regression Results
Dep. Variable:	avg_exp_ln	R-squared:	0.553
Model:	OLS	Adj. R-squared:	0.525
Method:	Least Squares	F-statistic:	19.48
Date:	Mon, 30 Apr 2018	Prob (F-statistic):	1.79e-10
Time:	16:59:34	Log-Likelihood:	-7.3496
No. Observations:	68	AIC:	24.70
Df Residuals:	63	BIC:	35.80
Df Model:	4
Covariance Type:	nonrobust

	coef	std err	t	P>\|t\|	[0.025	0.975]
Intercept	4.6265	0.317	14.574	0.000	3.992	5.261
Age	-0.0006	0.005	-0.117	0.907	-0.011	0.010
Income_ln	-0.1802	0.569	-0.317	0.752	-1.317	0.957
dist_home_val_ln	0.1258	0.058	2.160	0.035	0.009	0.242
dist_avg_income_ln	1.0093	0.612	1.649	0.104	-0.214	2.233

Omnibus:	4.111	Durbin-Watson:	1.609
Prob(Omnibus):	0.128	Jarque-Bera (JB):	2.466
Skew:	0.248	Prob(JB):	0.291
Kurtosis:	2.210	Cond. No.	807.

多重共线性分析

# Step regression is not always work.

ana5.bse # The standard errors of the parameter estimates

Intercept             0.317453
Age                   0.005124
Income_ln             0.568848
dist_home_val_ln      0.058210
dist_avg_income_ln    0.612197
dtype: float64

The function “statsmodels.stats.outliers_influence.variance_inflation_factor” uses “OLS” to fit data, and it will generates a wrong rsquared. So define it ourselves!

def vif(df, col_i):
    cols = list(df.columns)
    cols.remove(col_i)
    cols_noti = cols
    formula = col_i + '~' + '+'.join(cols_noti)
    r2 = ols(formula, df).fit().rsquared
    return 1. / (1. - r2)

exog = exp2[['Age', 'Income_ln', 'dist_home_val_ln',
             'dist_avg_income_ln']]

for i in exog.columns:
    print(i, '\t', vif(df=exog, col_i=i))

Age 	 1.1691185387170273
Income_ln 	 36.98331414029262
dist_home_val_ln 	 1.0536287165865763
dist_avg_income_ln 	 36.92286614125582

Income_ln与dist_avg_income_ln具有共线性，使用“高出平均收入的比率”代替其中一个

exp2['high_avg_ratio'] = exp2['high_avg'] / exp2['dist_avg_income']

exog1 = exp2[['Age', 'high_avg_ratio', 'dist_home_val_ln', 
              'dist_avg_income_ln']]

for i in exog1.columns:
    print(i, '\t', vif(df=exog1, col_i=i))

Age 	 1.1707655829292059
high_avg_ratio 	 1.1347192500556706
dist_home_val_ln 	 1.0527329388079925
dist_avg_income_ln 	 1.308904149355328

var_select = exp2[['avg_exp_ln', 'Age', 'high_avg_ratio', 
                   'dist_home_val_ln', 'dist_avg_income_ln']]
ana7 = forward_select(data=var_select, response='avg_exp_ln')
print(ana7.rsquared)

aic is 23.816793700737364,continuing!
aic is 20.83095227956072,continuing!
forward selection over!
final formula is avg_exp_ln ~ dist_avg_income_ln + dist_home_val_ln 
0.5520397736845982

exp2.Ownrent

0     1
1     1
3     1
4     1
5     0
6     1
7     1
8     1
9     1
10    1
12    1
14    0
15    1
16    1
17    0
18    1
22    1
23    0
25    0
26    1
27    0
29    1
30    0
32    0
34    1
35    0
39    0
40    0
41    1
42    0
     ..
54    0
55    0
56    0
57    0
58    1
60    0
61    0
62    0
64    0
67    1
68    1
69    1
71    0
72    0
74    1
75    0
76    1
78    0
80    0
81    0
82    0
83    1
84    0
85    0
87    1
89    0
93    0
94    0
96    0
97    0
Name: Ownrent, Length: 68, dtype: int64

formula8 = '''
avg_exp_ln ~ dist_avg_income_ln + dist_home_val_ln + 
C(gender) + C(Ownrent) + C(Selfempl) + C(edu_class)
'''
ana8 = ols(formula8, exp2).fit()
ana8.summary()

OLS Regression Results
Dep. Variable:	avg_exp_ln	R-squared:	0.873
Model:	OLS	Adj. R-squared:	0.858
Method:	Least Squares	F-statistic:	58.71
Date:	Mon, 30 Apr 2018	Prob (F-statistic):	1.75e-24
Time:	16:59:34	Log-Likelihood:	35.337
No. Observations:	68	AIC:	-54.67
Df Residuals:	60	BIC:	-36.92
Df Model:	7
Covariance Type:	nonrobust

	coef	std err	t	P>\|t\|	[0.025	0.975]
Intercept	4.5520	0.212	21.471	0.000	4.128	4.976
C(gender)[T.1]	-0.4301	0.060	-7.200	0.000	-0.550	-0.311
C(Ownrent)[T.1]	0.0184	0.045	0.413	0.681	-0.071	0.107
C(Selfempl)[T.1]	-0.3805	0.119	-3.210	0.002	-0.618	-0.143
C(edu_class)[T.2]	0.2895	0.051	5.658	0.000	0.187	0.392
C(edu_class)[T.3]	0.4686	0.060	7.867	0.000	0.349	0.588
dist_avg_income_ln	0.9563	0.098	9.722	0.000	0.760	1.153
dist_home_val_ln	0.0522	0.034	1.518	0.134	-0.017	0.121

Omnibus:	3.788	Durbin-Watson:	2.129
Prob(Omnibus):	0.150	Jarque-Bera (JB):	4.142
Skew:	0.020	Prob(JB):	0.126
Kurtosis:	4.208	Cond. No.	60.2

formula9 = '''
avg_exp_ln ~ dist_avg_income_ln + dist_home_val_ln + 
C(Selfempl) + C(gender)*C(edu_class)
'''
ana9 = ols(formula9, exp2).fit()
ana9.summary()

OLS Regression Results
Dep. Variable:	avg_exp_ln	R-squared:	0.914
Model:	OLS	Adj. R-squared:	0.902
Method:	Least Squares	F-statistic:	78.50
Date:	Mon, 30 Apr 2018	Prob (F-statistic):	1.42e-28
Time:	16:59:34	Log-Likelihood:	48.743
No. Observations:	68	AIC:	-79.49
Df Residuals:	59	BIC:	-59.51
Df Model:	8
Covariance Type:	nonrobust

	coef	std err	t	P>\|t\|	[0.025	0.975]
Intercept	4.4098	0.178	24.839	0.000	4.055	4.765
C(Selfempl)[T.1]	-0.2945	0.101	-2.908	0.005	-0.497	-0.092
C(gender)[T.1]	-0.0054	0.098	-0.055	0.956	-0.201	0.190
C(edu_class)[T.2]	0.3164	0.045	7.012	0.000	0.226	0.407
C(edu_class)[T.3]	0.5576	0.054	10.268	0.000	0.449	0.666
C(gender)[T.1]:C(edu_class)[T.2]	-0.4304	0.111	-3.865	0.000	-0.653	-0.208
C(gender)[T.1]:C(edu_class)[T.3]	-0.5948	0.111	-5.362	0.000	-0.817	-0.373
dist_avg_income_ln	0.9893	0.078	12.700	0.000	0.833	1.145
dist_home_val_ln	0.0654	0.029	2.278	0.026	0.008	0.123

Omnibus:	5.023	Durbin-Watson:	1.722
Prob(Omnibus):	0.081	Jarque-Bera (JB):	5.070
Skew:	-0.328	Prob(JB):	0.0793
Kurtosis:	4.166	Cond. No.	61.1

正则算法

岭回归

exp.columns

Index(['avg_exp', 'avg_exp_ln', 'gender', 'Age', 'Income', 'Ownrent',
       'Selfempl', 'dist_home_val', 'dist_avg_income', 'high_avg', 'edu_class',
       'Pred', 'resid', 'Income_ln', 'resid_t'],
      dtype='object')

lmr = ols('avg_exp ~ Income + dist_home_val + dist_avg_income',
          data=exp).fit_regularized(alpha=1, L1_wt=0)

# print(lmr.summary2())
# L1_wt参数为0则使用岭回归，为1使用lasso

lmr.predict(exp_new)
lmr.summary()

LASSO算法

lmr1 = ols('avg_exp ~ Age + Income + dist_home_val + dist_avg_income',
           data=exp).fit_regularized(alpha=1, L1_wt=1)
lmr1.summary()

使用scikit-learn进行正则化参数调优

from sklearn.preprocessing import StandardScaler

continuous_xcols = ['Age', 'Income', 'dist_home_val', 
                    'dist_avg_income']   #  抽取连续变量
scaler = StandardScaler()  # 标准化
X = scaler.fit_transform(exp[continuous_xcols])
y = exp['avg_exp_ln']

from sklearn.linear_model import RidgeCV

alphas = np.logspace(-2, 3, 100, base=10)

# Search the min MSE by CV
rcv = RidgeCV(alphas=alphas, store_cv_values=True) 
rcv.fit(X, y)

RidgeCV(alphas=array([1.00000e-02, 1.12332e-02, ..., 8.90215e+02, 1.00000e+03]),
    cv=None, fit_intercept=True, gcv_mode=None, normalize=False,
    scoring=None, store_cv_values=True)

print('The best alpha is {}'.format(rcv.alpha_))
print('The r-square is {}'.format(rcv.score(X, y))) 
# Default score is rsquared

The best alpha is 0.2915053062825176
The r-square is 0.47568267770195016

X_new = scaler.transform(exp_new[continuous_xcols])
np.exp(rcv.predict(X_new)[:5])

array([759.67677561, 606.74024213, 661.20654568, 681.888929  ,
       641.06967182])

cv_values = rcv.cv_values_
n_fold, n_alphas = cv_values.shape

cv_mean = cv_values.mean(axis=0)
cv_std = cv_values.std(axis=0)
ub = cv_mean + cv_std / np.sqrt(n_fold)
lb = cv_mean - cv_std / np.sqrt(n_fold)

plt.semilogx(alphas, cv_mean, label='mean_score')
plt.fill_between(alphas, lb, ub, alpha=0.2)
plt.xlabel("$\\alpha$")
plt.ylabel("mean squared errors")
plt.legend(loc="best")
plt.show()

[外链图片转存(img-KBgDxHs6-1562725477557)(output_66_0.png)]

rcv.coef_

array([ 0.03321449, -0.30956185,  0.05551208,  0.59067449])

手动选择正则化系数——根据业务判断

岭迹图

from sklearn.linear_model import Ridge

ridge = Ridge()

coefs = []
for alpha in alphas:
    ridge.set_params(alpha=alpha)
    ridge.fit(X, y)
    coefs.append(ridge.coef_)

ax = plt.gca()

ax.plot(alphas, coefs)
ax.set_xscale('log')
plt.xlabel('alpha')
plt.ylabel('weights')
plt.title('Ridge coefficients as a function of the regularization')
plt.axis('tight')
plt.show()

[外链图片转存(img-SOMLQtO1-1562725477557)(output_71_0.png)]

ridge.set_params(alpha=0.29)
ridge.fit(X, y)
ridge.coef_

array([ 0.03322236, -0.31025822,  0.05550095,  0.59137388])

ridge.score(X, y)

0.45063153541700307

预测

np.exp(ridge.predict(X_new)[:5])

array([934.79025945, 727.11042209, 703.88143602, 759.04342764,
       709.54172995])

lasso

from sklearn.linear_model import LassoCV

lasso_alphas = np.logspace(-3, 0, 100, base=10)
lcv = LassoCV(alphas=lasso_alphas, cv=10) # Search the min MSE by CV
lcv.fit(X, y)

print('The best alpha is {}'.format(lcv.alpha_))
print('The r-square is {}'.format(lcv.score(X, y))) 
# Default score is rsquared

The best alpha is 0.04037017258596556
The r-square is 0.4426451069862233

from sklearn.linear_model import Lasso

lasso = Lasso()
lasso_coefs = []
for alpha in lasso_alphas:
    lasso.set_params(alpha=alpha)
    lasso.fit(X, y)
    lasso_coefs.append(lasso.coef_)

ax = plt.gca()

ax.plot(lasso_alphas, lasso_coefs)
ax.set_xscale('log')
plt.xlabel('alpha')
plt.ylabel('weights')
plt.title('Lasso coefficients as a function of the regularization')
plt.axis('tight')
plt.show()

[外链图片转存(img-rdcRKGfS-1562725477558)(output_79_0.png)]

lcv.coef_

array([0.        , 0.        , 0.02789489, 0.26549855])

弹性网络

from sklearn.linear_model import ElasticNetCV

l1_ratio = [0.01, .1, .5, .7, .9, .95, .99, 1]

encv = ElasticNetCV(l1_ratio=l1_ratio)
encv.fit(X, y)

ElasticNetCV(alphas=None, copy_X=True, cv=None, eps=0.001, fit_intercept=True,
       l1_ratio=[0.01, 0.1, 0.5, 0.7, 0.9, 0.95, 0.99, 1], max_iter=1000,
       n_alphas=100, n_jobs=1, normalize=False, positive=False,
       precompute='auto', random_state=None, selection='cyclic',
       tol=0.0001, verbose=0)

print('The best l1_ratio is {}'.format(encv.l1_ratio_))
print('The best alpha is {}'.format(encv.alpha_))

The best l1_ratio is 0.01
The best alpha is 1.0998728529638144

你可能感兴趣的:(数据科学入门到精通)

C++菜鸟教程 - 从入门到精通第二节 DreamByte c++
一.上节课的补充(数据类型)1.前言继上节课,我们主要讲解了输入,输出和运算符,我们现在来补充一下数据类型的知识上节课遗漏了这个知识点,非常的抱歉顺便说一下,博主要上高中了,更新会慢,2-4周更新一次对了,正好赶上中秋节,小编跟大家说一句:中秋节快乐!2.int类型上节课,我们其实只用了int类型int类型,是整数类型,它们存贮的是整数,不能存小数(浮点数)定义变量的方式很简单inta;//定义一
Armv8.3 体系结构扩展--原文版代码改变世界ctw ARM-TEE-Android armv8 嵌入式 arm架构安全架构芯片 Trustzone Secureboot
快速链接:.ARMv8/ARMv9架构入门到精通-[目录]付费专栏-付费课程【购买须知】:个人博客笔记导读目录(全部)TheArmv8.3architectureextensionTheArmv8.3architectureextensionisanextensiontoArmv8.2.Itaddsmandatoryandoptionalarchitecturalfeatures.Somefeat
Spring MVC 全面指南：从入门到精通的详细解析一杯梅子酱技术栈学习 spring mvc java
引言：SpringMVC，作为Spring框架的一个重要模块，为构建Web应用提供了强大的功能和灵活性。无论是初学者还是有一定经验的开发者，掌握SpringMVC都将显著提升你的Web开发技能。本文旨在为初学者提供一个全面且易于理解的学习路径，通过详细的知识点分析和实际案例，帮助你快速上手SpringMVC，让学习过程既深刻又高效。一、SpringMVC简介1.1什么是SpringMVC？Spri
Python数据分析与可视化 jun778895 python 数据分析开发语言
Python数据分析与可视化是一个涉及数据处理、分析和以图形化方式展示数据的过程，它对于数据科学家、分析师以及任何需要从数据中提取洞察力的专业人员来说至关重要。以下将详细探讨Python在数据分析与可视化方面的应用，包括常用的库、数据处理流程、可视化技巧以及实际应用案例。一、Python数据分析与可视化的重要性数据可视化是将数据以图形或图像的形式表示出来，以便人们能够更直观地理解数据背后的信息和规
HarmonyOS开发实战（ Beta5.0）搜索框热搜词自动切换让开，我要吃人了 OpenHarmony HarmonyOS 鸿蒙开发 harmonyos 华为鸿蒙移动开发鸿蒙系统前端开发语言
鸿蒙HarmonyOS开发往期必看：HarmonyOSNEXT应用开发性能实践总结最新版！“非常详细的”鸿蒙HarmonyOSNext应用开发学习路线！（从零基础入门到精通）介绍本示例介绍使用TextInput组件与Swiper组件实现搜索框内热搜词自动切换。效果图预览使用说明页面顶部搜索框内热搜词条自动切换，编辑搜索框时自动隐藏。实现思路使用TextInput实现搜索框TextInput({te
mysql学习教程，从入门到精通，TOP 和MySQL LIMIT 子句（15）知识分享小能手大数据数据库 MySQL mysql 学习 oracle 数据库开发语言 adb 大数据
1、TOP和MySQLLIMIT子句内容在SQL中，不同的数据库系统对于限制查询结果的数量有不同的实现方式。TOP关键字主要用于SQLServer和Access数据库中，而LIMIT子句则主要用于MySQL、PostgreSQL（通过LIMIT/OFFSET语法）、SQLite等数据库中。下面将分别详细介绍这两个功能的语法、语句以及案例。1.1、TOP子句（SQLServer和Access）1.1
超级无敌详细的Mysql数据库笔记（基础篇版）当大哥爱上学习 mysql 数据库笔记
注：本篇笔记根据黑马程序员MySQL数据库入门到精通的内容所创建，适合复习和结合该视频学习使用。一.基础1.关系型数据库(RDBMS)概念:建立在关系模型基础上，由多张相互连接的二维表组成的数据库。特点:使用表存储数据，格式统一，便于维护使用SQL语言操作，标准统一，使用方便。2.SQLSQL通用语法SQL语句可以单行或多行书写，以分号结尾.SQL语句可以使用空格/缩进来增强语句的可读性。MySQ
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
shell 笔记_s1=abc,s2=def,[-z‘‘‘]&；&；echo‘$s1‘ echo‘$s2‘的输出是什么 2024云技术运维 linux 面试
最全的Linux教程，Linux从入门到精通======================linux从入门到精通(第2版)Linux系统移植Linux驱动开发入门与实战LINUX系统移植第2版Linux开源网络全栈详解从DPDK到OpenFlow第一份《Linux从入门到精通》466页====================内容简介====本书是获得了很多读者好评的Linux经典畅销书**《Linu
Python 初学者入门必知： Anaconda是什么？有什么作用？怎么使用？懒大王爱吃狼 Python基础 python 开发语言 python基础 python学习 anaconda anaconda安装 python教程
初学者在学习Python时，经常看到的一个名字是Anaconda。究竟什么是Anaconda，为什么它如此受欢迎？在这篇文章中，我们将探讨Anaconda，了解Anaconda的从安装到使用的。Anaconda是一个免费开源的Python和R编程发行版，包含上千个适用于数据科学和机器学习的包。同时，配备了Spyder和Jupyternotebook等工具，初学者可以使用它们来学习Python，使用
python毕业设计作品：python闲置物品二手交易平台系统设计与实现毕业设计源代码（Django框架）黄菊华老师毕设资料 python二手交易平台系统
博主介绍：黄菊华老师《Vue.js入门与商城开发实战》《微信小程序商城开发》图书作者，CSDN博客专家，在线教育专家，CSDN钻石讲师；专注大学生毕业设计教育和辅导。所有项目都配有从入门到精通的基础知识视频课程，学习后应对毕业设计答辩。项目配有对应开发文档、开题报告、任务书、PPT、论文模版等项目都录了发布和功能操作演示视频；项目的界面和功能都可以定制，包安装运行！！！如果需要联系我，可以在CSD
python卡方检验计算pvalue值_Python数据科学：卡方检验 CodeWhiz
之前已经介绍的变量分析：①相关分析：一个连续变量与一个连续变量间的关系。②双样本t检验：一个二分分类变量与一个连续变量间的关系。③方差分析：一个多分类分类变量与一个连续变量间的关系。本次介绍：卡方检验：一个二分分类变量或多分类分类变量与一个二分分类变量间的关系。如果其中一个变量的分布随着另一个变量的水平不同而发生变化时，那么两个分类变量就有关系。卡方检验并不能展现出两个分类变量相关性的强弱，只能展
多模态大语言模型(MLLMs)-一般架构（非常详细）零基础入门到精通，收藏这一篇就够了程序员_大白语言模型人工智能自然语言处理
多模态大语言模型(MultimodalLargeLanguageModel,MLLM），在LLM原有的强大泛化和推理能力基础上，进一步引入了多模态信息处理能力。相比于以往的多模态方法，例如以CLIP为代表的判别式，或以OFA为代表的生成式，新兴的MLLM展现出一些典型的特质，在下面这两种特质的加持下，MLLM涌现出一些以往多模态模型所不具备的能力！模型大。MLLM通常具有数十亿的参数量，更多的参数
Pandas教程：详解Pandas数据清洗旦莫 Python Pandas python pandas 数据分析
目录1.引言2.Pandas基础2.1安装与导入2.2创建一个复杂的DataFrame3.数据清洗流程3.1处理缺失值3.1.1删除缺失值3.1.2填充缺失值3.2数据去重3.3数据类型转换4.数据处理与变换4.1添加与删除列4.2数据排序5.数据分组与聚合6.其他数据清洗方法6.1字符串处理6.2时间序列处理6.3数据类型转换1.引言数据清洗是数据科学和数据分析中的一个重要步骤，旨在提升数据的质
FreeSWITCH入门到精通系列（三）：FreeSWITCH基础概念与架构黄宝良 freeswitch 实时音视频 freeswitch
FreeSWITCH入门到精通系列（三）：FreeSWITCH基础概念与架构前言在前两篇博客中，我们介绍了FreeSWITCH的基本概念和安装与配置。本篇文章将深入探讨FreeSWITCH的基础概念和架构，帮助您更好地理解这个强大的通信平台的工作原理。FreeSWITCH基础概念1.什么是FreeSWITCH？FreeSWITCH是一个开源的实时通信平台，提供了创建VoIP（VoiceoverIP
大规模语言模型的书籍分享，从零基础入门到精通非常详细收藏我这一篇就够了黑客-雨语言模型人工智能自然语言处理学习大模型学习大模型入门大模型教程
在当今人工智能领域，大规模语言模型成为了研究和应用的热点之一。它们以其大规模的参数和强大的性能表现，推动着机器学习和深度学习技术的发展。对于GPT系列大规模语言模型的发展历程，有两点令人印象深刻。第一点是可拓展的训练架构与学习范式:Transformer架构能够拓展到百亿、千亿甚至万亿参数规模，并且将预训练任务统一为预测下一个词这一通用学习范式;第二点是对于数据质量与数据规模的重视:不同于BERT
大数据领域的深度分析——AI是在帮助开发者还是取代他们？阳爱铭大数据与数据中台技术沉淀大数据人工智能后端数据库架构数据库开发 etl工程师 chatgpt
在大数据领域，生成式人工智能（AIGC）的应用正在迅速扩展，改变了数据科学家和开发者的工作方式。本文将从大数据的专业视角，探讨AI工具在这一领域的作用，以及它们是如何帮助开发者而非取代他们的。1.大数据领域的AI工具现状在大数据领域，AI工具已经取得了显著进展，以下是几款主要的AI工具及其功能和实际应用：ApacheSpark+MLlib：ApacheSpark是一个开源的分布式计算系统，广泛用于
目标检测YOLO系列从入门到精通技术详解100篇-【目标检测】工业相机格图素书数码相机目标检测人工智能
目录知识储备深度相机1TOF2双目视觉3结构光4智能门锁应用5手机应用算法原理相机的成像与标定模型相机标定的实施·标定过程的算法实施相机标定的扩展CCD工业相机、镜头倍率及相关参数计算方法知识储备深度相机1TOF1.1Kinectv2Kinectv2是Microsoft在2014年发售的，如图1-1所示。相比于Kinectv1在硬件和软件上作出了很大的进化，且在深度测量的系统和非系统误差方面表现出
AI学习者的Python快速入门指南 AI科研视界人工智能 python chatgpt
Python已成为AI和数据科学的事实标准编程语言。尽管存在无需编码的解决方案，但学习编程仍然是构建完全定制化AI项目或产品的必要途径。在本文中，我将分享一个Python入门快速指南，帮助初学者进行AI开发。我会先介绍基础知识，然后分享一个带有示例代码的具体实例。图片来自Canva。Python是一种编程语言，也就是说，它是给计算机下达我们无法或不愿亲自执行的精确指令的一种方式[1]。这在自动化特
Vue3+TypeScript从入门到精通系列之：类多态快乐骑行^_^ 日常分享专栏 typescript Vue3 类多态
Vue3+TypeScript从入门到精通系列之：类多态一、TypeScript类多态代码二、TypeScript的类多态转化为JS代码三、查看js输出一、TypeScript类多态代码(()=>{//多态：父类型的引用指向了子类型的对象，不同类型的对象针对相同的方法，产生了不同的行为//定义一个父类classAnimal{name:stringconstructor(name:string){t
python基础学习 agente python python 学习开发语言
第一章标识符1、python被称为胶水语言，可以跟各个代码能一块儿使用爬虫、数据分析web全栈开发、数据科学方向、人工智能的机械学习和深度学习、自动化运维、爬虫、办公自动化python是跨平台的，python是解释型语言，不需要编译，python是面向对象的语言1、print()#print()可以输出数字、字符串、含有运算符的表达式#print()可以将内容输出到显示器、文件#print()输出
Autosar MCAL从入门到精通系列讲解--总目录常学常思 Autosar --MCAL从入门到精通嵌入式硬件 mcu 单片机 Autosar
前言欢迎大家一起来学习Autosar，作为一个小白，在最开始的时候也是一脸茫然，不知道如何去学习，如何下手。在这里，我将记录我所有Autosar学习的过程，问题点，以及分享我的代码供大家参考。最终能让大家快速上手。Mcal：可以去官网下载一、EB1.EBtresos创建工程2.EB生成代码编译---makefile二、TricoreMcal实战系列(EB)这里的博客之前都是用S32DS来配置的，在
Holoviews 创建复杂的可视化布局步入烟尘 Python超入门指南全册 Holoviews python
如何使用Holoviews创建复杂的可视化布局在数据科学和数据可视化领域，Holoviews是一个非常强大的Python库，它可以帮助我们轻松地创建各种复杂的可视化布局。Holoviews提供了一个高层次的接口，使得创建交互式和静态可视化变得简单而直观。本文将介绍如何使用Holoviews来创建复杂的可视化布局，让你的数据以最直观的方式展现出来。安装Holoviews首先，确保你已经安装了Holo
程式语言区分白总Server html python java c++开发语言
程序语言有很多种，每种都有其特定的用途和特点。以下是一些广泛使用的编程语言：1.Python：易于学习，广泛用于数据科学、机器学习、网络开发、自动化等领域。2.Java：广泛应用于企业级应用、安卓开发、大型系统开发等。3.C：一种基础语言，广泛用于系统编程、嵌入式开发、操作系统等领域。4.C++：C语言的扩展，支持面向对象编程，用于游戏开发、高性能应用等。5.JavaScript：主要用于网页前端
双峰高斯分布蒙特卡洛模并画pdf和cdf图 tpHRlIi pdf
双峰高斯分布蒙特卡洛模并画pdf和cdf图可设置双峰组合分布中不同正态参数的分布比例，也可以对多个组合进行计算matlab代码，备注清楚，更改为自己需要的分布比例与参数即可双峰高斯分布蒙特卡洛模并画pdf和cdf图在现代数据科学中，探究数据的分布状态是非常重要的。而在实际应用场景中，数据不一定总是符合单一的分布模型。双峰高斯分布是一种较为常见的数据分布模型，它适用于许多实际场景，比如人口年龄分布、
python从入门到精通：函数人间无解 python 开发语言数据结构数据库 mysql
目录1、函数介绍2、函数的定义3、函数的传入参数4、函数的返回值5、函数说明文档6、函数的嵌套调用7、变量的作用域1、函数介绍函数是组织好的，可重复使用的，用来实现特定功能的代码段。name="zhangsan";length=len(name);print(length)之所以可以随时调用len()（实现统计长度）函数，是因为，它是python内置的函数（提前写好的）。不使用len()函数如何实
【数据获取与读取】JSON & CSV yogurt=b 数据分析 json python
数据分析流程获取数据-读取数据-评估数据-清洗数据-整理数据-分析数据-可视化数据公开数据集飞桨（百度旗下深度学习平台）数据集：https:/aistudio.baidu.com/aistudio/datasetoverview天池（阿里云旗下开发者竞赛平台）:https:/tianchiaiyun.com/dataset/和鲸社区（数据科学开源社区）数据集：htps://www.heywhale
QT之QML从入门到精通（第二章） only-lucky qt 开发语言
本章介绍QML部件（component）和加载（Loader）的基本使用引言importQtQuick2.12importQtQuick.Window2.12importQtQuick.Controls2.12Window{visible:truewidth:640height:480title:qsTr("HelloWorld")Component.onCompleted:{console.lo
Python中的matplotlib库安装教程：多种方法详解代码前哨站 python matplotlib 开发语言
在数据可视化的世界里，matplotlib是一个非常重要的工具库。它提供了一整套绘图功能，帮助我们将数据可视化为图表。无论你是数据科学家、工程师，还是只是在数据处理领域有所涉猎，掌握matplotlib的安装方法都能让你的工作更加高效。本文将详细介绍几种在Python中安装matplotlib的方法。方法一：使用pip安装pip是Python包管理工具，使用它安装matplotlib非常简单。以下
【conda】完整指南：如何配置 Conda 环境与镜像源丶2136 conda conda
目录1.Conda配置概述2.配置镜像源2.1查找合适的镜像源2.2配置镜像源2.3优先级设置3.环境管理3.1设置默认环境路径3.2默认环境3.3环境清理3.4自定义命令4.其他常用配置选项4.1配置日志级别4.2缓存设置4.3自动更新总结conda是一个功能强大的包和环境管理工具，广泛用于数据科学、机器学习和科学计算领域。为了最大化利用conda，了解其配置选项至关重要。本文将深入探讨cond
Spring的注解积累 yijiesuifeng spring 注解
用注解来向Spring容器注册Bean。需要在applicationContext.xml中注册： <context:component-scan base-package=”pagkage1[,pagkage2,…,pagkageN]”/>。如：在base-package指明一个包 <context:component-sc
传感器百合不是茶 android 传感器
android传感器的作用主要就是来获取数据,根据得到的数据来触发某种事件下面就以重力传感器为例; 1,在onCreate中获得传感器服务 private SensorManager sm;// 获得系统的服务 private Sensor sensor;// 创建传感器实例 @Override protected void
[光磁与探测]金吕玉衣的意义 comsci
这是一个古代人的秘密:现在告诉大家信不信由你们: 穿上金律玉衣的人,如果处于灵魂出窍的状态,可以飞到宇宙中去看星星这就是为什么古代
精简的反序打印某个数沐刃青蛟打印
以前看到一些让求反序打印某个数的程序。比如：输入123，输出321。记得以前是告诉你是几位数的，当时就抓耳挠腮，完全没有思路。似乎最后是用到%和/方法解决的。而今突然想到一个简短的方法，就可以实现任意位数的反序打印（但是如果是首位数或者尾位数为0时就没有打印出来了）代码如下： long num, num1=0;
PHP：6种方法获取文件的扩展名 IT独行者 PHP 扩展名
PHP：6种方法获取文件的扩展名 1、字符串查找和截取的方法 1 $extension = substr ( strrchr ( $file , '.' ), 1); 2、字符串查找和截取的方法二 1 $extension = substr
面试111 文强chu 面试
1事务隔离级别有那些，事务特性是什么（问到一次） 2 spring aop 如何管理事务的，如何实现的。动态代理如何实现，jdk怎么实现动态代理的，ioc是怎么实现的，spring是单例还是多例，有那些初始化bean的方式，各有什么区别（经常问） 3 struts默认提供了那些拦截器（一次） 4 过滤器和拦截器的区别（频率也挺高） 5 final，finally final
XML的四种解析方式小桔子 dom jdom dom4j sax
在平时工作中，难免会遇到把 XML 作为数据存储格式。面对目前种类繁多的解决方案，哪个最适合我们呢？在这篇文章中，我对这四种主流方案做一个不完全评测，仅仅针对遍历 XML 这块来测试，因为遍历 XML 是工作中使用最多的（至少我认为）。　　预备　　测试环境：　　AMD 毒龙1.4G OC 1.5G、256M DDR333、Windows2000 Server
wordpress中常见的操作 aichenglong 中文注册 wordpress 移除菜单
1 wordpress中使用中文名注册解决办法 1)使用插件 2)修改wp源代码进入到wp-include/formatting.php文件中找到 function sanitize_user( $username, $strict = false
小飞飞学管理-1 alafqq 管理
项目管理的下午题，其实就在提出问题（挑刺），分析问题，解决问题。今天我随意看下10年上半年的第一题。主要就是项目经理的提拨和培养。结合我自己经历写下心得对于公司选拔和培养项目经理的制度有什么毛病呢？ 1，公司考察，选拔项目经理，只关注技术能力，而很少或没有关注管理方面的经验，能力。 2，公司对项目经理缺乏必要的项目管理知识和技能方面的培训。 3，公司对项目经理的工作缺乏进行指
IO输入输出部分探讨百合不是茶 IO
//文件处理在处理文件输入输出时要引入java.IO这个包； /* 1，运用File类对文件目录和属性进行操作 2，理解流，理解输入输出流的概念 3，使用字节/符流对文件进行读/写操作 4，了解标准的I/O 5，了解对象序列化 */ //1，运用File类对文件目录和属性进行操作 //在工程中线创建一个text.txt
getElementById的用法 bijian1013 element
getElementById是通过Id来设置/返回HTML标签的属性及调用其事件与方法。用这个方法基本上可以控制页面所有标签，条件很简单，就是给每个标签分配一个ID号。返回具有指定ID属性值的第一个对象的一个引用。语法： &n
励志经典语录 bijian1013 励志人生
经典语录1: 哈佛有一个著名的理论：人的差别在于业余时间，而一个人的命运决定于晚上8点到10点之间。每晚抽出2个小时的时间用来阅读、进修、思考或参加有意的演讲、讨论，你会发现，你的人生正在发生改变，坚持数年之后，成功会向你招手。不要每天抱着QQ/MSN/游戏/电影/肥皂剧……奋斗到12点都舍不得休息，看就看一些励志的影视或者文章，不要当作消遣；学会思考人生，学会感悟人生
[MongoDB学习笔记三]MongoDB分片 bit1129 mongodb
MongoDB的副本集(Replica Set)一方面解决了数据的备份和数据的可靠性问题，另一方面也提升了数据的读写性能。MongoDB分片(Sharding)则解决了数据的扩容问题，MongoDB作为云计算时代的分布式数据库，大容量数据存储，高效并发的数据存取，自动容错等是MongoDB的关键指标。本篇介绍MongoDB的切片(Sharding) 1.何时需要分片 &nbs
【Spark八十三】BlockManager在Spark中的使用场景 bit1129 manager
1. Broadcast变量的存储，在HttpBroadcast类中可以知道 2. RDD通过CacheManager存储RDD中的数据，CacheManager也是通过BlockManager进行存储的 3. ShuffleMapTask得到的结果数据，是通过FileShuffleBlockManager进行管理的，而FileShuffleBlockManager最终也是使用BlockMan
yum方式部署zabbix ronin47 yum方式部署zabbix
安装网络yum库#rpm -ivh http://repo.zabbix.com/zabbix/2.4/rhel/6/x86_64/zabbix-release-2.4-1.el6.noarch.rpm 通过yum装mysql和zabbix调用的插件还有agent代理#yum install zabbix-server-mysql zabbix-web-mysql mysql-
Hibernate4和MySQL5.5自动创建表失败问题解决方法 byalias J2EE Hibernate4
今天初学Hibernate4，了解了使用Hibernate的过程。大体分为4个步骤： ①创建hibernate.cfg.xml文件 ②创建持久化对象 ③创建*.hbm.xml映射文件 ④编写hibernate相应代码在第四步中，进行了单元测试，测试预期结果是hibernate自动帮助在数据库中创建数据表，结果JUnit单元测试没有问题，在控制台打印了创建数据表的SQL语句，但在数据库中
Netty源码学习-FrameDecoder bylijinnan java netty
Netty 3.x的user guide里FrameDecoder的例子，有几个疑问： 1.文档说：FrameDecoder calls decode method with an internally maintained cumulative buffer whenever new data is received. 为什么每次有新数据到达时，都会调用decode方法？ 2.Dec
SQL行列转换方法 chicony 行列转换
create table tb(终端名称 varchar(10) , CEI分值 varchar(10) , 终端数量 int) insert into tb values('三星' , '0-5' , 74) insert into tb values('三星' , '10-15' , 83) insert into tb values('苹果' , '0-5' , 93)
中文编码测试 ctrain 编码
循环打印转换编码 String[] codes = { "iso-8859-1", "utf-8", "gbk", "unicode" }; for (int i = 0; i < codes.length; i++) { for (int j
hive 客户端查询报堆内存溢出解决方法 daizj hive 堆内存溢出
hive> select * from t_test where ds=20150323 limit 2; OK Exception in thread "main" java.lang.OutOfMemoryError: Java heap space 问题原因： hive堆内存默认为256M 这个问题的解决方法为：修改/us
人有多大懒，才有多大闲 (评论『卓有成效的程序员』) dcj3sjt126com 程序员
卓有成效的程序员给我的震撼很大，程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得做着重复单调的工作。在看这本书之前，我属于勤奋的人，而看完这本书以后，我要努力变成懒惰的人。不要在去庞大的开始菜单里面一项一项搜索自己的应用程序，也不要在自己的桌面上放置眼花缭乱的快捷图标
Eclipse简单有用的配置 dcj3sjt126com eclipse
1、显示行号 Window -- Prefences -- General -- Editors -- Text Editors -- show line numbers 2、代码提示字符 Window ->Perferences，并依次展开 Java -> Editor -> Content Assist，最下面一栏 auto-Activation
在tomcat上面安装solr4.8.0全过程 eksliang Solr solr4.0后的版本安装 solr4.8.0安装
转载请出自出处： http://eksliang.iteye.com/blog/2096478 首先solr是一个基于java的web的应用，所以安装solr之前必须先安装JDK和tomcat，我这里就先省略安装tomcat和jdk了第一步：当然是下载去官网上下载最新的solr版本，下载地址
Android APP通用型拒绝服务、漏洞分析报告 gg163 漏洞 android APP 分析
点评：记得曾经有段时间很多SRC平台被刷了大量APP本地拒绝服务漏洞，移动安全团队爱内测（ineice.com）发现了一个安卓客户端的通用型拒绝服务漏洞，来看看他们的详细分析吧。 0xr0ot和Xbalien交流所有可能导致应用拒绝服务的异常类型时，发现了一处通用的本地拒绝服务漏洞。该通用型本地拒绝服务可以造成大面积的app拒绝服务。针对序列化对象而出现的拒绝服务主要
HoverTree项目已经实现分层 hvt 编程 .net Web C#ASP.ENT
HoverTree项目已经初步实现分层，源代码已经上传到 http://hovertree.codeplex.com请到SOURCE CODE查看。在本地用SQL Server 2008 数据库测试成功。数据库和表请参考：http://keleyi.com/a/bjae/ue6stb42.htmHoverTree是一个ASP.NET 开源项目，希望对你学习ASP.NET或者C#语言有帮助，如果你对
Google Maps API v3: Remove Markers 移除标记天梯梦 google maps api
Simply do the following: I. Declare a global variable: var markersArray = []; II. Define a function: function clearOverlays() { for (var i = 0; i < markersArray.length; i++ )
jQuery选择器总结 lq38366 jquery 选择器
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
基础数据结构和算法六：Quick sort sunwinner Algorithm Quicksort
Quick sort is probably used more widely than any other. It is popular because it is not difficult to implement, works well for a variety of different kinds of input data, and is substantially faster t
如何让Flash不遮挡HTML div元素的技巧_HTML/Xhtml_网页制作刘星宇 html Web
今天在写一个flash广告代码的时候，因为flash自带的链接，容易被当成弹出广告，所以做了一个div层放到flash上面，这样链接都是a触发的不会被拦截，但发现flash一直处于div层上面，原来flash需要加个参数才可以。让flash置于DIV层之下的方法，让flash不挡住飘浮层或下拉菜单，让Flash不档住浮动对象或层的关键参数：wmode=opaque。方法如下：
Mybatis实用Mapper SQL汇总示例 wdmcygah sql mysql mybatis 实用
Mybatis作为一个非常好用的持久层框架，相关资料真的是少得可怜，所幸的是官方文档还算详细。本博文主要列举一些个人感觉比较常用的场景及相应的Mapper SQL写法，希望能够对大家有所帮助。不少持久层框架对动态SQL的支持不足，在SQL需要动态拼接时非常苦恼，而Mybatis很好地解决了这个问题，算是框架的一大亮点。对于常见的场景，例如：批量插入/更新/删除，模糊查询，多条件查询，联表查询，