jidongdaoshi

阿里云天池竞赛——二手车价格预测项目（个人练习+源代码）

# 导入需要的库
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.ensemble import RandomForestRegressor as RFR
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.preprocessing import StandardScaler, OrdinalEncoder
from sklearn.impute import SimpleImputer
from sklearn.feature_selection import VarianceThreshold, SelectKBest
from sklearn.feature_selection import mutual_info_regression as MIC

import xgboost as xgb
import lightgbm as lgb

from sklearn.metrics import mean_squared_error, mean_absolute_error

# 读取文件
train = pd.read_csv('used_car_train_20200313.csv',sep=' ')
test = pd.read_csv('used_car_testB_20200421.csv',sep=' ')

print('train:{}'.format(train.shape))
print('test:{}'.format(test.shape))

train:(150000, 31)
test:(50000, 30)

# 查看数据信息
train.info()


RangeIndex: 150000 entries, 0 to 149999
Data columns (total 31 columns):
 #   Column             Non-Null Count   Dtype  
---  ------             --------------   -----  
 0   SaleID             150000 non-null  int64  
 1   name               150000 non-null  int64  
 2   regDate            150000 non-null  int64  
 3   model              149999 non-null  float64
 4   brand              150000 non-null  int64  
 5   bodyType           145494 non-null  float64
 6   fuelType           141320 non-null  float64
 7   gearbox            144019 non-null  float64
 8   power              150000 non-null  int64  
 9   kilometer          150000 non-null  float64
 10  notRepairedDamage  150000 non-null  object 
 11  regionCode         150000 non-null  int64  
 12  seller             150000 non-null  int64  
 13  offerType          150000 non-null  int64  
 14  creatDate          150000 non-null  int64  
 15  price              150000 non-null  int64  
 16  v_0                150000 non-null  float64
 17  v_1                150000 non-null  float64
 18  v_2                150000 non-null  float64
 19  v_3                150000 non-null  float64
 20  v_4                150000 non-null  float64
 21  v_5                150000 non-null  float64
 22  v_6                150000 non-null  float64
 23  v_7                150000 non-null  float64
 24  v_8                150000 non-null  float64
 25  v_9                150000 non-null  float64
 26  v_10               150000 non-null  float64
 27  v_11               150000 non-null  float64
 28  v_12               150000 non-null  float64
 29  v_13               150000 non-null  float64
 30  v_14               150000 non-null  float64
dtypes: float64(20), int64(10), object(1)
memory usage: 35.5+ MB

# 查看数据前五行
train.head()

	SaleID	name	regDate	model	brand	bodyType	gearbox	power	kilometer	...	v_5	v_6	v_7	v_8	v_9	v_10	v_11	v_12	v_13	v_14
0	0	736	20040402	30.0	6	1.0	0.0	60	12.5	...	0.235676	0.101988	0.129549	0.022816	0.097462	-2.881803	2.804097	-2.420821	0.795292	0.914762
1	1	2262	20030301	40.0	1	2.0	0.0	0	15.0	...	0.264777	0.121004	0.135731	0.026597	0.020582	-4.900482	2.096338	-1.030483	-1.722674	0.245522
2	2	14874	20040403	115.0	15	1.0	0.0	163	12.5	...	0.251410	0.114912	0.165147	0.062173	0.027075	-4.846749	1.803559	1.565330	-0.832687	-0.229963
3	3	71865	19960908	109.0	10	0.0	1.0	193	15.0	...	0.274293	0.110300	0.121964	0.033395	0.000000	-4.509599	1.285940	-0.501868	-2.438353	-0.478699
4	4	111080	20120103	110.0	5	1.0	0.0	68	5.0	...	0.228036	0.073205	0.091880	0.078819	0.121534	-1.896240	0.910783	0.931110	2.834518	1.923482

5 rows × 31 columns

# 查看测试集信息
test.info()


RangeIndex: 50000 entries, 0 to 49999
Data columns (total 30 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   SaleID             50000 non-null  int64  
 1   name               50000 non-null  int64  
 2   regDate            50000 non-null  int64  
 3   model              50000 non-null  float64
 4   brand              50000 non-null  int64  
 5   bodyType           48496 non-null  float64
 6   fuelType           47076 non-null  float64
 7   gearbox            48032 non-null  float64
 8   power              50000 non-null  int64  
 9   kilometer          50000 non-null  float64
 10  notRepairedDamage  50000 non-null  object 
 11  regionCode         50000 non-null  int64  
 12  seller             50000 non-null  int64  
 13  offerType          50000 non-null  int64  
 14  creatDate          50000 non-null  int64  
 15  v_0                50000 non-null  float64
 16  v_1                50000 non-null  float64
 17  v_2                50000 non-null  float64
 18  v_3                50000 non-null  float64
 19  v_4                50000 non-null  float64
 20  v_5                50000 non-null  float64
 21  v_6                50000 non-null  float64
 22  v_7                50000 non-null  float64
 23  v_8                50000 non-null  float64
 24  v_9                50000 non-null  float64
 25  v_10               50000 non-null  float64
 26  v_11               50000 non-null  float64
 27  v_12               50000 non-null  float64
 28  v_13               50000 non-null  float64
 29  v_14               50000 non-null  float64
dtypes: float64(20), int64(9), object(1)
memory usage: 11.4+ MB

train['notRepairedDamage'].value_counts()

0.0    111361
-       24324
1.0     14315
Name: notRepairedDamage, dtype: int64

train['notRepairedDamage'].value_counts()

0.0    111361
-       24324
1.0     14315
Name: notRepairedDamage, dtype: int64

# 将‘-’转化成空值，并将notRepairedDamage特征转换成数值型
train['notRepairedDamage'] = train['notRepairedDamage'].replace('-', np.nan).astype('float')
train['notRepairedDamage'].value_counts()

0.0    111361
1.0     14315
Name: notRepairedDamage, dtype: int64

test['notRepairedDamage'] = test['notRepairedDamage'].replace('-', np.nan).astype('float')
test['notRepairedDamage'].value_counts()

0.0    37224
1.0     4707
Name: notRepairedDamage, dtype: int64

# 查看缺失值特征, 看到全是分类特征
print(train['model'].value_counts())
print(train['bodyType'].value_counts())
print(train['fuelType'].value_counts())
print(train['gearbox'].value_counts())

0.0      11762
19.0      9573
4.0       8445
1.0       6038
29.0      5186
         ...  
240.0        2
209.0        2
245.0        2
242.0        2
247.0        1
Name: model, Length: 248, dtype: int64
0.0    41420
1.0    35272
2.0    30324
3.0    13491
4.0     9609
5.0     7607
6.0     6482
7.0     1289
Name: bodyType, dtype: int64
0.0    91656
1.0    46991
2.0     2212
3.0      262
4.0      118
5.0       45
6.0       36
Name: fuelType, dtype: int64
0.0    111623
1.0     32396
Name: gearbox, dtype: int64

# 获取有缺失值的特征
col_train_null = train.columns[train.isnull().any()].to_list()
col_test_null = test.columns[test.isnull().any()].to_list()

print(col_train_null)
print(col_test_null)

['model', 'bodyType', 'fuelType', 'gearbox', 'notRepairedDamage']
['bodyType', 'fuelType', 'gearbox', 'notRepairedDamage']

# 使用SimpleImputer进行缺失值填充
imp = SimpleImputer(strategy='most_frequent')

train[col_train_null] = imp.fit_transform(train[col_train_null])
test[col_train_null] = imp.fit_transform(test[col_train_null])

# 检查特征
train.isnull().any().sum()

test.isnull().any().sum()

# 检查日期列的异常值
train['regDate'].astype('str').str[4:6].value_counts()

03    14949
06    13809
04    12798
05    12614
07    11937
10    11490
00    11347
11    10687
12    10637
09    10522
01     9943
08     9936
02     9331
Name: regDate, dtype: int64

# 定义函数，用于转换月份为零的值
def tran_date(x):
    month = int(x[4:6])
    if month == 0:
        month = 1
    return x[0:4] + '-' + str(month) + '-' + x[6:]

# 日期替换
train['regDate'] = pd.to_datetime(train['regDate'].astype('str').apply(tran_date))
test['regDate'] = pd.to_datetime(test['regDate'].astype('str').apply(tran_date))

train['creatDate'] = pd.to_datetime(train['creatDate'].astype('str').apply(tran_date))
test['creatDate'] = pd.to_datetime(test['creatDate'].astype('str').apply(tran_date))

# 密度图查看price列
sns.distplot(train['price'])

# 取对数调整偏态
sns.distplot(np.log(train['price']))

# 查看一下分布
train['price'].describe([0.01,0.25,0.5,0.75,0.99])

count    150000.000000
mean       5923.327333
std        7501.998477
min          11.000000
1%          150.000000
25%        1300.000000
50%        3250.000000
75%        7700.000000
99%       34950.000000
max       99999.000000
Name: price, dtype: float64

# 查看年份和价格的关系
train.resample('Y', on='regDate')['price'].mean().to_period('Y').plot(kind='bar')

# 创造特征
train['diff_day'] = (train['creatDate'] - train['regDate']).dt.days
train['diff_year'] = round(train['diff_day'] / 365, 1)
train['regDate_year'] = train['regDate'].dt.year
train['regDate_month'] = train['regDate'].dt.month
train['regDate_day'] = train['regDate'].dt.day
train['creatDate_year'] = train['creatDate'].dt.year
train['creatDate_month'] = train['creatDate'].dt.month
train['creatDate_day'] = train['creatDate'].dt.day

test['diff_day'] = (test['creatDate'] - test['regDate']).dt.days
test['diff_year'] = round(test['diff_day'] / 365, 1)
test['regDate_year'] = test['regDate'].dt.year
test['regDate_month'] = test['regDate'].dt.month
test['regDate_day'] = test['regDate'].dt.day
test['creatDate_year'] = test['creatDate'].dt.year
test['creatDate_month'] = test['creatDate'].dt.month
test['creatDate_day'] = test['creatDate'].dt.day

# 查看name特征有多少种类
train['name'].unique().shape

(99662,)

# 对power的描述性统计
train['power'].describe()

count    150000.000000
mean        119.316547
std         177.168419
min           0.000000
25%          75.000000
50%         110.000000
75%         150.000000
max       19312.000000
Name: power, dtype: float64

# 对model的描述性统计
train['model'].describe()

count    150000.000000
mean         47.128707
std          49.536024
min           0.000000
25%          10.000000
50%          30.000000
75%          66.000000
max         247.000000
Name: model, dtype: float64

# 对power进行分箱
bin = [i*20 for i in range(0,31)]

train['power_bin'] = pd.cut(train['power'], bin, labels=False).fillna(31)
test['power_bin'] = pd.cut(test['power'], bin, labels=False).fillna(31)

# 对model进行分箱
bin_model = [i*10 for i in range(0,26)]
train['model_bin'] = pd.cut(train['model'], bin_model, labels=False)
test['model_bin'] = pd.cut(test['model'], bin_model, labels=False)
train['model_bin'].value_counts()

0.0     25963
1.0     21123
2.0     18095
4.0     14872
3.0     11069
6.0      8748
7.0      5193
5.0      4629
8.0      3879
10.0     3818
11.0     3376
9.0      2550
12.0     2417
16.0     2096
15.0     1993
17.0     1699
13.0     1623
14.0     1162
18.0      988
19.0      860
21.0      771
20.0      640
22.0      473
23.0      171
24.0       29
Name: model_bin, dtype: int64

# 找出分类型特征
col_clf = ['brand', 'bodyType', 'fuelType', 'gearbox', 'kilometer', 'notRepairedDamage', 'seller', 'offerType']

train[col_clf]

	brand	bodyType	fuelType	gearbox	kilometer	notRepairedDamage	seller	offerType
0	6	1.0	0.0	0.0	12.5	0.0	0	0
1	1	2.0	0.0	0.0	15.0	0.0	0	0
2	15	1.0	0.0	0.0	12.5	0.0	0	0
3	10	0.0	0.0	1.0	15.0	0.0	0	0
4	5	1.0	0.0	0.0	5.0	0.0	0	0
...	...	...	...	...	...	...	...	...
149995	10	4.0	0.0	1.0	15.0	0.0	0	0
149996	11	0.0	0.0	0.0	10.0	0.0	0	0
149997	11	1.0	1.0	0.0	6.0	0.0	0	0
149998	10	3.0	1.0	0.0	15.0	0.0	0	0
149999	28	6.0	0.0	1.0	12.5	0.0	0	0

150000 rows × 8 columns

# 观察分类型特征的数据分布
plt.figure(figsize=(18,10))
for i in range(len(col_clf)):
    plt.subplot(2,4,i+1)
    train[col_clf[i]].value_counts().plot(kind='bar',color='yellow')
    test[col_clf[i]].value_counts().plot(kind='bar',color='blue')
    plt.title(col_clf[i])
plt.tight_layout()

# 可以发现其中有两个特征只有一种类型，删除seller和offerType列
train = train.drop(['seller', 'offerType'], axis=1)
test = test.drop(['seller', 'offerType'], axis=1)

col_clf = ['brand', 'bodyType', 'fuelType', 'gearbox', 'kilometer', 'notRepairedDamage']

# 查看不同分类和价格的关系
plt.figure(figsize=(18,10))
for i in range(len(col_clf)):
    plt.subplot(2,3,i+1)
    train.groupby(col_clf[i])['price'].mean().plot(kind='bar')
    plt.title(col_clf[i])
plt.tight_layout()

# 删去id这一列
train = train.drop(['SaleID'], axis=1)
test = test.drop(['SaleID'], axis=1)

# 绘制热力图，观察特征之间的关系
plt.figure(figsize=(10,10))
corr = train.corr()
sns.heatmap(corr)

# 将name列转换成计数
train['name_count'] = train.groupby('name')['brand'].agg(['count'])
test['name_count'] = test.groupby('name')['brand'].agg(['count'])

# 删除name列
train = train.drop('name', axis=1)
test = test.drop('name', axis=1)

# 将分类特征和价格组合出新的特征
col_clf = ['brand', 'model', 'kilometer', 'fuelType', 'bodyType']
for col in col_clf:
    train_gb = train.groupby(col)
    all_info = {}
    for kind, kind_data in train_gb:
        info = {}
        info[col + '_amount'] = len(kind_data)
        info[col + '_price_max'] = kind_data.price.max()
        info[col + '_price_median'] = kind_data.price.median()
        info[col + '_price_min'] = kind_data.price.min()
        info[col + '_price_sum'] = kind_data.price.sum()
        info[col + '_price_std'] = kind_data.price.std()
        info[col+'_price_average'] = round(kind_data.price.sum() / (len(kind_data) + 1), 2)
        all_info[kind] = info
    fe = pd.DataFrame(all_info).T.reset_index().rename(columns={'index':col})
    train = train.copy().merge(fe, how='left', on=col)
    test = test.copy().merge(fe, how='left', on=col)

print(train.shape)
print(test.shape)

(150000, 73)
(50000, 72)

# kilometer和power组合形成新特征
col_kp = ['kilometer', 'power']
t1 = train.groupby(col_kp[0], as_index=False)[col_kp[1]].agg({
    col_kp[0] + '_' + col_kp[1] + '_count':'count',
    col_kp[0] + '_' + col_kp[1] + '_max':'max',
    col_kp[0] + '_' + col_kp[1] + '_median':'median',
    col_kp[0] + '_' + col_kp[1] + '_min':'min',
    col_kp[0] + '_' + col_kp[1] + '_sum':'sum',
    col_kp[0] + '_' + col_kp[1] + '_std':'std',
    col_kp[0] + '_' + col_kp[1] + '_mean':'mean'
})
train = train.copy().merge(t1, how='left', on=col_kp[0])
test = test.copy().merge(t1, how='left', on=col_kp[0])

print(train.shape)
print(test.shape)

(150000, 80)
(50000, 79)

# 将与价格相关性高的匿名特征分别进行计算，生成新的特征
col_v = [0,3,8,12]
for i in col_v:
    for j in col_v:
        train[str(i)+'*'+str(j)] = train['v_'+str(i)] * train['v_'+str(j)]
        test[str(i)+'*'+str(j)] = test['v_'+str(i)] * test['v_'+str(j)]

for i in col_v:
    for j in col_v:
        train[str(i)+'+'+str(j)] = train['v_'+str(i)] + train['v_'+str(j)]
        test[str(i)+'+'+str(j)] = test['v_'+str(i)] + test['v_'+str(j)]
        
for i in col_v:
    for j in col_v:
        train[str(i)+'-'+str(j)] = train['v_'+str(i)] - train['v_'+str(j)]
        test[str(i)+'-'+str(j)] = test['v_'+str(i)] - test['v_'+str(j)]

for i in col_v:
    train[str(i)+'*diff_year'] = train['v_'+str(i)] * train['diff_year']
    test[str(i)+'*diff_year'] = test['v_'+str(i)] * test['diff_year']
    
print(train.shape)
print(test.shape)

(150000, 132)
(50000, 131)

# 深复制
train_new = train.copy(deep=True)
test_new = test.copy(deep=True)

# 删除没有用的特征
X_train = train_new.drop(['price', 'regDate', 'creatDate', 'regionCode'], axis=1)
X_test = test_new.drop(['regDate', 'creatDate', 'regionCode'], axis=1)
y_train = train_new['price']

X_train.to_csv('X_train.csv')
X_test.to_csv('X_test.csv')
y_train.to_csv('y_train.csv')

X_train = pd.read_csv('X_train.csv', index_col=0)
X_test = pd.read_csv('X_test.csv', index_col=0)
y_train = pd.read_csv('y_train.csv', index_col=0)
y_train = np.ravel(y_train)

from sklearn.model_selection import GridSearchCV
from lightgbm.sklearn import LGBMRegressor
from time import time
import datetime

# lgbm模型调参 n_estimators
lgbm_scores = []
time0 = time()
for i in np.arange(200, 2001, 100):
    reg_lgbm = LGBMRegressor(learning_rate=0.1, n_estimators=i, objective='regression_l1', random_state=42)

    lgbm_score = cross_val_score(reg_lgbm, X_train, y_train, cv=3, scoring='neg_mean_absolute_error').mean()
    lgbm_scores.append(lgbm_score)
    print(time() - time0, lgbm_score)

print(max(lgbm_scores))
print(np.arange(200, 2001, 100)[np.argmax(lgbm_scores)])

plt.figure(figsize=(8,6))
plt.plot(np.arange(200, 2001, 100), lgbm_scores)

8.246474504470825 -594.8424586944835
19.095320463180542 -568.7034240842332
32.98492646217346 -552.3891983733455
48.85633111000061 -542.3964373457885
67.14593052864075 -535.7482170534481
87.76364278793335 -529.8703107609151
111.7964539527893 -525.7724715224499
137.1214382648468 -522.2536456032711
164.56334352493286 -519.7242720183268
194.57858514785767 -517.0013123928143
226.66670727729797 -515.3243156345435
261.38421607017517 -513.8374464322388
298.36878204345703 -512.2929007437376
337.6414248943329 -511.0992392114774
379.26119804382324 -510.01377926737086
423.065954208374 -508.88194129037237
468.8004615306854 -507.9469756382571
516.7109439373016 -506.9312361319216
567.1637334823608 -505.91707028368864
-505.91707028368864
2000

# lgbm模型调参 max_depth和num_leaves
parameters = {
    'max_depth':[4,5,6,7],
    'num_leaves':np.arange(5,100,5)
}
reg_lgbm = LGBMRegressor(learning_rate=0.1, n_estimators=2000, objective='regression_l1', random_state=42)

gs = GridSearchCV(reg_lgbm, param_grid=parameters, cv=3, scoring='neg_mean_absolute_error', n_jobs=-1)
gs_model = gs.fit(X_train, y_train)

print('最优分数：{}'.format(gs_model.best_score_))
print('最优参数：{}'.format(gs_model.best_params_))
print('最优模型：{}'.format(gs_model.best_estimator_))

最优分数：-500.9400071901773
最优参数：{'max_depth': 7, 'num_leaves': 45}
最优模型：LGBMRegressor(max_depth=7, n_estimators=2000, num_leaves=45,
              objective='regression_l1', random_state=42)

# xgboost模型调参 learning_rate
xgb_scores = []
time0 = time()
for i in np.arange(0.05,0.31,0.05)
    reg_xgb = xgb.XGBRegressor(n_estimators=200, learning_rate=i)
    xgb_score = cross_val_score(reg_xgb, X_train, y_train, cv=3, scoring='neg_mean_absolute_error').mean()
    xgb_scores.append(xgb_score)
    print(time() - time0)

print(max(xgb_scores))
print(np.arange(0.05,0.31,0.05)[np.argmax(xgb_scores)])

plt.figure(figsize=(8,6))
plt.plot(np.arange(0.05,0.31,0.05), xgb_scores)

132.54270577430725
268.7969219684601
402.8747355937958
543.0700986385345
673.9736497402191
807.1916081905365
-559.3930964745617
0.15000000000000002

# xgboost模型调参 max_depth
xgb_scores = []
time0 = time()
for i in np.arange(5,12,1):
    reg_xgb = xgb.XGBRegressor(n_estimators=200, learning_rate=0.15, max_depth=i)
    xgb_score = cross_val_score(reg_xgb, X_train, y_train, cv=3, scoring='neg_mean_absolute_error').mean()
    xgb_scores.append(xgb_score)
    print(time() - time0, xgb_score)

print(max(xgb_scores))
print(np.arange(5,12,1)[np.argmax(xgb_scores)])

plt.figure(figsize=(8,6))
plt.plot(np.arange(5,12,1), xgb_scores)

106.13332343101501 -581.7825425249935
233.66106414794922 -559.3930964745617
386.93016719818115 -545.8423732084185
577.3439819812775 -540.0337358052888
789.385425567627 -535.3663493749481
1027.0641367435455 -537.2171228026253
1293.055543422699 -540.2481429747703
-535.3663493749481
9

# xgboost模型调参 colsample_bytree
xgb_scores = []
time0 = time()
for i in np.arange(0.4,0.8,0.1):
    reg_xgb = xgb.XGBRegressor(n_estimators=200, learning_rate=0.15, max_depth=9, colsample_bytree=i)
    xgb_score = cross_val_score(reg_xgb, X_train, y_train, cv=3, scoring='neg_mean_absolute_error').mean()
    xgb_scores.append(xgb_score)
    print(time() - time0, xgb_score)

print(max(xgb_scores))
print(np.arange(0.4,0.8,0.1)[np.argmax(xgb_scores)])

plt.figure(figsize=(8,6))
plt.plot(np.arange(0.4,0.8,0.1), xgb_scores)

101.24388527870178 -540.0945292119669
219.8485279083252 -536.1881194847441
358.25814485549927 -534.7100199133007
509.0920376777649 -534.7369636623599
-534.7100199133007
0.6

# xgboost模型调参 colsample_bylevel
xgb_scores = []
time0 = time()
for i in np.arange(0.5,1.1,0.1):
    reg_xgb = xgb.XGBRegressor(n_estimators=200, learning_rate=0.15, max_depth=9, colsample_bytree=0.6, colsample_bylevel=i)
    xgb_score = cross_val_score(reg_xgb, X_train, y_train, cv=3, scoring='neg_mean_absolute_error').mean()
    xgb_scores.append(xgb_score)
    print(time() - time0, xgb_score)

print(max(xgb_scores))
print(np.arange(0.5,1.1,0.1)[np.argmax(xgb_scores)])

plt.figure(figsize=(8,6))
plt.plot(np.arange(0.5,1.1,0.1), xgb_scores)

82.85519623756409 -534.1242236725466
176.23594546318054 -535.4707890065283
279.6718213558197 -534.5832091972042
391.7265202999115 -533.988677477093
518.4175012111664 -533.3711266578522
656.7450432777405 -534.7100199133007


657.538763999939 nan
-533.3711266578522
1.0999999999999999

# 导入sklearn自带的模型融合库
from sklearn.ensemble import StackingRegressor

# 实例化模型
reg_lgbm = LGBMRegressor(max_depth=7, n_estimators=2000, num_leaves=45, objective='regression_l1', random_state=42)
reg_xgb = xgb.XGBRegressor(n_estimators=200, learning_rate=0.15, max_depth=9, colsample_bytree=0.6, colsample_bylevel=0.9)

#进行模型融合
estimators=[('lgbm',reg_lgbm), ('xgb',reg_xgb)]

sr = StackingRegressor(estimators, verbose=True)
sr_scores = cross_val_score(sr, X_train, y_train, cv=3, scoring='neg_mean_absolute_error')

[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.
[Parallel(n_jobs=1)]: Done   5 out of   5 | elapsed:  1.2min finished
[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.
[Parallel(n_jobs=1)]: Done   5 out of   5 | elapsed:  2.9min finished
[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.
[Parallel(n_jobs=1)]: Done   5 out of   5 | elapsed:  1.2min finished
[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.
[Parallel(n_jobs=1)]: Done   5 out of   5 | elapsed:  2.8min finished
[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.
[Parallel(n_jobs=1)]: Done   5 out of   5 | elapsed:  1.3min finished
[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.
[Parallel(n_jobs=1)]: Done   5 out of   5 | elapsed:  2.8min finished

# 查看模型融合分数
sr_scores

array([-491.53751775, -494.7186037 , -486.69418657])

# 导出预测结果
sr.fit(X_train, y_train)
sr_predict = sr.predict(X_test)
pd.DataFrame(sr_predict).to_csv('stack_submit.csv')

[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.
[Parallel(n_jobs=1)]: Done   5 out of   5 | elapsed:  1.8min finished
[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.
[Parallel(n_jobs=1)]: Done   5 out of   5 | elapsed:  4.1min finished

你可能感兴趣的:(机器学习个人练习项目,python,机器学习)

豆包 API 调用示例代码详解-Python版道长不会写代码 python基础教学 python 开发语言
文章目录豆包API调用示例代码详解-Python版一、事前准备二、所需Python包三、代码详解五、源码下载四、总结豆包官方API文档豆包API调用示例代码详解-Python版在本文中，我们将详细介绍如何使用Python调用豆包API，并提供相关的事前准备和代码执行步骤。一、事前准备密钥申请：要使用豆包API，首先需要申请一个授权密钥。在上述代码中，密钥存储在headers字典的Authoriza
Python加密算法有哪些？有什么作用？
Python中的常见加密算法及其应用加密算法在现代计算机科学中扮演着至关重要的角色，它们用于保护数据的机密性、完整性和验证身份。在Python中，有许多加密算法可以使用，它们各自具有不同的特点和应用场景。以下是一些常见的加密算法及其详细介绍：1.AES（AdvancedEncryptionStandard）️简介：AES是一种对称加密算法，广泛用于保护敏感数据，属于块加密算法。AES有三种密钥长度
maven常见知识点凉秋girl maven java
1、maven是什么？maven是Java的包管理工具，因为java包太多了，使用工具统一管理。2、引入同一个包时使用哪个？会遵循路径最短优先和声明顺序优先两大原则。解决这个问题的过程也被称为Maven依赖调解。3、什么是POM？一个Maven工程都有一个pom.xml文件，位于根目录中，包含项目构建生命周期的详细信息。通过pom.xml文件，我们可以定义项目的坐标、项目依赖、项目信息、插件信息等
Apache Maven介绍|Maven安装 dami_king 随笔 apache maven java
ApacheMaven是一款流行的Java项目管理和构建工具，用于自动化构建过程，包括编译、测试、打包、依赖管理和发布等工作。以下是Maven安装步骤解析：在Windows系统中安装Maven下载Maven：访问Maven官方网站（https://maven.apache.org/download.cgi）下载最新的稳定版。通常下载的是.zip格式的归档文件。解压文件：将下载的.zip文件解压到一
Python - random.seed初探 - 为什么固定随机种子了每次结果还不一样 Tisfy 实用技巧 Python python 开发语言 random 随机种子
Python-random.seed初探-为什么固定随机种子了每次结果还不一样前言和很多语言一样，python的random也能设置随机种子，设置随机种子后相同的rand调用会产生相同的结果。例如下面代码在同一版本的python下，理论上不论何时运行多少次都将得到相同的结果：importrandomrandom.seed(83)a=[random.randint(0,random.randint(
python范围 shix . python python 开发语言
用户图形界面-工资计算器fromtkinterimport*deff():w=int(e1.get())+int(e2.get())-int(e3.get())wage.insert(0,w)root=Tk()root.title("工资计算器")Label(root,text="每月基本工资：").pack()e1=Entry(root)e1.pack()Label(root,text="补助工
如何实现一个充满科技感的官网（一）
背景前段时间完成一个公司官网项目，个人第一感觉是整体风格简洁但充满科技感。所以想着抽时间写篇文章出来分享一下（其实想着拿出来炫一下，得瑟一下，满足一下自身虚荣心，请大家包容一下我的虚荣心，莫喷。）抽空写下这篇文章，既是分享，也希望能够听到更多反馈。官网地址是：https://infinilabs.com/，大家可以先去看看。对了，也欢迎直接在评论区告诉我：“这样的官网设计，你觉得怎么样？”AI评价
Python入门教程 —— 正则表达式鹿人甲丁 Python python
正则表达式正则表达式是一个特殊的字符序列，计算机科学的一个概念。通常被用来检索、替换那些符合某个模式(规则)的文本。许多程序设计语言都支持利用正则表达式进行字符串操作。在Python中需要通过正则表达式对字符串进行匹配的时候，可以使用re模块。re模块使Python语言拥有全部的正则表达式功能。特点：灵活性、逻辑性和功能性非常强；可以迅速地用极简单的方式达到字符串的复杂控制。对于刚接触的人来说，比
基于微信开发的家政小程序源码预约上门|家政接单小程序
家政小程序是一个基于微信平台的应用程序，旨在为用户提供便捷的家政服务预约和管理功能。该小程序包含用户注册与登录、家政服务浏览与选择、预约下单、订单管理等功能模块。基于微信开发的家政小程序源码是一个相对复杂的项目，它涉及到前端页面设计、后端API交互以及业务逻辑处理等多个方面。源码及演示：j.yunzes.top/er一、开发环境及工具概述家政小程序的开发环境主要包括操作系统、开发工具、数据库、服务
在 Go 中如何获取 goroutine 的 id？后端go面试
如果你使用过如Python、Java等主流支持并发的编程语言，那么通常都能够比较容易的获得进程和线程的id。但是在Go语言，没有直接提供对多进程和多线程的支持，而是提供了goroutine来支持并发编程。不过在Go中，获取goroutine的id并不像其他编程语言那样容易，但依然有办法，本文就来介绍下如何实现。获取当前进程的id首先，虽然Go没有提供多进程编程，但启动Go程序还是会有一个进程存在的
在VScode中配置Python开发环境 Python_魔力猿 vscode python ide
1、安装python官网下载地址：https://www.python.org/ftp/python/3.8.0/python-3.8.0-amd64.exe双击打开.exe文件勾选AddPython3.8toPath选项，然后点击installnow即可安装。安装中：安装完毕后点击close即可。2、测试按键盘win+r，在左下角运行窗口里输入cmd，回车。在弹出的窗口里输入python，回车。
【学术会议论文投稿】前端框架巅峰对决：React、Vue与Angular的全面解析与实战指南小周不想卷艾思科蓝学术会议投稿前端框架
【JPCS独立出版】第三届能源与动力工程国际学术会议（EPE2024）_艾思科蓝_学术一站式服务平台更多学术会议请看：https://ais.cn/u/nuyAF3引言在快速发展的前端技术领域，选择合适的框架或库对于项目的成功至关重要。React、Vue和Angular作为当前最流行的三大前端框架/库，各自拥有独特的优势和适用场景。本文将通过深入的文字解析和代码讲解，帮助开发者理解这三者的差异，并
java ssm基于微信小程序的面向企事业单位的项目申报评审系统（源码+文档+运行视频+讲解视频） QQ2279239102 SSM 微信小程序微信小程序 java SSM 开发语言 vue.js
文章目录系列文章目录目的前言一、详细视频演示二、项目部分实现截图三、技术栈后端框架SSM前端框架vueSSM框架详细介绍系统测试微信小程序介绍四、代码参考源码获取目的摘要：基于JavaSSM与微信小程序的项目申报评审系统，针对企事业单位项目管理痛点，提供一站式解决方案，提升工作效率与透明度。申报单位在微信小程序端按模板填写项目信息，包括项目背景、目标、预算等详细资料，上传相关附件。系统自动校验格式
Yarn 如何优化依赖安装的速度？
引言在前端开发中，包管理器是必不可少的工具，用于管理项目的依赖包。Yarn是由Facebook推出的一个包管理器，作为npm的替代方案，它在性能、可靠性和安全性方面提供了显著提升。一个常见的问题是：Yarn如何优化依赖安装的速度？本文将专注于这个问题，深入分析Yarn的核心机制和优化策略。传统npm安装的瓶颈在理解Yarn的优化之前，先来看一下传统npm安装依赖的问题：串行安装早期版本的npm使用
TypeScript 的类型系统如何提升代码质量？
引言在现代前端和后端开发中，代码质量的重要性毋庸置疑。良好的代码质量不仅能减少Bug，还能提升团队协作效率和项目的可维护性。而TypeScript的出现，为JavaScript引入了静态类型检查，成为提升代码质量的一大利器。本文将聚焦于TypeScript的类型系统，探讨它如何帮助开发者在开发阶段发现潜在问题、提升代码健壮性。类型系统的核心价值JavaScript是一门动态类型语言，这意味着变量的
Vite VS Webpack，谁才是最强构建工具
ViteVSWebpack，谁才是最强构建工具前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众号：倔强青铜三。VitevsWebpack：哪个更适合您的项目？随着Web应用的不断发展，对更快、更高效的开发工具的需求也在日益增长。多年来，Webpack一直是复杂应用的首选打包工具，以其强大的功能和广泛的插
Java8中Optional的使用与解析零臣开发语言 java 数据结构
引言今天在项目中看到了大量Optional的使用，之前我也了解过Optional，是Java8中的新特性，并且便利地为空指针问题提供了处理方法，可以避免繁琐的if/else。但是并没有真正在项目中使用过Optional，现在就来详细地学习一下Optional的用法以及源码实现。构造器方法Optional.of(Tt):创建一个Optional实例，t必须非空Optional.empty():创建一
用Python手撕一个批量填充数据到excel表格的工具，解放双手！ Python与Excel之交 python自动化办公 python
作者:锋小刀微信搜索【Python与Excel之交】关注我的公众号查看更多内容Hi~大家好！今天这篇文章是根据批量填充数据的进阶版。基础版本就一段很简单的代码。虽然简单，但如果这个模板或者数据发生变化，还是要改来改去的，所以本文就在基础版本上进行改进，只需要动动鼠标就可以填充大量数据到Excel工作表中。GUI界面设计GUI是用PySimpleGUI库创建的，安装命令直接用pip命令安装即可！在开
国产Docker可视化面板Dpanel的安装与功能解析落笔画忧愁e Dpanel 安装 Docker 可视化容器管理镜像仓库系统运维
国产Docker可视化面板Dpanel的安装及功能介绍Docker可视化面板系统，提供完善的docker管理功能。支持查看基本信息、运行状态统计、网络统计、磁盘统计、用量统计等功能容器管理：创建/修改容器支持基本配置、环境变量、关联配置、存储配置、运行配置、资源配置等配置项目。‍支持计划任务、备份容器Compose管理镜像、仓库管理存储、网络管理‍‍‍‍‍‍安装教程：创建面板容器时，请根据实际情况
[Python数据分析]最通俗入门Kmeans聚类分析，可视化展示代码。 William数据分析 python kmeans 数据分析分类机器学习 python
什么是k-means分析？【头条@William数据分析，看原版】想象一下，你有一堆五颜六色的糖果，你想把它们按照颜色分成几堆。k-means分析就是这么一个自动分类的过程。它会根据糖果的颜色特征，把它们分成若干个组，每个组里的糖果颜色都比较相似。更专业一点说，k-means分析是一种常用的聚类算法，它会将数据集中的数据点分成k个不同的簇。每个簇都有一个中心点，这个中心点就是簇中所有数据点的平均值
[Python办公]Python脚本如何最小化打包成 .exe 文件 William数据分析 python python
为了将这个Python程序打包成.exe文件，并尽量减小体积，我们可以使用PyInstaller，这是一个常用的工具，用于将Python脚本打包为独立的可执行文件。在打包过程中，我们需要排除不必要的包和文件，以确保打包后的.exe文件尽可能小。【直接一条命令打包成最小体积】：pyinstaller--onefile--windowed--noconsole--hidden-import=PySim
[Python数据可视化] Plotly：交互式数据可视化的强大工具 William数据分析 python python 数据分析数据可视化
引言：在数据分析和可视化的世界中，Plotly是一颗耀眼的明星。它是一个开源的交互式图表库，支持多种编程语言，包括Python、R和JavaScript。Plotly的强大之处在于它能够创建出既美观又具有高度交互性的图表，使得数据探索和分析变得更加直观和有趣。本文将详细介绍Plotly的功能，并通过实际示例展示其在数据可视化中的应用。Plotly的优势：交互性：Plotly图表具有丰富的交互功能，
初学者如何用 Python 写第一个爬虫？王子良. python 经验分享 python 开发语言爬虫
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
Python3.12金融库TA-Lib库安装talib库 William数据分析 python python 金融数据分析
talib是一个Python库，全名为“TA-Lib”，代表“TechnicalAnalysisLibrary”。这是一个广泛使用的库，用于进行金融市场数据的的技术分析。它包含了多种技术指标的计算，比如移动平均线、相对强弱指数（RSI）、布林带等。安装分2步：先安装whl轮子，再安装talib库。1、安装whl轮子：网上搜talibwhl，根据自己电脑32位，64位以及python版本下载对应的w
Python中的面向对象编程（OOP） python
在Python编程领域中，面向对象编程（Object-OrientedProgramming，简称OOP）是一种强大而灵活的编程范式，它允许开发者以对象为中心组织代码，使得程序结构更加清晰、可维护。在本文中，我们将深入探讨Python中的面向对象编程，介绍关键概念，并通过实例演示如何利用OOP构建更健壮的应用。1.类与对象OOP的核心概念是类与对象。类是一个抽象的概念，用于描述具有相似属性和方法的
将 Python 和 Rust 融合在一起，为 pyQuil® 4.0 带来和谐 pythonrust
前言pyQuil一直是在Rigetti量子处理单元（QPUs）上构建和运行量子程序的基石，通过我们的QuantumCloudServices（QCS™）平台提供服务。它是我们的一个重要客户端库。然而，随着QCS平台的发展，我们越来越倾向于使用Rust，因为它具有出色的性能、类型系统和强调正确性。为了支持Rigetti不断增长的Rust工具和服务生态系统，pyQuil中的许多功能已被我们的Rust库
Jenkins持续集成入门到精通西湖河畔砍柴人 java架构 jenkins 持续集成系统 java
这里写目录标题持续集成及Jenkins介绍软件开发的生命周期软件开发的瀑布模型软件开发的敏捷开发模型什么是敏捷开发什么是持续集成持续集成的组成要素Jenkins介绍持续集成及Jenkins介绍软件开发的生命周期软件开发生命周期简称SDLC(SoftwareDevelopmentLifeCycle)，它是集合了计划、开发、测试和部署的集合。需求分析－》项目架构设计－》编码－》测试－》部署维护软件开发
python pycharm 书籍_一份超级完整实用的 PyCharm 图解教程，8K 字赶紧收藏起来 weixin_39841717 python pycharm 书籍
转载自今日头条：Python之眼PyCharm是一种PythonIDE，可以帮助程序员节约时间，提高生产效率。那么具体如何使用呢？本文从PyCharm安装到插件、外部工具、专业版功能等进行了一一介绍，希望能够帮助到大家。在本文中，我们并不会提供非常完善的指南，但是会介绍PyCharm最主要的一些能力，了解这些后，后面就需要我们在实践中再具体学习了。本文将介绍：PyCharm安装在PyCharm中写
python 软件包 petri_常用Petri网模拟软件工具简介 weixin_39881859 python 软件包 petri
常用Petri网模拟软件工具简介首先要介绍的的一个非常有名的Petri网网站--PetriNetsWorld：我这里介绍的软件大部分在该网站中的ToolsandSoftware中的PetriNetsToolDatabase里可以找到相关的链接。Petri网的相关模拟仿真软件现在已经相当成熟了，在国外已经有很多投入商用的案例。但目前每年的国际性Petri网学术会议上都有一个专题就是：PetriNet
python做按键精灵脚本_使用Python实现一个按键精灵 | 蓝士钦 weixin_39557402 python做按键精灵脚本
@HANK1998其实，你这个代码，还有一个问题，鼠标键盘动作回放时，顺序会乱，线程同步问题，做不到鼠标动作和键盘动作交叉执行。，，我能力不太够了，，学的不深，不知道这个问题你解决没？？？------------------原始邮件------------------发件人:"蓝士钦"[email protected];发送时间:2019年8月9日(星期五)中午11:43收件人:"l
遍历dom 并且存储（将每一层的DOM元素存在数组中）换个号韩国红果果 JavaScript html
数组从0开始！！ var a=[],i=0; for(var j=0;j<30;j++){ a[j]=[];//数组里套数组，且第i层存储在第a[i]中 } function walkDOM(n){ do{ if(n.nodeType!==3)//筛选去除#text类型 a[i].push(n); //con
Android+Jquery Mobile学习系列(9)-总结和代码分享白糖_ JQuery Mobile
目录导航经过一个多月的边学习边练手，学会了Android基于Web开发的毛皮，其实开发过程中用Android原生API不是很多，更多的是HTML/Javascript/Css。个人觉得基于WebView的Jquery Mobile开发有以下优点： 1、对于刚从Java Web转型过来的同学非常适合，只要懂得HTML开发就可以上手做事。 2、jquerym
impala参考资料 dayutianfei impala
记录一些有用的Impala资料 1. 入门资料 >>官网翻译： http://my.oschina.net/weiqingbin/blog?catalog=423691 2. 实用进阶 >>代码&架构分析： Impala/Hive现状分析与前景展望：http
JAVA 静态变量与非静态变量初始化顺序之新解周凡杨 java 静态非静态顺序
今天和同事争论一问题，关于静态变量与非静态变量的初始化顺序，谁先谁后，最终想整理出来！测试代码： import java.util.Map; public class T { public static T t = new T(); private Map map = new HashMap(); public T(){ System.out.println(&quo
跳出iframe返回外层页面 g21121 iframe
在web开发过程中难免要用到iframe，但当连接超时或跳转到公共页面时就会出现超时页面显示在iframe中，这时我们就需要跳出这个iframe到达一个公共页面去。首先跳转到一个中间页，这个页面用于判断是否在iframe中，在页面加载的过程中调用如下代码： <script type="text/javascript"> //<!-- function
JAVA多线程监听JMS、MQ队列 510888780 java多线程
背景：消息队列中有非常多的消息需要处理，并且监听器onMessage（）方法中的业务逻辑也相对比较复杂，为了加快队列消息的读取、处理速度。可以通过加快读取速度和加快处理速度来考虑。因此从这两个方面都使用多线程来处理。对于消息处理的业务处理逻辑用线程池来做。对于加快消息监听读取速度可以使用1.使用多个监听器监听一个队列；2.使用一个监听器开启多线程监听。对于上面提到的方法2使用一个监听器开启多线
第一个SpringMvc例子布衣凌宇 spring mvc
第一步：导入需要的包；第二步：配置web.xml文件 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee" xmlns:xsi=
我的spring学习笔记15-容器扩展点之PropertyOverrideConfigurer aijuans Spring3
PropertyOverrideConfigurer类似于PropertyPlaceholderConfigurer，但是与后者相比，前者对于bean属性可以有缺省值或者根本没有值。也就是说如果properties文件中没有某个bean属性的内容，那么将使用上下文（配置的xml文件）中相应定义的值。如果properties文件中有bean属性的内容，那么就用properties文件中的值来代替上下
通过XSD验证XML antlove xml schema xsd validation SchemaFactory
1. XmlValidation.java package xml.validation; import java.io.InputStream; import javax.xml.XMLConstants; import javax.xml.transform.stream.StreamSource; import javax.xml.validation.Schem
文本流与字符集百合不是茶 PrintWrite()的使用字符集名字别名获取
文本数据的输入输出; 输入;数据流,缓冲流输出;介绍向文本打印格式化的输出PrintWrite(); package 文本流; import java.io.FileNotFound
ibatis模糊查询sqlmap-mapping-**.xml配置 bijian1013 ibatis
正常我们写ibatis的sqlmap-mapping-*.xml文件时，传入的参数都用##标识，如下所示： <resultMap id="personInfo" class="com.bijian.study.dto.PersonDTO"> <res
java jvm常用命令工具——jdb命令(The Java Debugger) bijian1013 java jvm jdb
用来对core文件和正在运行的Java进程进行实时地调试，里面包含了丰富的命令帮助您进行调试，它的功能和Sun studio里面所带的dbx非常相似，但 jdb是专门用来针对Java应用程序的。现在应该说日常的开发中很少用到JDB了，因为现在的IDE已经帮我们封装好了，如使用ECLI
【Spring框架二】Spring常用注解之Component、Repository、Service和Controller注解 bit1129 controller
在Spring常用注解第一步部分【Spring框架一】Spring常用注解之Autowired和Resource注解（http://bit1129.iteye.com/blog/2114084）中介绍了Autowired和Resource两个注解的功能，它们用于将依赖根据名称或者类型进行自动的注入，这简化了在XML中，依赖注入部分的XML的编写，但是UserDao和UserService两个bea
cxf wsdl2java生成代码super出错,构造函数不匹配 bitray super
由于过去对于soap协议的cxf接触的不是很多,所以遇到了也是迷糊了一会.后来经过查找资料才得以解决. 初始原因一般是由于jaxws2.2规范和jdk6及以上不兼容导致的.所以要强制降为jaxws2.1进行编译生成.我们需要少量的修改: 我们原来的代码 wsdl2java com.test.xxx -client http://..... 修改后的代
动态页面正文部分中文乱码排障一例 ronin47
公司网站一部分动态页面，早先使用apache+resin的架构运行，考虑到高并发访问下的响应性能问题，在前不久逐步开始用nginx替换掉了apache。不过随后发现了一个问题，随意进入某一有分页的网页，第一页是正常的（因为静态化过了）；点“下一页”，出来的页面两边正常，中间部分的标题、关键字等也正常，唯独每个标题下的正文无法正常显示。因为有做过系统调整，所以第一反应就是新上
java-54- 调整数组顺序使奇数位于偶数前面 bylijinnan java
import java.util.Arrays; import java.util.Random; import ljn.help.Helper; public class OddBeforeEven { /** * Q 54 调整数组顺序使奇数位于偶数前面 * 输入一个整数数组，调整数组中数字的顺序，使得所有奇数位于数组的前半部分，所有偶数位于数组的后半
从100PV到1亿级PV网站架构演变 cfyme 网站架构
一个网站就像一个人，存在一个从小到大的过程。养一个网站和养一个人一样，不同时期需要不同的方法，不同的方法下有共同的原则。本文结合我自已14年网站人的经历记录一些架构演变中的体会。 1：积累是必不可少的架构师不是一天练成的。 1999年，我作了一个个人主页，在学校内的虚拟空间，参加了一次主页大赛，几个DREAMWEAVER的页面，几个TABLE作布局，一个DB连接，几行PHP的代码嵌入在HTM
[宇宙时代]宇宙时代的GIS是什么？ comsci Gis
我们都知道一个事实，在行星内部的时候，因为地理信息的坐标都是相对固定的，所以我们获取一组GIS数据之后，就可以存储到硬盘中，长久使用。。。但是，请注意，这种经验在宇宙时代是不能够被继续使用的宇宙是一个高维时空
详解create database命令 czmmiao database
完整命令 CREATE DATABASE mynewdb USER SYS IDENTIFIED BY sys_password USER SYSTEM IDENTIFIED BY system_password LOGFILE GROUP 1 ('/u01/logs/my/redo01a.log','/u02/logs/m
几句不中听却不得不认可的话 datageek
1、人丑就该多读书。 2、你不快乐是因为：你可以像猪一样懒，却无法像只猪一样懒得心安理得。 3、如果你太在意别人的看法，那么你的生活将变成一件裤衩，别人放什么屁，你都得接着。 4、你的问题主要在于：读书不多而买书太多，读书太少又特爱思考，还他妈话痨。 5、与禽兽搏斗的三种结局：(1)、赢了，比禽兽还禽兽。(2)、输了，禽兽不如。(3)、平了，跟禽兽没两样。结论：选择正确的对手很重要。 6
1 14:00 PHP中的“syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM”错误 dcj3sjt126com PHP
原文地址：http://www.kafka0102.com/2010/08/281.html 因为需要，今天晚些在本机使用PHP做些测试，PHP脚本依赖了一堆我也不清楚做什么用的库。结果一跑起来，就报出类似下面的错误：“Parse error: syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM in /home/kafka/test/
xcode6 Auto layout and size classes dcj3sjt126com ios
官方GUI https://developer.apple.com/library/ios/documentation/UserExperience/Conceptual/AutolayoutPG/Introduction/Introduction.html iOS中使用自动布局（一） http://www.cocoachina.com/ind
通过PreparedStatement批量执行sql语句【sql语句相同，值不同】梦见x光 sql 事务批量执行
比如说：我有一个List需要添加到数据库中，那么我该如何通过PreparedStatement来操作呢？ public void addCustomerByCommit(Connection conn , List<Customer> customerList) { String sql = "inseret into customer(id
程序员必知必会----linux常用命令之十【系统相关】 hanqunfeng Linux常用命令
一.linux快捷键 Ctrl+C : 终止当前命令 Ctrl+S : 暂停屏幕输出 Ctrl+Q : 恢复屏幕输出 Ctrl+U : 删除当前行光标前的所有字符 Ctrl+Z : 挂起当前正在执行的进程 Ctrl+L : 清除终端屏幕，相当于clear 二.终端命令 clear : 清除终端屏幕 reset : 重置视窗，当屏幕编码混乱时使用 time com
NGINX IXHONG nginx
pcre 编译安装 nginx conf/vhost/test.conf upstream admin { server 127.0.0.1:8080; } server { listen 80; &
设计模式--工厂模式 kerryg 设计模式
工厂方式模式分为三种： 1、普通工厂模式：建立一个工厂类，对实现了同一个接口的一些类进行实例的创建。 2、多个工厂方法的模式：就是对普通工厂方法模式的改进，在普通工厂方法模式中，如果传递的字符串出错，则不能正确创建对象，而多个工厂方法模式就是提供多个工厂方法，分别创建对象。 3、静态工厂方法模式：就是将上面的多个工厂方法模式里的方法置为静态，
Spring InitializingBean/init-method和DisposableBean/destroy-method mx_xiehd java spring bean xml
1.initializingBean/init-method 实现org.springframework.beans.factory.InitializingBean接口允许一个bean在它的所有必须属性被BeanFactory设置后，来执行初始化的工作，InitialzingBean仅仅指定了一个方法。通常InitializingBean接口的使用是能够被避免的，（不鼓励使用，因为没有必要
解决Centos下vim粘贴内容格式混乱问题 qindongliang1922 centos vim
有时候，我们在向vim打开的一个xml，或者任意文件中，拷贝粘贴的代码时，格式莫名其毛的就混乱了，然后自己一个个再重新，把格式排列好，非常耗时，而且很不爽，那么有没有办法避免呢？答案是肯定的，设置下缩进格式就可以了，非常简单：在用户的根目录下直接vi ~/.vimrc文件然后将set pastetoggle=<F9> 写入这个文件中，保存退出，重新登录，
netty大并发请求问题 tianzhihehe netty
多线程并发使用同一个channel java.nio.BufferOverflowException: null at java.nio.HeapByteBuffer.put(HeapByteBuffer.java:183) ~[na:1.7.0_60-ea] at java.nio.ByteBuffer.put(ByteBuffer.java:832) ~[na:1.7.0_60-ea]
Hadoop NameNode单点问题解决方案之一 AvatarNode wyz2009107220 NameNode
我们遇到的情况 Hadoop NameNode存在单点问题。这个问题会影响分布式平台24*7运行。先说说我们的情况吧。我们的团队负责管理一个1200节点的集群(总大小12PB)，目前是运行版本为Hadoop 0.20，transaction logs写入一个共享的NFS filer(注：NetApp NFS Filer)。经常遇到需要中断服务的问题是给hadoop打补丁。 DataNod