Kaggle之房价预测解读

题目来源https://www.kaggle.com/c/house-prices-advanced-regression-techniques
本文部分代码参考https://www.kaggle.com/serigne/stacked-regressions-top-4-on-leaderboard
完整代码可以参考https://github.com/a136522541/House-Prices

本题是利用给出的每个房子的80个特征（如房屋面积，年龄等），预测其销售价格。
评价预测的指标是RMSE，定义如下
$\sqrt{\frac{\Sigma(y_i-\hat{y}_i)^2}{N}}$

为了要有更好的预测，需要理解数据中的含义。因此处理步骤大概会分成以下几个模块：

1.数据探索及可视化
2.数据清洗及特征工程
3.各种方法建模及调参
4.集成方法及评估

1.数据初步处理

首先需要载入数据并观察其大小

train_data = pd.read_csv("train.csv")
test_data = pd.read_csv("test.csv")
y_train = train_data['SalePrice']
combine_data = pd.concat((train_data,test_data)).reset_index(drop=True)
combine_data.drop(['SalePrice','Id'],axis=1,inplace=True)


print("数据共有",combine_data.shape[1],"列,",combine_data.shape[0],"行\n")
print("训练集有",train_data.shape[0],'行',"测试集有",test_data.shape[0],"行\n")
print("object数据共有",combine_data.dtypes[combine_data.dtypes=='object'].value_counts().sum(),"列\n")
print("非object数据共有",combine_data.dtypes[combine_data.dtypes!='object'].value_counts().sum(),"列\n")

"""
output
数据共有 79 列, 2919 行

训练集有 1460 行 测试集有 1459 行

object数据共有 43 列

非object数据共有 36 列
"""

可以看到，数据中训练集和测试集规模相等，都是1460行左右，其中有36列是数字数据，43列是字符串数据。接下来查看一下缺失数据情况

print("有",combine_data.isnull().sum()[combine_data.isnull().sum()>0].shape[0],"列数据出现缺失")

print(pd.DataFrame({"missing ratio":combine_data.isnull().sum()[combine_data.isnull().sum()>0]
.sort_values(ascending=False)/combine_data.shape[0]}))

"""output
有 34 列数据出现缺失

              missing ratio
PoolQC                0.997
MiscFeature           0.964
Alley                 0.932
Fence                 0.804
FireplaceQu           0.486
LotFrontage           0.166
GarageQual            0.054
GarageCond            0.054
GarageFinish          0.054
GarageYrBlt           0.054
GarageType            0.054
BsmtExposure          0.028
BsmtCond              0.028
BsmtQual              0.028
BsmtFinType2          0.027
BsmtFinType1          0.027
MasVnrType            0.008
MasVnrArea            0.008
MSZoning              0.001
BsmtFullBath          0.001
BsmtHalfBath          0.001
Utilities             0.001
Functional            0.001
Electrical            0.000
BsmtUnfSF             0.000
Exterior1st           0.000
Exterior2nd           0.000
TotalBsmtSF           0.000
GarageArea            0.000
GarageCars            0.000
BsmtFinSF2            0.000
BsmtFinSF1            0.000
KitchenQual           0.000
SaleType              0.000
"""

由以上可以看到，79列数据中近半是有缺失值的，大部分缺失值都在10%以下，这些缺失值可以通过各种手段进行处理。而有5列数据缺失值接近或超过了50%。分别是

PoolQC 游泳池情况，取值有Excellent，Good，Fair，空值表示没有游泳池。

MiscFeature 房屋有的其他设施，取值有Shed(小屋)，Othr(其他)，Gar2(第二个车库)，TenC(乒乓球桌)，空值代表没有其他设施

Alley 小巷道路类型，取值有Grvl（碎石），paved(铺切面)。空值代表没有小巷

Fence 围墙类型，取值有GdPrv(Good Privacy)，MnPrv（Minimum Privacy），GdWo（Good Wood），MnWw（Minimum Wood），空值代表没有围墙

FireplaceQu 壁炉类型，取值有Ex(Excellent),Gd(Good),Fa(Fair),Po(Poor),TA(Average),空值代表没有壁炉。

对于这些列，空值是有特别意义的，因此将空值赋予None字符串

combine_data['PoolQC'].fillna("None",inplace=True)
combine_data['MiscFeature'].fillna("None",inplace=True)
combine_data['Alley'].fillna("None",inplace=True)
combine_data['Fence'].fillna("None",inplace=True)
combine_data['FireplaceQu'].fillna("None",inplace=True)

下边继续查看包含缺失值的列

LotFrontage Linear feet of street connected to property 应该是房屋与大街的连接距离，缺失数据可以尝试用其他关联性高的列进行填充,有选手认为在该房屋附近的其他房子应该有一样的连接距离，因此可以用Neighborhood来的关系来填充此值

Garage* 以下5列缺失比例是一样的，分别是车库的信息，如果缺失的话证明该房子不包含车库。因此可以用None或0来填充

Bsmt* 以下5列缺失比例也是几乎一样，分别是地下室的信息，如果缺失的话证明该房子不包含地下室，因此可以用None或0填充

MasVnr* 墙面结构和面积，空值表示没有墙面结构

combine_data['LotFrontage']=combine_data.groupby(['Neighborhood'])['LotFrontage'].transform(lambda x: x.fillna(x.median()))

combine_data['GarageQual'].fillna("None",inplace=True)
combine_data['GarageCond'].fillna("None",inplace=True)
combine_data['GarageFinish'].fillna("None",inplace=True)
combine_data['GarageYrBlt'].fillna(0,inplace=True)
combine_data['GarageType'].fillna("None",inplace=True)

combine_data['BsmtQual'].fillna("None",inplace=True)
combine_data['BsmtExposure'].fillna("None",inplace=True)
combine_data['BsmtCond'].fillna("None",inplace=True)
combine_data['BsmtFinType1'].fillna("None",inplace=True)
combine_data['BsmtFinSF1'].fillna(0,inplace=True)
combine_data['BsmtFinType2'].fillna("None",inplace=True)
combine_data['BsmtFinSF2'].fillna(0,inplace=True)
combine_data['BsmtFullBath'].fillna(0,inplace=True)
combine_data['BsmtHalfBath'].fillna(0,inplace=True)
combine_data['BsmtUnfSF'].fillna(0,inplace=True)
combine_data['TotalBsmtSF'].fillna(0,inplace=True)

combine_data['MasVnrType'].fillna("None",inplace=True)
combine_data['MasVnrArea'].fillna(0,inplace=True)

对于剩余的列，基本上作填充中数或0处理，就不赘述了，代码截图如下
缺失数据填充完毕后，可以进行下一步操作了

2.数据可视化

因为题目要求要预测房屋的销售价格SalePrice，因此首先我们要先查看一下其分布

train_data = combine_data[:train_data.shape[0]]
train_data = pd.concat((train_data,y_train),axis=1)
#左边两图，SalePrice的分布以及QQ图
#右边两图，log(SalePrice)的分布及QQ图
#取对数后更趋向正态分布
fig = plt.figure(figsize=(14,8))
plt.subplot2grid((2,2),(0,0))
sns.distplot((train_data['SalePrice']))

plt.subplot2grid((2,2),(0,1))
sns.distplot(np.log((train_data['SalePrice'])),fit=norm)

plt.subplot2grid((2,2),(1,0))
res = stats.probplot(train_data['SalePrice'], plot=plt)

plt.subplot2grid((2,2),(1,1))
res = stats.probplot(np.log(train_data['SalePrice']), plot=plt)

上图左边部分绘制了SalePrice的分布，可以看到是一个左高右低的分布，说明销售价格集中于某个区域，左下角绘制的QQ图也显示其与正态分布偏离颇大。
因此右上角图尝试绘制了SalePrice的对数分布图，以及对应右下角的QQ图，此图拟合形状接近直线也证明对销售价格取对数后，其接近正态分布。所以在分析完SalePrice与其它变量的分布后，会尝试对其取对数。

2.2 数值型数据的关联

下一步绘制一下各变量关联性的热力图以及变量与标签SalePrice的关联分布

corrmat = abs(train_data.corr())
plt.subplots(figsize=(12,9))
sns.heatmap(corrmat, vmax=0.9, square=True)

fig = plt.figure(figsize=(14,8))
abs(train_data.corr()['SalePrice']).sort_values(ascending=True).plot.bar()
plt.xticks(fontsize=20)
plt.yticks(fontsize=20)

因为有些变量跟标签SalePrice的相关系数是负数，因此取绝对值来更有效地观察其与标签的关联性。可以看到有十多个变量与标签的相关系数是大于0.5。如

1.OverallQual 房屋设施的完整性

2.GrLivArea 居住面积

3.4 GarageCars GarageArea 车库容量，看来老外很看重车库，因为人人有车

5.TotalBsmtSF 地下室大小

6.1stFlrSF 1楼面积

7.FullBath 厕所面积

8.TotRmsAbvGrd 地面上的房间数量

9.YearBuilt 建造年份

10.YearRemodAdd 重建年份

其他变量关联性没有太高，不一一列出了，着重看一下前10个的分布。

首先是OverallQual房屋设施的完整性

fig = plt.figure(figsize=(10,6))

fig = sns.boxplot(x=var, y="SalePrice", data=train_data[['SalePrice','OverallQual']])
fig.axis(ymin=0, ymax=800000)
plt.xticks(fontsize=20)
plt.yticks(fontsize=20)
plt.xlabel("OverallQual",fontsize=20)
plt.ylabel("SalePrice",fontsize=20)

参考了一下其他人的代码，发现sns的箱图能够很好表达这种离散数据的分布。每个箱子中线就是中位数A，箱子边缘就是两个四分位数B和C，而线的两个末端D(上端点)和E(下端点)，是两个四分位数值差的1.5倍，也就是，D = 1.5*(B-C)+B $\quad$ E = C-(1.5*(B-C)),在这些值之外的，可以被认为是outlier。详细定义可以参考维基百科https://zh.wikipedia.org/wiki/%E7%AE%B1%E5%BD%A2%E5%9C%96

从上图很容易可以看出，OverallQual越高，房屋价格越高。

下边看一下GrLivArea居住面积与销售价格的关系

fig = plt.figure(figsize=(10,6))
plt.scatter(x=train_data['GrLivArea'],y=train_data['SalePrice'])
plt.xticks(fontsize=20)
plt.yticks(fontsize=20)
plt.xlabel("GrLivArea",fontsize=20)
plt.ylabel("SalePrice",fontsize=20)
plt.show()

上图可以看到，居住面积与销售价格具有很强烈的正相关。但是样本中也有两个右下角离群点，这两个离群点可能会对数据拟合不利，所以有些人会把这两个点去掉，在最后的处理，会尝试查看这两个点去掉与否对误差的影响。

接下来查看车库容量和面积对销售价格的影响

#fig = plt.figure(figsize=(20,10))
plt.figure(figsize=(10,20))
#plt.subplots_adjust(wspace =0.5, hspace =0.5)#调整子图间距
plt.subplot(311)

plt.scatter(x=train_data['GarageArea'],y=train_data['SalePrice'])
plt.xticks(fontsize=20)
plt.yticks(fontsize=20)
plt.xlabel("GarageArea",fontsize=20)
plt.ylabel("SalePrice",fontsize=20)

plt.subplot(312)
fig1 = sns.boxplot(x='GarageCars', y="GarageArea", data=train_data[['GarageArea','GarageCars']])
plt.xticks(fontsize=20)
plt.yticks(fontsize=20)
plt.xlabel("GarageCars",fontsize=20)
plt.ylabel("GarageArea",fontsize=20)

plt.subplot(313)
fig = sns.boxplot(x='GarageCars', y="SalePrice", data=train_data[['SalePrice','GarageCars']])
fig.axis(ymin=0, ymax=800000)
plt.xticks(fontsize=20)
plt.yticks(fontsize=20)
plt.xlabel("GarageCars",fontsize=20)
plt.ylabel("SalePrice",fontsize=20)
plt.show()

上边分布画了车库容量和面积分布与销售价格的对比，以及车库容量和面积之间的对比。可以看到车库面积越大销售价格也是越贵的(当然也有几个离群点)。

而车库容量在0-3时，容量越大销售价格也是越高，但是容量为4时价格反而变低了，可能是因为不好卖了，因为容量太大也没有太多车放。

而车库容量与车库面积当然是成正比关系，但是箱图中的离群点还是挺多的。

下边查看地下室面积、1楼面积、厕所数量，房间数量如销售价格的关系

#fig = plt.figure(figsize=(20,10))
plt.figure(figsize=(10,25))
#plt.subplots_adjust(wspace =0.5, hspace =0.5)#调整子图间距
plt.subplot(411)

plt.scatter(x=train_data['TotalBsmtSF'],y=train_data['SalePrice'])
plt.xticks(fontsize=20)
plt.yticks(fontsize=20)
plt.xlabel("TotalBsmtSF",fontsize=20)
plt.ylabel("SalePrice",fontsize=20)

plt.subplot(412)

plt.scatter(x=train_data['1stFlrSF'],y=train_data['SalePrice'])
plt.xticks(fontsize=20)
plt.yticks(fontsize=20)
plt.xlabel("1stFlrSF",fontsize=20)
plt.ylabel("SalePrice",fontsize=20)

plt.subplot(413)
fig = sns.boxplot(x='FullBath', y="SalePrice", data=train_data[['SalePrice','FullBath']])
fig.axis(ymin=0, ymax=800000)
plt.xticks(fontsize=20)
plt.yticks(fontsize=20)
plt.xlabel("FullBath",fontsize=20)
plt.ylabel("SalePrice",fontsize=20)

plt.subplot(414)
fig = sns.boxplot(x='TotRmsAbvGrd', y="SalePrice", data=train_data[['SalePrice','TotRmsAbvGrd']])
fig.axis(ymin=0, ymax=800000)
plt.xticks(fontsize=20)
plt.yticks(fontsize=20)
plt.xlabel("TotRmsAbvGrd",fontsize=20)
plt.ylabel("SalePrice",fontsize=20)
plt.show()

从两个面积的散点图可以看到，地下室和地上面积越大，销售价格越高。而且都存在数个离群点，特别是有一个面积特别大但是销售价格只有十多万的一个数据，同一个异常数据在很多列都出现了，这对最后的拟合很大可能会造成影响，因此我们决定还是把它去掉。

train_data = train_data[train_data['1stFlrSF']<4000]

最后看一下建造年份和维修年份对价格的影响

#fig = plt.figure(figsize=(20,10))
plt.figure(figsize=(20,5))
#plt.subplots_adjust(wspace =0.5, hspace =0.5)#调整子图间距
plt.subplot(121)

plt.scatter(x=train_data['YearBuilt'],y=train_data['SalePrice'])
plt.xticks(fontsize=20)
plt.yticks(fontsize=20)
plt.xlabel("YearBuilt",fontsize=20)
plt.ylabel("SalePrice",fontsize=20)

plt.subplot(122)

plt.scatter(x=train_data['YearRemodAdd'],y=train_data['SalePrice'])
plt.xticks(fontsize=20)
plt.yticks(fontsize=20)
plt.xlabel("YearRemodAdd",fontsize=20)
plt.ylabel("SalePrice",fontsize=20)

虽然不太明显，但是也可以看出建造或者重建年份越高的，价格越高。另外有些房子建造年份是1880年福建的，但是价格也卖得不错，应该是因为在后边重建过导致。

数值型数据观察总结

查看数个数值型变量的分布后发现，对于离散型变量，问题并不大，但是对于连续型变量，是有可能存在一些离群点，并且数据集中在某个区域的情况比较多，也就是说Skewness偏度比较高。后期可以对偏度较高的数据去对数来尝试将其恢复为正态分布，看能否提升准确度。

2.3 非数值型数据的关联

对于非数值型数据,需要将其转变为离散型变量才可以处理，所以先用sklearn里内置的模块处理一下

from sklearn.preprocessing import LabelEncoder
train_shape = train_data.shape[0]
combine_data = pd.concat((train_data,test_data))
cols = combine_data.dtypes[combine_data.dtypes=='object'].index
for col in cols:
    lbl = LabelEncoder() 
    lbl.fit(list(combine_data[col].values)) 
    combine_data[col] = lbl.transform(list(combine_data[col].values))
train_data = combine_data[:train_shape]
test_data = combine_data[train_shape:]

cols = list(cols)
cols.append("SalePrice")

处理完毕后看一下各个变量之间关联性的热力图

corrmat = abs(train_data[cols].corr())
plt.subplots(figsize=(12,9))
sns.heatmap(corrmat, vmax=0.9, square=True)

fig = plt.figure(figsize=(14,8))
abs(train_data[cols].corr()['SalePrice']).sort_values(ascending=True).plot.bar()
plt.xticks(fontsize=20)
plt.yticks(fontsize=20)

可以看到这些离散数据与SalePrice的相关性没有之前的那么大，相关性高于50%的有KitchenQual（厨房质量）BsmtQual(地下室质量)，ExterQual(外墙质量)。下边就看看这3个变量的分布。

#fig = plt.figure(figsize=(20,10))
plt.figure(figsize=(10,15))
#plt.subplots_adjust(wspace =0.5, hspace =0.5)#调整子图间距
plt.subplot(311)

fig = sns.boxplot(x='KitchenQual', y="SalePrice", data=train_data[['SalePrice','KitchenQual']])
fig.axis(ymin=0, ymax=800000)
plt.xticks(fontsize=20)
plt.yticks(fontsize=20)
plt.xlabel("KitchenQual",fontsize=20)
plt.ylabel("SalePrice",fontsize=20)

plt.subplot(312)

fig = sns.boxplot(x='BsmtQual', y="SalePrice", data=train_data[['SalePrice','BsmtQual']])
fig.axis(ymin=0, ymax=800000)
plt.xticks(fontsize=20)
plt.yticks(fontsize=20)
plt.xlabel("BsmtQual",fontsize=20)
plt.ylabel("SalePrice",fontsize=20)

plt.subplot(313)
fig = sns.boxplot(x='ExterQual', y="SalePrice", data=train_data[['SalePrice','ExterQual']])
fig.axis(ymin=0, ymax=800000)
plt.xticks(fontsize=20)
plt.yticks(fontsize=20)
plt.xlabel("ExterQual",fontsize=20)
plt.ylabel("SalePrice",fontsize=20)

plt.show()

这三个Quaility变量取值是从差到好（Poor，Fair，Average，Good，Excellent），但是映射到数字的时候并没有从小到大排序，但是也可以看到，售价与这几个变量的取值存在相关性，质量越好的售价肯定就越高了。

非数值型数据观察小结

对于非数值型数据，我们可以用sklearn内置的LableEncoder来对其编码，编码后就可以观察其与标签的关系，同时也可以参与训练。

编码后发现只有3个指标与销售价格相关性大于50%，其他指标都基本低于40%

3.特征工程

观察数据的分布，对其有一定了解之后，需要对特征作进一步处理了。其实上边已经对一些数据进行填充空值、编码等处理。这里的话会对数据进行继续完善。

3.1进一步编码

查看发现，数据中有一些特征虽然其内容是数字，但是实际上数字大小并没有实际意义，因此可以将其编码为字符，再用LabelEndcoder来转换其编码。
这里只有一个特征是这种情况：MSSubClass。虽然OverallQual，OverallQual这两列数字（1-10代表从差到好）与其它数值变量含义如面积等变量意义不一样），但是也不用重新编码了。因此这里只对MSubClass进行处理

combine_data['MSSubClass'].astype(str)
lbl = LabelEncoder() 
lbl.fit(list(combine_data['MSSubClass'].values)) 
combine_data['MSSubClass'] = lbl.transform(combine_data['MSSubClass'].values)

3.2偏度处理

接下来是对一些偏度过大的数据作一下处理。我们认为当数据偏度为0的时候属于正态分布，这时数据用于拟合是最理想的。查看发现scipy.special.boxcox1p这个函数可以对偏度大的数据作转换。转换方式为 $x^{'}=\frac{x^{\lambda}-1}{\lambda}$
当 $\lambda=0$ 时，其变换就是 $x^{'}=log(x)$ ,当 $\lambda=1$ 时，就是 $x{'}=x-1$ 。关于这个变换的介绍可以查看http://onlinestatbook.com/2/transformations/box-cox.html
首先查看一下偏度较大的数据

skew=pd.DataFrame({"Skew":abs(combine_data[numeric_col].skew()).sort_values()})
skew_col = skew[abs(skew["Skew"])>0.75]["Skew"].sort_values(ascending=False).index
skew[abs(skew["Skew"])>0.75]["Skew"].sort_values(ascending=False)

"""output
MiscVal         21.955
PoolArea        17.701
LotArea         13.035
LowQualFinSF    12.093
3SsnPorch       11.380
KitchenAbvGr     4.304
BsmtFinSF2       4.147
EnclosedPorch    4.005
ScreenPorch      3.948
BsmtHalfBath     3.933
GarageYrBlt      3.907
MasVnrArea       2.619
OpenPorchSF      2.541
WoodDeckSF       1.845
1stFlrSF         1.282
GrLivArea        1.129
LotFrontage      1.104
BsmtFinSF1       0.992
BsmtUnfSF        0.919
2ndFlrSF         0.863
TotRmsAbvGrd     0.752
"""

可以看到大概有20列数据偏度是大于0.75的。其中有些偏度超过了10,下边先查看一下这些数据的分布。

#fig = plt.figure(figsize=(20,10))
plt.figure(figsize=(25,20))
#plt.subplots_adjust(wspace =0.5, hspace =0.5)#调整子图间距

plt.subplot(321)
sns.distplot((train_data['MiscVal']))
plt.xticks(fontsize=20)
plt.yticks(fontsize=20)
plt.xlabel("MiscVal",fontsize=20)

plt.subplot(322)
sns.distplot((train_data['PoolArea']))
plt.xticks(fontsize=20)
plt.yticks(fontsize=20)
plt.xlabel("PoolArea",fontsize=20)

plt.subplot(323)
sns.distplot((train_data['LotArea']))
plt.xticks(fontsize=20)
plt.yticks(fontsize=20)
plt.xlabel("LotArea",fontsize=20)

plt.subplot(324)
sns.distplot((train_data['LowQualFinSF']))
plt.xticks(fontsize=20)
plt.yticks(fontsize=20)
plt.xlabel("LowQualFinSF",fontsize=20)

plt.subplot(325)
sns.distplot((train_data['3SsnPorch']))
plt.xticks(fontsize=20)
plt.yticks(fontsize=20)
plt.xlabel("3SsnPorch",fontsize=20)

plt.subplot(326)
sns.distplot((train_data['GrLivArea']))
plt.xticks(fontsize=20)
plt.yticks(fontsize=20)
plt.xlabel("GrLivArea",fontsize=20)

上图画了5张偏度大于10的特征分布，以及一个偏度为1.1的特征分布。可以看到偏度很高的分布，其原因是很多值都为0，比如PoolArea游泳池面积,LotArea花园面积，如果没有游泳池或花园，这些值就为0。对于这种0值很多的分布，boxcox1p也无法将其还原到正态分布。而对于GrLivArea居住面积这种分布，boxcox1p是有希望将其恢复为正态分布的。下边就试一下。

#combine_data1 = combine_data.copy()
from scipy.special import boxcox1p
lam = 0.
for feat in skew_col:
    combine_data[feat] = boxcox1p(combine_data[feat], lam)

abs(combine_data[skew_col].skew()).sort_values(ascending=False)
"""output
PoolArea        15.634
3SsnPorch        8.828
LowQualFinSF     8.561
MiscVal          5.216
GarageYrBlt      3.927
BsmtHalfBath     3.776
KitchenAbvGr     3.521
ScreenPorch      2.947
BsmtFinSF2       2.463
BsmtUnfSF        2.156
EnclosedPorch    1.962
LotFrontage      1.066
BsmtFinSF1       0.617
MasVnrArea       0.538
LotArea          0.525
2ndFlrSF         0.306
WoodDeckSF       0.159
OpenPorchSF      0.042
1stFlrSF         0.039
TotRmsAbvGrd     0.031
GrLivArea        0.009
"""

测试几个值之后发现 $\lambda$ 取0的时候效果是最好的，可以看到除了PoolArea外其他分布的偏度都低于10了，几乎所有的分布偏度都有所减少。当然实际使用时最好的方法大概是应该针对每个特征都测试不同的 $\lambda$ ，分别取最好的值来进行处理。

3.3离散值处理

下一步处理一下离散值，之前我们已经将离散值进行编码处理，但是对于大部分离散值，它们每一个取值直接都是独立的，没有大小关系。因此可以用pandas的get_dummies来对离散值进行one-hot处理。但是这样做得很有可能会带来两个问题：1.此处离散值太多，都进行one-hot处理的话会造成特征稀疏。2.有些离散值之间其实是有大小关系的，比如BsmtCond，BsmtQual等这些描述房屋某个设施的质量等级。之后的话可以针对这些情况作更精细的调整。

for col in cols:
    if(col=='SalePrice'):continue
    combine_data[col]=combine_data[col].apply(str)

combine_data = pd.get_dummies(combine_data)
combine_data.shape
"""output
(2918, 300)
"""

4.建模

为了让训练更加准确，利用5 Fold cross validation来

train_data = combine_data[:train_data.shape[0]]
test_data = combine_data[train_data.shape[0]:]

y_train = np.log1p(train_data['SalePrice'])
del test_data['SalePrice']
del train_data['SalePrice']

from sklearn.linear_model import ElasticNet, Lasso,  BayesianRidge, LassoLarsIC,Ridge
from sklearn.ensemble import RandomForestRegressor,  GradientBoostingRegressor
from sklearn.kernel_ridge import KernelRidge
from sklearn.pipeline import make_pipeline
from sklearn.svm import SVR
from sklearn.preprocessing import RobustScaler
from sklearn.base import BaseEstimator, TransformerMixin, RegressorMixin, clone
from sklearn.model_selection import KFold, cross_val_score, train_test_split
from sklearn.metrics import mean_squared_error
import xgboost as xgb
import lightgbm as lgb
from catboost import Pool, CatBoostRegressor


n_folds = 5

def rmsle_cv(model):
    kf = KFold(n_folds, shuffle=True, random_state=42).get_n_splits(train_data.values)
    rmse= np.sqrt(-cross_val_score(model, train_data.values, y_train.values, scoring="neg_mean_squared_error", cv = kf))
    return(rmse)

首先最简单的是线性分类器，这里分布用Lasso和Ridge回归来预测。两者都是采取线性回归的方式获得预测结果。两者区别在于lasso是带L1正则化项的，而Ridge回归是带L2正则化项的，前者会令权重中出现0，因为此数据集比较稀疏，所以用Lasso回归的话结果应该会比较好。

很多机器学习方法在拟合之前都需要作标准化处理，否则的话数值过大的数据列将会主导预测结果。标准化处理有很多中，比如0-1标准化，将数据缩放到[0,1]区间内，或者正态分布化，将数据缩放为均值为0，方差为1的分布。在此处是采用RobustScaler，此法与正态分布化类似，但是在数据中有离群点时比较好用，因为其缩放时采用的指标是四分之一分位数到四分之三分位数之间，这样离群点就不会对整体数据造成影响。详情可以参考https://www.cnblogs.com/nobbyoucanyouup/p/9015940.html

另外这里还用了pipline技术来构建一些模型，按我的理解pipeline可以看成是将数据预处理和最后的模型打包在一起，这样当要构建多个需要不同数据预处理的时候，可以更加方便管理。

lasso = make_pipeline(RobustScaler(), Lasso(alpha =0.0005, random_state=1))
ridge = make_pipeline(RobustScaler(), Ridge(alpha =0.0005, random_state=1))

score = rmsle_cv(lasso)
print("Lasso Score: ",score.mean())
score = rmsle_cv(ridge)
print("ridge Score: ",score.mean())
"""output
Lasso Score:  0.1096811009195188
ridge Score:  0.1243920608198179
"""

接下来再尝试一下其他分类器

KRR = KernelRidge()
score = rmsle_cv(KRR)
print("KRR Score: ",score.mean())
"""output
KRR Score:  0.11653577294540633

"""

GB = GradientBoostingRegressor(n_estimators=3000, learning_rate=0.05,
                                   max_depth=4, max_features='sqrt',
                                   min_samples_leaf=15, min_samples_split=10, 
                                   loss='huber', random_state =5)

score = rmsle_cv(GB)
print("GradientBoostingRegressor Score: ",score.mean())
"""output
GradientBoostingRegressor Score:  0.11672721853082338
"""

xgb = xgb.XGBRegressor(colsample_bytree=0.4603, gamma=0.0468, 
                             learning_rate=0.05, max_depth=3, 
                             min_child_weight=1.7817, n_estimators=2200,
                             reg_alpha=0.4640, reg_lambda=0.8571,
                             subsample=0.5213, silent=1,
                             random_state =7, nthread = -1)

score = rmsle_cv(xgb)
print("XGB Score: ",score.mean())
"""output
XGB Score:  0.11572558969972917
"""

model_lgb = lgb.LGBMRegressor(objective='regression',num_leaves=5,
                              learning_rate=0.05, n_estimators=720,
                              max_bin = 55, bagging_fraction = 0.8,
                              bagging_freq = 5, feature_fraction = 0.2319,
                              feature_fraction_seed=9, bagging_seed=9,
                              min_data_in_leaf =6, min_sum_hessian_in_leaf = 11)#,loss='huber')
score = rmsle_cv(model_lgb)
print("LGBM score:",score.mean())

"""output
LGBM score: 0.11658529359898522
"""

测试了几个分类器，发现大部分的回归误差都在0.116左右，除了lasso有点低。为了更好地组合这些模型，采取stacking融合来处理。

stacking对于初学者来可能有点懵，我理解其本质就是构建一个最终分类器，将不同的基分类器A、B、C…对每一个样本输出的结果作为输入，预测最终的输出结果。其本质就是学习每个基分类器对最终输出结果的权重。详细的解释可以查看https://zhuanlan.zhihu.com/p/26890738

class StackingAveragedModels(BaseEstimator, RegressorMixin, TransformerMixin):
    def __init__(self, base_models, meta_model, n_folds=5):
        self.base_models = base_models
        self.meta_model = meta_model
        self.n_folds = n_folds
   
    # We again fit the data on clones of the original models
    def fit(self, X, y):
        self.base_models_ = [list() for x in self.base_models]
        #print(self.base_models_)
        self.meta_model_ = clone(self.meta_model)
        kfold = KFold(n_splits=self.n_folds, shuffle=True, random_state=42)
        #print(self.meta_model)
        # Train cloned base models then create out-of-fold predictions
        # that are needed to train the cloned meta-model
        out_of_fold_predictions = np.zeros((X.shape[0], len(self.base_models)))
        
        for i, model in enumerate(self.base_models):
            for train_index, holdout_index in kfold.split(X, y):
                instance = clone(model)
                self.base_models_[i].append(instance)
                #print("before fit")
                #print(train_index)
                instance.fit(X[train_index], y[train_index])
                #print("after fit")
                y_pred = instance.predict(X[holdout_index])
                out_of_fold_predictions[holdout_index, i] = y_pred
                
        # Now train the cloned  meta-model using the out-of-fold predictions as new feature
        self.meta_model_.fit(out_of_fold_predictions, y)
        return self
   
    #Do the predictions of all base models on the test data and use the averaged predictions as 
    #meta-features for the final prediction which is done by the meta-model
    def predict(self, X):
        meta_features = np.column_stack([
            np.column_stack([model.predict(X) for model in base_models]).mean(axis=1)
            for base_models in self.base_models_ ])
        return self.meta_model_.predict(meta_features)
        
stacked_averaged_models = StackingAveragedModels(base_models = (lasso,model_lgb,KRR,ridge,GB,xgb),
                                                 meta_model = lasso)

score = rmsle_cv(stacked_averaged_models)
print("Stacking Averaged models score: {:.4f} ({:.4f})".format(score.mean(), score.std()))

"""output
 Stacking Averaged models score: 0.1075 (0.0070)

"""

可以看到最终的训练集的训练误差为0.1076，比单独任何一个模型都好，因此最终会用这个模型来预测测试集。

stacked_averaged_models.fit(train_data.values, y_train.values)

stacked_pred = np.expm1(stacked_averaged_models.predict(test_data.values))

sub = pd.DataFrame()
sub['Id'] = test_ID
sub['SalePrice'] = stacked_pred
sub.to_csv('submission.csv',index=False)

最终的提交结果误差为0.1157，排名约610名

你可能感兴趣的:(机器(深度)学习)

2022年5月23日《0—8岁儿童自律教育》培训总结心态决定一切
-------杨丹妮+春蕾怡馨幼儿园感受:当遇到纪律教育问题的时候应该如何操作1.发现孩子的行为问题，首先我们就是要分析问题的原因，然后根据原因要追究其问题的根本所在，寻找解决方法。2.纪律教育问题的解决是需要时间的。包括儿童学习需要时间、成人做计划需要时间，不是一朝一夕就能改变的，一定要有耐心，做好持久战的准备。3.成人的态度至关重要，无论孩子犯了怎样的行为问题，我们一定要平静下来再和孩子沟通，
日更18 不完美的你我他
最近在学习怎样让自己的心情更加的平和，这是一种需要自己慢慢摸索的过程。自己在没有找到方法之前可以按部就班的让自己先形成一个习惯。这是自己需要做的事情。对于现在的自己来说，自己在慢慢的摸索自己喜欢的环境，让自己慢慢的变得更加的舒心。也是让自己慢慢的变得更加的安稳。其实赚钱这件事情当真对于自己是不着急的，但是很多人其实都没有办法理解这样一个情况，对于自己来说，学习提高自己的技能是更加重要的。这也是自己
亲子日记6 2018.8.2 星期四晴 liuyue的兔子
今天是我的生日，早晨起床收到朋友发的祝福信息女儿也看见了，不好意思的说了句:祝妈妈生日快乐，看来她是忘了。每年的生日都是和朋友们出去庆祝的，今年正好碰上女儿的舞蹈课，就没出去，什么事也没有孩子的事重要。晚上接她放学回家，老师今天教的新课程，数学找规律填空题，女儿对数学总是不开窍，教了好长时间总算是明白一点了，数学真的是要好好学习一下了。图片发自App做完作业正好到了学舞蹈的时间了，和同学约好了，我
继续拿回我剩下的那部分力量 jinne_M
今日分享：7月份来的“很”不同以往，这个月里面我参加了《丰盛与奇迹3》的助教，也是“助教”我自己“人生觉醒”的一个开始，在三天的课程中，我有了另一个视角，也获得了“另一个视角”下的学习和体验，同时还让我看见了在“另一个视角”下的自己，助人即助己，成长路上没有“你”“我”，每一次的课前准备都是为了更完美的启航。课程结束顺延下来的几天里面，跟随老师和小伙伴们一起去了金华的双龙洞，爬进了子宫洞，（这在以
2021-07-22 bnz168
提升自己成人高考政策每年都在改变，且往越来越难的趋势发展，当然也不仅仅是成考，包括网络教育开放大学等学历提升形式也都在进行相应改革。总之报考条件逐渐严格，毕业条件增加，就读费用提高。迟一年报考，就多浪费一次宝贵时间，错过更多发展机会，费钱又费力。想要提升学历的小伙伴，抓紧时间学习。不怕你步子太小，只怕你停滞不前；不怕你做事太少，只怕你无所事事。任何收获都不是偶然和巧合，而是日复一日的付出和努力换来
学期复盘高wen鑫
1我的大学生活之大学英语学习1）在这个学期的大学英语学习中，我的GPS[Gains]在这个学期的英语学习中我的听力能力提高了；多于长句的理解翻译能力也增加了；对于英语的文化背景的了解也增加了[Problems]听力能力提升空间还很大；对于语法还有很多不懂；词汇量也比较少[Suggestions]多背单词；多联系听力并适应英英互译2）在这个学期的复盘日志中，我的收获是：对于短语、句式的积累变多；英语
日记之随记 180 嘉祺妈妈
《小绵羊长大了》听着故事看着儿子睡着了，想着刚才班主任在群里发的信息，书写潦草里有儿子，回家告诉他，让他自己看信息，老师发的同学写的好的我让他看看区别在哪，儿子拿着手机对比一下自己的卷子，说到:“妈，看着是有点区别哈，比我写的确实好，我是应该好好学习学习。”我问他找出原因咱们下次也写好，毕竟马上要考试了行吗？儿子点点头说好。怎么说呢！儿子平常有自己的主见，自己喜欢的东西也能坚持下去，就像学画画和晚
每天都要比昨天棒！能_fac6
每个不曾起舞的日子都是对生命的辜负，我一直觉得我的大学很无聊一点不充实也什么都没学到主要是已经无心学习了！我特别想学会英语，我高考都是吃的英语的亏，我想英语说不定以后还能是我的谋生技能……下午去打羽毛球打了好久好久，那种迎面的风吹过来你身上有一点点汗的感觉真的无敌舒服，就是夏天的味道，室友又去湖边跑步了，我坐在湖边的长椅上，水在餐厅的灯光下愈发耀眼，我坐在那里有种岁月静好的感觉啊美好的时光不想让它
卡尔夫风和日丽王秀波
1954年，卡尔夫参加洛温菲尔德在苏黎世的讨论，深受启发，希望寻找一种能够有效帮助儿童心理分析的方法与途径。于是，卡尔夫决定去伦敦跟随洛温菲尔德学习其“游戏王国技术”。1956年，完成了苏黎世荣格研究院所有课程与要求的卡尔夫，由于没有大学文凭，不能获得荣格心理分析家的资格。于是，卡尔夫写信给洛温菲尔德，开始了她的“游戏王国技术”的学习。在此期间，卡尔夫还从师于维尼考特一段时间。英国的荣格心理分析家
学习成为会布局的人弘毅聊财商
世界上99%的人都是赌徒，剩下的1%是庄家，1%中的1%是布局的人。我先举个例子，开拓一下你的思维：比如某个大山里发现了金矿，大家都一窝蜂的跑去挖金子，这时候，你也跟着去挖，基本已经挖不到了你要做的不是加入淘金大军，而是应该在通往挖金子路上卖水，卖干粮，卖工具，卖挖金子技巧的书，赚那些挖金子的人的钱这个时代，赚钱最核心的本质是：去赚那些想赚钱的人的钱你看微商为啥能做那么大，就是因为他们在赚，想赚钱
学习C语言第十天（数组练习）世辰辰辰学习算法
一、三子棋game.h#define_CRT_SECURE_NO_WARNINGS#include#include#include#defineROW3#defineCOL3//初始化棋盘voidinitboard(charboard[ROW][COL],introw,intcol);//打印棋盘voiddispalyboard(charboard[ROW][COL],introw,intcol)
2020年4月7日践行打卡28/90 涅槃重生的玫瑰
2020年4月7日践行打卡28/90【更新打卡】打卡时间：2020年4月7日周二晴6/20度90天连续打卡累计：28/90#宣言：涅槃绽放浴火重生#裂变出来，迎接新一轮曙光一、我的第一个30天目标：每天吃一个青蛙4番茄。加油晓莉（晓莉+33岁）践行打卡28/301.晚睡早起（为了工作需要）：早5：50晚00：002.先吃那只最丑陋的青蛙：今日1只.累积16.今日番茄，4只，累积68只。【】短期学习
网络工程师学习笔记（一）专业白嫖怪网络工程师学习笔记学习笔记网络
为了备战下半年的软考——网络工程师，利用每天的下班的闲暇时间看书听课，然后自己手敲整理的系列资料。希望能够对你们有所帮助第一章__计算机网络概述计算机网络的定义：将分散的具有独立运算功能的计算机系统，通过通信线路和通信设备进行连接起来的实现资源的共享。ARPAnet网络的特征：资源共享、分散控制、分组交换1946年第一台通用计算机—埃尼亚克能够相互连通进行数据交换。1960年提出巨型网络，出现了对
郭文凤反省一组日精进打卡蓝蓝的天空彩云飞
2019年7月23日姓名郭文凤单位扬州方圆建筑工程有限公司第422期反省一组〔日精进打卡〕第364天〔知～学习〕1、《六项精进》3遍共1099遍2、《大学》3遍共1057遍〔经典名句分享〕业精于勤而荒于嬉，行成于思而毁于随。〔行～实践〕一：修身1、看学习强国2、学习中级财务知识3、做瑜伽二：齐家三、建功1、支付中心正常事务处理及其他各行复核事项2、票据贴现复核3、提供安恒劳务减资所需的4月份财务报
【60天备战软考高级系统架构设计师——第十天：软件设计与架构综合练习】冷风扇666 备战-软考系统架构架构
经过前十天的学习，我们已经了解了软件工程生命周期模型、需求分析与管理方法，以及软件设计与架构的核心内容。为了巩固这些知识点，今天我们将进行一个综合练习。前十天学习内容回顾第1-3天：软件工程概述学习了软件生命周期模型（如瀑布模型、迭代模型、敏捷模型等）、软件工程原则（如开闭原则、单一职责原则等），以及常用的工程方法。第4-6天：需求分析与管理需求分析与管理是软件开发的关键环节之一。我们掌握了需求获
小程序云函数遇到的问题（未安装wx-server-sdk依赖 | errMsg: Environment not found）甜辣嘟嘟嘟前端
在学习小程序云开发中的云函数的时候，代码执行方面遇到了一些小小的问题。1.关于未安装wx-server-sdk依赖首先，在云函数中使用wx-server-sdk，需先调用初始化方法init一次，init用于设置接下来在该云函数实例中调用云函数、数据库、文件存储时要访问的环境。例如以下代码中，constcloud=require('wx-server-sdk')cloud.init({env:'te
基于深度学习的农作物病害检测 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的农作物病害检测利用卷积神经网络（CNN）、生成对抗网络（GAN）、Transformer等深度学习技术，自动识别和分类农作物的病害，帮助农业工作者提高作物管理效率、减少损失。1.农作物病害检测的挑战病害种类繁多：农作物病害的类型多样，不同病害在同一作物上的表现差异很大，同时同一种病害在不同生长阶段的症状也可能不同。环境影响：天气、光照、湿度等外部环境因素会影响农作物的表现，使得病害检
商水二高蹭论语研讨会反思总结。浪漫的巴布亚企鹅
在一星期前收到这样一个好消息，只是在时间上进行了充分的准备和调整，而自己的主观上却没有积极的去读论语进行准备，这应该是一大损失。今天反思反而是为了以后的进步。什么才是真正的学习？整天也在告诉学生，不是那些看似行色匆忙的。而是真正的动脑子的，发自内心的，适合自己的，并有所收获的。那么今天的论语的学习算不算是很有收获呢？一直也处于矛盾之中。害怕自己的收获很少。也在努力的克制住自己。客观的时间抓的很紧很
基于深度学习的文本引导的图像编辑 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的文本引导的图像编辑（Text-GuidedImageEditing）是一种通过自然语言文本指令对图像进行编辑或修改的技术。它结合了图像生成和自然语言处理（NLP）的最新进展，使用户能够通过描述性文本对图像内容进行精确的调整和操控。1.文本引导的图像编辑的挑战文本和图像之间的对齐：如何将文本中的语义信息准确地映射到图像中的特定区域或元素是一个关键挑战。这涉及到多模态数据的对齐和理解。编
循环控制语句小小程序拿捏 Python python 青少年编程少儿编程开发语言
引言在前面的课程中，我们已经学习了Python的基本输入输出、数据类型及其转换、顺序结构、分支结构以及循环结构。本课时将介绍循环控制语句break和continue，并通过一个猜数字游戏的具体示例来展示如何在实际编程中应用这些控制语句。循环控制语句在循环结构中，有时我们需要根据某些条件提前终止循环或跳过循环体中的某些部分。Python提供了两种循环控制语句来帮助我们实现这一点：break和cont
不论好与坏最终都会产生积极影响姚Fay
昨天又是密集性抽空学习的一天，如饥似渴的读书，感觉离自己理想的状态又近了一步。读巴菲特的成长背景以及幼年家庭环境，感受到他父亲的家族中的商业成功之道，以及成长中的痛点-神经质的母亲。也许人们看到的都只是因为父亲的成功让他出生在一个家境优越的家庭，才有了现在他的辉煌，他的母亲只不过是绊脚石。可真的是这样吗？如果没有他神经质的母亲，他就不会被塑造成那种特立独行的气质。一个三岁多的孩子就开始天天收集瓶盖
王莹莹中原焦点团队网初27期坚持分享第2天 20210326 alllllllllllll
昨天收获满满，今天迫不及待的就想用上了！关于正向，突然觉得班里小孩子们也没有那么讨厌了，发卷子的时候基本上夸了每一位同学，发现大家都超级开心，学起来也更起劲了，我的焦虑也减少了！想分享一个小收获，班里有一个看起来特别乖的小姑娘（井同学），而且长的也是人见人夸，但是上学期她因为早恋已经偷东西问题让我有点不待见她。我班女班长是一个大大咧咧，努力学习很自律的一个小姑娘，我特别喜欢女班长。这位女班长在学习
三分钟带你了解Python文件操作与IO流 4.0啊 Python 教学系列 python 开发语言文件操作
在探索编程世界的奇幻旅程中，文件操作和IO（输入/输出）流是每一个探险者必须掌握的基础技能。在Python的世界中，这些技能尤为关键，它们像是巫师手中的魔杖，能让我们与文件进行深度的交流。本文将带你快速了解Python中的文件操作和IO流，通过大量的实例和代码，确保你能够自信地在Python的世界中畅游。目录一、Python文件操作基础1.打开文件a.文件模式2.关闭文件b.使用with语句二、文
Linux dmesg命令：显示开机信息 fafadsj666 linux 数据库数据挖掘机器学习大数据
通过学习《Linux启动管理》一章可以知道，在系统启动过程中，内核还会进行一次系统检测（第一次是BIOS进行加测），但是检测的过程不是没有显示在屏幕上，就是会快速的在屏幕上一闪而过那么，如果开机时来不及查看相关信息，我们是否可以在开机后查看呢？答案是肯定的，使用dmesg命令就可以。无论是系统启动过程中，还是系统运行过程中，只要是内核产生的信息，都会被存储在系统缓冲区中，已经为大家精心准备了大数据
10个高效的Python爬虫框架，你用过几个？进击的C语言 python
小型爬虫需求，requests库+bs4库就能解决；大型爬虫数据，尤其涉及异步抓取、内容管理及后续扩展等功能时，就需要用到爬虫框架了。下面介绍了10个爬虫框架，大家可以学习使用！1.Scrapyscrapy官网：https://scrapy.org/scrapy中文文档：https://www.osgeo.cn/scrapy/intro/oScrapy是一个为了爬取网站数据，提取结构性数据而编写的
深度学习--对抗生成网络（GAN, Generative Adversarial Network） Ambition_LAO 深度学习生成对抗网络
对抗生成网络（GAN,GenerativeAdversarialNetwork）是一种深度学习模型，由IanGoodfellow等人在2014年提出。GAN主要用于生成数据，通过两个神经网络相互对抗，来生成以假乱真的新数据。以下是对GAN的详细阐述，包括其概念、作用、核心要点、实现过程、代码实现和适用场景。1.概念GAN由两个神经网络组成：生成器（Generator）和判别器（Discrimina
《信号与线性系统分析》学习心得 GFeverything 个人学习感想信号与线性系统分析吴大正课本信号分析
《信号与线性系统分析》学习心得通过本学期上网课的学习，大致对信号有了一定的了解认知，下面对该课程的理解发表粗浅认知，说起信号，大家都不陌生，比如老师写的幻灯片，朋友的一个眼色，经常使用的WiFi信号......总之，信号就是信息的载体，它包含着信息！从数学的角度，信号可以说是一个时间函数/序列；从电路角度来说，信号就是各种激励与响应与系统的作用；从模电数电的角度来看，信号有连续时间信号与离散时间信
教考结束，新一轮学习目标是什么呢？曲歌Sherry
历时两个多月的教师资证考试于昨天落幕。顺不顺利不知道，能不能考过不知道，但是这一件事可以先放在一边一段时间了。今天早上对了一下综合题的选择题答案，29个题答对了23个，自己还是很满意的。其他题什么情况就不知道了，剩下的就不是我能管的事了。专业知识科目因为背的内容一直没有看，所以辨析和简答题都不会，只能按着自己的理解去写了。总结这一轮的考前复习工作，感觉自己最大的优点是两个科目的精讲内容都听了一遍，
电视剧“人世间” 7030e1efc3d8
最近热播的>，我不曾看过原著，但这部剧却引起很多观众的共鸣，启发很多。周家三个孩子，从同一个起点出发，但人生道路却大不相同。大儿子当了大官，女儿是大学教师，小儿子不爱学习，过得最平庸。但就是这样平庸的儿子，是三个孩子中，给予父母最多照顾的。他没有给父母争光，过年拜年时，邻居夸赞的也是他的哥哥和姐姐，父母觉得骄傲的也是大儿子和闺女。他自卑难过，甚至有点恼火，可是用父母的话说，他们觉得最值得骄傲的是小
Python前沿技术：机器学习与人工智能 4.0啊 Python 人工智能 python 机器学习
Python前沿技术：机器学习与人工智能一、引言随着科技的飞速发展，机器学习和人工智能（AI）已经成为了计算机科学领域的热门话题。Python作为一门易学易用且功能强大的编程语言，已经成为了这两个领域的首选语言之一。本文将深入探讨Python在机器学习和人工智能领域的应用，以及一些前沿技术和工具。二、Python机器学习基础2.1机器学习概述机器学习是人工智能（AI）的一个关键子集，它的核心在于让
ASM系列六利用TreeApi 添加和移除类成员 lijingyao8206 jvm 动态代理 ASM 字节码技术 TreeAPI
同生成的做法一样，添加和移除类成员只要去修改fields和methods中的元素即可。这里我们拿一个简单的类做例子，下面这个Task类，我们来移除isNeedRemove方法，并且添加一个int 类型的addedField属性。 package asm.core; /** * Created by yunshen.ljy on 2015/6/
Springmvc-权限设计 bee1314 spring Web jsp
万丈高楼平地起。权限管理对于管理系统而言已经是标配中的标配了吧，对于我等俗人更是不能免俗。同时就目前的项目状况而言，我们还不需要那么高大上的开源的解决方案，如Spring Security，Shiro。小伙伴一致决定我们还是从基本的功能迭代起来吧。目标： 1.实现权限的管理（CRUD） 2.实现部门管理（CRUD) 3.实现人员的管理（CRUD） 4.实现部门和权限
算法竞赛入门经典（第二版）第2章习题 CrazyMizzz c 算法
2.4.1 输出技巧 #include <stdio.h> int main() { int i, n; scanf("%d", &n); for (i = 1; i <= n; i++) printf("%d\n", i); return 0; } 习题2-2 水仙花数(daffodil
struts2中jsp自动跳转到Action 麦田的设计者 jsp webxml struts2 自动跳转
1、在struts2的开发中，经常需要用户点击网页后就直接跳转到一个Action，执行Action里面的方法，利用mvc分层思想执行相应操作在界面上得到动态数据。毕竟用户不可能在地址栏里输入一个Action（不是专业人士） 2、＜jsp:forward page="xxx.action" /＞，这个标签可以实现跳转，page的路径是相对地址,不同与jsp和j
php 操作webservice实例 IT独行者 PHP webservice
首先大家要简单了解了何谓webservice，接下来就做两个非常简单的例子，webservice还是逃不开server端与client端。我测试的环境为：apache2.2.11 php5.2.10做这个测试之前，要确认你的php配置文件中已经将soap扩展打开，即extension=php_soap.dll; OK 现在我们来体验webservice //server端 serve
Windows下使用Vagrant安装linux系统 _wy_ windows vagrant
准备工作：下载安装 VirtualBox ：https://www.virtualbox.org/ 下载安装 Vagrant ：http://www.vagrantup.com/ 下载需要使用的 box ：官方提供的范例：http://files.vagrantup.com/precise32.box 还可以在 http://www.vagrantbox.es/
更改linux的文件拥有者及用户组(chown和chgrp) 无量 c linux chgrp chown
本文（转） http://blog.163.com/yanenshun@126/blog/static/128388169201203011157308/ http://ydlmlh.iteye.com/blog/1435157 一、基本使用：使用chown命令可以修改文件或目录所属的用户：命令
linux下抓包工具矮蛋蛋 linux
原文地址： http://blog.chinaunix.net/uid-23670869-id-2610683.html tcpdump -nn -vv -X udp port 8888 上面命令是抓取udp包、端口为8888 netstat -tln 命令是用来查看linux的端口使用情况 13 . 列出所有的网络连接 lsof -i 14. 列出所有tcp 网络连接信息 l
我觉得mybatis是垃圾！：“每一个用mybatis的男纸，你伤不起” alafqq mybatis
最近看了每一个用mybatis的男纸，你伤不起原文地址：http://www.iteye.com/topic/1073938 发表一下个人看法。欢迎大神拍砖；个人一直使用的是Ibatis框架，公司对其进行过小小的改良；最近换了公司，要使用新的框架。听说mybatis不错；就对其进行了部分的研究；发现多了一个mapper层；个人感觉就是个dao；
解决java数据交换之谜百合不是茶数据交换
交换两个数字的方法有以下三种，其中第一种最常用 /* 输出最小的一个数 */ public class jiaohuan1 { public static void main(String[] args) { int a =4; int b = 3; if(a<b){ // 第一种交换方式 int tmep =
渐变显示 bijian1013 JavaScript
<style type="text/css"> #wxf { FILTER: progid:DXImageTransform.Microsoft.Gradient(GradientType=0, StartColorStr=#ffffff, EndColorStr=#97FF98); height: 25px; } </style>
探索JUnit4扩展：断言语法assertThat bijian1013 java 单元测试 assertThat
一.概述 JUnit 设计的目的就是有效地抓住编程人员写代码的意图，然后快速检查他们的代码是否与他们的意图相匹配。 JUnit 发展至今，版本不停的翻新，但是所有版本都一致致力于解决一个问题，那就是如何发现编程人员的代码意图，并且如何使得编程人员更加容易地表达他们的代码意图。JUnit 4.4 也是为了如何能够
【Gson三】Gson解析{"data":{"IM":["MSN","QQ","Gtalk"]}} bit1129 gson
如何把如下简单的JSON字符串反序列化为Java的POJO对象? {"data":{"IM":["MSN","QQ","Gtalk"]}} 下面的POJO类Model无法完成正确的解析： import com.google.gson.Gson;
【Kafka九】Kafka High Level API vs. Low Level API bit1129 kafka
1. Kafka提供了两种Consumer API High Level Consumer API Low Level Consumer API(Kafka诡异的称之为Simple Consumer API，实际上非常复杂) 在选用哪种Consumer API时，首先要弄清楚这两种API的工作原理，能做什么不能做什么，能做的话怎么做的以及用的时候，有哪些可能的问题
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-归并排序 bylijinnan java
import java.util.Arrays; public class MergeSort { public static void main(String[] args) { int[] a={20,1,3,8,5,9,4,25}; mergeSort(a,0,a.length-1); System.out.println(Arrays.to
Netty源码学习-CompositeChannelBuffer bylijinnan java netty
CompositeChannelBuffer体现了Netty的“Transparent Zero Copy” 查看API（ http://docs.jboss.org/netty/3.2/api/org/jboss/netty/buffer/package-summary.html#package_description）可以看到，所谓“Transparent Zero Copy”是通
Android中给Activity添加返回键 hotsunshine Activity
// this need android:minSdkVersion="11" getActionBar().setDisplayHomeAsUpEnabled(true); @Override public boolean onOptionsItemSelected(MenuItem item) {
静态页面传参 ctrain 静态
$(document).ready(function () { var request = { QueryString : function (val) { var uri = window.location.search; var re = new RegExp("" + val + "=([^&?]*)", &
Windows中查找某个目录下的所有文件中包含某个字符串的命令 daizj windows 查找某个目录下的所有文件包含某个字符串
findstr可以完成这个工作。 [html] view plain copy >findstr /s /i "string" *.* 上面的命令表示，当前目录以及当前目录的所有子目录下的所有文件中查找"string&qu
改善程序代码质量的一些技巧 dcj3sjt126com 编程 PHP 重构
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短尽管很多人都遵
SharedPreferences对数据的存储 dcj3sjt126com
SharedPreferences简介： &nbs
linux复习笔记之bash shell (2) bash基础 eksliang bash bash shell
转载请出自出处： http://eksliang.iteye.com/blog/2104329 1.影响显示结果的语系变量（locale） 1.1locale这个命令就是查看当前系统支持多少种语系，命令使用如下： [root@localhost shell]# locale LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8"
Android零碎知识总结 gqdy365 android
1、CopyOnWriteArrayList add(E) 和remove(int index)都是对新的数组进行修改和新增。所以在多线程操作时不会出现java.util.ConcurrentModificationException错误。所以最后得出结论：CopyOnWriteArrayList适合使用在读操作远远大于写操作的场景里，比如缓存。发生修改时候做copy，新老版本分离，保证读的高
HoverTree.Model.ArticleSelect类的作用 hvt Web .net C#hovertree asp.net
ArticleSelect类在命名空间HoverTree.Model中可以认为是文章查询条件类，用于存放查询文章时的条件，例如HvtId就是文章的id。HvtIsShow就是文章的显示属性，当为-1是，该条件不产生作用，当为0时，查询不公开显示的文章，当为1时查询公开显示的文章。HvtIsHome则为是否在首页显示。HoverTree系统源码完全开放，开发环境为Visual Studio 2013
PHP 判断是否使用代理 PHP Proxy Detector 天梯梦 proxy
1. php 类 I found this class looking for something else actually but I remembered I needed some while ago something similar and I never found one. I'm sure it will help a lot of developers who try to
apache的math库中的回归——regression（翻译） lvdccyb Math apache
这个Math库，虽然不向weka那样专业的ML库，但是用户友好，易用。多元线性回归，协方差和相关性（皮尔逊和斯皮尔曼），分布测试（假设检验，t，卡方，G），统计。数学库中还包含，Cholesky，LU，SVD，QR，特征根分解，真不错。基本覆盖了：线代，统计，矩阵，最优化理论曲线拟合常微分方程遗传算法（GA），还有3维的运算。。。
基础数据结构和算法十三：Undirected Graphs (2) sunwinner Algorithm
Design pattern for graph processing. Since we consider a large number of graph-processing algorithms, our initial design goal is to decouple our implementations from the graph representation
云计算平台最重要的五项技术 sumapp 云计算云平台智城云
云计算平台最重要的五项技术 1、云服务器云服务器提供简单高效，处理能力可弹性伸缩的计算服务，支持国内领先的云计算技术和大规模分布存储技术，使您的系统更稳定、数据更安全、传输更快速、部署更灵活。特性机型丰富通过高性能服务器虚拟化为云服务器，提供丰富配置类型虚拟机，极大简化数据存储、数据库搭建、web服务器搭建等工作；仅需要几分钟，根据CP
《京东技术解密》有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的12月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 12月试读活动回顾： http://webmaster.iteye.com/blog/2164754 本次技术图书试读活动获奖名单及相应作品如下：一等奖（两名） Microhardest：http://microhardest.ite