thinklittle

Ame房价回归-top10%方案

数据介绍

数据来源于kaggle House Prices

数据有以下几个维度，其中36个为特征，价格为标签

特征	定义
SalePrice	物业的销售价格以美元计算。这是您尝试预测的目标变量。
MSSubClass	建筑类
MSZoning	一般分区分类
LotFrontage	街道的线性脚连接到财产
LotArea	地块尺寸，平方英尺
Street	道路通道的类型
Alley	胡同通道的类型
LotShape	一般的财产形状
LandContour	物业的平整度
Utilities	可用的实用程序类型
LotConfig	批量配置
LandSlope	物业坡度
Neighborhood:	Ames市区内的物理位置
Condition1	靠近主要道路或铁路
Condition2	靠近主要道路或铁路（如果存在第二个）
BldgType	住宅类型
HouseStyle	住宅风格
OverallQual	整体材料和成品质量
OverallCond	总体状况评级
YearBuilt	原始施工日期
YearRemodAdd	改造日期
RoofStyle	屋顶类型
RoofMatl	屋顶材料
Exterior1st	房屋外墙
Exterior2nd	房屋外墙（如果有多种材料）
MasVnrType	砌体贴面类型
MasVnrArea	平方英尺的砌体饰面区域
ExterQual	外部材料质量
ExterCond	外部材料的现状
Foundation	基础类型
BsmtQual	地下室的高度
BsmtCond	地下室的一般情况
BsmtExposure	罢工或花园层地下室墙壁
BsmtFinType1	地下室成品区的质量
BsmtFinSF1	类型1完成平方英尺
BsmtFinType2	第二个完成区域的质量（如果存在）
BsmtFinSF2	2型成品平方英尺
BsmtUnfSF	未完成的地下室平方英尺
TotalBsmtSF	地下室总面积
Heating	加热类型
HeatingQC	加热质量和条件
CentralAir	中央空调
Electrical	电气系统
1stFlrSF	一楼平方英尺
2ndFlrSF	二楼平方英尺
LowQualFinSF	低质量的平方英尺（所有楼层）
GrLivArea	以上（地面）生活区平方英尺
BsmtFullBath	地下室齐全的浴室
BsmtHalfBath	地下室半浴室
FullBath	满级以上的浴室
HalfBath	半年级以上
Bedroom	地下室以上的卧室数量
Kitchen	厨房数量
KitchenQual	厨房质量
TotRmsAbvGrd	以上级别的房间总数（不包括浴室）
Functional	家庭功能评级
Fireplaces	壁炉数量
FireplaceQu	壁炉质量
GarageType	车库位置
GarageYrBlt	年车库建成
GarageFinish	车库的内部装饰
GarageCars	车库容量的车库大小
GarageArea	车库的面积，平方英尺
GarageQual	车库质量
GarageCond	车库状况
PavedDrive	铺好的车道
WoodDeckSF	平方英尺的木甲板面积
OpenPorchSF	平方英尺的开放式门廊区域
EnclosedPorch	封闭的门廊面积，平方英尺
3SsnPorch	三个季节的门廊面积，平方英尺
ScreenPorch	屏幕门廊面积，平方英尺
PoolArea	泳池面积，平方英尺
PoolQC	泳池质量
Fence	栅栏质量
MiscFeature	其他类别未涵盖的其他功能
MiscVal	杂项功能的价值
MoSold	已售出月份
YrSold	已售出年份
SaleType	销售类型
SaleCondition	销售条件

读取数据

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
from scipy.stats import norm, skew

train=pd.read_csv('train.csv')
test=pd.read_csv('test.csv')

train.shape,test.shape

((1460, 81), (1459, 80))

train.describe()

	Id	MSSubClass	LotFrontage	LotArea	OverallQual	OverallCond	YearBuilt	YearRemodAdd	MasVnrArea	BsmtFinSF1	...	WoodDeckSF	OpenPorchSF	EnclosedPorch	3SsnPorch	ScreenPorch	PoolArea	MiscVal	MoSold	YrSold	SalePrice
count	1460.000000	1460.000000	1201.000000	1460.000000	1460.000000	1460.000000	1460.000000	1460.000000	1452.000000	1460.000000	...	1460.000000	1460.000000	1460.000000	1460.000000	1460.000000	1460.000000	1460.000000	1460.000000	1460.000000	1460.000000
mean	730.500000	56.897260	70.049958	10516.828082	6.099315	5.575342	1971.267808	1984.865753	103.685262	443.639726	...	94.244521	46.660274	21.954110	3.409589	15.060959	2.758904	43.489041	6.321918	2007.815753	180921.195890
std	421.610009	42.300571	24.284752	9981.264932	1.382997	1.112799	30.202904	20.645407	181.066207	456.098091	...	125.338794	66.256028	61.119149	29.317331	55.757415	40.177307	496.123024	2.703626	1.328095	79442.502883
min	1.000000	20.000000	21.000000	1300.000000	1.000000	1.000000	1872.000000	1950.000000	0.000000	0.000000	...	0.000000	0.000000	0.000000	0.000000	0.000000	0.000000	0.000000	1.000000	2006.000000	34900.000000
25%	365.750000	20.000000	59.000000	7553.500000	5.000000	5.000000	1954.000000	1967.000000	0.000000	0.000000	...	0.000000	0.000000	0.000000	0.000000	0.000000	0.000000	0.000000	5.000000	2007.000000	129975.000000
50%	730.500000	50.000000	69.000000	9478.500000	6.000000	5.000000	1973.000000	1994.000000	0.000000	383.500000	...	0.000000	25.000000	0.000000	0.000000	0.000000	0.000000	0.000000	6.000000	2008.000000	163000.000000
75%	1095.250000	70.000000	80.000000	11601.500000	7.000000	6.000000	2000.000000	2004.000000	166.000000	712.250000	...	168.000000	68.000000	0.000000	0.000000	0.000000	0.000000	0.000000	8.000000	2009.000000	214000.000000
max	1460.000000	190.000000	313.000000	215245.000000	10.000000	9.000000	2010.000000	2010.000000	1600.000000	5644.000000	...	857.000000	547.000000	552.000000	508.000000	480.000000	738.000000	15500.000000	12.000000	2010.000000	755000.000000

8 rows × 38 columns

将test的Id单独保存，train和test的Id删除

testid=test['Id']
train=train.drop('Id',axis=1)
test=test.drop('Id',1)

特征工程

观察数据分布

地面以上生活面积和价格的关系

在购置房屋时候，一个影响房屋的关键因素就是房屋的面积，那么，可以从房屋面积开始探索

# 将价格作为着色的标准，绘制散点图
plt.scatter(train['GrLivArea'],train['SalePrice'],c=train['SalePrice'])
plt.xlabel('GrLivArea')
plt.ylabel('SalePrice')
plt.show()

显然，存在2个异常值点（价格低于30k，面积大于4000），可以直接剔除，这对模型的拟合不会产生不好的影响

train = train.drop(train[(train['GrLivArea']>4000) & (train['SalePrice']<300000)].index)
plt.scatter(train['GrLivArea'],train['SalePrice'],c=train['SalePrice'])
plt.xlabel('GrLivArea')
plt.ylabel('SalePrice')
plt.show()

房价的总趋势

通过绘制房价的趋势图，观察房价的分布

from scipy.stats import norm, skew
# 并绘制其概率密度曲线
sns.distplot(train['SalePrice'])
(mu, sigma) = norm.fit(train['SalePrice'])
plt.legend(['Normal dist. ($\mu=$ {:.2f} and $\sigma=$ {:.2f} )'.format(mu, sigma)],
            loc='best')
plt.ylabel('Frequency')
plt.title('SalePrice distribution')
plt.show()

scipy.norm是指概率密度函数： $f(x)=\frac{e^{x^2/2}}{ \sqrt{x} \cdot \pi}$

scipy.skew是指偏度： $g_1=\frac{m_3}{m_2^{3/2}}$
$m_i=\frac{1}{N}\sum_{n=1}^N (x_n-\bar x)^i$

# 绘制qq图
stats.probplot(train['SalePrice'], plot=plt)
plt.title('Q-Q plot')
plt.show()

合并数据集

target=train['SalePrice']
train=train.drop('SalePrice',axis=1)
full= pd.concat((train, test))

full.head()

	MSSubClass	MSZoning	LotFrontage	LotArea	Street	Alley	LotShape	LandContour	Utilities	LotConfig	...	PoolQC	Fence	MiscFeature	MoSold	YrSold	SaleType	SaleCondition
0	60	RL	65.0	8450	Pave	NaN	Reg	Lvl	AllPub	Inside	...	NaN	NaN	NaN	2	2008	WD	Normal
1	20	RL	80.0	9600	Pave	NaN	Reg	Lvl	AllPub	FR2	...	NaN	NaN	NaN	5	2007	WD	Normal
2	60	RL	68.0	11250	Pave	NaN	IR1	Lvl	AllPub	Inside	...	NaN	NaN	NaN	9	2008	WD	Normal
3	70	RL	60.0	9550	Pave	NaN	IR1	Lvl	AllPub	Corner	...	NaN	NaN	NaN	2	2006	WD	Abnorml
4	60	RL	84.0	14260	Pave	NaN	IR1	Lvl	AllPub	FR2	...	NaN	NaN	NaN	12	2008	WD	Normal

5 rows × 79 columns

处理缺失值

# 计算缺失率
full_na = (full.isnull().sum() / len(full)) * 100
# 将缺失率为0的删除，并对缺失率进行降序排列截取前30个
full_na = full_na.drop(full_na[full_na == 0].index).sort_values(ascending=False)[:30]
missing_data = pd.DataFrame({'Missing Ratio' :full_na})
missing_data.head()

	Missing Ratio
PoolQC	99.691464
MiscFeature	96.400411
Alley	93.212204
Fence	80.425094
FireplaceQu	48.680151

f, ax = plt.subplots(figsize=(15, 12))
plt.xticks(rotation='90')
sns.barplot(x=full_na.index, y=full_na)
plt.xlabel('Features', fontsize=15)
plt.ylabel('Percent of missing values', fontsize=15)
plt.title('Percent missing data by feature', fontsize=15)
plt.show()

绘制train的热力图

corrmat = train.corr()
plt.subplots(figsize=(12,9))
sns.heatmap(corrmat, vmax=0.9, square=True)

缺失值处理

full.info()


Int64Index: 2917 entries, 0 to 1458
Data columns (total 79 columns):
MSSubClass       2917 non-null int64
MSZoning         2913 non-null object
LotFrontage      2431 non-null float64
LotArea          2917 non-null int64
Street           2917 non-null object
Alley            198 non-null object
LotShape         2917 non-null object
LandContour      2917 non-null object
Utilities        2915 non-null object
LotConfig        2917 non-null object
LandSlope        2917 non-null object
Neighborhood     2917 non-null object
Condition1       2917 non-null object
Condition2       2917 non-null object
BldgType         2917 non-null object
HouseStyle       2917 non-null object
OverallQual      2917 non-null int64
OverallCond      2917 non-null int64
YearBuilt        2917 non-null int64
YearRemodAdd     2917 non-null int64
RoofStyle        2917 non-null object
RoofMatl         2917 non-null object
Exterior1st      2916 non-null object
Exterior2nd      2916 non-null object
MasVnrType       2893 non-null object
MasVnrArea       2894 non-null float64
ExterQual        2917 non-null object
ExterCond        2917 non-null object
Foundation       2917 non-null object
BsmtQual         2836 non-null object
BsmtCond         2835 non-null object
BsmtExposure     2835 non-null object
BsmtFinType1     2838 non-null object
BsmtFinSF1       2916 non-null float64
BsmtFinType2     2837 non-null object
BsmtFinSF2       2916 non-null float64
BsmtUnfSF        2916 non-null float64
TotalBsmtSF      2916 non-null float64
Heating          2917 non-null object
HeatingQC        2917 non-null object
CentralAir       2917 non-null object
Electrical       2916 non-null object
1stFlrSF         2917 non-null int64
2ndFlrSF         2917 non-null int64
LowQualFinSF     2917 non-null int64
GrLivArea        2917 non-null int64
BsmtFullBath     2915 non-null float64
BsmtHalfBath     2915 non-null float64
FullBath         2917 non-null int64
HalfBath         2917 non-null int64
BedroomAbvGr     2917 non-null int64
KitchenAbvGr     2917 non-null int64
KitchenQual      2916 non-null object
TotRmsAbvGrd     2917 non-null int64
Functional       2915 non-null object
Fireplaces       2917 non-null int64
FireplaceQu      1497 non-null object
GarageType       2760 non-null object
GarageYrBlt      2758 non-null float64
GarageFinish     2758 non-null object
GarageCars       2916 non-null float64
GarageArea       2916 non-null float64
GarageQual       2758 non-null object
GarageCond       2758 non-null object
PavedDrive       2917 non-null object
WoodDeckSF       2917 non-null int64
OpenPorchSF      2917 non-null int64
EnclosedPorch    2917 non-null int64
3SsnPorch        2917 non-null int64
ScreenPorch      2917 non-null int64
PoolArea         2917 non-null int64
PoolQC           9 non-null object
Fence            571 non-null object
MiscFeature      105 non-null object
MiscVal          2917 non-null int64
MoSold           2917 non-null int64
YrSold           2917 non-null int64
SaleType         2916 non-null object
SaleCondition    2917 non-null object
dtypes: float64(11), int64(25), object(43)
memory usage: 1.8+ MB

对数值型数据采用0和中值填充；

对object型数据采用None和众数填充；

PoolQC中超过99%的数据都缺失了，可以将缺失值填充为None，意味着缺少游泳池，因为大多数房子没有游泳池
MiscFeature中也是存在超过95%的缺失值，处理方式同上
Alley 、Fence、FireplaceQu处理方式同上

na_list=['PoolQC','MiscFeature','Alley' ,'Fence','FireplaceQu']
for i in na_list:
    full[i]=full[i].fillna('None')

LotFrontage : 由于每条与房产相连的街道的面积很可能与其附近的其他房屋面积相似，我们可以通过该社区的LotFrontage中值来填补缺失的值。

full.LotFrontage=full.groupby('Neighborhood')['LotFrontage'].transform(lambda x: x.fillna(x.median()))

GarageType, GarageFinish, GarageQual and GarageCond: 将缺失值替换为None

for col in ('GarageType', 'GarageFinish', 'GarageQual', 'GarageCond'):
    full[col] = full[col].fillna('None')

GarageYrBlt, GarageArea and GarageCars : 由于缺失值较少，且为没有车这中情况也确实存在，可以考虑将缺失值用0插补

for col in ('GarageYrBlt', 'GarageArea', 'GarageCars'):
    full[col] = full[col].fillna(0)

BsmtFinSF1, BsmtFinSF2, BsmtUnfSF, TotalBsmtSF, BsmtFullBath and BsmtHalfBath: 置为0意味着没有地下室

for col in ('BsmtFinSF1', 'BsmtFinSF2', 'BsmtUnfSF','TotalBsmtSF', 'BsmtFullBath', 'BsmtHalfBath'):
    full[col] = full[col].fillna(0)

BsmtQual, BsmtCond, BsmtExposure, BsmtFinType1 and BsmtFinType2：置为None意味着没有地下室

for col in ('BsmtQual', 'BsmtCond', 'BsmtExposure', 'BsmtFinType1', 'BsmtFinType2'):
    full[col] = full[col].fillna('None')

MasVnrArea and MasVnrType : 面积是数值型，将其置为0，类型是字符串类型，将其置为None，这意味着这些房子没有砌石饰面

full["MasVnrType"] = full["MasVnrType"].fillna("None")
full["MasVnrArea"] = full["MasVnrArea"].fillna(0)

MSZoning (The general zoning classification) : 可以考虑用其众数来进行填补

full['MSZoning'] = full['MSZoning'].fillna(full['MSZoning'].mode()[0])

Utilities : 'AllPub’占2945个，仅有1个 'NoSeWa’和一个缺失值，没有太大的实际意义，可以考虑直接删除

full['Utilities'].describe()

count       2915
unique         2
top       AllPub
freq        2914
Name: Utilities, dtype: object

full['Utilities'].unique()

array(['AllPub', 'NoSeWa', nan], dtype=object)

full = full.drop(['Utilities'], axis=1)

Electrical、KitchenQual、Exterior1st、Exterior2nd、SaleType:可以直接用出现次数最多的插补

full[['Electrical','KitchenQual','Exterior1st','Exterior2nd','SaleType']].describe()

	Electrical	KitchenQual	Exterior1st	Exterior2nd	SaleType
count	2916	2916	2916	2916	2916
unique	5	4	15	16	9
top	SBrkr	TA	VinylSd	VinylSd	WD
freq	2669	1492	1025	1014	2525

for i in ['Electrical','KitchenQual','Exterior1st','Exterior2nd','SaleType']:
    full[i]=full[i].fillna(full[i].mode()[0])

MSSubClass : 置为None意味着没有等级

full['MSSubClass'] = full['MSSubClass'].fillna("None")

Functional:填充为typical

full["Functional"] = full["Functional"].fillna("Typical")

检查有没有缺失值

# 计算缺失率
full_na = (full.isnull().sum() / len(full)) * 100
# 将缺失率为0的删除，并对缺失率进行降序排列截取前30个
full_na = full_na.drop(full_na[full_na == 0].index).sort_values(ascending=False)[:30]
missing_data = pd.DataFrame({'Missing Ratio' :full_na})
missing_data.head()

	Missing Ratio

数据转换

采用sklearn的LabelEncoder 方法将部分数值类型的数据转换为类别

for col in ['MSSubClass','OverallCond','YrSold','MoSold']:
    full[col]=full[col].astype('str')

from sklearn.preprocessing import LabelEncoder
cols = ['FireplaceQu', 'BsmtQual', 'BsmtCond', 'GarageQual', 'GarageCond', 
        'ExterQual', 'ExterCond','HeatingQC', 'PoolQC', 'KitchenQual', 'BsmtFinType1', 
        'BsmtFinType2', 'Functional', 'Fence', 'BsmtExposure', 'GarageFinish', 'LandSlope',
        'LotShape', 'PavedDrive', 'Street', 'Alley', 'CentralAir', 'MSSubClass', 'OverallCond', 
        'YrSold', 'MoSold']

for c in cols:
    lbl = LabelEncoder() 
    lbl.fit(list(full[c].values)) 
    full[c] = lbl.transform(list(full[c].values))
    
full[cols].head()

	FireplaceQu	BsmtQual	BsmtCond	GarageQual	GarageCond	ExterQual	ExterCond	HeatingQC	PoolQC	KitchenQual	...	LotShape	PavedDrive	Street	Alley	CentralAir	MSSubClass	OverallCond	YrSold	MoSold
0	3	2	4	5	5	2	4	0	3	2	...	3	2	1	1	1	10	4	2	4
1	5	2	4	5	5	3	4	0	3	3	...	3	2	1	1	1	5	7	1	7
2	5	2	4	5	5	2	4	0	3	2	...	0	2	1	1	1	10	4	2	11
3	2	4	1	5	5	3	4	2	3	2	...	0	2	1	1	1	11	4	0	4
4	5	2	4	5	5	2	4	0	3	2	...	0	2	1	1	1	10	4	2	3

5 rows × 26 columns

由于面积相关的特征对房价的决定非常重要，所以可以增加了一个特征，即每栋房子的地下室、一楼和二楼的总面积

full['TotalSF'] = full['TotalBsmtSF'] + full['1stFlrSF'] + full['2ndFlrSF']

full['TotalSF'].head()

0    2566.0
1    2524.0
2    2706.0
3    2473.0
4    3343.0
Name: TotalSF, dtype: float64

特征的偏度

numeric_feats = full.dtypes[full.dtypes != "object"].index

# Check the skew of all numerical features
skewed_feats = full[numeric_feats].apply(lambda x: skew(x.dropna())).sort_values(ascending=False)
print("\nSkew in numerical features: \n")
skewness = pd.DataFrame({'Skew' :skewed_feats})
skewness.head()

Skew in numerical features:

	Skew
MiscVal	21.939672
PoolArea	17.688664
LotArea	13.109495
LowQualFinSF	12.084539
3SsnPorch	11.372080

高度倾斜特征的Box Cox变换

Box Cox变换公式如下：
$f(x)=\left\{ \begin{aligned} \frac{((1+x)^ \lambda - 1) }\lambda & & \lambda \neq 0 \\ \ln(1+x) && \lambda = 0 \end{aligned} \right.$

skewness = skewness[abs(skewness) > 0.75]
print("There are {} skewed numerical features to Box Cox transform".format(skewness.shape[0]))

from scipy.special import boxcox1p
skewed_features = skewness.index
lam = 0.15
for feat in skewed_features:
    #all_data[feat] += 1
    full[feat] = boxcox1p(full[feat], lam)

There are 59 skewed numerical features to Box Cox transform

转换为one-hot(独热编码)

full=pd.get_dummies(full)
full.shape

(2917, 220)

数据切分

train=full[:1458]
train.shape

(1458, 220)

test=full[1458:]
test.shape

(1459, 220)

建立模型

回归模型采用的评价标准是 $R^2$ 误差
$R^2=1-\frac{MSE(\hat{y}-y)}{var(y)}$
其中，MSE为均方误差

from sklearn.linear_model import ElasticNetCV, LassoCV
from sklearn.ensemble import RandomForestRegressor
from sklearn.kernel_ridge import KernelRidge
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import RobustScaler
from sklearn.model_selection import train_test_split,GridSearchCV
from xgboost   import XGBRegressor
from lightgbm  import LGBMRegressor

x1,x2,y1,y2=train_test_split(train,target,random_state=0)

lasso

采用的是sklearn内建的LassoCV进行参数寻优并训练模型

lasso = Pipeline([('scale',RobustScaler()), ('lasso',LassoCV(n_alphas=100,eps=0.00001,cv=6,n_jobs=-1))])#eps相当于alpha_min / alpha_max
lasso.fit(x1,y1)
lasso.score(x2,y2)

0.8741211199435852

弹性网

采用的是sklearn内建的ElasticNetCV进行参数寻优并训练模型

ENet = Pipeline([('scale',RobustScaler()),('ele',ElasticNetCV(l1_ratio=0.95,cv=5,n_jobs=-1,eps=0.00001,normalize=True))])

ENet.fit(x1,y1)
ENet.score(x2,y2)

0.8547090900316762

内核岭回归

param={'alpha':np.arange(0.1,1,10),'kernel':['polynomial','linear','rbf']}
sv=GridSearchCV(KernelRidge(),param,cv=5,n_jobs=-1)
sv.fit(x1,y1)
sv.best_estimator_

KernelRidge(alpha=0.1, coef0=1, degree=3, gamma=None, kernel='polynomial',
            kernel_params=None)

KRR = KernelRidge(alpha=0.1)
KRR.fit(x1,y1)
KRR.score(x2,y2)

0.867680850292428

boosting

采用网格搜索对xgboost、lightgbm分别进行参数寻优，并将最优参数传入模型

param={'n_estimators':[100,200,300,400,500,600,700,800,900,1000],
      ' max_depth':[3,4,5,6,7,8],'learning_rate':[0.01,0.025,0.05,0.75,0.1]}
gb=GridSearchCV(XGBRegressor(),param,cv=5,n_jobs=-1)
gb.fit(x1,y1)
gb.best_estimator_

XGBRegressor( max_depth=3, base_score=0.5, booster='gbtree',
             colsample_bylevel=1, colsample_bynode=1, colsample_bytree=1,
             gamma=0, importance_type='gain', learning_rate=0.05,
             max_delta_step=0, max_depth=3, min_child_weight=1, missing=None,
             n_estimators=1000, n_jobs=1, nthread=None, objective='reg:linear',
             random_state=0, reg_alpha=0, reg_lambda=1, scale_pos_weight=1,
             seed=None, silent=None, subsample=1, verbosity=1)

xgb = XGBRegressor(n_estimators=1000,learning_rate=0.05,n_jobs=-1)

xgb.fit(x1,y1,eval_set=[(x1,y1),(x2,y2)],verbose=None)
xgb.score(x2,y2)

0.9399195242479638

gb1=GridSearchCV(LGBMRegressor(),param,cv=5,n_jobs=-1)
gb1.fit(x1,y1)
gb1.best_estimator_

LGBMRegressor( max_depth=3, boosting_type='gbdt', class_weight=None,
              colsample_bytree=1.0, importance_type='split', learning_rate=0.1,
              max_depth=-1, min_child_samples=20, min_child_weight=0.001,
              min_split_gain=0.0, n_estimators=300, n_jobs=-1, num_leaves=31,
              objective=None, random_state=None, reg_alpha=0.0, reg_lambda=0.0,
              silent=True, subsample=1.0, subsample_for_bin=200000,
              subsample_freq=0)

gb = LGBMRegressor(learning_rate=0.1,n_estimator=300)
gb.fit(x1,y1,eval_set=[(x1,y1),(x2,y2)],verbose=None)
gb.score(x2,y2)

0.923220098276669

RF

使用网格搜索获取随机树的最优个数，并将其传入模型，进行预测

model=GridSearchCV(RandomForestRegressor(),{'n_estimators':[100,200,300,400,500,600,700,800,900,1000]},cv=5,n_jobs=-1)
model.fit(x1,y1)
model.best_estimator_

RandomForestRegressor(bootstrap=True, criterion='mse', max_depth=None,
                      max_features='auto', max_leaf_nodes=None,
                      min_impurity_decrease=0.0, min_impurity_split=None,
                      min_samples_leaf=1, min_samples_split=2,
                      min_weight_fraction_leaf=0.0, n_estimators=600,
                      n_jobs=None, oob_score=False, random_state=None,
                      verbose=0, warm_start=False)

rf=RandomForestRegressor(n_estimators=600)
rf.fit(x1,y1)
rf.score(x2,y2)

0.9256840248024706

stacking

Stacking的主要思想是训练模型来学习使用底层学习器的预测结果，stacking中基模型在所有数据集上生成预测结果，次学习器会基于模型的预测结果进行再训练。

过程是：

1. 首先将所有数据集生成测试集和训练集（假如训练集为10000,测试集为2500行），那么5折stacking会进行5折交叉检验，使用训练集中的8000条作为喂养集，剩余2000行作为验证集

2. 接下来会将验证集的 $5\times 2000$ 条预测结果拼接成10000行长的矩阵，标记为A1，而对于 $5\times 2500$ 行的测试集的预测结果进行加权平均，得到一个2500一列的矩阵，标记为B1。

3. 上面得到一个基模型在数据集上的预测结果A1、B1,这样当我们对3个基模型进行集成的话，相于得到了A1、A2、A3、B1、B2、B3六个矩阵。

4. 之后我们会将A1、A2、A3并列在一起成10000行3列的矩阵作为training data,B1、B2、B3合并在一起成2500行3列的矩阵作为testing data，让下层学习器基于这样的数据进行再训练

5. 再训练是基于每个基础模型的预测结果作为特征（三个特征），次学习器会学习训练如果往这样的基学习的预测结果上赋予权重w，来使得最后的预测最为准确。

from mlxtend.regressor import StackingRegressor
reg=StackingRegressor([rf,gb,KRR,ENet,lasso],xgb)
reg.fit(train,target)
result=reg.predict(test)

sub = pd.DataFrame()
sub['Id'] = testid
sub['SalePrice'] = result
sub.to_csv('submission.csv',index=False)

你可能感兴趣的:(数据挖掘)

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python实现关联规则推荐这孩子谁懂哈 Python Machine Learning python 关联规则机器学习
1.什么关联规则关联规则（AssociationRules）是反映一个事物与其他事物之间的相互依存性和关联性，如果两个或多个事物之间存在一定的关联关系，那么，其中一个事物就能通过其他事物预测到。关联规则是数据挖掘的一个重要技术，用于从大量数据中挖掘出有价值的数据项之间的相关关系。关联规则挖掘的最经典的例子就是沃尔玛的啤酒与尿布的故事，通过对超市购物篮数据进行分析，即顾客放入购物篮中不同商品之间的关
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
【机器学习与R语言】1-机器学习简介苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
1.基本概念机器学习：发明算法将数据转化为智能行为数据挖掘VS机器学习：前者侧重寻找有价值的信息，后者侧重执行已知的任务。后者是前者的先期准备过程：数据——>抽象化——>一般化。或者：收集数据——推理数据——归纳数据——发现规律抽象化：训练：用一个特定模型来拟合数据集的过程用方程来拟合观测的数据：观测现象——数据呈现——模型建立。通过不同的格式来把信息概念化一般化：一般化：将抽象化的知识转换成可用
系统架构师软考历年论文题目（2009-2024年）及分析 pccai-vip 系统架构师系统架构
时间题目20091.论基于DSSA的软件架构设计与应用；2.论信息系统建模方法；3.论基于REST服务的Web应用系统设计；4.论软件可靠性设计与应用20101.论软件的静态演化和动态演化及其应用；2.论数据挖掘技术的应用；3.论大规模分布式系统缓存设计策略；4.论软件可靠性评价20111.论模型驱动架构在系统开发中的应用；2.论企业集成平台的架构设计；3.论企业架构管理与应用；4.论软件需求获取
大数据新视界 --大数据大厂之数据挖掘入门：用 R 语言开启数据宝藏的探索之旅青云交大数据新视界数据库大数据数据挖掘 R 语言算法案例未来趋势应用场景学习建议大数据新视界
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
大数据之flink与hive 星辰_mya 大数据 flink hive
其实吧我不太想写flink，因为线上经验确实不多，这也是我需要补的地方，没有条件创造条件，先来一篇吧flink：高性能低延迟流批一体的分布式计算框架基于事件时间对实时数据精准处理快速响应支持批处理，高效离线分析和数据挖掘数据仓库的引擎丰富数据源/接收器，集成多种数据存储格式和源，比较常见就是咱们今天的主题hive了checkpoint恢复机制，故障恢复快速恢复计算任务分布式弹性扩展，据业务灵活增加
纯生信很难发表？只是你没有及时抓住研究热点 SCI狂人团队
当你还做meta分析的时候，你会发现meta分析很难发或者单位已经不承认了，而聪明的人已经开始做常规的生信GEO、TCGA数据挖掘这些（这个时候生信比较好发）。当你开始做常规的生信GEO、TCGA数据挖掘的时候，你会发现这些一样也是比较难发了，而聪明的人已经开始抓免疫评分这个热点进行生信数据挖掘（这个时候免疫评分比较好发）。当你开始对免疫评分这个热点进行生信数据挖掘的时候，你会发现自己的研究方向差
K-means 算法的介绍与应用小魏冬琅 matlab 算法 kmeans 机器学习
目录引言K-means算法的基本原理表格总结：K-means算法的主要步骤K-means算法的MATLAB实现优化方法与改进K-means算法的应用领域表格总结：K-means算法的主要应用领域结论引言K-means算法是一种经典的基于距离的聚类算法，在数据挖掘、模式识别、图像处理等多个领域中得到了广泛应用。其核心思想是将相似的数据对象聚类到同一个簇中，而使得簇内对象的相似度最大、簇间的相似度最小
Matlab,Python,Java,C++的比较 Codefengfeng python java c++
Matlabmatlab是一个大型计算机，擅长矩阵计算与科学计算，适合构建模型；然而，编译软件的运行效率低，不适合大型软件开发。Pythonpython的优势是简单，入门快。适合做数据挖掘、数据分析、机器学习、人工智能、自然语言处理、爬虫、批量文件处理等，此外，Python开源免费，有很多的库，开发环境开发社区都比较友好；不过，Python是动态型的语言，需要更多的测试，并且错误仅仅是在运行的时候
如何搞定数据挖掘？这篇文章告诉你！ isNotNullX 数据挖掘人工智能
在数字化的时代，数据是我们日常生活中不可或缺的一部分。数据所蕴含的信息具有重要价值，而数据挖掘和数据分析就是解读这些信息的重要工具。本文从明晰数据概念入手，再探讨数据挖掘。一·什么是数据？数据定义：数据（Data）是指对客观事物的属性、数量、位置、关系等进行记录和描述的原始材料或信息。数据可以是数字、文字、图像、声音等多种形式，它们是信息的载体，用于表示、传递和存储信息。简单来说，数据就是观测值。
一些机器学习不错的书籍 jimmyleeee 机器学习人工智能
最近，在学习一些机器学习的相关知识，在Github上居然找到了一个可以下载一些不错的介绍机器学习和大数据挖掘和分析的书籍。具体的书籍的信息可以参考一下链接：Books/DataSciencefromScratch.pdfatmaster·varunkashyapks/Books·GitHub
使用SparkSql进行表的分析与统计 xingyuan8 大数据 java
背景我们的数据挖掘平台对数据统计有比较迫切的需求，而Spark本身对数据统计已经做了一些工作，希望梳理一下Spark已经支持的数据统计功能，后期再进行扩展。准备数据在参考文献6中下载鸢尾花数据，此处格式为iris.data格式，先将data后缀改为csv后缀（不影响使用，只是为了保证后续操作不需要修改）。数据格式如下：SepalLengthSepalWidthPetalLengthPetalWid
从零开始学python数据分析-从零开始学Python数据分析与挖掘 PDF 扫描版 weixin_37988176
给大家带来的一篇关于数据挖掘相关的电子书资源，介绍了关于Python、数据分析、数据挖掘方面的内容，本书是由清华大学出版社出版，格式为PDF，资源大小67.8MB，刘顺祥编写，目前豆瓣、亚马逊、当当、京东等电子书综合评分为：7.5。内容介绍从零开始学Python数据分析与挖掘本书以Python3版本作为数据分析与挖掘实战的应用工具，从Pyhton的基础语法开始，陆续介绍有关数值计算的Numpy、数
废字承晔儿
u额堵不堵不断进步数据挖掘额v也得分发的大跳脱衣舞一个月肚饿肚饿金额见到你的就不会预计不不会吧菊花怪下班v触宝电话代表大会素冠荷鼎厚度还是v四川饭馆有电梯的但丁地狱冬天的多点多发发动态鼎泰丰饭地方放多放房东鹅二房方圆大厦？而他得让让热厄尔热水器…
大数据分析与安全分析 Zh&&Li 网络安全运维数据分析安全数据挖掘运维数据库
大数据分析一、大数据安全威胁与需求分析1.1大数据相关概念发展大数据：是指非传统的数据处理工具的数据集大数据特征：海量的数据规模、快速的数据流转、多样的数据类型和价值密度低等大数据的种类和来源非常多，包括结构化、半结构化和非结构化数据有关大数据的新兴网络信息技术应用不断出现，主要包括大规模数据分析处理、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和存储系统1.2大数据安全威胁分析“数
千万级规模高性能、高并发的网络架构经验分享搬砖养女人网络架构经验分享
主题：INTO100沙龙时间：2015年11月21日下午地点：梦想加联合办公空间分享人：卫向军（毕业于北京邮电大学，现任微博平台架构师，先后在微软、金山云、新浪微博从事技术研发工作，专注于系统架构设计、音视频通讯系统、分布式文件系统和数据挖掘等领域。）架构以及我理解中架构的本质在开始谈我对架构本质的理解之前，先谈谈对今天技术沙龙主题的个人见解，千万级规模的网站感觉数量级是非常大的，对这个数量级我们
2021-01-02随笔 0清婉0
人工智能时代最重要的是机器学习，像数据分析、图像识别、数据挖掘、自然语言处理、语音识别等都是以其为基础的，也可以说人工智能的各种应用都需要机器学习来支撑。现在各大公司越来越注重数据的价值，人工成本也是越来越高，所以机器学习也就变得不可或缺了。数据分析、自然语言处理、语音识别，这将是作为前端人员的我，在2021年学习的重点。现收集几本关于数据分析的书籍，作为参考书籍学习：1.《跟着迪哥学Python
Python是什么？Python能干什么？一篇文章让你对Python了如指掌！！武昌库里写JAVA 面试题汇总与解析 spring log4j java 开发语言算法
Python作为当下最热门的编程语言，已经成为了多个领域的首选语言。能用到Python的地方非常多。从入门级小白到专业级的大佬，数据挖掘、科学计算、图像处理、人工智能，Python都可以胜任。或许是因为这种万能属性，现在有很多的小伙伴都开始学习Python。而现在Python的火爆甚至已经来到了程序员的圈子外，进入了国务院《新一代人工智能发展规划的通知》里。Python也已经走进了小学生的课程里，
BAT的大数据战略数据资本主意
实际上，大数据并不是什么新鲜事物。信息革命带来的除了信息的更高效地生产、流通和消费外，还带来数据的爆炸式增长。“引爆点”到来之后，人们发现原有的零散的对数据的利用造成了巨大的浪费。移动互联网浪潮下，数据产生速度前所未有地加快。人类达成共识开始系统性地对数据进行挖掘。这是大数据的初心。数据积累的同时，数据挖掘需要的计算理论、实时的数据收集和流通通道、数据挖掘过程需要使用的软硬件环境都在成熟。概念、模
前端数据埋点小童不学前端前端大数据
前端埋点文章目录前言一、什么是埋点二、为什么采用埋点三、前端埋点方案3.1、手动埋点3.2、可视化埋点3.3、无埋点四、埋点方式前言最近看到一个很有意思的前端数据收集：前端数据埋点，下面说说我的观点一、什么是埋点埋点，是数据采集领域，简单来说就是行为数据收集二、为什么采用埋点数据生产->数据收集->数据处理->数据分析->数据驱动/用户反馈->产品优化/迭代通过大数据处理，数据统计，数据挖掘等加工
寻找区块链行业里数字内容分发的独角兽 BBFund
时至今日，但凡对区块链有所了解的投资人都应该能看到这项技术必将给当前的内容分发行业带来彻底的改变。区块链技术的难以篡改特性适用于数字版权确权，而区块链项目的Token设计正好就是数字内容价值化的最佳解决方案。事实上互联网巨头们也都在内容分发领域奋力拼杀，但他们无非是在内容整合、数据挖掘、精准投放这些方面做文章。面对这个市场里最大的痛点：侵权、利益分配不均等问题，这些中心化的组织要么无能为力，要么自
Java在智能数据挖掘系统的应用 lizi88888 java 数据挖掘开发语言
智能数据挖掘系统是利用机器学习、统计分析等技术从大量数据中自动或半自动地发现模式和知识的系统。Java作为一种流行的编程语言，因其强大的性能和丰富的生态系统，在智能数据挖掘领域的应用非常广泛。本文将探讨Java在智能数据挖掘系统中的应用，并提供示例代码。智能数据挖掘系统概述智能数据挖掘系统通常具备以下功能：数据预处理：包括数据清洗、归一化、特征选择等。模式识别：识别数据中的模式，如分类、聚类、关联
EI会议推荐-第二届大数据与数据挖掘国际会议（BDDM 2024） shiyuankeyan 数据挖掘大数据
第二届大数据与数据挖掘国际会议（BDDM2024）1、基本信息大会官网：http://www.icbddm.org/官方邮箱：[email protected]主办方：武汉纺织大学会议时间：2024年12月13日-12月15日会议地点：湖北武汉02征稿主题：包含（但不限于）以下领域：大数据：大数据分析、人工智能、大数据网络技术、大数据搜索算法和系统、分布式和点对点搜索、基于大数据的机器学习、大数据可视化
Spark MLlib模型训练—聚类算法 K-means 不二人生 Spark ML 实战算法 spark-ml 聚类
SparkMLlib模型训练—聚类算法K-meansK-means是一种经典的聚类算法，广泛应用于数据挖掘、图像处理、推荐系统等领域。它通过将数据划分为(k)个簇（clusters），使得同一簇内的数据点尽可能相似，而不同簇之间的数据点差异尽可能大。ApacheSpark提供了K-means聚类算法的高效实现，支持大规模数据的分布式计算。本文将详细介绍K-means聚类算法的原理，并结合Spark
云计算与分布式技术-常见云的比较 NicolasLearner 服务器云服务器云主机云服务云服务器阿里云腾讯云华为云
云南大学软件学院期中报告SchoolofSoftware,YunnanUniversity个人成绩学号姓名成绩学期:2019秋季学期课程名称:云计算任课教师:陆歌皓姓名:学号：年级:完成提交时间：2019年11月4日目录SchoolofSoftware,YunnanUniversity1云计算概念2什么叫做云计算?2云计算定义及分类2根据iiMediaResearch数据挖掘和分析机构所发论文分析
数据分析利器：Java与MySQL构建强大的数据挖掘系统 lizi88888 数据挖掘数据分析 java
数据分析在当今信息时代具有重要的作用，它可以帮助企业和组织深入理解数据，发现隐藏在数据中的模式和规律，并基于这些洞察进行决策和优化。Java与MySQL作为两个强大的工具，结合起来可以构建出一个高效、可靠且功能丰富的数据挖掘系统。一、Java在数据分析中的应用1、数据处理和清洗：Java提供了丰富的数据处理和操作库，例如ApacheCommons、Jackson等，可以方便地对各种数据格式进行解析
【1】学习前言及数据分析的简单介绍&jupyter的介绍与安装烈风回响 python数据分析 python 数据分析
学习内容学习方法•重视基础•归纳总结，构建自己知识体系•推荐使用xmind思维导图•三多法则•多练习•多应用•多思考发展方向例子：•数据分析班级到课人数•有8人不来上课，这是数据分析吗？数据挖掘与数据分析区别这是现象，不是原因，所以这肯定不是数据分析。若是班主任的业务能力比较强，他对每个同学的上课情况都十分了解可能有五个同学一直加班，比较忙所以没有来上课，还有两个是因为跟不上了，还有一个在谈对象。
GNN会议&期刊汇总（人工智能、机器学习、深度学习、数据挖掘） Bunny_Ben 科研方法&心得人工智能机器学习深度学习笔记神经网络数据挖掘
会议【NeurIPS】全称ConferenceonNeuralInformationProcessingSystems（神经信息处理系统大会），机器学习和计算神经科学领域的顶级学术会议，CCFA。【ICLR】全称InternationalConferenceonLearningRepresentations（国际学习表征会议），深度学习顶会。【AAAI】由人工智能促进协会AAAI（Associat
【统计分析与数据挖掘】基本统计分析方法与数据挖掘技术爱技术的小伙子数据挖掘人工智能
统计分析与数据挖掘基本统计分析方法与数据挖掘技术引言在数据驱动的时代，统计分析与数据挖掘是从大量数据中提取有价值信息的核心技术。统计分析通过数学模型描述和理解数据的特征，而数据挖掘则通过算法自动发现数据中的模式和关系。本文将探讨基本的统计分析方法和常用的数据挖掘技术，帮助读者更好地理解和应用这些工具。1.统计分析概述1.1统计分析的基本概念统计分析是一种利用数据来进行推断和预测的方法。它包括描述性
桌面上有多个球在同时运动，怎么实现球之间不交叉，即碰撞？换个号韩国红果果 html 小球碰撞
稍微想了一下，然后解决了很多bug，最后终于把它实现了。其实原理很简单。在每改变一个小球的x y坐标后，遍历整个在dom树中的其他小球，看一下它们与当前小球的距离是否小于球半径的两倍？若小于说明下一次绘制该小球（设为a）前要把他的方向变为原来相反方向（与a要碰撞的小球设为b），即假如当前小球的距离小于球半径的两倍的话，马上改变当前小球方向。那么下一次绘制也是先绘制b，再绘制a，由于a的方向已经改变
《高性能HTML5》读后整理的Web性能优化内容白糖_ html5
读后感先说说《高性能HTML5》这本书的读后感吧，个人觉得这本书前两章跟书的标题完全搭不上关系，或者说只能算是讲解了“高性能”这三个字，HTML5完全不见踪影。个人觉得作者应该首先把HTML5的大菜拿出来讲一讲，再去分析性能优化的内容，这样才会有吸引力。因为只是在线试读，没有机会看后面的内容，所以不胡乱评价了。
[JShop]Spring MVC的RequestContextHolder使用误区 dinguangx jeeshop 商城系统 jshop 电商系统
在spring mvc中，为了随时都能取到当前请求的request对象，可以通过RequestContextHolder的静态方法getRequestAttributes()获取Request相关的变量，如request, response等。在jshop中，对RequestContextHolder的
算法之时间复杂度周凡杨 java 算法时间复杂度效率
在计算机科学中，算法的时间复杂度是一个函数，它定量描述了该算法的运行时间。这是一个关于代表算法输入值的字符串的长度的函数。时间复杂度常用大O符号表述，不包括这个函数的低阶项和首项系数。使用这种方式时，时间复杂度可被称为是渐近的，它考察当输入值大小趋近无穷时的情况。这样用大写O()来体现算法时间复杂度的记法，
Java事务处理 g21121 java
一、什么是Java事务通常的观念认为，事务仅与数据库相关。事务必须服从ISO/IEC所制定的ACID原则。ACID是原子性（atomicity）、一致性（consistency）、隔离性（isolation）和持久性（durability）的缩写。事务的原子性表示事务执行过程中的任何失败都将导致事务所做的任何修改失效。一致性表示当事务执行失败时，所有被该事务影响的数据都应该恢复到事务执行前的状
Linux awk命令详解 510888780 linux
一. AWK 说明 awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。 awk的处理文本和数据的方式：它逐行扫描文件，从第一行到
android permission 布衣凌宇 Permission
<uses-permission android:name="android.permission.ACCESS_CHECKIN_PROPERTIES" ></uses-permission>允许读写访问"properties"表在checkin数据库中，改值可以修改上传 <uses-permission android:na
Oracle和谷歌Java Android官司将推迟 aijuans java oracle
北京时间 10 月 7 日，据国外媒体报道，Oracle 和谷歌之间一场等待已久的官司可能会推迟至 10 月 17 日以后进行，这场官司的内容是 Android 操作系统所谓的 Java 专利权之争。本案法官 William Alsup 称根据专利权专家 Florian Mueller 的预测，谷歌 Oracle 案很可能会被推迟。　　该案中的第二波辩护被安排在 10 月 17 日出庭，从目前看来
linux shell 常用命令 antlove linux shell command
grep [options] [regex] [files] /var/root # grep -n "o" * hello.c:1:/* This C source can be compiled with:
Java解析XML配置数据库连接(DOM技术连接 SAX技术连接) 百合不是茶 sax技术 Java解析xml文档 dom技术 XML配置数据库连接
XML配置数据库文件的连接其实是个很简单的问题,为什么到现在才写出来主要是昨天在网上看了别人写的,然后一直陷入其中,最后发现不能自拔所以今天决定自己完成 ,,,,现将代码与思路贴出来供大家一起学习 XML配置数据库的连接主要技术点的博客; JDBC编程 : JDBC连接数据库 DOM解析XML: DOM解析XML文件 SA
underscore.js 学习（二） bijian1013 JavaScript underscore
Array Functions 所有数组函数对参数对象一样适用。1.first _.first(array, [n]) 别名: head, take 返回array的第一个元素，设置了参数n，就
plSql介绍 bijian1013 oracle 数据库 plsql
/* * PL/SQL 程序设计学习笔记 * 学习plSql介绍.pdf * 时间：2010-10-05 */ --创建DEPT表 create table DEPT ( DEPTNO NUMBER(10), DNAME NVARCHAR2(255), LOC NVARCHAR2(255) ) delete dept; select
【Nginx一】Nginx安装与总体介绍 bit1129 nginx
启动、停止、重新加载Nginx nginx 启动Nginx服务器，不需要任何参数u nginx -s stop 快速(强制)关系Nginx服务器 nginx -s quit 优雅的关闭Nginx服务器 nginx -s reload 重新加载Nginx服务器的配置文件 nginx -s reopen 重新打开Nginx日志文件
spring mvc开发中浏览器兼容的奇怪问题 bitray jquery Ajax springMVC 浏览器上传文件
最近个人开发一个小的OA项目,属于复习阶段.使用的技术主要是spring mvc作为前端框架,mybatis作为数据库持久化技术.前台使用jquery和一些jquery的插件. 在开发到中间阶段时候发现自己好像忽略了一个小问题,整个项目一直在firefox下测试,没有在IE下测试,不确定是否会出现兼容问题.由于jquer
Lua的io库函数列表 ronin47 lua io
1、io表调用方式：使用io表，io.open将返回指定文件的描述，并且所有的操作将围绕这个文件描述　　io表同样提供三种预定义的文件描述io.stdin,io.stdout,io.stderr 　　2、文件句柄直接调用方式,即使用file:XXX()函数方式进行操作,其中file为io.open()返回的文件句柄　　多数I/O函数调用失败时返回nil加错误信息,有些函数成功时返回nil
java-26-左旋转字符串 bylijinnan java
public class LeftRotateString { /** * Q 26 左旋转字符串 * 题目：定义字符串的左旋转操作：把字符串前面的若干个字符移动到字符串的尾部。 * 如把字符串abcdef左旋转2位得到字符串cdefab。 * 请实现字符串左旋转的函数。要求时间对长度为n的字符串操作的复杂度为O(n)，辅助内存为O(1)。 */ pu
《vi中的替换艺术》-linux命令五分钟系列之十一 cfyme linux命令
vi方面的内容不知道分类到哪里好，就放到《Linux命令五分钟系列》里吧！今天编程，关于栈的一个小例子，其间我需要把”S.”替换为”S->”(替换不包括双引号)。其实这个不难，不过我觉得应该总结一下vi里的替换技术了，以备以后查阅。 1 所有替换方案都要在冒号“:”状态下书写。 2 如果想将abc替换为xyz，那么就这样 :s/abc/xyz/ 不过要特别
[轨道与计算]新的并行计算架构 comsci 并行计算
我在进行流程引擎循环反馈试验的过程中，发现一个有趣的事情。。。如果我们在流程图的每个节点中嵌入一个双向循环代码段，而整个流程中又充满着很多并行路由，每个并行路由中又包含着一些并行节点，那么当整个流程图开始循环反馈过程的时候，这个流程图的运行过程是否变成一个并行计算的架构呢？
重复执行某段代码 dai_lm android
用handler就可以了 private Handler handler = new Handler(); private Runnable runnable = new Runnable() { public void run() { update(); handler.postDelayed(this, 5000); } }; 开始计时 h
Java实现堆栈（list实现） datageek 数据结构——堆栈
public interface IStack<T> { //元素出栈，并返回出栈元素 public T pop(); //元素入栈 public void push(T element); //获取栈顶元素 public T peek(); //判断栈是否为空 public boolean isEmpty
四大备份MySql数据库方法及可能遇到的问题 dcj3sjt126com DB backup
一：通过备份王等软件进行备份前台进不去？用备份王等软件进行备份是大多老站长的选择，这种方法方便快捷，只要上传备份软件到空间一步步操作就可以，但是许多刚接触备份王软件的客用户来说还原后会出现一个问题：因为新老空间数据库用户名和密码不统一，网站文件打包过来后因没有修改连接文件，还原数据库是好了，可是前台会提示数据库连接错误，网站从而出现打不开的情况。解决方法：学会修改网站配置文件，大多是由co
github做webhooks：[1]钩子触发是否成功测试 dcj3sjt126com github git webhook
转自: http://jingyan.baidu.com/article/5d6edee228c88899ebdeec47.html github和svn一样有钩子的功能，而且更加强大。例如我做的是最常见的push操作触发的钩子操作，则每次更新之后的钩子操作记录都会在github的控制板可以看到！工具/原料 github 方法/步骤
">的作用" target="_blank">JSP中的作用蕃薯耀
JSP中<base href="<%=basePath%>">的作用 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
linux下SAMBA服务安装与配置 hanqunfeng linux
局域网使用的文件共享服务。一.安装包： rpm -qa | grep samba samba-3.6.9-151.el6.x86_64 samba-common-3.6.9-151.el6.x86_64 samba-winbind-3.6.9-151.el6.x86_64 samba-client-3.6.9-151.el6.x86_64 samba-winbind-clients
guava cache IXHONG cache
缓存，在我们日常开发中是必不可少的一种解决性能问题的方法。简单的说，cache 就是为了提升系统性能而开辟的一块内存空间。　　缓存的主要作用是暂时在内存中保存业务系统的数据处理结果，并且等待下次访问使用。在日常开发的很多场合，由于受限于硬盘IO的性能或者我们自身业务系统的数据处理和获取可能非常费时，当我们发现我们的系统这个数据请求量很大的时候，频繁的IO和频繁的逻辑处理会导致硬盘和CPU资源的
Query的开始--全局变量,noconflict和兼容各种js的初始化方法 kvhur JavaScript jquery css
这个是整个jQuery代码的开始，里面包含了对不同环境的js进行的处理，例如普通环境，Nodejs，和requiredJs的处理方法。还有jQuery生成$, jQuery全局变量的代码和noConflict代码详解完整资源： http://www.gbtags.com/gb/share/5640.htm jQuery 源码： (
美国人的福利和中国人的储蓄 nannan408
今天看了篇文章，震动很大，说的是美国的福利。美国医院的无偿入院真的是个好措施。小小的改善，对于社会是大大的信心。小孩，税费等，政府不收反补，真的体现了人文主义。美国这么高的社会保障会不会使人变懒？答案是否定的。正因为政府解决了后顾之忧，人们才得以倾尽精力去做一些有创造力，更造福社会的事情，这竟成了美国社会思想、人
N阶行列式计算(JAVA) qiuwanchi N阶行列式计算
package gaodai; import java.util.List; /** * N阶行列式计算 * @author 邱万迟 * */ public class DeterminantCalculation { public DeterminantCalculation(List<List<Double>> determina
C语言算法之打渔晒网问题 qiufeihu c 算法
如果一个渔夫从2011年1月1日开始每三天打一次渔，两天晒一次网，编程实现当输入2011年1月1日以后任意一天，输出该渔夫是在打渔还是在晒网。代码如下： #include <stdio.h> int leap(int a) /*自定义函数leap()用来指定输入的年份是否为闰年*/ { if((a%4 == 0 && a%100 != 0
XML中DOCTYPE字段的解析 wyzuomumu xml
DTD声明始终以!DOCTYPE开头,空一格后跟着文档根元素的名称,如果是内部DTD,则再空一格出现[],在中括号中是文档类型定义的内容. 而对于外部DTD,则又分为私有DTD与公共DTD,私有DTD使用SYSTEM表示,接着是外部DTD的URL. 而公共DTD则使用PUBLIC,接着是DTD公共名称,接着是DTD的URL. 私有DTD <!DOCTYPErootSYST

	FireplaceQu	BsmtQual	BsmtCond	GarageQual	GarageCond	ExterQual	ExterCond	HeatingQC	PoolQC	KitchenQual	...	LotShape	PavedDrive	Street	Alley	CentralAir	MSSubClass	OverallCond	YrSold	MoSold
0	3	2	4	5	5	2	4	0	3	2	...	3	2	1	1	1	10	4	2	4
1	5	2	4	5	5	3	4	0	3	3	...	3	2	1	1	1	5	7	1	7
2	5	2	4	5	5	2	4	0	3	2	...	0	2	1	1	1	10	4	2	11
3	2	4	1	5	5	3	4	2	3	2	...	0	2	1	1	1	11	4	0	4
4	5	2	4	5	5	2	4	0	3	2	...	0	2	1	1	1	10	4	2	3

	FireplaceQu	BsmtQual	BsmtCond	GarageQual	GarageCond	ExterQual	ExterCond	HeatingQC	PoolQC	KitchenQual	...	LotShape	PavedDrive	Street	Alley	CentralAir	MSSubClass	OverallCond	YrSold	MoSold
0	3	2	4	5	5	2	4	0	3	2	...	3	2	1	1	1	10	4	2	4
1	5	2	4	5	5	3	4	0	3	3	...	3	2	1	1	1	5	7	1	7
2	5	2	4	5	5	2	4	0	3	2	...	0	2	1	1	1	10	4	2	11
3	2	4	1	5	5	3	4	2	3	2	...	0	2	1	1	1	11	4	0	4
4	5	2	4	5	5	2	4	0	3	2	...	0	2	1	1	1	10	4	2	3

	FireplaceQu	BsmtQual	BsmtCond	GarageQual	GarageCond	ExterQual	ExterCond	HeatingQC	PoolQC	KitchenQual	...	LotShape	PavedDrive	Street	Alley	CentralAir	MSSubClass	OverallCond	YrSold	MoSold
0	3	2	4	5	5	2	4	0	3	2	...	3	2	1	1	1	10	4	2	4
1	5	2	4	5	5	3	4	0	3	3	...	3	2	1	1	1	5	7	1	7
2	5	2	4	5	5	2	4	0	3	2	...	0	2	1	1	1	10	4	2	11
3	2	4	1	5	5	3	4	2	3	2	...	0	2	1	1	1	11	4	0	4
4	5	2	4	5	5	2	4	0	3	2	...	0	2	1	1	1	10	4	2	3