Kasumi_syuu

Kaggle实战项目学习笔记01：房价预测案例

一些学习前的想法：
自己拿Kaggl上的金价数据做过简单的模型分析，发现SVM的表现效果非常不好，随机森林还行…想要重新把机器学习的部分再学习一遍，再学一学深度学习的部分。

如何确定用什么算法
没有任何的标签的时候，–clustering（无监督）

常用工具 sklearn
只需要造出XY后就可以自动fit
gensim
NumPy
pandas(数据清洗时频繁用到)
XGBoost

学习曲线

过拟合该怎么办？
增大样本量，增加正则化作用

经济金融实战案例

a.分类/回归器

1.Linear/nonLinear
y = α+β*Xi + 残差项
根据order norm 因子选取等等的不同产生各种变种:
LR LASSO…

b.决策树
类似于分治思想：
把数据集分成两组，通过entropy熵和informationGain信息增益来决定从哪个var开始搞分裂
不同数据点被完美区分开了吗？
不是：重复楼上两步
是的：打完收工
优势：

非黑盒
轻松去除无关attribute(gain = 0)
test起来很块（O(depth)）

量化交易目前还不能轻易使用深度学习（黑盒机制）

劣势：

只能线性分割数据
贪婪算法（可能找不到最好的树）（树枝中谁在前谁在后的顺序改变会影响结果很大）

因此决策树是一个弱分类器。
把弱分类器ensemble集成为强分类器。
Bagging:类似于大多数人投票的方式
Random Forest:更加漂亮的bagging方式，多加了一层随机层
Boosting：把第一次学习时学的不好的地方多加一点权重，在下一次继续学习。

ensemble不是算法，只是一个算法框架。

房价预测案例

调用数据来自kaggle： house price 第一位

独热编码

当我们用numerical来表达categorical的时候，要注意，数字本身有大小的含义，所以乱用数字会给之后的模型学习带来麻烦。于是我们可以用one-hot的方法来表达category。
pandas自带的get_dummies方法，可以一键做到one-hot

标准化数据

这一步并不是必要。一般来说，regression分类器最好把源数据放在标准分布里，不要让数据间差距太大。

Ridge Regression

这里用Ridege Regression来跑的（对于多因子的数据集，这种模型可以方便的把所有的var都无脑放进去）

Stacking

把两种或多种模型的优点汲取
把最好的parameter拿出来，做成最终的model

一次正经的Ensemble是把几个model的预测结果作为新的input，再做一次预测，这里简单的直接平均化了。

模型进阶

Bagging

把很多的小分类器放在一起，每个train随机的一部分数据，然后把它们的最终结果综合起来（多数投票制）

Boosting

理论上稍微高级一些，也是揽来一把的分类器。但是把他们线性排列。下一个分类器把上一个分类器分类的不好的地方加上更高的权重，这样下一个分类器就能在这个部分学得更加“深刻”。

XGBoost

外号Kaggle神器。依旧是Boosting框架的模型，但是做了很多改进。

源代码：

import numpy as np
import pandas as pd
train_df = pd.read_csv('C:/documentstransfer/data analysis/house-prices-advanced-regression-techniques/train.csv',index_col=0)
test_df = pd.read_csv('C:/documentstransfer/data analysis/house-prices-advanced-regression-techniques/test.csv',index_col=0)

%matplotlib inline
prices = pd.DataFrame({"price":train_df["SalePrice"], "log(price + 1)":np.log1p(train_df["SalePrice"])})
prices.hist()

# 机器学习运用到了很多概率上的方法，数据集本身是偏着，所以结果也会偏，因此要对数据做一个标准化，使输出更符合正太分布
# 当然再现实中不能把测试集和训练集放在一起处理数据
# log(+1) 是为了防止出现price = 0的情况
# 最后计算结果时要把预测到的平滑数据变回去

y_train = np.log1p(train_df.pop('SalePrice')
all_df = pd.concat((train_df, test_df),axis=0)


# 变量转化/特征工程
# 读 data描述，其中有一个MSSubClass的特征，虽然用数字表示，但并没有数学意义上的大小关系比较
# 需要把他变成string


all_df['MSSubClass'] = all_df['MSSubClass'].astype(str)



# 一键one-hot
pd.get_dummies(all_df['MSSubClass'],
              prefix='MSSubClass').head()
# 一共形成了12个分类的独热编码

# pandas 可以自动读取所有由分类表达的特征
all_dummy_df = pd.get_dummies(all_df)
all_dummy_df.head()

#先打印出来哪些数据缺失
all_dummy_df.isnull().sum().sort_values(ascending = False).head()
# 这里用平均值处理缺失值
mean_cols = all_dummy_df.mean() 

all_dummy_df = all_dummy_df.fillna(mean_cols) # 填补空缺值

numeric_cols = all_df.columns[all_df.dtypes != 'object']

# 计算出每个numeric 的平均值和标准差，从而计算方程
numeric_col_means = all_dummy_df.loc[:,numeric_cols].mean()
numeric_col_std = all_dummy_df.loc[:,numeric_cols].std()
all_dummy_df.loc[:,numeric_cols] = (all_dummy_df.loc[:,numeric_cols] - numeric_col_means)/ numeric_col_std

dummy_train_df = all_dummy_df.loc[train_df.index]
dummy_test_df = all_dummy_df.loc[test_df.index]

from sklearn.linear_model import Ridge
from sklearn.model_selection import cross_val_score

# 这一步不是很必要，只是把DF转化成了Numpy Array,这跟sklearn更加配
X_train = dummy_train_df.values
X_test = dummy_test_df.values

# 用交叉验证测试模型选用哪一套
alphas = np.logspace(-3,2,50)
test_scores = []
for alpha in alphas:
    clf = Ridge(alpha)
    test_score = np.sqrt(-cross_val_score(clf,X_train,y_train,cv=10,scoring='neg_mean_squared_error'))
    test_scores.append(np.mean(test_score))

import matplotlib.pyplot as plt
%matplotlib inline
plt.plot(alphas, test_scores)
plt.title("Alpha vs CV Error")
# 可见，大概alpha=10-20时，score接近0.135

from sklearn.ensemble import RandomForestRegressor

max_features = [.1, .3, .5, .7, .9, .99] #从10%--99%
test_scores = []
for max_feat in max_features:
    clf = RandomForestRegressor(n_estimators=200, max_features=max_feat)
    test_score = np.sqrt(-cross_val_score(clf, X_train, y_train, cv=5, scoring='neg_mean_squared_error'))
    test_scores.append(np.mean(test_score))

plt.plot(max_features, test_scores)
plt.title("Max Features vs CV Error")
# 大约再max features = 0.5时达到了最优值 大约为0.137-0.138

ridge = Ridge(alpha=15)
rf = RandomForestRegressor(n_estimators=500,max_features=0.5)
ridge.fit(X_train, y_train)
rf.fit(X_train,y_train)

# 因为最前面给label做了个log(1+x)，于是这里需要把predict的值给exp回去，并且减掉那个“1”
# 所以就是我们的expm1()函数
y_ridge = np.expm1(ridge.predict(X_test))
y_rf = np.expm1(rf.predict(X_test))
y_final = (y_ridge + y_rf)/2
# 平均化预测结果

submission_df = pd.DataFrame(data = {'Id': test_df.index, 'SalePrice':y_final})
# 模型进阶
# bagging把很多的小分类器放在一起，每个train随机的一部分数据，然后把他们的最终结果综合起来（多数投票制）

from sklearn.ensemble import BaggingRegressor
from sklearn.model_selection import cross_val_score
# 在刚才的实验中，ridge(alpha=15)是最好的结果
from sklearn.linear_model import Ridge
ridge = Ridge(15)

Jupyter Notebook
房价预测案例（七月kaggle）
(自动保存)
Current Kernel Logo
Python 3 
File
Edit
View
Insert
Cell
Kernel
Widgets
Help

import numpy as np
import pandas as pd
train_df = pd.read_csv('C:/documentstransfer/data analysis/house-prices-advanced-regression-techniques/train.csv',index_col=0)
test_df = pd.read_csv('C:/documentstransfer/data analysis/house-prices-advanced-regression-techniques/test.csv',index_col=0)
train_df
MSSubClass	MSZoning	LotFrontage	LotArea	Street	Alley	LotShape	LandContour	Utilities	LotConfig	...	PoolArea	PoolQC	Fence	MiscFeature	MiscVal	MoSold	YrSold	SaleType	SaleCondition	SalePrice
Id																					
1	60	RL	65.0	8450	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	NaN	NaN	NaN	0	2	2008	WD	Normal	208500
2	20	RL	80.0	9600	Pave	NaN	Reg	Lvl	AllPub	FR2	...	0	NaN	NaN	NaN	0	5	2007	WD	Normal	181500
3	60	RL	68.0	11250	Pave	NaN	IR1	Lvl	AllPub	Inside	...	0	NaN	NaN	NaN	0	9	2008	WD	Normal	223500
4	70	RL	60.0	9550	Pave	NaN	IR1	Lvl	AllPub	Corner	...	0	NaN	NaN	NaN	0	2	2006	WD	Abnorml	140000
5	60	RL	84.0	14260	Pave	NaN	IR1	Lvl	AllPub	FR2	...	0	NaN	NaN	NaN	0	12	2008	WD	Normal	250000
6	50	RL	85.0	14115	Pave	NaN	IR1	Lvl	AllPub	Inside	...	0	NaN	MnPrv	Shed	700	10	2009	WD	Normal	143000
7	20	RL	75.0	10084	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	NaN	NaN	NaN	0	8	2007	WD	Normal	307000
8	60	RL	NaN	10382	Pave	NaN	IR1	Lvl	AllPub	Corner	...	0	NaN	NaN	Shed	350	11	2009	WD	Normal	200000
9	50	RM	51.0	6120	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	NaN	NaN	NaN	0	4	2008	WD	Abnorml	129900
10	190	RL	50.0	7420	Pave	NaN	Reg	Lvl	AllPub	Corner	...	0	NaN	NaN	NaN	0	1	2008	WD	Normal	118000
11	20	RL	70.0	11200	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	NaN	NaN	NaN	0	2	2008	WD	Normal	129500
12	60	RL	85.0	11924	Pave	NaN	IR1	Lvl	AllPub	Inside	...	0	NaN	NaN	NaN	0	7	2006	New	Partial	345000
13	20	RL	NaN	12968	Pave	NaN	IR2	Lvl	AllPub	Inside	...	0	NaN	NaN	NaN	0	9	2008	WD	Normal	144000
14	20	RL	91.0	10652	Pave	NaN	IR1	Lvl	AllPub	Inside	...	0	NaN	NaN	NaN	0	8	2007	New	Partial	279500
15	20	RL	NaN	10920	Pave	NaN	IR1	Lvl	AllPub	Corner	...	0	NaN	GdWo	NaN	0	5	2008	WD	Normal	157000
16	45	RM	51.0	6120	Pave	NaN	Reg	Lvl	AllPub	Corner	...	0	NaN	GdPrv	NaN	0	7	2007	WD	Normal	132000
17	20	RL	NaN	11241	Pave	NaN	IR1	Lvl	AllPub	CulDSac	...	0	NaN	NaN	Shed	700	3	2010	WD	Normal	149000
18	90	RL	72.0	10791	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	NaN	NaN	Shed	500	10	2006	WD	Normal	90000
19	20	RL	66.0	13695	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	NaN	NaN	NaN	0	6	2008	WD	Normal	159000
20	20	RL	70.0	7560	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	NaN	MnPrv	NaN	0	5	2009	COD	Abnorml	139000
21	60	RL	101.0	14215	Pave	NaN	IR1	Lvl	AllPub	Corner	...	0	NaN	NaN	NaN	0	11	2006	New	Partial	325300
22	45	RM	57.0	7449	Pave	Grvl	Reg	Bnk	AllPub	Inside	...	0	NaN	GdPrv	NaN	0	6	2007	WD	Normal	139400
23	20	RL	75.0	9742	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	NaN	NaN	NaN	0	9	2008	WD	Normal	230000
24	120	RM	44.0	4224	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	NaN	NaN	NaN	0	6	2007	WD	Normal	129900
25	20	RL	NaN	8246	Pave	NaN	IR1	Lvl	AllPub	Inside	...	0	NaN	MnPrv	NaN	0	5	2010	WD	Normal	154000
26	20	RL	110.0	14230	Pave	NaN	Reg	Lvl	AllPub	Corner	...	0	NaN	NaN	NaN	0	7	2009	WD	Normal	256300
27	20	RL	60.0	7200	Pave	NaN	Reg	Lvl	AllPub	Corner	...	0	NaN	NaN	NaN	0	5	2010	WD	Normal	134800
28	20	RL	98.0	11478	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	NaN	NaN	NaN	0	5	2010	WD	Normal	306000
29	20	RL	47.0	16321	Pave	NaN	IR1	Lvl	AllPub	CulDSac	...	0	NaN	NaN	NaN	0	12	2006	WD	Normal	207500
30	30	RM	60.0	6324	Pave	NaN	IR1	Lvl	AllPub	Inside	...	0	NaN	NaN	NaN	0	5	2008	WD	Normal	68500
...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...
1431	60	RL	60.0	21930	Pave	NaN	IR3	Lvl	AllPub	Inside	...	0	NaN	NaN	NaN	0	7	2006	WD	Normal	192140
1432	120	RL	NaN	4928	Pave	NaN	IR1	Lvl	AllPub	Inside	...	0	NaN	NaN	NaN	0	10	2009	WD	Normal	143750
1433	30	RL	60.0	10800	Pave	Grvl	Reg	Lvl	AllPub	Inside	...	0	NaN	NaN	NaN	0	8	2007	WD	Normal	64500
1434	60	RL	93.0	10261	Pave	NaN	IR1	Lvl	AllPub	Inside	...	0	NaN	NaN	NaN	0	5	2008	WD	Normal	186500
1435	20	RL	80.0	17400	Pave	NaN	Reg	Low	AllPub	Inside	...	0	NaN	NaN	NaN	0	5	2006	WD	Normal	160000
1436	20	RL	80.0	8400	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	NaN	GdPrv	NaN	0	7	2008	COD	Abnorml	174000
1437	20	RL	60.0	9000	Pave	NaN	Reg	Lvl	AllPub	FR2	...	0	NaN	GdWo	NaN	0	5	2007	WD	Normal	120500
1438	20	RL	96.0	12444	Pave	NaN	Reg	Lvl	AllPub	FR2	...	0	NaN	NaN	NaN	0	11	2008	New	Partial	394617
1439	20	RM	90.0	7407	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	NaN	MnPrv	NaN	0	4	2010	WD	Normal	149700
1440	60	RL	80.0	11584	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	NaN	NaN	NaN	0	11	2007	WD	Normal	197000
1441	70	RL	79.0	11526	Pave	NaN	IR1	Bnk	AllPub	Inside	...	0	NaN	NaN	NaN	0	9	2008	WD	Normal	191000
1442	120	RM	NaN	4426	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	NaN	NaN	NaN	0	5	2008	WD	Normal	149300
1443	60	FV	85.0	11003	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	NaN	NaN	NaN	0	4	2009	WD	Normal	310000
1444	30	RL	NaN	8854	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	NaN	NaN	NaN	0	5	2009	WD	Normal	121000
1445	20	RL	63.0	8500	Pave	NaN	Reg	Lvl	AllPub	FR2	...	0	NaN	NaN	NaN	0	11	2007	WD	Normal	179600
1446	85	RL	70.0	8400	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	NaN	NaN	NaN	0	5	2007	WD	Normal	129000
1447	20	RL	NaN	26142	Pave	NaN	IR1	Lvl	AllPub	CulDSac	...	0	NaN	NaN	NaN	0	4	2010	WD	Normal	157900
1448	60	RL	80.0	10000	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	NaN	NaN	NaN	0	12	2007	WD	Normal	240000
1449	50	RL	70.0	11767	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	NaN	GdWo	NaN	0	5	2007	WD	Normal	112000
1450	180	RM	21.0	1533	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	NaN	NaN	NaN	0	8	2006	WD	Abnorml	92000
1451	90	RL	60.0	9000	Pave	NaN	Reg	Lvl	AllPub	FR2	...	0	NaN	NaN	NaN	0	9	2009	WD	Normal	136000
1452	20	RL	78.0	9262	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	NaN	NaN	NaN	0	5	2009	New	Partial	287090
1453	180	RM	35.0	3675	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	NaN	NaN	NaN	0	5	2006	WD	Normal	145000
1454	20	RL	90.0	17217	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	NaN	NaN	NaN	0	7	2006	WD	Abnorml	84500
1455	20	FV	62.0	7500	Pave	Pave	Reg	Lvl	AllPub	Inside	...	0	NaN	NaN	NaN	0	10	2009	WD	Normal	185000
1456	60	RL	62.0	7917	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	NaN	NaN	NaN	0	8	2007	WD	Normal	175000
1457	20	RL	85.0	13175	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	NaN	MnPrv	NaN	0	2	2010	WD	Normal	210000
1458	70	RL	66.0	9042	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	NaN	GdPrv	Shed	2500	5	2010	WD	Normal	266500
1459	20	RL	68.0	9717	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	NaN	NaN	NaN	0	4	2010	WD	Normal	142125
1460	20	RL	75.0	9937	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	NaN	NaN	NaN	0	6	2008	WD	Normal	147500
1460 rows × 80 columns

# 处理数据（共有80个特征）
# 先把traindata,testdata 合并起来。这么做的目的时为了对数据预处理的时候更加方便。预处理完成后再分开
# 训练表多出一行sales price 测试集里没有
%matplotlib inline
prices = pd.DataFrame({"price":train_df["SalePrice"], "log(price + 1)":np.log1p(train_df["SalePrice"])})
prices.hist()
%matplotlib inline
prices = pd.DataFrame({"price":train_df["SalePrice"], "log(price + 1)":np.log1p(train_df["SalePrice"])})
prices.hist()
array([[,
        ]],
      dtype=object)

# 机器学习运用到了很多概率上的方法，数据集本身是偏着，所以结果也会偏，因此要对数据做一个标准化，使输出更符合正太分布
# 当然再现实中不能把测试集和训练集放在一起处理数据
# log(+1) 是为了防止出现price = 0的情况
# 最后计算结果时要把预测到的平滑数据变回去
# 机器学习运用到了很多概率上的方法，数据集本身是偏着，所以结果也会偏，因此要对数据做一个标准化，使输出更符合正太分布
# 当然再现实中不能把测试集和训练集放在一起处理数据
# log(+1) 是为了防止出现price = 0的情况
# 最后计算结果时要把预测到的平滑数据变回去
y_train = np.log1p(train_df.pop('SalePrice'))
y_train = np.log1p(train_df.pop('SalePrice'))
all_df = pd.concat((train_df, test_df),axis=0)
all_df = pd.concat((train_df, test_df),axis=0)
y_train
Id
1       12.247699
2       12.109016
3       12.317171
4       11.849405
5       12.429220
6       11.870607
7       12.634606
8       12.206078
9       11.774528
10      11.678448
11      11.771444
12      12.751303
13      11.877576
14      12.540761
15      11.964007
16      11.790565
17      11.911708
18      11.407576
19      11.976666
20      11.842236
21      12.692506
22      11.845110
23      12.345839
24      11.774528
25      11.944714
26      12.454108
27      11.811555
28      12.631344
29      12.242891
30      11.134604
          ...    
1431    12.165985
1432    11.875838
1433    11.074436
1434    12.136192
1435    11.982935
1436    12.066816
1437    11.699413
1438    12.885673
1439    11.916395
1440    12.190964
1441    12.160034
1442    11.913720
1443    12.644331
1444    11.703554
1445    12.098493
1446    11.767575
1447    11.969724
1448    12.388398
1449    11.626263
1450    11.429555
1451    11.820418
1452    12.567555
1453    11.884496
1454    11.344519
1455    12.128117
1456    12.072547
1457    12.254868
1458    12.493133
1459    11.864469
1460    11.901590
Name: SalePrice, Length: 1460, dtype: float64
all_df
MSSubClass	MSZoning	LotFrontage	LotArea	Street	Alley	LotShape	LandContour	Utilities	LotConfig	...	ScreenPorch	PoolArea	PoolQC	Fence	MiscFeature	MiscVal	MoSold	YrSold	SaleType	SaleCondition
Id																					
1	60	RL	65.0	8450	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	0	NaN	NaN	NaN	0	2	2008	WD	Normal
2	20	RL	80.0	9600	Pave	NaN	Reg	Lvl	AllPub	FR2	...	0	0	NaN	NaN	NaN	0	5	2007	WD	Normal
3	60	RL	68.0	11250	Pave	NaN	IR1	Lvl	AllPub	Inside	...	0	0	NaN	NaN	NaN	0	9	2008	WD	Normal
4	70	RL	60.0	9550	Pave	NaN	IR1	Lvl	AllPub	Corner	...	0	0	NaN	NaN	NaN	0	2	2006	WD	Abnorml
5	60	RL	84.0	14260	Pave	NaN	IR1	Lvl	AllPub	FR2	...	0	0	NaN	NaN	NaN	0	12	2008	WD	Normal
6	50	RL	85.0	14115	Pave	NaN	IR1	Lvl	AllPub	Inside	...	0	0	NaN	MnPrv	Shed	700	10	2009	WD	Normal
7	20	RL	75.0	10084	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	0	NaN	NaN	NaN	0	8	2007	WD	Normal
8	60	RL	NaN	10382	Pave	NaN	IR1	Lvl	AllPub	Corner	...	0	0	NaN	NaN	Shed	350	11	2009	WD	Normal
9	50	RM	51.0	6120	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	0	NaN	NaN	NaN	0	4	2008	WD	Abnorml
10	190	RL	50.0	7420	Pave	NaN	Reg	Lvl	AllPub	Corner	...	0	0	NaN	NaN	NaN	0	1	2008	WD	Normal
11	20	RL	70.0	11200	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	0	NaN	NaN	NaN	0	2	2008	WD	Normal
12	60	RL	85.0	11924	Pave	NaN	IR1	Lvl	AllPub	Inside	...	0	0	NaN	NaN	NaN	0	7	2006	New	Partial
13	20	RL	NaN	12968	Pave	NaN	IR2	Lvl	AllPub	Inside	...	176	0	NaN	NaN	NaN	0	9	2008	WD	Normal
14	20	RL	91.0	10652	Pave	NaN	IR1	Lvl	AllPub	Inside	...	0	0	NaN	NaN	NaN	0	8	2007	New	Partial
15	20	RL	NaN	10920	Pave	NaN	IR1	Lvl	AllPub	Corner	...	0	0	NaN	GdWo	NaN	0	5	2008	WD	Normal
16	45	RM	51.0	6120	Pave	NaN	Reg	Lvl	AllPub	Corner	...	0	0	NaN	GdPrv	NaN	0	7	2007	WD	Normal
17	20	RL	NaN	11241	Pave	NaN	IR1	Lvl	AllPub	CulDSac	...	0	0	NaN	NaN	Shed	700	3	2010	WD	Normal
18	90	RL	72.0	10791	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	0	NaN	NaN	Shed	500	10	2006	WD	Normal
19	20	RL	66.0	13695	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	0	NaN	NaN	NaN	0	6	2008	WD	Normal
20	20	RL	70.0	7560	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	0	NaN	MnPrv	NaN	0	5	2009	COD	Abnorml
21	60	RL	101.0	14215	Pave	NaN	IR1	Lvl	AllPub	Corner	...	0	0	NaN	NaN	NaN	0	11	2006	New	Partial
22	45	RM	57.0	7449	Pave	Grvl	Reg	Bnk	AllPub	Inside	...	0	0	NaN	GdPrv	NaN	0	6	2007	WD	Normal
23	20	RL	75.0	9742	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	0	NaN	NaN	NaN	0	9	2008	WD	Normal
24	120	RM	44.0	4224	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	0	NaN	NaN	NaN	0	6	2007	WD	Normal
25	20	RL	NaN	8246	Pave	NaN	IR1	Lvl	AllPub	Inside	...	0	0	NaN	MnPrv	NaN	0	5	2010	WD	Normal
26	20	RL	110.0	14230	Pave	NaN	Reg	Lvl	AllPub	Corner	...	0	0	NaN	NaN	NaN	0	7	2009	WD	Normal
27	20	RL	60.0	7200	Pave	NaN	Reg	Lvl	AllPub	Corner	...	0	0	NaN	NaN	NaN	0	5	2010	WD	Normal
28	20	RL	98.0	11478	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	0	NaN	NaN	NaN	0	5	2010	WD	Normal
29	20	RL	47.0	16321	Pave	NaN	IR1	Lvl	AllPub	CulDSac	...	0	0	NaN	NaN	NaN	0	12	2006	WD	Normal
30	30	RM	60.0	6324	Pave	NaN	IR1	Lvl	AllPub	Inside	...	0	0	NaN	NaN	NaN	0	5	2008	WD	Normal
...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...
2890	30	RM	50.0	7030	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	0	NaN	MnPrv	NaN	0	3	2006	WD	Normal
2891	50	RM	75.0	9060	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	0	NaN	NaN	NaN	0	4	2006	WD	Normal
2892	30	C (all)	69.0	12366	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	0	NaN	NaN	NaN	0	10	2006	WD	Abnorml
2893	190	C (all)	50.0	9000	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	0	NaN	NaN	NaN	0	10	2006	WD	Abnorml
2894	50	C (all)	60.0	8520	Grvl	NaN	Reg	Bnk	AllPub	Inside	...	0	0	NaN	NaN	NaN	0	4	2006	WD	Normal
2895	120	RM	41.0	5748	Pave	NaN	IR1	HLS	AllPub	Inside	...	153	0	NaN	NaN	NaN	0	2	2006	New	Partial
2896	120	RM	44.0	3842	Pave	NaN	IR1	HLS	AllPub	Inside	...	155	0	NaN	NaN	NaN	0	12	2006	WD	Normal
2897	20	RL	69.0	23580	Pave	NaN	IR1	Lvl	AllPub	Inside	...	0	0	NaN	NaN	NaN	0	9	2006	WD	Normal
2898	90	RL	65.0	8385	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	0	NaN	NaN	NaN	0	10	2006	WD	Normal
2899	20	RL	70.0	9116	Pave	NaN	Reg	Lvl	AllPub	Corner	...	0	0	NaN	NaN	NaN	0	5	2006	WD	Normal
2900	80	RL	140.0	11080	Pave	NaN	Reg	Lvl	AllPub	Corner	...	0	0	NaN	NaN	NaN	0	5	2006	WD	Normal
2901	20	RL	NaN	50102	Pave	NaN	IR1	Low	AllPub	Inside	...	138	0	NaN	NaN	NaN	0	3	2006	WD	Alloca
2902	20	RL	NaN	8098	Pave	NaN	IR1	Lvl	AllPub	Inside	...	0	0	NaN	NaN	NaN	0	10	2006	WD	Normal
2903	20	RL	95.0	13618	Pave	NaN	Reg	Lvl	AllPub	Corner	...	0	0	NaN	NaN	NaN	0	11	2006	New	Partial
2904	20	RL	88.0	11577	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	0	NaN	NaN	NaN	0	9	2006	New	Partial
2905	20	NaN	125.0	31250	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	0	NaN	NaN	NaN	0	5	2006	WD	Normal
2906	90	RM	78.0	7020	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	0	NaN	NaN	NaN	0	11	2006	WD	Normal
2907	160	RM	41.0	2665	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	0	NaN	NaN	NaN	0	5	2006	WD	Normal
2908	20	RL	58.0	10172	Pave	NaN	IR1	Lvl	AllPub	Inside	...	0	0	NaN	NaN	NaN	0	10	2006	WD	Normal
2909	90	RL	NaN	11836	Pave	NaN	IR1	Lvl	AllPub	Corner	...	0	0	NaN	NaN	NaN	0	3	2006	WD	Normal
2910	180	RM	21.0	1470	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	0	NaN	NaN	NaN	0	4	2006	WD	Normal
2911	160	RM	21.0	1484	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	0	NaN	NaN	NaN	0	5	2006	WD	Normal
2912	20	RL	80.0	13384	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	0	NaN	NaN	NaN	0	5	2006	WD	Normal
2913	160	RM	21.0	1533	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	0	NaN	NaN	NaN	0	12	2006	WD	Abnorml
2914	160	RM	21.0	1526	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	0	NaN	GdPrv	NaN	0	6	2006	WD	Normal
2915	160	RM	21.0	1936	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	0	NaN	NaN	NaN	0	6	2006	WD	Normal
2916	160	RM	21.0	1894	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	0	NaN	NaN	NaN	0	4	2006	WD	Abnorml
2917	20	RL	160.0	20000	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	0	NaN	NaN	NaN	0	9	2006	WD	Abnorml
2918	85	RL	62.0	10441	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	0	NaN	MnPrv	Shed	700	7	2006	WD	Normal
2919	60	RL	74.0	9627	Pave	NaN	Reg	Lvl	AllPub	Inside	...	0	0	NaN	NaN	NaN	0	11	2006	WD	Normal
2919 rows × 79 columns

all_df.shape
(2919, 79)
y_train.shape
(1460,)
# 变量转化/特征工程
# 读 data描述，其中有一个MSSubClass的特征，虽然用数字表示，但并没有数学意义上的大小关系比较
# 需要把他变成string
# 变量转化/特征工程
# 读 data描述，其中有一个MSSubClass的特征，虽然用数字表示，但并没有数学意义上的大小关系比较
# 需要把他变成string
all_df['MSSubClass'].dtypes  #检查一下确实是int类型
dtype('int64')
all_df['MSSubClass'] = all_df['MSSubClass'].astype(str)
all_df['MSSubClass'] = all_df['MSSubClass'].astype(str)
all_df['MSSubClass'].value_counts() #这里显示的int64是指统计的个数是int类型
20     1079
60      575
50      287
120     182
30      139
160     128
70      128
80      118
90      109
190      61
85       48
75       23
45       18
180      17
40        6
150       1
Name: MSSubClass, dtype: int64
all_df['MSSubClass'].dtypes 
dtype('O')
# 一键one-hot
pd.get_dummies(all_df['MSSubClass'],
              prefix='MSSubClass').head()
# 一共形成了12个分类的独热编码
# 一键one-hot
pd.get_dummies(all_df['MSSubClass'],
              prefix='MSSubClass').head()
# 一共形成了12个分类的独热编码
MSSubClass_120	MSSubClass_150	MSSubClass_160	MSSubClass_180	MSSubClass_190	MSSubClass_20	MSSubClass_30	MSSubClass_40	MSSubClass_45	MSSubClass_50	MSSubClass_60	MSSubClass_70	MSSubClass_75	MSSubClass_80	MSSubClass_85	MSSubClass_90
Id																
1	0	0	0	0	0	0	0	0	0	0	1	0	0	0	0	0
2	0	0	0	0	0	1	0	0	0	0	0	0	0	0	0	0
3	0	0	0	0	0	0	0	0	0	0	1	0	0	0	0	0
4	0	0	0	0	0	0	0	0	0	0	0	1	0	0	0	0
5	0	0	0	0	0	0	0	0	0	0	1	0	0	0	0	0
# pandas 可以自动读取所有由分类表达的特征
all_dummy_df = pd.get_dummies(all_df)
all_dummy_df.head()
# pandas 可以自动读取所有由分类表达的特征
all_dummy_df = pd.get_dummies(all_df)
all_dummy_df.head()
LotFrontage	LotArea	OverallQual	OverallCond	YearBuilt	YearRemodAdd	MasVnrArea	BsmtFinSF1	BsmtFinSF2	BsmtUnfSF	...	SaleType_ConLw	SaleType_New	SaleType_Oth	SaleType_WD	SaleCondition_Abnorml	SaleCondition_AdjLand	SaleCondition_Alloca	SaleCondition_Family	SaleCondition_Normal	SaleCondition_Partial
Id																					
1	65.0	8450	7	5	2003	2003	196.0	706.0	0.0	150.0	...	0	0	0	1	0	0	0	0	1	0
2	80.0	9600	6	8	1976	1976	0.0	978.0	0.0	284.0	...	0	0	0	1	0	0	0	0	1	0
3	68.0	11250	7	5	2001	2002	162.0	486.0	0.0	434.0	...	0	0	0	1	0	0	0	0	1	0
4	60.0	9550	7	5	1915	1970	0.0	216.0	0.0	540.0	...	0	0	0	1	1	0	0	0	0	0
5	84.0	14260	8	5	2000	2000	350.0	655.0	0.0	490.0	...	0	0	0	1	0	0	0	0	1	0
5 rows × 303 columns

# 处理好numerical变量
# 有一些数据是缺失的
#先打印出来哪些数据缺失
all_dummy_df.isnull().sum().sort_values(ascending = False).head()
#先打印出来哪些数据缺失
all_dummy_df.isnull().sum().sort_values(ascending = False).head()
LotFrontage     486
GarageYrBlt     159
MasVnrArea       23
BsmtHalfBath      2
BsmtFullBath      2
dtype: int64
# 这里用平均值处理缺失值
# 这里用平均值处理缺失值
mean_cols = all_dummy_df.mean() # 
mean_cols = all_dummy_df.mean() # 
mean_cols.head(10)
LotFrontage        69.305795
LotArea         10168.114080
OverallQual         6.089072
OverallCond         5.564577
YearBuilt        1971.312778
YearRemodAdd     1984.264474
MasVnrArea        102.201312
BsmtFinSF1        441.423235
BsmtFinSF2         49.582248
BsmtUnfSF         560.772104
dtype: float64
all_dummy_df = all_dummy_df.fillna(mean_cols) # 填补空缺值
all_dummy_df = all_dummy_df.fillna(mean_cols) # 填补空缺值
all_dummy_df.isnull().sum().sum()
0
numeric_cols = all_df.columns[all_df.dtypes != 'object']
numeric_cols = all_df.columns[all_df.dtypes != 'object']
numeric_cols
Index(['LotFrontage', 'LotArea', 'OverallQual', 'OverallCond', 'YearBuilt',
       'YearRemodAdd', 'MasVnrArea', 'BsmtFinSF1', 'BsmtFinSF2', 'BsmtUnfSF',
       'TotalBsmtSF', '1stFlrSF', '2ndFlrSF', 'LowQualFinSF', 'GrLivArea',
       'BsmtFullBath', 'BsmtHalfBath', 'FullBath', 'HalfBath', 'BedroomAbvGr',
       'KitchenAbvGr', 'TotRmsAbvGrd', 'Fireplaces', 'GarageYrBlt',
       'GarageCars', 'GarageArea', 'WoodDeckSF', 'OpenPorchSF',
       'EnclosedPorch', '3SsnPorch', 'ScreenPorch', 'PoolArea', 'MiscVal',
       'MoSold', 'YrSold'],
      dtype='object')
# 计算出每个numeric 的平均值和标准差，从而计算方程
# 计算出每个numeric 的平均值和标准差，从而计算方程
numeric_col_means = all_dummy_df.loc[:,numeric_cols].mean()
numeric_col_std = all_dummy_df.loc[:,numeric_cols].std()
all_dummy_df.loc[:,numeric_cols] = (all_dummy_df.loc[:,numeric_cols] - numeric_col_means)/ numeric_col_std
numeric_col_means = all_dummy_df.loc[:,numeric_cols].mean()
numeric_col_std = all_dummy_df.loc[:,numeric_cols].std()
all_dummy_df.loc[:,numeric_cols] = (all_dummy_df.loc[:,numeric_cols] - numeric_col_means)/ numeric_col_std
dummy_train_df = all_dummy_df.loc[train_df.index]
dummy_test_df = all_dummy_df.loc[test_df.index]
dummy_train_df = all_dummy_df.loc[train_df.index]
dummy_test_df = all_dummy_df.loc[test_df.index]
dummy_train_df.shape, dummy_test_df.shape
((1460, 303), (1459, 303))
from sklearn.linear_model import Ridge
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import Ridge
from sklearn.model_selection import cross_val_score
# 这一步不是很必要，只是把DF转化成了Numpy Array,这跟sklearn更加配
X_train = dummy_train_df.values
X_test = dummy_test_df.values
# 这一步不是很必要，只是把DF转化成了Numpy Array,这跟sklearn更加配
X_train = dummy_train_df.values
X_test = dummy_test_df.values
X_train
array([[-0.20203292, -0.21784137,  0.6460727 , ...,  0.        ,
         1.        ,  0.        ],
       [ 0.5017845 , -0.07203174, -0.06317371, ...,  0.        ,
         1.        ,  0.        ],
       [-0.06126943,  0.13717338,  0.6460727 , ...,  0.        ,
         1.        ,  0.        ],
       ...,
       [-0.15511176, -0.14278111,  0.6460727 , ...,  0.        ,
         1.        ,  0.        ],
       [-0.06126943, -0.0571972 , -0.77242013, ...,  0.        ,
         1.        ,  0.        ],
       [ 0.2671787 , -0.02930318, -0.77242013, ...,  0.        ,
         1.        ,  0.        ]])
X_test
array([[ 0.5017845 ,  0.18433962, -0.77242013, ...,  0.        ,
         1.        ,  0.        ],
       [ 0.54870567,  0.51970176, -0.06317371, ...,  0.        ,
         1.        ,  0.        ],
       [ 0.22025754,  0.46429411, -0.77242013, ...,  0.        ,
         1.        ,  0.        ],
       ...,
       [ 4.25547741,  1.24659445, -0.77242013, ...,  0.        ,
         0.        ,  0.        ],
       [-0.3427964 ,  0.03459947, -0.77242013, ...,  0.        ,
         1.        ,  0.        ],
       [ 0.22025754, -0.06860838,  0.6460727 , ...,  0.        ,
         1.        ,  0.        ]])
# 用交叉验证测试模型选用哪一套
alphas = np.logspace(-3,2,50)
test_scores = []
for alpha in alphas:
    clf = Ridge(alpha)
    test_score = np.sqrt(-cross_val_score(clf,X_train,y_train,cv=10,scoring='neg_mean_squared_error'))
    test_scores.append(np.mean(test_score))
# 用交叉验证测试模型选用哪一套
alphas = np.logspace(-3,2,50)
test_scores = []
for alpha in alphas:
    clf = Ridge(alpha)
    test_score = np.sqrt(-cross_val_score(clf,X_train,y_train,cv=10,scoring='neg_mean_squared_error'))
    test_scores.append(np.mean(test_score))    
alphas = np.logspace(-3,2,50)
alphas
array([1.00000000e-03, 1.26485522e-03, 1.59985872e-03, 2.02358965e-03,
       2.55954792e-03, 3.23745754e-03, 4.09491506e-03, 5.17947468e-03,
       6.55128557e-03, 8.28642773e-03, 1.04811313e-02, 1.32571137e-02,
       1.67683294e-02, 2.12095089e-02, 2.68269580e-02, 3.39322177e-02,
       4.29193426e-02, 5.42867544e-02, 6.86648845e-02, 8.68511374e-02,
       1.09854114e-01, 1.38949549e-01, 1.75751062e-01, 2.22299648e-01,
       2.81176870e-01, 3.55648031e-01, 4.49843267e-01, 5.68986603e-01,
       7.19685673e-01, 9.10298178e-01, 1.15139540e+00, 1.45634848e+00,
       1.84206997e+00, 2.32995181e+00, 2.94705170e+00, 3.72759372e+00,
       4.71486636e+00, 5.96362332e+00, 7.54312006e+00, 9.54095476e+00,
       1.20679264e+01, 1.52641797e+01, 1.93069773e+01, 2.44205309e+01,
       3.08884360e+01, 3.90693994e+01, 4.94171336e+01, 6.25055193e+01,
       7.90604321e+01, 1.00000000e+02])
import matplotlib.pyplot as plt
%matplotlib inline
plt.plot(alphas, test_scores)
plt.title("Alpha vs CV Error")
# 可见，大概alpha=10-20时，score接近0.135          
import matplotlib.pyplot as plt
%matplotlib inline
plt.plot(alphas, test_scores)
plt.title("Alpha vs CV Error")
# 可见，大概alpha=10-20时，score接近0.135          

from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import RandomForestRegressor
max_features = [.1, .3, .5, .7, .9, .99] #从10%--99%
test_scores = []
for max_feat in max_features:
    clf = RandomForestRegressor(n_estimators=200, max_features=max_feat)
    test_score = np.sqrt(-cross_val_score(clf, X_train, y_train, cv=5, scoring='neg_mean_squared_error'))
    test_scores.append(np.mean(test_score))
max_features = [.1, .3, .5, .7, .9, .99] #从10%--99%
test_scores = []
for max_feat in max_features:
    clf = RandomForestRegressor(n_estimators=200, max_features=max_feat)
    test_score = np.sqrt(-cross_val_score(clf, X_train, y_train, cv=5, scoring='neg_mean_squared_error'))
    test_scores.append(np.mean(test_score))
plt.plot(max_features, test_scores)
plt.title("Max Features vs CV Error")
# 大约再max features = 0.5时达到了最优值 大约为0.137-0.138
plt.plot(max_features, test_scores)
plt.title("Max Features vs CV Error")
# 大约再max features = 0.5时达到了最优值 大约为0.137-0.138
Text(0.5, 1.0, 'Max Features vs CV Error')

ridge = Ridge(alpha=15)
rf = RandomForestRegressor(n_estimators=500,max_features=0.5)
ridge = Ridge(alpha=15)
rf = RandomForestRegressor(n_estimators=500,max_features=0.5)
ridge.fit(X_train, y_train)
rf.fit(X_train,y_train)
ridge.fit(X_train, y_train)
rf.fit(X_train,y_train)
RandomForestRegressor(bootstrap=True, criterion='mse', max_depth=None,
                      max_features=0.5, max_leaf_nodes=None,
                      min_impurity_decrease=0.0, min_impurity_split=None,
                      min_samples_leaf=1, min_samples_split=2,
                      min_weight_fraction_leaf=0.0, n_estimators=500,
                      n_jobs=None, oob_score=False, random_state=None,
                      verbose=0, warm_start=False)
# 因为最前面给label做了个log(1+x)，于是这里需要把predict的值给exp回去，并且减掉那个“1”
# 所以就是我们的expm1()函数
y_ridge = np.expm1(ridge.predict(X_test))
y_rf = np.expm1(rf.predict(X_test))
# 因为最前面给label做了个log(1+x)，于是这里需要把predict的值给exp回去，并且减掉那个“1”
# 所以就是我们的expm1()函数
y_ridge = np.expm1(ridge.predict(X_test))
y_rf = np.expm1(rf.predict(X_test))
y_final = (y_ridge + y_rf)/2
# 平均化预测结果
y_final = (y_ridge + y_rf)/2
# 平均化预测结果
---------------------------------------------------------------------------
NameError                                 Traceback (most recent call last)
 in 
----> 1 y_final = (y_ridge + y_rf)/2
      2 # 平均化预测结果

NameError: name 'y_ridge' is not defined

submission_df = pd.DataFrame(data = {'Id': test_df.index, 'SalePrice':y_final})
submission_df = pd.DataFrame(data = {'Id': test_df.index, 'SalePrice':y_final})
submission_df.head(10)
Id	SalePrice
0	1461	120096.722931
1	1462	151145.918506
2	1463	173974.126235
3	1464	189173.021195
4	1465	195993.105095
5	1466	175762.380591
6	1467	177456.363959
7	1468	168769.622578
8	1469	185584.091288
9	1470	123031.041244
# 模型进阶
# bagging把很多的小分类器放在一起，每个train随机的一部分数据，然后把他们的最终结果综合起来（多数投票制）
# 模型进阶
# bagging把很多的小分类器放在一起，每个train随机的一部分数据，然后把他们的最终结果综合起来（多数投票制）
from sklearn.ensemble import BaggingRegressor
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import BaggingRegressor
from sklearn.model_selection import cross_val_score
# 在刚才的实验中，ridge(alpha=15)是最好的结果
from sklearn.linear_model import Ridge
ridge = Ridge(15)

params = [1, 10, 15, 20, 25, 30, 40]
test_scores = []
for param in params:
    clf = BaggingRegressor(n_estimators=param,
                          base_estimator=ridge)
    test_score = np.sqrt(-cross_val_score(clf, X_train,y_train, cv=10, scoring='neg_mean_squared_error'))
    test_scores.append(np.mean(test_score))

import matplotlib.pyplot as plt
%matplotlib inline
plt.plot(params, test_scores)
plt.title("n_estimator vs CV Error")


# 如果没有提前测试过ridge模型，可以用Bagging自带的Decision Tree模型。
# 代码一样的，把base_estimator删去即可
params = [10,15,20,25,30,40,50,60,70,100]
test_scores = []
for param in params:
    clf = BaggingRegressor(n_estimators=param)
    test_score = np.sqrt(-cross_val_score(clf,X_train,y_train,cv=10,scoring='neg_mean_squared_error'))
    test_scores.append(np.mean(test_score))
plt.plot(params,test_scores)
plt.title("n_estimator vs CV Error")
# 结果显示单纯用DT效果不好，最好也就0.140


from sklearn.ensemble import AdaBoostRegressor
params = [10, 15, 20, 25, 30, 35, 40, 45, 50]
test_scores=[]
for param in params:
    clf = BaggingRegressor(n_estimators=param,
                          base_estimator=ridge)
    test_score = np.sqrt(-cross_val_score(clf,X_train,y_train,cv=10,scoring='neg_mean_squared_error'))
    test_scores.append(np.mean(test_score))
plt.plot(params, test_scores)
plt.title("n_estimator vs CV Error in Boosting")

# 学习曲线不稳定，所以需要更多的参数调一遍，得到更稳定的学习曲线，cv= 可以调小一点，尽量得到U型曲线，取谷底。
# 结果也是在 25个小分类器的情况下 得到结果0.133
# 也可以不必输入base_estimator,使用adaboost自带的DT。


# XGBoost
from xgboost import XGBRegressor
params = [1,2,3,4,5,6]
test_scores = []
for param in params:
    clf = XGBRegressor(max_depth=param)
    test_score = np.sqrt(-cross_val_score(clf,X_train,y_train,cv=10,scoring='neg_mean_squared_error'))
    test_scores.append(np.mean(test_score))
plt.plot(params, test_scores)
plt.title("max_depth vs CV Error")
# 深度为5的时候，错误率非常小

你可能感兴趣的:(学习日记)

日常学习日记——从练习代码中学习梦想成为大牛呀学习 c语言笔记
日常学习日记——从练习代码中学习一、题目展示二、代码展示三、问题剖析四、冒泡排序4.1阐述4.2优缺点4.3逻辑阐述初学者记录不易，还请多多哦点赞支持呀！！也请各位大佬慷慨对我的问题提出指正如果对我的阐述有些疑问或者觉得博主写的不对，评论下来。主播觉得有道理一定会一一改正！！一、题目展示二、代码展示#include#defineMAX1000intmain(){intn,m=0;scanf("%d
大模型工程师学习日记（五）：基于LangServe的AI服务架构深度解析 MMMMMMMay Love Code 学习架构语言模型深度学习人工智能 git
1.概述LangServe️帮助开发者将LangChain可运行和链部署为RESTAPI。该库集成了FastAPI并使用pydantic进行数据验证。Pydantic是一个在Python中用于数据验证和解析的第三方库，现在是Python中使用广泛的数据验证库。它利用声明式的方式定义数据模型和Python类型提示的强大功能来执行数据验证和序列化，使您的代码更可靠、更可读、更简洁且更易于调试。。它还可
Python学习日记-第二十九天-tcp（客户端）差点长成吴彦祖 python pandas tcp/ip 网络
系列文章目录tcp介绍tcp特点tcp客户端一、tcp介绍Tcp协议，传输控制协议是一种面向连接的、可靠的、基于字节流的传输层通信协议，由IETF的RFC793定义TCP通信需要经过创建连接、传输数据、终止连接三个步骤TCP通信模型中，在通信开始之前，一定要先建立相关的链接，才能发送数据，类似于生活中的“打电话”（注：之前学习的udp，在通信前，不需要建立相关的链接，只需要发送数据即可，类似于“写
大模型工程师学习日记（十五）：Hugging Face 模型微调训练（基于 BERT 的中文评价情感分析） MMMMMMMay Love Code 学习 bert 人工智能深度学习自然语言处理全量微调
1.datasets库核心方法1.1.列出数据集使用datasets库，你可以轻松列出所有HuggingFace平台上的数据集：fromdatasetsimportlist_datasets#列出所有数据集all_datasets=list_datasets()print(all_datasets)1.2.加载数据集你可以通过load_dataset方法加载任何数据集：fromdatasetsim
大模型工程师学习日记（十四）：检索增强生成（RAG） MMMMMMMay Love Code 学习 langchain 深度学习人工智能开发语言
如何递归分割文本递归分割(recursively)，这个文本分割器是用于通用文本的推荐工具。它接受一个字符列表作为参数。它会按顺序尝试在这些字符上进行分割，直到块足够小。默认的字符列表是["\n\n","\n","",""]。这样做的效果是尽可能保持所有段落（然后是句子，再然后是单词）在一起，因为这些通常看起来是语义上相关的文本块。文本如何分割：根据字符列表。块大小如何衡量：根据字符数量。下面我们
C语言学习日记--循环，分支语句梦想成为大牛呀 c语言学习开发语言
C语言学习日记--循环分支语句题目一1.题目展示2.完成题目的过程中问题的出现（1）怎么多组输入3.代码展示4.问题的解决（1）关于多组输入此博客为学习记录，还请看官点点赞为我加油呀~~题目一1.题目展示2.完成题目的过程中问题的出现（1）怎么多组输入3.代码展示#includeintmain(){intn=0;while(scanf("%d",&n)!=EOF){if(n>=3&&n<=20){
arm centos7 安装mysql5.7 qq_42331499 mysql linux 数据库
ARM架构下安装MySQL-学习日记ARM64架构下安装mysql5.7.22的全过程_Mysql_脚本之家错误信息：InstallingMySQLsystemtables..../bin/mysqld:errorwhileloadingsharedlibraries:libaio.so.1:cannotopensharedobjectfile:Nosuchfileordirectory解决办法：
大模型工程师学习日记（八）:基于 LangChain 构建向量存储和查询：Chroma MMMMMMMay Love Code 学习 langchain 算法向量数据库 RAG 语言模型人工智能
Vectorstores(向量存储)存储和搜索非结构化数据的最常见方法之一是将其嵌入并存储生成的嵌入向量，然后在查询时将非结构化查询嵌入并检索与嵌入查询“最相似”的嵌入向量。向量存储会处理存储嵌入数据并为您执行向量搜索。可以通过以下方式将向量存储转换为检索器接口：Retrievers(检索器)是一个接口，根据非结构化查询返回文档。它比向量存储更通用。检索器不需要能够存储文档，只需要能够返回（或检索
代码随想录刷题学习日记努力向前ing 代码随想录学习日记学习算法贪心算法 leetcode java
仅为个人记录复盘学习历程，解题思路来自代码随想录代码随想录刷题笔记总结网址:代码随想录56.合并区间给出一个区间的集合，合并所有重叠的区间。关键思路：还是寻找重叠的区间，知识操作不同，1.对整个数组进行排序，按左边界排序2.由左到右遍历排序后的数组（因为按左边界排序），定义start为上一个合并区间的左边界，end为上一个合并区间的右边界：2.1如果遍历到非重叠区间将上一个区间加入到结果集中，更新
代码随想录刷题学习日记努力向前ing 代码随想录学习日记算法数据结构学习回溯
仅为个人记录复盘学习历程，解题思路来自代码随想录代码随想录刷题笔记总结网址:代码随想录40.组合总和II给定一个数组candidates和一个目标数target，找出candidates中所有可以使数字和为target的组合。candidates中的每个数字在每个组合中只能使用一次。说明：所有数字（包括目标数）都是正整数。解集不能包含重复的组合。提供参数：整数数组candicates，目标数tar
代码随想录刷题学习日记努力向前ing 代码随想录学习日记算法数据结构学习回溯
仅为个人记录复盘学习历程，解题思路来自代码随想录代码随想录刷题笔记总结网址:代码随想录93.复原IP地址给定一个只包含数字的字符串，复原它并返回所有可能的IP地址格式。有效的IP地址正好由四个整数（每个整数位于0到255之间组成，且不能含有前导0），整数之间用'.'分隔。提供参数：只包含数字的字符串s。关键思路：是一个“分割”的思想，同时需要对ip地址格式的判断。由于横向遍历是从少到多开始的，少的
代码随想录刷题学习日记努力向前ing 代码随想录学习日记算法哈希算法学习
仅为个人记录复盘学习历程，解题思路来自代码随想录代码随想录刷题笔记总结网址:代码随想录15.三数之和（双指针法）给定一个包含n个整数的数组nums，判断nums中是否存在三个元素a，b，c，使得a+b+c=0，找出所有满足条件且不重复的三元组。提供参数：整数数组nums主要操作：对数组排序一个for循环遍历nums，控制变量a（nums[i]）判断是否整个数组不满足条件对a去重：当前a与上一个a相
Python学习日记：列表的一些功能实现 Kaye921 python 学习开发语言
myList=["Kaye","Pii","Pk","Pk","Pk"]#查找某元素在列表内的下标索引利用列表.index()#找到会返回索引值，找不到会返回ValueErrorindex=myList.index("Pk")print(index)#修改特定位置下标索引值myList[0]="kk"print(myList)#插入元素#列表.insert(索引，插入元素)myList.inser
前端如何实现后端运行进度_前端到后端的整体流程介绍 weixin_39707536 前端如何实现后端运行进度
作为入行不久，在帝都无数个日日夜夜奔波的程序猿，现在我大概理下我们所接触到的程序开发的大的面。作为一个整理学习日记，不对的地方，可以指出，相互学习。从我们智能手机说起，手机已经成为我们不可或缺的一部分。那么手机在软件行业里处在什么样的位置呢。这里我把手机理解为前端前端：我粗暴的理解为，“前就”是前面，眼前，“端”就是终端，连起来就是展示在使用者眼前的终端设备。这么看来，终端当然还包括我们的电脑、平
Mysql调优---Mysql锁机制（油炸圣女果的学习日记第七期）油炸圣女果 mysql 学习数据库
本期来介绍一下Mysql中的锁机制。首先，分享一个今天抖音刷到的一个视频，很有意思且对上一期和这期的知识理解很有帮助，非常形象的体现了事务隔离级别在工作中出现的问题案例：6.41复制打开抖音，看看【孟小哥捉虫vlog的作品】想不通为啥有bug，骨干：你投下代码！#程序员...https://v.douyin.com/i5dpJhs6/[email protected]/25aNW:/锁机制详解锁是计算机协调多个进程
CTF 代码学习日记 PHP ianozo 学习 php java
基础2字符串连接可以使用点号（.）3.$_：在PHP中，以$_开头的变量（如$_GET、$_POST、$_COOKIE等）是超级全局变量。超级全局变量的特点是它们在PHP脚本的任何地方（包括函数内部、类内部等）都可以访问，不需要使用global关键字来声明其可访问性。这些变量主要用于获取来自不同数据源的用户输入或者服务器环境相关信息。例如：$_SERVER用途：包含了服务器和执行环境相关的信息。例
2025-1.15 实习学习日记 monkey稳定性测试 2025年一定要上岸学习
一、前期准备1、电脑配备ADB环境2、手机开启开发者模式3、电脑和手机连接好，可以使用ADB调试二、monkey执行的前提条件手机设置常亮，锁屏关闭电量在90以上其他设置要设置好,wifi,数据网络,进程该关闭就关闭app登录,数据创造,必要的情况,打开app一个页面执行命令之后少等一会,如果在可见之内发现退出账号,可以尝试换一个seed值操作三、基本命令格式adbshellmonkey各种参数次
Python学习日记------def __init__( ):函数 Canliays 学习 python
在Python中，__init__方法是类的构造函数，用于在创建对象时进行初始化。它可以接受参数也可以不接受参数，具体的选择取决于你是否希望在创建对象时传入初始值。无参数的__init__方法无参数的__init__方法通常在类定义时使用默认值来初始化属性，而不需要在创建对象时传入任何参数。classStudent:def__init__(self):self.name="Unknown"#默认值
Python爬虫基础总结醉蕤 Python python 爬虫
活动地址：CSDN21天学习挑战赛学习的最大理由是想摆脱平庸，早一天就多一份人生的精彩；迟一天就多一天平庸的困扰。学习日记目录学习日记一、关于爬虫1、爬虫的概念2、爬虫的优点3、爬虫的分类4、重要提醒5、反爬和反反爬机制6、协议7、常用请求头和常用的请求方法8、常见的响应状态码9、url的详解二、爬虫基本流程三、可能需要的库四、小例1、requests请求网页2、python解析网页源码（使用Be
听书稿 day27 学习日记恰逢秋风起
【你的昵称】清卿【最核心的一个问题】听书稿的思维导图如何构建【谈谈你的感想】大多数书都是围绕一个关键问题来写的，我们写听书稿的时候也要围绕这个关键问题来构建文章的大纲。常见的书籍有以下四类，分别有比较成功的听书稿案例。第一类是传授方法类书籍，这类书籍包括两种：一种是直接传授方法，通常采用并列结构写作，在传授方法的同时也可以适当讲述原因和道理。第二种是原理和方法一起讲，这类书籍一般采用“先说原因，后
鸿蒙 HarmonyOS学习日记 Day 2 界面开发、布局林钟雪 Harmonyos harmonyos 学习华为
文章目录一、界面开发1、代码书写方式2、界面开发-布局思路3、组件的属性方法4、文字溢出省略号、行高5、Image图片组件6、输入框与按钮四、综合实战-华为登录五、svg图标六、布局元素的组成二、单位问题一、界面开发1、代码书写方式1、代码块在build()方法中书写，在右侧预览中查看效果2、界面开发-布局思路1、ArkUI(方舟开发框架)说明：是一套构建鸿蒙应用界面的框架构建页面的最小单位就是“
JS学习日记 zero.cyx 学习
reduce函数作用：将数组变成一个数值eg:leta1=[1,2,3,4,5,6]//计算a1中各元素的和functionf1(x,y){returnx+y}leta2=a1.reduce(f1)console.log(a2)forEach函数作用：将数组的每个元素传递给回调函数(遍历整个数组)leta=[1,2,3,4]letsum=0functioncheck(item){sum+=item
学习日记天边那朵彩霞
话题：经常焦虑怎么办？1、焦虑是对过去种种有放不下的执念和对未来的种种担忧，过好当下，消除焦虑，未来是无数的当下组成。2、真诚的人才有影响别人的力量，同气相求，人都希望和高层次人学习交往，人的能量是会交换的，能量会从高的地方流向低的地方，当我们和比自己能量高的时候就会舒服。3、天女散花的时候在罗汉的身上会沾着在菩萨身上不会沾着？4、学会放手，一个人没有办法事必躬亲，这样容易委屈抱怨，学会让别人去发
Python学习日记（Page.8）空手套不到_白狼学习 pycharm python
今日整理以便日后查看。如有错误欢迎指出。今天聊一下while循环语句。格式：while条件:条件满足时，做的事情1条件满足时，做的事情2条件满足时，做的事情3......案例：题目为求1累计加到100的和i＝1sum＝0whilei＜＝100sum+＝ii+＝1print("1到100的和为：%d"%sum)
Laravel小程序学习日记2018-07-10 Purson
有那么一个星期没有写日记了，因为答应了Sheldon15号前完成小程序的学习，很多东西都来不及总结，但是由于有vuejs的基础，wepy的使用是比较清楚的。今天为什么记录主要有1个原因，就是我在laravel小程序课程里面提交的修改被合并了，这次不是一两个错字那么简单，是一个小方法，这里截图庆祝一下。投稿小记录在wepy里面异步函数更新数据，一定要在后面加个this.$apply()
OHIF Viewer医学影像学习日记刘斩仙的笔记本 javascript OHIF Viewer 医学影像 vue react
前言：OHIFViewer一个开源的，基于Web的，医学影像查看器。项目文档GitHub项目大概流程：我们下载OHIFViewer项目运行打包，发布到服务器，然后暴露访问地址；再由后端提供返回固定格式json的接口，完整路径例如：http://www.baidu.com/#/viewer?url=http://www.your.com/apiv1/dicom/analysis/studies把此链
陪孩子备战高考第一百八十九天想入非非的棋子
今天孩子天学网的成绩达到了48.1分，有史以来最好的成绩，孩子说这次测试用了三遍才全部弄清楚文章的意思。这是一个好的开端，孩子对学习的兴趣越来越浓厚了！我希望能一直坚持下去，我也要改变一下，认真检查孩子学习日记的内容，把每天的学习内容都落实到位，让孩子将每天学习的知识点一点点储备起来，最后在高考中绽放自己！加油吧！
Python学习日记（Pag.7）空手套不到_白狼学习 python pycharm
拿猜数字的案例说一下判断语句的嵌套。如有错误欢迎指正。题目：要求如下：1.数字随机产生，范围为1-102.有3次机会猜测数字，通过三层嵌套判断实现3.每次都猜不中的话，会提示猜大了还是小了示例：importrandomnum=random.randint(1,10)#随机生成1-10以内的数字guess_num=int(input("您所猜测的数字是:"))ifguess_num==num:pri
【优胜行动派️学习日记】键萍
[打卡宝宝]：魏萍[打卡日期]：2019/05/28[学习内容]：高效能人士的十个习惯[学习笔记]：12.心境平和，踏实走好每一步人情淡漠，物欲横流，这是我们这个社会的现实。很多时候，我们的内心都为外物所蒙蔽，浮躁占领了我们心灵的领地，在不断摇摆的现实面前很多人就像漂在水上的浮萍或者是长在墙头的艾草，外界稍有变化，他们就跟着动摇，不知道自己要去向何方，走向何处。于是，在人生中留下许多遗憾：在学业上
5分钟商学院*周总结 lmn纳纳
【优胜行动派️❤️学习日记】[打卡宝宝]：刘明纳[打卡日期]：2019/1/20[学习内容]：5分钟商学院*周总结[学习笔记]:概念：变招为抢我在“合伙人制度”里讲过，资本和人才，是两个永不停止的博弈。今天，人才的重要性明显上升。对应到管理的角度看，我们“选人”的逻辑，也必须从“招人”心态，变为“求人”，甚至“抢人”。随着时代发展，资本和人才的重要性，正在剧烈地向人才倾斜。用资本，像购买生产资料一
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1