张楚岚

项目二：Kaggle房价预测（前篇）

概述

Kaggle房价预测比赛(高级技能篇)

notebook的背景是kaggle房价预测比赛高级回归技能篇

背景搬运如下：

这个notebook主要是通过数据探索和数据可视化来实现。

我们把这个过程叫做EDA（(Exploratory Data Analysis，探索性数据分析），它往往是比较枯燥乏味的工作。

但是你在理解、清洗和准备数据上花越多的时间，你的预测模型就会越加精准。

概述

导入库
导入数据
变量识别
统计摘要描述
与目标变量的相关性

缺失值处理

找出含有缺失值的列
填充这些缺失值

数据可视化

单变量分析
双变量分析

导入库

import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
% matplotlib inline
import seaborn as sns
sns.set(style="whitegrid", color_codes=True)
sns.set(font_scale=1)
import warnings
warnings.filterwarnings('ignore')

UsageError: Line magic function `%` not found.

导入训练数据集、测试数据

houses=pd.read_csv("./train.csv")
houses.head()

	Id	MSSubClass	MSZoning	LotFrontage	LotArea	Street	Alley	LotShape	LandContour	Utilities	...	PoolQC	Fence	MiscFeature	MoSold	YrSold	SaleType	SaleCondition	SalePrice
0	1	60	RL	65.0	8450	Pave	NaN	Reg	Lvl	AllPub	...	NaN	NaN	NaN	2	2008	WD	Normal	208500
1	2	20	RL	80.0	9600	Pave	NaN	Reg	Lvl	AllPub	...	NaN	NaN	NaN	5	2007	WD	Normal	181500
2	3	60	RL	68.0	11250	Pave	NaN	IR1	Lvl	AllPub	...	NaN	NaN	NaN	9	2008	WD	Normal	223500
3	4	70	RL	60.0	9550	Pave	NaN	IR1	Lvl	AllPub	...	NaN	NaN	NaN	2	2006	WD	Abnorml	140000
4	5	60	RL	84.0	14260	Pave	NaN	IR1	Lvl	AllPub	...	NaN	NaN	NaN	12	2008	WD	Normal	250000

5 rows × 81 columns

houses_test = pd.read_csv("./test.csv")
houses_test.head()
#注意：这里没有“销售价格”这列，而“销售价格”是我们的目标变量

	Id	MSSubClass	MSZoning	LotFrontage	LotArea	Street	Alley	LotShape	LandContour	Utilities	...	ScreenPorch	PoolQC	Fence	MiscFeature	MiscVal	MoSold	YrSold	SaleType	SaleCondition
0	1461	20	RH	80.0	11622	Pave	NaN	Reg	Lvl	AllPub	...	120	NaN	MnPrv	NaN	0	6	2010	WD	Normal
1	1462	20	RL	81.0	14267	Pave	NaN	IR1	Lvl	AllPub	...	0	NaN	NaN	Gar2	12500	6	2010	WD	Normal
2	1463	60	RL	74.0	13830	Pave	NaN	IR1	Lvl	AllPub	...	0	NaN	MnPrv	NaN	0	3	2010	WD	Normal
3	1464	60	RL	78.0	9978	Pave	NaN	IR1	Lvl	AllPub	...	0	NaN	NaN	NaN	0	6	2010	WD	Normal
4	1465	120	RL	43.0	5005	Pave	NaN	IR1	HLS	AllPub	...	144	NaN	NaN	NaN	0	1	2010	WD	Normal

5 rows × 80 columns

#模型命令：展示数据其特征，包括行、样本、例子的数量和列、特征、预测的数量
#（行，列）
houses.shape

(1460, 81)

这里一共有 1460个样本 ，我们可以用这些样本来训练模型，共有 80个特征 和 1个目标变量.

houses_test.shape
#缺少一列，因为目标变量并不在测试区间内

(1459, 80)

识别变量

#info命令，展示数据的相关信息
#包含有每列的总和，空或非空，数据类型，内存占用等
houses.info()


RangeIndex: 1460 entries, 0 to 1459
Data columns (total 81 columns):
Id               1460 non-null int64
MSSubClass       1460 non-null int64
MSZoning         1460 non-null object
LotFrontage      1201 non-null float64
LotArea          1460 non-null int64
Street           1460 non-null object
Alley            91 non-null object
LotShape         1460 non-null object
LandContour      1460 non-null object
Utilities        1460 non-null object
LotConfig        1460 non-null object
LandSlope        1460 non-null object
Neighborhood     1460 non-null object
Condition1       1460 non-null object
Condition2       1460 non-null object
BldgType         1460 non-null object
HouseStyle       1460 non-null object
OverallQual      1460 non-null int64
OverallCond      1460 non-null int64
YearBuilt        1460 non-null int64
YearRemodAdd     1460 non-null int64
RoofStyle        1460 non-null object
RoofMatl         1460 non-null object
Exterior1st      1460 non-null object
Exterior2nd      1460 non-null object
MasVnrType       1452 non-null object
MasVnrArea       1452 non-null float64
ExterQual        1460 non-null object
ExterCond        1460 non-null object
Foundation       1460 non-null object
BsmtQual         1423 non-null object
BsmtCond         1423 non-null object
BsmtExposure     1422 non-null object
BsmtFinType1     1423 non-null object
BsmtFinSF1       1460 non-null int64
BsmtFinType2     1422 non-null object
BsmtFinSF2       1460 non-null int64
BsmtUnfSF        1460 non-null int64
TotalBsmtSF      1460 non-null int64
Heating          1460 non-null object
HeatingQC        1460 non-null object
CentralAir       1460 non-null object
Electrical       1459 non-null object
1stFlrSF         1460 non-null int64
2ndFlrSF         1460 non-null int64
LowQualFinSF     1460 non-null int64
GrLivArea        1460 non-null int64
BsmtFullBath     1460 non-null int64
BsmtHalfBath     1460 non-null int64
FullBath         1460 non-null int64
HalfBath         1460 non-null int64
BedroomAbvGr     1460 non-null int64
KitchenAbvGr     1460 non-null int64
KitchenQual      1460 non-null object
TotRmsAbvGrd     1460 non-null int64
Functional       1460 non-null object
Fireplaces       1460 non-null int64
FireplaceQu      770 non-null object
GarageType       1379 non-null object
GarageYrBlt      1379 non-null float64
GarageFinish     1379 non-null object
GarageCars       1460 non-null int64
GarageArea       1460 non-null int64
GarageQual       1379 non-null object
GarageCond       1379 non-null object
PavedDrive       1460 non-null object
WoodDeckSF       1460 non-null int64
OpenPorchSF      1460 non-null int64
EnclosedPorch    1460 non-null int64
3SsnPorch        1460 non-null int64
ScreenPorch      1460 non-null int64
PoolArea         1460 non-null int64
PoolQC           7 non-null object
Fence            281 non-null object
MiscFeature      54 non-null object
MiscVal          1460 non-null int64
MoSold           1460 non-null int64
YrSold           1460 non-null int64
SaleType         1460 non-null object
SaleCondition    1460 non-null object
SalePrice        1460 non-null int64
dtypes: float64(3), int64(35), object(43)
memory usage: 924.0+ KB

#有多少列具有不同的数据类型？
houses.get_dtype_counts()

float64     3
int64      35
object     43
dtype: int64

##Describe命令，给出数据集中这些数据列的统计信息
houses.describe()

	Id	MSSubClass	LotFrontage	LotArea	OverallQual	OverallCond	YearBuilt	YearRemodAdd	MasVnrArea	BsmtFinSF1	...	WoodDeckSF	OpenPorchSF	EnclosedPorch	3SsnPorch	ScreenPorch	PoolArea	MiscVal	MoSold	YrSold	SalePrice
count	1460.000000	1460.000000	1201.000000	1460.000000	1460.000000	1460.000000	1460.000000	1460.000000	1452.000000	1460.000000	...	1460.000000	1460.000000	1460.000000	1460.000000	1460.000000	1460.000000	1460.000000	1460.000000	1460.000000	1460.000000
mean	730.500000	56.897260	70.049958	10516.828082	6.099315	5.575342	1971.267808	1984.865753	103.685262	443.639726	...	94.244521	46.660274	21.954110	3.409589	15.060959	2.758904	43.489041	6.321918	2007.815753	180921.195890
std	421.610009	42.300571	24.284752	9981.264932	1.382997	1.112799	30.202904	20.645407	181.066207	456.098091	...	125.338794	66.256028	61.119149	29.317331	55.757415	40.177307	496.123024	2.703626	1.328095	79442.502883
min	1.000000	20.000000	21.000000	1300.000000	1.000000	1.000000	1872.000000	1950.000000	0.000000	0.000000	...	0.000000	0.000000	0.000000	0.000000	0.000000	0.000000	0.000000	1.000000	2006.000000	34900.000000
25%	365.750000	20.000000	59.000000	7553.500000	5.000000	5.000000	1954.000000	1967.000000	0.000000	0.000000	...	0.000000	0.000000	0.000000	0.000000	0.000000	0.000000	0.000000	5.000000	2007.000000	129975.000000
50%	730.500000	50.000000	69.000000	9478.500000	6.000000	5.000000	1973.000000	1994.000000	0.000000	383.500000	...	0.000000	25.000000	0.000000	0.000000	0.000000	0.000000	0.000000	6.000000	2008.000000	163000.000000
75%	1095.250000	70.000000	80.000000	11601.500000	7.000000	6.000000	2000.000000	2004.000000	166.000000	712.250000	...	168.000000	68.000000	0.000000	0.000000	0.000000	0.000000	0.000000	8.000000	2009.000000	214000.000000
max	1460.000000	190.000000	313.000000	215245.000000	10.000000	9.000000	2010.000000	2010.000000	1600.000000	5644.000000	...	857.000000	547.000000	552.000000	508.000000	480.000000	738.000000	15500.000000	12.000000	2010.000000	755000.000000

8 rows × 38 columns

数据相关性

corr=houses.corr()["SalePrice"]
# print(np.argsort(corr, axis=0))
corr[np.argsort(corr, axis=0)[::-1]]  #np.argsort()表示返回其排序的索引

SalePrice        1.000000
OverallQual      0.790982
GrLivArea        0.708624
GarageCars       0.640409
GarageArea       0.623431
TotalBsmtSF      0.613581
1stFlrSF         0.605852
FullBath         0.560664
TotRmsAbvGrd     0.533723
YearBuilt        0.522897
YearRemodAdd     0.507101
GarageYrBlt      0.486362
MasVnrArea       0.477493
Fireplaces       0.466929
BsmtFinSF1       0.386420
LotFrontage      0.351799
WoodDeckSF       0.324413
2ndFlrSF         0.319334
OpenPorchSF      0.315856
HalfBath         0.284108
LotArea          0.263843
BsmtFullBath     0.227122
BsmtUnfSF        0.214479
BedroomAbvGr     0.168213
ScreenPorch      0.111447
PoolArea         0.092404
MoSold           0.046432
3SsnPorch        0.044584
BsmtFinSF2      -0.011378
BsmtHalfBath    -0.016844
MiscVal         -0.021190
Id              -0.021917
LowQualFinSF    -0.025606
YrSold          -0.028923
OverallCond     -0.077856
MSSubClass      -0.084284
EnclosedPorch   -0.128578
KitchenAbvGr    -0.135907
Name: SalePrice, dtype: float64

OverallQual ,GrLivArea ,GarageCars,GarageArea ,TotalBsmtSF, 1stFlrSF ,FullBath,TotRmsAbvGrd,YearBuilt, YearRemodAdd 这些变量与SalePrice销售价格的相关性大于0.5

EnclosedPorch and KitchenAbvGr这些变量与SalePrice销售价格的相关性呈现轻度负相关

这些变量是有助于预测房价的重要特征。

#绘制相关性图表
num_feat=houses.columns[houses.dtypes!=object]  #house.dtypes!=object表示输出不是object的类型
num_feat=num_feat[1:-1]  #去掉第0项:ID
labels = []
values = []
for col in num_feat:
    labels.append(col)
    values.append(np.corrcoef(houses[col].values, houses.SalePrice.values)[0,1])
#np.corrcoef()计算皮尔逊相关系数，具体解释可以看https://blog.csdn.net/u012162613/article/details/42213883
    
ind = np.arange(len(labels))
width = 0.9
fig, ax = plt.subplots(figsize=(9,18))
#fig,ax = plt.subplots()的意思是，同时在subplots里建立一个fig对象，建立一个axis对象 
# 这样就不用先plt.figure() 
# 再plt.add_subplot()了

rects = ax.barh(ind, np.array(values), color='red')  #ax.barh表示水平条状图
ax.set_yticks(ind+((width)/2.)) #设置y轴刻度宽度
ax.set_yticklabels(labels, rotation='horizontal')  #设置y轴标签
ax.set_xlabel("Correlation coefficient")
ax.set_title("Correlation Coefficients w.r.t Sale Price");

correlations=houses.corr()
# print(correlations)
attrs = correlations.iloc[:-1,:-1] #目标变量除外的所有列

threshold = 0.5

#unstack()表示降维dataframe，转换为行列形式，默认level=-1
important_corrs = (attrs[abs(attrs) > threshold][attrs != 1.0]) \
    .unstack().dropna().to_dict()


#将得到的数据进行重新排序,并生成相关性的dataframe
unique_important_corrs = pd.DataFrame(
    list(set([(tuple(sorted(key)),important_corrs[key]) for key in important_corrs])), 
        columns=['Attribute Pair', 'Correlation'])


#以绝对值进行分类排序
unique_important_corrs = unique_important_corrs.iloc[
    abs(unique_important_corrs['Correlation']).argsort()[::-1]]

unique_important_corrs

	Attribute Pair	Correlation
16	(GarageArea, GarageCars)	0.882475
17	(GarageYrBlt, YearBuilt)	0.825667
4	(GrLivArea, TotRmsAbvGrd)	0.825489
1	(1stFlrSF, TotalBsmtSF)	0.819530
26	(2ndFlrSF, GrLivArea)	0.687501
6	(BedroomAbvGr, TotRmsAbvGrd)	0.676620
2	(BsmtFinSF1, BsmtFullBath)	0.649212
25	(GarageYrBlt, YearRemodAdd)	0.642277
15	(FullBath, GrLivArea)	0.630012
14	(2ndFlrSF, TotRmsAbvGrd)	0.616423
20	(2ndFlrSF, HalfBath)	0.609707
23	(GarageCars, OverallQual)	0.600671
9	(GrLivArea, OverallQual)	0.593007
8	(YearBuilt, YearRemodAdd)	0.592855
10	(GarageCars, GarageYrBlt)	0.588920
7	(OverallQual, YearBuilt)	0.572323
12	(1stFlrSF, GrLivArea)	0.566024
5	(GarageArea, GarageYrBlt)	0.564567
21	(GarageArea, OverallQual)	0.562022
24	(FullBath, TotRmsAbvGrd)	0.554784
0	(OverallQual, YearRemodAdd)	0.550684
11	(FullBath, OverallQual)	0.550600
18	(GarageYrBlt, OverallQual)	0.547766
22	(GarageCars, YearBuilt)	0.537850
13	(OverallQual, TotalBsmtSF)	0.537808
27	(BsmtFinSF1, TotalBsmtSF)	0.522396
19	(BedroomAbvGr, GrLivArea)	0.521270
3	(2ndFlrSF, BedroomAbvGr)	0.502901

这显示了多重共线性。
在线性回归模型中，多重共线性是指特征与其他多个特征相关。当你的模型包含有多个与目标变量相关的因素，而这些因素也相关影响时，即为多重共线性发生。

问题:

多重共线性会增加了这些系数的标准误差。
这意味着，多重共线性会使一些本应该显著的变量，变得没有那么显著。

三种方式可避免这种情况:

完全删除这些变量
通过添加或一些操作，增加新的特征变量
通过PCA(Principal Component Analysis,主成分分析), 来减少特征变量的多重共线性.

参考:http://blog.minitab.com/blog/understanding-statistics/handling-multicollinearity-in-regression-analysis

热力图

import seaborn as sns
corrMatrix=houses[["SalePrice","OverallQual","GrLivArea","GarageCars",
                  "GarageArea","GarageYrBlt","TotalBsmtSF","1stFlrSF","FullBath",
                  "TotRmsAbvGrd","YearBuilt","YearRemodAdd"]].corr()

sns.set(font_scale=1.10)  #font_scale表示图像与字体大小比例
plt.figure(figsize=(10, 10))

sns.heatmap(corrMatrix, vmax=.8, linewidths=0.01,
            square=True,annot=True,cmap='viridis',linecolor="white")
plt.title('Correlation between features');

如我们所见,热力图中只有少量特征变量表现出显著的多重共线性。让我们聚焦到对角线的黄色方块和线框出的少量黄色区域。

SalePrice and OverallQual

GarageArea and GarageCars

TotalBsmtSF and 1stFlrSF

GrLiveArea and TotRmsAbvGrd

YearBulit and GarageYrBlt

在我们用这些变量进行预测之前，我们不得不新建一个源于这些变量的单特征变量

关键特征

houses[['OverallQual','SalePrice']].groupby(['OverallQual'],
as_index=False).mean().sort_values(by='OverallQual', ascending=False)

	OverallQual	SalePrice
9	10	438588.388889
8	9	367513.023256
7	8	274735.535714
6	7	207716.423197
5	6	161603.034759
4	5	133523.347607
3	4	108420.655172
2	3	87473.750000
1	2	51770.333333
0	1	50150.000000

houses[['GarageCars','SalePrice']].groupby(['GarageCars'],
as_index=False).mean().sort_values(by='GarageCars', ascending=False)

	GarageCars	SalePrice
4	4	192655.800000
3	3	309636.121547
2	2	183851.663835
1	1	128116.688347
0	0	103317.283951

houses[['Fireplaces','SalePrice']].groupby(['Fireplaces'],
as_index=False).mean().sort_values(by='Fireplaces', ascending=False)

	Fireplaces	SalePrice
3	3	252000.000000
2	2	240588.539130
1	1	211843.909231
0	0	141331.482609

目标变量的可视化

单变量分析

1个单变量是如何分布在一个数值区间上。
它的统计特征是什么。
它是正偏分布，还是负偏分布。

sns.distplot(houses['SalePrice'], color="r", kde=False)
plt.title("Distribution of Sale Price")
plt.ylabel("Number of Occurences")
plt.xlabel("Sale Price");

售价为正偏分布，图表显示了一些峰度。

#偏度,表示在请求的轴上返回无偏倾斜
# 具体参考https:https://blog.csdn.net/colorknight/article/details/9531437

houses['SalePrice'].skew()

1.8828757597682129

#峰度，表示使用费雪的峰度定义在请求的轴上返回无偏峰度

houses['SalePrice'].kurt()

6.536281860064529

#删除异常值
#np.percentile()沿着指定的轴计算数据的第q百分位数
upperlimit = np.percentile(houses.SalePrice.values, 99.5)
print(upperlimit)
houses['SalePrice'].loc[houses['SalePrice']>upperlimit] = upperlimit

plt.scatter(range(houses.shape[0]), houses["SalePrice"].values,color='orange')
plt.title("Distribution of Sale Price")
plt.xlabel("Number of Occurences")
plt.ylabel("Sale Price");

514508.61012787104

缺失值处理

====================

训练数据集中的缺失值可能会对模型的预测或分类产生负面影响。

有一些机器学习算法对数据缺失敏感，例如支持向量机 SVM（Support Vector Machine）

但是使用平均数/中位数/众数来填充缺失值或使用其他预测模型来预测缺失值也不可能实现100％准确预测，比较可取的方式是你可以使用决策树和随机森林等模型来处理缺失值。

# 查看是否有有缺失值的列
null_columns=houses.columns[houses.isnull().any()]  #.any()表示是否所有元素为真
#得到null_columns为一个含空值的列的list
houses[null_columns].isnull().sum()

LotFrontage      259
Alley           1369
MasVnrType         8
MasVnrArea         8
BsmtQual          37
BsmtCond          37
BsmtExposure      38
BsmtFinType1      37
BsmtFinType2      38
Electrical         1
FireplaceQu      690
GarageType        81
GarageYrBlt       81
GarageFinish      81
GarageQual        81
GarageCond        81
PoolQC          1453
Fence           1179
MiscFeature     1406
dtype: int64

labels = []
values = []
for col in null_columns:
    labels.append(col)
    values.append(houses[col].isnull().sum())
ind = np.arange(len(labels))
width = 0.9
fig, ax = plt.subplots(figsize=(6,25))
rects = ax.barh(ind, np.array(values), color='violet')
ax.set_yticks(ind+((width)/2.))
ax.set_yticklabels(labels, rotation='horizontal')
ax.set_xlabel("Count of missing values")
ax.set_ylabel("Column Names")
ax.set_title("Variables with missing values");

多变量分析

当我们去理解3个及以上变量之间的相互影响。

临街距离

我们可以看看占地面积和临街距离之间是否存在某种关联。

houses['LotFrontage'].corr(houses['LotArea'])

0.42609501877180816

这看起来不好，我们可以试试一些多项式表达式，如平方根

houses['SqrtLotArea']=np.sqrt(houses['LotArea'])
houses['LotFrontage'].corr(houses['SqrtLotArea'])

0.6020022167939364

0.60看起来不错

sns.jointplot(houses['LotFrontage'],houses['SqrtLotArea'],color='gold');

filter = houses['LotFrontage'].isnull()
houses.LotFrontage[filter]=houses.SqrtLotArea[filter]
houses.LotFrontage

C:\ProgramData\Anaconda3\lib\site-packages\ipykernel_launcher.py:2: SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  





0        65.000000
1        80.000000
2        68.000000
3        60.000000
4        84.000000
5        85.000000
6        75.000000
7       101.892100
8        51.000000
9        50.000000
10       70.000000
11       85.000000
12      113.877127
13       91.000000
14      104.498804
15       51.000000
16      106.023582
17       72.000000
18       66.000000
19       70.000000
20      101.000000
21       57.000000
22       75.000000
23       44.000000
24       90.807489
25      110.000000
26       60.000000
27       98.000000
28       47.000000
29       60.000000
           ...    
1430     60.000000
1431     70.199715
1432     60.000000
1433     93.000000
1434     80.000000
1435     80.000000
1436     60.000000
1437     96.000000
1438     90.000000
1439     80.000000
1440     79.000000
1441     66.528190
1442     85.000000
1443     94.095696
1444     63.000000
1445     70.000000
1446    161.684879
1447     80.000000
1448     70.000000
1449     21.000000
1450     60.000000
1451     78.000000
1452     35.000000
1453     90.000000
1454     62.000000
1455     62.000000
1456     85.000000
1457     66.000000
1458     68.000000
1459     75.000000
Name: LotFrontage, Length: 1460, dtype: float64

砌体单板类型 and 砌体单板面积

plt.scatter(houses["MasVnrArea"],houses["SalePrice"])
plt.title("MasVnrArea Vs SalePrice ")
plt.ylabel("SalePrice")
plt.xlabel("Mas Vnr Area in sq feet");

sns.boxplot("MasVnrType","SalePrice",data=houses);

houses["MasVnrType"] = houses["MasVnrType"].fillna('None')
houses["MasVnrArea"] = houses["MasVnrArea"].fillna(0.0)

双变量分析

我们可以尝试去找出数据集中的2个参数是如何相互关联的。从某种意义上说，当一个参数减少时，另一个参数也减少，或者当一个参数增加时，另一个参数也增加，即为正相关

当一个参数增加，另一个参数减少，或者反之亦然，即为负相关。

电气系统

sns.boxplot("Electrical","SalePrice",data=houses)
plt.title("Electrical Vs SalePrice ")
plt.ylabel("SalePrice")
plt.xlabel("Electrical");

#我们可以用最常见的数值去替代缺失值。
houses["Electrical"] = houses["Electrical"].fillna('SBrkr')

小巷

sns.stripplot(x=houses["Alley"], y=houses["SalePrice"],jitter=True);

所有缺失值表示特定房屋没有小巷入口。我们可以用’None’来替代。

houses["Alley"] = houses["Alley"].fillna('None')

地下室特征

plt.scatter(houses["TotalBsmtSF"],houses["SalePrice"])
plt.title("Total Basement area in Square Feet Vs SalePrice ")
plt.ylabel("SalePrice")
plt.xlabel("Total Basement area in Square Feet");

#地下室总面积，有几个的异常值，让我们去除这些值
upperlimit = np.percentile(houses.TotalBsmtSF.values, 99.5)
houses['TotalBsmtSF'].loc[houses['TotalBsmtSF']>upperlimit] = upperlimit

plt.scatter(houses.TotalBsmtSF, houses["SalePrice"].values,color='orange')
plt.title("TotalBsmtSF Vs SalePrice ")
plt.ylabel("SalePrice")
plt.xlabel("Total Basement in sq feet");

basement_cols=['BsmtQual','BsmtCond','BsmtExposure','BsmtFinType1','BsmtFinType2','BsmtFinSF1','BsmtFinSF2']
houses[basement_cols][houses['BsmtQual'].isnull()==True]

	BsmtQual	BsmtCond	BsmtExposure	BsmtFinType1	BsmtFinType2
17	NaN	NaN	NaN	NaN	NaN
39	NaN	NaN	NaN	NaN	NaN
90	NaN	NaN	NaN	NaN	NaN
102	NaN	NaN	NaN	NaN	NaN
156	NaN	NaN	NaN	NaN	NaN
182	NaN	NaN	NaN	NaN	NaN
259	NaN	NaN	NaN	NaN	NaN
342	NaN	NaN	NaN	NaN	NaN
362	NaN	NaN	NaN	NaN	NaN
371	NaN	NaN	NaN	NaN	NaN
392	NaN	NaN	NaN	NaN	NaN
520	NaN	NaN	NaN	NaN	NaN
532	NaN	NaN	NaN	NaN	NaN
533	NaN	NaN	NaN	NaN	NaN
553	NaN	NaN	NaN	NaN	NaN
646	NaN	NaN	NaN	NaN	NaN
705	NaN	NaN	NaN	NaN	NaN
736	NaN	NaN	NaN	NaN	NaN
749	NaN	NaN	NaN	NaN	NaN
778	NaN	NaN	NaN	NaN	NaN
868	NaN	NaN	NaN	NaN	NaN
894	NaN	NaN	NaN	NaN	NaN
897	NaN	NaN	NaN	NaN	NaN
984	NaN	NaN	NaN	NaN	NaN
1000	NaN	NaN	NaN	NaN	NaN
1011	NaN	NaN	NaN	NaN	NaN
1035	NaN	NaN	NaN	NaN	NaN
1045	NaN	NaN	NaN	NaN	NaN
1048	NaN	NaN	NaN	NaN	NaN
1049	NaN	NaN	NaN	NaN	NaN
1090	NaN	NaN	NaN	NaN	NaN
1179	NaN	NaN	NaN	NaN	NaN
1216	NaN	NaN	NaN	NaN	NaN
1218	NaN	NaN	NaN	NaN	NaN
1232	NaN	NaN	NaN	NaN	NaN
1321	NaN	NaN	NaN	NaN	NaN
1412	NaN	NaN	NaN	NaN	NaN

所有的包含有NAN的分类变量，含有0值的连续变量。
意味着这些房屋没有地下室。
我们可以用’None’来替代。

for col in basement_cols:
    if 'FinSF'not in col:
        houses[col] = houses[col].fillna('None')

壁炉

#之前的sns.factorplot()不可用了，用catplot（）代替，hue表示加入第三个维度的参数
sns.catplot(x="Fireplaces",y="SalePrice",data=houses,hue='FireplaceQu',kind='point');

有2个壁炉可以提升房价，优质壁炉也是一大卖点。

#如果壁炉质量存在缺失值，意味着房屋没有壁炉
houses["FireplaceQu"] = houses["FireplaceQu"].fillna('None')
pd.crosstab(houses.Fireplaces, houses.FireplaceQu) 
#pd.crosstab()表示计算几个简单因子出现频次的交叉表

FireplaceQu	Ex	Fa	Gd	None	Po	TA
Fireplaces
0	0	0	0	690	0	0
1	19	28	324	0	20	259
2	4	4	54	0	0	53
3	1	1	2	0	0	1

车库

sns.distplot(houses["GarageArea"],color='r', kde=False);

#车库面积存在一些异常值，去除这些异常值（套路代码）
upperlimit = np.percentile(houses.GarageArea.values, 99.5)
houses['GarageArea'].loc[houses['GarageArea']>upperlimit] = upperlimit

plt.scatter(houses.GarageArea, houses["SalePrice"].values,color='violet')
plt.title("Garage Area Vs SalePrice ")
plt.ylabel("SalePrice")
plt.xlabel("Garage Area in sq feet");

sns.violinplot(houses["GarageCars"],houses["SalePrice"])
plt.title("Garage Cars Vs SalePrice ")
plt.ylabel("SalePrice")
plt.xlabel("Number of Garage cars");

garage_cols=['GarageType','GarageQual','GarageCond','GarageYrBlt','GarageFinish','GarageCars','GarageArea']
houses[garage_cols][houses['GarageType'].isnull()==True]

	GarageType	GarageQual	GarageCond	GarageYrBlt	GarageFinish	GarageCars	GarageArea
39	NaN	NaN	NaN	NaN	NaN	0	0.0
48	NaN	NaN	NaN	NaN	NaN	0	0.0
78	NaN	NaN	NaN	NaN	NaN	0	0.0
88	NaN	NaN	NaN	NaN	NaN	0	0.0
89	NaN	NaN	NaN	NaN	NaN	0	0.0
99	NaN	NaN	NaN	NaN	NaN	0	0.0
108	NaN	NaN	NaN	NaN	NaN	0	0.0
125	NaN	NaN	NaN	NaN	NaN	0	0.0
127	NaN	NaN	NaN	NaN	NaN	0	0.0
140	NaN	NaN	NaN	NaN	NaN	0	0.0
148	NaN	NaN	NaN	NaN	NaN	0	0.0
155	NaN	NaN	NaN	NaN	NaN	0	0.0
163	NaN	NaN	NaN	NaN	NaN	0	0.0
165	NaN	NaN	NaN	NaN	NaN	0	0.0
198	NaN	NaN	NaN	NaN	NaN	0	0.0
210	NaN	NaN	NaN	NaN	NaN	0	0.0
241	NaN	NaN	NaN	NaN	NaN	0	0.0
250	NaN	NaN	NaN	NaN	NaN	0	0.0
287	NaN	NaN	NaN	NaN	NaN	0	0.0
291	NaN	NaN	NaN	NaN	NaN	0	0.0
307	NaN	NaN	NaN	NaN	NaN	0	0.0
375	NaN	NaN	NaN	NaN	NaN	0	0.0
386	NaN	NaN	NaN	NaN	NaN	0	0.0
393	NaN	NaN	NaN	NaN	NaN	0	0.0
431	NaN	NaN	NaN	NaN	NaN	0	0.0
434	NaN	NaN	NaN	NaN	NaN	0	0.0
441	NaN	NaN	NaN	NaN	NaN	0	0.0
464	NaN	NaN	NaN	NaN	NaN	0	0.0
495	NaN	NaN	NaN	NaN	NaN	0	0.0
520	NaN	NaN	NaN	NaN	NaN	0	0.0
...	...	...	...	...	...	...	...
954	NaN	NaN	NaN	NaN	NaN	0	0.0
960	NaN	NaN	NaN	NaN	NaN	0	0.0
968	NaN	NaN	NaN	NaN	NaN	0	0.0
970	NaN	NaN	NaN	NaN	NaN	0	0.0
976	NaN	NaN	NaN	NaN	NaN	0	0.0
1009	NaN	NaN	NaN	NaN	NaN	0	0.0
1011	NaN	NaN	NaN	NaN	NaN	0	0.0
1030	NaN	NaN	NaN	NaN	NaN	0	0.0
1038	NaN	NaN	NaN	NaN	NaN	0	0.0
1096	NaN	NaN	NaN	NaN	NaN	0	0.0
1123	NaN	NaN	NaN	NaN	NaN	0	0.0
1131	NaN	NaN	NaN	NaN	NaN	0	0.0
1137	NaN	NaN	NaN	NaN	NaN	0	0.0
1143	NaN	NaN	NaN	NaN	NaN	0	0.0
1173	NaN	NaN	NaN	NaN	NaN	0	0.0
1179	NaN	NaN	NaN	NaN	NaN	0	0.0
1218	NaN	NaN	NaN	NaN	NaN	0	0.0
1219	NaN	NaN	NaN	NaN	NaN	0	0.0
1234	NaN	NaN	NaN	NaN	NaN	0	0.0
1257	NaN	NaN	NaN	NaN	NaN	0	0.0
1283	NaN	NaN	NaN	NaN	NaN	0	0.0
1323	NaN	NaN	NaN	NaN	NaN	0	0.0
1325	NaN	NaN	NaN	NaN	NaN	0	0.0
1326	NaN	NaN	NaN	NaN	NaN	0	0.0
1337	NaN	NaN	NaN	NaN	NaN	0	0.0
1349	NaN	NaN	NaN	NaN	NaN	0	0.0
1407	NaN	NaN	NaN	NaN	NaN	0	0.0
1449	NaN	NaN	NaN	NaN	NaN	0	0.0
1450	NaN	NaN	NaN	NaN	NaN	0	0.0
1453	NaN	NaN	NaN	NaN	NaN	0	0.0

81 rows × 7 columns

所有与车库相关的变量在同一行存在缺失值。
意味着我们可以用None来替代分类变量，用0来替代这些连续变量。

#套路代码，填充空值
for col in garage_cols:
    if houses[col].dtype==np.object:
        houses[col] = houses[col].fillna('None')
    else:
        houses[col] = houses[col].fillna(0)

泳池

#如果泳池面积为0，则意味这些房屋没有泳池。
#因此，我们可以用None来替代泳池质量。
houses["PoolQC"] = houses["PoolQC"].fillna('None')
sns.catplot("PoolArea","SalePrice",data=houses,hue="PoolQC",kind='bar')
plt.title("Pool Area , Pool quality and SalePrice ")
plt.ylabel("SalePrice")
plt.xlabel("Pool Area in sq feet");

栅栏

sns.violinplot(houses["Fence"],houses["SalePrice"])
plt.title("Fence wrt SalePrice ")
plt.ylabel("SalePrice")
plt.xlabel("Type of Fence");

栅栏含有1179个空值。
我们可以确定假设那些房屋没有栅栏，并用None替换这些值。

houses["Fence"] = houses["Fence"].fillna('None')

其他特征

sns.barplot(houses["MiscFeature"],houses["SalePrice"])
plt.title("Miscelleneous Features  Vs SalePrice ")
plt.ylabel("SalePrice")
plt.xlabel("Type of Miscelleneous Features");

#一些房屋没有其他特征，如棚子、网球场等等
houses["MiscFeature"] = houses["MiscFeature"].fillna('None')

#让我们确认我们已经删除了所有缺失值
houses[null_columns].isnull().sum()

LotFrontage     0
Alley           0
MasVnrType      8
MasVnrArea      8
BsmtQual        0
BsmtCond        0
BsmtExposure    0
BsmtFinType1    0
BsmtFinType2    0
Electrical      0
FireplaceQu     0
GarageType      0
GarageYrBlt     0
GarageFinish    0
GarageQual      0
GarageCond      0
PoolQC          0
Fence           0
MiscFeature     0
dtype: int64

数据可视化

分区划分

美国按照区块划分


labels = houses["MSZoning"].unique()
sizes = houses["MSZoning"].value_counts().values  #返回一个统计频次的list
explode=[0.1,0,0,0,0]
parcent = 100.*sizes/sizes.sum()
#zip() 函数用于将可迭代的对象作为参数，将对象中对应的元素打包成一个个元组，然后返回由这些元组组成的列表。
#具体链接：http://www.runoob.com/python/python-func-zip.html
#str.format()具体使用：http://www.runoob.com/python/att-string-format.html
labels = ['{0} - {1:1.1f} %'.format(i,j) for i,j in zip(labels, parcent)]

colors = ['yellowgreen', 'gold', 'lightblue', 'lightcoral','blue']
#explode表示偏移半径
patches, texts= plt.pie(sizes, colors=colors,explode=explode,
                        shadow=True,startangle=90)
#plt.legend()表示图例，loc表示图例位置
plt.legend(patches, labels, loc="best")

plt.title("Zoning Classification")
plt.show()



sns.violinplot(houses.MSZoning,houses["SalePrice"])
plt.title("MSZoning wrt Sale Price")
plt.xlabel("MSZoning")
plt.ylabel("Sale Price");

以平方英尺计算的1层面积

plt.scatter(houses["1stFlrSF"],houses.SalePrice, color='red')
plt.title("Sale Price wrt 1st floor")
plt.ylabel('Sale Price (in dollars)')
plt.xlabel("1st Floor in square feet");

houses['1stFlrSF']

0        856
1       1262
2        920
3        961
4       1145
5        796
6       1694
7       1107
8       1022
9       1077
10      1040
11      1182
12       912
13      1494
14      1253
15       854
16      1004
17      1296
18      1114
19      1339
20      1158
21      1108
22      1795
23      1060
24      1060
25      1600
26       900
27      1704
28      1600
29       520
        ... 
1430     734
1431     958
1432     968
1433     962
1434    1126
1435    1537
1436     864
1437    1932
1438    1236
1439    1040
1440    1423
1441     848
1442    1026
1443     952
1444    1422
1445     913
1446    1188
1447    1220
1448     796
1449     630
1450     896
1451    1578
1452    1072
1453    1140
1454    1221
1455     953
1456    2073
1457    1188
1458    1078
1459    1256
Name: 1stFlrSF, Length: 1460, dtype: int64

#车库面积存在一些异常值，去除这些异常值（套路代码）
upperlimit = np.percentile(houses['1stFlrSF'].values, 99.5)
houses['1stFlrSF'].loc[houses['1stFlrSF']>upperlimit] = upperlimit

plt.scatter(houses['1stFlrSF'], houses["SalePrice"].values,color='violet')
plt.title("1stFlrSF Vs SalePrice ")
plt.ylabel("SalePrice")
plt.xlabel("1stFlrSF in sq feet");

地面生活区的售价

plt.scatter( houses["GrLivArea"],houses["SalePrice"],color='purple')
plt.title("Sale Price wrt Ground living area")
plt.ylabel('Sale Price')
plt.xlabel("Ground living area");

每平方英尺单价

houses['SalePriceSF'] = houses['SalePrice']/houses['GrLivArea']
plt.hist(houses['SalePriceSF'], bins=15,color="gold")  #bin表示柱状图被分割的段数
plt.title("Sale Price per Square Foot")
plt.ylabel('Number of Sales')
plt.xlabel('Price per square feet');

#每平方英尺的平均售价
print("$",houses.SalePriceSF.mean())

$ 120.40732172914129

车库面积

plt.scatter(houses["GarageArea"],houses.SalePrice, color='green')
plt.title("Sale Price vs Garage Area")
plt.ylabel('Sale Price(in dollars)')
plt.xlabel("Garage Area in sq foot");

建筑年份，改造年份、房龄

#建筑年份
sns.distplot(houses["YearBuilt"],color='seagreen', kde=False);

#改造年份
sns.distplot(houses["YearRemodAdd"].astype(int),color='r', kde=False);

#sold年份
sns.distplot(houses["YrSold"],color='r', kde=False);

#房龄
houses['ConstructionAge'] = houses['YrSold'] - houses['YearBuilt']
plt.scatter(houses['ConstructionAge'], houses['SalePriceSF'])
plt.ylabel('Price per square foot (in dollars)')
plt.xlabel("Construction Age of house");

房价与房龄成反比.

暖气和中央空调布置

sns.stripplot(x="HeatingQC", y="SalePrice",data=houses,hue='CentralAir',jitter=True,split=True)
plt.title("Sale Price vs Heating Quality");

有中央空调布置的房屋，售价更高。

房屋里的浴室

sns.boxplot(houses["FullBath"],houses["SalePrice"])
plt.title("Sale Price vs Full Bathrooms");

sns.violinplot( houses["HalfBath"],houses["SalePrice"])
plt.title("Sale Price vs Half Bathrooms");

地面以上的总房间数

sns.barplot(houses["TotRmsAbvGrd"],houses["SalePrice"],palette="Blues_d")
plt.title("Sale Price vs Number of rooms");

厨房质量

sns.factorplot("KitchenAbvGr","SalePrice",data=houses,hue="KitchenQual")
plt.title("Sale Price vs Kitchen");

有1个高质量的厨房能够显著的提高房屋售价.

街区

plt.xticks(rotation=45) 
sns.barplot(houses["Neighborhood"],houses["SalePrice"])
plt.title("Sale Price vs Neighborhood");

整体质量

plt.barh(houses["OverallQual"],width=houses["SalePrice"],color="r")
plt.title("Sale Price vs Overall Quality of house")
plt.ylabel("Overall Quality of house")
plt.xlabel("Sale Price");

二层售价

plt.scatter(houses["2ndFlrSF"],houses["SalePrice"],color="gold")
plt.title("Sale Price vs 2nd floor in sq feet");
plt.xlabel("2nd floor in sq feet")
plt.ylabel("Sale Price");

街道

#大多数街道已铺好，让我们可视化它
sns.stripplot(x=houses["Street"], y=houses["SalePrice"],jitter=True)
plt.title("Sale Price vs Streets");

以上只是对数据进行可视化的探索，下次将叙述怎么进行建模和训练，如有错误请大家多多批评。

你可能感兴趣的:(比赛)

勇士赢了，我把掌声给了骑士复角度的生活
今天，不参加高考，只看NBA总决赛第三场的较量。这么说有点得罪高考生了，不过我没有当他们面秀，也没有跑到考点外面得瑟，所以我内心毫无波澜。毫无疑问，考场里不乏骑士和勇士球迷，在紧张作答语文考卷同时还心系着球队，不过我希望今天的比赛不会让你们有所分心，毕竟高考不会像比赛录像那样可以再来。今天，好像起来赶考一样，我起得很早，然而事实是睡不着，挺郁闷的，又不是我高考，我紧张什么？九点我并没有准时打开浏览
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
2022-11-25 疫情卷土而来快乐微笑每一天
原计划本周因比赛休息两天半，结果一个阳性患者疫情转变了所有，轮休课表换掉，继续周五上课；比赛顺延，假期顺延，相对应确诊病例所在区域封闭。这疫情何时是一个尽头，谁也无法知晓，唯有进出带好口罩，保护自己，方能战胜疫情。疫情无情，人间温暖，期待疫情早日过去，大地重返平安和谐。
稍微落后的人更容易被激励成长有杕之杜
今日纯分享。图片发自App沃顿商学院市场营销学教授乔纳·伯杰在接受《哈佛商业评论》采访时，介绍了他的一项研究。伯杰教授告诉参加实验的人，他们在跟隔壁房间的另一个人比赛打字速度，获胜的人有金钱奖励。一轮比赛之后，伯杰给了这些人不同的反馈，有的人被告知远远落后竞争对手，有的人被告知稍稍落后，还有的人被告知不相上下或者略微领先。结果只有那些被告知“稍微落后”的人，在第二轮中速度明显提高，而且总体来说，这
向着明亮那方12.7 向着明亮那方的我们
【水晶泥的妙用】在地上捡到一滩水晶泥，本想扔进垃圾桶，发现水晶泥上附着了些许蓝色钢笔墨水。我脑洞大开，水晶泥可不可以用来处理钢笔墨渍呢？正好垃圾桶那面瓷砖墙上有蓝色钢笔水痕迹，我用水晶泥沾了沾墨迹，很轻易地把墨色粘了下来，好干净。【长跑报名】我让同学们自愿报名参加冬季长跑比赛，课间将名字报给班长。班长把名字统计在本子上，把本子拿来给我看：“老师，我晚上回去给你做张电子表，发给你。”看来班长又学了新
全运会结束了除了闭幕式无亮点外对西安发展大有裨益新心芯达人
前言昨天是最后一个比赛日，山东代表团单日揽4金，最后以58金55银47铜，总计160枚奖牌的成绩位列奖牌榜第一的位置，这已经是山东连续第四届全运会取得奖牌榜第一的成绩，以绝对的优势达成了四连冠成就，山东属实厉害！广东在本届全运会中也拼尽了全力，在26号的最后一个比赛日，狂揽6金，最后以54金，32银，56铜，总计142枚奖牌位列奖牌榜第二的位置，虽然最后一个比赛日爆发连夺6金，最后还是没有撼动山东
72称体重作者：陈瑄仪家庭教育CEO
2019年5月1日星期三大雨昭阳区今天我们开始准备明天的比赛，教练说早上8:00叫我们到市委党校集合，爸爸很早就送我到市委党校了，我在那里等了好久，教练还没来，我就在那里跑步，跑了十几圈教练还没有来又跑几圈教练还没来，我们就觉得奇怪了，教练不会在家里睡懒觉吧，我们又跑了几圈才休息。等教练来了我们就去称重体重，第一次称，没过，我急了，教练说我超了0.3公斤，让我去跑了几圈重量才减下来，明明之前几天只
2019-11-29晨间日记麦新
今天是什么日子起床：6:00就寝：23:30天气：晴朗心情：平静纪念日：第二场比赛叫我起床的不是闹钟是梦想年度目标及关键点：国考考研本月重要成果：学习今日三只青蛙/番茄钟点评作业出镜点评夜班成功日志-记录三五件有收获的事务出镜点评点评作业夜班财务检视-1人际的投入来回跑～开卷有益-学习/读书/听书《孔子》健康与饮食今日步数：8000+好习惯打卡早晚打卡阅读打卡听书打卡社群打卡
特雷-杨表现出色，比肩詹姆斯，库里 Allen196
特雷-杨得到35分11次助攻。从2000年以后只有两个新秀可以打出这样的数据（至少35分，10次助攻），他们的名字是：史蒂芬-库里，勒布朗-詹姆斯。现在亚特兰大老鹰队的特雷-杨加入了他们的行列，在对阵克里夫兰骑士队的比赛中，他拿到了35分，11次助攻帮助老鹰队取得胜利，同时也是老鹰队主教练罗伊德-皮尔斯作为NBA主教练的首场胜利。揭幕战战胜尼克斯，第二场战胜防守强硬的灰熊后，杨再次帮助球队战胜了骑
D15 论语学习笔记许小兔Angelina
悟：上级对下级的宽容：凡事成定局，就不你说了；已接近完结的事，也没必要匡正和挽回了；既然是过去的事，也没必要追究得失和责任了。对待孩子教育也是，不用“问责制”，这样容易让孩子因为害怕担责而说谎。应当循循善诱，避免再犯错才是最重要的。3.16：【原文】子曰：“射不主皮，为力不同科，古之道也。”【译文】孔子说：“射箭比赛不以射透为主，而主要看是否射得准确，因为人的力量不同，自古如此。”3.17：【原文
中国男篮：15万赛后评分，赵继伟第三，赵睿3.8分倒数第一体娱荒原
在某体育社交软件中，有15万人之多为中国男篮第二场比赛进行点评，我们一起来看看他们的评分排名。这场比赛有12人出场，全部球员都有得分进账。吴前9.9分，这场比赛他拿到全队最高的18分还有4篮板3助攻3抢断，虽然也有3次失误和5次犯规，但是瑕不掩瑜，特别是最后一节单节得到10分跟赵继伟的连线帮助球队逆转对手赢得一场胜利，他的发挥至关重要，要知道对手对他也有研究，基本上都是贴身防守，持球还有夹击，吴前
平昌冬奥，人生竞赛不要给对手和裁判任何机会小猫_003e
如火如荼的平昌冬奥会拉下了帷幕，但是自从某年的伦敦奥运会之后，我们中国队自从好像就“最爱干犯规的事儿”。2月20日，短道速滑女子3000米接力赛，可以说是相当令人痛心了。比赛中，韩国队交接棒失误“扑街”，阻拦了加拿大队，带来的连锁反应也影响了中国队。中国队以微弱劣势落后韩国队，第二个冲线！韩国队这次失误犯规那么明显，应该唱费玉清的我送你离开千里之外。但···最终赛场上裁判宣布：韩国队冠军，中国队、
周记15 安诗雨
星期天回学校的时候，发现寝室里有好几只臭屁虫。星期一的电学很难，数学也非常难，让我感到非常吃力。历史比赛日期就在11月29日，也就是我的生日。唉，过生日去比赛，我好难受。不仅如此，还是高手对决……老师希望“保三争二冲一”，我也希望来一个一等奖，这样多光荣，也证明了自己的实力。不管怎么样，要全力以赴。星期二我们进行了电子技能实训期中考试。对我来说，简直不要太轻松。无非就是拿万用表测电阻值，顺带读出来
【足坛简讯】9月2日足坛简讯及比赛预告神州足球
【足坛简讯】9月2日足坛简讯及比赛预告9月2日足坛简讯与比赛预告比赛结果✍️意甲第3轮：十人米兰2-1罗马三连胜领跑莱奥凌空斩吉鲁点射托莫里染红✍️德甲第3轮：两连平！多特连丢两球2-2遭升班马海登海姆扳平布兰特凌空斩✍️沙特联：米特洛维奇戴帽本泽马破门新月连入三球4-3逆转吉达联合✍️热身赛：中国国奥1-0土库曼斯坦国奥，艾菲尔丁制胜球国内足坛✍️明日之星足球赛：上海队点球憾负曼城，大阪樱花蔚山
都2024年了，还在问网络安全怎么入门，气得我当场脑血栓发作网安大师兄 web安全网络安全网络安全学习
前言本人从事网路安全工作12年，曾在2个大厂工作过，安全服务、售后服务、售前、攻防比赛、安全讲师、销售经理等职位都做过，对这个行业了解比较全面。下面就开始进入正题，如何从一个萌新一步一步进入网络安全行业。正题首先,在准备进入这个行业之前，我们要问一下我们的内心，工作千千万，为什么要想进入这个行业？相信每个人的答案都不一样，有的人会说，这个行业整体上比其他行业赚钱多，有的人会说特别喜欢技术，想钻研一
第十二章〈一〉汝此一生1985
接下来的运动会时光便是和东美一起度过。两人时不时就去超市买上一大袋东西，提着一大袋东西然后坐在操场上看着比赛消磨时光。下午两三点时刻，太阳很大，笼罩了整个操场，晒得人只想睡觉。秦嘉杨在篮球场挥洒热汗，东美躺在林召航腿上和林召航一起听着歌。拒绝去看秦嘉杨比赛，“我可不想看见他和他那个情人的亲密互动。”说着忿忿填进嘴里一个薯片。林召航拔下耳机，“哪来的情人？”东美：“姓篮名球”东美的嘴巴变成了“0”形
Dev-C++头文件小Bug 蒟蒻pzjdsg666 bug c语言 c++
Dev-C++应该是大家最常用的C++软件了吧，但它有几个小Bug。1、“万能头”众所周知，“万能头”在官方比赛中不能使用（你要用没人拦着你~呵呵），但在Dev-C++可以使用。所以，我们可以省掉好多头文件！如下：#includeusingnamespacestd;2、C语言头文件在Dev-C++中，你竟然可以使用C语言头文件（惊不惊喜~意不意外~）如下：#include3、iostream竟然包
跃迁第一天师者之写道
《跃迁》你怎么也想不到火车在替代马车的时候，很多人嘲笑火车，甚至夸张地和火车比赛，直到今天，马车被淘汰了，更别说有能赶上马车的火车了！时代在发展，我们稍微不学习，不改变就可能永远地被淘汰在世界的某一个角落里。今天我用拆书法拆了我自己。
周二竞足：塞维利亚力争小胜巴萨，亚特兰大击败热那亚如探囊取物阿东侃球
昨日赛事回顾：富勒姆对阵谢菲尔德联这场很简单，整体方向是正确的，但是谢菲联在开局3分钟进了1个球后，富勒姆竟然没能追平，全场就只有这1个进球，有点可惜。莱万特和巴伦西亚这一场比赛简直就是折磨人，上半场莱万特2-1领先，下半场却被反攻最终3-4结束，硬生生的打出了胜负的战果，着实惊到了我。周二003意甲：热那亚VS亚特兰大比赛时间：2021-12-2203:45基本面分析：热那亚联赛1胜7平10负积
当姨妈遇见马拉松赛事，该怎么破语非年
图片发自App凌晨4:30分匆匆洗漱出门，到5:10分集合点与团长、许总车自驾前往参赛地（漳州市华安县），车上听说参赛点大雨倾盆，本来就有心无意参赛的（没雨就跑，有雨弃赛），果不其然在进入华安县的时候就遇瓢泼大雨，于是与如风大神们说笑着，若到起跑点还是这般大雨就弃赛。因都身体抱恙。所幸，天工不负有心人，到达目的地存包直到开跑，雨奇迹般的停了。临近比赛的前三天正好生理期，在纠结去还是不去的时候，内心
2022年3月23日复盘凤晴天
工作方面：今天过来开始伎钢筋的结算单。然后开始做模板木方的结算单。开始加昨天钢管扣件对账缺的部分，晚上过来加班，又把那个需求总计划给上传了一下。25号要上传创效和限额领料资料。学习方面：1.秘密的话，还是没有怎么听他们社群里面的分享。2、21天演讲训练营，今天是总决赛及结营仪式。因为加班也没有听他们的比赛。但是看群里边发的就是军人的，感觉军人的气概，那种气魄非常强。3.小a的话已经开始拉10天训练
扎吉托娃：我高兴自己没有让团队失望云游四方的旅人
阿莉娜·扎吉托娃赛后采访时表示，自己满意自己没有让团队失望。“我滑得好，过程非常高兴，克服自己的焦虑，高兴，我没有让团队失望。”“我告诉自己事实上我在训练中一切都做很好，所有的动作都做好了，为什么我不能在比赛中做好呢？”
惊喜！国足福将被施密特神奇复活，他的作用比肩外援，里皮开心了枫桥落夜
2018年7月22日晚，北京工人体育场进行了一场精彩激烈的新京津德比大战，由北京中赫国安对阵天津权健。这是一场强强对话，天津权健是上赛季的中超第三名，亚冠也打进了8强，实力强劲。而北京国安联赛已经11轮不败，领跑积分榜，本赛季是奔着冠军而去的。北京中赫国安本场比赛是有非常大的优势的，因为他们的内外援齐整，巴西国脚奥古斯托从世界杯回来也已经归队，而权健的维特赛尔和莫德斯特都还没有回来，只能有两外援上
写给QADMaoMao 向夏25
写给那个独一无二的毛毛，那个学习护理专业名叫做毛不易的大男孩，谢谢你的歌和故事。2019年1.7日我想把明日之子再完整的看一遍，毛毛记得很清晰的是刚开始有人问你这个比赛假如你拿了冠军你会怎么想，你说这个节目该有多烂让你拿冠军……第一期，你见到薛老师，你的话薛老师第一次不知道该怎么接，但就是很奇怪的留下了你，你说你是业余巨星毛不易接下来自己可以骄傲的向前走了，看到这么憨厚无比的男生，毛毛这一刻我才明
2023-01-08 冬日暖阳栗小媛阳光雨露均沾
1.8冬日暖阳栗小媛冬日里的阳光，那一缕温馨而又含蓄的阳光，映照着我这布满阴霾的冬日天空。就像开在我心中一朵热情的玫瑰，也似冰天雪地里凌寒独自的腊梅，开启我矇昧的心房，让我看到了黑暗背后那一束灿烂的光束——成长。冬日阳光照耀下的我竟显的有些懊恼、沮丧，就像一片刚飘离枝头的枯叶。是关于这次的马术比赛失利了，关键时刻步法错误导致中间的连续障碍跳跃卡顿了，注意力不够集中……下场后教练却温柔的在我耳边说了
27周周总结，预示着，这一学期结束了一方麦浪
当我敲下这周的周总结时，已经处于放假状态。上周重点是备战周四的比赛，一切以比赛为主。时间记录说明了一切。本周时间记录本周的工作学习时长达到历史第二，符合现状。本周用时108.9小时，有效时长91.8小时，纯工作学习时长65.6小时，平均每天用时9.37小时。排名第一的是教务教学，第二名的是社交链接，用21.3小时，第三名的是三餐休息17.1小时，排名第四的是12.4小时，积微事务排名第五，用时7.
共修《幸福》辉辉的茶生活
八月，醉一场青春的流年。慢步在八月的春光里，走走停停，看花开嫣然，看春雨绵绵，感受春风拂面，春天，就是青春的流年。青春，是人生中最美的风景。青春，是一场花开的遇见；青春，是一场痛并快乐着的旅行；青春，是一场轰轰烈烈的比赛；青春，是一场鲜衣奴马的争荣岁月；青春，是一场风花雪月的光阴。青春往事，多么甜蜜；青春岁月，多么靓丽；青春流年，如火如荼。青春里，我们向着梦想前进。跌倒过，伤心过，快乐过，痛苦过，
霍福德梦回巅峰无缘最佳？库里末节18分变身库昊的表现如何？不打篮球爱篮球的男孩
参加季后赛的球队都奔着一个目标，那就是夺取最后的总冠军奖杯，所以各支球队都会拿出100%的实力迎战！在竞争如此激烈的季后赛中，球队明星球员，特别是当家球星的表现往往能主导比赛的走向。今日NBA季后赛东西部半决赛继续进行，东部半决赛雄鹿108-116不敌凯尔特人，西部半决赛勇士101-98逆转险胜灰熊，比赛精彩纷呈，诸多球星表现不俗，塔图姆、霍福德、字母哥、库里等诸多球星都打出华丽亮眼的数据！下面我
孟母横穿中国穿越文明第十二天———和田喜欢土豆
Hello，大家好，我是张依萌。清晨诵读，我要用全身心的爱来迎接今天，但是今天不是全勤，指导员张义群，王睿勤迟到了。并且是有人去叫都没叫醒的那种，完美迟到12分钟。随后胡老师就开始讲课，于是在和田，所以就让我们去搜一些关于和田的历史，和田原来叫做于田，和田历史悠久，汉代是西域三十六国之一，称于阗。而最令人期待的就是我们的捡玉活动。今天在车上，我们展开了课堂英语，今天也是小组比赛正式拉开帷幕。大家都
大二上学期详细学习计划学会沉淀。学习
本学习完成目标：项目：书籍：《mysql必知必会》《java核心技术卷》（暂时）加强JavaSE的学习，掌握Java核心Mysql+sql（把牛客上的那50道sql语句题写完）git+maven完成springboot项目（跟着黑马敲）对于每天的Java学习进行记录算法：刷题（多去刷cf上的题，每周15道）针对最近比赛薄弱的地方加强练习（图论，字符串，动态规划，搜索）cf先上1400，牛客和atc
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在