Rinnki

[Kaggle竞赛] Ames房价回归预测Part1：特征工程+利用XGBoost进行房价预测

赛题原址：House Prices: Advanced Regression Techniques
赛题描述：
Ask a home buyer to describe their dream house, and they probably won’t begin with the height of the basement ceiling or the proximity to an east-west railroad. But this playground competition’s dataset proves that much more influences price negotiations than the number of bedrooms or a white-picket fence.
With 79 explanatory variables describing (almost) every aspect of residential homes in Ames, Iowa, this competition challenges you to predict the final price of each home.

数据概况——对数据有一个初步的认识

先导入文件，做出各变量间混淆矩阵查看变量间相关程度：

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
df_train = pd.read_csv('C:\\Users\\rinnko\\Desktop\\learning\\MLlearning\\caseH\\train.csv')
print(df_train.columns)
#查看特征之间关联程度：相关系数矩阵可视化
corrmat = df_train.corr()
f, ax = plt.subplots(figsize=(12, 9))
sns.heatmap(corrmat, vmax=.8, square=True,cmap='magma');

观察特征的重要程度

（数值形式变量）相关系数矩阵如下：

初步观察，可以发现在对角线上有两个醒目的大方块。由此发现特征“TotalBsmtSF“与”1stFlrSF”，特征“GarageCars”与“GarageArea”之间相关系数接近于1，即变量间有十分强的关联性，这便意味着这两组相量均会引起多重共线性（Multicollinearity）。
多重共线性是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。观察变量名可初步推测变量间关系十分紧密基本可以确信其存在引起多重共线性的能力。继续寻找颜色浅甚至接近白色的方块，可以发现变量“YearBuilt”与“GarageYrBuilt”，“TotRmsAbvGrd”与“GrLivArea”相关系数很大，疑似存在引起多重共线性的可能性。

依题可知，此时预测的结果，即因变量为“SalePrice”变量。观察相关系数矩阵可发现，其中“SalePrice”与“OverallQual”、“GrLivArea”以及其他诸多变量相关系数都偏大，根据颜色可认为大多corr大于0.5，接下来用“SalePrice”变量中相关系数较大的变量做出一个相关系数矩阵，观察这些变量之间的相关程度。

#查看Saleprice相关程度较强的几个变量的混淆矩阵
#取10个corr最大的变量
cols = corrmat.nlargest(10,'SalePrice')['SalePrice'].index
corrSP = np.corrcoef(df_train[cols].values.T) #np.xorrcoef计算相关系数的方法,默认以行计算 
hm = sns.heatmap(corrSP,cmap='magma',annot=True,square=True,fmt='.2f',annot_kws={'size':10},yticklabels=cols.values,xticklabels=cols.values)
plt.show()

观察最左列以查看与因变量关系最紧密的变量排名，变量“OverallQual”，“GrLivArea”的关系自然不用说。“TotalBsmtSF“与”1stFlrSF”，特征“GarageCars”与“GarageArea”之间可以2选1，这里取与因变量关系紧密的变量，即“TotalBsmtSF“、“GarageCars”。相关系数在0.5左右的这几个变量是否重要仍待后续考证。“重要”的变量在处理时要多加留意。

观察变量之间关系的形式和特点

接下来可以以散点图的形式观察部分重要自变量（数值形式）与因变量“SalePrice”之间的关系形式，顺便获取更多有用的信息！

sns.set()
cols = ['SalePrice', 'OverallQual', 'GrLivArea', 'GarageCars', 'TotalBsmtSF', 'FullBath', 'YearBuilt']
sns.pairplot(df_train[cols], size = 2.5)#sns多变量图
plt.show();

从多变量图中可以看出以下几点：

观察（3,5）或者（5,3）可知：变量“TotRmsAbvGrd”与“GrLivArea”的点只占据了半个平面，部分散点构成了一条直线作为分界线，其余散点则聚集在直线的单侧。查看官方给的data_description可知：
TotalBsmtSF: Total square feet of basement area
GrLivArea: Above grade (ground) living area square feet
该数据集内房屋的地上居住面积通常是大于地下居住面积的，这也符合生活常识，House的地下面积可以等于地上面积，但不会超过地上面积，~~毕竟没有人愿意住地堡~~ 。
观察（1,7）或者（7,1）可以察觉到，变量“YearBuilt”与因变量“SalePrice”之间的关系近似于指数型，散点图显示出类似于售价随年份变化“上界”的存在。
“SalePrice”和“GrLivArea”变量之间疑似线性关系。

进一步观察SalePrice——探索数据分布转变的可能性

from scipy.stats import norm
from scipy import stats
sns.distplot(df_train['SalePrice'] , fit=norm);
#查看正弦分布拟合的参数
(mu, sigma) = norm.fit(df_train['SalePrice'])
print( '\n mu = {:.2f} and sigma = {:.2f}\n'.format(mu, sigma))
#绘制分布图：displot()集合了matplotlib的hist()与核函数估计kdeplot的功能
plt.legend(['Normal dist. ($\mu=$ {:.2f} and $\sigma=$ {:.2f} )'.format(mu, sigma)],loc='best')
plt.ylabel('Frequency')
plt.title('SalePrice distribution')
#也可以用QQ-plot来表示
fig = plt.figure()
res = stats.probplot(df_train['SalePrice'], plot=plt)
plt.show()

输出：

mu = 180932.92 and sigma = 79467.79

由此可见SalePrice稍稍偏离正态分布，是正偏态分布的，而线性模型适用于正太分布的数据集，我们可以想办法对该变量所有数据进行一个统一的处理，令因变量SalePrice在处理后近似服从正态分布。
数据预处理时首先可以对偏度比较大的数据用log1p函数进行转化，使其更加服从高斯分布，此步处理可能会使我们后续的分类结果得到一个好的结果。log1p = log（x+1）。这里我们采用np.log1p()方法对SalePrice进行转化。

SalePriceA = df_train["SalePrice"]#备份用
df_train["SalePrice"] = np.log1p(df_train["SalePrice"])

输出：

 mu = 12.02 and sigma = 0.40

平滑处理可以达到预期效果。

特征工程

在对数据集有了一定的了解后，现在开始准备训练和测试用的dataframe，为此要进行缺失值处理、离群值处理、新特征的生产（如果可以提取出来的话）、偏态数据的处理、dummies和categorize或是scaling处理并进行一定的变量（特征）筛选，即特征工程（Feature Engineering）。

#重开个文件
csv_data1 = pd.read_csv("C:\\Users\\rinnko\\Desktop\\learning\\MLlearning\\caseH\\train.csv")
csv_data2 = pd.read_csv("C:\\Users\\rinnko\\Desktop\\learning\\MLlearning\\caseH\\test.csv")
df_train=pd.DataFrame(csv_data1)#转换成dataframe格式
df_test=pd.DataFrame(csv_data2)
df_combined = df_train.append(df_test)
train_ID = df_train['Id']
test_ID = df_test['Id']
df_train = df_train.drop("Id", axis = 1)
df_test = df_test.drop("Id", axis = 1)
#缺失值查看

缺失值处理

#缺失值查看
count = df_combined.isnull().sum().sort_values(ascending=False)#倒序排一下
percent = (df_combined.isnull().sum()/df_combined.isnull().count()).sort_values(ascending=False)
miss_df = pd.concat([count,percent],axis=1,keys=['Total','Percent'])
print(miss_df.head(40)) #先看看缺得最多的20个特征叭

结果如下：

              Total   Percent
PoolQC         2909  0.996574
MiscFeature    2814  0.964029
Alley          2721  0.932169
Fence          2348  0.804385
SalePrice      1459  0.499829
FireplaceQu    1420  0.486468
LotFrontage     486  0.166495
GarageFinish    159  0.054471
GarageCond      159  0.054471
GarageQual      159  0.054471
GarageYrBlt     159  0.054471
GarageType      157  0.053786
BsmtCond         82  0.028092
BsmtExposure     82  0.028092
BsmtQual         81  0.027749
BsmtFinType2     80  0.027407
BsmtFinType1     79  0.027064
MasVnrType       24  0.008222
MasVnrArea       23  0.007879
MSZoning          4  0.001370
BsmtFullBath      2  0.000685
BsmtHalfBath      2  0.000685
Utilities         2  0.000685
Functional        2  0.000685
Electrical        1  0.000343
Exterior2nd       1  0.000343
KitchenQual       1  0.000343
Exterior1st       1  0.000343
GarageCars        1  0.000343
TotalBsmtSF       1  0.000343
GarageArea        1  0.000343
BsmtUnfSF         1  0.000343
BsmtFinSF2        1  0.000343
BsmtFinSF1        1  0.000343
SaleType          1  0.000343
Condition2        0  0.000000
FullBath          0  0.000000
2ndFlrSF          0  0.000000
3SsnPorch         0  0.000000
BedroomAbvGr      0  0.000000

发现Condition2开始缺失值个数和比例为0，这也就是说总共有35个特征存在缺失值。

分析缺失比例在15%以上的特征，“PoolQC”、“MiscFeature”、 “Alley” 、“Fence”、 “FireplaceQu”和“LotFrontage”。查看官方给的data_description可知：
PoolQC: Pool quality（大多数房子不带泳池的）
MiscFeature: Miscellaneous feature not covered in other categories（其他特征？舍弃）
Alley: Type of alley access to property（大多数房子不带巷子的）
Fence: Fence quality（有房子不设篱笆的）
FireplaceQu: Fireplace quality（有房子不设Fireplace的）
LotFrontage: Linear feet of street connected to property（距离街道的距离还是很重要的，这个特征保留）
可以发现舍弃的MiscFeature为无关紧要的特征，是常人在购房时不会考虑的方面，甚至存在过多的离群值，删掉也罢。而留下的特征的处理办法多为在缺失值处填充“None”。对于LotFrontage可以考虑以Neighborhood类型groupby后以各组中位数填充。

df_combined["PoolQC"] = df_combined["PoolQC"].fillna("None")
df_combined = df_combined.drop(["MiscFeature"],axis=1)
df_combined["Alley"] = df_combined["Alley"].fillna("None")
df_combined["Fence"] = df_combined["Fence"].fillna("None")
df_combined["FireplaceQu"] = df_combined["FireplaceQu"].fillna("None")
df_combined["LotFrontage"] = df_combined.groupby("Neighborhood")["LotFrontage"].transform(lambda x: x.fillna(x.median()))

接下来是Garage_系列，可知该系列变量有“GarageCond”、“GarageType” 、“GarageYrBlt”、“GarageFinish”、“GarageQual”、“GarageCars”、“GarageArea”。可以推测其中最重要的是变量“GarageCars”，与因变量关系最紧密。其余Garage系列变量，缺失值均在5.5479%，可以假设缺失值是由于房子不带车库。可以将GarageType, GarageFinish, GarageQual and GarageCond缺失值用“None”填充，而GarageYrBlt, GarageArea and GarageCars这种数量型的缺失值用“0”填充。

for col in ('GarageType', 'GarageFinish', 'GarageQual', 'GarageCond'):
    df_combined[col] = df_combined[col].fillna('None')
for col in ('GarageYrBlt', 'GarageArea', 'GarageCars'):
    df_combined[col] = df_combined[col].fillna(0)

对Bsmt_系列变量的缺失值做类似处理。可知该系列变量有’BsmtQual’、 ‘BsmtCond’、
‘BsmtExposure’、‘BsmtFinType1’、‘BsmtFinSF1’、 ‘BsmtFinType2’、 ‘BsmtFinSF2’,、‘BsmtUnfSF’、‘TotalBsmtSF’、 ‘BsmtFullBath’、 ‘BsmtHalfBath’。

for col in ('BsmtQual', 'BsmtCond', 'BsmtExposure', 'BsmtFinType1', 'BsmtFinType2'):
    df_combined[col] = df_combined[col].fillna('None')
for col in ('BsmtFinSF1', 'BsmtFinSF2', 'BsmtUnfSF','TotalBsmtSF', 'BsmtFullBath', 'BsmtHalfBath'):
    df_combined[col] = df_combined[col].fillna(0)

“MasVnrArea”和“MasVnrType”，缺失比例为0.5479%，是代表墙面外贴砖的面积和类型，这两个变量与变量“OverallQual” 的相关系数较大，但与因变量的相关系数也较大。缺失值只有8个，很可能是因为没有外贴砖，Type可以考虑补None，Area干脆就补0。

df_combined["MasVnrType"] = df_combined["MasVnrType"].fillna("None")
df_combined["MasVnrArea"] = df_combined["MasVnrArea"].fillna(0)

“MSZoning”： Identifies the general zoning classification of the sale，可知居住型RL最为常见，可将4个缺失值以众数“RL”填充。

df_combined['MSZoning'] = df_combined['MSZoning'].fillna(df_combined['MSZoning'].mode()[0])

“Utilities”有2个缺失值，观察一下该数据的内容：

Utilities
AllPub    2915
NoSeWa       1

其中就一个样本为NoSeWa类，这特征毫无作用，删了罢。

df_combined = df_combined.drop(['Utilities'], axis=1)

“Functional”有2个缺失值，官方描述文件里称其为Home functionality (Assume typical unless deductions are warranted)，则缺失值均默认为Typ。

df_combined["Functional"] = df_combined["Functional"].fillna("Typ")

“Electrical”就1个缺失值，把缺失值对应的数据补“None”就好。

df_combined["Electrical"] = df_combined["Electrical"].fillna("None")

“KitchenQual”、“SaleType ”、“Exterior1st”和“Exterior2nd”，各1个缺失值，众数填充。

df_combined['KitchenQual'] = df_combined['KitchenQual'].fillna(df_combined['KitchenQual'].mode()[0])
df_combined['SaleType'] = df_combined['SaleType'].fillna(df_combined['SaleType'].mode()[0])
df_combined['Exterior1st'] = df_combined['Exterior1st'].fillna(df_combined['Exterior1st'].mode()[0])
df_combined['Exterior2nd'] = df_combined['Exterior2nd'].fillna(df_combined['Exterior2nd'].mode()[0])

“MSSubClass”就1个缺失值，缺失值对应样本补“None”即可。

df_combined["MSSubClass"] = df_combined["MSSubClass"].fillna("None")

现在再来看看还有没有缺失值。

print(df_combined.isnull().sum().sort_values(ascending=False).head(5))

SalePrice     1459
YrSold           0
Foundation       0
ExterCond        0
ExterQual        0
dtype: int64

这就对了，测试集中还剩1459个SalePrice待预测，而其他变量的缺失值均得到了处理。到此为止缺失值处理结束。

离群值清洗

对离群值的判断需要设定阈值threshold，在清洗前可以考虑将数据归一化处理，使数据分布与0和1之间，更有利于观察数据的分布。

SalePrice：因变量的Range如何？

#scaling
from sklearn.preprocessing import StandardScaler
saleprice_scaled = StandardScaler().fit_transform(df_train['SalePrice'][:,np.newaxis]); #输出仍为列
print(saleprice_scaled)
low_range = saleprice_scaled[saleprice_scaled[:,0].argsort()][:10]
high_range= saleprice_scaled[saleprice_scaled[:,0].argsort()][-10:]
#argsort()函数是将x中的元素从小到大排列，提取其对应的index(索引)，然后输出到y
print('outer range (low) of the distribution:')
print(low_range)
print('\nouter range (high) of the distribution:')
print(high_range)

输出：

outer range (low) of the distribution:
[[-1.83870376]
 [-1.83352844]
 [-1.80092766]
 [-1.78329881]
 [-1.77448439]
 [-1.62337999]
 [-1.61708398]
 [-1.58560389]
 [-1.58560389]
 [-1.5731    ]]

outer range (high) of the distribution:
[[3.82897043]
 [4.04098249]
 [4.49634819]
 [4.71041276]
 [4.73032076]
 [5.06214602]
 [5.42383959]
 [5.59185509]
 [7.10289909]
 [7.22881942]]

可见，SalePrice数据最小也距离0并不远，而最大的数据就像这两个归一化后为7.几的数据完全可以称为离群值，这里暂且放过其余数据。但作为因变量，其离群值，即这两个7.几的数据真的应该剔除掉吗？

2.来看看“GrLivArea”变量？

图右下角的两个数据明显脱离变化趋势，可以作为离群值剔除，但从这张图看，极高的两个SalePrice数据大致符合GrLivArea对SalePrice的曲线变化趋势，这两个7.几的数据可以考虑保留。

fig, ax = plt.subplots()
ax.scatter(x = df_train['GrLivArea'], y = df_train['SalePrice'])
plt.ylabel('SalePrice', fontsize=13)
plt.xlabel('GrLivArea', fontsize=13)
plt.show()
df_train = df_train.drop(df_train[(df_train['GrLivArea']>4000) & (df_train['SalePrice']<300000)].index)#删除离群值点

通过可视化人工判定离群值并丢掉离群值对应数据，可以人工判断出过于不符合变化规律的离群值点加以剔除。但这并不意味着我们需要找出所有的“离群值”，删除一部分outliers固然可以提升模型的鲁棒性，但是删除过多的“离群值”则有可能使系统过于敏感，在测试数据集含有“离群值”时模型将无法很好地做出判断。

新特征生成

房屋面积对于房屋定价是相当重要的，但是题目给出特征中却没有总面积这一项。这里我们将“地下室面积”、“1层面积”和“2层面积”加起来得到一个新特征“TotalSF”即房屋总面积。

#提取新特征
df_combined['TotalSF'] = df_combined['TotalBsmtSF'] + df_combined['1stFlrSF'] + df_combined['2ndFlrSF']

偏态数据的处理

前文已经探索过因变量“SalePrice”了，对其进行log1p处理。接下来看一看特征（变量）之中是否也存在这样偏态分布的，是否也有可能进行处理。

df_train["SalePrice"] = np.log1p(df_train["SalePrice"])#上文的处理

numeric_feats = df_combined.dtypes[df_combined.dtypes != "object"].index#找出类型为numeric的特征
from scipy import stats
from scipy.stats import norm, skew
#查看skewness
skewed_feats = df_combined[numeric_feats].apply(lambda x: skew(x.dropna())).sort_values(ascending=False)#降序排列
skewness = pd.DataFrame({'Skew' :skewed_feats})#字典转df
print(skewness.head(10))

输出：

                    Skew
MiscVal        21.943434
PoolArea       16.895403
LotArea        12.820198
LowQualFinSF   12.086650
3SsnPorch      11.374072
KitchenAbvGr    4.301402
BsmtFinSF2      4.145323
EnclosedPorch   4.003118
ScreenPorch     3.945898
BsmtHalfBath    3.930795

这里我们用Box-Cox变换对这些变量进行处理。Box-Cox变换是Box和Cox在1964年提出的一种广义幂变换方法，是统计建模中常用的一种数据变换，用于连续的响应变量不满足正态分布的情况。主要特点是引入一个参数，通过数据本身估计该参数进而确定应采取的数据变换形式，Box-Cox变换可以明显地改善数据的正态性、对称性和方差相等性，一定程度上减小不可观测的误差和预测变量的相关性。
详情参考Box-Cox Transformations这篇。
利用boxcox1p()方法，计算的是Box-Cox transformation of $1 + x$ .
现把偏度大于0.75的特征均进行Box-Cox变换。

skewness = skewness[abs(skewness.Skew) > 0.75]
print("There are {} skewed numerical features to Box Cox transform".format(skewness.shape[0]))#显示要处理的特征个数
from scipy.special import boxcox1p
skewed_features = skewness.index
lam = 0.15#设定lamdba为0.15
#lambda根据正态分布反CDF函数phi与变换结果的相关系数来选取，好的lambda应该使其相关系数最大，即变换后分布越接近于正态分布。
for feat in skewed_features:
    df_combined[feat] = boxcox1p(df_combined[feat], lam)

There are 25 skewed numerical features to Box Cox transform

*对不同的 $\lambda$ 所作的变换不同。在 $\lambda=0$ 时该变换为对数变换，和我们对因变量做的变换log1p是一样的。
可以考虑对每个偏分布的变量都寻找其最优变换的 $\lambda$ 值，本文统一选取 $\lambda=0.15$ ，尽管部分变量变换后相关系数不尽人意，但大多数变量的分布得到改善。

数据的转换——dummies、categorize、scaling

用数字表示类别的特征：先Label化再dummies；

#数据的转化
#str转换三连
#MSSubClass=The building class
df_combined['MSSubClass'] = df_combined['MSSubClass'].apply(str)
#Changing OverallCond into a categorical variable
df_combined['OverallCond'] = df_combined['OverallCond'].astype(str)
#Year and month sold are transformed into categorical features.
df_combined['YrSold'] = df_combined['YrSold'].astype(str)
df_combined['MoSold'] = df_combined['MoSold'].astype(str)

利用LabelEncoder() 将转换成数值型变量表示类别，也就是对不连续的数字或者文本进行编号。

#LabelEncoder:字符表示类别变成用数字（即第一次出现的索引号）表示类别
from sklearn.preprocessing import LabelEncoder
cols = ('FireplaceQu', 'BsmtQual', 'BsmtCond', 'GarageQual', 'GarageCond', 
        'ExterQual', 'ExterCond','HeatingQC', 'PoolQC', 'KitchenQual', 'BsmtFinType1', 
        'BsmtFinType2', 'Functional', 'Fence', 'BsmtExposure', 'GarageFinish', 'LandSlope',
        'LotShape', 'PavedDrive', 'Street', 'Alley', 'CentralAir', 'MSSubClass', 'OverallCond', 
        'YrSold', 'MoSold')
# process columns, apply LabelEncoder to categorical features
for cc in cols:
    lbl = LabelEncoder() 
    lbl.fit(list(df_combined[cc].values)) #一个个来
    df_combined[cc] = lbl.transform(list(df_combined[cc].values))   
print('Shape df_combined: {}'.format(df_combined.shape))

Shape df_combined: (2918, 80)

df_combined = pd.get_dummies(df_combined)#变成独热编码
print('Shape df_combined after dummies: {}'.format(df_combined.shape))

Shape df_combined after dummies: (2918, 218)

到此为止特征工程部分结束，现将训练集和测试集再次分开。

ntrain = df_train.shape[0]
ntest = df_test.shape[0]
df1_train = df_combined[:ntrain]
df1_test =df_combined[ntrain:]
df1_train.drop("Id", axis = 1, inplace = True)
df1_test.drop("Id", axis = 1, inplace = True)

XGBoost

先用XGBoost简单试一下看看结果如何。

from sklearn.preprocessing import Imputer
from xgboost import XGBRegressor

ydata_train = SalePriceA #这里先试用未用log1p处理的因变量数据
xdata_train = df1_train.drop("SalePrice",axis=1)
df1_test.drop("SalePrice",axis=1,inplace=True)
#数据集备份
xtrain = xdata_train
xtest = df1_test

imp = Imputer()
trainX = imp.fit_transform(xtrain)
testX = imp.transform(xtest)
xgbr = XGBRegressor()
xgbr.fit(trainX, ydata_train)
testY = xgbr.predict(testX)
#extestY = np.expm1(testY)
submission = pd.DataFrame({'Id':test_ID,'SalePrice':testY})
submission.to_csv('C:\\Users\\rinnko\\Desktop\\learning\\MLlearning\\caseH\\Submission.csv',index=False,sep=',')

结果如下，还有很大的优化空间。

接下来会考虑使用Model Ensemble（模型融合）中的Stacking方法制作新的模型进行回归再次进行预测，详见Part2。

参考文章

[1]Comprehensive data exploration with Python_PedroMarcelino
[2]Stacked Regressions : Top 4% on LeaderBoard_Serigne

你可能感兴趣的:(Python笔记)

Python笔记6----数组 weixin_34293911 python 数据结构与算法 c/c++
1、Python中的数组形式：用list和tuple等数据结构表示数组一维数组：list=[1,2,3,4]二维数组：list=[[1,2,3],[4,5,6],[7,8,9]]用array模块：array模块需要加载，而且运用的较少通过array函数创建数组（数组中的元素可以不是同一种类型），array.array('B',range(5))>>array('B',[1,2,3,4,5])提供a
【代码随想录python笔记整理】第一课 · A+B 问题1 南星六月雪 Python 刷题笔记笔记 python
前言:本笔记仅仅只是对内容的整理和自行消化，并不是完整内容，如有侵权，联系立删。一、数据类型Python中有一些常见数据类型，包括数字类型，布尔类型，字符串类型。其中，数字类型又分为整数类型和浮点数类型。整数类型-1、0、1浮点数类型3.14布尔类型True=1；False=0字符串类型'Hello'、"Helllo"二、输入输出1、输入：输入采用input()函数，再将变量与其建立联系。在inp
【Python笔记】向量：@classmethod与 @staticmethod。零基础万物皆可.C Python笔记 python
类成员比较@classmethod与@staticmethod共同点：两个都是装饰器，装饰的成员函数可以通过类名.方法名(…)来调用区别：最显著的特点是classmethod需要传递一个参数cls，而staticmethod不需要。因此可以访问、修改类的属性，类的方法，实例化对象等，避免硬编码；而staticmethod不行，classmethod可以判断出自己是通过基类被调用，还是通过某个子类被
python学习笔记08_赋值运算、逻辑运算、表达式、短路原则 flamingocc
python笔记081.赋值运算符num+=1等价于num=num+1num-=1等价于num=num-1num*=1等价于num=num*1num/=1等价于num=num/1num//2等价于num=num//2num%=2等价于num/2的余数num**2等价于num=num*num2.逻辑运算符逻辑运算符包含：not、and、or2.1and的用法：(且、并且)写法：条件1and条件2eg
2.25python笔记高阶编程 13351
@[TOC](2.25学堂在线python学习笔记高阶编程)#高阶编程1.利用二分法查找一个字符是否在某个字符串当中基线条件：当s=''时，返回False当len(s)=1且s==char时返回True当len(s)>1且s[mid]>char时，返回isIn(char,s[:mid])否则当s[mid]1:ifs[mid]>char:print(s)returnisIn(char,s[:mid]
Python笔记五之正则表达式后端python正则表达式
本文首发于公众号：Hunter后端原文链接：Python笔记五之正则表达式这一篇笔记介绍在Python里使用正则表达式。正则表达式，RegularExpression，可用于在一个目标字符串里对于指定模式的字符进行查找、替换、分割等操作。比如，判断某个字符串里是否都是数字，或者是否包含指定字符串，又或者更直接的例子是判断电话号码或者邮箱是否合法等。这一篇笔记里，我们将先介绍一个正则表达式的函数，并
python笔记——jieba库 Toby不写代码 python学习 python
文章目录一.概述二.jieba库使用三.实例一.概述1.jieba库概述jieba库是一个重要的第三方中文分词函数库，不是安装包自带的，需要通过pip指令安装pip3installjieba二.jieba库使用1.库函数jieba.cut(s)——精确模式，返回一个可迭代数据类型jieba.cut(s,cut_all=True)——全模式，输出文本s中可能的单词jieba.cut_for_sear
[韩顺平]python笔记超级用户 root Python python 笔记开发语言
AI工程师、运维工程师python排名逐年上升，为什么？python对大数据分析、人工智能中关键的机器学习、深度学习都提供有力的支持Python支持最庞大的代码库，功能超强数据分析：numpy/pandas/os机器学习：tensorflow/scikit-learn/theano爬虫：urllib/reques/bs4/scrapy网页开发：Django/falsk/web运维：saltstac
一文教会你，Python数据如何存储学Python的小瑜
转载自志斌的Python笔记3月28日今天呢，小瑜专门写一篇关于数据存储的文章，让大家清楚的了解数据存储的方式，以及在什么情况下，使用什么存储方式。本文将分三个方面来介绍数据存储:1.文件存储、2.关系型数据库存储、3.非关系型数据库存储。废话少说，让我们直接来看正文吧！一、文件存储1.1TXT文本将数据存储到TXT文本的操作十分简单，在之前文章已经简单介绍过，而且TXT文本基本兼容任何平台，但是
Python笔记——绘制雷达图没昔
代码#雷达图frompyechartsimportoptionsasoptsfrompyecharts.chartsimportPage,Radar#两组数据的对比v1=[[4300,10000,28000,35000,50000,19000]]v2=[[5000,14000,28000,31000,42000,21000]]#返回Radar图表对象数据处理完整之后通过雷达对象进行转换defrad
Delphi 程序直接调用 Python 的函数 pcplayer python 开发语言
在本系列的第一篇博客文章：Delphi程序员初学Python笔记-CSDN博客在这篇文章里面，我提到，一个Python的函数，我用Delphi无法直接调用它，所以我对它做了一个Python的包装。原因是，那是我第一次学习使用Python4Delphi这个控件。那时候要执行Python代码，我只会使用PythonEngine1.ExecStrings(Python代码)这样的方式。这样做，就是在De
python小结张叁疯_
本周整理了python学习笔记复习旧的，顺便整理新的，笔记分享在了有道云链接如下阿龙的python笔记都是基础知识，希望在今后能成体系，根据案例学python
大学python笔记整理_python 笔记整理余虹的眼大学python笔记整理
Pythonisdigit()方法检测字符串是否只由数字组成。Pythonint()函数用于将一个字符串或数字转换为整型。判断字符、列表、元组等的长度或项目个数：Pythonlen()。enumerate()函数用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列，同时列出数据和数据下标，一般用在for循环当中。(把下标取出来)python中单引号和双引号使用完全相同。文件操作：内
Python笔记（十） Lzehui python 笔记
文件编码概念编码就是一种规则集合，记录了内容和二进制间进行相互转换的逻辑编码有许多种，我们最常用的是UTF—8编码文件的读取对文件进行操作的基本步骤，大概可以分为三步1、打开文件2、读写文件3、关闭文件注意：可以只打开和关闭文件，不进行任何读写open（）打开函数在Python，使用open函数，可以打开一个已经存在的文件，或者创建一个新文件，语法如下open(name,mode,encoding
Python笔记（八） Lzehui python 开发语言
数据容器：dict（字典、映射）字典的定义字典的定义，同样使用{}，不过存储的元素是一个个的：键值对，如下语法： #定义字典字面量 {key：value,key:value,……,key:value} #定义字典字面量 mt_dict={key：value,key:value,……,key:value} #定义空字典 my_dict={} #空字典定义方式1 my_dict={} #空字典
Python笔记（三） Lzehui python 笔记数据库
while循环的基础应用语法：while条件：条件满足时，做的事情 i=0 whilei<100: print("循环100次") i+=11.while的条件需要得到布尔类型，True表示继续循环，False表示结束循环2.需要设置循环终止的条件，如i+=1配合i<100，就能保证100次后停止，否则将无限循环3.空格缩进，冒号和if判断一样，都需要设置while循环的嵌套使用基础语法：wh
Python笔记（五） Lzehui python 笔记
数据容器入门python中的数据容器：一种可以容纳多份数据的数据类型，容纳的每一份数据称之为1个元素每一个元素，可以是任意类型的数据，如字符串、数字、布尔等。根据容器特点的不同，如：是否支持重复元素是否可以修改是否有序，等分为5类，分别是：列表（list）、元组（tuple）、字符串（str）、集合（set）、字典（dict）数据容器：list（列表）列表的定义基本语法 #字面量 [元素1，元素2
Python笔记（七） Lzehui python 笔记
集合的定义和操作集合中元素不能重复，且是无序的，区别于列表，元组，字符串基本语法： #定义集合字面量 {元素，元素，……，元素} #定义集合变量变量名称={元素，元素，……，元素} #定义空集合变量名称=set()和列表、元组、字符串等定义基本相同;列表使用：[]元组使用：()字符串使用：""集合使用：{}集合常规操作：因为集合是无序的，所以集合不支持：下标索引访问但集合和列表一样，是允许修改
Python笔记（一） Lzehui python
字面量python中常用的有6种值（数据）的类型类型描述说明数字（Number)支持：整数（int）浮点数（float)复数（complex)布尔（bool)整数（int),如：10、-10浮点数（float),如：13.14、-13.14复数（complex),如：4+3j，以j结尾表示复数布尔（bool)表达现实生活中的逻辑，即真和假，True表示真，False表示假。True本质上是一个数字
Python笔记（九） Lzehui python 前端
函数多返回值语法： deftest_return(): return1,2 x,y=test_return() print(x) #结果1 pirnt(y) #结果2按照返回值的顺序，写对应顺序的多个变量接收即可变量之间用逗号隔开支持不同类型的数据return函数的多种参数使用形式函数参数种类使用方式上的不同，函数有4中常见参数使用方式：位置参数关键字参数缺省参数不定长参数位置参数：调用函数
python笔记12 没有名字的鬼 python学习笔记笔记
目录1、文件的基本操作步骤1.打开文件（OpenFile）：2.读取文件内容（ReadFile）：3.写入文件内容（WritetoFile）：4.file.seek()5.文件复制：6.with语句：2、数据的组织维度1.一维数据：2.二维数据：3.多维数据：3、一维数组的存储与读取1.使用内置的文件I/O方法：存储数据：读取数据：2.使用NumPy库：存储数据：读取数据：3.使用Pandas库：
9.18 Python笔记谦友111
一.1.Python的基本概念具有高效率的数据结构，简单有效实现面向对象编程。Python(1989)比Java(1991)早，但是Java称作一个，因为Python就龟叔一个人开创那些，代码简单但是功能强大，对计算机功能很高，而Java由一个团队开创。2.Python的特点简单易学自由开放跨平台可嵌入性丰富的库Python可以做什么?1.软件开发2.科学运算3.自动化运维4.云计算5.WEB开发
一个不会java程序员的python笔记-切片 aersilan20200907 python python java 开发语言
文章目录前言一、切list和tuple二、判断是不是回数三、手写trim总结前言Python学习入门之切片slice的使用切片这东西还是很好用的，而且简单，切片，就是像切土豆一样，想切哪儿就切哪儿，想怎么切就怎么切。一、切list和tuple切一个list，随便切：#listL=['messi','pique','xavi']#切头print(L[0])#messi#切尾print(L[-1])#
python学习笔记20_字符编码与转码 flamingocc
python笔记20python字符编码与转码详细文章:http://www.cnblogs.com/yuanchenqi/articles/5956943.htmlhttp://www.diveintopython3.net/strings.html需知:1.在python2默认编码是ASCII,python3里默认是unicode2.unicode分为utf-32(占4个字节),utf-16(
python笔记：8.2.3 非参数检验的基本问题_游程检验老狼8848 python学习
#-*-coding:utf-8-*-"""CreatedonSunJul2114:26:222019@author:User"""#《Python数据分析基础》中国统计出版社importnumpyasnpfromscipyimportstatsimportpandasaspdimportstatsmodels.apiassm#importstatsmodels.formula.apiassmf#
『Python 干货』#2 NumPy（简明） Hwcoder
访问博客查看本文最新内容，排版更美观ヾ(•ω•`)o如有错误欢迎指出~Python系列学习笔记：Python笔记#1基础语法Python笔记#2NumPyPython笔记#3Matplotlib学习MachineLearning的时候发现需要用许多矩阵运算和画图的库，本文将以实用主义的方式记录每次遇到的新用法。2021年贵系的暑培新增了「科学计算」内容，本文部分内容参考了清华LZJ同学的教程，部分
Python笔记 QinChu
PART1基本定义变量定义：用来储存值的元素命名时只能包括字母、数字、下划线变量对应的值以最近一次更新为主变量类型使用type(变量)函数查询类型-非数字型1.字符串str一系列字符，用引号括起来，是编程语言中表示文本的数据类型用+号拼接字符串，如果有数字，需要对数字使用str()函数//格式化输出通过使用格式化操作符%来实现信息的整体输出1）%和不同的字符连用构成不同类型的格式化操作符，%起一个
#周检视# 坚持努力 0317---0325 小灵仙子
第一个90天目标检视目标1：纸质书2本目标2：开启Python笔记目标3：亲子英文阅读打卡本周的主题：忙碌的一周本周计划：[x]顺利完成软件测试大赛海选工作[]selenium视频学习3个[x]Jenkins的邮件配置一、家庭：1，周三晚上陪着孩子去学跆拳道，在道馆和妈妈视频。爸爸还是坐在凳子上就睡着了。2，连续第二个周末又是上班，感谢公公婆婆帮我带着孩子。孩子大了，老人家带着越来越吃力了。二、健
python笔记11 没有名字的鬼 python学习笔记笔记
1、模块简介在Python中，模块是一种组织代码的方式，允许你将相关的代码放在一个文件中，以便更好地组织和重用。模块可以包含变量、函数和类等。下面是关于Python模块的一些基本概念：1.创建模块要创建一个模块，只需创建一个包含Python代码的文件，文件的扩展名通常是.py。例如，如果你有一个名为的文件mymodule.py，它可以被视为一个模块。#mymodule.pydefsay_hello
【gRPC】protoc文件转py文件陀螺蚁 Python3 rpc python
以下基于Win系统下Python的venv虚拟环境演示《Python3笔记之venv虚拟环境》《Python笔记之pip国内镜像修改方法》在桌面创建个test目录作为项目目录，初始化venv环境后，安装基础依赖：pipinstallgrpciogrpcio-reflectiongrpcio-toolsprotobufgoogleapis-common-protos建立个项目结构：|-example
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f