Li Diana

python 逻辑回归准确率是1_使用Python进行机器学习：从0到1，构建回归模型（附完整教程）...

摘要

在本文中，我将使用数据科学和Python来解释回归用例的主要步骤，从数据分析到理解模型输出。

我将介绍一些非常有用的Python代码，当你遇到相同的情况时，只需要复制，粘贴，运行，就能轻松使用。在每行代码中都添加注释，复制过去就能使用(下面是完整的代码链接)。

https://github.com/mdipietro09/DataScience_ArtificialIntelligence_Utils/blob/master/machine_learning/example_regression.ipynb

本文使用的数据是“房价数据集”，提供多个解释变量，描述住宅的不同方面，我们的任务是预测每套住房的最终价格。

数据集：https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data

主要步骤包括：

环境设置：导入库和读取数据
数据分析：了解变量的含义和预测能力
特征工程：从原始数据中提取特征
预处理：数据分区，处理丢失的值，编码分类变量，缩放
特征选择：只保留最相关的变量
模型设计：基线、训练、验证、测试
绩效评估：阅读指标
可解释性：了解模型如何进行预测

安装程序

首先，我们需要导入以下库。

## 用于数据import pandas as pdimport numpy as np## 用于绘图import matplotlib.pyplot as pltimport seaborn as sns##用于统计检验import scipyimport statsmodels.formula.api as smfimport statsmodels.api as sm##用于机器学习from sklearn import model_selection, preprocessing, feature_selection, ensemble, linear_model, metrics, decomposition## 用于解析器from lime import lime_tabular

接下来我将数据导入pandas数据框。原始数据集包含81列，但在本教程中，我将使用其中的12列子集。

dtf = pd.read_csv("data_houses.csv")cols ["OverallQual","GrLivArea","GarageCars",       "GarageArea","TotalBsmtSF","FullBath",      "YearBuilt","YearRemodAdd",      "LotFrontage","MSSubClass"]dtf = dtf[["Id"]+cols+["SalePrice"]]dtf.head()

python 逻辑回归准确率是1_使用Python进行机器学习：从0到1，构建回归模型（附完整教程）..._第1张图片

关于列的详细信息可以在提供的数据集链接中找到。

表格中的每一行代表一个特定的房子。

一切准备就绪，我将从分析数据开始，然后选择特征，建立机器学习模型并进行预测。

数据分析

在统计学中，探索性数据分析是一个总结数据集主要特征的过程，以了解数据在形式化建模或假设检验任务之外能告诉我们什么。

一般来说，如果我想知道有多少分类变量和数值变量，以及丢失数据的比例，我都会从对数据集的概述开始。有时候会很难识别变量的类型，因为类别可以表示为数字。为此，我编写了一个简单的函数来帮助我们：

'''Recognize whether a column is numerical or categorical.'''def utils_recognize_type(dtf, col, max_cat=20):    if (dtf[col].dtype == "O") | (dtf[col].nunique() < max_cat):        return "cat"    else:        return "num"

此函数非常有用，可用于多种场合。为了举例说明，我将绘制数据帧的热图，并可视化列类型和缺少的数据。

dic_cols = {col:utils_recognize_type(dtf, col, max_cat=max_cat) for col in dtf.columns}heatmap = dtf.isnull()for k,v in dic_cols.items(): if v == "num":   heatmap[k] = heatmap[k].apply(lambda x: 0.5 if x is False else 1) else:   heatmap[k] = heatmap[k].apply(lambda x: 0 if x is False else 1)sns.heatmap(heatmap, cbar=False).set_title('Dataset Overview')plt.show()print("033[1;37;40m Categerocial ", "033[1;30;41m Numeric ", "033[1;30;47m NaN ")

python 逻辑回归准确率是1_使用Python进行机器学习：从0到1，构建回归模型（附完整教程）..._第2张图片

该数据集中共有1460行和12列数据：

表格的每一行代表一个有ID标识的房屋，因此我将其设置为索引。

SalePrice是我们要了解和预测的因变量，因此我将列重命名为“ Y”。

TotalQuall，GarageCars，FullBath和MSSubClass是类别变量，其他则是数字变量。

只有LotFrontage包含丢失的数据。

dtf = dtf.set_index("Id")dtf = dtf.rename(columns={"SalePrice":"Y"})

可视化是数据分析的最佳工具，前提是你要知道什么样的图更适合不同类型的变量。因此我们要用代码来为不同的示例绘制适当的可视化效果。

首先，让我们看看单变量分布(只有一个变量的概率分布)。直方图是一种完美的方法，可以粗略地反映单个数值数据的基本分布密度。我建议使用直方图图通过数据组的四分位数以图形方式来进行描述。绘制目标变量：

x = "Y"fig, ax = plt.subplots(nrows=1, ncols=2,  sharex=False, sharey=False)fig.suptitle(x, fontsize=20)###分布ax[0].title.set_text('distribution')variable = dtf[x].fillna(dtf[x].mean())breaks = np.quantile(variable, q=np.linspace(0, 1, 11))variable = variable[ (variable > breaks[quantile_breaks[0]]) & (variable < breaks[quantile_breaks[1]]) ]sns.distplot(variable, hist=True, kde=True, kde_kws={"shade": True}, ax=ax[0])des = dtf[x].describe()ax[0].axvline(des["25%"], ls='--')ax[0].axvline(des["mean"], ls='--')ax[0].axvline(des["75%"], ls='--')ax[0].grid(True)des = round(des, 2).apply(lambda x: str(x))box = ''.join(("min: "+des["min"], "25%: "+des["25%"], "mean: "+des["mean"], "75%: "+des["75%"], "max: "+des["max"]))ax[0].text(0.95, 0.95, box, transform=ax[0].transAxes, fontsize=10, va='top', ha="right", bbox=dict(boxstyle='round', facecolor='white', alpha=1))###方块图ax[1].title.set_text('outliers (log scale)')tmp_dtf = pd.DataFrame(dtf[x])tmp_dtf[x] = np.log(tmp_dtf[x])tmp_dtf.boxplot(column=x, ax=ax[1])plt.show()

python 逻辑回归准确率是1_使用Python进行机器学习：从0到1，构建回归模型（附完整教程）..._第3张图片

该人群中房屋的平均价格为$181k，分布高度偏斜，并且两边都有异常值。

此外，条形图适合于理解单个分类变量的标签频率。让我们以FullBath(浴室数量)变量为例：它具有常规性(2个浴室> 1个浴室)，但不是连续的(一个家庭不能有1.5个浴室)，因此可以将其作为分类进行分析。

x = "Y"ax = dtf[x].value_counts().sort_values().plot(kind="barh")totals= []for i in ax.patches:    totals.append(i.get_width())total = sum(totals)for i in ax.patches:     ax.text(i.get_width()+.3, i.get_y()+.20,      str(round((i.get_width()/total)*100, 2))+'%',      fontsize=10, color='black')ax.grid(axis="x")plt.suptitle(x, fontsize=20)plt.show()

python 逻辑回归准确率是1_使用Python进行机器学习：从0到1，构建回归模型（附完整教程）..._第4张图片

大多数房子都有一个或两个浴室，有0和3个浴室是异常值。

我将把分析提高一个层次来研究二元分布，以了解FullBath是否具有预测Y的预测能力。这将是分类(FullBath)与数值(Y)的情况，因此我将如下进行：

将人群(整个观察组)分成4个样本：有0个浴室(FullBath=0)、1个浴室(FullBath=1)的房屋部分，等等…
绘制并比较4个样本的密度，如果分布不同，则变量是预测性的，因为4组有不同的模式。
将数值变量(Y)分组到容器(子样本)中，并绘制每个容器的组成图，如果所有容器中类别的比例相似，则该变量不具有预测性。
绘制并比较4个样本的直方图，以发现异常值的不同行为。

cat, num = "FullBath", "Y"fig, ax = plt.subplots(nrows=1, ncols=3,  sharex=False, sharey=False)fig.suptitle(x+"   vs   "+y, fontsize=20)            ### 分布ax[0].title.set_text('density')for i in dtf[cat].unique():    sns.distplot(dtf[dtf[cat]==i][num], hist=False, label=i, ax=ax[0])ax[0].grid(True)###叠放ax[1].title.set_text('bins')breaks = np.quantile(dtf[num], q=np.linspace(0,1,11))tmp = dtf.groupby([cat, pd.cut(dtf[num], breaks, duplicates='drop')]).size().unstack().Ttmp = tmp[dtf[cat].unique()]tmp["tot"] = tmp.sum(axis=1)for col in tmp.drop("tot", axis=1).columns:     tmp[col] = tmp[col] / tmp["tot"]tmp.drop("tot", axis=1).plot(kind='bar', stacked=True, ax=ax[1], legend=False, grid=True)### 方块图   ax[2].title.set_text('outliers')sns.catplot(x=cat, y=num, data=dtf, kind="box", ax=ax[2])ax[2].grid(True)plt.show()

python 逻辑回归准确率是1_使用Python进行机器学习：从0到1，构建回归模型（附完整教程）..._第5张图片

FullBath好像具有预测性，因为这四个样本的分布在价格水平和观察次数上有很大差异。看起来房屋中的浴室越多，价格就越高，但我想知道0浴室样本和3浴室样本中的观察值是否具有统计意义，因为它们包含的观察值很少。

如果不被“直觉”所信服，你可以使用好的旧统计数据并进行测试。在分类(FullBath)与数字(Y)的情况下，使用单向ANOVA检验。基本上，它测试两个或更多个独立样本的均值是否显着不同，因此，如果p值足够小(<0.05)，则样本的零假设意味着不相等。

cat, num = "FullBath", "Y"model = smf.ols(num+' ~ '+cat, data=dtf).fit()table = sm.stats.anova_lm(model)p = table["PR(>F)"][0]coeff, p = None, round(p, 3)conclusion = "Correlated" if p < 0.05 else "Non-Correlated"print("Anova F: the variables are", conclusion, "(p-value: "+str(p)+")")

我们可以得出结论，浴室的数量决定了房价的高低。这是有一定道理的，因为更多的浴室意味着更大的房子，房子的大小是一个重要的价格因素。

为了检验第一个结论的有效性，我必须分析目标变量相对于GrLivArea(居住面积)的行为。这是数值(grlivrea)与数值(Y)的情况，因此我将生成两个图：

首先，我将把GrLivArea值分组到存储箱中，比较每个存储箱中Y的平均值(和中值)，如果曲线不是平坦的，那么变量是可预测的，因为存储箱有不同的模式。
其次，我将使用一个散点图，其中两边是两个变量的分布。

x, y = "GrLivArea", "Y"###本图dtf_noNan = dtf[dtf[x].notnull()]breaks = np.quantile(dtf_noNan[x], q=np.linspace(0, 1, 11))groups = dtf_noNan.groupby([pd.cut(dtf_noNan[x], bins=breaks,            duplicates='drop')])[y].agg(['mean','median','size'])fig, ax = plt.subplots(figsize=figsize)fig.suptitle(x+"   vs   "+y, fontsize=20)groups[["mean", "median"]].plot(kind="line", ax=ax)groups["size"].plot(kind="bar", ax=ax, rot=45, secondary_y=True,                    color="grey", alpha=0.3, grid=True)ax.set(ylabel=y)ax.right_ax.set_ylabel("Observazions in each bin")plt.show()### 散点图sns.jointplot(x=x, y=y, data=dtf, dropna=True, kind='reg',               height=int((figsize[0]+figsize[1])/2) )plt.show()

python 逻辑回归准确率是1_使用Python进行机器学习：从0到1，构建回归模型（附完整教程）..._第6张图片

python 逻辑回归准确率是1_使用Python进行机器学习：从0到1，构建回归模型（附完整教程）..._第7张图片

GrLivArea是可预测的，有一个明确的模式：平均来说，房屋越大，价格越高，即使有些离群值均高于平均且价格相对较低的离群值。

和上面一样，我们可以测试这两个变量之间的相关性。由于它们都是数值，因此我将检验皮尔逊的相关系数：假设两个变量是独立的(零假设)，它将检验两个样本是否具有线性关系。如果p值足够小(<0.05)，则可以拒绝原假设，并且可以说这两个变量可能是相关的。

x, y = "GrLivArea", "Y"dtf_noNan = dtf[dtf[x].notnull()]coeff, p = scipy.stats.pearsonr(dtf_noNan[x], dtf_noNan[y])coeff, p = round(coeff, 3), round(p, 3)conclusion = "Significant" if p < 0.05 else "Non-Significant"print("Pearson Correlation:", coeff, conclusion, "(p-value: "+str(p)+")")

FullBath和GrLivArea是预测特性的示例，因此我将保留这两个变量用于建模。

我们应该对数据集中的每个变量进行此类分析，以确定哪些应该保留为潜在特征，哪些不具有预测性可以删除。

特征工程

我们还可以利用领域知识从原始数据中创建新特性。这里有一个示例：MSSubClass列(building类)包含15个类的大类别，在建模过程中可能会导致多维度的问题：

sns.catplot(x="MSSubClass", y="Y", data=dtf, kind="box")

python 逻辑回归准确率是1_使用Python进行机器学习：从0到1，构建回归模型（附完整教程）..._第8张图片

由上图可以看出，类别太多，很难理解每个类别中的分布。因此，我将这些类别归为一组：Y值较高的类(例如MSSubClass 60和120)将进入“最大”类，价格较低的类(例如MSSubClass 30、45、180)将进入“ 最小”类，其余的将分组为“平均”类。

## 定义类MSSubClass_clusters = {"min":[30,45,180], "max":[60,120], "mean":[]}## 创建新列dic_flat = {v:k for k,lst in MSSubClass_clusters.items() for v in lst}for k,v in MSSubClass_clusters.items():    if len(v)==0:        residual_class = k dtf[x+"_cluster"] = dtf[x].apply(lambda x: dic_flat[x] if x in                           dic_flat.keys() else residual_class)## 输出dtf[["MSSubClass","MSSubClass_cluster","Y"]].head()

python 逻辑回归准确率是1_使用Python进行机器学习：从0到1，构建回归模型（附完整教程）..._第9张图片

这样，类别的数量就从15个减少到3个，对于数据分析是很好的方法：

python 逻辑回归准确率是1_使用Python进行机器学习：从0到1，构建回归模型（附完整教程）..._第10张图片

新的分类特性更易于读取，并且保持了原始数据中显示的模式，因此我将保留MSSubClass_集群，而不是MSSubClass列。

预处理

数据预处理是准备原始数据以使其适合机器学习模型的阶段。

每个观察值必须用一行表示，换句话说，不能有两行描述同一个乘客，因为它们将由模型单独处理。此外，每一列都应该是一个特征，所以不应该使用Id作为预测值，这就是为什么这种表被称为“特征矩阵”。
数据集必须至少分为两组：模型应在数据集的重要部分(所谓的“训练集”)上进行训练，并在较小的集(“测试集”)上进行测试。
丢失的值应该替换为某些值，否则，您的模型可能会崩溃。
分类数据必须编码，这意味着将标签转换为整数，因为机器学习需要的是数字，而不是字符串。
缩放数据是很好的实践，它有助于在特定范围内规范化数据，并加快算法的计算速度。

让我们首先对数据集进行分区。当将数据拆分成列和测试集时，必须遵循一个基本规则：列集中的行不应该出现在测试集中。这是因为模型在训练过程中看到目标值，并用它来理解这种现象。换言之，模型已经知道了训练观察的正确答案，并且对这些结果进行测试就像作弊一样。

## 拆分数据dtf_train, dtf_test = model_selection.train_test_split(dtf,                       test_size=0.3)##输出信息print("X_train shape:", dtf_train.drop("Y",axis=1).shape, "| X_test shape:", dtf_test.drop("Y",axis=1).shape)print("y_train mean:", round(np.mean(dtf_train["Y"]),2), "| y_test mean:", round(np.mean(dtf_test["Y"]),2))print(dtf_train.shape[1], "features:", dtf_train.drop("Y",axis=1).columns.to_list())

下一步：LotFrontage列包含一些需要处理的丢失数据(17%)。从机器学习的角度来看，首先分为训练和测试，然后用训练集的平均值替换NAs是正确的。

dtf_train["LotFrontage"] = dtf_train["LotFrontage"].fillna(dtf_train["LotFrontage"].mean())

我创建的新列MSSubClass_cluster包含应该编码的分类数据。我将使用一个热编码方法，将一个具有n个唯一值的分类列转换为n-1个虚拟列。

## 创建虚拟对象dummy = pd.get_dummies(dtf_train["MSSubClass_cluster"],                        prefix="MSSubClass_cluster",drop_first=True)dtf_train= pd.concat([dtf_train, dummy], axis=1)print( dtf_train.filter(like="MSSubClass_cluster",axis=1).head() )## 删除原始分类列dtf = dtf_train.drop("MSSubClass_cluster", axis=1)

python 逻辑回归准确率是1_使用Python进行机器学习：从0到1，构建回归模型（附完整教程）..._第11张图片

最后，我需要扩展该功能。对于回归问题，通常需要同时转换输入变量和目标变量。我将使用RobustScaler，它通过减去中位数然后除以四分位间距(75％值– 25％值)来变换特征。这种缩放器的优点是不受异常值的影响。

## 标度XscalerX = preprocessing.RobustScaler(quantile_range=(25.0, 75.0))X = scaler.fit_transform(dtf_train.drop("Y", axis=1))dtf_scaled= pd.DataFrame(X, columns=dtf_train.drop("Y",                         axis=1).columns, index=dtf_train.index)## 标度YscalerY = preprocessing.RobustScaler(quantile_range=(25.0, 75.0))dtf_scaled[y] = scalerY.fit_transform(                    dtf_train[y].values.reshape(-1,1))dtf_scaled.head()

python 逻辑回归准确率是1_使用Python进行机器学习：从0到1，构建回归模型（附完整教程）..._第12张图片

特征选择

特征选择是选择相关变量子集建立机器学习模型的过程。它使模型更易于解释，并减少了过度拟合(当模型对训练数据的适应性太强，并且在训练集外表现不佳时)。

在数据分析期间，我已经通过排除不相关的列进行了第一次“手动”特性选择。现在它会有点不同，因为我们必须处理多重共线性问题，指的是多元回归模型中两个或多个解释变量高度线性相关的情况。

我将用一个例子来解释：车库面积与车库高度相关，因为它们都提供相同的信息。让我们计算相关矩阵：

corr_matrix = dtf_train.corr(method="pearson")sns.heatmap(corr_matrix, vmin=-1., vmax=1., annot=True, fmt='.2f', cmap="YlGnBu", cbar=True, linewidths=0.5)plt.title("pearson correlation")

python 逻辑回归准确率是1_使用Python进行机器学习：从0到1，构建回归模型（附完整教程）..._第13张图片

车库和车库区域中的一个可能是不必要的，我们可以决定放弃它，保留最有用的一个(即p值最低的那个或熵降低最大的那个)。

线性回归是建模标量响应与一个或多个解释变量之间关系的线性方法。单变量线性回归检验广泛应用于检验多个回归者的个体效应：首先计算各回归者与目标之间的相关性，然后进行方差分析F检验。

RIDGE正则化对于缓解线性回归中的多重共线性问题非常有用，线性回归通常发生在具有大量参数的模型中。

X = dtf_train.drop("Y", axis=1).valuesy = dtf_train["Y"].valuesfeature_names = dtf_train.drop("Y", axis=1).columns## p值selector = feature_selection.SelectKBest(score_func=                 feature_selection.f_regression, k=10).fit(X,y)pvalue_selected_features = feature_names[selector.get_support()]## 正则化selector = feature_selection.SelectFromModel(estimator=               linear_model.Ridge(alpha=1.0, fit_intercept=True),                                  max_features=10).fit(X,y)regularization_selected_features = feature_names[selector.get_support()] ## 绘图dtf_features = pd.DataFrame({"features":feature_names})dtf_features["p_value"] = dtf_features["features"].apply(lambda x: "p_value" if x in pvalue_selected_features else "")dtf_features["num1"] = dtf_features["features"].apply(lambda x: 1 if x in pvalue_selected_features else 0)dtf_features["regularization"] = dtf_features["features"].apply(lambda x: "regularization" if x in regularization_selected_features else "")dtf_features["num2"] = dtf_features["features"].apply(lambda x: 1 if x in regularization_selected_features else 0)dtf_features["method"] = dtf_features[["p_value","regularization"]].apply(lambda x: (x[0]+" "+x[1]).strip(), axis=1)dtf_features["selection"] = dtf_features["num1"] + dtf_features["num2"]dtf_features["method"] = dtf_features["method"].apply(lambda x: "both" if len(x.split()) == 2 else x)sns.barplot(y="features", x="selection", hue="method", data=dtf_features.sort_values("selection", ascending=False), dodge=False)

python 逻辑回归准确率是1_使用Python进行机器学习：从0到1，构建回归模型（附完整教程）..._第14张图片

蓝色特征是通过方差分析和RIDGE选择的特征，其他特征是通过第一种统计方法选择的。

或者，可以使用集成方法获取特征重要性。集成方法使用多个学习算法，以获得比单独从任何组成学习算法获得的更好的预测性能。我将给出一个使用梯度提升算法的例子：它以正向阶段的方式构建一个加法模型，并且在每个阶段中，在给定损失函数的负梯度上拟合一个回归树。

X = dtf_train.drop("Y", axis=1).valuesy = dtf_train["Y"].valuesfeature_names = dtf_train.drop("Y", axis=1).columns.tolist()## 呼叫模型model = ensemble.GradientBoostingRegressor()## 重要性model.fit(X,y)importances = model.feature_importances_## 放入Pandas dtfdtf_importances = pd.DataFrame({"IMPORTANCE":importances,             "VARIABLE":feature_names}).sort_values("IMPORTANCE",             ascending=False)dtf_importances['cumsum'] =              dtf_importances['IMPORTANCE'].cumsum(axis=0)dtf_importances = dtf_importances.set_index("VARIABLE")    ## 绘图fig, ax = plt.subplots(nrows=1, ncols=2, sharex=False, sharey=False)fig.suptitle("Features Importance", fontsize=20)ax[0].title.set_text('variables')    dtf_importances[["IMPORTANCE"]].sort_values(by="IMPORTANCE").plot(                kind="barh", legend=False, ax=ax[0]).grid(axis="x")ax[0].set(ylabel="")ax[1].title.set_text('cumulative')dtf_importances[["cumsum"]].plot(kind="line", linewidth=4,                                  legend=False, ax=ax[1])ax[1].set(xlabel="", xticks=np.arange(len(dtf_importances)),           xticklabels=dtf_importances.index)plt.xticks(rotation=70)plt.grid(axis='both')plt.show()

python 逻辑回归准确率是1_使用Python进行机器学习：从0到1，构建回归模型（附完整教程）..._第15张图片

很有意思的是，在所有提出的方法中，OverallQual、GrLivArea和TotalBsmtSf占主导地位。

就我个人而言，我总是尽量使用最少的功能，因此在这里，我选择以下功能，并继续设计、训练、测试和评估机器学习模型：

X_names = ['OverallQual', 'GrLivArea', 'TotalBsmtSF', "GarageCars"]X_train = dtf_train[X_names].valuesy_train = dtf_train["Y"].valuesX_test = dtf_test[X_names].valuesy_test = dtf_test["Y"].values

请注意，在使用测试数据进行预测之前，你必须像我们对列车数据那样对其进行预处理。

模型设计

最后，是时候建立机器学习模型了。我将首先运行一个简单的线性回归，并将其用作一个更复杂模型的基线，如梯度增强算法。

我通常使用的第一个度量是R的平方，它表示从自变量可以预测的因变量中的方差的比例。

我将使用k倍交叉验证比较线性回归R平方和梯度增强的R平方，这是一个将数据k次分割成训练集和验证集的过程，对于每个分割，模型都经过训练和测试。它用于检查模型是否能够通过某些数据进行训练并预测未看到的数据。

我将通过绘制预测值与实际Y的对比来可视化验证的结果。理想情况下，点应该都靠近预测=实际的对角线。

## 呼叫模型model = linear_model.LinearRegression()## K折验证scores = []cv = model_selection.KFold(n_splits=5, shuffle=True)fig = plt.figure()i = 1for train, test in cv.split(X_train, y_train):    prediction = model.fit(X_train[train],                 y_train[train]).predict(X_train[test])    true = y_train[test]    score = metrics.r2_score(true, prediction)    scores.append(score)    plt.scatter(prediction, true, lw=2, alpha=0.3,                 label='Fold %d (R2 = %0.2f)' % (i,score))    i = i+1plt.plot([min(y_train),max(y_train)], [min(y_train),max(y_train)],          linestyle='--', lw=2, color='black')plt.xlabel('Predicted')plt.ylabel('True')plt.title('K-Fold Validation')plt.legend()plt.show()

python 逻辑回归准确率是1_使用Python进行机器学习：从0到1，构建回归模型（附完整教程）..._第16张图片

线性回归的平均R平方为0.77，让我们看看梯度增强验证是如何进行的：

python 逻辑回归准确率是1_使用Python进行机器学习：从0到1，构建回归模型（附完整教程）..._第17张图片

梯度增强模型表现出更好的性能(平均R平方为0.83)，因此我将使用它来预测测试数据：

##训练model.fit(X_train, y_train)## 测试predicted = model.predict(X_test)

记住，数据是按比例缩放的，因此为了将预测值与测试集中的实际房价进行比较，必须对其进行不缩放(使用反变换函数)：

predicted = scalerY.inverse_transform(                   predicted.reshape(-1,1) ).reshape(-1)

模型评估

我们的重点是研究Y模型能解释多大的方差以及误差的分布。

我将使用以下常用度量来评估模型：R平方、平均绝对误差(MAE)和均方根误差(RMSD)。最后两个是表示相同现象的成度观测之间的误差度量。由于误差可以是正值(实际值>预测值)和负值(实际值

python 逻辑回归准确率是1_使用Python进行机器学习：从0到1，构建回归模型（附完整教程）..._第18张图片

## Kpiprint("R2 (explained variance):", round(metrics.r2_score(y_test, predicted), 2))print("Mean Absolute Perc Error (Σ(|y-pred|/y)/n):", round(np.mean(np.abs((y_test-predicted)/predicted)), 2))print("Mean Absolute Error (Σ|y-pred|/n):", "{:,.0f}".format(metrics.mean_absolute_error(y_test, predicted)))print("Root Mean Squared Error (sqrt(Σ(y-pred)^2/n)):", "{:,.0f}".format(np.sqrt(metrics.mean_squared_error(y_test, predicted))))## 残差residuals = y_test - predictedmax_error = max(residuals) if abs(max(residuals)) > abs(min(residuals)) else min(residuals)max_idx = list(residuals).index(max(residuals)) if abs(max(residuals)) > abs(min(residuals)) else list(residuals).index(min(residuals))max_true, max_pred = y_test[max_idx], predicted[max_idx]print("Max Error:", "{:,.0f}".format(max_error))

python 逻辑回归准确率是1_使用Python进行机器学习：从0到1，构建回归模型（附完整教程）..._第19张图片

模型解释了目标变量86%的方差。平均来说，预测的误差是2万美元，或者是11%。测试集上最大的错误超过17万美元，我们可以通过绘制预测值与实际值以及每个预测值的残差(误差)来可视化错误。

## 预测图 VS 真实图fig, ax = plt.subplots(nrows=1, ncols=2)from statsmodels.graphics.api import abline_plotax[0].scatter(predicted, y_test, color="black")abline_plot(intercept=0, slope=1, color="red", ax=ax[0])ax[0].vlines(x=max_pred, ymin=max_true, ymax=max_true-max_error, color='red', linestyle='--', alpha=0.7, label="max error")ax[0].grid(True)ax[0].set(xlabel="Predicted", ylabel="True", )ax[0].legend()    ## 预测 VS 残差图ax[1].scatter(predicted, residuals, color="red")ax[1].vlines(x=max_pred, ymin=0, ymax=max_error, color='black', linestyle='--', alpha=0.7, label="max error")ax[1].grid(True)ax[1].set(xlabel="Predicted", ylabel="Residuals", )ax[1].hlines(y=0, xmin=np.min(predicted), xmax=np.max(predicted))ax[1].legend()plt.show()

python 逻辑回归准确率是1_使用Python进行机器学习：从0到1，构建回归模型（附完整教程）..._第20张图片

在那里，最大误差为-170k：该模型预测的误差约为320k，而该观测值的真实值约为150k。看来大多数错误都在50k到-50k之间，让我们更好地看一下残差的分布，看看它看起来是否近似正态：

fig, ax = plt.subplots()sns.distplot(residuals, color="red", hist=True, kde=True, kde_kws={"shade":True}, ax=ax)ax.grid(True)ax.set(yticks=[], yticklabels=[], )plt.show()

python 逻辑回归准确率是1_使用Python进行机器学习：从0到1，构建回归模型（附完整教程）..._第21张图片

可解释性

你已经分析并理解了数据，训练好模型并进行了测试，甚至对性能感到满意。你也可以证明你的机器学习模型不是黑匣子。

Lime软件包可以帮助我们构建解释器。为了举例说明，我将从测试集中随机观察并观察模型的预测结果：

print("True:", "{:,.0f}".format(y_test[1]), "--> Pred:", "{:,.0f}".format(predicted[1]))

python 逻辑回归准确率是1_使用Python进行机器学习：从0到1，构建回归模型（附完整教程）..._第22张图片

模型预测这所房子的价格为194870美元。

explainer = lime_tabular.LimeTabularExplainer(training_data=X_train, feature_names=X_names, class_names="Y", mode="regression")explained = explainer.explain_instance(X_test[1], model.predict, num_features=10)explained.as_pyplot_figure()

python 逻辑回归准确率是1_使用Python进行机器学习：从0到1，构建回归模型（附完整教程）..._第23张图片

这一预测的主要因素是该房屋有一个大的地下室(TotalBsmft>1.3k)，它是用优质材料建造的(总体质量>6)，它是最近建造的(yearbuild>2001)。

预测与实际值的对比图是一个很好的工具，可以显示测试的进展情况，但我也绘制了回归平面图，以直观地帮助我们发现模型没有正确预测的异常值。因为它更适合线性模型，所以我将使用线性回归来拟合二维数据。为了绘制二维数据，需要进行一些降维(通过获取一组主变量来减少特征数量的过程)。本文以PCA算法为例，将数据归纳为两个变量，通过特征的线性组合得到。

## PCApca = decomposition.PCA(n_components=2)X_train_2d = pca.fit_transform(X_train)X_test_2d = pca.transform(X_test)## 训练2D模型model_2d = linear_model.LinearRegression()model_2d.fit(X_train, y_train)## 绘制回归平面from mpl_toolkits.mplot3d import Axes3Dax = Axes3D(plt.figure())ax.scatter(X_test[:,0], X_test[:,1], y_test, color="black")X1 = np.array([[X_test.min(), X_test.min()], [X_test.max(),                X_test.max()]])X2 = np.array([[X_test.min(), X_test.max()], [X_test.min(),                X_test.max()]])Y = model_2d.predict(np.array([[X_test.min(), X_test.min(),                      X_test.max(), X_test.max()],                     [X_test.min(), X_test.max(), X_test.min(),                      X_test.max()]]).T).reshape((2,2))Y = scalerY.inverse_transform(Y)ax.plot_surface(X1, X2, Y, alpha=0.5)ax.set(zlabel="Y", , xticklabels=[],        yticklabels=[])plt.show()

结论

本文演示了如何使用数据科学处理回归用例。我以房价数据集为例，从数据分析到机器学习模型的各个步骤。

在探索阶段中，我分析了单个类别变量，单个数值变量的情况以及它们如何相互作用。我举了一个特征工程示例，从原始数据中提取特征。关于预处理，我解释了如何处理缺失值和分类数据。我展示了选择正确特征的不同方法，如何使用它们构建回归模型以及如何评估性能。在最后一部分中，我对如何提高机器学习模型的可解释性提出了一些建议。

最后，还有一个很重要的事：如果模型通过部署后会发生什么？你只要做一件事：建立一个管道来自动处理定期获取的新数据。

到这里，已经基本说完了用Python解决机器学习中的回归模型问题，赶紧试试吧~

--END--

欢迎大家关注我们的公众号：为AI呐喊(weainahan)

找工作一定少不了项目实战经验，为了帮助更多缺少项目实战的同学入门Python，我们在头条上创建了一个专栏：《7小时快速掌握Pthon核心编程》，通过一个项目，快速掌握Python，欢迎大家点击链接或者阅读原文进行试看~

你可能感兴趣的:(python,逻辑回归准确率是1)

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
关于沟通这件事，项目经理不需要每次都面对面进行流程大师兄
很多项目经理都会遇到这样的问题，项目中由于事情太多，根本没有足够的时间去召开会议，那在这种情况下如何去有效地管理项目中的利益相关者？当然，不建议电子邮件也不需要开会的话，建议可以采取下面几种方式来形成有效的沟通，这几种方式可以帮助你努力的通过各种办法来保持和各方面的联系。项目经理首先要问自己几个问题，项目中哪些利益相关者是必须要进行沟通的？可以列出项目中所有的利益相关者清单，同时也整理出项目中哪些
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
铭刻于星（四十二）随风至
69夜晚，绍敏同学做完功课后，看了眼房外，没听到动静才敢从书包的夹层里拿出那个心形纸团。折痕压得很深，都有些旧了，想来是已经写好很久了。绍敏同学慢慢地、轻轻地捏开折叠处，待到全部拆开后，又反复抚平纸张，然后仔细地一字字默看。只是开头的三个字是第一次看到，让她心漏跳了几拍。“亲爱的绍敏：从四年级的时候，我就喜欢你了，但是我一直不敢说，怕影响你学习。六年级的时候听说有人跟你表白，你接受了，我很难过，但
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说造命者说
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说我叫吴起，生于公元前440年的战国初期，正是群雄并起、天下纷争不断的时候。后人说我是军事家、政治家、改革家，是兵家代表人物。评价我一生历仕鲁、魏、楚三国，通晓兵家、法家、儒家三家思想，在内政军事上都有极高的成就。周安王二十一年（公元前381年），因变法得罪守旧贵族，被人乱箭射死。我出生在卫国一个“家累万金”的富有家庭，从年轻时候起就不甘平凡
2020-01-25 晴岚85
郑海燕坚持分享590天2020.1.24在生活中只存在两个问题。一个问题是：你知道想要达成的目标是什么，但却不知道如何才能达成；另一个问题是：你不知道你的目标是什么。前一个是行动的问题，后一个是结果的问题。通过制定具体的下一步行动，可以解决不知道如何开始行动的问题。而通过去想象结果，对结果做预估，可以解决找不着目标的问题。对于所有吸引我们注意力，想要完成的任务，你可以先想象一下，预期的结果究竟是什
随笔 | 仙一般的灵气海思沧海
仙岛今天，我看了你全部，似乎已经进入你的世界我不知道，这是否是梦幻，还是你仙一般的灵气吸引了我也许每一个人都要有一份属于自己的追求，这样才能够符合人生的梦想，生活才能够充满着阳光与快乐我不知道，我为什么会这样的感叹，是在感叹自己的人生，还是感叹自己一直没有孜孜不倦的追求只感觉虚度了光阴，每天活在自己的梦中，活在一个不真实的世界是在逃避自己，还是在逃避周围的一切有时候我嘲笑自己，嘲笑自己如此的虚无，
想家爆米花机
也许不同于大家对家乡的思念，我对家乡甚至是疯狂的不舍。还未踏出车站就感觉到幸福，我享受这里的夕阳、这里的浓烈柴火味、这里每一口家常菜。我是宅女，我贪恋家的安逸。刚刚踏出大学校门，初出茅庐，无法适应每年只能国庆和春节回家。我焦虑、失眠、无端发脾气，是无法适应工作的节奏，是无法接受我将一步步离开家乡的事实。我不想承认自己胸无大志，选择再次踏上征程。图片发自App
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
谢谢你们，爱你们！鹿游儿
昨天家人去泡温泉，二个孩子也带着去，出发前一晚，匆匆下班，赶回家和孩子一起收拾。饭后，我拿出笔和本子（上次去澳门时做手帐的本子）写下了1\2\3\4\5\6\7\8\9,让后让小壹去思考，带什么出发去旅游呢？她在对应的数字旁边画上了，泳衣、泳圈、肖恩、内衣内裤、tapuy、拖鞋……画完后，就让她自己对着这个本子，将要带的，一一带上，没想到这次带的书还是这本《便便工厂》(晚上姑婆发照片过来，妹妹累得
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
Cell Insight | 单细胞测序技术又一新发现，可用于HIV-1和Mtb共感染个体诊断尐尐呅
结核病是艾滋病合并其他疾病中导致患者死亡的主要原因。其中结核病由结核分枝杆菌（Mycobacteriumtuberculosis,Mtb）感染引起，获得性免疫缺陷综合症（艾滋病）由人免疫缺陷病毒（Humanimmunodeficiencyvirustype1,HIV-1）感染引起。国家感染性疾病临床医学研究中心/深圳市第三人民医院张国良团队携手深圳华大生命科学研究院吴靓团队，共同研究得出单细胞测序
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
瑶池防线谜影梦蝶
冥华虽然逃过了影梦的军队，但他是一个忠臣，他选择上报战况。败给影梦后成逃兵，高层亡尔还活着，七重天失守......随便一条，即可处死冥华。冥华自然是知道以仙界高层的习性此信一发自己必死无疑，但他还选择上报实情，因为责任。同样此信送到仙宫后，知道此事的人，大多数人都认定冥华要完了，所以上到仙界高层，下到扫大街的，包括冥华自己，全都准备好迎接冥华之死。如果仙界现在还属于两方之争的话，冥华必死无疑。然而
爬山后遗症璃绛
爬山，攀登，一步一步走向制高点，是一种挑战。成功抵达是一种无法言语的快乐，在山顶吹吹风，看看风景，这是从未有过的体验。然而，爬山一时爽，下山腿打颤，颠簸的路，一路向下走，腿部力量不够，走起来抖到不行，停不下来了！第二天必定腿疼，浑身酸痛，坐立难安！
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
《策划经理回忆录之二》路基雅虎
话说三年变六年，飘了，飘了……眨眼，2013年5月，老吴回到了他的家乡——油城从新开启他的工作幻想症生涯。很庆幸，这是一家很有追求，同时敢于尝试的，且实力不容低调的新星房企——金源置业(前身泰源置业)更值得庆幸的是第一个盘就是油城十路的标杆之一:金源盛世。2013年5月，到2015年11月，两年的陪伴，迎来了一场大爆发。2000个筹，5万/筹，直接回笼1个亿！！！这……让我开始认真审视这座看似五线
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
swagger访问路径 igotyback swagger
Swagger2.x版本访问地址：http://{ip}:{port}/{context-path}/swagger-ui.html{ip}是你的服务器IP地址。{port}是你的应用服务端口，通常为8080。{context-path}是你的应用上下文路径，如果应用部署在根路径下，则为空。Swagger3.x版本对于Swagger3.x版本（也称为OpenAPI3）访问地址：http://{ip
扫地机类清洁产品之直流无刷电机控制悟空胆好小清洁服务机器人单片机人工智能
扫地机类清洁产品之直流无刷电机控制1.1前言扫地机产品有很多的电机控制，滚刷电机1个，边刷电机1-2个，清水泵电机，风机一个，部分中高端产品支持抹布功能，也就是存在抹布盘电机，还有追觅科沃斯石头等边刷抬升电机，滚刷抬升电机等的，这些电机有直流有刷电机，直接无刷电机，步进电机，电磁阀，挪动泵等不同类型。电机的原理，驱动控制方式也不行。接下来一段时间的几个文章会作个专题分析分享。直流有刷电机会自动持续
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
[星球大战]阿纳金的背叛 comsci
本来杰迪圣殿的长老是不同意让阿纳金接受训练的......... 但是由于政治原因,长老会妥协了...这给邪恶的力量带来了机会所以......现代的地球联邦接受了这个教训...绝对不让某些年轻人进入学院
看懂它，你就可以任性的玩耍了！ aijuans JavaScript
javascript作为前端开发的标配技能，如果不掌握好它的三大特点：1.原型 2.作用域 3. 闭包 ,又怎么可以说你学好了这门语言呢？如果标配的技能都没有撑握好，怎么可以任性的玩耍呢？怎么验证自己学好了以上三个基本点呢，我找到一段不错的代码，稍加改动，如果能够读懂它，那么你就可以任性了。 function jClass(b
Java常用工具包 Jodd Kai_Ge java jodd
Jodd 是一个开源的 Java 工具集，包含一些实用的工具类和小型框架。简单，却很强大！写道 Jodd = Tools + IoC + MVC + DB + AOP + TX + JSON + HTML < 1.5 Mb Jodd 被分成众多模块，按需选择，其中工具类模块有： jodd-core &nb
SpringMvc下载 120153216 springMVC
@RequestMapping(value = WebUrlConstant.DOWNLOAD) public void download(HttpServletRequest request,HttpServletResponse response,String fileName) { OutputStream os = null; InputStream is = null;
Python 标准异常总结 2002wmj python
Python标准异常总结 AssertionError 断言语句（assert）失败 AttributeError 尝试访问未知的对象属性 EOFError 用户输入文件末尾标志EOF（Ctrl+d） FloatingPointError 浮点计算错误 GeneratorExit generator.close()方法被调用的时候 ImportError 导入模块失
SQL函数返回临时表结构的数据用于查询 357029540 SQL Server
这两天在做一个查询的SQL，这个SQL的一个条件是通过游标实现另外两张表查询出一个多条数据，这些数据都是INT类型，然后用IN条件进行查询，并且查询这两张表需要通过外部传入参数才能查询出所需数据，于是想到了用SQL函数返回值，并且也这样做了，由于是返回多条数据，所以把查询出来的INT类型值都拼接为了字符串，这时就遇到问题了，在查询SQL中因为条件是INT值，SQL函数的CAST和CONVERST都
java 时间格式化 | 比较大小| 时区个人笔记 7454103 java eclipse tomcat c MyEclipse
个人总结！不当之处多多包含！引用 1.0 如何设置 tomcat 的时区：位置：(catalina.bat---JAVA_OPTS 下面加上) set JAVA_OPT
时间获取Clander的用法 adminjun Clander 时间
/** * 得到几天前的时间 * @param d * @param day * @return */ public static Date getDateBefore(Date d,int day){ Calend
JVM初探与设置 aijuans java
JVM是Java Virtual Machine（Java虚拟机）的缩写，JVM是一种用于计算设备的规范，它是一个虚构出来的计算机，是通过在实际的计算机上仿真模拟各种计算机功能来实现的。Java虚拟机包括一套字节码指令集、一组寄存器、一个栈、一个垃圾回收堆和一个存储方法域。 JVM屏蔽了与具体操作系统平台相关的信息，使Java程序只需生成在Java虚拟机上运行的目标代码（字节码）,就可以在多种平台
SQL中ON和WHERE的区别 avords
SQL中ON和WHERE的区别数据库在通过连接两张或多张表来返回记录时，都会生成一张中间的临时表，然后再将这张临时表返回给用户。 www.2cto.com 在使用left jion时，on和where条件的区别如下： 1、 on条件是在生成临时表时使用的条件，它不管on中的条件是否为真，都会返回左边表中的记录。
说说自信 houxinyou 工作生活
自信的来源分为两种,一种是源于实力,一种源于头脑.实力是一个综合的评定,有自身的能力,能利用的资源等.比如我想去月亮上,要身体素质过硬,还要有飞船等等一系列的东西.这些都属于实力的一部分.而头脑不同,只要你头脑够简单就可以了!同样要上月亮上,你想,我一跳,1米,我多跳几下,跳个几年,应该就到了!什么?你说我会往下掉?你笨呀你!找个东西踩一下不就行了吗? 无论工作还
WEBLOGIC事务超时设置 bijian1013 weblogic jta 事务超时
系统中统计数据，由于调用统计过程，执行时间超过了weblogic设置的时间，提示如下错误：统计数据出错! 原因：The transaction is no longer active - status: 'Rolling Back. [Reason=weblogic.transaction.internal
两年已过去，再看该如何快速融入新团队 bingyingao java 互联网融入架构新团队
偶得的空闲，翻到了两年前的帖子该如何快速融入一个新团队，有所感触，就记下来，为下一个两年后的今天做参考。时隔两年半之后的今天，再来看当初的这个博客，别有一番滋味。而我已经于今年三月份离开了当初所在的团队，加入另外的一个项目组，2011年的这篇博客之后的时光，我很好的融入了那个团队，而直到现在和同事们关系都特别好。大家在短短一年半的时间离一起经历了一
【Spark七十七】Spark分析Nginx和Apache的access.log bit1129 apache
Spark分析Nginx和Apache的access.log，第一个问题是要对Nginx和Apache的access.log文件进行按行解析，按行解析就的方法是正则表达式： Nginx的access.log解析正则表达式 val PATTERN = """([^ ]*) ([^ ]*) ([^ ]*) (\\[.*\\]) (\&q
Erlang patch bookjovi erlang
Totally five patchs committed to erlang otp, just small patchs. IMO, erlang really is a interesting programming language, I really like its concurrency feature. but the functional programming style
log4j日志路径中加入日期 bro_feng java log4j
要用log4j使用记录日志，日志路径有每日的日期，文件大小5M新增文件。实现方式 log4j: <appender name="serviceLog" class="org.apache.log4j.RollingFileAppender"> <param name="Encoding" v
读《研磨设计模式》-代码笔记-桥接模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 个人觉得关于桥接模式的例子，蜡笔和毛笔这个例子是最贴切的：http://www.cnblogs.com/zhenyulu/articles/67016.html * 笔和颜色是可分离的，蜡笔把两者耦合在一起了：一支蜡笔只有一种
windows7下SVN和Eclipse插件安装 chenyu19891124 eclipse插件
今天花了一天时间弄SVN和Eclipse插件的安装，今天弄好了。svn插件和Eclipse整合有两种方式，一种是直接下载插件包，二种是通过Eclipse在线更新。由于之前Eclipse版本和svn插件版本有差别，始终是没装上。最后在网上找到了适合的版本。所用的环境系统：windows7JDK：1.7svn插件包版本：1.8.16Eclipse：3.7.2工具下载地址：Eclipse下在地址：htt
[转帖]工作流引擎设计思路 comsci 设计模式工作应用服务器 workflow 企业应用
作为国内的同行，我非常希望在流程设计方面和大家交流，刚发现篇好文(那么好的文章，现在才发现，可惜)，关于流程设计的一些原理，个人觉得本文站得高，看得远，比俺的文章有深度，转载如下 ================================================================================= 自开博以来不断有朋友来探讨工作流引擎该如何
Linux 查看内存，CPU及硬盘大小的方法 daizj linux cpu 内存硬盘大小
一、查看CPU信息的命令 [root@R4 ~]# cat /proc/cpuinfo |grep "model name" && cat /proc/cpuinfo |grep "physical id" model name : Intel(R) Xeon(R) CPU X5450 @ 3.00GHz model name :
linux 踢出在线用户 dongwei_6688 linux
两个步骤： 1.用w命令找到要踢出的用户，比如下面： [root@localhost ~]# w 18:16:55 up 39 days, 8:27, 3 users, load average: 0.03, 0.03, 0.00 USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT
放手吧,就像不曾拥有过一样 dcj3sjt126com
内容提要：静悠悠编著的《放手吧就像不曾拥有过一样》集结“全球华语世界最舒缓心灵”的精华故事，触碰生命最深层次的感动，献给全世界亿万读者。《放手吧就像不曾拥有过一样》的作者衷心地祝愿每一位读者都给自己一个重新出发的理由，将那些令你痛苦的、扛起的、背负的，一并都放下吧！把憔悴的面容换做一种清淡的微笑，把沉重的步伐调节成春天五线谱上的音符，让自己踏着轻快的节奏，在人生的海面上悠然漂荡，享受宁静与
php二进制安全的含义 dcj3sjt126com PHP
PHP里，有string的概念。 string里，每个字符的大小为byte（与PHP相比，Java的每个字符为Character，是UTF8字符，C语言的每个字符可以在编译时选择）。 byte里，有ASCII代码的字符，例如ABC，123，abc，也有一些特殊字符，例如回车，退格之类的。特殊字符很多是不能显示的。或者说，他们的显示方式没有标准，例如编码65到哪儿都是字母A，编码97到哪儿都是字符
Linux下禁用T440s，X240的一体化触摸板(touchpad) gashero linux ThinkPad 触摸板
自打1月买了Thinkpad T440s就一直很火大，其中最让人恼火的莫过于触摸板。 Thinkpad的经典就包括用了小红点(TrackPoint)。但是小红点只能定位，还是需要鼠标的左右键的。但是自打T440s等开始启用了一体化触摸板，不再有实体的按键了。问题是要是好用也行。实际使用中，触摸板一堆问题，比如定位有抖动，以及按键时会有飘逸。这就导致了单击经常就
graph_dfs hcx2013 Graph
package edu.xidian.graph; class MyStack { private final int SIZE = 20; private int[] st; private int top; public MyStack() { st = new int[SIZE]; top = -1; } public void push(i
Spring4.1新特性——Spring核心部分及其他 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
配置HiveServer2的安全策略之自定义用户名密码验证 liyonghui160com
具体从网上看 http://doc.mapr.com/display/MapR/Using+HiveServer2#UsingHiveServer2-ConfiguringCustomAuthentication LDAP Authentication using OpenLDAP Setting
一位30多的程序员生涯经验总结 pda158 编程工作生活咨询
1.客户在接触到产品之后，才会真正明白自己的需求。　　这是我在我的第一份工作上面学来的。只有当我们给客户展示产品的时候，他们才会意识到哪些是必须的。给出一个功能性原型设计远远比一张长长的文字表格要好。 2.只要有充足的时间，所有安全防御系统都将失败。　　安全防御现如今是全世界都在关注的大课题、大挑战。我们必须时时刻刻积极完善它，因为黑客只要有一次成功，就可以彻底打败你。 3.
分布式web服务架构的演变自由的奴隶 linux Web 应用服务器互联网
最开始，由于某些想法，于是在互联网上搭建了一个网站，这个时候甚至有可能主机都是租借的，但由于这篇文章我们只关注架构的演变历程，因此就假设这个时候已经是托管了一台主机，并且有一定的带宽了，这个时候由于网站具备了一定的特色，吸引了部分人访问，逐渐你发现系统的压力越来越高，响应速度越来越慢，而这个时候比较明显的是数据库和应用互相影响，应用出问题了，数据库也很容易出现问题，而数据库出问题的时候，应用也容易
初探Druid连接池之二——慢SQL日志记录 xingsan_zhang 日志连接池 druid 慢SQL
由于工作原因，这里先不说连接数据库部分的配置，后面会补上，直接进入慢SQL日志记录。 1.applicationContext.xml中增加如下配置： <bean abstract="true" id="mysql_database" class="com.alibaba.druid.pool.DruidDataSourc