weixin_39678525

波士顿房价预测python决策树_模型评价与验证-波士顿房价预测.ipynb

{

"cells": [

{

"cell_type": "markdown",

"metadata": {},

"source": [

"## 模型评价与验证：波士顿房价预测"

]

{

"cell_type": "markdown",

"metadata": {},

"source": [

"欢迎来到机器学习实战系列的波士顿房价预测项目！在此文件中，有些示例代码已经提供给你，但你还需要实现更多的功能来让项目成功运行。除非有明确要求，你无须修改任何已给出的代码。以 **编程练习**开始的标题表示接下来的内容中有需要你实现的功能。需要实现的部分也会在注释中以**TODO**标出。请仔细阅读所有的提示！你可以点击**问题提示**，查看每一部分详细的提示指导，也可以点击**插入答案**，把正确答案插入到下方代码块中。\n",

"\n",

"除了实现代码外，你还需要回答一些与项目和实现有关的问题。每一个需要你回答的问题都会以 **思考问答**为标题。请仔细阅读每个问题，作出答复。当然我们也为你提供**问题提示**和**查看答案**的按钮。\n",

"\n",

"**文档中提供的代码具有顺序性，必须从前往后依次运行代码，不能跳跃执行，否则可能出现意想不到的错误！**"

]

{

"cell_type": "markdown",

"metadata": {},

"source": [

"---\n",

"### 第一步：导入数据"

]

{

"cell_type": "markdown",

"metadata": {},

"source": [

"\n",

"在这个项目中，你将利用马萨诸塞州波士顿郊区的房屋信息数据训练和测试一个模型，并对模型的性能和预测能力进行测试。通过该数据训练好的模型可以被用来对房屋做特定预测---尤其是对房屋的价值。对于房地产经纪等人的日常工作来说，这样的预测模型被证明非常有价值。\n",

"\n",

"文件列表中 `visuals.py` 为辅助代码，`housing.csv` 为数据集文件，`result` 文件夹为结果的文件存放地(如果你使用CPU/GPU运行代码创建了job时，job运行完的结果文件也会存放于此)。 "

]

{

"cell_type": "markdown",

"metadata": {},

"source": [

"波士顿房屋这些数据于1978年开始统计，共506个数据点，涵盖了麻省波士顿不同郊区房屋14种特征的信息。本项目对原始数据集做了以下处理：\n",

"- 有16个`'MEDV'` 值为50.0的数据点被移除。这很可能是由于这些数据点包含**遗失**或**看不到的值**。\n",

"- 有1个数据点的 `'RM'` 值为8.78. 这是一个异常值，已经被移除。\n",

"- 对于本项目，房屋的`'RM'`， `'LSTAT'`，`'PTRATIO'`以及`'MEDV'`特征是必要的，其余不相关特征已经被移除。\n",

"- `'MEDV'`特征的值已经经过必要的数学转换，可以反映35年来市场的通货膨胀效应。\n",

"\n",

"以上特征的含义如下： \n",

"`RM`: 住宅平均房间数量 \n",

"`LSTAT`: 区域中被认为是低收入阶层的比率 \n",

"`PTRATIO`: 镇上学生与教师数量比例 \n",

"`MEDV`: 房屋的中值价格 \n",

"\n",

"运行下面区域的代码以载入波士顿房屋数据集，以及一些此项目所需的 Python 模块库。如果成功返回数据集的大小，表示数据集已载入成功。我们也可以看到输出的数据集结构。"

]

{

"cell_type": "code",

"execution_count": null,

"metadata": {

"collapsed": true

"outputs": [],

"source": [

"# Import libraries necessary for this project\n",

"import numpy as np\n",

"import pandas as pd\n",

"from sklearn.model_selection import ShuffleSplit\n",

"\n",

"# Import supplementary visualizations code visuals.py\n",

"import visuals as vs\n",

"\n",

"# Pretty display for notebooks\n",

"%matplotlib inline\n",

"\n",

"# Load the Boston housing dataset\n",

"data = pd.read_csv('housing.csv')\n",

"prices = data['MEDV']\n",

"features = data.drop('MEDV', axis = 1)\n",

"\n",

"# Success\n",

"print(\"Boston housing dataset has {} data points with {} variables each.\".format(*data.shape))\n",

"\n",

"# 显示数据结构\n",

"data.head()"

]

{

"cell_type": "markdown",

"metadata": {},

"source": [

"### 第二步：分析数据"

]

{

"cell_type": "markdown",

"metadata": {},

"source": [

"\n",

"在项目的第一个部分，你会对波士顿房地产数据进行初步的观察并给出你的分析。通过对数据的探索来熟悉数据可以让你更好地理解和解释你的结果。由于这个项目的最终目标是建立一个预测房屋价值的模型，我们需要将数据集分为**特征(features)**和**目标变量(target variable)**。\n",

"- **特征** `'RM'`， `'LSTAT'`，和 `'PTRATIO'`，给我们提供了每个数据点的数量相关的信息。\n",

"- **目标变量**：` 'MEDV'`，是我们希望预测的变量。\n",

"\n",

"他们分别被存在 `features` 和 `prices` 两个变量名中。"

]

{

"cell_type": "markdown",

"metadata": {},

"source": [

" **编程练习**\n",

"\n",

"你的第一个编程练习是计算有关波士顿房价的描述统计数据。我们已为你导入了 ` NumPy `，你需要使用这个库来执行必要的计算。这些统计数据对于分析模型的预测结果非常重要的。\n",

"在下面的代码中，你要做的是：\n",

"- 计算 `prices` 中的 `'MEDV'` 的最小值、最大值、均值、中值和标准差；\n",

"- 将运算结果储存在相应的变量中。"

]

{

"cell_type": "code",

"execution_count": null,

"metadata": {

"collapsed": true

"outputs": [],

"source": [

"# TODO: Minimum price of the data\n",

"minimum_price = None\n",

"\n",

"# TODO: Maximum price of the data\n",

"maximum_price = None\n",

"\n",

"# TODO: Mean price of the data\n",

"mean_price = None\n",

"\n",

"# TODO: Median price of the data\n",

"median_price = None\n",

"\n",

"# TODO: Standard deviation of prices of the data\n",

"std_price = None\n",

"\n",

"# Show the calculated statistics\n",

"print(\"Statistics for Boston housing dataset:\\n\")\n",

"print(\"Minimum price: ${:.2f}\".format(minimum_price))\n",

"print(\"Maximum price: ${:.2f}\".format(maximum_price))\n",

"print(\"Mean price: ${:.2f}\".format(mean_price))\n",

"print(\"Median price ${:.2f}\".format(median_price))\n",

"print(\"Standard deviation of prices: ${:.2f}\".format(std_price))\n"

]

{

"cell_type": "markdown",

"metadata": {},

"source": [

"问题提示插入答案"

]

{

"cell_type": "code",

"execution_count": null,

"metadata": {},

"outputs": [],

"source": [

"# TODO: Minimum price of the data\n",

"minimum_price = prices.min()\n",

"\n",

"# TODO: Maximum price of the data\n",

"maximum_price = prices.max()\n",

"\n",

"# TODO: Mean price of the data\n",

"mean_price = prices.mean()\n",

"\n",

"# TODO: Median price of the data\n",

"median_price = prices.median()\n",

"\n",

"# TODO: Standard deviation of prices of the data\n",

"std_price = prices.std()\n",

"\n",

"# Show the calculated statistics\n",

"print(\"Statistics for Boston housing dataset:\\n\")\n",

"print(\"Minimum price: ${:.2f}\".format(minimum_price))\n",

"print(\"Maximum price: ${:.2f}\".format(maximum_price))\n",

"print(\"Mean price: ${:.2f}\".format(mean_price))\n",

"print(\"Median price ${:.2f}\".format(median_price))\n",

"print(\"Standard deviation of prices: ${:.2f}\".format(std_price))\n"

]

{

"cell_type": "markdown",

"metadata": {},

"source": [

" **思考问答**\n",

"\n",

"如前文所述，本项目中我们关注的是其中三个值:`'RM'`、`'LSTAT'` 和`'PTRATIO'`，对每一个数据点:\n",

"- `'RM'` 是该地区中每个房屋的平均房间数量；\n",

"- `'LSTAT'` 是指该地区有多少百分比的业主属于是低收入阶层(有工作但收入微薄)；\n",

"- `'PTRATIO'` 是该地区的中学和小学里，学生和老师的数目比(`学生/老师`)。\n",

"\n",

"_凭直觉，上述三个特征中对每一个来说，你认为增大该特征的数值，`'MEDV'`的值会是**增大**还是**减小**呢？每一个答案都需要你给出理由。_"

]

{

"cell_type": "markdown",

"metadata": {},

"source": [

"问题提示查看答案"

]

{

"cell_type": "markdown",

"metadata": {},

"source": [

"### 第三步：建立模型"

]

{

"cell_type": "markdown",

"metadata": {},

"source": [

"\n",

"在项目的第三步中，你需要了解必要的工具和技巧来对你的模型进行预测。用这些工具和技巧对每一个模型的表现做精确的衡量可以极大地增强你预测的信心。"

]

{

"cell_type": "markdown",

"metadata": {},

"source": [

"\n",

"如果不能对模型的训练和测试的表现进行量化地评估，我们就很难衡量模型的好坏。通常我们会定义一些衡量标准，这些标准可以通过对某些误差或者拟合程度的计算来得到。在这个项目中，你将通过运算[决定系数](https://en.wikipedia.org/wiki/Coefficient_of_determination) $R^2$ 来量化模型的表现。模型的决定系数是回归分析中十分常用的统计信息，经常被当作衡量模型预测能力好坏的标准。\n",

"\n",

"$R^2$ 的数值范围从0至1，表示**目标变量**的预测值和实际值之间的相关程度平方的百分比。一个模型的 $R^2$ 值为0还不如直接用**平均值**来预测效果好；而一个 $R^2$ 值为1的模型则可以对目标变量进行完美的预测。从0至1之间的数值，则表示该模型中目标变量中有百分之多少能够用**特征**来解释。模型也可能出现负值的 $R^2$，这种情况下模型所做预测有时会比直接计算目标变量的平均值差很多。\n",

"\n",

" **编程练习**\n",

"\n",

"在下方代码的 `performance_metric` 函数中，你要实现：\n",

"- 使用 `sklearn.metrics` 中的 [`r2_score`](http://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html) 来计算 `y_true` 和 `y_predict` 的 $R^2$ 值，作为对其表现的评判。\n",

"- 将他们的表现评分储存到 `score` 变量中。"

]

{

"cell_type": "code",

"execution_count": null,

"metadata": {

"collapsed": true

"outputs": [],

"source": [

"# TODO: 导入 'r2_score'\n",

"\n",

"def performance_metric(y_true, y_predict):\n",

" \"\"\" Calculates and returns the performance score between\n",

" true and predicted values based on the metric chosen. \"\"\"\n",

"\n",

" # TODO: Calculate the performance score between 'y_true' and 'y_predict'\n",

" score = None\n",

"\n",

" # Return the score\n",

" return score\n"

]

{

"cell_type": "markdown",

"metadata": {},

"source": [

"问题提示插入答案"

]

{

"cell_type": "code",

"execution_count": null,

"metadata": {},

"outputs": [],

"source": [

"# TODO: 导入 'r2_score'\n",

"\n",

"from sklearn.metrics import r2_score\n",

"\n",

"def performance_metric(y_true, y_predict):\n",

" \"\"\"计算并返回预测值相比于预测值的分数\"\"\"\n",

" score = r2_score(y_true,y_predict)\n",

" return score\n",

"\n"

]

{

"cell_type": "markdown",

"metadata": {},

"source": [

" **思考问答**\n",

"\n",

"假设一个数据集有五个数据且一个模型做出下列目标变量的预测：\n",

"\n",

"| 真实数值 | 预测数值 |\n",

"| :-------------: | :--------: |\n",

"| 3.0 | 2.5 |\n",

"| -0.5 | 0.0 |\n",

"| 2.0 | 2.1 |\n",

"| 7.0 | 7.8 |\n",

"| 4.2 | 5.3 |\n",

"*你觉得这个模型已成功地描述了目标变量的变化吗？如果成功，请解释为什么，如果没有，也请给出原因。* \n"

]

{

"cell_type": "markdown",

"metadata": {},

"source": [

"问题提示查看答案"

]

{

"cell_type": "code",

"execution_count": null,

"metadata": {

"collapsed": true

"outputs": [],

"source": [

"# Calculate the performance of this model\n",

"score = performance_metric([3, -0.5, 2, 7, 4.2], [2.5, 0.0, 2.1, 7.8, 5.3])\n",

"print(\"Model has a coefficient of determination, R^2, of {:.3f}.\".format(score))\n"

]

{

"cell_type": "markdown",

"metadata": {},

"source": [

" **编程练习**\n",

"\n",

"接下来，你需要把波士顿房屋数据集分成训练和测试两个子集。通常在这个过程中，数据也会被重排列，以消除数据集中由于顺序而产生的偏差。\n",

"在下面的代码中，你需要\n",

"\n",

"* 使用 `sklearn.model_selection` 中的 `train_test_split`，将 `features` 和 `prices` 的数据都分成用于训练的数据子集和用于测试的数据子集。\n",

" - 分割比例为：80%的数据用于训练，20%用于测试；\n",

" - 选定一个数值以设定 `train_test_split` 中的 `random_state` ，这会确保结果的一致性；\n",

"* 将分割后的训练集与测试集分配给 `X_train`, `X_test`, `y_train` 和 `y_test`。"

]

{

"cell_type": "code",

"execution_count": null,

"metadata": {

"collapsed": true

"outputs": [],

"source": [

"# TODO: Import 'train_test_split'\n",

"\n",

"# TODO: Shuffle and split the data into training and testing subsets\n",

"X_train, X_test, y_train, y_test = (None, None, None, None)\n",

"\n",

"# Success\n",

"print(\"Training and testing split was successful.\")\n"

]

{

"cell_type": "markdown",

"metadata": {},

"source": [

"问题提示插入答案"

]

{

"cell_type": "code",

"execution_count": null,

"metadata": {},

"outputs": [],

"source": [

"# TODO: Import 'train_test_split'\n",

"\n",

"# TODO: Shuffle and split the data into training and testing subsets\n",

"from sklearn.model_selection import train_test_split\n",

"X_train, X_test, y_train, y_test = train_test_split(features, prices, test_size=0.2, random_state=42)\n",

"print(X_train)\n",

"print(X_test)\n",

"print(y_train)\n",

"print(y_test)\n",

"\n",

"# Success\n",

"print(\"Training and testing split was successful.\")\n"

]

{

"cell_type": "markdown",

"metadata": {},

"source": [

" **思考问答**\n",

"\n",

"*将数据集按一定比例分为训练用的数据集和测试用的数据集对学习算法有什么好处？*\n",

"\n",

"*如果用模型已经见过的数据，例如部分训练集数据进行测试，又有什么坏处？*"

]

{

"cell_type": "markdown",

"metadata": {},

"source": [

"问题提示查看答案"

]

{

"cell_type": "markdown",

"metadata": {},

"source": [

"### 第四步：分析模型的表现"

]

{

"cell_type": "markdown",

"metadata": {},

"source": [

"在项目的第四步，我们来看一下不同参数下，模型在训练集和验证集上的表现。这里，我们专注于一个特定的算法(带剪枝的决策树，但这并不是这个项目的重点)，和这个算法的一个参数 `'max_depth'`。用全部训练集训练，选择不同`'max_depth'` 参数，观察这一参数的变化如何影响模型的表现。画出模型的表现来对于分析过程十分有益。"

]

{

"cell_type": "markdown",

"metadata": {},

"source": [

"**学习曲线**\n",

"\n",

"下方区域内的代码会输出四幅图像，它们是一个决策树模型在不同最大深度下的表现。每一条曲线都直观得显示了随着训练数据量的增加，模型学习曲线的在训练集评分和验证集评分的变化，评分使用决定系数 $R^2$。曲线的阴影区域代表的是该曲线的不确定性(用标准差衡量)。\n",

"\n",

"运行下方区域中的代码，并利用输出的图形回答下面的问题。"

]

{

"cell_type": "code",

"execution_count": null,

"metadata": {

"collapsed": true,

"scrolled": false

"outputs": [],

"source": [

"# Produce learning curves for varying training set sizes and maximum depths\n",

"vs.ModelLearning(features, prices)\n"

]

{

"cell_type": "markdown",

"metadata": {},

"source": [

" **思考问答**\n",

"\n",

"* 选择上述图像中的其中一个，并给出其最大深度。\n",

"* 随着训练数据量的增加，训练集曲线的评分有怎样的变化？验证集曲线呢？\n",

"* 如果有更多的训练数据，是否能有效提升模型的表现呢？"

]

{

"cell_type": "markdown",

"metadata": {},

"source": [

"问题提示查看答案"

]

{

"cell_type": "markdown",

"metadata": {},

"source": [

"**复杂度曲线**\n",

"\n",

"下列代码内的区域会输出一幅图像，它展示了一个已经经过训练和验证的决策树模型在不同最大深度条件下的表现。这个图形将包含两条曲线，一个是训练集的变化，一个是验证集的变化。跟**学习曲线**相似，阴影区域代表该曲线的不确定性，模型训练和测试部分的评分都用的 `performance_metric` 函数。\n",

"\n",

"**运行下方区域中的代码，并利用输出的图形并回答下面的问题5与问题6。**"

]

{

"cell_type": "code",

"execution_count": null,

"metadata": {

"collapsed": true

"outputs": [],

"source": [

"vs.ModelComplexity(X_train, y_train)\n"

]

{

"cell_type": "markdown",

"metadata": {},

"source": [

" **思考问答**\n",

"\n",

"关于偏差(bias)与方差(variance)之间的权衡取舍，请回答以下问题：\n",

"* 当模型以最大深度 1训练时，模型的预测是出现很大的偏差还是出现了很大的方差？\n",

"* 当模型以最大深度10训练时，情形又如何呢？\n",

"* 图形中的哪些特征能够支持你的结论？"

]

{

"cell_type": "markdown",

"metadata": {},

"source": [

"问题提示查看答案"

]

{

"cell_type": "markdown",

"metadata": {},

"source": [

" **思考问答**\n",

"\n",

"* 结合问题 5 中的图，你认为最大深度是多少的模型能够最好地对未见过的数据进行预测？\n",

"* 你得出这个答案的依据是什么？"

]

{

"cell_type": "markdown",

"metadata": {},

"source": [

"问题提示查看答案"

]

{

"cell_type": "markdown",

"metadata": {},

"source": [

"### 第五步：评估模型的表现"

]

{

"cell_type": "markdown",

"metadata": {},

"source": [

"\n",

"在项目的最后一节中，你将构建一个模型，并使用 `fit_model` 中的优化模型去预测客户特征集。"

]

{

"cell_type": "markdown",

"metadata": {},

"source": [

" **思考问答**\n",

"\n",

"回答以下关于网格搜索(Grid Search)的问题：\n",

"* 什么是网格搜索法？\n",

"* 如何用它来优化模型？"

]

{

"cell_type": "markdown",

"metadata": {},

"source": [

"数据集\n",

"- 训练集 train set\n",

" - 训练集 train fold\n",

" - 验证集 test fold\n",

"- 测试集 test set"

]

{

"cell_type": "markdown",

"metadata": {},

"source": [

"问题提示查看答案"

]

{

"cell_type": "markdown",

"metadata": {},

"source": [

" **思考问答**\n",

"\n",

"回答以下关于交叉验证的问题：\n",

"- 什么是K折交叉验证法(k-fold cross-validation)？\n",

"- [GridSearchCV](http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html) 是如何结合交叉验证来完成对最佳参数组合的选择的？\n",

"- [GridSearchCV](http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html) 中的`'cv_results_'`属性能告诉我们什么？\n",

"- 网格搜索为什么要使用K折交叉验证？K折交叉验证能够避免什么问题？"

]

{

"cell_type": "markdown",

"metadata": {},

"source": [

"问题提示查看答案"

]

{

"cell_type": "markdown",

"metadata": {},

"source": [

" **编程练习**\n",

"\n",

"在这个练习中，你将需要将所学到的内容整合，使用**决策树算法**训练一个模型。为了得出的是一个最优模型，你需要使用网格搜索法训练模型，以找到最佳的 `'max_depth'` 参数。你可以把`'max_depth'` 参数理解为决策树算法在做出预测前，允许其对数据提出问题的数量。决策树是**监督学习算法**中的一种。\n",

"\n",

"另外，你会发现在实现的过程中是使用`ShuffleSplit()`作为交叉验证的另一种形式(参见'cv_sets'变量)。虽然它不是你在问题8中描述的K-fold交叉验证方法，但它同样非常有用！下面的`ShuffleSplit()`实现将创建10个('n_splits')混洗集合，并且对于每个混洗集，数据的20％('test_size')将被用作验证集合。当您在实现代码的时候，请思考一下它与 `K-fold cross-validation` 的不同与相似之处。\n",

"\n",

"请注意，`ShuffleSplit` 在 `Scikit-Learn` 版本0.17和0.18中有不同的参数。对于下面代码单元格中的 `fit_model` 函数，您需要实现以下内容：\n",

"\n",

"1. **定义 `'regressor'` 变量**: 使用 `sklearn.tree` 中的 [`DecisionTreeRegressor`](http://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeRegressor.html) 创建一个决策树的回归函数;\n",

"2. **定义 `'params'` 变量**: 为 `'max_depth'` 参数创造一个字典，它的值是从1至10的数组;\n",

"3. **定义 `'scoring_fnc'` 变量**: 使用 `sklearn.metrics` 中的 [`make_scorer`](http://scikit-learn.org/stable/modules/generated/sklearn.metrics.make_scorer.html) 创建一个评分函数。将 `‘performance_metric’` 作为参数传至这个函数中；\n",

"4. **定义 `'grid'` 变量**: 使用 `sklearn.model_selection` 中的 [`GridSearchCV`](http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html) 创建一个网格搜索对象；将变量`'regressor'`, `'params'`, `'scoring_fnc'`和 `'cv_sets'` 作为参数传至这个对象构造函数中；\n",

"\n",

" \n",

"如果你对 Python 函数的默认参数定义和传递不熟悉，可以参考这个MIT课程的[视频](http://cn-static.udacity.com/mlnd/videos/MIT600XXT114-V004200_DTH.mp4)。"

]

{

"cell_type": "code",

"execution_count": null,

"metadata": {

"collapsed": true

"outputs": [],

"source": [

"# TODO: Import 'make_scorer', 'DecisionTreeRegressor', and 'GridSearchCV'\n",

"\n",

"def fit_model(X, y):\n",

" \"\"\" Performs grid search over the 'max_depth' parameter for a\n",

" decision tree regressor trained on the input data [X, y]. \"\"\"\n",

"\n",

" # Create cross-validation sets from the training data\n",

" # sklearn version 0.18: ShuffleSplit(n_splits=10, test_size=0.1, train_size=None, random_state=None)\n",

" # sklearn versiin 0.17: ShuffleSplit(n, n_iter=10, test_size=0.1, train_size=None, random_state=None)\n",

" cv_sets = ShuffleSplit(n_splits=10, test_size=0.20, random_state=42)\n",

"\n",

" # TODO: Create a decision tree regressor object\n",

" regressor = None\n",

"\n",

" # TODO: Create a dictionary for the parameter 'max_depth' with a range from 1 to 10\n",

" params = {}\n",

"\n",

" # TODO: Transform 'performance_metric' into a scoring function using 'make_scorer'\n",

" scoring_fnc = None\n",

"\n",

" # TODO: Create the grid search cv object --> GridSearchCV()\n",

" # Make sure to include the right parameters in the object:\n",

" # (estimator, param_grid, scoring, cv) which have values 'regressor', 'params', 'scoring_fnc', and 'cv_sets' respectively.\n",

" grid = None\n",

"\n",

" # Fit the grid search object to the data to compute the optimal model\n",

" grid = grid.fit(X, y)\n",

"\n",

" # Return the optimal model after fitting the data\n",

" return grid.best_estimator_\n"

]

{

"cell_type": "markdown",

"metadata": {},

"source": [

"问题提示插入答案"

]

{

"cell_type": "code",

"execution_count": null,

"metadata": {},

"outputs": [],

"source": [

"# TODO 4\n",

"\n",

"from sklearn.model_selection import KFold,GridSearchCV\n",

"from sklearn.metrics import make_scorer\n",

"from sklearn import tree\n",

"\n",

"def fit_model(X, y):\n",

" \"\"\" 基于输入数据 [X,y]，利于网格搜索找到最优的决策树模型\"\"\"\n",

" \n",

" cross_validator = KFold()\n",

" \n",

" regressor = tree.DecisionTreeRegressor()\n",

"\n",

" params = {'max_depth':range(1,11)}\n",

" \n",

" scoring_fnc = make_scorer(performance_metric)\n",

"\n",

" grid = GridSearchCV(regressor,params,scoring=scoring_fnc,cv=cross_validator) #,cross_validator\n",

" \n",

" # 基于输入数据 [X,y]，进行网格搜索\n",

" grid = grid.fit(X, y)\n",

" # 查看参数\n",

" # print(pd.DataFrame(grid.cv_results_))\n",

" # 返回网格搜索后的最优模型\n",

" return grid.best_estimator_\n",

"\n",

"fit_model(X_train,y_train)\n"

]

{

"cell_type": "markdown",

"metadata": {},

"source": [

"### 第六步：做出预测"

]

{

"cell_type": "markdown",

"metadata": {},

"source": [

"\n",

"当我们用数据训练出一个模型，它现在就可用于对新的数据进行预测。在决策树回归函数中，模型已经学会对新输入的数据*提问*，并返回对**目标变量**的预测值。你可以用这个预测来获取数据未知目标变量的信息，这些数据必须是不包含在训练数据之内的。"

]

{

"cell_type": "markdown",

"metadata": {},

"source": [

" **思考问答**\n",

"\n",

"*最优模型的最大深度(maximum depth)是多少？此答案与你在**问题 6**所做的猜测是否相同？*"

]

{

"cell_type": "markdown",

"metadata": {},

"source": [

"问题提示查看答案"

]

{

"cell_type": "code",

"execution_count": null,

"metadata": {

"collapsed": true,

"scrolled": true

"outputs": [],

"source": [

"# Fit the training data to the model using grid search\n",

"reg = fit_model(X_train, y_train)\n",

"\n",

"# Produce the value for 'max_depth'\n",

"print(\"Parameter 'max_depth' is {} for the optimal model.\".format(reg.get_params()['max_depth']))\n"

]

{

"cell_type": "markdown",

"metadata": {},

"source": [

" **思考问答**\n",

"\n",

"想像你是一个在波士顿地区的房屋经纪人，并期待使用此模型以帮助你的客户评估他们想出售的房屋。你已经从你的三个客户收集到以下的资讯:\n",

"\n",

"| 特征 | 客戶 1 | 客戶 2 | 客戶 3 |\n",

"| :---: | :---: | :---: | :---: |\n",

"| 房屋内房间总数 | 5 间房间 | 4 间房间 | 8 间房间 |\n",

"| 社区贫困指数(％被认为是贫困阶层) | 17% | 32% | 3% |\n",

"| 邻近学校的学生-老师比例 | 15：1 | 22：1 | 12：1 |\n",

"\n",

"* 你会建议每位客户的房屋销售的价格为多少？\n",

"* 从房屋特征的数值判断，这样的价格合理吗？为什么？"

]

{

"cell_type": "markdown",

"metadata": {},

"source": [

"问题提示查看答案"

]

{

"cell_type": "code",

"execution_count": null,

"metadata": {

"collapsed": true

"outputs": [],

"source": [

"# Produce a matrix for client data\n",

"client_data = [[5, 17, 15], # Client 1\n",

" [4, 32, 22], # Client 2\n",

" [8, 3, 12]] # Client 3\n",

"\n",

"# Show predictions\n",

"for i, price in enumerate(reg.predict(client_data)):\n",

" print(\"Predicted selling price for Client {}'s home: ${:,.2f}\".format(i+1, price))\n"

]

{

"cell_type": "markdown",

"metadata": {},

"source": [

" **编程练习**\n",

"\n",

"你刚刚预测了三个客户的房子的售价。在本练习中，你将用你的最优模型在整个测试数据上进行预测, 并计算相对于目标变量的决定系数 $R^2$ 的值。\n"

]

{

"cell_type": "code",

"execution_count": null,

"metadata": {

"collapsed": true

"outputs": [],

"source": [

"# TODO Calculate the r2 score between 'y_true' and 'y_predict'\n",

"\n",

"r2 = None\n",

"\n",

"print(\"Optimal model has R^2 score {:,.2f} on test data\".format(r2))\n"

]

{

"cell_type": "markdown",

"metadata": {},

"source": [

"问题提示插入答案"

]

{

"cell_type": "code",

"execution_count": null,

"metadata": {},

"outputs": [],

"source": [

"#TODO 5\n",

"\n",

"predict = reg.predict(X_test)\n",

"\n",

"r2 = performance_metric(y_test,predict)\n",

"\n",

"print(\"Optimal model has R^2 score {:,.2f} on test data\".format(r2))\n"

]

{

"cell_type": "markdown",

"metadata": {},

"source": [

" **思考问答**\n",

"\n",

"你刚刚计算了最优模型在测试集上的决定系数，你会如何评价这个结果？"

]

{

"cell_type": "markdown",

"metadata": {},

"source": [

"问题提示查看答案"

]

{

"cell_type": "markdown",

"metadata": {},

"source": [

"**模型健壮性**\n",

"\n",

"一个最优的模型不一定是一个健壮模型。有的时候模型会过于复杂或者过于简单，以致于难以泛化新增添的数据；有的时候模型采用的学习算法并不适用于特定的数据结构；有的时候样本本身可能有太多噪点或样本过少，使得模型无法准确地预测目标变量。这些情况下我们会说模型是欠拟合的。\n",

"\n",

" **思考问答**\n",

"\n",

"模型是否足够健壮来保证预测的一致性？\n"

]

{

"cell_type": "markdown",

"metadata": {},

"source": [

"问题提示查看答案"

]

{

"cell_type": "code",

"execution_count": null,

"metadata": {

"collapsed": true

"outputs": [],

"source": [

"vs.PredictTrials(features, prices, fit_model, client_data)\n"

]

{

"cell_type": "markdown",

"metadata": {},

"source": [

" **思考问答**\n",

"\n",

"*简单地讨论一下你建构的模型能否在现实世界中使用？是否具有实用性？* "

]

{

"cell_type": "markdown",

"metadata": {},

"source": [

"问题提示查看答案"

]

}

"metadata": {

"kernelspec": {

"display_name": "Python 3",

"language": "python",

"name": "python3"

"language_info": {

"codemirror_mode": {

"name": "ipython",

"version": 3

"file_extension": ".py",

"mimetype": "text/x-python",

"name": "python",

"nbconvert_exporter": "python",

"pygments_lexer": "ipython3",

"version": "3.5.2"

}

"nbformat": 4,

"nbformat_minor": 2

}

一键复制

编辑

Web IDE

原始数据

按行查看

历史

你可能感兴趣的:(波士顿房价预测python决策树_模型评价与验证-波士顿房价预测.ipynb)

记录学习的第七天 xiufeia 学习
还是老规矩，力扣的每日一题这道题我的思路是有了，不过在实现思路的时候遇到很多问题我首先也是想到了用一个哈希表之类的把出现次数最多的元素依次记录下来，然后再进行分配，不过由于我的STL不太熟练，所以我用的方法存在问题我的思路与题解的思路存在最大的差异就是，题解是根据每一行来存的，而我想的是每一列进行存元素。接着写了两道滑动窗口的题。滑动窗口需要注意的就是外循环扩展右指引，内循环扩展左指引，然后进行出
AI编程工具领域：深度理解项目架构篇 xinxiyinhe AI编程 python 人工智能 AI编程人工智能
AI编程工具领域：深度理解项目架构篇在AI编程工具领域，能够读取项目目录并深度理解项目架构的工具主要通过代码索引、上下文感知和智能问答等功能实现。以下是基于最新信息的工具评估与分析：1.通义灵码（阿里云）核心能力：@workspace功能：基于RAG技术，支持本地代码库的索引和深度感知，可分析项目完整结构，生成文件解释、代码逻辑查询和整体修改建议。多语言支持：覆盖200+编程语言，兼容VSCode
软件设计师之树与二叉树：非线性数据结构的深度探索一杯年华@编程空间软考中级数据结构
软件设计师之树与二叉树：非线性数据结构的深度探索在软件开发领域，数据结构是程序设计的核心基础，其中树和二叉树作为重要的非线性数据结构，在众多场景中都有着广泛应用。我写这篇博客，就是希望和大家一起学习进步，深入解析树和二叉树的相关知识，用通俗易懂的语言结合图表和Java代码示例进行讲解，帮助大家更好地掌握这些内容。一、树的定义与基本概念树的定义树是由n（n≥0）个结点组成的有限集合。当n=0时，为空
大模型相关网站整理 gorgor在码农 AI实战 python java 人工智能
目录一：大模型开发网站1.开源模型平台2.私有化部署大模型3.LangChain中文网4.LangChain4j5.通过标准的OpenAIAPI格式访问所有的大模型二：国内AI大模型应用盘点聊天1、阿里云--通义千问2、科大讯飞--星火大模型园3、百度--文心一言4、字节跳动豆包5、智谱华章--智谱清言6、华为云园--盘古7、百川智能--百小应8、腾讯--腾讯元宝9、商汤--商量10、MiniMa
Python 的 ORM（Object-Relational Mapping）工具浅讲 Code_Geo python 开发语言
SQLAlchemy相关讲解1.SQLAlchemy是什么？定义：一个Python的ORM（Object-RelationalMapping）工具，允许开发者通过Python类与对象操作数据库，而非直接编写SQL。核心组件：Core：底层SQL表达式语言，提供数据库无关的SQL操作接口。ORM：基于Core的高层抽象，将数据库表映射为Python类（模型），记录映射为对象。适用场景：需要灵活操作数
深入解析TTM市盈率在股票投资中的应用 scoone 杂项小计生活学习
摘要：本文对TTM市盈率的概念、计算方法、优缺点及其在股票投资决策中的作用进行了详细阐述，旨在帮助投资者更好地运用这一财务指标进行投资分析。一、TTM市盈率概述TTM市盈率，即TrailingTwelveMonths市盈率，是一种反映股票价格与公司最近12个月盈利能力的比率。它通过计算公司过去四个季度净利润的总和，再除以在外流通的普通股总数，得到每股收益（EPS），最后以股价除以每股收益得到TTM
人工智能（AI）系统化学习路线 xiaoyu❅ python 人工智能学习
一、为什么需要系统化学习AI？人工智能技术正在重塑各行各业，但许多初学者容易陷入误区：❌盲目跟风：直接学习TensorFlow/PyTorch，忽视数学与算法基础。❌纸上谈兵：只看理论不写代码，无法解决实际问题。❌方向模糊：对CV/NLP/RL等细分领域缺乏认知，难以针对性提升。正确的学习姿势：“金字塔式”分层学习（理论→算法→框架→应用→工程化），逐步构建完整的AI知识体系。二、人工智能学习路线
#Python 项目：实现功能——使用钉钉“自定义”机器人在群中发送文字消息 Window Unlock 钉钉 python 机器人
（目前还是新手，程序难免有废话代码，请大家耐心看__比心）第一步：创建群聊机器人，参考官方手册官方链接：自定义机器人的创建和安装-钉钉开放平台此步骤可以得到两个关键参数：Webhook（机器人的通信网址）：https://oapi.dingtalk.com/robot/send?############（如这样）secret（加签未解密密钥）：SECe2######################
AI 时代，学习 Java 应如何入手？琢磨先生David 人工智能 java
一、Java的现状：生态繁荣与AI融合的双重机遇在2025年的技术版图中，Java依然稳坐企业级开发的“头把交椅”。根据行业统计，Java在全球企业级应用中的市场份额仍超过65%，尤其在微服务架构、大数据平台和物联网（IoT）领域占据核心地位。随着云原生技术的普及，Java生态正经历新一轮进化：轻量化框架通过无服务器架构优化，启动速度提升300%，内存占用降低50%，使得Java在容器化部署中更具
深度学习-130-RAG技术之基于Anything LLM搭建本地私人知识库的应用策略问题总结(一) 皮皮冰燃深度学习深度学习人工智能 RAG
文章目录1AnythingLLM的本地知识库1.1本地知识库应用场景1.2效果对比及思考1.3本地体现在哪些方面1.3.1知识在本地1.3.2分割后的文档在本地1.3.3大模型部署运行在本地2问错问题带来的问题2.1常见的问题2.2原因分析3为什么LLM不使用我的文件？3.1LLM不是万能的【omnipotent】3.2LLM不会自省【introspect】3.3AnythingLLM是如何工作的
代替Windows系统的最佳系统开发：开源、国产与跨平台的选择指南夏末之花 windows 开源
近年来，随着技术自主化和隐私安全需求的提升，越来越多的用户开始寻求Windows系统的替代方案。本文结合国内外热门操作系统及开发工具，分析其核心优势与适用场景，助你找到最适合的开发与日常使用平台。一、开源之王：Linux发行版1.Ubuntu与LinuxMint作为最受欢迎的Linux发行版，Ubuntu和LinuxMint以用户友好性著称，尤其适合从Windows迁移的用户。其内置的软件包管理器
3DMAX点云算法：实现毫米级BIM模型偏差检测（附完整代码）夏末之花人工智能
摘要本文基于激光雷达点云数据与BIM模型的高精度对齐技术，提出一种融合动态体素化与多模态特征匹配的偏差检测方法。通过点云预处理、语义分割、模型配准及差异分析，最终实现建筑构件毫米级偏差的可视化检测。文中提供关键代码实现，涵盖点云处理、特征提取与深度学习模型搭建。一、核心算法流程点云预处理与特征增强去噪与下采样：采用统计滤波与体素网格下采样，去除离群点并降低数据量。语义分割：基于PointNet++
Python-有效字母异位词 m0_37763377 python 哈希算法算法数据结构
一、什么是字母异位词字母异位词‌是指由相同字母组成但排列顺序不同的单词。例如，"eat"、"tea"和"ate"都是字母异位词，因为它们由相同的字母组成，只是排列顺序不同。‌二、思路（一）暴力解法这里可以用两层循环来判断2个字符串的元素是否一样，显然时间复杂度为O(n²），在这里大家可以自己写一下，文章就不再提供演示。（二）哈希表解法1.什么是哈希表？哈希表（HashTable），也称为散列表，是
LeetCode56☞合并区间 fantasy_4 LeetCode刷题 leetcode python java 算法贪心算法
关联LeetCode题号56本题特点贪心本题思路将二维数组排序按照左边界排序。排序后，右边界的大小成为找到局部最大值的关键。由题意合并区间可知，应该取数组的’并集‘，局部最优解推出全局最优解，每次找到局部最大的范围，整体就会合并成一个大区间Python写法defmerge(self,intervals):result=[]iflen(intervals)==0:returnresult#区间集合为
SelectDB 实时分析性能突出，宝舵成本锐减与性能显著提升的双赢之旅 SelectDB技术团队大数据物联网 doris selectdb 人工智能电商场景数据分析
BOCDOP宝舵早期基于TiDB构建实时数仓，随着数据量增长，在数据处理效率、OLAP能力扩展、功能支持、成本与资源方面存在一定优化空间。为提升数据分析能力并优化成本，宝舵引入SelectDB，达成写入速度提升10倍，成本直降30%的显著成效。本文转录自高瑞军（宝尊科技高级架构师）在DorisSummitAsia2024上的演讲，经编辑整理。业务背景宝尊集团创立于2007年，是中国品牌电商服务行业
【python】图形用户界面和游戏开发 usp1994 python ui ide
图形用户界面和游戏开发文章目录图形用户界面和游戏开发基于tkinter模块的GUI使用Pygame进行游戏开发制作游戏窗口在窗口中绘图加载图像实现动画效果碰撞检测事件处理基于tkinter模块的GUIGUI是图形用户界面的缩写，图形化的用户界面对使用过计算机的人来说应该都不陌生，在此也无需进行赘述。Python默认的GUI开发模块是tkinter（在Python3以前的版本中名为Tkinter），
Python 爬虫实战：如何爬取小红书数据并进行分析 Python爬虫项目 python 爬虫开发语言 selenium 测试工具
一、引言随着社交电商的崛起，小红书（Xiaohongshu）作为一款结合了社交和电商的应用，吸引了大量年轻用户。用户在平台上分享购物心得、生活经验以及个性化的消费推荐内容，形成了庞大的用户数据与内容生态。因此，如何从小红书获取数据进行分析，成为了数据科学、市场营销和社交媒体研究中的一个重要课题。本文将介绍如何使用Python编写爬虫爬取小红书的数据，分析如何通过小红书的开放API获取用户信息、帖子
游戏开发引擎对比：Godot、Unity、Unreal与cocos2d的优劣分析 scoone 游戏引擎 godot unity
在游戏开发的世界中，选择合适的游戏引擎是项目成功的关键之一。本文将对比四种流行的游戏开发引擎：Godot、Unity、UnrealEngine和cocos2d，分析各自的优缺点，帮助开发者做出明智的选择。Godot：优点：开源且免费，无商业授权费用。轻量级，适合中小型游戏开发。使用GDScript脚本语言，易于上手。跨平台支持良好。缺点：社区相对较小，资源不如Unity丰富。在3D游戏开发方面不如
Python 常用内建模块-base64 赔罪 Python 系统学习 python 前端 linux
目录base64小结练习base64Base64是一种用64个字符来表示任意二进制数据的方法。用记事本打开exe、jpg、pdf这些文件时，我们都会看到一大堆乱码，因为二进制文件包含很多无法显示和打印的字符，所以，如果要让记事本这样的文本处理软件能处理二进制数据，就需要一个二进制到字符串的转换方法。Base64是一种最常见的二进制编码方法。Base64的原理很简单，首先，准备一个包含64个字符的数
AXI总线之相关应用逾越TAO fpga开发硬件工程笔记
AXI总线作为现代SoC设计的核心互连协议，其应用场景极为广泛，覆盖移动设备、AI加速器、FPGA、存储控制器等多个领域。以下是AXI在不同应用中的关键角色及具体实现案例：一、移动处理器与SoC应用场景：智能手机、平板电脑的SoC（如高通骁龙、苹果A系列、华为麒麟）中，AXI用于连接多核CPU、GPU、ISP（图像信号处理器）、DDR控制器等模块。典型案例：ARMCortex-A系列多核集群：AX
基于python的ansys_基于python的感知机 weixin_39687990 基于python的ansys
一、1、感知机可以描述为一个线性方程，用python的伪代码可表示为：sum(weight_i*x_i)+bias->activation#activation表示激活函数，x_i和weight_i是分别为与当前神经元连接的其它神经元的输入以及连接的权重。bias表示当前神经元的输出阀值(或称偏置)。箭头(->)左边的数据，就是激活函数的输入2、定义激活函数f:deffunc_activator(
python ansys workbench联动_【干货】如何在ANSYS WORKBENCH中关联几何模型和有限元模型... weixin_39644377 python ansys workbench联动
原标题：【干货】如何在ANSYSWORKBENCH中关联几何模型和有限元模型我们都知道，通过诸如HPERMESH这样的有限元网格划分软件得到的模型，在传入ANSYS以后，只包含节点和单元信息。但是当我们在WB中使用模型操作时，有时候需要选择几何特征，如在圆孔面上施加圆柱支撑，而此时对象只有单元节点信息，并无体面线的几何信息，该怎么办呢？显然，处理此问题的有效途径，在于把有限元模型与该有限元模型对应
信创系统安全优化与持续改进策略有哪些？ weixin_37579147 系统安全安全
信创系统（信息技术应用创新系统）的安全优化与持续改进是保障国产化技术生态安全可靠运行的关键。以下从技术、管理、组织等多个维度提出系统性策略，并结合实际场景展开说明：一、技术层面的安全优化策略1.核心组件安全加固国产化组件漏洞管理：建立针对国产操作系统（如统信UOS、麒麟）、数据库（达梦、OceanBase）的漏洞扫描与修复机制，联合厂商建立漏洞情报共享平台。硬件层可信计算：采用基于国产芯片（如鲲鹏
python ansys workbench联动_如何在ANSYS WORKBENCH中关联几何模型和有限元模型 YUNYA麻麻 python ansys workbench联动
我们都知道，通过诸如HPERMESH这样的有限元网格划分软件得到的模型，在传入ANSYS以后，只包含节点和单元信息。但是当我们在WB中使用模型操作时，有时候需要选择几何特征，如在圆孔面上施加圆柱支撑，而此时对象只有单元节点信息，并无体面线的几何信息，该怎么办呢？显然，处理此问题的有效途径，在于把有限元模型与该有限元模型对应的几何模型进行关联，再一起导入到MECHANICAL中进行分析，则既能够既享
数据增强：扩充数据集提升模型泛化能力 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1.数据增强的重要性在机器学习领域，模型的泛化能力至关重要。一个泛化能力强的模型能够在未见数据上表现良好，而过拟合的模型则会在训练数据上表现出色，但在新数据上表现糟糕。数据增强是一种有效提升模型泛化能力的技术，它通过对现有数据进行各种变换，人为地扩充数据集，从而增加训练数据的数量和多样性。1.2.数据增强的应用场景数据增强广泛应用于各种机器学习任务中，包括：图像识别:对图像进行旋转
【商城实战(43)】探秘知名商城架构：解锁电商成功密码奔跑吧邓邓子商城实战架构微服务 spring boot 商城实战商城架构
【商城实战】专栏重磅来袭！这是一份专为开发者与电商从业者打造的超详细指南。从项目基础搭建，运用uniapp、ElementPlus、SpringBoot搭建商城框架，到用户、商品、订单等核心模块开发，再到性能优化、安全加固、多端适配，乃至运营推广策略，102章内容层层递进。无论是想深入钻研技术细节，还是探寻商城运营之道，本专栏都能提供从0到1的系统讲解，助力你打造独具竞争力的电商平台，开启电商实战
数据增强：扩充数据集，提升模型的鲁棒性 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 LLM大模型落地实战指南计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
数据增强：扩充数据集，提升模型的鲁棒性1.背景介绍1.1数据集的重要性在机器学习和深度学习领域中,数据集是训练模型的基础。高质量的数据集对于构建准确、鲁棒的模型至关重要。然而,在现实世界中,获取大量高质量的数据通常是一个巨大的挑战。数据采集过程耗时耗力,而且成本高昂。此外,某些领域的数据存在隐私和安全问题,难以获取。1.2数据集不足的挑战当数据集规模有限时,模型很容易过拟合,无法很好地推广到新的、
Pandas完全指南：数据处理与分析从入门到实战 xiaoyu❅ python python pandas 开发语言
目录引言一、Pandas环境配置与核心概念1.1安装Pandas1.2导入惯例1.3核心数据结构二、数据结构详解2.1Series创建与操作2.2DataFrame创建三、数据查看与基本操作3.1数据预览3.2索引与选择3.3数据排序四、数据清洗实战4.1处理缺失值4.2处理重复值4.3数据类型转换4.4字符串处理五、数据处理进阶5.1数据筛选5.2列操作5.3应用函数六、数据分组与聚合6.1基础
NLP高频面试题（三）——普通RNN的梯度消失和梯度爆炸问题 Chaos_Wang_ NLP常见面试题自然语言处理 rnn 人工智能
普通RNN（循环神经网络）的梯度消失和梯度爆炸问题是指在训练深层或长序列的RNN模型时出现的两种典型问题：一、梯度消失（VanishingGradient）梯度消失是指在反向传播过程中，梯度逐层传播时变得越来越小，最终趋于接近0，导致模型前层的参数难以更新。原因：在反向传播时，每一层的梯度是通过链式法则计算得到的。因为链式求导中不断乘以一个较小的数值（小于1），随着层数或时间步的增加，梯度将指数级
信息收集综合只不过是胆小鬼罢了信息收集 php web安全安全
1《应用服务器资产分析与角色定性详解》在网络安全领域，对应用服务器的资产分析与角色定性是至关重要的工作。通过对服务器的操作系统、IP资产、端口资产等方面进行详细分析，可以更好地了解服务器的特性与用途，从而为网络安全防护提供有力支持。本文将从多个维度深入探讨应用服务器的资产分析与角色定性方法。一、操作系统分析1.Web大小写敏感性在分析应用服务器的操作系统时，Web大小写敏感性是一个重要的参考因素。
ASM系列五利用TreeApi 解析生成Class lijingyao8206 ASM 字节码动态生成 ClassNode TreeAPI
前面CoreApi的介绍部分基本涵盖了ASMCore包下面的主要API及功能，其中还有一部分关于MetaData的解析和生成就不再赘述。这篇开始介绍ASM另一部分主要的Api。TreeApi。这一部分源码是关联的asm-tree-5.0.4的版本。在介绍前，先要知道一点， Tree工程的接口基本可以完
链表树——复合数据结构应用实例 bardo 数据结构树型结构表结构设计链表菜单排序
我们清楚：数据库设计中，表结构设计的好坏，直接影响程序的复杂度。所以，本文就无限级分类（目录）树与链表的复合在表设计中的应用进行探讨。当然，什么是树，什么是链表，这里不作介绍。有兴趣可以去看相关的教材。需求简介：经常遇到这样的需求，我们希望能将保存在数据库中的树结构能够按确定的顺序读出来。比如，多级菜单、组织结构、商品分类。更具体的，我们希望某个二级菜单在这一级别中就是第一个。虽然它是最后
为啥要用位运算代替取模呢 chenchao051 位运算哈希汇编
在hash中查找key的时候，经常会发现用&取代%，先看两段代码吧， JDK6中的HashMap中的indexFor方法： /** * Returns index for hash code h. */ static int indexFor(int h, int length) {
最近的情况麦田的设计者生活感悟计划软考想
今天是2015年4月27号整理一下最近的思绪以及要完成的任务 1、最近在驾校科目二练车，每周四天，练三周。其实做什么都要用心，追求合理的途径解决。为
PHP去掉字符串中最后一个字符的方法 IT独行者 PHP 字符串
今天在PHP项目开发中遇到一个需求，去掉字符串中的最后一个字符原字符串1,2,3,4,5,6, 去掉最后一个字符","，最终结果为1,2,3,4,5,6 代码如下： $str = "1,2,3,4,5,6,"; $newstr = substr($str,0,strlen($str)-1); echo $newstr;
hadoop在linux上单机安装过程 _wy_ linux hadoop
1、安装JDK jdk版本最好是1.6以上，可以使用执行命令java -version查看当前JAVA版本号，如果报命令不存在或版本比较低，则需要安装一个高版本的JDK，并在/etc/profile的文件末尾，根据本机JDK实际的安装位置加上以下几行： export JAVA_HOME=/usr/java/jdk1.7.0_25
JAVA进阶----分布式事务的一种简单处理方法无量多系统交互分布式事务
每个方法都是原子操作：提供第三方服务的系统，要同时提供执行方法和对应的回滚方法 A系统调用B,C,D系统完成分布式事务 =========执行开始======== A.aa(); try { B.bb(); } catch(Exception e) { A.rollbackAa(); } try { C.cc(); } catch(Excep
安墨移动广告：移动DSP厚积薄发引领未来广告业发展命脉矮蛋蛋 hadoop 互联网
　　“谁掌握了强大的DSP技术，谁将引领未来的广告行业发展命脉。”2014年，移动广告行业的热点非移动DSP莫属。各个圈子都在纷纷谈论，认为移动DSP是行业突破点，一时间许多移动广告联盟风起云涌，竞相推出专属移动DSP产品。　　到底什么是移动DSP呢? 　　DSP(Demand-SidePlatform)，就是需求方平台，为解决广告主投放的各种需求，真正实现人群定位的精准广
myelipse设置 alafqq IP
在一个项目的完整的生命周期中，其维护费用，往往是其开发费用的数倍。因此项目的可维护性、可复用性是衡量一个项目好坏的关键。而注释则是可维护性中必不可少的一环。注释模板导入步骤安装方法：打开eclipse/myeclipse 选择 window-->Preferences-->JAVA-->Code-->Code
java数组百合不是茶 java数组
java数组的声明创建初始化； java支持C语言数组中的每个数都有唯一的一个下标一维数组的定义声明： int[] a = new int[3];声明数组中有三个数int[3] int[] a 中有三个数，下标从0开始，可以同过for来遍历数组中的数
javascript读取表单数据 bijian1013 JavaScript
利用javascript读取表单数据，可以利用以下三种方法获取： 1、通过表单ID属性：var a = document.getElementByIdx_x_x("id"); 2、通过表单名称属性：var b = document.getElementsByName("name"); 3、直接通过表单名字获取：var c = form.content.
探索JUnit4扩展：使用Theory bijian1013 java JUnit Theory
理论机制（Theory）一.为什么要引用理论机制（Theory）当今软件开发中，测试驱动开发（TDD — Test-driven development）越发流行。为什么 TDD 会如此流行呢？因为它确实拥有很多优点，它允许开发人员通过简单的例子来指定和表明他们代码的行为意图。 TDD 的优点： &nb
[Spring Data Mongo一]Spring Mongo Template操作MongoDB bit1129 template
什么是Spring Data Mongo Spring Data MongoDB项目对访问MongoDB的Java客户端API进行了封装，这种封装类似于Spring封装Hibernate和JDBC而提供的HibernateTemplate和JDBCTemplate，主要能力包括 1. 封装客户端跟MongoDB的链接管理 2. 文档-对象映射，通过注解:@Document(collectio
【Kafka八】Zookeeper上关于Kafka的配置信息 bit1129 zookeeper
问题： 1. Kafka的哪些信息记录在Zookeeper中 2. Consumer Group消费的每个Partition的Offset信息存放在什么位置 3. Topic的每个Partition存放在哪个Broker上的信息存放在哪里 4. Producer跟Zookeeper究竟有没有关系？没有关系！！！ //consumers、config、brokers、cont
java OOM内存异常的四种类型及异常与解决方案 ronin47 java OOM 内存异常
　OOM异常的四种类型：　　　　　一：　StackOverflowError ：通常因为递归函数引起（死递归，递归太深）。-Xss 128k 一般够用。　二：　out Of memory: PermGen Space：通常是动态类大多，比如web 服务器自动更新部署时引起。-Xmx
java-实现链表反转-递归和非递归实现 bylijinnan java
20120422更新：对链表中部分节点进行反转操作，这些节点相隔k个： 0->1->2->3->4->5->6->7->8->9 k=2 8->1->6->3->4->5->2->7->0->9 注意1 3 5 7 9 位置是不变的。解法：将链表拆成两部分： a.0-&
Netty源码学习-DelimiterBasedFrameDecoder bylijinnan java netty
看DelimiterBasedFrameDecoder的API，有举例：接收到的ChannelBuffer如下： +--------------+ | ABC\nDEF\r\n | +--------------+ 经过DelimiterBasedFrameDecoder(Delimiters.lineDelimiter())之后，得到： +-----+----
linux的一些命令 -查看cc攻击-网口ip统计等 hotsunshine linux
Linux判断CC攻击命令详解 2011年12月23日 ⁄ 安全 ⁄ 暂无评论查看所有80端口的连接数 netstat -nat|grep -i '80'|wc -l 对连接的IP按连接数量进行排序 netstat -ntu | awk '{print $5}' | cut -d: -f1 | sort | uniq -c | sort -n 查看TCP连接状态 n
Spring获取SessionFactory ctrain sessionFactory
String sql = "select sysdate from dual"; WebApplicationContext wac = ContextLoader.getCurrentWebApplicationContext(); String[] names = wac.getBeanDefinitionNames(); for(int i=0; i&
Hive几种导出数据方式 daizj hive 数据导出
Hive几种导出数据方式 1.拷贝文件如果数据文件恰好是用户需要的格式，那么只需要拷贝文件或文件夹就可以。 hadoop fs –cp source_path target_path 2.导出到本地文件系统 --不能使用insert into local directory来导出数据，会报错 --只能使用
编程之美 dcj3sjt126com 编程 PHP 重构
我个人的 PHP 编程经验中，递归调用常常与静态变量使用。静态变量的含义可以参考 PHP 手册。希望下面的代码，会更有利于对递归以及静态变量的理解 header("Content-type: text/plain"); function static_function () { static $i = 0; if ($i++ < 1
Android保存用户名和密码 dcj3sjt126com android
转自：http://www.2cto.com/kf/201401/272336.html 我们不管在开发一个项目或者使用别人的项目，都有用户登录功能，为了让用户的体验效果更好，我们通常会做一个功能，叫做保存用户，这样做的目地就是为了让用户下一次再使用该程序不会重新输入用户名和密码，这里我使用3种方式来存储用户名和密码 1、通过普通的txt文本存储 2、通过properties属性文件进行存
Oracle 复习笔记之同义词 eksliang Oracle 同义词 Oracle synonym
转载请出自出处：http://eksliang.iteye.com/blog/2098861 1.什么是同义词同义词是现有模式对象的一个别名。概念性的东西，什么是模式呢？创建一个用户，就相应的创建了一个模式。模式是指数据库对象，是对用户所创建的数据对象的总称。模式对象包括表、视图、索引、同义词、序列、过
Ajax案例 gongmeitao Ajax jsp
数据库采用Sql Server2005 项目名称为:Ajax_Demo 1.com.demo.conn包 package com.demo.conn; import java.sql.Connection;import java.sql.DriverManager;import java.sql.SQLException; //获取数据库连接的类public class DBConnec
ASP.NET中Request.RawUrl、Request.Url的区别 hvt .net Web C#asp.net hovertree
如果访问的地址是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree%3C&n=myslider#zonemenu那么Request.Url.ToString() 的值是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree<&
SVG 教程（七）SVG 实例，SVG 参考手册天梯梦 svg
SVG 实例在线实例下面的例子是把SVG代码直接嵌入到HTML代码中。谷歌Chrome，火狐，Internet Explorer9，和Safari都支持。注意：下面的例子将不会在Opera运行，即使Opera支持SVG - 它也不支持SVG在HTML代码中直接使用。 SVG 实例 SVG基本形状一个圆矩形不透明矩形一个矩形不透明2 一个带圆角矩
事务管理 luyulong java spring 编程事务
事物管理 spring事物的好处为不同的事物API提供了一致的编程模型支持声明式事务管理提供比大多数事务API更简单更易于使用的编程式事务管理API 整合spring的各种数据访问抽象 TransactionDefinition 定义了事务策略 int getIsolationLevel()得到当前事务的隔离级别 READ_COMMITTED
基础数据结构和算法十一：Red-black binary search tree sunwinner Algorithm Red-black
The insertion algorithm for 2-3 trees just described is not difficult to understand; now, we will see that it is also not difficult to implement. We will consider a simple representation known
centos同步时间 stunizhengjia linux 集群同步时间
做了集群，时间的同步就显得非常必要了。以下是查到的如何做时间同步。在CentOS 5不再区分客户端和服务器，只要配置了NTP，它就会提供NTP服务。 1)确认已经ntp程序包： # yum install ntp 2)配置时间源（默认就行，不需要修改） # vi /etc/ntp.conf server pool.ntp.o
ITeye 9月技术图书有奖试读获奖名单公布 ITeye管理员 ITeye
ITeye携手博文视点举办的9月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 9月试读活动回顾：http://webmaster.iteye.com/blog/2118112本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《NFC：Arduino、Andro