白呆呆

Kaggle官方教程之机器学习入门

文章目录

Kaggle官方教程之机器学习入门

@[toc]

1.模型如何工作？——机器学习入门介绍

1.1 简介

1.2 改进决策树

2.基础数据探索——载入理解数据

2.1 使用Pandas了解你的数据

2.2 练习：探索你的数据

步骤1：载入数据

步骤2：查看数据

3.第一个机器学习模型——从决策树开始

3.1 选择建立模型所需的数据

3.2 建立模型

3.3 练习

步骤1：指定预测目标

步骤2：创建特征向量X

步骤3：指定并拟合模型

步骤4：做出预测

4.模型验证——如何评价模型的性能？

4.1 什么是模型验证

4.2 “样本内”得分

4.4 练习

步骤1：拆分数据

步骤2：指定并拟合模型

步骤3：使用验证数据进行预测

步骤4：计算验证数据中的平均绝对误差

5.欠拟合和过拟合——微调模型以获得更好的性能

5.1 实验不同的模型

5.2 举例

5.3 结论

5.4 练习

步骤1：比较不同的树大小

步骤2：使用所有数据拟合模型

6.随机森林——使用更复杂的机器学习算法

6.1 简介

6.2 举例

6.3 结论

6.4 练习

使用随机森林模型

7 机器学习比赛——进入机器学习竞赛的世界

7.1 简介

7.2 为比赛创建模型

7.3 作出预测

7.3 测试您的工作

7.4 Keep Going！

1.模型如何工作？——机器学习入门介绍

1.1 简介

首先，我们将简述机器学习模型如何工作以及如何使用模型。如果您之前已经进行过统计建模或机器学习，您可能会觉得很基础。不用担心，我们在后面的课程建立更加强大的模型。学习此微课程，您可以在以下场景构建模型：

你的堂兄搞房地产赚了数百万美元。由于你对数据科感兴趣兴趣，他想和你成为业务合作伙伴。他将提供资金，并且您将提供预测各种房屋价值的模型。你问你的堂兄，他过去是如何预测房地产价值。他说这只是直觉。然而你认为，他从过去的房屋中识别出了价格的模式(pattern)，然后他利用这些模式对他正在考虑的新房屋做出预测。

机器学习的工作方式相同。我们将从称为决策树的模型开始。有更高级的模型可以提供更准确的预测。但是决策树很容易理解，它们是数据科学中一些最佳模型的基本构建块。为简单起见，我们将从最简单的决策树开始。

它仅将房屋分为两类。房屋的预测价格为同一类别房屋的历史平均价格。我们使用数据来决定如何将房屋分为两组，然后再次确定每组中的预测价格。从数据获取模式的这一步骤称为拟合或训练模型。用于拟合模型的数据称为训练数据。

有关模型拟合方式的详细信息（例如，如何拆分数据）非常复杂，我们将在以后考虑。模型在训练之后，可以将其应用于新数据来预测其他房屋的价格。

1.2 改进决策树

通过拟合房地产训练数据，以下两个决策树中的哪个更有可能产生？

左侧的决策树可能更有意义，因为它反映了一个现实，即卧室多的房屋比卧室少的房屋的价格更高。该模型的最大缺点是，它没有涵盖更多影响房价的因素，例如浴室数量，地段大小，位置等。

您可以使用具有更多“分支”的树来获取更多因素。这些被称为“更深”的树。还要考虑每栋房屋总面积的决策树可能如下所示：

您可以通过跟踪决策树来预测任何房屋的价格，并始终选择与房屋特征相对应的路径。房屋的预计价格在树的底部。我们进行预测的底部点称为叶子节点。

叶子上的分支和值将由数据确定，因此是时候检查要使用的数据了。

2.基础数据探索——载入理解数据

2.1 使用Pandas了解你的数据

任何机器学习项目的第一步都是熟悉数据。你将使用Pandas库。 Pandas是用来探索和处理数据的主要工具。大多数人在其代码中将pandas缩写为pd。我们使用命令执行此操作

import pandas as pd

Pandas库中最重要的部分是DataFrame。DataFrame包含可以看作是表的数据类型。这类似于Excel中的工作表或SQL数据库中的表。Pandas具有强大的方法，可用于处理此类数据。例如，我们将查看澳大利亚墨尔本的房价数据。在动手练习中，您将对新数据集采用相同的过程，该数据集是爱荷华州的房价。

示例（墨尔本）数据位于文件路径../input/melbourne-housing-snapshot/melb_data.csv

我们使用以下命令加载和浏览数据：

#为了便于获取，将文件路径保存到变量中
melbourne_file_path='../input/melbourne-housing-snapshot/melb_data.csv'
#读取数据，将数据存储到DataFrame中
melbourne_data=pd.read_csv(melbourne_file_path)
#打印melbourne_data的数据情况
melbourne_data.describe()

Rooms	Price	Distance	Postcode	Bedroom2	Bathroom	Car	Landsize	BuildingArea	YearBuilt	Lattitude	Longtitude	Propertycount
count	13580.000000	1.358000e+04	13580.000000	13580.000000	13580.000000	13580.000000	13518.000000	13580.000000	7130.000000	8205.000000	13580.000000	13580.000000	13580.000000
mean	2.937997	1.075684e+06	10.137776	3105.301915	2.914728	1.534242	1.610075	558.416127	151.967650	1964.684217	-37.809203	144.995216	7454.417378
std	0.955748	6.393107e+05	5.868725	90.676964	0.965921	0.691712	0.962634	3990.669241	541.014538	37.273762	0.079260	0.103916	4378.581772
min	1.000000	8.500000e+04	0.000000	3000.000000	0.000000	0.000000	0.000000	0.000000	0.000000	1196.000000	-38.182550	144.431810	249.000000
25%	2.000000	6.500000e+05	6.100000	3044.000000	2.000000	1.000000	1.000000	177.000000	93.000000	1940.000000	-37.856822	144.929600	4380.000000
50%	3.000000	9.030000e+05	9.200000	3084.000000	3.000000	1.000000	2.000000	440.000000	126.000000	1970.000000	-37.802355	145.000100	6555.000000
75%	3.000000	1.330000e+06	13.000000	3148.000000	3.000000	2.000000	2.000000	651.000000	174.000000	1999.000000	-37.756400	145.058305	10331.000000
max	10.000000	9.000000e+06	48.100000	3977.000000	20.000000	8.000000	10.000000	433014.000000	44515.000000	2018.000000	-37.408530	145.526350	21650.000000

结果显示了8个数字对应原始数据集中的每列。

第一个数字（count）显示有多少行具有非缺失值。数据缺失的原因很多。例如，一居室的房子不会收集第二间卧室的大小。我们将会在后面讨论缺失数据的问题。

第二个值是mean，即平均值。下面的std是标准偏差，它测量数值的分散程度。

min，25％，50％，75％和max，请想象把原始数据的每列进行从小到大排序。第一个（最小）值是min。如果您遍历列表的四分之一，则会发现一个数字，它比25％的数据大，比75％的数据小，这就是25％的值。第50个百分位数和第75个百分位数是类似定义的。

2.2 练习：探索你的数据

本练习将锻炼读取数据文件和了解有关数据的统计信息的能力。在以后的练习中，您将使用其他技术来过滤数据，建立机器学习模型并迭代地改进模型。上述教程中使用了墨尔本的数据作为实例。为了确保您掌握了这些技巧，您需要将它们应用到新的数据集（爱荷华州的房价）中。

步骤1：载入数据

将爱荷华州数据文件导入到DataFrame中，叫做home_data

import pandas as pd
iowa_file_path='../input/home-data-for-ml-course/train.csv'
home_data=pd.read_csv(iowa_file_path)

步骤2：查看数据

使用您学到的命令来查看数据的摘要统计信息。然后填写变量以回答以下问题

home_data.describe()

3.第一个机器学习模型——从决策树开始

3.1 选择建立模型所需的数据

数据集包含太多变量，以至于无法很好地打印出来。如何将大量的数据缩减为您可以理解的数据？作为开始，我们将从使用直觉选择一些变量。以后的课程将向您展示自动确定变量优先级的统计技术。要选择变量/列，我们需要查看数据集中所有列的列表。这是通过DataFrame的columns属性完成的（下面的代码底行）。

import pandas as pd

melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path) 
melbourne_data.columns

#墨尔本数据缺少一些值（一些房屋未记录一些变量。）
#我们将在以后的教程中学习处理缺失值。
#您的爱荷华州数据在使用的列中没有缺少值。
#因此，我们现在将采用最简单的选项，并从数据中删除房屋。
#现在的代码是：

#dropna删除缺少的值（认为na为“不可用”）
melbourne_data = melbourne_data.dropna(axis = 0)

有很多方法可以选择数据集的子集。 pandas微课程将更深入地介绍这些内容，目前我们将重点放在两种方法。

点表示法，用于选择**“预测目标”**

您可以使用点符号提取变量。此单列存储在Series中，这在很大程度上类似于仅包含一列数据的DataFrame。我们将使用点表示法选择要预测的列，称为预测目标。按照惯例，预测目标称为y。因此，我们需要在墨尔本数据中保存房价的代码是

y = melbourne_data.Price

选择列的列表，我们用它来选择**“特征”**

输入到我们的模型中的列（以后用于预测）称为“features”。在我们的案例中，这些t特征是用于确定房屋价格的列。有时，您会将除目标以外的所有列用作features。有时，更少的features会更好。现在，我们将构建仅具有一些功能的模型。稍后，您将看到如何迭代和比较使用不同功能构建的模型。我们通过在方括号内提供列名称列表来选择多个功能。该列表中的每个项目都应该是一个字符串（带引号）。

melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'Lattitude', 'Longtitude']

为了方便起见，把数据叫做 $x$

X = melbourne_data[melbourne_features]

让我们使用describe方法和head方法快速查看将用于预测房价的数据，该方法显示数据的前几行。

X.describe()
X.head()

使用这些命令直观地检查数据是数据科学家工作的重要组成部分。您会经常在数据集中发现需要进一步检查的意外情况.

3.2 建立模型

您将使用scikit-learn库创建模型。如示例代码所示，该库以sklearn编写。 Scikit-learn是最受欢迎的库，它用于对通常存储在DataFrames中的数据类型进行建模。

建立和使用模型的步骤是：

定义：哪种类型的模型？决策树？其他类型的模型？

训练：从提供的数据中获取模式。这是建模的核心。

预测：对新的数据进行预测

评估：确定模型预测的准确性。

如下所示是一个使用scikit-learn的决策树模型，训练模型让并特征和目标变量相匹配。

from sklearn.tree import DecisionTreeRegressor
melbourne_model=DecisionTreeRegressor(random_state=1)
melbourne_model.fit(X,y)

许多机器学习模型在模型训练中允许一些随机性。为random_state指定一个数字可确保您在每次运行中获得相同的结果。这是一个好习惯。您可以使用任何数字，并且模型的质量在很大程度上不会取决于您选择的值。

现在，我们有了一个拟合模型，可以用来进行预测。

实际上，您将要对市场上即将出现的新房子而不是我们已经有价格的房子做出预测。但是，我们将对训练数据的前几行进行预测，以了解预测函数的工作方式。

print("Making predictions for the following 5 houses:")
print(X.head())
print("预测值：")
print(melbourne_model.predict(X.head()))

3.3 练习

# Code you have previously used to load data
import pandas as pd

# Path of the file to read
iowa_file_path = '../input/home-data-for-ml-course/train.csv'

home_data = pd.read_csv(iowa_file_path)

# Set up code checking
from learntools.core import binder
binder.bind(globals())
from learntools.machine_learning.ex3 import *

print("Setup Complete")

步骤1：指定预测目标

选择与销售价格相对应的目标变量。将其保存到名为“ y”的新变量中。您需要打印列的列表以查找所需列的名称。

home_data.columns
y=home_data['SalePrice']

步骤2：创建特征向量X

现在，您将创建一个名为“ X”的数据框，其中包含预测特征。由于只需要原始数据中的某些列，因此首先要创建一个列表，其中包含要在X中使用的列的名称。

您将只使用列表中的以下列（您可以复制并粘贴整个列表以保存一些输入内容，尽管您仍然需要添加引号）：

LotArea

YearBuilt

1stFlrSF

2ndFlrSF

FullBath

BedroomAbvGr

TotRmsAbvGrd

创建该特征列表之后，使用它来创建用于拟合模型的DataFrame。

# Create the list of features below
feature_names = ["LotArea","YearBuilt","1stFlrSF","2ndFlrSF","FullBath","BedroomAbvGr","TotRmsAbvGrd"]

# Select data corresponding to features in feature_names
X = home_data[feature_names]

# Check your answer
step_2.check()

查看数据

在建立模型之前，快速浏览一下X以验证它是否合理

# Review data
# print description or statistics from X
print(X.describe())

# print the top few lines
print(X.head())

步骤3：指定并拟合模型

创建一个DecisionTreeRegressor并将其保存为iowa_model。确保已完成从sklearn的相关导入以运行此命令。

然后使用上面保存的X和y中的数据拟合刚刚创建的模型。

from sklearn.tree import DecisionTreeRegressor
#specify the model. 
#For model reproducibility, set a numeric value for random_state when specifying the model
iowa_model = DecisionTreeRegressor(random_state=1)

# Fit the model
iowa_model.fit(X,y)

# Check your answer
step_3.check()

步骤4：做出预测

使用X数据，使用模型的predict命令进行预测。将结果保存到名为“预测”的变量中。

predictions = iowa_model.predict(X)
print(predictions)

# Check your answer
step_4.check()

4.模型验证——如何评价模型的性能？

您已经建立了一个模型，如何评价模型的性能高低？

在本课程中，您将学习使用模型验证来度量模型的质量。测量模型质量是迭代改进模型的关键。

4.1 什么是模型验证

要评估几乎所有构建的模型模型。在大多数（尽管不是全部）应用中，模型质量的评价标准是预测的准确性。换句话说，模型的预测接近实际发生的情况的可能性。

总结模型质量有很多指标，我们将从一个称为平均绝对误差（Mean Absolute Error，MAE）的指标开始。让我们从最后一个词“Error”开始分解这个指标。

每个房屋的预测误差为：

error=actual-predicted

因此，如果一所房屋的价格为$ 150,000，而您预测这将花费$ 100,000，则错误为$ 50,000。

使用MAE度量，我们可以获取每个误差的绝对值。这会将每个错误转换为正数。然后，我们取这些绝对误差的平均值。这是我们对模型质量的衡量。要计算MAE，我们首先需要一个模型。

# Data Loading Code Hidden Here
import pandas as pd

# Load data
melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path) 
# Filter rows with missing price values
filtered_melbourne_data = melbourne_data.dropna(axis=0)
# Choose target and features
y = filtered_melbourne_data.Price
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'BuildingArea', 
                        'YearBuilt', 'Lattitude', 'Longtitude']
X = filtered_melbourne_data[melbourne_features]

from sklearn.tree import DecisionTreeRegressor
# Define model
melbourne_model = DecisionTreeRegressor()
# Fit model
melbourne_model.fit(X, y)

一旦有了模型，就可以计算平均绝对误差：

from sklearn.metrics import mean_absolute_error
predicted_home_prices=melbourne_model.predicted(X)
mean_absolute_error(y,predicted_home_prices)

4.2 “样本内”得分

我们刚刚计算出的度量可以称为“样本内”得分。我们使用单个房屋“样本”来构建模型和评估模型。

为什么“样本内”得分不好呢？想象一下，在大型房地产市场中，门的颜色与房价无关。但是，在用于构建模型的数据样本中，所有带有绿色门的房屋都非常昂贵。该模型的工作是找到可以预测房价的模式，因此它将看到此模式，并且始终可以预测带有绿色门的房屋的高价格。由于此模式是从训练数据中得出的，因此模型在训练数据中将显得准确。但是，如果在模型看到新数据时这种模式不成立，那么在实践中使用该模型将非常不准确。

由于模型的实际价值来自对新数据的预测，因此我们可以评估未用于构建模型的数据的性能。最简单的方法是从模型构建过程中排除一些数据，然后使用这些数据对以前从未见过的数据测试模型的准确性。该数据称为验证数据。

代码实现
scikit-learn库具有函数train_test_split，可将数据分为两部分。我们将使用其中一些数据作为适合模型的训练数据，并使用其他数据作为验证数据来计算mean_absolute_error。

from sklearn.model_selection import train_test_split
#将数据分为训练集和验证集
#拆分基于随机数生成器。 提供一个数值给random_state参数保证每次我们得到相同的分割
train_X,val_X,train_Y,val_Y=train_test_split(X,y,random_state=0)
#定义模型
melbourne_model = DecisionTreeRegressor()
#训练模型
melbourne_model.fit(train_X,train_Y)
#根据验证数据获得预测房价
val_predictions=melbourne_model.predict(val_X)
print(mean_absolute_error(val_Y,val_predictions))

4.4 练习

步骤1：拆分数据

使用train_test_split函数来分割数据。给它加上参数random_state = 1，以便check函数知道验证代码时的期望。回想一下，您的功能已加载到DataFrame X中，而目标已加载到y中

# Import the train_test_split function and uncomment
from sklearn.model_selection import train_test_split

# fill in and uncomment
train_X, val_X, train_y, val_y = train_test_split(X,y,random_state=1)

# Check your answer
step_1.check()

步骤2：指定并拟合模型

创建一个“ DecisionTreeRegressor”模型并将其拟合到相关数据。建立模型时，再次random_state设为1

# Specify the model
iowa_model = DecisionTreeRegressor(random_state=1)

# Fit iowa_model with the training data.
iowa_model.fit(train_X,train_y)

# Check your answer
step_2.check()

步骤3：使用验证数据进行预测

# Predict with all validation observations
val_predictions = iowa_model.predict(val_X)

# Check your answer
step_3.check()

检查来自验证数据的预测和实际值。

# print the top few validation predictions
print(val_predictions[:5])
# print the top few actual prices from validation data
print(val_y[:5])

步骤4：计算验证数据中的平均绝对误差

from sklearn.metrics import mean_absolute_error
val_mae = mean_absolute_error(val_predictions,val_y)

# uncomment following line to see the validation_mae
print(val_mae)

# Check your answer
step_4.check()

那MAE好吗？对于适用于整个应用程序的值没有一个通用规则。但是，您将在下一步中了解如何使用（和改进）此数字。

5.欠拟合和过拟合——微调模型以获得更好的性能

在此步骤的最后，您将了解过拟合和过拟合的概念，并应用这些概念来使模型更加准确。

5.1 实验不同的模型

现在，您已经有了一种可靠的方法来衡量模型的准确性，您可以尝试使用替代模型，看看哪种模型可以提供最佳的预测。有哪些模型可供选择呢？

您可以在scikit-learn的文档中看到，决策树模型具有许多选项（其数量远远超过您在未来一段时间里需要用的选项数量）。其中，最重要的选项是确定树的深度。回想一下这个微课程的第一课，一棵树的深度是对树木进行预测之前进行多少次分裂的度量。

sklearn.tree.DecisionTreeRegressor参数介绍

这是一棵深度为2的树:

实际上，一棵树在顶层（所有房屋）和叶子之间有10个拆分并不少见。随着树变深，数据集被切成叶子，房屋更少。如果一棵树只有1个拆分，它将把数据分成2组。如果每组再次拆分，我们将获得4组房屋。再次拆分每个将创建8个组。如果我们通过在每个级别添加更多的拆分来使组的数量增加一倍，那么到第10级时，我们将拥有 $2^{10}$ 个房屋组。那是1024片叶子。

当我们在许多叶子之间划分房屋时，每个叶子中的房屋也更少。拥有很少房屋的叶子进行的预测将非常接近那些房屋的实际值，但是它们对新数据的预测可能非常不可靠（因为每个预测仅基于少数房屋）。这是一种称为过度拟合的现象，其中模型几乎完美地匹配了训练数据，但在验证和其他新数据方面却表现不佳。另一方面，如果我们使树非常浅，则不会将房屋分成非常不同的组。

在极端情况下，如果一棵树将房屋仅分为2或4，则每组仍然拥有各种各样的房屋。即使对于训练数据，大多数房屋的预测结果也可能相去甚远（由于相同的原因，其验证也很糟糕）。当模型无法捕获数据中的重要区别和模式时，即使在训练数据中它也表现不佳，这被称为欠拟合。

由于我们关心的是根据验证数据估算出的新数据的准确性，因此我们希望找到欠拟合与过度拟合之间的最佳结合点。在视觉上，我们希望得到（红色）验证曲线的最低点

5.2 举例

有几种方法可以控制树的深度，许多方法允许通过树的某些路线的深度比其他路线的深度大。max_leaf_nodes参数提供了一种的方法来控制过拟合与欠拟合。模型的叶子越多，模型越远离欠拟合区域、越靠近过拟合区域。

我们可以使用一个效用函数来帮助比较max_leaf_nodes的不同值的MAE分数：

from sklearn.metrics import mean_absolut_error
from sklearn.tree import DesicionTreeRegreesor

def get_mea(max_leaf_nodes,train_X,val_X,train_y,val_y):
    model=DesicionTreeRegressor(max_leaf_nodes=max_leaf_nodes,random_state=0)
    model.fit(train_X,train_7)
    pred_val=model.predict(val_X)
    mae=mean_absolute_error(val_y,pred_val)
    return mae

使用上述代码将数据加载到train_X，val_X，train_，val_y中。

我们可以使用for循环比较使用max_leaf_nodes的不同值构建的模型的准确性。

for max_leaf_nodes in[5,50,500,5000]:
    my_mae=get_mae(max_leaf_nodes,train_X,val_X,train_y,val_y)
    print("最大叶子节点：%d \t \t MAE：%d" %d(max_leaf_nodes,my_mae))

5.3 结论

以下两种情况都会导致模型预测不准确

过拟合：捕获了将来不会再次出现的虚假模式，从而导致较不准确的预测。
欠拟合：未能捕获相关模式，导致预测不准确。
我们使用模型训练中未使用的验证数据来衡量候选模型的准确性。这使我们可以尝试许多候选模型并选择最优的模型。

5.4 练习

您可以自己编写函数get_mae，也可以使用如下单元格中我们提供的函数。这与您在上一课中了解的功能相同。只需运行下面的单元格。

def get_mae(max_leaf_nodes, train_X, val_X, train_y, val_y):
    model = DecisionTreeRegressor(max_leaf_nodes=max_leaf_nodes, random_state=0)
    model.fit(train_X, train_y)
    preds_val = model.predict(val_X)
    mae = mean_absolute_error(val_y, preds_val)
    return(mae)

步骤1：比较不同的树大小

编写一个循环，尝试从一组可能的值中为max_leaf_nodes尝试以下值[5, 25, 50, 100, 250, 500]。

在max_leaf_nodes的每个值上调用get_mae函数。以某种方式存储输出，该方式允许您选择max_leaf_nodes的值，该值可为您的数据提供最准确的模型

candidate_max_leaf_nodes = [5, 25, 50, 100, 250, 500]
# Write loop to find the ideal tree size from candidate_max_leaf_nodes
mapp=[]
for max_leaf_nodes in candidate_max_leaf_nodes:
    mae=get_mae(max_leaf_nodes,train_X, val_X, train_y, val_y)
    mapp.append([max_leaf_nodes,mae])
def second(elem):
    return elem[1]
mapp.sort(key=second)
# Store the best value of max_leaf_nodes (it will be either 5, 25, 50, 100, 250 or 500)
best_tree_size = mapp[0][0]

# Check your answer
step_1.check()

~~这个答案是本菜写的，太垃圾了不够美丽，下面放出官方答案：~~

scores = {leaf_size: get_mae(leaf_size, train_X, val_X, train_y, val_y) for leaf_size in candidate_max_leaf_nodes}
best_tree_size = min(scores, key=scores.get)

步骤2：使用所有数据拟合模型

您知道了最佳的树大小。如果您打算在实践中部署此模型，您应该使用所有的数据，让预测模型更加精确。也就是说，既然已做出所有建模决策，则无需保留验证数据。

# Fill in argument to make optimal size and uncomment
final_model = DecisionTreeRegressor(max_leaf_nodes=best_tree_size,random_state=1)

# fit the final model and uncomment the next two lines
final_model.fit(X, y)

# Check your answer
step_2.check()

您已经调整了该模型并改善了结果。但是我们仍在使用决策树模型，这在现代机器学习标准中并不复杂。在下一步中，您将学习使用随机森林进一步改善模型。

6.随机森林——使用更复杂的机器学习算法

6.1 简介

决策树留下了一个难以抉择的问题，一棵叶子结点很多的的深树会导致过拟合，因为预测都是来自每个叶子结点上很少的历史数据。然鹅，只有很少叶子节点的浅树性能也会很差，因为它无法捕获原始数据中许多的差异。

即使是当今最复杂的建模技术，也面临着欠拟合和过拟合之间的这种张力。但是，许多模型都有巧妙的想法，可以带来更好的性能。我们将以随机森林为例。

随机森林采用了结合很多决策树的方法，并且通过平均每个组成树的预测来进行预测。与单个决策树相比，它通常具有更好的预测准确性，并且使用默认参数就可以获得较好的效果。有许多性能更好的的模型，但其中许多模型对于获取正确的参数很敏感。

6.2 举例

您已经看到了几次加载数据的代码。在数据加载结束时，我们具有以下变量：

train_X val_X train_y val_y

我们构建随机森林模型（与scikit-learn中构建决策树的方式类似），使用 $R a n d o m F o r e s t R e g r e s s o r$ 类而不是 $D e c i s i o n T r e e R e g r e s s o r$ 。

from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolut_error

forest_model=RandomForestRegressor(random_state=1)
forest_model.fit(train_X,train_y)
melb_preds=forest_model.predict(val_X)
print(mean_absolut_error(val_y,melb_preds))

6.3 结论

随机森林模型可能还有进一步改进的余地，但这是对最佳决策树error 250,000的重大改进。有一些参数可以让您改变随机森林的性能，就像我们改变了单个决策树的最大深度一样。但是，Random Forest模型的最佳功能之一是，即使不进行此调整，它们通常也可以正常工作。

您很快就会学到XGBoost模型，当使用正确的参数进行很好的调整时，它可以提供更好的性能（但是需要一些技巧才能获得正确的模型参数）。

6.4 练习

数据科学并不总是那么容易。但是用随机森林替换决策树将是一个轻松的胜利。

使用随机森林模型

from sklearn.ensemble import RandomForestRegressor

# Define the model. Set random_state to 1
rf_model = RandomForestRegressor(random_state=1)

# fit your model
rf_model.fit(train_X,train_y)
rf_val_predictions=rf_model.predict(val_X)

# Calculate the mean absolute error of your Random Forest model on the validation data
rf_val_mae = mean_absolute_error(val_y,rf_val_predictions)

print("Validation MAE for Random Forest Model: {}".format(rf_val_mae))

# Check your answer
step_1.check()

7 机器学习比赛——进入机器学习竞赛的世界

7.1 简介

机器学习竞赛是提高您的数据科学技能和衡量您的进步的好方法。

在本练习中，您将创建和提交Kaggle比赛的预测。然后，您可以改进模型（例如，通过添加特征）来改进模型，并了解如何与其他人一起学习此微型课程。

本笔记本中的步骤为：

1.使用所有数据（**X 和y **）构建随机森林模型
2.读入“test”数据，其中不包含目标值。使用您的随机森林模型预测测试数据中的原始值。
3.将这些预测提交给比赛并查看您的分数。
4.（可选）返回以查看是否可以通过添加功能或更改模型来改进模型。然后，您可以重新提交以查看如何将其堆积在比赛排行榜上。

7.2 为比赛创建模型

建立随机森林模型，并在所有**X 和y **上进行训练。

#为了提高准确性，请创建一个新的随机森林模型，您将在所有训练数据上进行训练
rf_model_on_full_data = RandomForestRegressor（）

#适用所有训练集的数据来训练rf_model_on_full_data
rf_model_on_full_data.fit（X，y）

7.3 作出预测

读取“test”数据文件。并应用模型进行预测

# 用于预测的文件路径
test_data_path = '../input/test.csv'

# 使用pandas读取测试数据文件
test_data = pd.read_csv(test_data_path)

# 创建来自test_data的test_X，但仅包含用于预测的列。
# 用于预测的列被存储在features的列表变量中
test_X = test_data[features]

# 做出我们将提交的预测。 
test_preds = rf_model_on_full_data.predict(test_X)

# 下面的代码行显示了如何将预测保存为比赛计分格式

output = pd.DataFrame({'Id': test_data.Id,
                       'SalePrice': test_preds})
output.to_csv('submission.csv', index=False)

7.3 测试您的工作

要测试您的结果，您需要参加比赛（如果尚未参加）。因此，通过单击[此链接]（https://www.kaggle.com/c/home-data-for-ml-course），打开一个新窗口。然后点击“参加比赛”按钮。

接下来，请按照以下说明进行操作：
1.单击此窗口右上角的蓝色**COMMIT **按钮开始。这将生成一个弹出窗口。
2.代码运行完毕后，单击弹出窗口右上方的蓝色“打开版本”按钮。这使您进入同一页面的查看模式。您将需要向下滚动以返回这些说明。
3.单击屏幕左侧的“输出”选项卡。然后，点击“提交竞赛”按钮，将您的结果提交到排行榜。

您现在已成功提交比赛！

4.如果要继续努力以提高性能，请选择屏幕右上方的蓝色“编辑”按钮。然后，您可以更改模型并重复该过程。有很多空间可以改善您的模型，并且您将在工作中攀登排行榜。

7.4 Keep Going！

有很多方法可以改善您的模型，改善模型的最佳方法是添加特征。查看features列表，并考虑可能会影响房价的因素。由于缺少值或非数字数据类型等问题，某些功能会导致错误。

**[中级机器学习]（https://www.kaggle.com/learn/intermediate-machine-learning）微型课程将教您如何处理这些类型的功能。您还将学习使用 xgboost **，该技术比随机森林具有更高的准确性。

＃其他微课程
**[Pandas]（https://kaggle.com/Learn/Pandas）**微课程将为您提供数据处理技能，使您可以从概念概念快速实施到数据科学项目中。

您还可以参加**[Deep Learning]（https://kaggle.com/Learn/Deep-Learning）**微课程，在那里您将在计算机视觉任务上构建性能优于人类水平的模型。

你可能感兴趣的:(Kaggle微课程)

关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
“这才好”麻辣香锅能够增加人身体的免疫能力小补文知
我就来介绍一种香锅，那就是“这才好”麻辣香锅，它产出于著名的蜀地文化，具有悠久的历史土家风味，麻辣鲜香，健康安全。采用传统秘制麻辣香锅油辣子，还有贴心加料“孜然包”满足人们的不同口味需求，香锅底料辣椒，微辣且香，含有丰富微量元素和维生素，具有辣而不躁，味道纯正，醇厚温和。花椒采用历史悠久，被列为宫廷供品的“贡椒”的汉源花椒。我们还挑选了“川菜之魂”郫县豆瓣的鼻祖品牌豆瓣，保留最原始的郫县豆瓣味道，
2021-07-31 比峰
七月的最后一天，过了今天，就是八月，心脏在颤抖……昨天两点半才睡，一直在以两倍的语速的听之前的课程，虽然隔得时间不长，但是很多知识点已经忘了差不多了，为了让自己能够掌握的稍微全面一点，还是磨刀不误砍柴工的比较好。正因为晚上睡得晚，今天一上午的状态都不好，也可能因为上午都是待在家里，所以多数时间自己是在补觉。既然太累，那就睡觉吧，总比浪费时间的好。下午到咖啡馆做题，一道差错更正一下子让自己的实力暴露
2023-08-08 2023梦启支教团张牧泽
学汉字历史，行传统书法——中国矿业大学梦启支教团梦启三班开展书法文化课7月20日上午8时，中国矿业大学梦启支教团在贵州省金沙县西洛街道彩虹小学开展了“书法文化”课程。该课程意在向孩子们传授汉字演变的相关知识，围绕书法发展历史讲解不同时期的字形字体特点。此课程由梦启支教团成员王耀民讲授，梦启三班全体成员参加。中国文字的发展有数千年的历史，从早期雏形的象形文字到殷商时期的甲骨文、金文，再到西周、秦朝的
今日有感，坚持分享第913天，2019.07.13 ZAF峰回路转
本周是假日里最忙碌的一周，连续四天晚上的课程，让我感觉到身体明显透支。昨天晚上读书会结束回到家，已经是十点半之后啦，忽然感觉身体不舒服，勉强支撑着洗漱完毕，没等上床休息，强烈的不适感警告我该吃药啦！感谢老公半夜到医院給我抓了药，今天早上当我对老公表达谢意的时候，老公说，不用感谢，我不是一直都是这样做的吗？多少年啦，今天竟然还谢谢！老公说的没错，可是以前总感觉那是他应该做的，如今感觉到，身边有一个在
趁吾身未老逍遥书生111
趁吾身未老池非2020年，一场突如其来的新冠脑炎疫情，打破了原有的状态。工作与生活的轨迹发生了不确定的变化。01因为隔离防疫，正常的教学不能进行，线上网课成为教学的新形式，年过五十的我面对新的教学形式有些应不暇。只得退而求次，不再负责高考班级的课程。这样，就不用上网课做直播了。感觉很轻松很闲的同时，也感觉到了英雄迟暮。不得不承认，老了。该交班了。因为不能出门，整天呆在家里，一开始还很兴奋，终于可以
Armv8.3 体系结构扩展--原文版代码改变世界ctw ARM-TEE-Android armv8 嵌入式 arm架构安全架构芯片 Trustzone Secureboot
快速链接:.ARMv8/ARMv9架构入门到精通-[目录]付费专栏-付费课程【购买须知】:个人博客笔记导读目录(全部)TheArmv8.3architectureextensionTheArmv8.3architectureextensionisanextensiontoArmv8.2.Itaddsmandatoryandoptionalarchitecturalfeatures.Somefeat
冬练太极虽好，也需做好防护！武当功夫传人郑师和
俗话说，夏练三伏，冬练三九，练功绝非一日之功，必须持之以恒。太极拳是一项集文化、养生、锻炼于一体的活动。现在已经进入冬季，许多喜爱太极拳的朋友们仍然会到户外进行锻炼。这种精神固然可嘉，但是也一定要注意一些相关事项，以避免影响养生的效果。冬季练拳要“养汗”太极拳一日不练十日空,入冬天冷以后要“守汗”，春生夏长秋收冬藏，冬天练功，万物冬藏，要养阳气，需要藏精，顺天时天利，盘拳时，身体微热要见汗，还没出
2021-07-09 2018心如止水
张雲芳焦点解决网络课程学习坚持分享第816天20210709本周第2次（约练总291）渴了喝水；饿了吃饭；累了休息。看似简单的选择与行为，做起来却没那么容易。尤其是作为成年人，每天有工作需要完成，有孩子、家人需要陪伴，有时候各种事情赶在一起，忙的晕头转向、焦头烂额，即使自己特别累，也没有间隙去休息一下下，想象一下身体疲惫，精力耗竭是什么样的状态？对于孩子的哭闹你还会有更多的耐心吗？我想多数情况下都
Python 课程10-单元测试可愛小吉 Python教學 python 单元测试开发语言 TDD unittest
前言在现代软件开发中，单元测试已成为一种必不可少的实践。通过测试，我们可以确保每个功能模块在开发和修改过程中按预期工作，从而减少软件缺陷，提高代码质量。而测试驱动开发（TDD）则进一步将测试作为开发的核心部分，先编写测试，再编写代码，以测试为指导开发出更稳定、更可靠的代码。Python提供了强大的unittest模块，它是Python标准库的一部分，专门用于编写和执行单元测试。与其他测试框架相比，
2022-05-22光印随思60学习要与现实打通无名之米8
20220522光印随思60学习要与现实打通今天在匆忙中完成了新网师课程的第七次预习作业。每次完成预习作业的过程都是一次艰难的学习，先要学习相关的文本和文件，了解作业需要的理论知识，之后需要把理论知识运用于实际工作和生活中。这也是学习的真正价值所在。在很多时候，会有这样的感觉，读了很多书为什么没有啥长进？现在回想应该就是，当只有阅读和感受，没有把阅读心得转化为文字，没有把阅读的知识运用到实际的场景
微信小程序开发注意事项 jun778895 微信小程序小程序
微信小程序开发是一个融合了前端开发、用户体验设计、后端服务（可选）以及微信小程序平台特性的综合性项目。这里，我将详细介绍一个典型的小程序开发项目的全过程，包括项目规划、设计、开发、测试及部署上线等各个环节，并尽量使内容达到或超过2000字的要求。一、项目规划1.1项目背景与目标假设我们要开发一个名为“智慧校园助手”的微信小程序，旨在为学生提供一站式校园生活服务，包括课程表查询、图书馆座位预约、食堂
中国电信推出9.9元10g暖心流量包，每g流量只需0.99元全网优惠分享
中国电信推出9.9元10g暖心流量包，每g流量只需0.99元！关注微•信•公•众•号"卡泡泡"就知道啦！中国电信推出了9.9元10g暖心流量包，该流量包适用于所有中国电信手机用户，无论是预付费还是后付费用户均可办理。该流量包的价格非常实惠，仅需9.9元即可获得10g的国内流量，折合每g流量仅需0.99元。该流量包的有效期为5天，支持跨月使用。用户在当月办理后，当日即可生效，有效期至次月同日的24:
承担即成长吉林付巍巍
《苏霍姆林斯基教育学》课程，几天前召开了义工培训会，我听了回放后主动联系郑老师要求加入义工团队。虽然这样每周要付出至少一天的时间进行打卡阅读和点评，但这样可以强迫规划好每日的作息时间，完成专业阅读方面的学习，这种重要的事情是必须要融入日常的生活中的，这一工作的申请也督促我合理安排自己的时间，把碎片化的时间整合好，无形中提高了每日利用时间的效率。上学期跟随着教师阅读地图课程组进行点评，发现了许多优秀
【诗歌】虾皮汤·想念九月咖胖糖
虾皮坠入开水的柔情焦灼了自己艰苦的曾经舀起一口黄昏的思念记忆的支离拨动了自己淡然的神经童年的下水道子依然囚禁着天空木梯子拐角的蜘蛛网又织着谁的苍老那碗热气腾腾的虾皮汤是否在某个瞬间微漾着你的鹤发童颜图片发自App
家庭教育，先家庭后教育：家庭是硬件，教育是软件唯唯育家
很多家长为孩子付出很多，也学习很多家庭教育课程，看很多家庭教育书籍，为什么还是教育孩子很困难？因为主次颠倒，没有抓住家庭教育的主干！家庭教育，很多家长只行使“教育”功能，忽视了“家庭”功能！家长总想着怎么教孩子，怎么教育孩子！如果单靠教育，就能把孩子教好，学校老师在教育方面比家长在行，孩子应该在学校就被教好了，哪还需要家庭教育？为什么只有学校教育不够，还需要家庭教育？家庭教育的主要功能不在“教育”
【杨爽微习惯日更41/101】杨爽_e105
沟通小课堂---治疗“愤世嫉俗”的最佳良方是什么？12月28日，钢琴家傅聪因感染新冠肺炎在英国去世了，傅聪先生被世人广泛熟知，除了他是优秀的钢琴家，更因为他是《傅雷家书》中享受父母深深关爱殷殷教诲的青年，这本书影响了一代又一代人。今天想和你分享傅雷先生时常会在家书中强调的，要坚持“大我”，抛弃“小我”，不要对个人的名利得失太过计较。当我们热衷于个人名利，而又得不到名利的时候，必然会因为嫉妒和仇恨变
2020-08-08日更152 今日xianyang大雨积水，开启看海模式西北小妖在路上
微妮8月8日周六每日复盘打卡121/200晴（记录8月7日周五的发生）一、感恩日志1、感恩父母养育了我；2、感恩我所在的地方风调雨顺；3、感恩小区物业还给老G打电话说由于大雨导致积水成灾，我家的车需要挪动。我们的车已经开到单位来了，弟弟的车也在长岭地铁站，所以不太担心了。4、感恩姐姐在医院照顾老妈住院，才有我们在这里的闲适；5、感恩单位的自然条件不错，环境优美，让我每天行走其中就是享受；6、感恩宿
2023-04-18 夕彦
躺在不想起，给自己找起来的理由care，照顾自己的身体心情和家人，安好连接和共创课程设计，会议和督导
教师资格考试中学《教育知识与能力》知识点｜高频考点汇总小山丘
温馨提示：更多汇总详情留言小编哦！！！认知过程之易混知识点剖析社会中心课程论情绪——重要考点皮亚杰教你带孩子斯金纳强化规律你的心理足够强大吗?教育心理学的效应德育有规律常考人物思想之夸美纽斯中学常考教学原则孔子及《论语》中的重要教育思想教育学创立阶段人物之赫尔巴特学习策略分类知识点梳理教师资格证辨析题作答思路综合课程的类型班杜拉的学习理论马斯洛需要层次理论记忆类型的四大分类柏拉图和他的《理想国》感
第二阶段学习的第二次复盘蓝色沫
【昵称】蓝色，沫【我的技能】第二阶段所学内容中，我学习了如何学好爆款标题，如何写好开头和结尾，如何写好媒体文等等。【我要发问】第二阶段学习的内容中，没能掌握好写媒体文。【我的闪光点】第二阶段做的好的地方，有按时完成作业，以及认真听视频课，在课程中，明白了怎样去写好开头和结尾，怎样写出爆款标题等。【不足之处】没能掌握好写媒体文。关于写好媒体文，有些吃力，针对写三至五个小标题，以及写好媒体文框架还存在
越长大越孤单换个时间就好
“于今之世，孰是真身”。意思是：在今天的社会，谁是真正的自己。第一次有这种感受是在初二初三，当时平凡的我只想平凡的走完我的初中时代，不想有变故，不想多新朋友，也不想成为别人的新朋友。在数着教室里那张被多数人期待的，挂在教室后方的钟表，铃声响起结束一天百般无聊的课程，我像个机器人麻木做着和往常一样的动作，拿着装满书的书包，看着空荡荡又充满气味的凳阁，再一次想起我为什么拿着所有的书回去。直到肩膀酸痛，
创设问题情境的策略平常心666
创设情境要有情趣案例：可以圈多少地如何让孩子喜欢数学，是数学教师必须思考和解决的问题。有趣的情境会吸引学生，使学生主动走近数学学习。因此，教师要结合学生的年龄特点和实际生活，创造出富有数学情趣的情境。创设情境要有生活案例：克与千克的生活情境正如著名数学家华罗庚所说：“宇宙之大，粒子之微，火箭之速，化工之巧，地球之变，日月之繁，无处不用数学。”数学与现实生活有着密切的联系。创设情境要有问题案例：喝出
好奇 oulan
试着把室温调成16度，试着把蚊账尽可能调成无缝隙模式，试着送排着队等着入夜来一波攻击模式的蚊子一直向西。昨天晚上的梦境就空幻而不可记。早晨醒来的时候鸟歌雀舞，这边山上一声，那边山上一声。走到屋子外面，连眼镜都因为热浪袭来而模糊不清。水面倒映着铁塔，小燕子在水面饱餐着飞虫。很好奇这不熟悉的世界，是什么让鱼儿秀着水花，是什么让鲜花爬满窗棱。一切都是好的开始，一会就去看山顶的微红。早安，世界。早安，未来
2020.5.20【第三十八天打卡】 CY的好运很哇塞呦
2020.5.20【第三十八天打卡】：一、今日进度：1.会计直播课程：《经济法基础》两个小时，主要内容：经济法基础相关理论知识～纯理论的课程，加上心里的烦躁，完整地听完一节课，真的是太难为自己了，需要明天重新看一遍回放。2.读其他书7章。二、今日待进步：1.练字0%2.表格学习0%3.TED0%三、明日安排：（一）每日常规三件事：1.读书半小时2.练字半小时3.学习半小时（二）每日新增一事（兴趣工
2019-05-15 龙心须言
七绝(新韵)即景抒怀文/常龙须路行半道雨微滴，进退实难作定局。后想前思都有理，人生得舍啥为宜？2019年5月14日16点55分吟诵于开元大道伊新街口
希希~嗯嗯~ 猪猪女孩小哒哒
电话铺垫无聊天当天来上课的情况：外婆陪三岁的希希，妈妈陪小的大的上课规则感建立的还算不错，二的满场跑完全坐不住妈妈想找外教早教机构，因为大的在托班，里面会有数学、外教等分支教学课程。老二妈妈没怎么带教二宝。妈妈想给她找语言妈妈问有没有英文我的回答是英文课会有中教，应该回答中外教一起妈妈夸赞宝宝10个月会走了，今天见到的情形是宝宝走几步路就会跌倒，没有联系过爬，就开始走，长大以后模仿别人动作上面做的
【徐远房产投资规划课（7）】（02.18）：技术进步会逆转城市聚集吗？格式化_001
微信图片_20181005125538.png声明以下内容来自徐远的分享。徐远介绍徐远：北京大学金融学教授，美国杜克大学经济学博士。其研究领域：宏观经济、金融经济、经济政策、房地产、城市化......本节思维框架新技术的出现新技术是否会引起房价下跌历史经验人们的交流是分不同层次的总结新技术的出现昨天的课程里，我给你重点讲了城市化对房价的影响。我们平常说房价高，其实主要说的是大城市的房价高。大城市聚
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_

Kaggle官方教程之机器学习入门