ARVRinChina

机器学习项目-预测波士顿房价-整体流程

项目 1: 预测波士顿房价¶

第一步. 导入数据

在这个项目中，你将利用马萨诸塞州波士顿郊区的房屋信息数据训练和测试一个模型，并对模型的性能和预测能力进行测试。通过该数据训练后的好的模型可以被用来对房屋做特定预测---尤其是对房屋的价值。对于房地产经纪等人的日常工作来说，这样的预测模型被证明非常有价值。

此项目的数据集来自UCI机器学习知识库(数据集已下线)。波士顿房屋这些数据于1978年开始统计，共506个数据点，涵盖了麻省波士顿不同郊区房屋14种特征的信息。本项目对原始数据集做了以下处理：

有16个'MEDV' 值为50.0的数据点被移除。这很可能是由于这些数据点包含遗失或看不到的值。
有1个数据点的 'RM' 值为8.78. 这是一个异常值，已经被移除。
对于本项目，房屋的'RM'， 'LSTAT'，'PTRATIO'以及'MEDV'特征是必要的，其余不相关特征已经被移除。
'MEDV'特征的值已经过必要的数学转换，可以反映35年来市场的通货膨胀效应。

运行下面区域的代码以载入波士顿房屋数据集，以及一些此项目所需的Python库。如果成功返回数据集的大小，表示数据集已载入成功。

# 载入此项目所需要的库
import numpy as np
import pandas as pd
import visuals as vs # Supplementary code

# 检查你的Python版本
from sys import version_info
if version_info.major != 2 and version_info.minor != 7:
    raise Exception('请使用Python 2.7来完成此项目')
    
# 让结果在notebook中显示
%matplotlib inline

# 载入波士顿房屋的数据集
data = pd.read_csv('housing.csv')
prices = data['MEDV']
features = data.drop('MEDV', axis = 1)
    
# 完成
print "Boston housing dataset has {} data points with {} variables each.".format(*data.shape)

第二步. 分析数据

在项目的第一个部分，你会对波士顿房地产数据进行初步的观察并给出你的分析。通过对数据的探索来熟悉数据可以让你更好地理解和解释你的结果。

由于这个项目的最终目标是建立一个预测房屋价值的模型，我们需要将数据集分为特征(features)和目标变量(target variable)。

特征 'RM'， 'LSTAT'，和 'PTRATIO'，给我们提供了每个数据点的数量相关的信息。
目标变量：'MEDV'，是我们希望预测的变量。

他们分别被存在features和prices两个变量名中。

编程练习 1：基础统计运算

你的第一个编程练习是计算有关波士顿房价的描述统计数据。我们已为你导入了numpy，你需要使用这个库来执行必要的计算。这些统计数据对于分析模型的预测结果非常重要的。在下面的代码中，你要做的是：

计算prices中的'MEDV'的最小值、最大值、均值、中值和标准差；

将运算结果储存在相应的变量中。

#TODO 1

#目标：计算价值的最小值
minimum_price = np.min(prices)

#目标：计算价值的最大值
maximum_price = np.max(prices)

#目标：计算价值的平均值
mean_price = np.mean(prices)

#目标：计算价值的中值
median_price = np.median(prices)

#目标：计算价值的标准差
std_price = np.std(prices)

#目标：输出计算的结果
print "Statistics for Boston housing dataset:\n"
print "Minimum price: ${:,.2f}".format(minimum_price)
print "Maximum price: ${:,.2f}".format(maximum_price)
print "Mean price: ${:,.2f}".format(mean_price)
print "Median price ${:,.2f}".format(median_price)
print "Standard deviation of prices: ${:,.2f}".format(std_price)

问题 1 - 特征观察

如前文所述，本项目中我们关注的是其中三个值:'RM'、'LSTAT' 和'PTRATIO'，对每一个数据点:

'RM' 是该地区中每个房屋的平均房间数量；
'LSTAT' 是指该地区有多少百分比的业主属于是低收入阶层（有工作但收入微薄）；
'PTRATIO' 是该地区的中学和小学里，学生和老师的数目比（学生/老师）。
凭直觉，上述三个特征中对每一个来说，你认为增大该特征的数值，'MEDV'的值会是增大还是减小呢？每一个答案都需要你给出理由。

提示：你预期一个'RM' 值是6的房屋跟'RM' 值是7的房屋相比，价值更高还是更低呢？

问题 1 - 回答：

RM 增大, MEDV会相对增大: RM增大,单个房屋里的房间数增大, 侧面也可以反映出或许是有更多的人入住, 有更多的需求,MEDV价格也会相对提高 LSTAT增大,MEDV会相对降低: LSTAT代表低收入阶层的比例, 低收入阶层比例增大, 证明此地区消费水平变低,或者此地区产业不景气, MEDC的价格也会随之降低 PREARIO增大,MEDV会降低: 老师和学生的比例越来越大,说明有更多的学生,更少的老师, 更多的学生是否可以理解成此地区居住人口多, 老师变少,可以理解为,此地区待遇不好,或者地区发展并不完善, 社区匹配越不健全,房价也就越低

编程练习 2: 数据分割与重排

接下来，你需要把波士顿房屋数据集分成训练和测试两个子集。通常在这个过程中，数据也会被重排列，以消除数据集中由于顺序而产生的偏差。在下面的代码中，你需要

使用 sklearn.model_selection 中的 train_test_split，将features和prices的数据都分成用于训练的数据子集和用于测试的数据子集。

分割比例为：80%的数据用于训练，20%用于测试；
选定一个数值以设定 train_test_split 中的 random_state ，这会确保结果的一致性；
```
# TODO 2
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(features,prices,test_size = 0.20, random_state=10)
```
问题 2 - 训练及测试

将数据集按一定比例分为训练用的数据集和测试用的数据集对学习算法有什么好处？

如果用模型已经见过的数据，例如部分训练集数据进行测试，又有什么坏处？

提示： 如果没有数据来对模型进行测试，会出现什么问题？

问题 2 - 回答:

将数据集按一定比例分为训练用的数据集和测试用的数据集对学习算法有什么好处？可以使用训练的数据反复进行训练, 来找出最佳的模型, 然后通过测试集数据测试来确定此模型是否也应用于其他数据

如果用模型已经见过的数据，例如部分训练集数据进行测试，又有什么坏处？使用训练数据集数据进行测试, 造成的结果是模型一直适用, 当碰到其他新的数据的时候,就会出现很大偏差

第三步. 模型衡量标准

在项目的第三步中，你需要了解必要的工具和技巧来让你的模型进行预测。用这些工具和技巧对每一个模型的表现做精确的衡量可以极大地增强你预测的信心。

编程练习3：定义衡量标准

如果不能对模型的训练和测试的表现进行量化地评估，我们就很难衡量模型的好坏。通常我们会定义一些衡量标准，这些标准可以通过对某些误差或者拟合程度的计算来得到。在这个项目中，你将通过运算决定系数 R2 来量化模型的表现。模型的决定系数是回归分析中十分常用的统计信息，经常被当作衡量模型预测能力好坏的标准。

R2的数值范围从0至1，表示目标变量的预测值和实际值之间的相关程度平方的百分比。一个模型的R2 值为0还不如直接用平均值来预测效果好；而一个R2 值为1的模型则可以对目标变量进行完美的预测。从0至1之间的数值，则表示该模型中目标变量中有百分之多少能够用特征来解释。模型也可能出现负值的R2，这种情况下模型所做预测有时会比直接计算目标变量的平均值差很多。

在下方代码的 performance_metric 函数中，你要实现：
使用 sklearn.metrics 中的 r2_score 来计算 y_true 和 y_predict的R2值，作为对其表现的评判。
将他们的表现评分储存到score变量中。
或
(可选) 不使用任何外部库，参考决定系数的定义进行计算，这也可以帮助你更好的理解决定系数在什么情况下等于0或等于1。

# TODO 3
from sklearn.metrics import r2_score

def performance_metric(y_true, y_predict):
    """计算并返回预测值相比于预测值的分数"""
    score = r2_score(y_true,y_predict)

    return score

# TODO 3 可选

# 不允许导入任何计算决定系数的库

def performance_metric2(y_true, y_predict):

    return None

问题 3 - 拟合程度

假设一个数据集有五个数据且一个模型做出下列目标变量的预测：

真实数值	预测数值
3.0	2.5
-0.5	0.0
2.0	2.1
7.0	7.8
4.2	5.3

你觉得这个模型已成功地描述了目标变量的变化吗？如果成功，请解释为什么，如果没有，也请给出原因。

提示：运行下方的代码，使用performance_metric函数来计算模型的决定系数。

# 计算这个模型的预测结果的决定系数
score = performance_metric([3, -0.5, 2, 7, 4.2], [2.5, 0.0, 2.1, 7.8, 5.3])
print "Model has a coefficient of determination, R^2, of {:.3f}.".format(score)

问题 3 - 回答:

我觉得不能成功的描述目标变量的变化, 数据量太少了, 如果数据量大于50 或许可以

第四步. 分析模型的表现

在项目的第四步，我们来看一下不同参数下，模型在训练集和验证集上的表现。这里，我们专注于一个特定的算法（带剪枝的决策树，但这并不是这个项目的重点），和这个算法的一个参数 'max_depth'。用全部训练集训练，选择不同'max_depth' 参数，观察这一参数的变化如何影响模型的表现。画出模型的表现来对于分析过程十分有益，这可以让我们看到一些单看结果看不到的行为。

学习曲线

下方区域内的代码会输出四幅图像，它们是一个决策树模型在不同最大深度下的表现。每一条曲线都直观得显示了随着训练数据量的增加，模型学习曲线的在训练集评分和验证集评分的变化，评分使用决定系数R2。曲线的阴影区域代表的是该曲线的不确定性（用标准差衡量）。

运行下方区域中的代码，并利用输出的图形回答下面的问题。

# 根据不同的训练集大小，和最大深度，生成学习曲线
vs.ModelLearning(X_train, y_train)

问题 4 - 学习曲线

选择上述图像中的其中一个，并给出其最大深度。随着训练数据量的增加，训练集曲线的评分有怎样的变化？验证集曲线呢？如果有更多的训练数据，是否能有效提升模型的表现呢？

提示：学习曲线的评分是否最终会收敛到特定的值？

问题 4 - 回答:

图二 max_depth = 3, 随着训练数据量的增加, 训练集曲线稍许下滑后,然后趋向于平缓. 验证集曲线缓慢上升后也趋向于平缓, 且波动比较小我觉得学习曲线的评分不会到收敛到一个特定值, 到会收敛到一个特定范围,一个比较小的范围

复杂度曲线

下列代码内的区域会输出一幅图像，它展示了一个已经经过训练和验证的决策树模型在不同最大深度条件下的表现。这个图形将包含两条曲线，一个是训练集的变化，一个是验证集的变化。跟学习曲线相似，阴影区域代表该曲线的不确定性，模型训练和测试部分的评分都用的 performance_metric 函数。

运行下方区域中的代码，并利用输出的图形并回答下面的两个问题。

# 根据不同的最大深度参数，生成复杂度曲线
vs.ModelComplexity(X_train, y_train)

问题 5 - 偏差（bias）与方差（variance）之间的权衡取舍

当模型以最大深度 1训练时，模型的预测是出现很大的偏差还是出现了很大的方差？当模型以最大深度10训练时，情形又如何呢？图形中的哪些特征能够支持你的结论？

提示： 你如何得知模型是否出现了偏差很大或者方差很大的问题？

问题 5 - 回答:

当模型以最大深度1训练时,r2_score值比较低,说明预测不准确,不能很好的使用特征来解释, 所以会出现很大偏差当模型以最大深度10训练时, 训练集的R2_score接近了1, 但是测试集的R2_score反而在下降, 说明对训练集有很好的拟合度,但是却不能很好的推广到新的数据,这也是高方差的表现

问题 6- 最优模型的猜测

结合问题 5 中的图，你认为最大深度是多少的模型能够最好地对未见过的数据进行预测？你得出这个答案的依据是什么？

问题 6 - 回答:

第五步. 选择最优参数

我觉得深度在4左右的模型能够最好的对未见过的数据进行预测 4左右, 训练集的r2_score在0.8-0.9附近, 可以很好的预测训练集测试集的r2_score在 0.8附近, 也是所有深度里表现最好的情况而且训练集与测试集之间的差距也不算很大,说明这些特征可以进行较好的预测

问题 7- 网格搜索（Grid Search）

什么是网格搜索法？如何用它来优化模型？

问题 7 - 回答:

在你不确定什么才是最优参数的时候, 使用Grid Search, Grid Search会使用这些参数分别进行交叉验证, 并计算得分,帮你找出最优参数我们可以通过最有参数来优化模型假设有俩个参数(a和b) 需要确定, 那么先确定a和b的可能范围, 这样在a和b的坐标轴上,a和b的各个可能值组成了一个个网格(Grid),GridSearch便依次将该网格上的参数带入到模型里,用cv方法计算并评分,等搜索完全部网格后, 取出最高分为最优参数

网格搜索也不一定总是选择得分最高的模型，如果评分标准是loss，会返回评分最低参考链接:http://blog.csdn.net/fushunsu/article/details/46332203

问题 8 - 交叉验证
什么是K折交叉验证法（k-fold cross-validation）？
GridSearchCV是如何结合交叉验证来完成对最佳参数组合的选择的？
GridSearchCV中的'cv_results_'属性能告诉我们什么？
网格搜索时如果不使用交叉验证会有什么问题？交叉验证又是如何解决这个问题的？
在下方 fit_model 函数中，你需要做的是：
定义 'cross_validator' 变量: 使用 sklearn.model_selection 中的 KFold 创建一个交叉验证生成器对象;
定义 'regressor' 变量: 使用 sklearn.tree 中的 DecisionTreeRegressor 创建一个决策树的回归函数;
定义 'params' 变量: 为 'max_depth' 参数创造一个字典，它的值是从1至10的数组;
定义 'scoring_fnc' 变量: 使用 sklearn.metrics 中的 make_scorer 创建一个评分函数；将 ‘performance_metric’ 作为参数传至这个函数中；
定义 'grid' 变量: 使用 sklearn.model_selection 中的 GridSearchCV 创建一个网格搜索对象；将变量'regressor', 'params', 'scoring_fnc'和 'cross_validator' 作为参数传至这个对象构造函数中；
如果你对python函数的默认参数定义和传递不熟悉，可以参考这个MIT课程的视频。

提示： 在下面 fit_model函数最后加入 print pd.DataFrame(grid.cv_results_) 可以帮你查看更多信息。

问题 8 - 回答：

1.k折交叉验证,是将所有数据平分到相同大小的k个容器内, 挑一个容器作为验证容器,剩下k-1作为训练容器,进行k-1次循环的实验,每次挑选一个不容的k容器,交叉验证的要点是这个运行多次,然后取平均值. 2.CridSeaarchCV 每一次取不同的参数,然后通过k折交叉验证得到最后得. 进行多次取参(每一次都会进行k折交叉验证), 来找出最优组合 3.GridSearchCV中的'cvresults'属性可以知道所有参数的组合,以及这些参数组合的训练得分测试得分, 平均值, 标准差一类的信息 4.不使用交叉验证的话可能得到的并不是最优结果,可能会造成误差挺大, 交叉验证,多次更换训练集和测试集,获得所有测试组的评分, 可以最优模型,来提高训练的准确度

如果数据量不大，随机性也不够好，比如分布有顺序性，那么分出来的验证集有可能只包含数据集中一种特点的数据，这时候在验证集上得到的分数可能是不准确的。有可能是模型拟合得比较好的数据，得到的成绩优于真实表现；有可能是模型拟合得比较差的数据，得到的成绩差于真实表现。如果使用交叉验证，那么就会取多次不同的验证集分数的平均值，多次取平均值能够减少对模型表现评分的误差，这样就可以更准确地找到最优参数。交叉验证的作用并不是直接避免过拟合欠拟合等问题，而是给出准确的评分，帮助网格搜索选择参数。

编程练习 4：训练最优模型

在这个练习中，你将需要将所学到的内容整合，使用决策树算法训练一个模型。为了得出的是一个最优模型，你需要使用网格搜索法训练模型，以找到最佳的 'max_depth' 参数。你可以把'max_depth' 参数理解为决策树算法在做出预测前，允许其对数据提出问题的数量。决策树是监督学习算法中的一种。

# TODO 4
from sklearn.model_selection import KFold
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import make_scorer
from sklearn.model_selection import GridSearchCV

def fit_model(X, y):
    """ 基于输入数据 [X,y]，利于网格搜索找到最优的决策树模型"""
    
    cross_validator = KFold(n_splits = 10,shuffle = True)
    
    regressor = DecisionTreeRegressor()

    params = {'max_depth':[1,2,3,4,5,6,7,8,9,10]}

    scoring_fnc = make_scorer(performance_metric)

    grid = GridSearchCV(cv=cross_validator,estimator = regressor,param_grid=params,scoring=scoring_fnc )

    # 基于输入数据 [X,y]，进行网格搜索
    grid = grid.fit(X, y)

    # 返回网格搜索后的最优模型
    return grid.best_estimator_

编程练习 4：训练最优模型（可选）

在这个练习中，你将需要将所学到的内容整合，使用决策树算法训练一个模型。为了得出的是一个最优模型，你需要使用网格搜索法训练模型，以找到最佳的 'max_depth' 参数。你可以把'max_depth' 参数理解为决策树算法在做出预测前，允许其对数据提出问题的数量。决策树是监督学习算法中的一种。

在下方 fit_model 函数中，你需要做的是：

遍历参数‘max_depth’的可选值 1～10，构造对应模型
计算当前模型的交叉验证分数

返回最优交叉验证分数对应的模型

# TODO 4 可选

'''
不允许使用 DecisionTreeRegressor 以外的任何 sklearn 库

提示: 你可能需要实现下面的 cross_val_score 函数

def cross_val_score(estimator, X, y, scoring = performance_metric, cv=3):
    """ 返回每组交叉验证的模型分数的数组 """
    scores = [0,0,0]
    return scores
'''

def fit_model2(X, y):
    """ 基于输入数据 [X,y]，利于网格搜索找到最优的决策树模型"""
    
    #最优交叉验证分数对应的最优模型
    best_estimator = None
    
    return best_estimator

问题 9 - 最优模型

最优模型的最大深度（maximum depth）是多少？此答案与你在问题 6所做的猜测是否相同？

运行下方区域内的代码，将决策树回归函数代入训练数据的集合，以得到最优化的模型。

# 基于训练数据，获得最优模型
optimal_reg = fit_model(X_train, y_train)

# 输出最优模型的 'max_depth' 参数
print "Parameter 'max_depth' is {} for the optimal model.".format(optimal_reg.get_params()['max_depth'])

问题 9 - 回答：

最优模型的最大深度是4, 与题6的猜测相同

第六步. 做出预测

当我们用数据训练出一个模型，它现在就可用于对新的数据进行预测。在决策树回归函数中，模型已经学会对新输入的数据提问，并返回对目标变量的预测值。你可以用这个预测来获取数据未知目标变量的信息，这些数据必须是不包含在训练数据之内的。

问题 10 - 预测销售价格

想像你是一个在波士顿地区的房屋经纪人，并期待使用此模型以帮助你的客户评估他们想出售的房屋。你已经从你的三个客户收集到以下的资讯:

特征	客戶 1	客戶 2	客戶 3
房屋内房间总数	5 间房间	4 间房间	8 间房间
社区贫困指数（％被认为是贫困阶层）	17%	32%	3%
邻近学校的学生-老师比例	15：1	22：1	12：1

你会建议每位客户的房屋销售的价格为多少？从房屋特征的数值判断，这样的价格合理吗？为什么？

提示：用你在分析数据部分计算出来的统计信息来帮助你证明你的答案。

运行下列的代码区域，使用你优化的模型来为每位客户的房屋价值做出预测。

# 生成三个客户的数据
client_data = [[5, 17, 15], # 客户 1
               [4, 32, 22], # 客户 2
               [8, 3, 12]]  # 客户 3

# 进行预测
predicted_price = optimal_reg.predict(client_data)
for i, price in enumerate(predicted_price):
    print "Predicted selling price for Client {}'s home: ${:,.2f}".format(i+1, price)

问题 10 - 回答：

客户房屋销售价格分别为:416,850.00416,850.00228,156.25 $913,500.00 我认为这个价格是合理的

上面计算的最大值是1,024,800 最小值是105,000 均值是454,342.94 预测上面三个房屋的价格都在这个范围内

与之前分析的一致 RM 增大, MEDV会相对增大; LSTAT增大,MEDV会相对降低; PREARIO增大,MEDV会降低;

编程练习 5

你刚刚预测了三个客户的房子的售价。在这个练习中，你将用你的最优模型在整个测试数据上进行预测, 并计算相对于目标变量的决定系数 R2的值**。

#TODO 5

# 提示：你可能需要用到 X_test, y_test, optimal_reg, performance_metric
# 提示：你可能需要参考问题10的代码进行预测
# 提示：你可能需要参考问题3的代码来计算R^2的值

predicted_price = optimal_reg.predict(X_test)

r2 = performance_metric(y_test,predicted_price)

print "Optimal model has R^2 score {:,.2f} on test data".format(r2)

问题11 - 分析决定系数

你刚刚计算了最优模型在测试集上的决定系数，你会如何评价这个结果？

问题11 - 回答

决定系数在0.87, 与问题6分析的测试数据将在0.8附近一致,0.87 说明这些特征可以体现房屋的价格

模型健壮性

一个最优的模型不一定是一个健壮模型。有的时候模型会过于复杂或者过于简单，以致于难以泛化新增添的数据；有的时候模型采用的学习算法并不适用于特定的数据结构；有的时候样本本身可能有太多噪点或样本过少，使得模型无法准确地预测目标变量。这些情况下我们会说模型是欠拟合的。

问题 12 - 模型健壮性

模型是否足够健壮来保证预测的一致性？

提示: 执行下方区域中的代码，采用不同的训练和测试集执行 fit_model 函数10次。注意观察对一个特定的客户来说，预测是如何随训练数据的变化而变化的。

```
# 请先注释掉 fit_model 函数里的所有 print 语句
vs.PredictTrials(features, prices, fit_model, client_data)
```
问题 12 - 回答：

数据会有浮动, 数据的浮动在 $30,372.22 这个价格之间,幅度差不到10分之一我觉得模型已经足够健壮可以保证预测的一致性

问题 13 - 实用性探讨

简单地讨论一下你建构的模型能否在现实世界中使用？

提示：回答以下几个问题，并给出相应结论的理由：
1978年所采集的数据，在已考虑通货膨胀的前提下，在今天是否仍然适用？
数据中呈现的特征是否足够描述一个房屋？
在波士顿这样的大都市采集的数据，能否应用在其它乡镇地区？
你觉得仅仅凭房屋所在社区的环境来判断房屋价值合理吗？
问题 13 - 回答：

1.在考虑到通货膨胀的前提下,我觉得今天仍然适用 2.不能足够描述一个房屋,还与其地区未来政策, 其地区的发展有关 3.不适用与乡镇 4.不合理,还需考虑地区

可选问题 - 预测北京房价

（本题结果不影响项目是否通过）通过上面的实践，相信你对机器学习的一些常用概念有了很好的领悟和掌握。但利用70年代的波士顿房价数据进行建模的确对我们来说意义不是太大。现在你可以把你上面所学应用到北京房价数据集中 bj_housing.csv。

免责声明：考虑到北京房价受到宏观经济、政策调整等众多因素的直接影响，预测结果仅供参考。

这个数据集的特征有：
Area：房屋面积，平方米
Room：房间数，间
目标变量：
Value: 房屋人民币售价，万
你可以参考上面学到的内容，拿这个数据集来练习数据分割与重排、定义衡量标准、训练模型、评价模型表现、使用网格搜索配合交叉验证对参数进行调优并选出最佳参数，比较两者的差别，最终得出最佳模型对验证集的预测分数。
Living: 厅数，间
School: 是否为学区房，0或1
Year: 房屋建造时间，年
Floor: 房屋所处楼层，层
```
# TODO 6

# 载入波士顿房屋的数据集
data = pd.read_csv('bj_housing.csv')
prices = data['Value']
features = data.drop('Value', axis = 1)
X_train, X_test, y_train, y_test = train_test_split(features,prices,test_size = 0.20)
optimal_reg = fit_model(X_train, y_train)
predicted_price = optimal_reg.predict(X_test)
r2 = performance_metric(y_test,predicted_price)
print r2
```
问题14 - 北京房价预测

你成功的用新的数据集构建了模型了吗？他能对测试数据进行验证吗？它的表现是否符合你的预期？交叉验证是否有助于提升你模型的表现？

提示：如果你是从零开始构建机器学习的代码会让你一时觉得无从下手。这时不要着急，你要做的只是查看之前写的代码，把每一行都看明白，然后逐步构建你的模型。当中遇到什么问题也可以在我们论坛寻找答案。也许你会发现你所构建的模型的表现并没有达到你的预期，这说明机器学习并非是一项简单的任务，构建一个表现良好的模型需要长时间的研究和测试。这也是我们接下来的课程中会逐渐学到的。

问题14 - 回答

使用新的数据构建了模型, 但是觉得不能对测试数据进行验证, r2的波动幅度太大, 小则0.2左右大则0.7左右, 表现不符合预期,交叉验证在此模型中似乎没起到什么作用

你可能感兴趣的:(机器学习项目)

亦菲喊你来学机器学习（21） --数据清洗方世恩机器学习人工智能 python 算法
数据清洗在数据分析和机器学习项目中，数据清洗（DataCleaning）是一个至关重要的步骤，它涉及到处理原始数据中的错误、缺失值、异常值、重复记录以及不一致的格式等问题。data.fillna()是Pandas库中用于处理缺失值（NaN值）的一个非常有用的方法。1.读取数据importpandasaspddata=pd.read_excel('矿物数据.xlsx')data=data[data[
【深度学习 transformer】使用pytorch 训练transformer 模型,hugginface 来啦东华果汁哥深度学习-文本分类深度学习 transformer pytorch
HuggingFace是一个致力于开源自然语言处理（NLP）和机器学习项目的社区。它由几个关键组件组成：Transformers：这是一个基于PyTorch的库，提供了各种预训练的NLP模型，如BERT、GPT、RoBERTa、DistilBERT等。它还提供了一个简单易用的API来加载这些模型，并进行微调以适应特定的下游任务。Datasets：这是一个用于加载和预处理NLP数据集的库，与Tran
数据切分的艺术：使用PyTorch的torch.utils.data.random_split精粹指南 2402_85758349 机器学习
数据切分的艺术：使用PyTorch的torch.utils.data.random_split精粹指南在机器学习项目中，合理地分割数据集至关重，它不仅关系到模型训练的有效性，还直接影响到模型的泛化能力。PyTorch提供了一个强大的工具torch.utils.data.random_split，它能够以随机的方式将数据集分割成若干个子集。本文将详细介绍如何使用这一工具进行数据集的随机分割。1.随机
spark应用程序转换_4.Spark特征提取、转换和选择 - 简书 weixin_39956182 spark应用程序转换
在实际机器学习项目中，我们获取的数据往往是不规范、不一致、有很多缺失数据，甚至不少错误数据，这些数据有时又称为脏数据或噪音，在模型训练前，务必对这些脏数据进行处理，否则，再好的模型，也只能脏数据进，脏数据出。这章我们主要介绍对数据处理涉及的一些操作，主要包括：特征提取特征转换特征选择4.1特征提取特征提取一般指从原始数据中抽取特征。4.1.1词频－逆向文件频率(TF-IDF)词频－逆向文件频率(T
Keras深度学习框架实战（2）：估计模型训练所需的样本量 MUKAMO AI Python应用 Keras框架深度学习 keras 人工智能
1、模型训练样本量评估概述1.1样本量评估的意义预估模型需要的样本量对于机器学习项目的成功至关重要，以下是几个主要原因：防止过拟合与欠拟合：过拟合：当模型在训练数据上表现极好，但在未见过的测试数据上表现糟糕时，就发生了过拟合。这通常是因为模型过于复杂，而训练数据不足以支持其学习数据的真实模式。通过预估足够的样本量，我们可以减少过拟合的风险。欠拟合：与过拟合相反，欠拟合是模型未能捕捉到数据中的关键模
《Python机器学习项目实战》书籍介绍袁袁袁袁满 python 机器学习开发语言
文章目录书籍介绍主要内容书籍目录书籍介绍《Python机器学习项目实战》带领大家在构建实际项目的过程中，掌握关键的机器学习概念！使用机器学习，我们可完成客户行为分析、价格趋势预测、风险评估等任务。要想掌握机器学习，需要有优质的范例、清晰的讲解和大量的练习。《Python机器学习项目实战》完全满足这三点！《Python机器学习项目实战》展示了现实、实用的机器学习场景，并全面、清晰地介绍了机器学习的关
已解决ModuleNotFoundError: No module named ‘tensorflow‘异常的正确解决方法，亲测有效！！！小明 Bug解决大全 tensorflow 人工智能 python java 开发语言 Exception Error
已解决ModuleNotFoundError:Nomodulenamed'tensorflow'异常的正确解决方法，亲测有效！！！文章目录问题分析报错原因解决思路解决方法总结在深度学习和机器学习项目中，TensorFlow是一个极为常用和功能强大的库。如果你在导入TensorFlow时遭遇到了ModuleNotFoundError:Nomodulenamed'tensorflow'这一错误，那么本
【机器学习案例6】使用机器学习从图像中提取突出的颜色（含源码） suoge223 机器学习实用指南机器学习人工智能 python
专栏导读作者介绍：工学博士，高级工程师，专注于工业软件算法研究本文已收录于专栏：《机器学习实用指南》本专栏旨在提供1.机器学习经典案例及源码；2.开源机器学习训练数据集；3.机器学习前沿专业博文。以案例的形式从实用的角度出发，快速上手机器学习项目，在案例中成长，摆脱按部就班填鸭式教学。欢迎订阅专栏，订阅用户可私聊进入机器学习交流群（知识交流、问题解答），并获赠丰厚的机器学习相关学习资料（教材、源码
【机器学习案例7】计算机视觉中的小物体检测：基于补丁的方法 suoge223 机器学习实用指南机器学习计算机视觉人工智能
专栏导读作者简介：工学博士，高级工程师，专注于工业软件算法研究本文已收录于专栏：《机器学习实用指南》本专栏旨在提供1.机器学习经典案例及源码；2.开源机器学习训练数据集；3.机器学习前沿专业博文。以案例的形式从实用的角度出发，快速上手机器学习项目，在案例中成长，摆脱按部就班填鸭式教学。欢迎订阅专栏，订阅用户可私聊进入机器学习交流群（知识交流、问题解答），并获赠丰厚的机器学习相关学习资料（教材、源码
【机器学习笔记】 15 机器学习项目流程 RIKI_1 机器学习机器学习笔记人工智能
机器学习的一般步骤数据清洗数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序，包括检查数据一致性，处理无效值和缺失值等。与问卷审核不同，录入后的数据清理一般是由计算机而不是人工完成。探索性数据分析(EDA探索性数据分析（EDA）是一个开放式流程，我们制作绘图并计算统计数据，以便探索我们的数据。目的是找到异常，模式，趋势或关系。这些可能是有趣的（例如，找到两个变量之间的相关性），或者它们可用
Task 11 XGBoost 算法分析与案例调参实例沫2021
1.XGBoost算法XGBoost是陈天奇等人开发的一个开源机器学习项目，高效地实现了GBDT算法并进行了算法和工程上的许多改进，被广泛应用在Kaggle竞赛及其他许多机器学习竞赛中并取得了不错的成绩。XGBoost是一个优化的分布式梯度增强库，旨在实现高效，灵活和便携。它在GradientBoosting框架下实现机器学习算法。XGBoost提供了并行树提升（也称为GBDT，GBM），可以快速
如何交付机器学习项目：一份机器学习工程开发流程指南城市中迷途小书童
摘要：本文描述机器学习任务的“OODA环”的概念，迭代地执行四个过程：分析、选择方法、实现、测量步骤，循环此过程以提升开发效率。随着机器学习（ML）成为每个行业的重要组成部分，对机器学习工程师（MLE）的需求急剧增长。MLE需要将机器学习技能与软件工程专业知识相结合，为特定应用程序找到高性能的模型，并应对出现的实施挑战——从构建训练基础架构到准备部署模型。在新的机器学习团队中，遇到最常见的障碍之一
机器学习项目之数据清洗井底哇哇笔记机器学习数据分析 python
前言数据清洗是机器学习项目中最为琐碎而又繁重的工作之一，下面总结一些经常用到的数据清洗方法与Python实现，以探索能否用更加自动化的手段来简化数据清洗工作。包括：1.缺失值处理2.格式内容清洗3.重复值处理4.不一致数据处理5.错误数据处理6.离群点处理7.高杠杆点处理8.强影响点处理1缺失值缺失值是最常见的数据问题之一，按缺失比例，我们大致可以将数据的缺失分为两种情况：1）严重缺失这种情况首先
《Git 简易速速上手小册》第10章：未来趋势与扩展阅读（2024 最新版）江帅帅《Git 简易速速上手小册》git python 网络安全爬虫数据分析 github gitlab
文章目录10.1Git与开源社区10.1.1基础知识讲解10.1.2重点案例：Python社区使用Git10.1.3拓展案例1：Git在大型开源项目中的角色10.1.4拓展案例2：支持开源项目的Git托管平台10.2新兴技术与Git的整合10.2.1基础知识讲解10.2.2重点案例：使用Git管理Python机器学习项目10.2.3拓展案例1：整合Git与JupyterNotebooks10.2.
Python 机器学习交叉验证、网格搜索 weixin_42098295 python 机器学习开发语言
Python的机器学习项目中，交叉验证（Cross-Validation）和网格搜索（GridSearch）是两种重要的技术，通常用于模型选择和超参数优化。交叉验证和网格搜索也是机器学习中常用的两种技术，可以有效地提高模型的性能。1、交叉验证（Cross-Validation）交叉验证是一种评估模型泛化性能的方法。它涉及将数据集分成几个部分，通常是“折叠”（folds），然后将模型在一个折叠上进行
使用 AgGrid 增强您的 Streamlit 表格：高级提示和技巧 code2day Python源码技巧大全 streamlit python ag-grid
Streamlit是一个功能强大且用户友好的Python库，用于创建Web应用程序。它非常适合数据分析和机器学习项目，并且可以轻松地将您的应用程序部署到StreamlitCloud。在过去一年半的时间里，无论是小型项目还是复杂项目，我都使用过Streamlit，我发现它是一个非常宝贵的工具。虽然有很多介绍Streamlit的文章和视频（这里是最近的一篇），但我想重点介绍它的一个附加组件：Strea
Sklearn、TensorFlow 与 Keras 机器学习实用指南第三版（九）绝不原创的飞龙人工智能机器学习 sklearn tensorflow
原文：Hands-OnMachineLearningwithScikit-Learn,Keras,andTensorFlow译者：飞龙协议：CCBY-NC-SA4.0附录A：机器学习项目清单此清单可以指导您完成机器学习项目。有八个主要步骤：构建问题并全局看问题。获取数据。探索数据以获得见解。准备数据以更好地暴露底层数据模式给机器学习算法。探索许多不同的模型并列出最佳模型。微调您的模型并将它们组合成
【深度学习：机器学习模型】如何构建您的第一个机器学习模型 jcfszxc 深度学习知识专栏深度学习机器学习人工智能
【深度学习：机器学习模型】如何构建您的第一个机器学习模型第1步：将您的机器学习项目置于情境中第2步：探索数据并选择机器学习算法的类型监督学习无监督学习强化学习第3步：数据收集第4步：选择模型评估方法维护保留验证集K折验证通过改组进行迭代K折验证第5步：预处理和清理数据集处理非数字列解决缺失值检测异常值Z分数基于密度的噪声应用空间聚类(DBSCAN)分析特征选择Univariate单变量Multiv
机器学习系列 16：使用 scikit-learn 的 Pipeline 加百力深度学习机器学习 scikit-learn 人工智能
在机器学习项目中，我们经常需要进行大量的数据预处理步骤，最后用处理干净的数据集来拟合机器学习算法得到一个合适的机器学习模型。scikit-learn提供了一个强大的Pipeline类来帮助我们将所有的数据预处理步骤和训练模型的步骤串起来。就像流水线一样，前一个步骤处理完的结果输入到下一个步骤，依次处理。这里我们将使用UCI提供的威斯康星洲乳腺癌数据集，下载地址如下：https://archive.
深度学习-使用Labelimg数据标注 Damon小智图像识别深度学习人工智能 labelimg yolo
数据标注是计算机视觉和机器学习项目中至关重要的一步，而使用工具进行标注是提高效率的关键。本文介绍了LabelImg，一款常用的开源图像标注工具。用户可以在图像中方便而准确地标注目标区域，为训练机器学习模型提供高质量的标注数据。LabelImg已经成为研究者和开发者在计算机视觉项目中不可或缺的工具之一。一、安装Labelimg1、切换虚拟环境为了确保LabelImg能够与项目环境兼容，首先需要切换到
Coursera吴恩达《深度学习》课程总结（全）双木的木吴恩达深度学习笔记 AI 笔记深度学习神经网络人工智能 python
这里有Coursera吴恩达《深度学习》课程的完整学习笔记，一共5门课：《神经网络和深度学习》、《改善深层神经网络》、《结构化机器学习项目》、《卷积神经网络》和《序列模型》，最后附上人工智能领域大师访谈，干货满满。第一门课：神经网络和深度学习基础，介绍一些基本概念。（四周）第二门课：深度学习方面的实践，严密的构建神经网络，如何真正让它表现良好。超参数调整，正则化诊断偏差和方差，高级优化算法，如Mo
机器学习-采用Pandas数据导入 weixin_38174032 机器学习 python 机器学习
通过Pandas来导入CSV文件要使用pandas.read_csv()函数。这个函数返回值是DataFrame，可以很方便进行下一步的处理。在机器学习项目中，经常用Pandas来做数据清洗与数据准备工作。常使用这种方法。代码如下：#!/user/bin/python#-*-coding:UTF-8-*-frompandasimportread_csv#使用Pandas导入CSV数据filenam
VIVO- AI进展--机器学习平台建设数据智能谷
来源InfoQ网站技术访谈，本文系转发2020年1月21日10:56机器学习项目痛点起初，vivo也是采用类似“作坊式”的团队模式，每个团队针对各自要解决的问题进行规划，由此产生了一种小作坊式的生产局面。随着应用规模逐渐增大，这种模式的局限就暴露出来了。鲁文龙表示，这种模式下的机器学习项目会出现如下问题：1、特征与样本层面，添加新特征流程较长，且不同业务间特征无法共用；特征与样本的处理和存储系统性
【机器学习】实验记录工具 Encarta1993 机器学习人工智能
Weights&Biases（简称为WandB）是一个用于跟踪机器学习实验、可视化实验结果并进行协作的工具。它提供了一个简单易用的界面，让用户可以轻松地记录模型训练过程中的指标、超参数和输出结果，并将这些信息可视化展示。WandB还支持团队协作，可以让团队成员共享实验记录、交流想法，并进行实验结果的比较和分析。通过WandB，用户可以更好地管理和理解他们的机器学习项目，加速实验迭代过程，提高模型的
基于朴素贝叶斯的文本分类系统的设计与实现 @斯里分类数据挖掘人工智能
基于线性回归的预测系统：这是简单而基础的机器学习项目，用于预测单变量或多变量问题。例如，预测房价、销售额等。基于逻辑回归的分类系统：虽然名字中有“回归”，但逻辑回归是用于解决分类问题的，如垃圾邮件判别、病人疾病诊断等二分类问题。基于决策树/随机森林的预测和分类系统：这些算法直观且容易理解，具备良好的解释性，很多复杂的问题也可以用这类方法解决。例如，预测公司的员工流失、信贷风险评估等。基于k近邻(k
《scikit-learn》xgboost 星海千寻机器学习 scikit-learn xgboost
XGBoost算法•XGBoost是陈天奇等人开发的一个开源机器学习项目，高效地实现了GBDT算法并进行了算法和工程上的许多改进，被广泛应用在Kaggle竞赛及其他许多机器学习竞赛中并取得了不错的成绩。•XGBoost的基学习器除了可以是CART（这个时候就是GBDT）也可以是线性分类器，而GBDT只能是CART。•XGBoost的目标函数的近似用了二阶泰勒展开，模型优化效果更好。•XGBoost
2、机器学习基础数据探索 AI算法蒋同学从零开始的机器学习导论机器学习人工智能
加载并理解您的数据。本课程所需数据集夸克网盘下载链接：https://pan.quark.cn/s/9b4e9a1246b2提取码：uDzP文章目录1、使用Pandas了解你的数据2、解释数据描述1、使用Pandas了解你的数据任何机器学习项目的第一步都是熟悉数据。您将使用Pandas库进行此操作。Pandas是数据科学家用来探索和操纵数据的主要工具。大多数人在代码中将panda缩写为pdIn[1
【机器学习300问】7、怎么进行机器学习？机器学习的基本流程是什么？小oo呆【机器学习】机器学习人工智能
一、写在前面也许你和我一样，在刚开始学习机器学习的基本知识的时候，学到了很多的零碎知识点，无法穿成线织成网，本文是机器学习中提纲挈领的一环，将和你一起将今后所有的知识点都捕捉在这张网中。当你在问“我该改怎么进行机器学习？”或者“我怎么去用机器学习？”的时候，其实你是想知道“机器学习的基本流程是什么？”。每当你开始一个机器学习项目的时候，请你务必在心中复习一下机器学习的基本流程。二、机器学习的基本流
机器学习基本算法：算法流程和算法分类缘起性空、机器学习算法人工智能
1、算法流程机器学习的过程是一个完整的项目周期，其中包括数据的采集、数据的特征提取与分类，之后采用何种算法去创建机器学习模型从而获得预测数据。算法流程从上图可以看出一个完整的机器学习项目包含以下这些内容：输入数据：通过自然采集的数据集，包含被标识的和未被标识的部分，作为机器学习的最基础部分。特征提取：通过多种方式对数据的特征值进行提取，一般而言，包含特征越多的数据，机器学习设计出的模型就越精确，处
机器学习_实战框架 you_are_my_sunshine* 机器学习机器学习人工智能
文章目录介绍机器学习的实战框架1.定义问题2.收集数据和预处理(1).收集数据(2).数据可视化(3).数据清洗(4).特征工程(5).构建特征集和标签集(6).拆分训练集、验证集和测试集。3.选择算法并建立模型4.训练模型5.模型的评估和优化介绍机器学习的实战框架一个机器学习项目从开始到结束大致分为5步，分别是定义问题、收集数据和预处理、选择算法和确定模型、训练拟合模型、评估并优化模型性能。这5
web前段跨域nginx代理配置刘正强 nginx cms Web
nginx代理配置可参考server部分 server { listen 80; server_name localhost;
spring学习笔记 caoyong spring
一、概述 a>、核心技术 : IOC与AOP b>、开发为什么需要面向接口而不是实现接口降低一个组件与整个系统的藕合程度，当该组件不满足系统需求时，可以很容易的将该组件从系统中替换掉，而不会对整个系统产生大的影响 c>、面向接口编口编程的难点在于如何对接口进行初始化,(使用工厂设计模式)
Eclipse打开workspace提示工作空间不可用 0624chenhong eclipse
做项目的时候，难免会用到整个团队的代码，或者上一任同事创建的workspace， 1.电脑切换账号后，Eclipse打开时，会提示Eclipse对应的目录锁定，无法访问，根据提示，找到对应目录，G:\eclipse\configuration\org.eclipse.osgi\.manager，其中文件.fileTableLock提示被锁定。解决办法，删掉.fileTableLock文件，重
Javascript 面向对面写法的必要性？一炮送你回车库 JavaScript
现在Javascript面向对象的方式来写页面很流行，什么纯javascript的mvc框架都出来了：ember 这是javascript层的mvc框架哦,不是j2ee的mvc框架我想说的是，javascript本来就不是一门面向对象的语言，用它写出来的面向对象的程序，本身就有些别扭，很多人提到js的面向对象首先提的是：复用性。那么我请问你写的js里有多少是可以复用的，用fu
js array对象的迭代方法换个号韩国红果果 array
1.forEach 该方法接受一个函数作为参数，对数组中的每个元素使用该函数 return 语句失效 function square(num) { print(num, num * num); } var nums = [1,2,3,4,5,6,7,8,9,10]; nums.forEach(square); 2.every 该方法接受一个返回值为布尔类型
对Hibernate缓存机制的理解归来朝歌 session 一级缓存对象持久化
在hibernate中session一级缓存机制中，有这么一种情况：问题描述：我需要new一个对象，对它的几个字段赋值，但是有一些属性并没有进行赋值，然后调用 session.save()方法，在提交事务后，会出现这样的情况： 1：在数据库中有默认属性的字段的值为空 2：既然是持久化对象，为什么在最后对象拿不到默认属性的值？通过调试后解决方案如下：对于问题一，如你在数据库里设置了
WebService调用错误合集 darkranger webservice
Java.Lang.NoClassDefFoundError: Org/Apache/Commons/Discovery/Tools/DiscoverSingleton 调用接口出错，一个简单的WebService import org.apache.axis.client.Call;import org.apache.axis.client.Service; 首先必不可
JSP和Servlet的中文乱码处理 aijuans Java Web
JSP和Servlet的中文乱码处理前几天学习了JSP和Servlet中有关中文乱码的一些问题，写成了博客，今天进行更新一下。应该是可以解决日常的乱码问题了。现在作以下总结希望对需要的人有所帮助。我也是刚学，所以有不足之处希望谅解。一、表单提交时出现乱码：在进行表单提交的时候，经常提交一些中文，自然就避免不了出现中文乱码的情况，对于表单来说有两种提交方式：get和post提交方式。所以
面试经典六问 atongyeye 工作面试
题记：因为我不善沟通，所以在面试中经常碰壁，看了网上太多面试宝典，基本上不太靠谱。只好自己总结，并试着根据最近工作情况完成个人答案。以备不时之需。以下是人事了解应聘者情况的最典型的六个问题： 1 简单自我介绍关于这个问题，主要为了弄清两件事，一是了解应聘者的背景，二是应聘者将这些背景信息组织成合适语言的能力。我的回答：(针对技术面试回答，如果是人事面试，可以就掌
contentResolver.query()参数详解百合不是茶 android query()详解
收藏csdn的博客,介绍的比较详细,新手值得一看 1.获取联系人姓名一个简单的例子，这个函数获取设备上所有的联系人ID和联系人NAME。 [java] view plain copy public void fetchAllContacts() {
ora-00054:resource busy and acquire with nowait specified解决方法 bijian1013 oracle 数据库 kill nowait
当某个数据库用户在数据库中插入、更新、删除一个表的数据，或者增加一个表的主键时或者表的索引时，常常会出现ora-00054:resource busy and acquire with nowait specified这样的错误。主要是因为有事务正在执行（或者事务已经被锁），所有导致执行不成功。 1.下面的语句
web 开发乱码征客丶 spring Web
以下前端都是 utf-8 字符集编码一、后台接收 1.1、 get 请求乱码 get 请求中，请求参数在请求头中；乱码解决方法： a、通过在web 服务器中配置编码格式：tomcat 中，在 Connector 中添加URIEncoding="UTF-8"； 1.2、post 请求乱码 post 请求中，请求参数分两部份， 1.2.1、url？参数，
【Spark十六】： Spark SQL第二部分数据源和注册表的几种方式 bit1129 spark
Spark SQL数据源和表的Schema case class apply schema parquet json JSON数据源准备源数据 {"name":"Jack", "age": 12, "addr":{"city":"beijing&
JVM学习之:调优总结 -Xms -Xmx -Xmn -Xss BlueSkator -Xss -Xmn -Xms -Xmx
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx355
jqGrid 各种参数详解(转帖) BreakingBad jqGrid
jqGrid 各种参数详解分类：源代码分享个人随笔请勿参考解决开发问题 2012-05-09 20:29 84282人阅读评论(22) 收藏举报 jquery 服务器 parameters function ajax string
读《研磨设计模式》-代码笔记-代理模式-Proxy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.lang.reflect.InvocationHandler; import java.lang.reflect.Method; import java.lang.reflect.Proxy; /* * 下面
应用升级iOS8中遇到的一些问题 chenhbc ios8 升级iOS8
1、很奇怪的问题，登录界面，有一个判断，如果不存在某个值，则跳转到设置界面，ios8之前的系统都可以正常跳转，iOS8中代码已经执行到下一个界面了，但界面并没有跳转过去，而且这个值如果设置过的话，也是可以正常跳转过去的，这个问题纠结了两天多，之前的判断我是在 -(void)viewWillAppear:(BOOL)animated 中写的，最终的解决办法是把判断写在 -(void
工作流与自组织的关系？ comsci 设计模式工作
目前的工作流系统中的节点及其相互之间的连接是事先根据管理的实际需要而绘制好的，这种固定的模式在实际的运用中会受到很多限制，特别是节点之间的依存关系是固定的，节点的处理不考虑到流程整体的运行情况，细节和整体间的关系是脱节的，那么我们提出一个新的观点，一个流程是否可以通过节点的自组织运动来自动生成呢？这种流程有什么实际意义呢？这里有篇论文，摘要是：“针对网格中的服务
Oracle11.2新特性之INSERT提示IGNORE_ROW_ON_DUPKEY_INDEX daizj oracle
insert提示IGNORE_ROW_ON_DUPKEY_INDEX 转自：http://space.itpub.net/18922393/viewspace-752123 在 insert into tablea ...select * from tableb中，如果存在唯一约束，会导致整个insert操作失败。使用IGNORE_ROW_ON_DUPKEY_INDEX提示，会忽略唯一
二叉树:堆 dieslrae 二叉树
这里说的堆其实是一个完全二叉树,每个节点都不小于自己的子节点,不要跟jvm的堆搞混了.由于是完全二叉树,可以用数组来构建.用数组构建树的规则很简单: 一个节点的父节点下标为: (当前下标 - 1)/2 一个节点的左节点下标为: 当前下标 * 2 + 1 &
C语言学习八结构体 dcj3sjt126com c
为什么需要结构体，看代码 # include <stdio.h> struct Student //定义一个学生类型，里面有age, score, sex, 然后可以定义这个类型的变量 { int age; float score; char sex; } int main(void) { struct Student st = {80, 66.6,
centos安装golang dcj3sjt126com centos
#在国内镜像下载二进制包 wget -c http://www.golangtc.com/static/go/go1.4.1.linux-amd64.tar.gz tar -C /usr/local -xzf go1.4.1.linux-amd64.tar.gz #把golang的bin目录加入全局环境变量 cat >>/etc/profile<
10.性能优化-监控-MySQL慢查询 frank1234 性能优化 MySQL慢查询
1.记录慢查询配置 show variables where variable_name like 'slow%' ; --查看默认日志路径查询结果：--不用的机器可能不同 slow_query_log_file=/var/lib/mysql/centos-slow.log 修改mysqld配置文件：/usr /my.cnf[一般在/etc/my.cnf，本机在/user/my.cn
Java父类取得子类类名 happyqing java this 父类子类类名
在继承关系中，不管父类还是子类，这些类里面的this都代表了最终new出来的那个类的实例对象，所以在父类中你可以用this获取到子类的信息！ package com.urthinker.module.test; import org.junit.Test; abstract class BaseDao<T> { public void
Spring3.2新注解@ControllerAdvice jinnianshilongnian @Controller
@ControllerAdvice，是spring3.2提供的新注解，从名字上可以看出大体意思是控制器增强。让我们先看看@ControllerAdvice的实现： @Target(ElementType.TYPE) @Retention(RetentionPolicy.RUNTIME) @Documented @Component public @interface Co
Java spring mvc多数据源配置 liuxihope spring
转自：http://www.itpub.net/thread-1906608-1-1.html 1、首先配置两个数据库 <bean id="dataSourceA" class="org.apache.commons.dbcp.BasicDataSource" destroy-method="close&quo
第12章 Ajax（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BW / Universe Mappings blueoxygen BO
BW Element OLAP Universe Element Cube Dimension Class Charateristic A class with dimension and detail objects (Detail objects for key and desription) Hi
Java开发熟手该当心的11个错误 tomcat_oracle java 多线程工作单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
推行国产操作系统的优劣 yananay windows linux 国产操作系统
最近刮起了一股风，就是去“国外货”。从应用程序开始，到基础的系统，数据库，现在已经刮到操作系统了。原因就是“棱镜计划”，使我们终于认识到了国外货的危害，开始重视起了信息安全。操作系统是计算机的灵魂。既然是灵魂，为了信息安全，那我们就自然要使用和推行国货。可是，一味地推行，是否就一定正确呢？先说说信息安全。其实从很早以来大家就在讨论信息安全。很多年以前，就据传某世界级的网络设备制造商生产的交

机器学习项目-预测波士顿房价-整体流程

项目 1: 预测波士顿房价¶

第一步. 导入数据

第二步. 分析数据

编程练习 1：基础统计运算

问题 1 - 特征观察

问题 1 - 回答：

编程练习 2: 数据分割与重排

问题 2 - 训练及测试

问题 2 - 回答:

第三步. 模型衡量标准

编程练习3：定义衡量标准

问题 3 - 拟合程度

问题 3 - 回答:

第四步. 分析模型的表现

学习曲线

问题 4 - 学习曲线

问题 4 - 回答:

复杂度曲线

问题 5 - 偏差（bias）与方差（variance）之间的权衡取舍

问题 5 - 回答:

问题 6- 最优模型的猜测

问题 6 - 回答:

第五步. 选择最优参数

问题 7- 网格搜索（Grid Search）

问题 7 - 回答:

问题 8 - 交叉验证

问题 8 - 回答：

编程练习 4：训练最优模型

编程练习 4：训练最优模型 （可选）

问题 9 - 最优模型

问题 9 - 回答：

第六步. 做出预测

问题 10 - 预测销售价格

问题 10 - 回答：

编程练习 5

问题11 - 分析决定系数

问题11 - 回答

模型健壮性

问题 12 - 模型健壮性

问题 12 - 回答：

问题 13 - 实用性探讨

问题 13 - 回答：

可选问题 - 预测北京房价

问题14 - 北京房价预测

问题14 - 回答

你可能感兴趣的:(机器学习项目)

编程练习 4：训练最优模型（可选）