pnd237

从一个小实例了解机器学习全过程（《机器学习实战》笔记）

从一个小实例了解机器学习全过程

准备工作

明确目标
选择性能指标
查看数据结构

创建测试集

编写自定义函数（随机抽样）以完成测试集的创建
使用train_test_split函数（随机抽样）完成测试集的创建
使用StratifiedShuffleSplit函数（分层抽样）完成数据集的创建

通过数据可视化得到信息

将地理数据可视化
相关性
组合不同的属性

数据处理

数据的清理
处理文本和分类属性
自定义一个转换器
特征缩放
转换流水线

选择和训练模型

培训和评估训练集
交叉验证

微调模型——网格搜索
一段完整的代码

我们通过一个机器学习的小实例来对机器学习技术进行一个初步了解。

准备工作

明确目标

该实例的目的在于通过1990年加州房子的各种特征（如经纬度、该地区收入中位数等）来预测该地区房子价格的中位数。数据集已经上传至文章的附件中（包含地区的房价中位数），很明显这是一个监督式学习任务，并且是一个回归任务。

选择性能指标

回归问题的典型性能指标是均方根误差（RMSE），它测量的是预测过程中，预测错误的标准偏差，也是下面我们使用的性能指标。下面是标准差公式：
$RSEM(\bf{X},\it{h})=\sqrt{\frac{1}{m}\sum_{i=1}^{n}(h(\bf{x^{(\it{i})}})-\it{y}^{(i)})}$
其中 $\bf{x^{(\it{i})}}$ 表示特征值向量, $h(\bf{x^{(\it{i})}})$ 表示得到的预测值， $y^{(i)}$ 表示真实值。
另外我们介绍另一种性能指标：平均绝对误差(MAE)，该指标适合具有较多离群数据的情况，见下面的公式：
$MAE(\bf{X},\it{h})=\frac{1}{m}\sum_{i=1}^{n}|h(\bf{x}^{\it(i)})-\it{y}^{(i)}|$
均方根误差和平均绝对误差都可以理解为两个向量之间的距离：预测向量和目标向量。距离或者范数的测度可能有多种：

计算平方和的根（RSEM）对应欧几里得范数，成为 $l_2$ 范数，记为 $_{2}$ 或者 $∣ ∣ \cdot ∣ ∣$ 。
计算绝对值的总和（MAE）对应 $l_1$ 范数，记为 $_1$ ，也成为曼哈顿距离。
包含n个元素的向量 $\bf{v}_{\it{k}}$ 的范数可以定义为 $||\bf{v}||_{\it{k}}=\it(|v_0|^k+|v_1|^k+\cdots+|v_n|^k)^{\frac{1}{k}}$
范数指数越高，则越关注大的价值，忽略小的价值。这就是为什么RMSE比MAE对异常值更加敏感。但是当异常值稀少的时候（如钟形曲线），RSEM的表现更加优异，通常作为首选。

查看数据结构

所有代码运行在jupyter notebook中，我们首先使用pandas中的read_csv函数将数据集读入，之后再使用head方法查看数据的前5行，使用info方法查看数据集的简单描述：

import pandas as pd
housing = pd.read_csv("datasets/housing/housing.csv")
housing.info()
# 
# RangeIndex: 20640 entries, 0 to 20639
# Data columns (total 10 columns):
# longitude             20640 non-null float64
# latitude              20640 non-null float64
# housing_median_age    20640 non-null float64
# total_rooms           20640 non-null float64
# total_bedrooms        20433 non-null float64
# population            20640 non-null float64
# households            20640 non-null float64
# median_income         20640 non-null float64
# median_house_value    20640 non-null float64
# ocean_proximity       20640 non-null object
# dtypes: float64(9), object(1)
# memory usage: 1.6+ MB
housing.head()

从表中可以看出，其一共有10个属性，依次是经度、纬度、房屋年龄中位数、房间总数、卧室总数、该地区的人口、家庭数、收入中位数、房价中位数（目标）、是否近海。另外其他属性都是数字，除了是否近海这一属性是文本属性，因此我们可以使用value_counts方法来查看该属性所包含的所有种类以及数量：

housing["ocean_proximity"].value_counts()
# <1H OCEAN     9136
# INLAND        6551
# NEAR OCEAN    2658
# NEAR BAY      2290
# ISLAND           5
# Name: ocean_proximity, dtype: int64

我们也可以通过调用hist方法使用直方图的形式来查看数据的分布：

import matplotlib.pyplot as plt
housing.hist(bins=50,figsize=(20,15))

从图中可以看出，对于房价中位数（标签），超过50万美元的数据非常多，对于房屋年龄也有相同的情况发生，这是因为这两个数据被设定了一个上限，若样本的数据超过了上限，则将其取为上限值，面对这种情况通常有两种选择：

对于超过上限的地区重新进行数据的收集。
将超过上限的地区的数据删除（包括训练集和数据集）。

另外对于数据还有以下说明：

各类特征都被进行过不同程度的缩放。
数据表现出了重尾：图形在中位数右侧的延伸比左侧要远得多。这种形式的数据是不利于检测的，需要进行一些转化将其变为钟形分布。

创建测试集

如果使用人工来选择测试集和训练集，很可能会无意识的按某种模式选择数据，使得之后训练的时候结果过于乐观而模型在测试集上的性能较差，称之为数据窥探偏误。
一般情况下，测试集占总数据量的20%，下面介绍几种创建测试集的方法。

编写自定义函数（随机抽样）以完成测试集的创建

这意味着我们需要手动编写一个函数来完成测试集的创建，代码如下：

import numpy as np
def split_train_test(data,test_ratio):
    """
    data为传入的数据集
    test_ratio为测试集的比例（0~1）
    将训练集和测试集以DataFrame的形式返回
    """
    np.random.seed(42)
    #保证每次选取的测试集不变
    shuffled_indices = np.random.permutation(len(data))
    #np.random.permutation(len(data))函数用于生成一个长度为传入数据长度的随机数列
    #即从0到len(data)的随机排列
    test_set_size = int(len(data) * test_ratio)
    test_indice = shuffled_indices[:test_set_size]
    train_indece = shuffled_indices[test_set_size:]
    return data.iloc[train_indece],data.iloc[test_indice]

train_set,test_set = split_train_test(housing,0.2)
print("tranin:",len(train_set),",test:",len(test_set))
# tranin: 16512 ,test: 4128

使用train_test_split函数（随机抽样）完成测试集的创建

代码如下：

from sklearn.model_selection import train_test_split
train_set,test_set = train_test_split(housing,test_size=0.2,random_state=42)
#random_state相当于随机数种子
print("tranin:",len(train_set),",test:",len(test_set))
# tranin: 16512 ,test: 4128

使用StratifiedShuffleSplit函数（分层抽样）完成数据集的创建

在这里我们按收入的中位数来进行分层抽样，在进行分层抽样之前，我们需要将收入中位数从较为连续的数据变为更加离散的数据（分层），代码如下：

housing["income_cat"] = np.ceil(housing["median_income"]/1.5)
#新建一列income_cat，由median_income这一列的数据除以1.5然后取整得到（分层）
housing["income_cat"].where(housing["income_cat"] < 5,5.0,inplace=True)
#where(housing["income_cat"] < 5,5.0,inplace=True)意思是若该列的数据小于5则不发生变化
#将超过5的数据幅值为5
housing["income_cat"].value_counts()
#每一层的数据
# 3.0    7236
# 2.0    6581
# 4.0    3639
# 5.0    2362
# 1.0     822
# Name: income_cat, dtype: int64
housing["income_cat"].value_counts()/len(housing)
#每层数据占比
# 3.0    0.350581
# 2.0    0.318847
# 4.0    0.176308
# 5.0    0.114438
# 1.0    0.039826
# Name: income_cat, dtype: float64
housing["income_cat"].value_counts().plot.bar()
#数据可视化

之后我们就可以导入StratifiedShuffleSplit类，之后实例化一个对象用于分层抽样：

from sklearn.model_selection import StratifiedShuffleSplit
split = StratifiedShuffleSplit(n_splits=1,test_size=0.2,random_state=42)
for train_index,test_index in split.split(housing,housing["income_cat"]):
    strat_train_set = housing.loc[train_index]
    strat_test_set = housing.loc[test_index]
print("tranin:",len(train_set),",test:",len(test_set))
# tranin: 16512 ,test: 4128

最后删除income_cat属性，将数据恢复原样:

for set in (strat_train_set,strat_test_set):
    set.drop(["income_cat"],axis = 1,inplace=True)

之后我们使用的就是由该方法得到的测试集和训练集。

通过数据可视化得到信息

在使用可视化手段对训练集探索之前，我们需要创建一份副本，以保证之后的操作不会损坏训练集：

housing = strat_train_set.copy()

将地理数据可视化

由于我们具有经度和纬度，我们可以使用散点图来进行地理数据的可视化：

housing.plot(kind="scatter",x="longitude",y="latitude",alpha=0.4,s=housing["population"]/100,label="population",
c="median_house_value",cmap=plt.get_cmap("jet"),colorbar=True)
# alpha代表透明度，设置透明度以得到密度信息；s代表点的半径，使用该地区的人口来表示，人口越多半径越大；
# 将房价中位数用颜色表示出来，cmap=plt.get_cmap("jet")为预定义的颜色表，房价数值越大，则越偏向红色

从这张图可以看出来，地理位置和人口密度息息相关。

组合不同的属性

我们可以将看似无关的特征进行组合，来获得与相关性更大的特征，比如地区每个家庭的房间数、每个家庭的平均人数以及卧室占房间数的比例：

housing["rooms_per_household"] = housing["total_rooms"]/housing["households"]
housing["bedrooms_per_room"] = housing["total_bedrooms"]/housing["total_rooms"]
housing["population_per_household"] = housing["population"]/housing["households"]

我们之后可以查看房价中位数与这些属性的相关性：

corr_matrix = housing.corr()
corr_matrix["median_house_value"].sort_values(ascending=False)
# median_house_value          1.000000
# median_income               0.687160
# rooms_per_household         0.146285
# total_rooms                 0.135097
# housing_median_age          0.114110
# households                  0.064506
# total_bedrooms              0.047689
# population_per_household   -0.021985
# population                 -0.026920
# longitude                  -0.047432
# latitude                   -0.142724
# bedrooms_per_room          -0.259984
# Name: median_house_value, dtype: float64

可以看出我们获得的新属性和房价中位数具有更高的相关性。

数据处理

在进行数据处理之前，我们首先要从训练集中提取出训练数据和对应的标签：

housing = strat_train_set.drop("median_house_value",axis=1)
housing_labels = strat_train_set["median_house_value"].copy()

数据的清理

之前我们就注意到，数据集中total_bedroom属性有部分值缺失，对于缺失值我们一般由三种手段进行处理：

放弃含有缺失值的样本（删除行）
放弃这个属性（删除列）
将缺失值设置为某个数（如0、平均数或者中位数）

处理文本和分类属性

对于文本属性ocean_proximity，我们需要将其转化为数字。我们可以使用sklearn中的转化器LabelEncoder将其转化为数字数列，并查看映射：

from sklearn.preprocessing import LabelEncoder
encoder = LabelEncoder()
housing_cat = housing["ocean_proximity"]
housing_cat_encoded = encoder.fit_transform(housing_cat)
# array([0, 0, 4, ..., 1, 0, 3])
encoder.classes_
# array(['<1H OCEAN', 'INLAND', 'ISLAND', 'NEAR BAY', 'NEAR OCEAN'],
#       dtype=object)

这种编码方式产生的问题是，机器学习算法会认为两个相近的数字比两个离得较远的数字更为相近，然而事实并非如此。为了避免这种情况，我们可以对其使用**one hot（独热）**编码，我们可以使用sklearn提供的OneHotEncoder编码器来将上面的编码转化为one hot编码，这里需要注意的是，其输入应该是一个二维数组，因此在进行转化之前应该将其进行重塑：

from sklearn.preprocessing import OneHotEncoder
encoder = OneHotEncoder()
#实例化转换器对象
housing_cat_1hot = encoder.fit_transform(housing_cat_encoded.reshape(-1,1))
#首先将数组从(1,?)变为(?,1),输出为(?,5)大小的稀疏矩阵

我们也可以使用LabelBinarizer来一次性完成两个转换：

from sklearn.preprocessing import LabelBinarizer
encoder = LabelBinarizer()
one_hot_code = encoder.fit_transform(housing_cat)
#先适配后转换
print(one_hot_code)
# [[1 0 0 0 0]
#  [1 0 0 0 0]
#  [0 0 0 0 1]
#  ...
#  [0 1 0 0 0]
#  [1 0 0 0 0]
#  [0 0 0 1 0]]

自定义一个转换器

之前我们介绍了多个转换器，比如LabelEncoder、OneHotEncoder，我们也可以自定义一个转换器，来完成我们想要的数据的转换，另外所有自定义的转换器都必须有三个方法：fit()（用于返回自身）、transform()（转换数据）
#fit_transform()（相当于先执行fit后执行transform）。比如我们可以自定义一个CombineAttributesAdder，用于将我们之前地区每个家庭的房间数、每个家庭的平均人数以及卧室占房间数的比例加入到输入的数据集中，并以Numpy数组的形式返回：

housing = strat_train_set.drop("median_house_value",axis = 1)
housing_labels = strat_train_set["median_house_value"].copy()
housing_num = housing.drop("ocean_proximity",axis=1)
#重写一遍
from sklearn.base import BaseEstimator,TransformerMixin

room_ix,bedrooms_ix,population_ix,household_ix = 3, 4, 5, 6
#全局变量，代表了所需要的数据的列索引
class CombineAttributesAdder(BaseEstimator,TransformerMixin):
    """
    继承TransformerMixin可以直接获得fit_transform方法,
    继承BaseEstimator则可以获得set_params()方法和get_params()方法（用于调参）
    但是继承BaseEstimator则必须在构造函数中避免*args和**kargs
    """
    def __init__(self,add_bedrooms_per_room = True):
        #add_bedrooms_per_room用于判断是否添加人均卧室数
        self.add_bedrooms_per_room = add_bedrooms_per_room
    def fit(self,X,y=None):
        return self
        #返回自己，这个转换器不需要适配
    def transform(self,X,y=None):
        rooms_per_household = X[:,room_ix] / X[:,household_ix]
        population_per_household = X[:,population_ix] / X[:,household_ix]
        if self.add_bedrooms_per_room:
            bedrooms_per_room = X[:,bedrooms_ix] / X[:,room_ix]
            return np.c_[X,rooms_per_household,population_per_household,
                        bedrooms_per_room]
            #np.c_[a,b]代表将两个Numpy数组进行横向拼接
        else:
            return np.c_[X,rooms_per_household,population_per_household]

attrs_adder = CombineAttributesAdder(add_bedrooms_per_room=False)
housing_extra_attribs = attrs_adder.transform(housing.values)
print(housing_extra_attribs)
# [[-121.89 37.29 38.0 ... '<1H OCEAN' 4.625368731563422 2.094395280235988]
#  [-121.93 37.05 14.0 ... '<1H OCEAN' 6.008849557522124 2.7079646017699117]
#  [-117.2 32.77 31.0 ... 'NEAR OCEAN' 4.225108225108225 2.0259740259740258]
#  ...
#  [-116.4 34.09 9.0 ... 'INLAND' 6.34640522875817 2.742483660130719]
#  [-118.01 33.82 31.0 ... '<1H OCEAN' 5.50561797752809 3.808988764044944]
#  [-122.45 37.77 52.0 ... 'NEAR BAY' 4.843505477308295 1.9859154929577465]]

特征缩放

如果输入的数值属性具有较大比例的差异，往往会导致性能不佳，因此我们需要对所有属性进行一个缩放，常用的方法有最大最小缩放以及标准化。
最大最小缩放也称为归一化，即将每一个值除以最大值与最小值的差，可以使用sklearn提供的MinMaxScaler缩放器实现。
标准化则是将所有值减去平均值，之后除以方差，该方法的确定是数值的输出不在0~1之间，优点是不容易受到异常值的影响。可以使用sklearn提供的StrandadScaler缩放器实现。
另外缩放器只用在训练集上适配，在测试集上直接使用transform转换即可。

转换流水线

一般情况下数据需要经过多个数据转换步骤，需要用到转换器、缩放器等，我们可以将他们组装成一个流水线，这样就可以实现一步完成数据的转换。sklearn提供了Pipeline来实现这样的转换，比如我们之前提到的对数值属性的处理：

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
#以列表的形式输入，元素以元组的形式给出，左边是自定义的名字，右边是转换器的实例化对象
num_pipeline = Pipeline([
    ("imputer",SimpleImputer(strategy="median")),
    #用于处理缺失值
    ("attribs_adder",CombineAttributesAdder()),
    #用于添加新的特征
    ("std_scaler",StandardScaler())
    #用于标准化
])

housing_num_tr = num_pipeline.fit_transform(housing_num)

流水线的前端都必须是转换器，而末端则可以是转换器或者估算器。当调用流水线的fit()方法时，会依次调用流水线上的fit_transform()方法，将其输出作为下一个转化器的输入，传递到末端若是一个估算器则只会执行fit()方法。当然其也有transform和fit_transform方法，与之前介绍的类似。

现在我们有了一个处理数值属性的流水线，同样的我们需要一个处理文本属性的流水线，最后我们可以使用sklearn提供的Feature将两个流水线组合，它会自动将两个流水线的结果进行合并，其也有transform()，fit()，fit_transform()方法，在此不再介绍。一个完整的处理数值和文本属性的流水线如下：

class DataFrameSelector(BaseEstimator,TransformerMixin):
    """
    自定义的转换器，用于选取指定的特征
    """
    def __init__(self,list):
        self.list = list
    def fit(self,X,y=None):
        return self
    def transform(self,X,y=None):
        return X[self.list].values
        

class MyLabelBinarizer(BaseEstimator,TransformerMixin):
    """
    避免版本的原因导致报错，重写独热编码
    """
    def __init__(self):
        self.encoder = LabelBinarizer()
    def fit(self,x,y=None):
        return self.encoder.fit(x)
    def transform(self,X):
        return self.encoder.transform(X)
    

from sklearn.pipeline import FeatureUnion


num_attribs = list(housing_num)
cat_attribs = ["ocean_proximity"]

num_pipeline = Pipeline([
    ("selector",DataFrameSelector(num_attribs)),
    ("imputer",SimpleImputer(strategy="median")),
    ("attribs_adder",CombineAttributesAdder(True)),
    ("std_scaler",StandardScaler())
])

cat_pipeline = Pipeline([
    ("selector",DataFrameSelector(cat_attribs)),
    ("label_binarizer",MyLabelBinarizer())
])

full_pipeline = FeatureUnion(transformer_list=[
    ("num_pipeline",num_pipeline),
    ("cat_pipeline",cat_pipeline)
])

housing_prepared = full_pipeline.fit_transform(housing)
#以Numpy数组的形式返回

选择和训练模型

现在一切准备就绪，接下来可以选择模型来对其进行训练了！

培训和评估训练集

首先我们选择线性模型，对其进行训练并测试其在训练集上的预测精度：

from sklearn.linear_model import LinearRegression
housing_prepared = pd.DataFrame(housing_prepared)
lin_reg =LinearRegression()
lin_reg.fit(housing_prepared,housing_labels)
some_labels = housing_labels.iloc[:5]
some_data_prepared = housing_prepared.iloc[:5]
print(lin_reg.predict(some_data_prepared))
#展示在训练集上的预测
# [210644.60459286 317768.80697211 210956.43331178  59218.98886849
#  189747.55849879]
print(some_labels.values)
#实际结果
# [286600. 340600. 196900.  46300. 254500.]

我们还可以查看其标准差：

from sklearn.metrics import mean_squared_error
housing_predictions = lin_reg.predict(housing_prepared)
lin_mse = mean_squared_error(housing_labels,housing_predictions)
lin_rmse = np.sqrt(lin_mse)
print(lin_rmse)
# 68628.19819848923

当然我们可以使用决策时作为模型：

from sklearn.tree import DecisionTreeRegressor
tree_reg = DecisionTreeRegressor()
tree_reg.fit(housing_prepared,housing_labels)
housing_predictions = tree_reg.predict(housing_prepared)
tree_mse = mean_squared_error(housing_labels,housing_predictions)
tree_rmse = np.sqrt(tree_mse)
print(tree_rmse)
# 0

可以看出其出现了过拟合，我们无法再使用训练集本身来对其精度进行检测，为了避免这样的情况我们可以使用下面讲的交叉验证。

交叉验证

使用交叉验证我们可以更好地对模型进行一个评估，sklearn中的cross_val_score可以实现K-折（K-fold）交叉验证。它可以将训练集分为若干个子集，每个子集成为一个折叠，每次使用9个折叠进行训练，一个折叠进行评估，然后返回10次评估分数的数组：

from sklearn.model_selection import cross_val_score
tree_reg = DecisionTreeRegressor()
#重新定义一个决策树
scores = cross_val_score(tree_reg,housing_prepared,housing_labels,
                        scoring="neg_mean_squared_error",cv=10)
#分别代表训练的
rmse_scores = np.sqrt(-scores)
#输出的scores是负的MSE，因此开方之前要加上负号
def display_scores(scores):
    print("Scores:",scores)
    print("Mean:",scores.mean())
    print("Std:",scores.std())
display_scores(rmse_scores)
# Scores: [68208.23482526 67301.92441039 70025.00684877 68169.35934599
#  70672.37635862 75701.81736785 72127.09981248 70889.7643626
#  76965.39542913 68993.49537748]
# Mean: 70905.44741385692
# Std: 3056.99828621384

经过验证可以看出这个模型甚至比线性模型更差，这也验证了决策树确实发生了过度拟合。
最后我们试试随机森林的工作效果：

from sklearn.ensemble import RandomForestRegressor
forest_reg = RandomForestRegressor()
scores = cross_val_score(forest_reg,housing_prepared,housing_labels,
                        scoring="neg_mean_squared_error",cv=10)
rmse_scores = np.sqrt(-scores)
display_scores(rmse_scores)
# Scores: [49450.10757967 47533.72637867 49623.96297177 52320.85986332
#  49496.07056891 53397.26384609 48467.34041513 48013.9060821
#  52857.82678771 49995.90266225]
# Mean: 50115.69671556102
# Std: 1950.2557781752575

该模型具有一个更低的平均标准差，因此我们选择此模型来解决我们的问题。

微调模型——网格搜索

现在选择好了模型，最后一步就是调整参数，使得其性能最佳。
使用sklearn的GridSearchCV可以帮助你尝试所有想要的超参数组合，将其使用交叉验证来评估性能。比如：

from sklearn.model_selection import GridSearchCV
param_grid = [
    {"n_estimators":[3,10,30],"max_features":[2,4,6,8]},

    #第一组参数组合，n_estimators共有3种，max_features共有4种，共有12种组合

    {"bootstrap":[False],"n_estimators":[3,10],"max_features":[2,3,4]}

    #第二组参数组合，bootstrap为假，n_estimators2种值，max_features3中值，共有6种组合
    
]
new_forest_reg = RandomForestRegressor()
grid_search = GridSearchCV(new_forest_reg,param_grid,cv=5,
                          scoring="neg_mean_squared_error")
grid_search.fit(housing_prepared,housing_labels)

我们可以查看最佳的组合，也可以得到其中最好的估算器还有评估分数：

print(grid_search.best_params_)
# {'max_features': 6, 'n_estimators': 30}
print(grid_search.best_estimator_)
# RandomForestRegressor(bootstrap=True, ccp_alpha=0.0, criterion='mse',
#                       max_depth=None, max_features=6, max_leaf_nodes=None,
#                       max_samples=None, min_impurity_decrease=0.0,
#                       min_impurity_split=None, min_samples_leaf=1,
#                       min_samples_split=2, min_weight_fraction_leaf=0.0,
#                       n_estimators=30, n_jobs=None, oob_score=False,
#                       random_state=None, verbose=0, warm_start=False)
cvres = grid_search.cv_results_
for mean_score,params in zip(cvres["mean_test_score"],cvres["params"]):
    print(np.sqrt(-mean_score),params)
# 63937.89227277836 {'max_features': 2, 'n_estimators': 3}
# 55116.59507601997 {'max_features': 2, 'n_estimators': 10}
# 52989.34015374805 {'max_features': 2, 'n_estimators': 30}
# 60152.96447010605 {'max_features': 4, 'n_estimators': 3}
# 52777.040456991184 {'max_features': 4, 'n_estimators': 10}
# 50490.81020927522 {'max_features': 4, 'n_estimators': 30}
# 59813.49472570128 {'max_features': 6, 'n_estimators': 3}
# 51773.74480116615 {'max_features': 6, 'n_estimators': 10}
# 50079.06184466367 {'max_features': 6, 'n_estimators': 30}
# 59276.94681942987 {'max_features': 8, 'n_estimators': 3}
# 51465.06643740047 {'max_features': 8, 'n_estimators': 10}
# 49853.330162163606 {'max_features': 8, 'n_estimators': 30}
# 63345.65014079787 {'bootstrap': False, 'max_features': 2, 'n_estimators': 3}
# 54048.395802778825 {'bootstrap': False, 'max_features': 2, 'n_estimators': 10}
# 59988.171618591914 {'bootstrap': False, 'max_features': 3, 'n_estimators': 3}
# 52538.79645679762 {'bootstrap': False, 'max_features': 3, 'n_estimators': 10}
# 58597.08236751539 {'bootstrap': False, 'max_features': 4, 'n_estimators': 3}
# 51516.91358105093 {'bootstrap': False, 'max_features': 4, 'n_estimators': 10}

可以看出max_features为6，n_estimators为30的时候具有一个最好的性能。最后我们查看各个特征的重要程度：

feature_importances = grid_search.best_estimator_.feature_importances_
extra_attribs = ["rooms_per_hhold","pop_per_hhold","bedrooms_per_room"]
cat_ont_hot_attribs = list(encoder.classes_)
attributes = num_attribs + extra_attribs + cat_ont_hot_attribs
sorted(zip(feature_importances,attributes),reverse=True)
# [(0.30684961643167274, 'median_income'),
#  (0.15842808826772728, 'INLAND'),
#  (0.10806079656618511, 'pop_per_hhold'),
#  (0.0857846818443435, 'bedrooms_per_room'),
#  (0.07984197666267197, 'longitude'),
#  (0.0682767104147938, 'latitude'),
#  (0.06235922339438398, 'rooms_per_hhold'),
#  (0.042694898354819724, 'housing_median_age'),
#  (0.018039618577725656, 'total_rooms'),
#  (0.017381655368930767, 'population'),
#  (0.016858884221298987, 'total_bedrooms'),
#  (0.0160694274402511, 'households'),
#  (0.009193680857258888, '<1H OCEAN'),
#  (0.005092120983978223, 'NEAR OCEAN'),
#  (0.0050270640313138226, 'NEAR BAY'),
#  (4.1556582644446e-05, 'ISLAND')]

最后我们将其应用到验证集上，查看其预测的标准差：

final_model = grid_search.best_estimator_

X_test = strat_test_set.drop("median_house_value",axis=1)
Y_test = strat_test_set["median_house_value"].copy()

X_test_prepared = full_pipeline.transform(X_test)
#注意此处是transform()而不是fit_transform()
final_predictions = final_model.predict(X_test_prepared)

final_mse = mean_squared_error(Y_test,final_predictions)
final_rmse = np.sqrt(final_mse)
print(final_rmse)
# 47832.516665361305

一段完整的代码

根据以上的探究，我们可以写出该机器学习小实例的完整代码，下载链接。

你可能感兴趣的:(机器学习)

「日拱一码」035 机器学习——调参过程可视化胖达不服输「日拱一码」机器学习人工智能调参过程可视化神经网络 python 模型可解释性
目录超参数搜索的3D曲面可视化交互式3D可视化神经网络学习率的3D可视化SVM超参数的3D决策边界可视化超参数优化的3D动画超参数搜索的3D曲面可视化##超参数搜索的3D曲面可视化importnumpyasnpimportmatplotlib.pyplotaspltfrommpl_toolkits.mplot3dimportAxes3Dfromsklearn.datasetsimportmake_
数据质量是机器学习项目的核心痛点，AI技术能提供智能化解决方案。 zzywxc787 python pandas numpy 人工智能自动化运维 AI编程
一、数据质量诊断系统（Python实现）importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.clusterimportKMeansfromsklearn.ensembleimportIsolationForestfromtensorflow.keras.modelsimportSequentialfromte
7.机器学习-十大算法之一拉索回归（Lasso）算法原理讲解以山河作礼。 #机器学习算法机器学习算法回归
7.机器学习-十大算法之一拉索回归（Lasso）算法原理讲解一·摘要二·个人简介三·前言四·原理讲解五·算法流程六·代码实现6.1坐标下降法6.2最小角回归法七·第三方库实现7.1scikit-learn实现（坐标下降法）：7.2scikit-learn实现（最小角回归法）：一·摘要拉索回归（LassoRegression）是一种线性回归的正则化形式，它通过引入L1范数惩罚项来实现模型的稀疏性，从
机器学习算法之回归算法福葫芦机器学习回归算法
一、回归算法思维导图二、算法概念、原理、应用场景和实例代码1、线性回归1.1、概念‌‌线性回归算法是一种统计分析方法，用于确定两种或两种以上变量之间的定量关系。‌线性回归算法通过建立线性方程来预测因变量（y）和一个或多个自变量（x）之间的关系。其基本形式为y=wx+e，其中w是权重，x是自变量，e是误差项。1.2、算法原理线性回归算法的核心在于找到最佳的拟合直线，使得预测值与实际值之间的误差最小。
7篇1章7节：机器学习算法解读，与数值预测回归模型构建 MD分析用R探索医药数据科学机器学习算法回归 r语言数据挖掘
机器学习是当今数据分析和人工智能的核心工具之一，其算法广泛应用于分类、回归、排序和推荐等领域。本篇将详细讲解机器学习的四大经典算法类型，并以回归问题为例深入探讨数值预测的关键步骤，包括数据准备、线性回归模型构建、模型预测及误差评估，帮助读者更系统地理解和掌握机器学习的基础知识及实际应用。一、机器学习的算法在数据科学和人工智能的浪潮中，机器学习算法成为了解决各种数据问题的关键工具。机器学习主要处理四
支持向量机SVM 李昊哲小课 sklearn 人工智能机器学习支持向量机算法机器学习 sklearn 人工智能数据挖掘
支持向量机SVM一、支持向量机算法支持向量机（SupportVectorMachine，SVM）是一种用于分类和回归分析的机器学习算法。分类场景举例（更容易理解）假设现在有一个二维平面上散落着一些点，这些点分为两类，一类是红色的圆形点，另一类是蓝色的方形点。我们的任务就是找到一条直线，能够把这两类点尽可能准确地分开。支持向量机算法做的事情就和这个类似。算法核心思想它不是随便找一条能分开两类数据的直
高斯混合模型（GMM）中的协方差矩阵类型与聚类形状关系详解码字的字节机器学习机器学习人工智能高斯混合模型 GMM
高斯混合模型（GMM）简介高斯混合模型（GaussianMixtureModel,GMM）是概率统计与机器学习交叉领域的重要模型，其核心思想是通过多个高斯分布的线性组合来描述复杂数据分布。与单一高斯分布不同，GMM能够捕捉数据中的多模态特性，这使得它在处理真实世界非均匀分布数据时展现出独特优势。从数学形式上看，一个包含K个分量的GMM可表示为：其中(\pi_k)是第k个高斯分量的混合系数（满足(\
机器学习初学者理论初解 Mikhail_G 机器学习人工智能
大家好!为什么手机相册能自动识别人脸？为什么购物网站总能推荐你喜欢的商品？这些“智能”背后，都藏着一位隐形高手——机器学习（MachineLearning）。一、什么是机器学习？简单说，机器学习是教计算机从数据中自己找规律的技术。就像教孩子认猫：不是直接告诉他“猫有尖耳朵和胡须”，而是给他看100张猫狗照片，让他自己总结出猫的特征。传统程序vs机器学习传统程序：输入规则+数据→输出结果（例：按“温
Embedding与向量数据库玖月初玖大模型应用开发基础人工智能 embedding 数据库
1.Embedding是什么EmbeddingModel是一种机器学习模型，它的核心任务是将离散的、高维的符号（如单词、句子、图片、用户、商品等）转换成连续的、低维的向量（称为“嵌入”或“向量表示”），并且这个向量能有效地捕捉原始符号的语义、关系或特征。1.1通俗理解EmbeddingModel是让计算机“理解”世界的核心工具，把“文字、图片、音频”等信息变成一串有意义的数字我们称之为“向量”。类
2023年第10期(NeuroImage)：DomainATM：多中心医学图像数据标准化工具箱影浮科技ImageFlow
基本信息1.标题：DomainATM:Domainadaptationtoolboxformedicaldataanalysis.2.期刊：NeuroImage3.IF/JCR/分区：7.4/Q1/中科院一区4.DOI：10.1016/j.neuroimage.2023.119863目录1、导读2、背景动机3、研究目的4、工具箱介绍5、测试试验6、局限不足1导读域适应（DA）是基于机器学习的现代医
在NLP深层语义分析中，深度学习和机器学习的区别与联系
在自然语言处理（NLP）的深层语义分析任务中，深度学习与机器学习的区别和联系主要体现在以下方面：一、核心区别特征提取方式机器学习：依赖人工设计特征（如词频、句法规则、TF-IDF等），需要领域专家对文本进行结构化处理。例如，传统情感分析需人工定义“情感词库”或通过词性标注提取关键成分。深度学习：通过神经网络自动学习多层次特征。例如，BERT等模型可从原始文本中捕获词向量、句法关系甚至篇章级语义，无
迁移学习：知识复用的智能迁移引擎 | 从理论到实践的跨域赋能范式大千AI助手人工智能 Python #OTHER 迁移学习人工智能机器学习算法神经网络大模型迁移
让AI像人类一样“举一反三”的通用学习框架本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！一、核心定义与基本概念迁移学习（TransferLearning）是一种机器学习范式，其核心思想是：将源领域（SourceDomain）学到的知识迁移到目标领域（TargetDomain），以提升目标任务的性能
AI原生应用中的用户画像构建：从理论到实践全解析
AI原生应用中的用户画像构建：从理论到实践全解析关键词：用户画像、AI原生应用、特征工程、机器学习、个性化推荐、数据隐私、模型优化摘要：本文全面解析AI原生应用中用户画像构建的全过程，从基础概念到核心技术，再到实际应用和未来趋势。我们将用通俗易懂的方式讲解用户画像如何像"数字身份证"一样工作，深入探讨特征提取、模型构建等关键技术，并通过实际案例展示用户画像在推荐系统、精准营销等场景中的应用。文章还
Python爬虫【四十五章】爬虫攻防战：异步并发+AI反爬识别的技术解密程序员_CLUB Python入门到进阶 python 爬虫人工智能
目录引言：当爬虫工程师遇上AI反爬官一、异步并发基础设施层1.1混合调度框架设计1.2智能连接池管理二、机器学习反爬识别层2.1特征工程体系2.2轻量级在线推理三、智能决策系统3.1动态策略引擎3.2实时对抗案例四、性能优化实战4.1全链路压测数据4.2典型故障处理案例五、总结：构建智能化的爬虫生态系统Python爬虫相关文章（推荐）引言：当爬虫工程师遇上AI反爬官在大数据采集领域，我们正经历着技
万字长文，解读大模型技术原理（非常详细）零基础入门到精通，收藏这一篇就够了
大模型是指具有大规模参数和复杂计算结构的机器学习模型。本文从大模型的发展历程出发，对大模型领域的各个技术细节进行详细解读，供大家在了解大模型基本知识的过程中起到一定参考作用。一、大模型的定义大语言模型作为一个被验证可行的方向，其“大”体现在训练数据集广，模型参数和层数大，计算量大，其价值体现在通用性上，并且有更好的泛化能力。这些模型通常由深度神经网络构建而成，拥有数十亿甚至数千亿个参数。大模型的设
TensorFlow为AI人工智能航空航天领域带来变革 AI原生应用开发人工智能 tensorflow python ai
TensorFlow为AI人工智能航空航天领域带来变革关键词：TensorFlow、人工智能、航空航天、机器学习、深度学习、神经网络、自主系统摘要：本文探讨了TensorFlow这一强大的机器学习框架如何推动航空航天领域的创新。我们将从基础概念入手，逐步深入分析TensorFlow在航天器导航、卫星图像处理、飞行器自主决策等关键应用场景中的实现原理。通过实际代码示例和架构图解，展示TensorFl
多语言文本分类在AI应用中的实践 AI原生应用开发人工智能分类数据挖掘 ai
多语言文本分类在AI应用中的实践关键词：多语言文本分类、自然语言处理、机器学习、深度学习、BERT、迁移学习、跨语言模型摘要：本文深入探讨多语言文本分类在AI领域的应用实践。我们将从基础概念出发，逐步讲解其核心原理、技术架构和实现方法，并通过实际案例展示如何构建一个高效的多语言文本分类系统。文章将涵盖从传统机器学习方法到最先进的深度学习技术，特别关注跨语言迁移学习在实际业务场景中的应用。背景介绍目
从零开始构建AI原生应用的认知架构 AI原生应用开发 AI-native 架构 ai
从零开始构建AI原生应用的认知架构关键词：AI原生应用、认知架构、机器学习、知识图谱、神经网络、智能决策、系统设计摘要：本文深入探讨如何从零开始构建AI原生应用的认知架构。我们将从基本概念出发，逐步解析认知架构的核心组件，包括知识表示、推理机制和学习能力等。通过生动的比喻和实际代码示例，帮助读者理解如何设计一个能够模拟人类认知过程的AI系统。文章还将介绍当前最先进的认知架构模型，并展望未来发展趋势
Deep Multi-scale Convolutional Neural Network for Dynamic Scene Deblurring 论文阅读钟屿论文阅读计算机视觉人工智能
用于动态场景去模糊的深度多尺度卷积神经网络摘要针对一般动态场景的非均匀盲去模糊是一个具有挑战性的计算机视觉问题，因为模糊不仅来源于多个物体运动，还来源于相机抖动和场景深度变化。为了去除这些复杂的运动模糊，传统的基于能量优化的方法依赖于简单的假设，例如模糊核是部分均匀或局部线性的。此外，最近的基于机器学习的方法也依赖于在这些假设下生成的合成模糊数据集。这使得传统的去模糊方法在模糊核难以近似或参数化的
基于Paillier同态加密算法的金融数据安全共享机制研究【附数据】
金融数据分析与建模专家金融科研助手|论文指导|模型构建✨专业领域：金融数据处理与分析量化交易策略研究金融风险建模投资组合优化金融预测模型开发深度学习在金融中的应用擅长工具：Python/R/MATLAB量化分析机器学习模型构建金融时间序列分析蒙特卡洛模拟风险度量模型金融论文指导内容：金融数据挖掘与处理量化策略开发与回测投资组合构建与优化金融风险评估模型期刊论文✅具体问题可以私信或查看文章底部二维码
吴恩达机器学习cs229-学习笔记-更新中是娜个二叉树！机器学习学习笔记
吴恩达机器学习cs22901基础概念语言：Matlab/python监督学习定义：获取一组数据集拟合数据从X到Y的映射回归问题：预测的Y是连续的，Y是实数分类问题：分类指的是Y取离散值，输出是离散的两组，正示例和负示例，把所有样本推到这条直线上，用0，1，标识逻辑回归算法，拟合直线区分正，负示例处理相对大量特征的回归算法或者分类算法支持向量机算法：它使用的不是1,2,3,10个输入特征，而是使用无
「日拱一码」033 机器学习——严格划分胖达不服输「日拱一码」机器学习人工智能严格划分组划分
目录简单随机划分（train_test_split）分组划分（GroupSplitting）简单分组划分(GroupSplitting)分层分组划分(StratifiedGroupSplitting)交叉验证法（Cross-Validation）分组K折交叉验证（GroupKFold）留一组法（LeaveOneGroupOut）简单随机划分（train_test_split）简单随机分组通过随机分
从零开始：搭建你的人工智能开发环境人工智能教程人工智能 YOLO 机器学习 transformer 线性回归动态规划排序算法
前言在人工智能和机器学习的旅程中，一个稳定且高效的开发环境是成功的关键第一步。无论是初学者还是经验丰富的开发者，一个配置良好的开发环境都能大大提高工作效率，减少遇到的问题。本文将从零开始，逐步指导你如何搭建一个完整的人工智能开发环境，包括操作系统选择、Python安装、常用库的配置以及开发工具的选择。一、选择合适的操作系统（一）主流操作系统介绍在搭建人工智能开发环境时，首先需要选择一个合适的操作系
基于机器学习的加密货币资金费率预测与套利策略云梦量化科技 python
一、资金费率机制解析永续合约的资金费率是加密货币衍生品市场独有的机制，旨在使永续合约价格锚定现货价格。资金费率每8小时结算一次，结算时多空双方互相支付资金费用：费率为正时，多头支付给空头；费率为负时，空头支付给多头。此机制既促使永续合约价格回归现货价格，也反映市场多空情绪。某安永续合约资金费率计算公式通常为：资金费率 F = 平均溢价指数 P + Clamp(综合利率 I − 溢价指数 P, +0
机器人-组成结构-感知 - 决策 - 执行具身智能-查布嘎具身智能机器人人工智能
目录一、感知系统内部传感器：外部传感器：二、智能决策系统机器学习家族1.1机器学习2.1深度学习2.2深度学习模型(主要属于监督/强化学习范畴，但结构通用)：3.1监督学习3.2监督学习模型4.1半监督学习4.2无/半监督学习模型：5.1无监督学习5.2生成模型(可属于监督/无监督)：6.1强化学习7.1其他学习三、控制系统（运控）①对应小脑和脊柱一、感知系统①对应人体的五官。由具有不同功能的各种
机器学习入门（五）：线性回归—从模型函数到目标函数米饭超人
从数据反推公式假设我们获得了这样一张表格，上面列举了美国纽约若干程序员职位的年薪：enterimagedescriptionhere大家可以看到，表格中列举了职位、经验、技能、国家和城市几项特征。除了经验一项，其他都是一样的。不同的经验（工作年限），薪水不同。而且看起来，工作年头越多，工资也就越高。那么我们把Experience与Salary抽取出来，用x和y来分别指代它们。enterimaged
Python深度学习实践：LSTM与GRU在序列数据预测中的应用 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python深度学习实践：LSTM与GRU在序列数据预测中的应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来序列数据预测是机器学习领域的一个重要研究方向，涉及时间序列分析、自然语言处理、语音识别等多个领域。序列数据具有时间依赖性，即序列中每个元素都受到前面元素的影响。传统的机器学习算法难以捕捉这种时间依赖性，而深度学习
一个例子带你入门机器学习
目录1.为建模选择数据2.选择预测目标3.选择“特征”4.构建您的模型（这篇文章将使用经典墨尔本房价数据集作为例子，引导机器学习的流程，数据集为melb_data.csv，请在csdn的下载区自行下载，运行代码时需要将数据集下载在同个目录下）1.为建模选择数据数据集有太多的变量，多到难以理解，甚至无法很好地打印出来。如何将这海量的数据削减为能够理解的内容？我们将首先凭借直觉选择几个变量。后续将介绍
初探机器学习与力学研究的交叉领域 faderbic 机器学习人工智能深度学习
目录关于如何踏入机器学习领域机器学习与力学研究的交叉方向1.使用机器学习加速有限元求解2.结合有限元计算和机器学习预测复杂材料结构与力学性能的关系3.结构健康检测4.疲劳寿命预测总结关于如何踏入机器学习领域因为我本科的专业是力学，所以当我开始关注机器学习领域时，首先考虑的是机器学习和力学的交叉领域。对于很多对人工智能感兴趣的朋友，想加入人工智能的潮流却不知道从何学起，我提供一个思路，我认为将自己学
[NIPST AI]对抗性机器学习攻击和缓解的分类和术语 Anooyman 人工智能网络安全人工智能大语言模型网络安全安全
原文link：https://nvlpubs.nist.gov/nistpubs/ai/NIST.AI.100-2e2025.pdfIntroduction人工智能（AI）系统在过去几年中持续全球扩展。这些系统正在被众多国家开发并广泛部署于各自的经济体系中，人们在生活的许多领域都获得了更多使用AI系统的机会。本报告区分了两大类AI系统：预测型AI（PredictiveAI，PredAI）和生成型A
多线程编程之理财周凡杨 java 多线程生产者消费者理财
现实生活中，我们一边工作，一边消费，正常情况下会把多余的钱存起来，比如存到余额宝，还可以多挣点钱，现在就有这个情况：我每月可以发工资20000万元（暂定每月的1号），每月消费5000（租房+生活费）元（暂定每月的1号），其中租金是大头占90%，交房租的方式可以选择（一月一交，两月一交、三月一交），理财：1万元存余额宝一天可以赚1元钱，
[Zookeeper学习笔记之三]Zookeeper会话超时机制 bit1129 zookeeper
首先，会话超时是由Zookeeper服务端通知客户端会话已经超时，客户端不能自行决定会话已经超时，不过客户端可以通过调用Zookeeper.close()主动的发起会话结束请求，如下的代码输出内容 Created /zoo-739160015 CONNECTEDCONNECTED .............CONNECTEDCONNECTED CONNECTEDCLOSEDCLOSED
SecureCRT快捷键 daizj secureCRT 快捷键
ctrl + a : 移动光标到行首ctrl + e ：移动光标到行尾crtl + b: 光标前移1个字符crtl + f: 光标后移1个字符crtl + h : 删除光标之前的一个字符ctrl + d ：删除光标之后的一个字符crtl + k ：删除光标到行尾所有字符crtl + u : 删除光标至行首所有字符crtl + w: 删除光标至行首
Java 子类与父类这间的转换周凡杨 java 父类与子类的转换
最近同事调的一个服务报错，查看后是日期之间转换出的问题。代码里是把 java.sql.Date 类型的对象强制转换为 java.sql.Timestamp 类型的对象。报java.lang.ClassCastException。代码：
可视化swing界面编辑朱辉辉33 eclipse swing
今天发现了一个WindowBuilder插件，功能好强大，啊哈哈，从此告别手动编辑swing界面代码，直接像VB那样编辑界面，代码会自动生成。首先在Eclipse中点击help，选择Install New Software,然后在Work with中输入WindowBui
web报表工具FineReport常用函数的用法总结（文本函数）老A不折腾 finereport web报表工具报表软件 java报表
文本函数 CHAR CHAR(number):根据指定数字返回对应的字符。CHAR函数可将计算机其他类型的数字代码转换为字符。 Number:用于指定字符的数字，介于1Number:用于指定字符的数字，介于165535之间（包括1和65535）。示例: CHAR(88)等于“X”。 CHAR(45)等于“-”。 CODE CODE(text):计算文本串中第一个字
mysql安装出错林鹤霄 mysql安装
[root@localhost ~]# rpm -ivh MySQL-server-5.5.24-1.linux2.6.x86_64.rpm Preparing... #####################
linux下编译libuv aigo libuv
下载最新版本的libuv源码，解压后执行： ./autogen.sh 这时会提醒找不到automake命令，通过一下命令执行安装（redhat系用yum，Debian系用apt-get）： # yum -y install automake # yum -y install libtool 如果提示错误：make: *** No targe
中国行政区数据及三级联动菜单 alxw4616
近期做项目需要三级联动菜单,上网查了半天竟然没有发现一个能直接用的! 呵呵,都要自己填数据....我了个去这东西麻烦就麻烦的数据上. 哎,自己没办法动手写吧. 现将这些数据共享出了,以方便大家.嗯,代码也可以直接使用文件说明 lib\area.sql -- 县及县以上行政区划分代码（截止2013年8月31日)来源：国家统计局发布时间：2014-01-17 15:0
哈夫曼加密文件百合不是茶哈夫曼压缩哈夫曼加密二叉树
在上一篇介绍过哈夫曼编码的基础知识,下面就直接介绍使用哈夫曼编码怎么来做文件加密或者压缩与解压的软件,对于新手来是有点难度的,主要还是要理清楚步骤; 加密步骤: 1,统计文件中字节出现的次数,作为权值 2,创建节点和哈夫曼树 3,得到每个子节点01串 4,使用哈夫曼编码表示每个字节
JDK1.5 Cyclicbarrier实例 bijian1013 java thread java多线程 Cyclicbarrier
CyclicBarrier类一个同步辅助类，它允许一组线程互相等待，直到到达某个公共屏障点 (common barrier point)。在涉及一组固定大小的线程的程序中，这些线程必须不时地互相等待，此时 CyclicBarrier 很有用。因为该 barrier 在释放等待线程后可以重用，所以称它为循环的 barrier。 CyclicBarrier支持一个可选的 Runnable 命令，
九项重要的职业规划 bijian1013 工作学习
一. 学习的步伐不停止古人说，活到老，学到老。终身学习应该是您的座右铭。世界在不断变化，每个人都在寻找各自的事业途径。您只有保证了足够的技能储
【Java范型四】范型方法 bit1129 java
范型参数不仅仅可以用于类型的声明上，例如 package com.tom.lang.generics; import java.util.List; public class Generics<T> { private T value; public Generics(T value) { this.value =
【Hadoop十三】HDFS Java API基本操作 bit1129 hadoop
package com.examples.hadoop; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoo
ua实现split字符串分隔 ronin47 lua split
LUA并不象其它许多"大而全"的语言那样，包括很多功能，比如网络通讯、图形界面等。但是LUA可以很容易地被扩展：由宿主语言(通常是C或 C++)提供这些功能，LUA可以使用它们，就像是本来就内置的功能一样。LUA只包括一个精简的核心和最基本的库。这使得LUA体积小、启动速度快，从而适合嵌入在别的程序里。因此在lua中并没有其他语言那样多的系统函数。习惯了其他语言的字符串分割函
java-从先序遍历和中序遍历重建二叉树 bylijinnan java
public class BuildTreePreOrderInOrder { /** * Build Binary Tree from PreOrder and InOrder * _______7______ / \ __10__ ___2 / \ / 4
openfire开发指南《连接和登陆》开窍的石头 openfire 开发指南 smack
第一步官网下载smack.jar包下载地址：http://www.igniterealtime.org/downloads/index.jsp#smack 第二步把smack里边的jar导入你新建的java项目中开始编写smack连接openfire代码 p
[移动通讯]手机后盖应该按需要能够随时开启 comsci 移动
看到新的手机，很多由金属材质做的外壳，内存和闪存容量越来越大，CPU速度越来越快，对于这些改进，我们非常高兴，也非常欢迎但是，对于手机的新设计，有几点我们也要注意第一：手机的后盖应该能够被用户自行取下来，手机的电池的可更换性应该是必须保留的设计,
20款国外知名的php开源cms系统 cuiyadll cms
内容管理系统，简称CMS，是一种简易的发布和管理新闻的程序。用户可以在后端管理系统中发布，编辑和删除文章，即使您不需要懂得HTML和其他脚本语言，这就是CMS的优点。在这里我决定介绍20款目前国外市面上最流行的开源的PHP内容管理系统，以便没有PHP知识的读者也可以通过国外内容管理系统建立自己的网站。 1. Wordpress WordPress的是一个功能强大且易于使用的内容管
Java生成全局唯一标识符 darrenzhu java uuid unique identifier id
How to generate a globally unique identifier in Java http://stackoverflow.com/questions/21536572/generate-unique-id-in-java-to-label-groups-of-related-entries-in-a-log http://stackoverflow
php安装模块检测是否已安装过, 使用的SQL语句 dcj3sjt126com sql
SHOW [FULL] TABLES [FROM db_name] [LIKE 'pattern'] SHOW TABLES列举了给定数据库中的非TEMPORARY表。您也可以使用mysqlshow db_name命令得到此清单。本命令也列举数据库中的其它视图。支持FULL修改符，这样SHOW FULL TABLES就可以显示第二个输出列。对于一个表，第二列的值为BASE T
5天学会一种 web 开发框架 dcj3sjt126com Web 框架 framework
web framework层出不穷，特别是ruby/python,各有10+个,php/java也是一大堆根据我自己的经验写了一个to do list,按照这个清单，一条一条的学习，事半功倍，很快就能掌握一共25条，即便很磨蹭，2小时也能搞定一条，25*2=50。只需要50小时就能掌握任意一种web框架各类web框架大同小异:现代web开发框架的6大元素，把握主线，就不会迷路建议把本文
Gson使用三(Map集合的处理,一对多处理) eksliang json gson Gson map Gson 集合处理
转载请出自出处：http://eksliang.iteye.com/blog/2175532 一、概述 Map保存的是键值对的形式，Json的格式也是键值对的，所以正常情况下，map跟json之间的转换应当是理所当然的事情。二、Map参考实例 package com.ickes.json; import java.lang.refl
cordova实现“再点击一次退出”效果 gundumw100 android
基本的写法如下： document.addEventListener("deviceready", onDeviceReady, false); function onDeviceReady() { //navigator.splashscreen.hide(); document.addEventListener("b
openldap configuration leaning note iwindyforest configuration
hostname // to display the computer name hostname <changed name> // to change go to: /etc/sysconfig/network, add/modify HOSTNAME=NEWNAME to change permenately dont forget to change /etc/hosts
Nullability and Objective-C 啸笑天 Objective-C
https://developer.apple.com/swift/blog/?id=25 http://www.cocoachina.com/ios/20150601/11989.html http://blog.csdn.net/zhangao0086/article/details/44409913 http://blog.sunnyxx
jsp中实现参数隐藏的两种方法 macroli JavaScript jsp
在一个JSP页面有一个链接，//确定是一个链接?点击弹出一个页面，需要传给这个页面一些参数。//正常的方法是设置弹出页面的src="***.do?p1=aaa&p2=bbb&p3=ccc"//确定目标URL是Action来处理?但是这样会在页面上看到传过来的参数，可能会不安全。要求实现src="***.do"，参数通过其他方法传！//////
Bootstrap A标签关闭modal并打开新的链接解决方案 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
Bootstrap里面的js modal控件使用起来很方便，关闭也很简单。只需添加标签 data-dismiss="modal" 即可。可是偏偏有时候需要a标签既要关闭modal，有要打开新的链接，尝试多种方法未果。只好使用原始js来控制。 <a href="#/group-buy" class="btn bt
二维数组在Java和C中的区别流淚的芥末 java c 二维数组数组
Java代码： public class test03 { public static void main(String[] args) { int[][] a = {{1},{2,3},{4,5,6}}; System.out.println(a[0][1]); } } 运行结果： Exception in thread "mai
systemctl命令用法 wmlJava linux systemctl
对比表，以 apache / httpd 为例任务旧指令新指令使某服务自动启动 chkconfig --level 3 httpd on systemctl enable httpd.service 使某服务不自动启动 chkconfig --level 3 httpd off systemctl disable httpd.service 检查服务状态 service h