憶

【精品系列】【机器学习实战】【完整版】区域房价中位数预测（挑战全网最全，没有之一，另附完整代码）

参照《机器学习实战》第二版

1、下载数据

import os
import tarfile
import urllib.request

DOWNLOAD_ROOT = "https://raw.githubusercontent.com/ageron/handson-ml2/master/"
HOUSING_PATH = os.path.join("datasets", "housing")
HOUSING_URL = DOWNLOAD_ROOT + "datasets/housing/housing.tgz"

def fetch_housing_data(housing_url=HOUSING_URL, housing_path=HOUSING_PATH):
    if not os.path.isdir(housing_path):
        os.makedirs(housing_path)
    tgz_path = os.path.join(housing_path, "housing.tgz")
    urllib.request.urlretrieve(housing_url, tgz_path)
    housing_tgz = tarfile.open(tgz_path)
    housing_tgz.extractall(path=housing_path)
    housing_tgz.close()

fetch_housing_data()

2、读取下载的数据

import pandas as pd

def load_housing_data(housing_path=HOUSING_PATH):
    csv_path = os.path.join(housing_path, "housing.csv")
    return pd.read_csv(csv_path)

2.1、数据显示

housing = load_housing_data()
housing.head()  # 默认显示前五列

	longitude	latitude	housing_median_age	total_rooms	total_bedrooms	population	households	median_income	median_house_value	ocean_proximity
0	-122.23	37.88	41.0	880.0	129.0	322.0	126.0	8.3252	452600.0	NEAR BAY
1	-122.22	37.86	21.0	7099.0	1106.0	2401.0	1138.0	8.3014	358500.0	NEAR BAY
2	-122.24	37.85	52.0	1467.0	190.0	496.0	177.0	7.2574	352100.0	NEAR BAY
3	-122.25	37.85	52.0	1274.0	235.0	558.0	219.0	5.6431	341300.0	NEAR BAY
4	-122.25	37.85	52.0	1627.0	280.0	565.0	259.0	3.8462	342200.0	NEAR BAY

2.2、查看每列属性

housing.info()


RangeIndex: 20640 entries, 0 to 20639
Data columns (total 10 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   longitude           20640 non-null  float64
 1   latitude            20640 non-null  float64
 2   housing_median_age  20640 non-null  float64
 3   total_rooms         20640 non-null  float64
 4   total_bedrooms      20433 non-null  float64
 5   population          20640 non-null  float64
 6   households          20640 non-null  float64
 7   median_income       20640 non-null  float64
 8   median_house_value  20640 non-null  float64
 9   ocean_proximity     20640 non-null  object 
dtypes: float64(9), object(1)
memory usage: 1.6+ MB

2.3、查看某列数值统计

housing["ocean_proximity"].value_counts()

<1H OCEAN     9136
INLAND        6551
NEAR OCEAN    2658
NEAR BAY      2290
ISLAND           5
Name: ocean_proximity, dtype: int64

2.4、查看数值列属性摘要

housing.describe()

	longitude	latitude	housing_median_age	total_rooms	total_bedrooms	population	households	median_income	median_house_value
count	20640.000000	20640.000000	20640.000000	20640.000000	20433.000000	20640.000000	20640.000000	20640.000000	20640.000000
mean	-119.569704	35.631861	28.639486	2635.763081	537.870553	1425.476744	499.539680	3.870671	206855.816909
std	2.003532	2.135952	12.585558	2181.615252	421.385070	1132.462122	382.329753	1.899822	115395.615874
min	-124.350000	32.540000	1.000000	2.000000	1.000000	3.000000	1.000000	0.499900	14999.000000
25%	-121.800000	33.930000	18.000000	1447.750000	296.000000	787.000000	280.000000	2.563400	119600.000000
50%	-118.490000	34.260000	29.000000	2127.000000	435.000000	1166.000000	409.000000	3.534800	179700.000000
75%	-118.010000	37.710000	37.000000	3148.000000	647.000000	1725.000000	605.000000	4.743250	264725.000000
max	-114.310000	41.950000	52.000000	39320.000000	6445.000000	35682.000000	6082.000000	15.000100	500001.000000

上面看到total_bedrooms这一列的count的数值为20433而不是20640，是因为不统计为空的单元格，所以后面需要处理为空的数据。
std行：显示的是标准差，用来测量数值的离散程度，也就是方差的平方根，一般符合高斯分布
25%、50%、75%：显示相应的百分位数，表示一组观测值中给定百分比的观测值都低于该值；50% 即中位数。

2.5、快速了解数组类型的方法（直方图）

%matplotlib inline
import matplotlib.pyplot as plt
housing.hist(bins=50, figsize=(20, 15))
plt.show()

3、创建测试集

理论上，创建测试集非常简单，只需要随机选择一些实例，通常是数据集的20%（如果数据量巨大，比例将更小）

为了即使在更新数据集之后也有一个稳定的训练测试分割，常见的解决方案是每个实例都使用一个标识符来决定是否进入测试集（假定每个实例都一个唯一且不变的标识符）
你可以计算每个实例的标识符的哈希值，如果这个哈希值小于或等于最大哈希值的20%，则将该实例放入测试集。这样可以保证测试集在多个运行里都是一致的，即便更新数据集也依然一致。新实例的20%将被放如新的测试集，而之前训练集中的实例也不会被放入新测试集。

3.1、手动随机生成

from zlib import crc32
import numpy as np


def test_set_check(identifier, test_ratio):
    return crc32(np.int64(identifier)) & 0xffffffff < test_ratio * 2**32


def splet_train_test_by_id(data, test_ratio, id_column):
    ids = data[id_column]
    in_test_set = ids.apply(lambda id_: test_set_check(id_, test_ratio))
    return data.loc[~in_test_set], data.loc[in_test_set]

housing 数据集没有标识符列。最简单的解决方法是使用索引作为 ID

housing_with_id = housing.reset_index()
train_set, test_set = splet_train_test_by_id(housing_with_id, 0.2, "index")

3.2、使用 Scikit-Learn 提供的方法 train_test_split 随机生成

最简单的方法就是使用：train_test_split()，它与前面定义的 split_train_test() 几乎相同，除了几个额外特征。

from sklearn.model_selection import train_test_split

# random_state: 设置随机生成器种子
train_set, test_set = train_test_split(housing, test_size=0.2, random_state=42)

到目前为止，我们考虑的是纯随机的抽样方法。如果数据集足够庞大（特别是相较于属性的数量而言），这种方法通常不错
如果不是，则有可能会导致明显的抽样偏差。即应该按照比例分层抽样。

如果你咨询专家，他们会告诉你，要预测房价中位数，收入中位数是个非常重要的属性。于是你希望确保在收入属性上，测试集能够代表整个数据集中各种不同类型的收入。

我们由上面直方图可以看到：大部分收入中位数值聚集在1.5~6左右，但也有一部分超过了6，在数据集中，每个层都要有足够数量的数据，这一点至关重要，不然数据不足的层，其重要程度佷有可能会被错估。

3.3、使用 Scikit-Learn 提供的方法 StratifiedShuffleSplit 按类别比例生成

# 用 pd.cut() 来创建 5个收入类别属性（用 1~5 来做标签），0~1.5是类别 1， 1.5~3是类别2
# np.inf 代表无穷大
housing["income_cat"] = pd.cut(housing["median_income"],
                               bins=[0, 1.5, 3, 4.5, 6, np.inf],
                               labels=[1, 2, 3, 4, 5])

housing["income_cat"].hist()

现在根据收入类进行分层抽样，使用 Scikit-Learn 的 StratifiedShuffleSplit

from sklearn.model_selection import StratifiedShuffleSplit

split = StratifiedShuffleSplit(n_splits=1, test_size=0.2, random_state=42)
for train_index, test_index in split.split(housing, housing["income_cat"]):
    strat_train_set = housing.loc[train_index]
    strat_test_set = housing.loc[test_index]

看看上面运行是否如我们所料

compare_pd = pd.DataFrame()
# 全部数据：按收入分类的比例
compare_pd["全部数据"] = housing["income_cat"].value_counts() / len(housing)
# 按收入分类的比例 获取测试集比例
compare_pd["分类抽样"] = strat_test_set["income_cat"].value_counts() / len(strat_test_set)
# 随机获取测试集比例
_, test_set = train_test_split(housing, test_size=0.2, random_state=42)
compare_pd["随机抽样"] = test_set["income_cat"].value_counts() / len(test_set)

compare_pd

	全部数据	分类抽样	随机抽样
3	0.350581	0.350533	0.358527
2	0.318847	0.318798	0.324370
4	0.176308	0.176357	0.167393
5	0.114438	0.114583	0.109496
1	0.039826	0.039729	0.040213

由上面数据我们看到，随机抽样的测试集，收入类别比例分布有些偏差。

现在可以删除 income_cat 属性，将数据恢复原样了：

for set_ in (strat_train_set, strat_test_set):
    set_.drop("income_cat", axis=1, inplace=True)

我们花了相当长的时间在测试集的生成上，理由很充分：这是及机器学习项目中经常忽视但是却至关重要的一部分。并且，当讨论到交叉验证时，这里谈到的许多想法也对其大有裨益。

4、从数据探索和可视化中获取洞见

如果训练集非常庞大，你可以抽样一个探索集，这样后面的操作更简单快捷一些，不过我们这个案例的数据集非常小，完全可以直接在整个训练集上操作。让我们先创建一个副本，这样可以随便尝试而不损害训练集：

housing = strat_train_set.copy()

4.1、将地理数据可视化

housing.plot(kind="scatter", x="longitude", y="latitude")

# alpha=0.1 可以更清楚的看出高密度数据点的位置
housing.plot(kind="scatter", x="longitude", y="latitude", alpha=0.1)

housing.plot(kind="scatter", x="longitude", y="latitude", alpha=0.4,
             s=housing["population"]/100, label="population", figsize=(10, 7),
             c="median_house_value", cmap=plt.get_cmap("jet"), colorbar=True)

现在，再看看房价。每个圆的半径大小代表了每个区域的人口数量（选项 s），颜色代表价格（选项 c）。我们使用一个名叫jet的预定义颜色表（选项 cmap）来进行可视化，颜色范围从蓝（低）到红（高）

4.2、寻找相关性

由于数据集不太大，你可以使用 corr() 方法轻松计算出没对属性之间的标准相关系数（也称皮尔逊 r）

corr_matrix = housing.corr()

现在查看每个属性与房价中位数的相关性分别是多少：

corr_matrix["median_house_value"].sort_values(ascending=False)

median_house_value    1.000000
median_income         0.687160
total_rooms           0.135097
housing_median_age    0.114110
households            0.064506
total_bedrooms        0.047689
population           -0.026920
longitude            -0.047432
latitude             -0.142724
Name: median_house_value, dtype: float64

相关系数的范围从 -1 变化到 1。

越接近 1，表示有越强的正相关。当收入中位数上升时，房价中位数也趋于上升
越接近 -1，表示有越强的负相关。可以发现纬度和房价中位数呈现轻微的负相关，也就是说，越往北走，房价倾向于下降
越接近 0，表示两者之间没有线性相关性。可以发现纬度和房价中位数呈现轻微的负相关，也就是说，越往北走，房价倾向于下降

上图可知，相关系数仅测量线性相关性，所以她有可能彻底遗漏非线性相关性。注意最下面一排图像，他们的相关系数都是0，但是显然我们可以看出横轴和纵轴之间的关系并不是完全独立的。此外前两行，需要注意的是这个相关性跟斜率完全无关

还有一种方法可以检测属性之间的相关性，也就是使用pandas的scatter_matix函数，它会绘制出每个数值属性相对于其他数值属性的相关性。现在我们有11个数值属性，可以得到 11^2 = 121 个图像，这里我们只关注这些与房价中位数属性最相关的，可算作最有潜力的属性

from pandas.plotting import scatter_matrix

# 选择了相关性靠前的 4 个属性
attributes = ["median_house_value", "median_income", "total_rooms", "housing_median_age"]
scatter_matrix(housing[attributes], figsize=(12, 8))

最有潜力能预测房价中位数的属性是收入中位数，所以我们放大开看看其相关属性的散点图

housing.plot(kind="scatter", x="median_income", y="median_house_value", alpha=0.1)

上图可以明显的看到上升趋势，并且点也不是太分散。
明显可以看到几条水平线，比如：50万、45万、35万、30万以下还有几条不太明显的线。
为了避免你的算法学习之后重现这些怪异数据，可以尝试删除这些相应区域。

4.3、试验不同属性的组合（为 5.3 自定义转换器的编写做准备）

应于发现其他有意思的数据关系。

# 房屋总数 / 住户
housing["rooms_per_household"] = housing["total_rooms"]/housing["households"]
# 卧室总数 / 房屋总数
housing["bedrooms_per_room"] = housing["total_bedrooms"]/housing["total_rooms"]
# 人口 / 住户
housing["population_per_household"]=housing["population"]/housing["households"]

corr_matrix = housing.corr()
corr_matrix["median_house_value"].sort_values(ascending=False)

median_house_value          1.000000
median_income               0.687160
rooms_per_household         0.146285
total_rooms                 0.135097
housing_median_age          0.114110
households                  0.064506
total_bedrooms              0.047689
population_per_household   -0.021985
population                 -0.026920
longitude                  -0.047432
latitude                   -0.142724
bedrooms_per_room          -0.259984
Name: median_house_value, dtype: float64

这一轮的探索不一定要多么彻底，关键是迈开这一步，快速获得洞见，这将有助于你获得非常非常好的第一个原型。这也是一个不断迭代的过程：

一旦你的原型产生并且开始运行，你可以分析它的输出以获得更多洞见，然后再次回到这个探索步骤。

5、机器学习算法的数据准备

现在，终于是时候给你的机器学习算法准备数据了。这里你应该编写函数来执行，而不是手动操作，原因如下：

你可以在任何数据集上轻松重现这些转换（比如，获得更新之后的数据集之后）
你可以逐渐建立起一个转换函数函数库，可以在以后的项目中重用。
你可以在实现系统中使用这些函数来转换新数据，在输入给算法。
你可以轻松尝试多种转换方式，查看哪种转换的组合效果最佳。

现在，让我们先回到一个干净的训练集（再次复制 strat_train_set)，然后将预测期和标签分开，因为这里我们不一定对它们使用相同的转换方式（需要注意drop()会创建一个数据副本，但是不影响 strat_train_set）：

housing = strat_train_set.drop("median_house_value", axis=1)
housing_labels = strat_train_set["median_house_value"].copy()

5.1、数据清理

5.1.1、常规方法（四种）

大部分的机器学习算法无法在缺失的特征上工作，所以我们要创建一些函数来辅助它。前面我们已经注意到total_bedrooms属性有部分值缺失，所以我们要先解决它。有一下三种选择：

放弃这些相应的区域
放弃整个属性
将缺失值设置为某个值（0、平均值或者中位数等）
将缺失值按分组设置为组内某个值（0、平均值或者中位数等）（我自己加的）

通过DataFrame的dropan()、drop()、fillan()、groupby()方法，可以轻松完成这些操作：

# 获取有缺失值的行，方便显示
sample_incomplete_rows = housing[housing.isnull().any(axis=1)].head()
sample_incomplete_rows

	longitude	latitude	housing_median_age	total_rooms	total_bedrooms	population	households	median_income	ocean_proximity
4629	-118.30	34.07	18.0	3759.0	NaN	3296.0	1462.0	2.2708	<1H OCEAN
6068	-117.86	34.01	16.0	4632.0	NaN	3038.0	727.0	5.1762	<1H OCEAN
17923	-121.97	37.35	30.0	1955.0	NaN	999.0	386.0	4.6328	<1H OCEAN
13656	-117.30	34.05	6.0	2155.0	NaN	1039.0	391.0	1.6675	INLAND
19252	-122.79	38.48	7.0	6837.0	NaN	3468.0	1405.0	3.1662	<1H OCEAN

5.1.1.1、方法一：dropna()

sample_incomplete_rows.dropna(subset=["total_bedrooms"])

	longitude	latitude	housing_median_age	total_rooms	total_bedrooms	population	households	median_income	ocean_proximity

5.1.1.2、方法二：drop()

sample_incomplete_rows.drop("total_bedrooms", axis=1)

	longitude	latitude	housing_median_age	total_rooms	population	households	median_income	ocean_proximity
4629	-118.30	34.07	18.0	3759.0	3296.0	1462.0	2.2708	<1H OCEAN
6068	-117.86	34.01	16.0	4632.0	3038.0	727.0	5.1762	<1H OCEAN
17923	-121.97	37.35	30.0	1955.0	999.0	386.0	4.6328	<1H OCEAN
13656	-117.30	34.05	6.0	2155.0	1039.0	391.0	1.6675	INLAND
19252	-122.79	38.48	7.0	6837.0	3468.0	1405.0	3.1662	<1H OCEAN

5.1.1.3、方法三：fillna()

median = housing["total_bedrooms"].median()
sample_incomplete_rows["total_bedrooms"].fillna(median, inplace=True)
sample_incomplete_rows

	longitude	latitude	housing_median_age	total_rooms	total_bedrooms	population	households	median_income	ocean_proximity
4629	-118.30	34.07	18.0	3759.0	433.0	3296.0	1462.0	2.2708	<1H OCEAN
6068	-117.86	34.01	16.0	4632.0	433.0	3038.0	727.0	5.1762	<1H OCEAN
17923	-121.97	37.35	30.0	1955.0	433.0	999.0	386.0	4.6328	<1H OCEAN
13656	-117.30	34.05	6.0	2155.0	433.0	1039.0	391.0	1.6675	INLAND
19252	-122.79	38.48	7.0	6837.0	433.0	3468.0	1405.0	3.1662	<1H OCEAN

5.1.1.4、方法四：groupby()

housing_group = housing.copy()
housing_group["income_cat"] = pd.cut(housing["median_income"],
                                     bins=[0, 1.5, 3, 4.5, 6, np.inf],
                                     labels=[1, 2, 3, 4, 5])
housing_group[housing.isnull().any(axis=1)].head()

	longitude	latitude	housing_median_age	total_rooms	total_bedrooms	population	households	median_income	ocean_proximity	income_cat
4629	-118.30	34.07	18.0	3759.0	NaN	3296.0	1462.0	2.2708	<1H OCEAN	2
6068	-117.86	34.01	16.0	4632.0	NaN	3038.0	727.0	5.1762	<1H OCEAN	4
17923	-121.97	37.35	30.0	1955.0	NaN	999.0	386.0	4.6328	<1H OCEAN	4
13656	-117.30	34.05	6.0	2155.0	NaN	1039.0	391.0	1.6675	INLAND	2
19252	-122.79	38.48	7.0	6837.0	NaN	3468.0	1405.0	3.1662	<1H OCEAN	3

housing_group_median = housing_group.groupby("income_cat").transform(lambda x: x.fillna(x.median()))
housing_group_median[housing.isnull().any(axis=1)].head()

	longitude	latitude	housing_median_age	total_rooms	total_bedrooms	population	households	median_income
4629	-118.30	34.07	18.0	3759.0	444.0	3296.0	1462.0	2.2708
6068	-117.86	34.01	16.0	4632.0	427.0	3038.0	727.0	5.1762
17923	-121.97	37.35	30.0	1955.0	427.0	999.0	386.0	4.6328
13656	-117.30	34.05	6.0	2155.0	444.0	1039.0	391.0	1.6675
19252	-122.79	38.48	7.0	6837.0	453.0	3468.0	1405.0	3.1662

如果选择方法三，你需要计算出训练集的中位数，然后用它填充训练集中的缺失值，但也别忘了保存这个计算出的中位数，因为后面可能需要用到。当重新评估系统时，你需要更换测试集中的缺失值；或者在系统上线时，需要使用新数据替代缺失值。

5.1.2、Scikit-Learn 提供的 SimpleImputer 方法

Scikit-Learn提供了一个非常容易上手的类来处理缺失值：SimpleImputer。使用方法如下：首先，你需要创建一个 SimpleImputer 实例，指定你要用属性的中位数值替换该属性的缺失值：

from sklearn.impute import SimpleImputer

imputer = SimpleImputer(strategy="median")

由于中位数只能在数值属性上计算，所以我们需要创建一个没有文本属性 ocean_proximity 的数据副本：

housing_num = housing.drop("ocean_proximity", axis=1)

使用fit()方法将imputer实例适配到训练数据：

imputer.fit(housing_num)

SimpleImputer(strategy='median')

这里imputer仅仅只是计算了每个属性的中位数值，并将结果储存在其实例变量statistics_中。虽然只是total_bedrooms这个属性存在缺失值，所以稳妥起见，还是将imputer应用于所有的数值属性：

# imputer 计算的每列中位数
imputer.statistics_

array([-118.51  ,   34.26  ,   29.    , 2119.5   ,  433.    , 1164.    , 408.    ,    3.5409])

# 直接计算的中位数
housing_num.median().values

array([-118.51  ,   34.26  ,   29.    , 2119.5   ,  433.    , 1164.    , 408.    ,    3.5409])

现在，你可以使用这个“训练有素”的imputer将缺失值替换成中位数从而完成训练集转换：

X = imputer.transform(housing_num)
type(X)

numpy.ndarray

结果是一个包含转换后特征的Numpy数组。如果你想将它放回Pandas DataFrame，也很简单：

housing_tr = pd.DataFrame(X, columns=housing_num.columns, index=housing_num.index)
housing_tr.loc[sample_incomplete_rows.index.values]

	longitude	latitude	housing_median_age	total_rooms	total_bedrooms	population	households	median_income
4629	-118.30	34.07	18.0	3759.0	433.0	3296.0	1462.0	2.2708
6068	-117.86	34.01	16.0	4632.0	433.0	3038.0	727.0	5.1762
17923	-121.97	37.35	30.0	1955.0	433.0	999.0	386.0	4.6328
13656	-117.30	34.05	6.0	2155.0	433.0	1039.0	391.0	1.6675
19252	-122.79	38.48	7.0	6837.0	433.0	3468.0	1405.0	3.1662

5.2、处理文本和分类属性

5.2.1、使用 Scikit-Learn 的 OrdinalEncoder 类

到目前为止，我们只处理数值属性，但现在让我们看一下文本属性。在此数据集中，只有一个：ocean_proximity属性。前面我们一直到它不是任意文本，而是有限个可能的取值，每个值代表一类别。因此，此属性是分类属性。大多数机器学习算法更喜欢使用数字，因此让我们将这些类别从文件转到数字。为此，我们可以使用Scikit-Learn的OrdinalEncoder类：

housing["ocean_proximity"].value_counts()

<1H OCEAN     7276
INLAND        5263
NEAR OCEAN    2124
NEAR BAY      1847
ISLAND           2
Name: ocean_proximity, dtype: int64

from sklearn.preprocessing import OrdinalEncoder

housing_cat = housing[["ocean_proximity"]]
ordinal_encoder = OrdinalEncoder()
housing_cat_encoded = ordinal_encoder.fit_transform(housing_cat)
housing_cat_encoded[:10]

array([[0.],
       [0.],
       [4.],
       [1.],
       [0.],
       [1.],
       [0.],
       [1.],
       [0.],
       [0.]])

你可以使用categories_实例变量获取类别列表。这个列表包含每个类别属性的维一数组（在这种情况下，这个列表包含一个数组，因为只有一个类别属性）：

ordinal_encoder.categories_

[array(['<1H OCEAN', 'INLAND', 'ISLAND', 'NEAR BAY', 'NEAR OCEAN'], dtype=object)]

这种表征方式产生的一个问题是，机器学习算法会认为两个相近的比值比两个离得较远的值更为相似一些，在某种情况下这是对的（比如一些有序类别，像“优”、“良”、“中”、“差”），但是对ocean_proximity而言情况并非如此（例如，类别0和类别4之间就比类别0和类别1之间的相似度更高）

5.2.2、使用 Scikit-Learn 的 OneHotEncoder 类

为了解决这个问题，常见的解决方案是给每个类别创建一个二进制的属性：

当类别是 “<1H OCEAN” 时，一个属性为 1（其他属性为 0）
当类别是 “INLAND” 时，另一个属性为 1（其他属性为 0）
以此类推

这就是独热编码，因为只有一个属性为 1（热），其他均为 0（冷）。新的属性有事成为哑(dummy)属性。Scikit-Learn的OneHotEncoder编码器，可以将整数类别转换为独热向量（新版本支持其他类别转换）。我们用它来将类别编码为独热向量。

from sklearn.preprocessing import OneHotEncoder

cat_encoder = OneHotEncoder()
housing_cat_1hot = cat_encoder.fit_transform(housing_cat)
housing_cat_1hot

<16512x5 sparse matrix of type ''
	with 16512 stored elements in Compressed Sparse Row format>

<16512x5 ‘’ 类型的稀疏矩阵以压缩稀疏行格式存储 16512 个元素>

注意到这里的输出是一个SciPy稀疏矩阵，而不是一个NumPy数组。当你有成千上万个类别属性时，这个函数会非常有用。因为在独热编码完成之后，我们会得到一个几千列的矩阵，并且全部是0，每行仅有一个1。占用大量内存来储存0是一件非常浪费的事情，因此稀疏矩阵选择仅储存非零元素的位置。而你依旧可以像使用一个普通的二维数组那样来使用它。

如果你想把它转成一个（密集的）NumPy 数组，只需要调用toarray()方法即可：

housing_cat_1hot.toarray()

array([[1., 0., 0., 0., 0.],
       [1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1.],
       ...,
       [0., 1., 0., 0., 0.],
       [1., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0.]])

再次使用编码器的categories_实例变量获取类别列表：

cat_encoder.categories_

[array(['<1H OCEAN', 'INLAND', 'ISLAND', 'NEAR BAY', 'NEAR OCEAN'], dtype=object)]

5.3、自定义转换器

虽然Scikit-Learn提供了许多有用的转换器，但是你依然需要为一些诸如自定义清理操作或组合特定属性等任务编写自己的转换器。你当然希望让自己的转换器与Scikit-Learn自身功能（比如流水线）无缝衔接，而由于Scikit-Learn依赖于鸭子类型的编译，而不是继承，所以你所需要的只是创建一个类，然后应用一下三种方法：fit()（返回self）、transform()、fit_transform()。

你可以通过添加TransformerMixin作为基类，直接得到最后一种方法。同时，如果添加BaseEstimator作为基类（并在构造函数中避免 *args和**kargs），你还能额外获得两个非常有用的自动调整超参数的方法（get_params()和set_params()）。

例如，我们前面讨论过得组合属性，这里有个简单的转换器类，用来添加组合后的属性：

from sklearn.base import BaseEstimator, TransformerMixin

# 对应数据所在列的位置，从0开始计数
# rooms_ix, bedroom_ix, population_ix, households_ix = 3, 4, 5, 6
col_names = "total_rooms", "total_bedrooms", "population", "households"
# get the column indices
rooms_ix, bedrooms_ix, population_ix, households_ix = [housing.columns.get_loc(c) for c in col_names]

class CombinedAttributesAdder(BaseEstimator, TransformerMixin):
    def __init__(self, add_bedroom_per_room=True):
        # 没有 *args 和 **kargs
        self.add_bedroom_per_room = add_bedroom_per_room

    def fit(self, X, y=None):
        # 不做任何处理
        return self

    def transform(self, X):
        """
        X[:, rooms_ix]：X数组，":"所有行，取rooms_ix列的数据（即，取第rooms_ix列的全部数据，从0开始计数）
        ------------
        np.r_是按列连接两个矩阵，就是把两矩阵上下相加，要求列数相等。
        np.c_是按行连接两个矩阵，就是把两矩阵左右相加，要求行数相等。即添加计算后的新列数据
        例：
            a = np.array([[1, 2, 3],
                          [7,8,9]])
            b = np.array([[4,5,6],
                          [1,2,3]])
            c = np.c_[a,b]

            >>> print(c)
            array([[1, 2, 3, 4, 5, 6],
                   [7, 8, 9, 1, 2, 3]])
        """
        rooms_per_household = X[:, rooms_ix] / X[:, households_ix] # 即 第 3 列数据 ÷ 第 6 列数据
        population_per_household = X[:, population_ix] / X[:, households_ix]
        if self.add_bedroom_per_room:
            bedrooms_per_room = X[:, bedroom_ix] / X[:, rooms_ix]
            return np.c_[X, rooms_per_household, population_per_household, bedrooms_per_room]
        else:
            return np.c_[X, rooms_per_household, population_per_household]


attr_adder = CombinedAttributesAdder(add_bedroom_per_room=False)
housing_extra_attribs = attr_adder.transform(housing.values)

housing
housing.values（即 X）
housing_extra_attribs（即转换结果）

本案例中，转换器有一个超参数add_bedroom_per_room默认设置为True（提供合理的默认值通用是很有帮助的）。

这个参数可以让你轻松知晓添加这个属性是否有助于机器学习算法。
更一般地，如果你对数据准备的步骤没有充分的信心，就可以添加这个超参数来进行把关。
这些数据准备步骤的执行越是自动化，你自动尝试的组合也就越多，从而有更大可能从中找到一个重要的组合（还节省了大量时间）。

5.4、特征缩放

最重要也最需要应用到数据上的转换就是特征缩放。如果输入的数值属性具有非常大的比例差异，往往会导致机器学习算法的性能表现不佳，当然也有极少数特例。案例中的房屋数据就是这样：房屋总数的范围从 6~39320，而收入中位数的范围是 0~15。注意，目标值通常不需要缩放。

同比例缩放所有属性的两种常用方法是最小值-最大值缩放和标准化。

5.4.1、最小值-最大值缩放（归一化）

概念：将训练集中某一列数值特征（假设是第i列）的值缩放到0和1之间。
算法：将值减去最小值并除以最大值和最小值的差。
$z_{ij} ← \frac{x_{ij} - min(x_i)}{max(x_i) - min(x_i)}$

其中 $x_{ij}$ 代表 $x_i$ 的第个条目，同样的 $z_{ij}$ 代表 $z_i∈ℝ^$ 的第个条目， $\overline{}=(1,_1,⋯,_)∈ℝ^{×(+1)}$ ，max和min是按列求每一列的最大和最小值。

Scikit-Learn：MinMaxScaler转换器。如果处于某种原因，你希望范围不是 0~1。那么可以通过调整超参数feature_range进行更改。

5.4.1.1、数据处理前后对比

对于线性model来说，数据归一化后，最优解的寻优过程明显会变得平缓，更容易正确的收敛到最优解。
比较这两个图，前者是没有经过归一化的，在梯度下降的过程中，走的路径更加的曲折，而第二个图明显路径更加平缓，收敛速度更快。

5.4.2、标准化（本案例采用）

概念：将训练集中某一列数值特征（假设是第i列）的值缩放成均值为0，方差为1的状态。
算法：首先减去平均值（所以表转换值的均值总是零），然后除以方差。从而使得结果的分布具备单位方差。

按如下方法标准化Data Matirx矩阵的每一列 $x_i$ of $X (1 \leq i \leq d)$ ：(这里解释一下为什么是按列标准化：数据矩阵的每一列就代表了样本的每一维，我们想通过标准化来更好的处理该维度的特征，可以想想按行标准化是什么效果：make no sense)

$z_{ij} ← \frac{x_{ij} - mean(x_i)}{std(x_i)}$

其中 $x_{ij}$ 代表 $x_i$ 的第个条目，同样的 $z_{ij}$ 代表 $z_i∈ℝ^$ 的第个条目， $\overline{}=(1,_1,⋯,_)∈ℝ^{×(+1)}$ ， mean和std就是按列求每一列的均值和方差。

Scikit-Learn：StandadScaler转换器。

5.4.2.1、数据处理前后对比

适用于：如果数据的分布本身就服从正态分布，就可以用这个方法。
通常这种方法基本可用于有outlier的情况，但是，在计算方差和均值的时候outliers仍然会影响计算。所以，在出现outliers的情况下可能会出现转换后的数的不同feature分布完全不同的情况。
如上图，经过StandardScaler之后，横坐标与纵坐标的分布出现了很大的差异，这可能是outliers造成的。

5.5、转换流水线

5.5.1、数值属性的流水线（Scikit-Learn：Pipeline）

正如你所见，许多数据转换的步骤需要以正确的顺序来执行。而Scikit-Learn正好提供了Pipeline类来支持这样的转换。下面是一个数值属性的流水线示例：

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler

num_pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy="median")),
    ('attribs_adder', CombinedAttributesAdder()),
    ('std_scaler', StandardScaler()),
])
housing_num_tr = num_pipeline.fit_transform(housing_num)

Pipeline构造函数会通过一系列名称/估值器的配对来定义步骤序列。除了最后一个是估值器之外，前面都必须是转换器（也就是说，必须有fit_transform()方法）。至于命名可以随意（只要他们是独一无二的，不含双下划线），它们稍后在超参数调整中会有用。

当调用流水线的fit()方法时，会在所有转换器上按照顺序依次调用fit_transform()，将一个调用的输出作为参数传递给下一个调用的方法，直到传递到最终的估值器，则只会调用fit()方法。

流水线的方法和最终的估值器的方法相同。在本例中，最后一个估值器是StandardScaler，这是一个转换器，因此流水线有一个transform()方法，可以按顺序将所有的转换应用到数据中（这也是我们用过的fit_transform()方法）。

5.5.2、所有属性的流水线（Scikit-Learn：ColumnTransformer）

到目前为止，我们分别处理了类别列和数值列。拥有一个能够处理所有列的转换器会更方便，将适当的转换应用于每一列。Scikit-Learn为此引入了ColumnTransformer，好消息是它与Pandas DataFrames一起使用时效果很好。让我们来用它将所有转换应用到房屋数据：

from sklearn.compose import ColumnTransformer

num_attribs = list(housing_num) # 获取列头
cat_attribs = ["ocean_proximity"]

full_pipeline = ColumnTransformer([
    ("num", num_pipeline, num_attribs),
    ("cat", OneHotEncoder(), cat_attribs),
])
housing_prepared = full_pipeline.fit_transform(housing)

首先导入ColumnTransformer类，接下来获得数值列和类别列名称列表，然后构造一个ColumnTransformer。构造函数需要一个元组列表，其中每个元组都包含一个名称（与流水线一样）、一个转换器，以及一个该转换器能够应用的列名称（或索引）的列表。在此示例中，我们指定数值列使用之前定义的num_pipeline进行转换，类别列使用OneHotEncoder进行转换。最后，我们将ColumnTransformer应用到房屋数据：它将每个转换器应用于适当的列，并沿第二个轴合并输出（转换器必须返回相同数据的行）。

请注意，OneHotEncoder返回一个稀疏矩阵，而num_pipeline返回一个密集矩阵。当稀疏矩阵和密集矩阵混合在一起时，ColumnTransformer会估算最终矩阵的密度（即单元格的非零比率），如果密度低于给定的阈值，则返回一个稀疏矩阵（通过默认值为sparse_threshold = 0.3）。在此示例中，返回一个密集矩阵。我们有一个预处理流水线，该流水线可以获取全部房屋数据并对每一列进行适当的转换。

6、选择和训练模型

6.1、训练和评估训练集

6.1.1、LinearRegression 线性回归模型

首先，我们先训练一个线性回归模型：

from sklearn.linear_model import LinearRegression

lin_reg = LinearRegression()
lin_reg.fit(housing_prepared, housing_labels)

LinearRegression()

现在你有一个可以工作的线性回归模型了，让我们用几个训练集的实例试试：

some_data = housing[:5] # 获取前5行数据
some_labels = housing_labels.iloc[:5] # 获取前5行标签，用于验证模型结果
some_data_prepared = full_pipeline.transform(some_data) # 流水线处理数据
print("Predictions:", lin_reg.predict(some_data_prepared)) # 模型预测数据
print("Labels:", list(some_labels)) # 真实结果

Predictions: [210644.60459286 317768.80697211 210956.43331178  59218.98886849 189747.55849879]
Labels: [286600.0, 340600.0, 196900.0, 46300.0, 254500.0]

可以工作了，虽然预测还不是很准确（实际上。。。一点都不准。。。）。我们可以使用Scikit-Learn的mean_squared_error()函数来测量整个训练集上回归模型的RMSE（均方根误差）：

RMSE

Root Mean Square Error，均方根误差
是观测值与真值偏差的平方和与观测次数m比值的平方根。
是用来衡量观测值同真值之间的偏差

MAE

Mean Absolute Error ，平均绝对误差
是绝对误差的平均值
能更好地反映预测值误差的实际情况.

Standard Deviation ，标准差
是方差的算数平方根
是用来衡量一组数自身的离散程度

from sklearn.metrics import mean_squared_error

housing_predictions = lin_reg.predict(housing_prepared) # 使用模型获取训练集全部预测数据
lin_mse = mean_squared_error(housing_labels, housing_predictions) # 真实数据 与 模型预测数据 的 均方根误差
lin_rmse = np.sqrt(lin_mse) # 平方根，预测误差值
lin_rmse

68628.19819848922

median_housing_values分布在 120000~265000 美元之间，所以典型的预测误差达到 68628 美元只能说明差强人意。

这就是一个典型的模型对训练数据欠拟合的案例。这种情况发生时，通常意味着这些：

特征可能无法提供足够的信息来做出更好的预测；
或者是模型本身不够强大。

想要修正欠拟合，可以通过：

选择更强大的模型；
或为算法训练提供更好的特征；
又或者减少模型的限制等方法。

我们这个模型不是一个正则化的模型，所以可以排除最后一个选项。你可以尝试添加更多的特征（比如，人口数量的日志），但首选，让我们尝试一个更复杂的模型，看看它到底是怎样工作的。

6.1.2、DecisionTreeRegressor 决策树模型

我们来训练一个DecisionTreeRegressor。这是一个非常强大的模型，它能够从数据中找到复杂的非线性关系。使用方法与上面的线性回归模型相同：

from sklearn.tree import DecisionTreeRegressor

tree_reg = DecisionTreeRegressor()
tree_reg.fit(housing_prepared, housing_labels)

DecisionTreeRegressor()

训练集评估结果

housing_predictions = tree_reg.predict(housing_prepared)
tree_mse = mean_squared_error(housing_labels, housing_predictions)
tree_rmse = np.sqrt(tree_mse)
print(tree_rmse)

0.0

结果是0，没有预测误差，这个模型真的可以做到绝对完美么？当然，更可能是这个模型对数据严重过拟合了。我们应该怎么确认？前面提到过，在你有信心启动模型之前，都不要触碰测试集。

所有这里，你需要那训练集中的一部分用于训练，另一部分用于模型验证。

6.1.2.1、使用交叉验证来更好地进行评估

评估决策树模型的一种方法是使用train_test_split函数将训练集分为较小的训练集和验证集，然后根据这些较小的训练集来训练模型，并对其进行评估。这虽然有一些工作量，但是也不会太难，并且非常有效。

另一个不错的选择市使用Scikit-Learn的K-折交叉验证功能。以下是执行K-折交叉验证的代码：

它将训练集随机分割成10个不同的子集，每个子集称为一个折叠；
对决策树模型进行10次训练和评估 – 每次挑选1个折叠进行评估，使用另外的9个折叠进行训练；
产生的结果是一个包含10次评估分数的数组。

def display_scores(scores):
    print("分  数:", scores)
    print("平均值:", scores.mean())
    print("标准差:", scores.std())

from sklearn.model_selection import cross_val_score

# neg_mean_squared_error: 负均方误差
scores = cross_val_score(tree_reg, housing_prepared, housing_labels,
                         scoring="neg_mean_squared_error", cv=10)
tree_rmse_scores = np.sqrt(-scores)
display_scores(tree_rmse_scores)

分  数: [70062.5222628  66736.98017719 70439.6047592  70474.78239772 71238.21621992 
        74620.75350778 71398.18416741 70620.80936843 77492.84330946 71004.28109473]
平均值: 71408.89772646272
标准差: 2712.8600596563356

Scikit-Learn的K-折交叉验证功能更倾向于使用效用函数（越大越好）而不是成本函数（越小越好），所以计算分数的函数实际上负的MSE（一个负值）函数，这就是为什么上面的代码在计算平方根之前会先计算出-scores。

这次的决策树模型好像不如之前的表现得好，事实上，它看起来简直比线性回归模型还要糟糕。请注意，交叉验证不仅可以得到一个模型性能的评估值，还可以衡量该评估的精准度（即其标准差）。这里该决策树得到的评分约为71407，上下浮动±2439。如果你只使用了一个验证集，就收不到这样的结果信息。交叉验证的代价就是要多次训练模型，因此也不是永远都行得通。

保险起见，让我们也计算一下线性回归模型的评分：

lin_scores = cross_val_score(lin_reg, housing_prepared, housing_labels, 
                             scoring="neg_mean_squared_error", cv=10)
lin_rmse_scores = np.sqrt(-lin_scores)
display_scores(lin_rmse_scores)

分  数: [66782.73843989 66960.118071 70347.95244419 74739.57052552 68031.13388938 
        71193.84183426 64969.63056405 68281.61137997 71552.91566558 67665.10082067]
平均值: 69052.46136345083
标准差: 2731.674001798347

没错，决策树模型的确严重过拟合了，以至于表现得比线性回归模型还要糟糕。

6.1.3、RndomForestRegressor 随机森林模型

我们再来试试最后一个模型RndomForestRegressor。随机森林的工作原理：通过对特征的随机子集进行许多个决策树的训练，然后对其预测取平均。在多个模型的基础之上建立模型，称之为集成学习，这是进一步推动机器学习算法的好方法。这里我们将跳过大部分代码，因为与其他模型基本相同：

from sklearn.ensemble import RandomForestRegressor

forest_reg = RandomForestRegressor()
forest_reg.fit(housing_prepared, housing_labels)

RandomForestRegressor()

housing_predictions = forest_reg.predict(housing_prepared)
forest_mse = mean_squared_error(housing_labels, housing_predictions)
forest_rmse = np.sqrt(forest_mse)
print(forest_rmse)

18725.06655956781

forest_scores = cross_val_score(forest_reg, housing_prepared, housing_labels, 
                                scoring="neg_mean_squared_error", cv=10)
forest_rmse_scores = np.sqrt(-forest_scores)
display_scores(forest_rmse_scores)

分  数: [49809.66295035 47362.11725625 50097.32716715 51971.44001152 49498.75378409 
        53481.17484005 49051.91408781 48402.93749135 52812.15210493 50385.42811085]
平均值: 50287.290780434654
标准差: 1842.3191312235808

当前数据看起来是目前对好的。但是，请注意，训练集上的分数（18725）仍然远低于验证集（50287），这意味着该模型仍然对训练集过拟合。过拟合的可能解决方案包括：

简化模型
约束模型（即使其正规化）
或获得更多的训练数据

不过在深入探索随机森林之前，你应该先尝试一遍各种机器学习算法的其他模型（几种具有不同内核的支持向量机，比如神经网络模型等），但记住，别花太多时间去调整超参数，我们的目的是筛选出几个（2~5个）有效的模型。

每一个尝试过的模型都应该妥善的保存，以便将来可以轻松回顾。通过Python的pickle模块或joblib库，你可以轻松保存Scikit-Learn模型，这样可以更有效地将大型NumPy数组序列号。

7、微调模型

假设你现在有了一个有效模型的候选列表。现在你需要对它们进行微调。我们来看几个可行的方法。

7.1、网格搜索

一种微调的方式是以手动调整超参数，直到找到一组很好的超参数组合。这个过程非常枯燥乏味，你可以坚持不到足够的时间来探索出各种组合。
相反，你可以用Scikit-Learn的GridSearchCV来替你进行探索。你所需要做的只是告诉它你要进行实验的超参数是什么，以及需要尝试的值，它将会使用交叉验证来评估超参数的所有可能组合。例如，下面这段代码搜索RandomForestRegressor的超参数数值的最佳组：

from sklearn.model_selection import GridSearchCV

param_grid = [
    {
     "n_estimators": [3, 10, 30], "max_features": [2, 4, 6, 8]},
    {
     "bootstrap": [False], "n_estimators": [3, 10], "max_features": [2, 3, 4]},
]
forest_reg = RandomForestRegressor()
grid_search = GridSearchCV(forest_reg, param_grid, cv=5,
                           scoring="neg_mean_squared_error",
                           return_train_score=True)
grid_search.fit(housing_prepared, housing_labels)

GridSearchCV(cv=5, estimator=RandomForestRegressor(),
             param_grid=[{'max_features': [2, 4, 6, 8],
                          'n_estimators': [3, 10, 30]},
                         {'bootstrap': [False], 'max_features': [2, 3, 4],
                          'n_estimators': [3, 10]}],
             return_train_score=True, scoring='neg_mean_squared_error')

当你不知道超参数应该赋什么值时，一个简单的方法是尝试10次连续幂次方（如果你想要得到更细粒度的搜索，可以使用更小的数，参考这个示例中n_estimators超参数。

这个param_grid告诉Scikit-Learn，首先评估第一个dict中的n_estimators和max_features的所有 3×4=12 种超参数组合；接着，尝试第二个dict中超参数的所有 1×2×3=6 种组合，但这次超参数bootstrap需要设置为False而不是True。

总而言之，网格探索将探索RandomForestRegressor超参数值的 12+6=18 种组合，并对每个模型进行5次训练（cv=5）。换句话，总共完成 18×5=90 次训练。

但是训练完成后你就可以获得最佳的参数组合：

grid_search.best_params_

{'max_features': 6, 'n_estimators': 30}

你可以直接得到最好的估算器：

grid_search.best_estimator_

RandomForestRegressor(max_features=6, n_estimators=30)

如果GridSearchCV被初始化为refit=True（默认值），那么一旦通过交叉验证找到最佳估算器，它将在整个训练集上重新训练。这通常是个好方法，因为提供更多的数据很可能提升其性能。

当然还有评估分数：

cvres = grid_search.cv_results_
for mean_score, params in zip(cvres["mean_test_score"], cvres["params"]):
    print(np.sqrt(-mean_score), params)

64219.37103342171 {'max_features': 2, 'n_estimators': 3}
55757.44574868692 {'max_features': 2, 'n_estimators': 10}
52912.46028198916 {'max_features': 2, 'n_estimators': 30}
60369.36943060073 {'max_features': 4, 'n_estimators': 3}
53342.610401252685 {'max_features': 4, 'n_estimators': 10}
50755.23490862702 {'max_features': 4, 'n_estimators': 30}
59396.83436658384 {'max_features': 6, 'n_estimators': 3}
52375.46588717245 {'max_features': 6, 'n_estimators': 10}
50133.101632717895 {'max_features': 6, 'n_estimators': 30}
58851.03261455543 {'max_features': 8, 'n_estimators': 3}
52154.38996091269 {'max_features': 8, 'n_estimators': 10}
50142.71940679718 {'max_features': 8, 'n_estimators': 30}
63061.98058118926 {'bootstrap': False, 'max_features': 2, 'n_estimators': 3}
54457.63242342584 {'bootstrap': False, 'max_features': 2, 'n_estimators': 10}
59490.18437223276 {'bootstrap': False, 'max_features': 3, 'n_estimators': 3}
52951.47441756218 {'bootstrap': False, 'max_features': 3, 'n_estimators': 10}
59440.60460822187 {'bootstrap': False, 'max_features': 4, 'n_estimators': 3}
51717.31614272946 {'bootstrap': False, 'max_features': 4, 'n_estimators': 10}

在本例中，我们得到的最佳解决方案是将超参数max_features设置为6，n_estimators设置为30。这个组合的RMSE分数为50133，略优于之前默认参数的分数50287。

7.2、随机搜索

如果探索的组合数量太少（例如上一个案例），那么网格搜索是一个不错的方法。但是当超参数的搜索范围比较大时，通过会优先选择使用RandomizedSearchCV。这个类用起来与GridSearchCV类大致相同，但是它不会尝试所有可能的组合，而是在每次迭代中为每个超参数选择一个随机值，然后对一定数量的随机组合进行评估。这种方法有两个显著好处：

如果运行随机搜索1000个迭代，那么将会探索每个超参数的1000个不同的值。
通过简单的设置迭代次数，可以更好地控制要分配给超参数搜索的计算预算。

from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import randint

param_distribs = {
     
    'n_estimators': randint(low=1, high=200),
    'max_features': randint(low=1, high=8),
}

forest_reg = RandomForestRegressor()
rnd_search = RandomizedSearchCV(forest_reg, param_distributions=param_distribs,
                                n_iter=10, cv=5, scoring='neg_mean_squared_error')
rnd_search.fit(housing_prepared, housing_labels)

RandomizedSearchCV(cv=5, estimator=RandomForestRegressor(),
                   param_distributions={'max_features': ,
                                        'n_estimators': },
                   scoring='neg_mean_squared_error')

cvres = rnd_search.cv_results_
for mean_score, params in zip(cvres["mean_test_score"], cvres["params"]):
    print(np.sqrt(-mean_score), params)

49182.98287156724 {'max_features': 6, 'n_estimators': 142}
49256.64243951438 {'max_features': 7, 'n_estimators': 157}
49705.21035567195 {'max_features': 7, 'n_estimators': 59}
68431.80112151649 {'max_features': 1, 'n_estimators': 3}
49547.2056799527 {'max_features': 4, 'n_estimators': 144}
51481.190769293426 {'max_features': 5, 'n_estimators': 13}
59848.891702369874 {'max_features': 1, 'n_estimators': 9}
49482.15331762217 {'max_features': 4, 'n_estimators': 188}
50134.64676419512 {'max_features': 3, 'n_estimators': 162}
55151.747332409956 {'max_features': 1, 'n_estimators': 47}

7.3、集成方法

还有一种微调系统的方法是将表现最优的模型组合起来。组合（或“集成”）方法通过最佳的单一模型更好（就像随机森林比任何单个的决策树模型更好一样），特别是当单一模型会产生不同类型误差时更是如此。

7.4、分析最佳模型及其误差

通过检查最佳模型，你总是可以得到一些好的洞见。例如在进行准确预测时，RandomForestRegressor可以指出每个属性的相对重要程度：

feature_importances = grid_search.best_estimator_.feature_importances_
feature_importances

array([8.20349643e-02, 7.08313931e-02, 4.31025707e-02, 1.82135239e-02,
       1.66778827e-02, 1.83580953e-02, 1.58181207e-02, 2.93820957e-01,
       5.79152902e-02, 1.08181525e-01, 1.01867756e-01, 1.83167523e-02,
       1.43188327e-01, 4.00992699e-05, 4.73585356e-03, 6.89688957e-03])

将这些重要性分数显示在对应的属性名称旁边：

extra_attribs = ["rooms_per_hhold", "pop_per_hhold", "bedrooms_per_room"]
#cat_encoder = cat_pipeline.named_steps["cat_encoder"] # 旧版本
cat_encoder = full_pipeline.named_transformers_["cat"]
cat_one_hot_attribs = list(cat_encoder.categories_[0])
attributes = num_attribs + extra_attribs + cat_one_hot_attribs
sorted(zip(feature_importances, attributes), reverse=True)

[(0.2938209569026082, 'median_income'),
 (0.14318832667800896, 'INLAND'),
 (0.10818152506358511, 'pop_per_hhold'),
 (0.10186775584763018, 'bedrooms_per_room'),
 (0.08203496427830204, 'longitude'),
 (0.07083139305733996, 'latitude'),
 (0.057915290153382135, 'rooms_per_hhold'),
 (0.043102570688951285, 'housing_median_age'),
 (0.01835809530124593, 'population'),
 (0.018316752295000915, '<1H OCEAN'),
 (0.01821352394132179, 'total_rooms'),
 (0.0166778826835988, 'total_bedrooms'),
 (0.015818120710775083, 'households'),
 (0.006896889571023202, 'NEAR OCEAN'),
 (0.0047358535572835985, 'NEAR BAY'),
 (4.009926994286412e-05, 'ISLAND')]

7.5、通过测试集评估系统

通过一段时间的训练，你终于有了一个表现足够优秀的系统。现在是用测试集评估最终模型的时候了。这个过程没有什么特别的，只需要从测试集中获取预测器和标签，运行full_pipline来转换数据（调用transform()而不是fit_transform()），然后在测试集上评估最终模型：

final_model = rnd_search.best_estimator_

X_test = strat_test_set.drop("median_house_value", axis=1)
y_test = strat_test_set["median_house_value"].copy()

X_test_prepared = full_pipeline.transform(X_test)
final_predictions = final_model.predict(X_test_prepared)

final_mse = mean_squared_error(y_test, final_predictions)
final_rmse = np.sqrt(final_mse)
final_rmse

46979.86059266281

如果想知道这个估计的精确度。为此，你可以使用scipy.stats.t.interval()计算泛化误差的95%置信区间：

from scipy import stats

confidence = 0.95
squared_errors = (final_predictions - y_test) ** 2
np.sqrt(stats.t.interval(confidence, len(squared_errors) - 1,
                         loc=squared_errors.mean(),
                         scale=stats.sem(squared_errors)))

array([45009.06645486, 48871.24450507])

如果之前进行过大量的超参数调整，这时的评估结果通常会略逊色与之前使用的交叉验证时的表现结果（因为通过不断调整，系统在验证数据上终于表现良好，在未知数据集上可能达不到那么好的效果）。这时不要再继续调整超参数，因为这些改进在泛化到新数据集时又会变成无用功。（这里我做了上万次的超参数调整，提升不明显）

在本案例中，系统的最终性能可能并不比专家估算的效果更好，通过会下降20%左右，但是依然可以为专家腾出大量时间，投入到其他任务上。

8、上述完整关键代码总结

import os
import tarfile
import urllib.request

import pandas as pd
import numpy as np
from sklearn.model_selection import StratifiedShuffleSplit
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.compose import ColumnTransformer
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import randint
from scipy import stats

DOWNLOAD_ROOT = "https://raw.githubusercontent.com/ageron/handson-ml2/master/"
HOUSING_PATH = os.path.join("datasets", "housing")
HOUSING_URL = DOWNLOAD_ROOT + "datasets/housing/housing.tgz"


def fetch_housing_data(housing_url=HOUSING_URL, housing_path=HOUSING_PATH):
	"""
	下载数据
	"""
    if not os.path.isdir(housing_path):
        os.makedirs(housing_path)
    tgz_path = os.path.join(housing_path, "housing.tgz")
    urllib.request.urlretrieve(housing_url, tgz_path)
    housing_tgz = tarfile.open(tgz_path)
    housing_tgz.extractall(path=housing_path)
    housing_tgz.close()


def load_housing_data(housing_path=HOUSING_PATH):
	"""
	读取数据
	"""
    csv_path = os.path.join(housing_path, "housing.csv")
    return pd.read_csv(csv_path)


# "total_rooms", "total_bedrooms", "population", "households"
rooms_ix, bedroom_ix, population_ix, households_ix = 3, 4, 5, 6


class CombinedAttributesAdder(BaseEstimator, TransformerMixin):
	"""
	自定义转换器
	"""
    def __init__(self, add_bedroom_per_room=True):
        self.add_bedroom_per_room = add_bedroom_per_room

    def fit(self, X, y=None):
        return self

    def transform(self, X):
        """
        X[:, rooms_ix]：X数组，":"所有行，取rooms_ix列的数据（即，取第rooms_ix列的全部数据，从0开始计数）
        ------------
        np.r_是按列连接两个矩阵，就是把两矩阵上下相加，要求列数相等。
        np.c_是按行连接两个矩阵，就是把两矩阵左右相加，要求行数相等。即添加计算后的新列数据
        例：
            a = np.array([[1, 2, 3],
                          [7,8,9]])
            b = np.array([[4,5,6],
                          [1,2,3]])
            c = np.c_[a,b]

            >>> print(c)
            array([[1, 2, 3, 4, 5, 6],
                   [7, 8, 9, 1, 2, 3]])
        """
        rooms_per_household = X[:, rooms_ix] / X[:, households_ix]
        population_per_household = X[:, population_ix] / X[:, households_ix]
        if self.add_bedroom_per_room:
            bedrooms_per_room = X[:, bedroom_ix] / X[:, rooms_ix]
            return np.c_[X, rooms_per_household, population_per_household, bedrooms_per_room]
        else:
            return np.c_[X, rooms_per_household, population_per_household]


def display_scores(scores):
    print("分  数:", scores)
    print("平均值:", scores.mean())
    print("标准差:", scores.std())


if __name__ == '__main__':
    # 下载数据
    fetch_housing_data()
    # 读取数据
    housing = load_housing_data()
    # 按收入分组
    housing["income_cat"] = pd.cut(housing["median_income"],
                                   bins=[0, 1.5, 3, 4.5, 6, np.inf],
                                   labels=[1, 2, 3, 4, 5])
    # 按income_cat类别比例抽取 20% 的测试集 和 80% 的训练集
    split = StratifiedShuffleSplit(n_splits=1, test_size=0.2, random_state=42)
    for train_index, test_index in split.split(housing, housing["income_cat"]):
        strat_train_set = housing.loc[train_index]
        strat_test_set = housing.loc[test_index]
    # 删除收入分组，恢复数据
    for set_ in (strat_train_set, strat_test_set):
        set_.drop("income_cat", axis=1, inplace=True)
    # 寻找数据相关性
    corr_matrix = housing.corr()
    corr_matrix["median_house_value"].sort_values(ascending=False)
    """
    数据处理：
        1、训练集拆分成 预测集（housing）和标签（housing_labels）；
        2、预测集再拆分出 数字属性（housing_num）和 文本属性（ocean_proximity）
    """
    housing = strat_train_set.drop("median_house_value", axis=1)
    housing_labels = strat_train_set["median_house_value"].copy()
    housing_num = housing.drop("ocean_proximity", axis=1)
    """
    数值属性流水线：
        1、SimpleImputer（中位数填充缺失值）；
        2、CombinedAttributesAdder（自定义转化器）；
        3、StandardScaler（特征缩放）
    """
    num_pipeline = Pipeline([
        ('imputer', SimpleImputer(strategy="median")),
        ('attribs_adder', CombinedAttributesAdder()),
        ('std_scaler', StandardScaler()),
    ])
    housing_num_tr = num_pipeline.fit_transform(housing_num)

    num_attribs = list(housing_num)  # 获取数字集列头列表
    cat_attribs = ["ocean_proximity"]
    """
    所有属性的流水线：
        1、num_pipeline（数值属性流水线）；
        2、OneHotEncoder（文本属性 转换为 独热向量）
    """
    full_pipeline = ColumnTransformer([
        ("num", num_pipeline, num_attribs),
        ("cat", OneHotEncoder(), cat_attribs),
    ])
    housing_prepared = full_pipeline.fit_transform(housing)
    
    print("********************* 线性回归模型 *********************")
    # 线性回归模型
    lin_reg = LinearRegression()
    lin_reg.fit(housing_prepared, housing_labels)
    housing_predictions = lin_reg.predict(housing_prepared)
    lin_mse = mean_squared_error(housing_labels, housing_predictions)
    lin_rmse = np.sqrt(lin_mse)
    print(lin_rmse)
    # K-交叉验证 - 线性回归模型
    lin_scores = cross_val_score(lin_reg, housing_prepared, housing_labels, scoring="neg_mean_squared_error", cv=10)
    lin_rmse_scores = np.sqrt(-lin_scores)
    display_scores(lin_rmse_scores)
    
    print("********************* 决策树模型 *********************")
    # 决策树模型
    tree_reg = DecisionTreeRegressor()
    tree_reg.fit(housing_prepared, housing_labels)
    housing_predictions = tree_reg.predict(housing_prepared)
    tree_mse = mean_squared_error(housing_labels, housing_predictions)
    tree_rmse = np.sqrt(tree_mse)
    print(tree_rmse)
    # K-交叉验证 - 决策树模型
    scores = cross_val_score(tree_reg, housing_prepared, housing_labels, scoring="neg_mean_squared_error", cv=10)
    tree_rmse_scores = np.sqrt(-scores)
    display_scores(tree_rmse_scores)
    
    print("********************* 随机森林模型 *********************")
    # 随机森林模型
    forest_reg = RandomForestRegressor()
    forest_reg.fit(housing_prepared, housing_labels)
    housing_predictions = forest_reg.predict(housing_prepared)
    forest_mse = mean_squared_error(housing_labels, housing_predictions)
    forest_rmse = np.sqrt(forest_mse)
    print(forest_rmse)
    # K-交叉验证 - 随机森林模型
    forest_scores = cross_val_score(forest_reg, housing_prepared, housing_labels, scoring="neg_mean_squared_error", cv=10)
    forest_rmse_scores = np.sqrt(-forest_scores)
    display_scores(forest_rmse_scores)
    
    print("********************* 超参数微调 随机森林模型 网格搜索 *********************")
    """
    模型参数微调：
        模型：随机森林模型
        方法：网格搜索
    """
    param_grid = [
        {
     "n_estimators": [3, 10, 30], "max_features": [2, 4, 6, 8]},
        {
     "bootstrap": [False], "n_estimators": [3, 10], "max_features": [2, 3, 4]},
    ]
    forest_reg = RandomForestRegressor()
    grid_search = GridSearchCV(forest_reg, param_grid, cv=5, scoring="neg_mean_squared_error", return_train_score=True)
    grid_search.fit(housing_prepared, housing_labels)
    # 微调结果
    cvres = grid_search.cv_results_
    for mean_score, params in zip(cvres["mean_test_score"], cvres["params"]):
        print(np.sqrt(-mean_score), params)
    
    print("********************* 超参数微调 随机森林模型 随机搜索 *********************")
    """
    模型参数微调：
        模型：随机森林模型
        方法：随机搜索
    """
    param_distribs = {
     
        'n_estimators': randint(low=1, high=200),
        'max_features': randint(low=1, high=8),
    }
    forest_reg = RandomForestRegressor()
    rnd_search = RandomizedSearchCV(forest_reg, param_distributions=param_distribs,
                                    n_iter=10, cv=5, scoring='neg_mean_squared_error')
    rnd_search.fit(housing_prepared, housing_labels)
    # 微调结果
    cvres = rnd_search.cv_results_
    for mean_score, params in zip(cvres["mean_test_score"], cvres["params"]):
        print(np.sqrt(-mean_score), params)
    
    print("********************* 随机森林最优模型 测试集评估系统 *********************")
    final_model = rnd_search.best_estimator_

    X_test = strat_test_set.drop("median_house_value", axis=1)
    y_test = strat_test_set["median_house_value"].copy()

    X_test_prepared = full_pipeline.transform(X_test)
    final_predictions = final_model.predict(X_test_prepared)

    final_mse = mean_squared_error(y_test, final_predictions)
    final_rmse = np.sqrt(final_mse)
    print(final_rmse)
    # 评估的精确度，计算泛化误差的95%置信区间：
    confidence = 0.95
    squared_errors = (final_predictions - y_test) ** 2
    np.sqrt(stats.t.interval(confidence, len(squared_errors) - 1,
                             loc=squared_errors.mean(),
                             scale=stats.sem(squared_errors)))

你可能感兴趣的:(机器学习,python,人工智能)

2024华为OD机试真题-免单统计(C++/Java/Python)-E卷-100分 2024剑指offer 华为od c++python java
2024华为OD机试题库-(E卷+C卷+D卷)-(JAVA、Python、C++)目录题目描述输入描述输出描述用例1用例2用例3考点题目解析代码c++javapython题目描述华为商城举办了一个促销活动，如果某顾客是某一秒内最早时刻下单的顾客（可能是多个人），则可以获取免单。请你编程计算有多少顾客可以获取免单。输入描述输入为n行数据，每一行表示一位顾客的下单时间以（年-月-日时-分-秒.毫秒）形
win11编译llama_cpp_python cuda128 RTX30/40/50版本 System_sleep llama python windows cuda
Geforce50xx系显卡最低支持cuda128，llama_cpp_python官方源只有cpu版本，没有cuda版本，所以自己基于0.3.5版本源码编译一个RTX30xx/40xx/50xx版本。1.前置条件1.访问https://developer.download.nvidia.cn/compute/cuda/12.8.0/local_installers/cuda_12.8.0_571
基于Python的CATIA V5二次开发实战：工程图视图批量重链接技术解析 Python×CATIA工业智造 python 开发语言 pycharm CATIA二次开发
引言在汽车、航空航天等制造领域，CATIAV5作为核心的CAD设计平台，其工程图模块的自动化处理能力直接影响设计效率。本文针对工程图视图与三维模型断链的常见问题，深入解析基于pycatia的二次开发解决方案，提供一套可批量重链接视图的Python实现代码。该方案已通过实际项目验证，支持CATIAR2020x~R2023x版本，可提升85%以上的视图维护效率。功能概述本工具核心功能为工程图视图的批量
CATIA V5 二次开发实战：Python实现零件实体智能转产品装配 Python×CATIA工业智造 python pycharm 自动化 CATIA二次开发
引言在汽车、航空等制造行业中，CATIAV5因其强大的参数化建模能力被广泛应用。当面对包含多个独立几何体的零件文档（.CATPart）时，工程师常需将其转为产品文档（.CATProduct）以实现装配管理。本文将通过Python+pycatia库，实现自动化批量转换，提升10倍工作效率。功能概述核心功能：自动遍历零件文档中的实体，将其转换为产品文档中的独立零件组件技术亮点：基于CATIACOM接口
基于Python的微博舆情分析与可视化系统【附源码】 AI博士小张 python 数据分析数据库
基于Python的微博舆情分析与可视化系统摘要研究背景及意义一、数据流程总体架构二、详细处理流程与代码实现1.数据采集模块2.数据清洗与预处理3.情感分析与特征工程4.舆情分析模型5.可视化呈现三、性能优化要点摘要基于Python的微博舆情分析与可视化系统旨在利用大数据和自然语言处理技术，实时抓取、分析微博平台上的用户言论，并通过可视化手段揭示舆情的动态演变规律。系统采用Python技术栈，结合网
《DeepSeek-V3：动态温度调节算法，开启推理新境界！》人工智能深度学习
在人工智能领域不断探索的征程中，DeepSeek-V3以其卓越的创新技术，尤其是动态温度调节算法，成为了备受瞩目的焦点。这项算法犹如一把神奇的钥匙，巧妙地开启了推理速度与精度动态平衡的大门，为大语言模型的发展开辟了新的道路。温度，在大语言模型的世界里，是一个极为关键的参数，它掌控着模型输出的随机性。这一概念，脱胎于热力学，却在人工智能的领域中被赋予了全新的使命。当温度较低时，模型倾向于选择高概率词
基于PySide6的CATIA零件自动化着色工具开发实践 Python×CATIA工业智造自动化运维 python pycharm
引言在汽车及航空制造领域，CATIA作为核心的CAD设计软件，其二次开发能力对提升设计效率具有重要意义。本文介绍一种基于Python的CATIA零件着色工具开发方案，通过PySide6实现GUI交互，结合COM接口操作实现零件着色自动化。该方案成功解决了传统手动操作效率低下等问题，可提升90%以上的色彩管理效率。一、工具实现原理1.1技术架构本工具采用分层架构设计，包含：交互层：基于PySide6
测试中，哪些地方可以有效的利用deepseek 海姐软件测试测试工具
在软件测试全生命周期中，以下10个关键环节可高效利用DeepSeek实现智能化升级，每个场景均附带典型应用示例：---###一、需求分析阶段1.**需求漏洞挖掘**```python#输入PRD文档检测逻辑漏洞vulnerabilities=deepseek.detect_ambiguity(prd_text)#输出：发现未定义密码复杂度规则、缺少登录会话超时说明```2.**测试点自动提取**`
Python绘制表白代码，又是一个表白神器（赠源码，文章内有效果展示）「已注销」 python python 开发语言
前言嗨呀，又是我，又给你们带来了表白的代码之前发了那些照片里面加文字的…还有烟花…还有跳动爱心…emm你们也可以去看看哦今天带来的这个，也是很不错哦只不过它出来的有些慢，我这里先给你们看看这个效果图吧效果展示这里事先声明一下这里的文字数字还有那个Python都是可以自己改的数字的画，你们是可以改成自己想说的五句话爱心内的就可以是两个人的名字咯代码实现okok。话不多说马上开始导入模块所有源码点击此
Python 中自动打开网页并点击[自动化脚本],Selenium Ben_F Python python 自动化 selenium
要在Python中自动打开网页并点击第一个标签，你需要使用Selenium，它可以控制浏览器并执行像点击这样的操作。requests和BeautifulSoup只能获取并解析网页内容，但不能进行网页交互操作。步骤：安装Selenium安装WebDriver（例如ChromeDriver）编写代码来自动点击网页的第一个标签1.安装Selenium使用pip安装Selenium：pipinstalls
Python 自动化探索性数据分析（EDA）工具东方佑量子变法 python 自动化数据分析
1.PandasProfiling功能特点：自动生成详细的统计报告，包含数据概览、单变量分析、相关性矩阵、缺失值分析等。支持交互式HTML报告，可导出为PDF或其他格式。适合快速生成数据集的全面摘要。使用示例：importpandasaspdfrompandas_profilingimportProfileReportdf=pd.read_csv("data.csv")profile=Profil
chatgpt赋能python：Python生成噪声：让你的声音不再单调无味 test100t ChatGpt python chatgpt numpy 计算机
Python生成噪声：让你的声音不再单调无味如果你的项目需要制作音效或者游戏开发，你可能需要一些噪声来为场景增添真实感。而在Python中，生成各种形态的噪声将会变得非常容易。这篇文章将会探讨Python中如何生成多种类型的噪声，并且如何利用它们来让你的项目变得更加动态和生动。什么是噪声在音效和图形处理中，噪声是一种随机产生的信号，通常被用来模拟自然事件中的随机变化。在图像处理中，噪声常常被用来为
python之匿名函数 mumux183 python python 开发语言
有没有想过定义一个很短的回调函数，但又不想用def的形式去写一个那么长的函数，那么有没有快捷方式呢？答案是有的。python使用lambda来创建匿名函数，也就是不再使用def语句这样标准的形式定义一个函数。匿名函数主要有以下特点：lambda只是一个表达式，函数体比def简单很多。lambda的主体是一个表达式，而不是一个代码块。仅仅能在lambda表达式中封装有限的逻辑进去。lambda函数拥
python之迭代 mumux183 python #基础 python 开发语言
什么叫做迭代？比如在Java中，我们通过List集合的下标来遍历List集合中的元素，在Python中，给定一个list或tuple，我们可以通过for循环来遍历这个list或tuple，这种遍历就是迭代。可是，Python的for循环抽象程度要高于Java的for循环的，为什么这么说呢？因为Python的for循环不仅可以用在list或tuple上，还可以作用在其他可迭代对象上。也就是说，只要是
推荐项目：Python中的高性能Perlin噪声库——`noise` 毛彤影
推荐项目：Python中的高性能Perlin噪声库——noise项目地址:https://gitcode.com/gh_mirrors/nois/noise1、项目介绍在Python编程中寻找一种简单且快速的方法来生成Perlin噪声吗？那么noise库就是你的理想之选。这个开源项目由CaseyDuncan开发，提供了一个强大的工具集，用于在Python程序中轻松实现Perlin噪声的生成，适用于
核函数及其常见类型 Shockang 机器学习数学通关指南机器学习人工智能数学线性代数概率统计
前言本文隶属于专栏《机器学习数学通关指南》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见《机器学习数学通关指南》正文核心概念核函数（KernelFunction）是机器学习中处理非线性可分数据的关键工具。它的核心思想是隐式映射：通过将数据从原始低维空间映射到高维空间，使得在高维空间中线性可分，从而无需显式计算高维映射，仅需在低维空间高效计算
用python实现烟花代码，完整代码拿走不谢 mumux183 知识沉淀 python #基础 python pygame 开发语言
有时候用python实现一些有趣的代码，既有趣，又能提升知识使用Python实现动态烟花代码效果如下：不废话，直接上代码：importpygamefromrandomimportrandint,uniform,choiceimportmathvector=pygame.math.Vector2gravity=vector(0,0.3)DISPLAY_WIDTH=DISPLAY_HEIGHT=800
Python构建基于协同过滤的推荐系统：从理论到实践清水白石008 python Python题库 python 开发语言
构建基于协同过滤的推荐系统：从理论到实践推荐系统在现代应用中无处不在，从电商平台的商品推荐到流媒体服务的内容推荐，推荐系统极大地提升了用户体验。本文将详细介绍如何使用Python构建一个基于协同过滤算法的推荐系统，内容涵盖理论基础、数据处理、算法实现以及实际应用。一、推荐系统概述推荐系统主要分为三类：基于内容的推荐、基于协同过滤的推荐和混合推荐系统。本文重点介绍基于协同过滤的推荐系统。协同过滤（C
#arcGis#、#arcGis Pro# 属性表内保留小数点后2位小数？字段内如何添加字符？云上观景经验分享
保留小数点后几位写几VB脚本：字段计算器内输入round([xxx面积],2)&意思是和、与、and，就是可以把两个字段的内容拼接、或连接起来，比如：hello&穿越机&arcgis=hello穿越机arcgis123&456=123456划重点：随意连接字段内内容使用过程中发现arcgisPro中是python，没有VB脚本，如何解决？？？Python：字段计算器内输入str(round(!字段
C语言基础系列【20】内存管理程序喵大人 C语言基础系列 c语言开发语言 c++后端面试
博主介绍：程序喵大人35-资深C/C++/Rust/Android/iOS客户端开发10年大厂工作经验嵌入式/人工智能/自动驾驶/音视频/游戏开发入门级选手《C++20高级编程》《C++23高级编程》等多本书籍著译者更多原创精品文章，首发gzh，见文末记得订阅专栏，以防走丢C++基础系列专栏C语言基础系列C++大佬养成攻略在C++编程中，内存管理是一个至关重要的概念。要深入理解内存管理，我们肯定要
2024年Python最新Pytorch--3，面试高分实战 m0_60666452 程序员 python 学习面试
（1）Python所有方向的学习路线（新版）这是我花了几天的时间去把Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。最近我才对这些路线做了一下新的更新，知识体系更全面了。（2）Python学习视频包含了Python入门、爬虫、数据分析和web开发的学习视频，总共100多个，虽然没有那么全面，但是对于入门
Python Selenium 库：高级自动化测试与网页交互三带俩王 python selenium 交互
在当今的软件开发和网页自动化领域，Python的Selenium库是一个强大的工具。它允许开发者通过编程方式与网页进行交互，实现自动化测试、数据抓取等多种任务。本文将深入探讨PythonSelenium库的高级用法，展示其在不同场景下的强大功能。一、Selenium库简介Selenium是一个用于自动化测试网页的工具集，它支持多种浏览器，包括Chrome、Firefox、Safari等。Selen
Selenium 库的爬虫实现叱咤少帅（少帅） Python从入门到高手 selenium
Selenium是什么？Selenium是一个用于自动化Web应用程序测试的工具。它提供了一个用于测试网站的框架，可以模拟用户在浏览器中的操作，如点击链接、填写表单、提交数据等。Selenium可以在多种浏览器和操作系统上运行，并且支持多种编程语言，如Python、Java、JavaScript等。通过编写测试脚本，开发人员可以使用Selenium来自动化执行各种Web应用程序的测试，以确保它们在
Python-Meteor：Python 编写的Meteor客户端嵇子高Quintessa
Python-Meteor：Python编写的Meteor客户端python-meteorAmeteorclientforpython项目地址:https://gitcode.com/gh_mirrors/py/python-meteor项目基础介绍Python-Meteor是一个开源项目，旨在为Python提供一个Meteor客户端。它允许开发者使用Python语言与Meteor应用程序进行交互
2024年最新PyTorch深度学习项目实战100例数据集_python 深度学习项目演练 2401_84585440 程序员深度学习 python pytorch
前言最近很多订阅了《PyTorch深度学习项目实战100例》的用户私信咨询有些数据集下载不了以及一些文章中没有给出数据集链接，为了解决这个问题，专门开设了本篇文章，提供数据集下载链接，打包100例的所有数据集。本专栏适用人群：深度学习初学者，刚刚接触PyTorch的用户群体，专栏将具体讲解如何快速搭建深度学习模型用自己的数据集实现深度学习小项目，快速让新手小白能够对基于深度学习方法有个基本的框架认
PyTorch 学习路线 gorgor在码农 #python入门基础 python pytorch
学习PyTorch需要结合理论理解和实践编码，逐步掌握其核心功能和实际应用。以下是分阶段的学习路径和资源推荐，适合从入门到进阶：1.基础知识准备前提条件Python基础：熟悉Python语法（变量、函数、类、模块等）。数学基础：了解线性代数、微积分、概率论（深度学习的基础）。机器学习基础：理解神经网络、损失函数、优化器（如梯度下降）等概念。学习资源Python入门：Python官方教程机器学习基础
七成月活过亿 APP 已接入人工智能自不量力的A同学人工智能
2025年3月4日，第三方数据机构QuestMobile发布的《2024中国移动互联网年度大报告》显示，截至2024年12月，月活用户过亿的APP中，有超过七成已接入AI123。相关具体情况如下2：整体背景：2024年全网月活用户已达12.57亿，一线、新一线、二线城市用户接近五成，其中一线城市用户同比增长了1.2%。用户对互联网的使用程度加深，整体月人均使用时长达到171.7小时，短视频、即时通
python机试1：读取和输出数据大多_C python 华为od 开发语言
读取和输出数据在LeetCode和机试中也是很重要的基础。你需要掌握文件读取、输入处理、输出优化，才能应对不同类型的题目和考试环境。以下是详细的知识点：1.标准输入与输出✅Python标准输入input()机试中，很多题目要求从标准输入stdin读取数据，通常使用：n=int(input())#读取一个整数s=input().strip()#读取一行字符串arr=list(map(int,inpu
Imagen原理与代码实例讲解 AI天才研究院计算 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Imagen原理与代码实例讲解1.背景介绍在人工智能领域中,图像生成一直是一个具有挑战性的任务。传统的计算机视觉模型通常专注于理解和分析现有图像,而生成全新的高质量图像则需要更高级的技术。随着深度学习技术的不断发展,生成式对抗网络(GenerativeAdversarialNetworks,GAN)等新型模型逐渐展现出了令人惊叹的图像生成能力。谷歌的Imagen就是一种基于大型视觉语言模型的全新图
dataframe数据常用python操作 shlay 统计分析软件 python 信息可视化数据分析
dataframe数据常用python操作dataframe数据常用知识点1.创建dataframe1.1使用字典创建DataFrame：1.2使用列表创建DataFrame：1.3使用numpy数组创建DataFrame：1.4从TXT文件中创建DataFrame：1.5从CSV文件中创建DataFrame：1.6从Excel文件中创建DataFrame：2.dataframe数据保存3.dat
多线程编程之理财周凡杨 java 多线程生产者消费者理财
现实生活中，我们一边工作，一边消费，正常情况下会把多余的钱存起来，比如存到余额宝，还可以多挣点钱，现在就有这个情况：我每月可以发工资20000万元（暂定每月的1号），每月消费5000（租房+生活费）元（暂定每月的1号），其中租金是大头占90%，交房租的方式可以选择（一月一交，两月一交、三月一交），理财：1万元存余额宝一天可以赚1元钱，
[Zookeeper学习笔记之三]Zookeeper会话超时机制 bit1129 zookeeper
首先，会话超时是由Zookeeper服务端通知客户端会话已经超时，客户端不能自行决定会话已经超时，不过客户端可以通过调用Zookeeper.close()主动的发起会话结束请求，如下的代码输出内容 Created /zoo-739160015 CONNECTEDCONNECTED .............CONNECTEDCONNECTED CONNECTEDCLOSEDCLOSED
SecureCRT快捷键 daizj secureCRT 快捷键
ctrl + a : 移动光标到行首ctrl + e ：移动光标到行尾crtl + b: 光标前移1个字符crtl + f: 光标后移1个字符crtl + h : 删除光标之前的一个字符ctrl + d ：删除光标之后的一个字符crtl + k ：删除光标到行尾所有字符crtl + u : 删除光标至行首所有字符crtl + w: 删除光标至行首
Java 子类与父类这间的转换周凡杨 java 父类与子类的转换
最近同事调的一个服务报错，查看后是日期之间转换出的问题。代码里是把 java.sql.Date 类型的对象强制转换为 java.sql.Timestamp 类型的对象。报java.lang.ClassCastException。代码：
可视化swing界面编辑朱辉辉33 eclipse swing
今天发现了一个WindowBuilder插件，功能好强大，啊哈哈，从此告别手动编辑swing界面代码，直接像VB那样编辑界面，代码会自动生成。首先在Eclipse中点击help，选择Install New Software,然后在Work with中输入WindowBui
web报表工具FineReport常用函数的用法总结（文本函数）老A不折腾 finereport web报表工具报表软件 java报表
文本函数 CHAR CHAR(number):根据指定数字返回对应的字符。CHAR函数可将计算机其他类型的数字代码转换为字符。 Number:用于指定字符的数字，介于1Number:用于指定字符的数字，介于165535之间（包括1和65535）。示例: CHAR(88)等于“X”。 CHAR(45)等于“-”。 CODE CODE(text):计算文本串中第一个字
mysql安装出错林鹤霄 mysql安装
[root@localhost ~]# rpm -ivh MySQL-server-5.5.24-1.linux2.6.x86_64.rpm Preparing... #####################
linux下编译libuv aigo libuv
下载最新版本的libuv源码，解压后执行： ./autogen.sh 这时会提醒找不到automake命令，通过一下命令执行安装（redhat系用yum，Debian系用apt-get）： # yum -y install automake # yum -y install libtool 如果提示错误：make: *** No targe
中国行政区数据及三级联动菜单 alxw4616
近期做项目需要三级联动菜单,上网查了半天竟然没有发现一个能直接用的! 呵呵,都要自己填数据....我了个去这东西麻烦就麻烦的数据上. 哎,自己没办法动手写吧. 现将这些数据共享出了,以方便大家.嗯,代码也可以直接使用文件说明 lib\area.sql -- 县及县以上行政区划分代码（截止2013年8月31日)来源：国家统计局发布时间：2014-01-17 15:0
哈夫曼加密文件百合不是茶哈夫曼压缩哈夫曼加密二叉树
在上一篇介绍过哈夫曼编码的基础知识,下面就直接介绍使用哈夫曼编码怎么来做文件加密或者压缩与解压的软件,对于新手来是有点难度的,主要还是要理清楚步骤; 加密步骤: 1,统计文件中字节出现的次数,作为权值 2,创建节点和哈夫曼树 3,得到每个子节点01串 4,使用哈夫曼编码表示每个字节
JDK1.5 Cyclicbarrier实例 bijian1013 java thread java多线程 Cyclicbarrier
CyclicBarrier类一个同步辅助类，它允许一组线程互相等待，直到到达某个公共屏障点 (common barrier point)。在涉及一组固定大小的线程的程序中，这些线程必须不时地互相等待，此时 CyclicBarrier 很有用。因为该 barrier 在释放等待线程后可以重用，所以称它为循环的 barrier。 CyclicBarrier支持一个可选的 Runnable 命令，
九项重要的职业规划 bijian1013 工作学习
一. 学习的步伐不停止古人说，活到老，学到老。终身学习应该是您的座右铭。世界在不断变化，每个人都在寻找各自的事业途径。您只有保证了足够的技能储
【Java范型四】范型方法 bit1129 java
范型参数不仅仅可以用于类型的声明上，例如 package com.tom.lang.generics; import java.util.List; public class Generics<T> { private T value; public Generics(T value) { this.value =
【Hadoop十三】HDFS Java API基本操作 bit1129 hadoop
package com.examples.hadoop; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoo
ua实现split字符串分隔 ronin47 lua split
LUA并不象其它许多"大而全"的语言那样，包括很多功能，比如网络通讯、图形界面等。但是LUA可以很容易地被扩展：由宿主语言(通常是C或 C++)提供这些功能，LUA可以使用它们，就像是本来就内置的功能一样。LUA只包括一个精简的核心和最基本的库。这使得LUA体积小、启动速度快，从而适合嵌入在别的程序里。因此在lua中并没有其他语言那样多的系统函数。习惯了其他语言的字符串分割函
java-从先序遍历和中序遍历重建二叉树 bylijinnan java
public class BuildTreePreOrderInOrder { /** * Build Binary Tree from PreOrder and InOrder * _______7______ / \ __10__ ___2 / \ / 4
openfire开发指南《连接和登陆》开窍的石头 openfire 开发指南 smack
第一步官网下载smack.jar包下载地址：http://www.igniterealtime.org/downloads/index.jsp#smack 第二步把smack里边的jar导入你新建的java项目中开始编写smack连接openfire代码 p
[移动通讯]手机后盖应该按需要能够随时开启 comsci 移动
看到新的手机，很多由金属材质做的外壳，内存和闪存容量越来越大，CPU速度越来越快，对于这些改进，我们非常高兴，也非常欢迎但是，对于手机的新设计，有几点我们也要注意第一：手机的后盖应该能够被用户自行取下来，手机的电池的可更换性应该是必须保留的设计,
20款国外知名的php开源cms系统 cuiyadll cms
内容管理系统，简称CMS，是一种简易的发布和管理新闻的程序。用户可以在后端管理系统中发布，编辑和删除文章，即使您不需要懂得HTML和其他脚本语言，这就是CMS的优点。在这里我决定介绍20款目前国外市面上最流行的开源的PHP内容管理系统，以便没有PHP知识的读者也可以通过国外内容管理系统建立自己的网站。 1. Wordpress WordPress的是一个功能强大且易于使用的内容管
Java生成全局唯一标识符 darrenzhu java uuid unique identifier id
How to generate a globally unique identifier in Java http://stackoverflow.com/questions/21536572/generate-unique-id-in-java-to-label-groups-of-related-entries-in-a-log http://stackoverflow
php安装模块检测是否已安装过, 使用的SQL语句 dcj3sjt126com sql
SHOW [FULL] TABLES [FROM db_name] [LIKE 'pattern'] SHOW TABLES列举了给定数据库中的非TEMPORARY表。您也可以使用mysqlshow db_name命令得到此清单。本命令也列举数据库中的其它视图。支持FULL修改符，这样SHOW FULL TABLES就可以显示第二个输出列。对于一个表，第二列的值为BASE T
5天学会一种 web 开发框架 dcj3sjt126com Web 框架 framework
web framework层出不穷，特别是ruby/python,各有10+个,php/java也是一大堆根据我自己的经验写了一个to do list,按照这个清单，一条一条的学习，事半功倍，很快就能掌握一共25条，即便很磨蹭，2小时也能搞定一条，25*2=50。只需要50小时就能掌握任意一种web框架各类web框架大同小异:现代web开发框架的6大元素，把握主线，就不会迷路建议把本文
Gson使用三(Map集合的处理,一对多处理) eksliang json gson Gson map Gson 集合处理
转载请出自出处：http://eksliang.iteye.com/blog/2175532 一、概述 Map保存的是键值对的形式，Json的格式也是键值对的，所以正常情况下，map跟json之间的转换应当是理所当然的事情。二、Map参考实例 package com.ickes.json; import java.lang.refl
cordova实现“再点击一次退出”效果 gundumw100 android
基本的写法如下： document.addEventListener("deviceready", onDeviceReady, false); function onDeviceReady() { //navigator.splashscreen.hide(); document.addEventListener("b
openldap configuration leaning note iwindyforest configuration
hostname // to display the computer name hostname <changed name> // to change go to: /etc/sysconfig/network, add/modify HOSTNAME=NEWNAME to change permenately dont forget to change /etc/hosts
Nullability and Objective-C 啸笑天 Objective-C
https://developer.apple.com/swift/blog/?id=25 http://www.cocoachina.com/ios/20150601/11989.html http://blog.csdn.net/zhangao0086/article/details/44409913 http://blog.sunnyxx
jsp中实现参数隐藏的两种方法 macroli JavaScript jsp
在一个JSP页面有一个链接，//确定是一个链接?点击弹出一个页面，需要传给这个页面一些参数。//正常的方法是设置弹出页面的src="***.do?p1=aaa&p2=bbb&p3=ccc"//确定目标URL是Action来处理?但是这样会在页面上看到传过来的参数，可能会不安全。要求实现src="***.do"，参数通过其他方法传！//////
Bootstrap A标签关闭modal并打开新的链接解决方案 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
Bootstrap里面的js modal控件使用起来很方便，关闭也很简单。只需添加标签 data-dismiss="modal" 即可。可是偏偏有时候需要a标签既要关闭modal，有要打开新的链接，尝试多种方法未果。只好使用原始js来控制。 <a href="#/group-buy" class="btn bt
二维数组在Java和C中的区别流淚的芥末 java c 二维数组数组
Java代码： public class test03 { public static void main(String[] args) { int[][] a = {{1},{2,3},{4,5,6}}; System.out.println(a[0][1]); } } 运行结果： Exception in thread "mai
systemctl命令用法 wmlJava linux systemctl
对比表，以 apache / httpd 为例任务旧指令新指令使某服务自动启动 chkconfig --level 3 httpd on systemctl enable httpd.service 使某服务不自动启动 chkconfig --level 3 httpd off systemctl disable httpd.service 检查服务状态 service h