防止模型过拟合之权重正则化

权重正则化是对模型的权重进行约束,可以防止模型过拟合。通过对模型的权重进行约束,可以让模型权重趋向于接近0的值。

理解权重正则化为什么可以防止过拟合,我们先考虑一种极端情况,当模型的某个权重等于0的时候,对应的那项特征无论取任何值,经过与权重0相乘,得到的结果始终是0。这相当于权重为0对应的那项特征,对最终的结果没有影响。再思考权重正则化,经过正则化之后,模型里面的一部分权重非常接近0,说明这部分权重对应的特征对模型结果的影响很小。这就相当于,我们建立的模型,仅提取了特征中对最终结果影响明显的特征,也即使用了比较少的特征量,对问题进行建模。这样就类似于让模型抓住问题的本质,所以更具有普适性,也就不容易过拟合了。


在tensorflow2中使用权重正则化非常的简便,在构建层的时候,添加想要使用的正则化方法就可以了。比如在Dense层里面,对权重参数w添加L2的正则化,可以这样实现。注意观察这里kernel_regularizer的配置。

tf.keras.layers.Dense(units=20, activation='relu', kernel_regularizer=tf.keras.regularizers.L2(), input_shape=(13,), name='dense_1')

我们以boston房价数据为例,观察一下是否使用权重正则化、使用不同的权重正则化方法,其权重参数会如何变化。

import tensorflow as tf
import matplotlib.pyplot as plt
import numpy as np

# 加载boston房价数据,输入有13个特征,标签是房价。这是一个回归问题
(x_train, y_train),(x_test, y_test) = tf.keras.datasets.boston_housing.load_data()

x_train.shape
# (404, 13)

# 不使用权重正则化
def create_model_no_regularizer():
    model = tf.keras.Sequential(
        [
            tf.keras.layers.Dense(units=20, activation='relu', input_shape=(13,), name='dense_1'),
            tf.keras.layers.Dense(units=1, name='logits')
        ]
    )
    return model

# 使用L2进行权重正则化
def create_model_L2():
    model = tf.keras.Sequential(
        [
            tf.keras.layers.Dense(units=20, activation='relu', kernel_regularizer=tf.keras.regularizers.L2(), input_shape=(13,), name='dense_1'),
            tf.keras.layers.Dense(units=1, name='logits')
        ]
    )
    return model

# 使用L1进行权重正则化
def create_model_L1():
    model = tf.keras.Sequential(
        [
            tf.keras.layers.Dense(units=20, activation='relu', kernel_regularizer=tf.keras.regularizers.L1(), input_shape=(13,), name='dense_1'),
            tf.keras.layers.Dense(units=1, name='logits')
        ]
    )
    return model

# 训练和评测模型的函数
def train_and_evaluate(create_fun):
    model = create_fun()
    model.compile(
        optimizer = tf.keras.optimizers.Adam(),
        loss = tf.keras.losses.MeanSquaredError(),
        metrics = [tf.keras.metrics.MeanAbsoluteError()]
    )
    history = model.fit(
        x_train,
        y_train,
        epochs = 100,
        validation_split = 0.2,
        verbose = 0
    )
    rlt = model.evaluate(x_test,y_test,verbose=0,return_dict=True)
    print('mae:{:5.3f}'.format(rlt['mean_absolute_error']))
    return history,model

# 训练这3种模型
history,model = train_and_evaluate(create_model_no_regularizer)
# mae:5.274

history_L2,model_L2 = train_and_evaluate(create_model_L2)
# mae:5.675

history_L1,model_L1 = train_and_evaluate(create_model_L1)
# mae:4.675

# 获取每个模型dense_1的weights权重
w1 = model.get_layer('dense_1')
w1_ = w1.get_weights()[0].reshape((-1))
w1_L2 = model_L2.get_layer('dense_1')
w1_L2_ = w1_L2.get_weights()[0].reshape((-1))
w1_L1 = model_L1.get_layer('dense_1')
w1_L1_ = w1_L1.get_weights()[0].reshape((-1))

# 绘制weights权重的直方图
vmin = -0.75
vmax = 0.75
plt.hist(w1_, bins=12, range=(vmin,vmax))
plt.hist(w1_L2_, bins=12, range=(vmin,vmax))
plt.hist(w1_L1_, bins=12, range=(vmin,vmax))
plt.legend(['no_regularizer','L2_regularizer','L1_regularizer'])
plt.xlabel('weight bin boundaries')
plt.ylabel('counts')
plt.show()

防止模型过拟合之权重正则化_第1张图片

 从绘制的权重直方图可以看出,做正则化与不做正则化相比,更多的权重会分布在接近0的位置。使用L1进行正则化,与使用L2正则化相比,会有更多的权重值落在0的位置,使得得到的权重更为稀疏。

你可能感兴趣的:(tensorflow2使用,python,算法)