特征组合是指两个或多个特征相乘形成的合成特征。特征的相乘组合可以提供超出这些特征单独能够提供的预测能力。
学习目标
-----------------------------------------------------
上图中左图是一个线性问题,因为我们可以画一条线将两种颜色的点分开。右图则靠一条线做不到,所以这是个非线性性问题。
要解决非线性问题,可以创建一个特征组合。
特征组合是指:通过将两个或多个输入特征相乘来对特征空间中的非线性规律进行编码的合成特征。“cross”(组合)这一术语来自 cross product(向量积)。
我们将x1,x2组合成一个名为x3的特征组合:x3 = x1x2
我们像处理任何其他特征一样来处理这个新建的x3特征组合。线性公式变为:y = b + w1x1 + w2x2 + w3x3
线性算法可以算出w3的权重,虽然w3表示非线性信息,但是我们不需言改变线性模型的训练方式就可以确定w3的值。
我们可以创建很多不同种类的特征组合。例如:
[A X B]
:将两个特征的值相乘形成的特征组合。[A x B x C x D x E]
:将五个特征的值相乘形成的特征组合。[A x A]
:对单个特征的值求平方形成的特征组合。通过采用随机梯度下降法,可以有效地训练线性模型。因此,在使用扩展的线性模型时辅以特征组合一直都是训练大规模数据集的有效方法。
-----------------------------------------------------
特征组合 (Feature Crosses):组合独热矢量
到目前为止,我们已经重点介绍了如何对两个单独的浮点特征进行特征组合。在实践中,机器学习模型很少会组合连续特征。不过,机器学习模型却经常组合独热特征矢量,将独热特征矢量的特征组合视为逻辑连接。例如,假设我们具有以下两个特征:国家/地区和语言。对每个特征进行独热编码会生成具有二元特征的矢量,这些二元特征可解读为 country=USA, country=France
或 language=English, language=Spanish
。然后,如果您对这些独热编码进行特征组合,则会得到可解读为逻辑连接的二元特征
-------------------------------------------------------
以上整理转载在谷歌出品的机器学习速成课程点击打开链接 侵删!