从文本特征到输入

一.编码分类特征:

1.one-hot编码:

     创建一个向量,向量的每一位表示某单词的出现次数。

2.稠密编码:

     步骤:

     1.先做词嵌入,(如word2vec)

      2.抽取一组与预测输出类别相关的向量,对特征向量进行组合(拼接、加减乘除等)得到输入向量x

     3.将x输入到非线性分类器中。

 

大部分神经网络工具包不能很好滴处理高维系数向量,然而这一障碍可以通过工程方法解决。稠密表示的主要益处是具有很强的泛化能力。在同一类别下区分度大的特征并且不同特征之间没有相互关系的情况下,我们可以使用独热编码。使用稀疏向量编码的神经网络结构可以参考Johnson和zhang[2015]的工作。

 

 

二。组合稠密向量

1.基于窗口的特征:

     考虑位置为i的词语,两边各包含k个单词的窗口,设窗口大小k=2,我们要编码在位置i-2,i-1,i+1,i+2上的词。假设这4个词分别为abcd。如果我们不关心abcd之间的相对位置,那么可以直接构造为a+b+c+d。如果我们关心相对位置,那么可以拼接位[a;b;c;d]。如果我们关系距离中心词的距离,那么可以拼接为  0.5a+b+c+0.5d。如果关系在中心词前还是后则可以拼接为【a+b;c+d】

2.可变特征数目:连续词袋

对于前馈神经网络,输入需要固定的维度。因此我们需要用固定大小的向量来表示任意数量的特征。一种方案叫做连续词袋(CBOW)【Mikolov et al.,2013b】。通过相加或平均的方式组合特征的嵌入向量。

CBOW() = 1/k * \sum v(fi)

加权CBOW是CBOW的一种简单变换,为不同的向量赋予不同的权重。

WCBOW = \frac{1}{\sum ai} * \sum ai*v(fi)

权重ai表明特征的相对重要性,可以使tfidf等。

 

 

三。杂项

1.距离与位置特征:

 

你可能感兴趣的:(从文本特征到输入)