A Radical-Aware Attention-Based Model for Chinese Text Classification提高中文文本分类的算法

提出了一种基于注意的四粒度模型(RAFG),该模型充分利用了汉字、词、字级词根的特点。采用了一种序列化的BLSTM结构,该结构具有上下文感知能力,能够捕获远程信息,对中文字符共享属性和文本序列特征进行建模

A Radical-Aware Attention-Based Model for Chinese Text Classification提高中文文本分类的算法_第1张图片

输入层:特征(字)

              词

并且得到两种词根级特征:

 

英文符号和标点都表示为“-”

A Radical-Aware Attention-Based Model for Chinese Text Classification提高中文文本分类的算法_第2张图片

 嵌入层:

将汉字,词以及其词根级特征分别表示为嵌入矩阵

 E^{c} E^{w} E^{R^c} E^{R^w}

 表示层:

给定句子x的emdedding:

隐藏层: 

A Radical-Aware Attention-Based Model for Chinese Text Classification提高中文文本分类的算法_第3张图片

 \overrightarrow{h_t}\overleftarrow{h_t}是隐藏层的前向和后向隐向量 y_t是两者的串联,表示为隐藏层的输出

设计了一种能够捕捉偏旁与其对应字词之间相互关系的注意机制

每一个输出Y{^c}Y{^w}分别和e{^r}{^c} e{^r}{^w}做内积

A Radical-Aware Attention-Based Model for Chinese Text Classification提高中文文本分类的算法_第4张图片

A Radical-Aware Attention-Based Model for Chinese Text Classification提高中文文本分类的算法_第5张图片

 

 得到新的embedding,带有注意力。

预测层:

 将BLSTM^r^cBLSTM^r^w的输出连接起来为Con输入到全连接层

 

模型训练:

 A Radical-Aware Attention-Based Model for Chinese Text Classification提高中文文本分类的算法_第6张图片

 运用交叉熵损失函数 T是输出的文本,Corpus为语料库,K表示类别数

你可能感兴趣的:(nlp)