文献阅读——Using Multi-level Attention Based on Concept Embedding Enrichen Short Text to Classification

本次对上面的文献进行了阅读,并进行总结
上面的文献使用的方式是使用C-ST和C-CS这两种注意力机制相结合使用的方式来提升性能短文本分类的性能。本篇文献中创新点应该是在于不仅仅使用了短文本的自身的信息同时也使用了concept的信息。
首先,如果要对短文本执行分类任务,首当其冲应该提到的是对短文本信息进行表示学习,首先得到一个良好的文本表示,这样的一个中间处理过程对于短文本分类所可以达到的精度是十分重要的。文中提到在之前的表示学习中经常使用到的表示方式有两种方式:explicit representation and implicit representation(显式表示和隐式表示)这两种方式。
显式表示:这种方式中短文本通过标注之后表现为一种稀疏向量,这种表示方式对我们人类来说是十分容易理解的,但是这种方式很难从上下文中捕捉到更加深层次的语篇信息,并且还有数据稀疏性问题的存在。
隐式表示:这种方式中短文本通过一个映射关系映射到一个隐式空间中,并且将之前较为稀疏的短文本向量映射为一个较为稠密的向量集中。这种方式可以相比较显式表示来说避免一些稀疏性问题,并且通过编码器和解码器方式来捕捉到更加深层次语义信息。但是这种方式也存在一些问题:这种方式会忽略掉一些语义信息——isA等等,并且这种信息对于理解短文本的含义是十分有用的,尤其是对于一些并不认识的词。

你可能感兴趣的:(短文本分类,人工智能,深度学习,分类)