论文复现:用 CNN 进行文本分类

前一篇文章中我们学习了 CNN 的基础结构,并且知道了它是计算机视觉领域的基础模型,其实 CNN 不仅仅可以用于计算机视觉,还可以用于处理自然语言处理问题,今天就来看看如何用 CNN 处理文本分类任务。

文本分类就是根据文本的内容给句子或者文档打标签分类别,是自然语言处理领域中很基础的应用,前面学过的情感分析和垃圾邮件识别都属于文本分类任务。再比如主题标签、语言检测、意图识别,这些也都在社交媒体分析、品牌监测、客户服务上有广泛的应用。我们平常遇到的数据有 80% 是非结构化数据,而文本数据是最常见的类型之一,如果能够将社交媒体上的、网页上的、聊天对话中的有用信息提取出来,那么会带来很高的应用价值。

既然是分类问题,那么在情感分析那一章中提到的很多算法都是可以尝试的,Naive Bayes、Support Vector Machines、RNN,还有今天要讲的 CNN。

CNN 在处理文本任务上有什么优势

前面一篇文章中我们介绍了 CNN 的基础,在 NLP 领域中 CNN 比较适合分类任务,因为将卷积用于文本任务可以保持数据的空间特征,相比而言,对于 POS 这种需要局部信息的任务简单的 CNN 就不会有很大优势。

对于分类任务,例如在一个情感分析任务中,有这样两句话:

  • I like the movie, not too bad
  • I did not like the movie, bad

假设卷积窗口长度为 5,则第一句话的卷积窗口经过的区域是:

  • [I, like, the, movie, ','],这句话大概率会被识别成情感标签为正
  • [like, the, movie, ',', no

你可能感兴趣的:(自然语言处理面试基础)