文本分类(课堂笔记)

这次的文章是根据牛津大学的公开课深度学习NLP中关于文本分类的课堂笔记(其实就是一些截图了,因为后来发现这个课程比较基础)。
原视频看这里:https://www.bilibili.com/video/av9817911/?p=7

首先,文本分类都有什么类型呢?
二值分类;
单标签分类;
多标签分类;
聚类(无标签)

那么分类都有哪些方法呢?各有什么优缺点?
这个比较简单,直接截图吧。
文本分类(课堂笔记)_第1张图片

我们常用的便是基于statistical的文本分类方法。可以把这个问题表示为P(c|d), d 代表文本的表征,c代表文本的类别。
现在我们就可以把文本分类拆分成两个步骤:
表征文本;
求出文本属于类别c的概率

那表示文本的方法有哪些呢?
文本分类(课堂笔记)_第2张图片

求概率的模型又有哪些呢?
文本分类(课堂笔记)_第3张图片

下面列举几个常见的模型以及其优缺点:
朴素贝叶斯:
文本分类(课堂笔记)_第4张图片

逻辑回归:
文本分类(课堂笔记)_第5张图片

CNN:
文本分类(课堂笔记)_第6张图片

你可能感兴趣的:(深度学习,机器学习)