【自然语言处理】NLP特征的案例分析

NLP分类任务示例

  • 文本分类:语言识别
  • 文本分类:主题分类
  • 文本分类:作者归属
  • 上下文中的单词:词性标注
  • 上下文中的单词:命名实体识别
  • 上下文中的单词的语言特征:介词词义消岐
  • 上下文中的单词的关系:弧分解分析

文本分类:语言识别

语言识别的任务中,希望将其归类成一组固定的语言,字母级二元文法词袋是这个任务中一个非常强的表示,二阶字母对是一个核心特征,文档中的计数;
编码检测,相应的特征是字节级二元文法词袋。
搜狗新闻文本分类竞赛
基于Text-CNN模型的中文文本分类实战

文本主题:主题分类

在主题分类的文章之中,需要根据它归类成一组预定义的主题)(经济,政治,体育,休闲)
我们需要以词作为基本的单位,一个好的特征集是文档中的词袋
如果没有很多的训练样本,可以针对文档做预处理达到更好的效果,如果每个词替换为对应的词元(lemma)通过词簇或者词嵌入向量等分布特征替换或者补充单词
使用线性分类器的时候,考虑单词对出现的次数,非线性分类器缓解了这个情况。
在使用词袋的时候,每个单词按照信息量加权是有用的,使用TF-IDF 加权,学习算法也可以自己加权

文本分类:作者归属

你可能感兴趣的:(自然语言处理)