零基础入门NLP赛事-新闻文本分类记录 task1

  1. 赛题描述
    数据为:匿名处理后的新闻数据。数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。
    赛题数据由以下几个部分构成:训练集20w条样本,测试集A包括5w条样本,测试集B包括5w条样本。赛题训练数据如下:数据格式
    评价标准为:f1-score,显然越大越好
    提交结果:输出每一条test’数据所属的类别

  2. 思路
    本质上是一个分类问题,要根据文本每一句的字符进行分类。但是赛题数据是匿名的,不能直接根据中文分词。所以要对匿名字符进行建模再分类文本。
    几个解题思路:

    1. TF-IDF + 机器学习分类器
      TF-IDF 即 词频-逆文档频率。常用于信息检索和文本挖掘,比如寻找文本相似性,关键词提取,此处显然适合用于提取特征。
      TF-IDF是一种统计方法,用以评估一个字/词对于一个文件集/语料库中的一份文件的重要程度。字词的重要性同其在文件中出现的次数成正比,同其在语料库中出现的频率成反比。
      所以TF-IDF,实际上是TF * IDF,倾向于过滤掉常见的词语,留下重要的词语。显然不适合一词多义,一义多词以及其他更复杂的情况。但是对于相对简单的情况,特征提取的效果较好。
      提取完特征后,相当于对特征降维,再用常见的SVM,GBDT等机器学习分类器进行分类。

    2. FastText
      是一种深度学习词向量的典型表示方法。通过将单词映射到高维空间,然后对句子中所有单词在embedding空间中进行平均,叠加获得文档向量,将相似的句子分为一类,从而完成分类操作。它的经典网络架构非常简单,就是一个包含输入层,隐含层,输出层的三层神经网络。

    3. WordVec + 深度学习分类器
      Word2vec实际上是根据context也就是上下文对词进行预测。每一个输入文本,选取一个上下文窗口和中心词,根据中心词去预测窗口里其他次出现的频率。也就是通过上下文和单词彼此预测,分别对应两个算法Skip-grams(SG,预测上下文)和Continouous bag of words(CBOW,预测目标单词)。同时它可以很容易从新增预料中学习新词的向量表达,属于online learing。

    4. Bert词向量
      基于预训练语言模型Bert的词向量表示,也是可以建模上下文信息的。它是一个基于Transformer的多层encoder,通过一系列的预训练获得深层的上下文表示。分为“预训练-微调“两阶段,第一阶段,在大量无标注文本上训练一个双向语言模型,由于采用transformer作为特征提取器,很好的解决了长距离依赖和并行性。将语法句法词法信息提炼为网络参数加入模型。第二阶段,使用下游任务的数据微调不同层的bert参数,或者把bert作为特征提取器生成bert embedding,再作为新特征加入到下游任务。

你可能感兴趣的:(神经网络)