基于 CNN 的中文歌词文本情感分类

1、歌词预处理

  • 去除无关歌词的句子:比如 作曲、作词等
  • 分词处理,比如 jieba
  • 去除停用词

2、歌词特征的提取

  • TFIDF
  • word2vec:采用 word2vec 进行文本特征提取,使用数据集训练 word2vec 词向量模型,词向量维度设置为 300 维。

3、CNN 结构的设计

输入层——CNN 卷积层——池化层——CNN 卷积层——池化层——全连接层

4、总结

对音乐的句子数目做了统计,以句子为对象,通过 word2vec 将句子表示成对应的句子量并将每一条音乐样本表示为 m*n 的二维矩阵的形式输入到卷积神经网络模型中。

你可能感兴趣的:(基于 CNN 的中文歌词文本情感分类)