任务一:自己写一个intent(意图)分类
1.数据查看与了解:
总集数据:4622条
按照2:8比例划分。训练集:3697条 测试集:925条
数据格式:三元组形式(句子,slot标记,intent意图)
意图种类有:5种 {'play', 'stop&play', 'stop', 'query', 'pause'}
2.intent分类:
其实这里也适用Decoder-Encoder思想框架,因为存在句对也就是<句子,意图>。从分类的角度来看,这是一个多分类问题。
搭建一个softmax多分类模型。
自己搭建的模型:
训练结果与预测结果:
从结果准确率上来看,自己搭建的意图分类模型,没有出现过拟合,因为测试集准确率能跟上训练集准确率。 但是,在训练的迭代次数为3或4的时候,对于数据集的意图准确率马上就达到了很高的准确率。这可以说明,我们的数据集较简单,不需要模型的深度训练。
参考文章:
【1】深度学习之卷积神经网络CNN及tensorflow代码实现示例
任务二:周杰伦粉丝团数据--情感主题
jieba分词词性标注:
jieba词性标注说明:
A.只保留形容词
LDA模型--专辑情感主题结果:
专辑的情感主题分类,我设置的是分为31个主题,希望按照专辑数量这个粒度来进行主题数量划分。其实主题个数设置为其它数值也行。
(0, '0.002*"可乐" + 0.002*"惶恐" + 0.002*"憨笑" + 0.002*"成熟" + 0.002*"不错" + 0.002*"最强" + 0.002*"无聊" + 0.002*"厉害" + 0.002*"很酷" + 0.002*"杰迷"')
(1, '0.051*"尊重" + 0.044*"惊喜" + 0.034*"凉凉" + 0.034*"特效" + 0.034*"弱弱" + 0.034*"好烦" + 0.030*"充满" + 0.022*"幸好" + 0.021*"微博" + 0.021*"好奇"')
(2, '0.059*"凉凉" + 0.002*"可乐" + 0.002*"暗淡" + 0.002*"最美" + 0.002*"疲倦" + 0.002*"清爽" + 0.002*"遥远" + 0.002*"有趣" + 0.002*"简单" + 0.002*"完美"')
(3, '0.002*"悦耳" + 0.002*"温热" + 0.002*"蛮快" + 0.002*"超傲" + 0.002*"轻狂" + 0.002*"重名" + 0.002*"有愧" + 0.002*"悲观" + 0.002*"偏要" + 0.002*"犹豫"')
(4, '0.002*"很毒" + 0.002*"灵感" + 0.002*"酷酷" + 0.002*"神秘" + 0.002*"恐怖" + 0.002*"巧妙" + 0.002*"慈悲" + 0.002*"稳如" + 0.002*"合适" + 0.002*"挺挺"')
(5, '0.053*"不错" + 0.053*"合适" + 0.053*"一大" + 0.002*"悲观" + 0.002*"犹豫" + 0.002*"超傲" + 0.002*"轻狂" + 0.002*"重名" + 0.002*"悦耳" + 0.002*"真好玩"')
(6, '0.002*"珍贵" + 0.002*"孤单" + 0.002*"很酷" + 0.002*"激动" + 0.002*"好巧" + 0.002*"温柔" + 0.002*"最美" + 0.002*"浪漫" + 0.002*"憨笑" + 0.002*"恐怖"')
(7, '0.018*"激动" + 0.018*"温柔" + 0.018*"惊恐" + 0.018*"最爱" + 0.018*"惶恐" + 0.018*"不错" + 0.018*"厉害" + 0.018*"很烦" + 0.018*"憨笑" + 0.018*"杰迷"')
(8, '0.021*"幸运" + 0.021*"悲伤" + 0.021*"幸好" + 0.020*"最爱" + 0.019*"快乐" + 0.018*"憨笑" + 0.011*"浮沉" + 0.011*"苦痛" + 0.011*"幼稚" + 0.011*"模糊"')
(9, '0.002*"悦耳" + 0.002*"温热" + 0.002*"蛮快" + 0.002*"超傲" + 0.002*"轻狂" + 0.002*"重名" + 0.002*"有愧" + 0.002*"悲观" + 0.002*"偏要" + 0.002*"犹豫"')
(10, '0.002*"杰迷" + 0.002*"神奇" + 0.002*"欢乐" + 0.002*"不错" + 0.002*"凉凉" + 0.002*"骄傲" + 0.002*"尴尬" + 0.002*"优越" + 0.002*"滑稽" + 0.002*"年轻"')
(11, '0.025*"无聊" + 0.025*"矫情" + 0.025*"安稳" + 0.025*"幸福" + 0.025*"幸运" + 0.025*"心疼" + 0.025*"好奇" + 0.025*"惊恐" + 0.025*"憨笑" + 0.025*"尴尬"')
(12, '0.053*"憨笑" + 0.053*"孤独" + 0.053*"成功" + 0.002*"惶恐" + 0.002*"幽默" + 0.002*"和谐" + 0.002*"好爽" + 0.002*"不愧" + 0.002*"活泼" + 0.002*"亲爱"')
(13, '0.016*"太狠" + 0.016*"纯洁" + 0.015*"好巧" + 0.014*"年轻" + 0.014*"酷酷" + 0.014*"遗憾" + 0.014*"最强" + 0.013*"快乐" + 0.013*"惶恐" + 0.013*"完美"')
(14, '0.002*"最多" + 0.002*"轻松" + 0.002*"很大" + 0.002*"完美" + 0.002*"奇妙" + 0.002*"凛听" + 0.002*"遗憾" + 0.002*"可乐" + 0.002*"最美" + 0.002*"一晃"')
(15, '0.002*"悦耳" + 0.002*"温热" + 0.002*"蛮快" + 0.002*"超傲" + 0.002*"轻狂" + 0.002*"重名" + 0.002*"有愧" + 0.002*"悲观" + 0.002*"偏要" + 0.002*"犹豫"')
(16, '0.002*"悦耳" + 0.002*"温热" + 0.002*"蛮快" + 0.002*"超傲" + 0.002*"轻狂" + 0.002*"重名" + 0.002*"有愧" + 0.002*"悲观" + 0.002*"偏要" + 0.002*"犹豫"')
(17, '0.002*"悦耳" + 0.002*"温热" + 0.002*"蛮快" + 0.002*"超傲" + 0.002*"轻狂" + 0.002*"重名" + 0.002*"有愧" + 0.002*"悲观" + 0.002*"偏要" + 0.002*"犹豫"')
(18, '0.031*"不易" + 0.031*"不爽" + 0.017*"成熟" + 0.017*"辛苦" + 0.017*"尴尬" + 0.017*"温柔" + 0.017*"幸运" + 0.017*"好酷" + 0.017*"恐怖" + 0.017*"伤害"')
(19, '0.056*"糊涂" + 0.056*"一大" + 0.002*"美好" + 0.002*"很大" + 0.002*"挺挺" + 0.002*"颓大" + 0.002*"惊喜" + 0.002*"混混" + 0.002*"凄凉" + 0.002*"合适"')
(20, '0.002*"悦耳" + 0.002*"温热" + 0.002*"蛮快" + 0.002*"超傲" + 0.002*"轻狂" + 0.002*"重名" + 0.002*"有愧" + 0.002*"悲观" + 0.002*"偏要" + 0.002*"犹豫"')
(21, '0.029*"惊恐" + 0.029*"惶恐" + 0.029*"最爱" + 0.029*"憨笑" + 0.029*"温柔" + 0.015*"骄傲" + 0.015*"不爽" + 0.015*"正好" + 0.015*"疯狂" + 0.015*"最酷"')
(22, '0.016*"简单" + 0.016*"悲伤" + 0.016*"恐怖" + 0.016*"幸福" + 0.016*"最多" + 0.016*"好奇" + 0.016*"凉凉" + 0.016*"惊恐" + 0.016*"憨笑" + 0.008*"勇敢"')
(23, '0.016*"落后" + 0.016*"成功" + 0.016*"激动" + 0.015*"完整" + 0.015*"最爱" + 0.014*"惊恐" + 0.013*"杰迷" + 0.013*"厉害" + 0.013*"憨笑" + 0.013*"不错"')
(24, '0.012*"幸福" + 0.012*"隐晦" + 0.012*"朦胧" + 0.012*"太惨" + 0.012*"忙碌" + 0.012*"浪漫" + 0.012*"有趣" + 0.012*"美好" + 0.012*"最香" + 0.012*"深爱"')
(25, '0.031*"惶恐" + 0.031*"厉害" + 0.031*"惊恐" + 0.031*"轻松" + 0.031*"优秀" + 0.031*"尊重" + 0.031*"风靡" + 0.031*"孤独" + 0.031*"正火" + 0.031*"强迫"')
(26, '0.016*"微博" + 0.016*"先出" + 0.016*"完美" + 0.016*"纯真" + 0.016*"成功" + 0.016*"妥帖" + 0.016*"惊讶" + 0.016*"完大" + 0.016*"悲壮" + 0.016*"很好"')
(27, '0.016*"亲爱" + 0.016*"憨笑" + 0.016*"惊恐" + 0.016*"遗憾" + 0.016*"快乐" + 0.016*"厉害" + 0.016*"有趣" + 0.016*"嚣张" + 0.016*"杰迷" + 0.016*"潇洒"')
(28, '0.023*"太酷" + 0.023*"更爽" + 0.023*"尊重" + 0.023*"正要" + 0.023*"不缺" + 0.023*"轻易" + 0.023*"惊艳" + 0.023*"心疼" + 0.023*"辛苦" + 0.023*"憨笑"')
(29, '0.016*"很丧" + 0.016*"潇洒" + 0.016*"紧张" + 0.016*"难熬" + 0.016*"耐听" + 0.016*"傲气" + 0.016*"柔情" + 0.016*"不耐烦" + 0.016*"忐忑" + 0.016*"优秀"')
(30, '0.026*"神奇" + 0.025*"惊恐" + 0.024*"不错" + 0.022*"幸福" + 0.021*"憨笑" + 0.020*"惶恐" + 0.020*"厉害" + 0.017*"快乐" + 0.017*"很酷" + 0.017*"完整"')
LDA模型--歌曲情感主题结果:
歌曲的情感主题分类,我设置的主题个数也是31个主题。可以根据需要设置其它主题个数。
(0, '0.028*"憨笑" + 0.019*"不错" + 0.019*"激动" + 0.019*"厉害" + 0.019*"恭喜" + 0.019*"著名" + 0.010*"杰迷" + 0.010*"快乐" + 0.010*"简单" + 0.010*"辛苦"')
(1, '0.009*"厲害" + 0.009*"很皮" + 0.009*"欢快" + 0.009*"很棒" + 0.009*"酷酷" + 0.009*"惶恐" + 0.009*"有趣" + 0.009*"惊恐" + 0.009*"不错" + 0.009*"最爱"')
(2, '0.038*"不错" + 0.034*"憨笑" + 0.031*"厉害" + 0.025*"惊恐" + 0.023*"成功" + 0.021*"欢乐" + 0.020*"舒服" + 0.017*"惊艳" + 0.015*"合适" + 0.015*"欢快"')
(3, '0.021*"厉害" + 0.015*"不错" + 0.015*"惊恐" + 0.015*"憨笑" + 0.015*"惶恐" + 0.011*"漂亮" + 0.011*"最强" + 0.011*"杰迷" + 0.010*"心疼" + 0.010*"幸福"')
(4, '0.022*"厉害" + 0.022*"憨笑" + 0.018*"很棒" + 0.017*"最多" + 0.015*"很大" + 0.015*"年轻" + 0.014*"惊恐" + 0.014*"酷好" + 0.013*"惊喜" + 0.013*"最强"')
(5, '0.016*"憨笑" + 0.014*"不错" + 0.014*"厉害" + 0.013*"舒服" + 0.012*"简单" + 0.012*"很棒" + 0.012*"幸福" + 0.012*"惊恐" + 0.012*"惶恐" + 0.011*"温柔"')
(6, '0.022*"厉害" + 0.022*"完美" + 0.019*"清晰" + 0.017*"舒服" + 0.017*"年轻" + 0.016*"惊恐" + 0.016*"憨笑" + 0.015*"惊艳" + 0.015*"太酷" + 0.013*"浮躁"')
(7, '0.015*"憨笑" + 0.014*"简单" + 0.013*"安好" + 0.013*"惊恐" + 0.012*"快乐" + 0.012*"心疼" + 0.012*"最爱" + 0.011*"幸运" + 0.011*"成熟" + 0.010*"成功"')
(8, '0.020*"憨笑" + 0.017*"厉害" + 0.017*"不错" + 0.016*"最爱" + 0.016*"惊恐" + 0.014*"杰迷" + 0.014*"幸福" + 0.013*"悲伤" + 0.012*"简单" + 0.010*"完美"')
(9, '0.020*"憨笑" + 0.017*"惶恐" + 0.016*"完美" + 0.016*"快乐" + 0.016*"厉害" + 0.015*"最爱" + 0.015*"不错" + 0.014*"幸福" + 0.014*"惊恐" + 0.013*"尴尬"')
(10, '0.025*"憨笑" + 0.019*"快乐" + 0.019*"厉害" + 0.019*"惶恐" + 0.019*"凉凉" + 0.012*"完美" + 0.012*"舒服" + 0.012*"幸福" + 0.012*"不错" + 0.012*"幸运"')
(11, '0.013*"惊恐" + 0.013*"憨笑" + 0.012*"不错" + 0.011*"最强" + 0.011*"遗憾" + 0.011*"厉害" + 0.011*"温柔" + 0.010*"年轻" + 0.010*"快乐" + 0.010*"美好"')
(12, '0.015*"幸福" + 0.015*"厉害" + 0.014*"杰迷" + 0.014*"惊恐" + 0.012*"美好" + 0.012*"最爱" + 0.012*"憨笑" + 0.011*"完美" + 0.011*"辛苦" + 0.011*"惊喜"')
(13, '0.017*"憨笑" + 0.015*"幸福" + 0.015*"厉害" + 0.014*"温柔" + 0.012*"遗憾" + 0.012*"杰迷" + 0.012*"简单" + 0.012*"美好" + 0.012*"成功" + 0.011*"惊恐"')
(14, '0.023*"憨笑" + 0.021*"悲伤" + 0.020*"幸运" + 0.017*"不错" + 0.016*"厉害" + 0.015*"很好" + 0.014*"别扭" + 0.012*"惊恐" + 0.012*"不好意思" + 0.012*"尊重"')
(15, '0.020*"幸福" + 0.020*"憨笑" + 0.018*"遗憾" + 0.016*"厉害" + 0.013*"快乐" + 0.013*"悲伤" + 0.012*"浪漫" + 0.012*"完整" + 0.011*"美好" + 0.011*"不错"')
(16, '0.018*"憨笑" + 0.016*"不错" + 0.016*"惊恐" + 0.014*"厉害" + 0.012*"遗憾" + 0.011*"优秀" + 0.011*"快乐" + 0.010*"杰迷" + 0.010*"美好" + 0.009*"幸福"')
(17, '0.019*"幸福" + 0.016*"最爱" + 0.015*"不错" + 0.014*"厉害" + 0.014*"完美" + 0.014*"憨笑" + 0.014*"美好" + 0.013*"年轻" + 0.013*"快乐" + 0.012*"惊恐"')
(18, '0.015*"优秀" + 0.015*"幼稚" + 0.013*"很大" + 0.013*"简单" + 0.012*"不错" + 0.012*"厉害" + 0.010*"最爱" + 0.010*"美好" + 0.010*"不腻" + 0.010*"安好"')
(19, '0.014*"成功" + 0.014*"完整" + 0.013*"杰迷" + 0.013*"惊恐" + 0.010*"骄傲" + 0.010*"完爆" + 0.010*"优秀" + 0.010*"灵感" + 0.010*"郁闷" + 0.009*"幸好"')
(20, '0.014*"孤独" + 0.014*"正好" + 0.013*"成功" + 0.013*"遗憾" + 0.013*"厉害" + 0.013*"不错" + 0.012*"精美" + 0.010*"有趣" + 0.010*"挺好" + 0.010*"漂亮"')
(21, '0.033*"憨笑" + 0.025*"惊恐" + 0.017*"最强" + 0.017*"厉害" + 0.017*"不错" + 0.017*"好爽" + 0.017*"简单" + 0.017*"幸运" + 0.017*"好烦" + 0.009*"完美"')
(22, '0.018*"憨笑" + 0.017*"惊恐" + 0.017*"最爱" + 0.017*"不错" + 0.014*"厉害" + 0.014*"惊喜" + 0.014*"幸福" + 0.014*"惶恐" + 0.013*"温柔" + 0.012*"年轻"')
(23, '0.015*"憨笑" + 0.013*"幸福" + 0.013*"快乐" + 0.012*"最强" + 0.012*"最爱" + 0.011*"惊恐" + 0.011*"厉害" + 0.011*"激动" + 0.011*"不错" + 0.011*"年轻"')
(24, '0.026*"憨笑" + 0.021*"不错" + 0.018*"完美" + 0.017*"漂亮" + 0.016*"惊恐" + 0.016*"厉害" + 0.013*"简单" + 0.013*"甜蜜" + 0.013*"矫情" + 0.012*"浪漫"')
(25, '0.014*"憨笑" + 0.012*"简单" + 0.012*"美好" + 0.011*"惊恐" + 0.010*"惊喜" + 0.010*"温柔" + 0.009*"孤单" + 0.008*"很小" + 0.008*"勇敢" + 0.008*"快乐"')
(26, '0.015*"不错" + 0.015*"惊恐" + 0.015*"憨笑" + 0.012*"厉害" + 0.012*"充满" + 0.011*"惶恐" + 0.011*"很棒" + 0.010*"激动" + 0.009*"美好" + 0.009*"遗憾"')
(27, '0.016*"年轻" + 0.016*"有趣" + 0.016*"不错" + 0.016*"最强" + 0.016*"勇敢" + 0.016*"惭愧" + 0.016*"漂亮" + 0.016*"伤害" + 0.016*"谦虚" + 0.016*"太酷"')
(28, '0.025*"憨笑" + 0.023*"厉害" + 0.017*"温柔" + 0.016*"最美" + 0.015*"简单" + 0.015*"惊恐" + 0.014*"好奇" + 0.014*"不腻" + 0.013*"美好" + 0.013*"幸福"')
(29, '0.031*"幸福" + 0.024*"憨笑" + 0.019*"厉害" + 0.019*"惊恐" + 0.014*"惊艳" + 0.014*"简单" + 0.013*"惶恐" + 0.013*"尴尬" + 0.013*"不错" + 0.011*"不腻"')
(30, '0.019*"憨笑" + 0.017*"不错" + 0.016*"滑稽" + 0.015*"惊恐" + 0.014*"惊讶" + 0.013*"厉害" + 0.012*"完美" + 0.012*"幸运" + 0.012*"不好意思" + 0.011*"惶恐"')
B.对表情符号进行过滤处理
由于形容词里面有很多词,是通过发送表情符号而带上的汉字,这些词其实对当前问题的情感主题划分是没有贡献的,所以有必要过滤掉这种评论者自身带有的情感色彩词,保留下对周杰伦音乐本事评价的情感词。
符号表情词过滤:
LDA模型--专辑情感主题结果:
(0, '0.030*"不错" + 0.020*"温柔" + 0.020*"恐怖" + 0.020*"杰迷" + 0.020*"无聊" + 0.020*"简单" + 0.020*"激动" + 0.020*"惊艳" + 0.020*"厉害" + 0.020*"惊喜"')
(1, '0.002*"轻狂" + 0.002*"悦耳" + 0.002*"有愧" + 0.002*"真好玩" + 0.002*"蛮快" + 0.002*"超傲" + 0.002*"慵懒" + 0.002*"重名" + 0.002*"犹豫" + 0.002*"温热"')
(2, '0.002*"酷酷" + 0.002*"年轻" + 0.002*"强大" + 0.002*"单挑" + 0.002*"激动" + 0.002*"最爱" + 0.002*"不爽" + 0.002*"最多" + 0.002*"很小" + 0.002*"惊艳"')
(3, '0.009*"傲气" + 0.009*"尴尬" + 0.009*"落寞" + 0.009*"不好意思" + 0.009*"厉害" + 0.009*"骄傲" + 0.009*"意外" + 0.009*"滑稽" + 0.009*"强大" + 0.009*"低俗"')
(4, '0.002*"干活" + 0.002*"很酷" + 0.002*"亲热" + 0.002*"轻狂" + 0.002*"神奇" + 0.002*"骄傲" + 0.002*"平凡" + 0.002*"熟练" + 0.002*"纯白" + 0.002*"干净"')
(5, '0.020*"不错" + 0.013*"完美" + 0.013*"最酷" + 0.013*"很酷" + 0.013*"厉害" + 0.013*"年轻" + 0.013*"疯狂" + 0.013*"滑稽" + 0.013*"惊艳" + 0.013*"幸运"')
(6, '0.002*"迷喜" + 0.002*"漂亮" + 0.002*"蛮高" + 0.002*"嘶哑" + 0.002*"很蠢" + 0.002*"自由" + 0.002*"弱弱" + 0.002*"强多" + 0.002*"亲爱" + 0.002*"憋着"')
(7, '0.026*"孤独" + 0.024*"成功" + 0.018*"尴尬" + 0.018*"幸运" + 0.018*"无聊" + 0.017*"浪漫" + 0.017*"漂亮" + 0.014*"好奇" + 0.014*"最美" + 0.014*"温柔"')
(8, '0.002*"微博" + 0.002*"很好" + 0.002*"幸福" + 0.002*"遗憾" + 0.002*"精致" + 0.002*"不适" + 0.002*"最爱" + 0.002*"虚伪" + 0.002*"疯狂" + 0.002*"年轻"')
(9, '0.030*"神奇" + 0.030*"快乐" + 0.030*"美好" + 0.030*"惊艳" + 0.030*"幸福" + 0.030*"完美" + 0.030*"不错" + 0.030*"无聊" + 0.030*"最爱" + 0.030*"青涩"')
(10, '0.011*"一大" + 0.011*"激动" + 0.011*"很大" + 0.011*"幸福" + 0.011*"厉害" + 0.011*"很酷" + 0.011*"快乐" + 0.011*"不腻" + 0.011*"最多" + 0.011*"轻松"')
(11, '0.024*"辛苦" + 0.024*"不错" + 0.024*"厉害" + 0.024*"幸好" + 0.024*"激动" + 0.024*"完美" + 0.024*"骄傲" + 0.024*"一大" + 0.024*"很好" + 0.024*"正要"')
(12, '0.015*"成功" + 0.015*"厉害" + 0.015*"完整" + 0.015*"不错" + 0.015*"激动" + 0.015*"浮躁" + 0.015*"一大" + 0.015*"太酷" + 0.015*"不懂" + 0.015*"舒服"')
(13, '0.036*"温柔" + 0.036*"最爱" + 0.018*"一晃" + 0.018*"厉害" + 0.018*"骄傲" + 0.018*"不好意思" + 0.018*"团建" + 0.018*"超酷" + 0.018*"亲切" + 0.018*"纯洁"')
(14, '0.067*"凉凉" + 0.034*"最多" + 0.034*"幸福" + 0.034*"悲伤" + 0.034*"恐怖" + 0.034*"简单" + 0.034*"漂亮" + 0.034*"温柔" + 0.034*"最美" + 0.034*"难熬"')
(15, '0.002*"轻狂" + 0.002*"悦耳" + 0.002*"有愧" + 0.002*"真好玩" + 0.002*"蛮快" + 0.002*"超傲" + 0.002*"慵懒" + 0.002*"重名" + 0.002*"犹豫" + 0.002*"温热"')
(16, '0.002*"轻狂" + 0.002*"悦耳" + 0.002*"有愧" + 0.002*"真好玩" + 0.002*"蛮快" + 0.002*"超傲" + 0.002*"慵懒" + 0.002*"重名" + 0.002*"犹豫" + 0.002*"温热"')
(17, '0.018*"幸好" + 0.017*"最爱" + 0.016*"遗憾" + 0.015*"尊重" + 0.015*"完美" + 0.015*"不错" + 0.015*"厉害" + 0.012*"凉凉" + 0.012*"很烦" + 0.012*"弱弱"')
(18, '0.002*"激动" + 0.002*"简单" + 0.002*"厉害" + 0.002*"心疼" + 0.002*"惊艳" + 0.002*"悲哀" + 0.002*"不错" + 0.002*"无聊" + 0.002*"不好意思" + 0.002*"最强"')
(19, '0.002*"幸福" + 0.002*"杰迷" + 0.002*"心疼" + 0.002*"激动" + 0.002*"疯狂" + 0.002*"很酷" + 0.002*"太慢" + 0.002*"神奇" + 0.002*"自由" + 0.002*"快乐"')
(20, '0.002*"害羞" + 0.002*"简单" + 0.002*"苦楚" + 0.002*"惊喜" + 0.002*"轻松" + 0.002*"快乐" + 0.002*"娴静" + 0.002*"亲切" + 0.002*"自由" + 0.002*"艰苦"')
(21, '0.002*"忧愁" + 0.002*"单挑" + 0.002*"俏皮" + 0.002*"阴郁" + 0.002*"热爱" + 0.002*"酷酷" + 0.002*"惊喜" + 0.002*"悲伤" + 0.002*"意外" + 0.002*"凉凉"')
(22, '0.019*"快乐" + 0.018*"遗憾" + 0.018*"厉害" + 0.017*"亲爱" + 0.014*"惊喜" + 0.014*"很棒" + 0.014*"杰迷" + 0.013*"不错" + 0.012*"嚣张" + 0.012*"有趣"')
(23, '0.027*"心疼" + 0.027*"独秀" + 0.027*"悦耳" + 0.027*"快乐" + 0.027*"犹豫" + 0.027*"很好" + 0.027*"熟稔" + 0.027*"温热" + 0.027*"肤浅" + 0.027*"最爱"')
(24, '0.002*"欢乐" + 0.002*"严肃" + 0.002*"真挚" + 0.002*"亲爱" + 0.002*"热爱" + 0.002*"轻松" + 0.002*"不好玩" + 0.002*"寂寞" + 0.002*"亲切" + 0.002*"忠实"')
(25, '0.015*"艳丽" + 0.015*"不烦" + 0.015*"了秀" + 0.015*"太酷" + 0.015*"高贵" + 0.015*"不小" + 0.015*"很大" + 0.015*"低俗" + 0.015*"疯狂" + 0.015*"成熟"')
(26, '0.002*"幸福" + 0.002*"遗憾" + 0.002*"有趣" + 0.002*"很大" + 0.002*"血大" + 0.002*"顽强" + 0.002*"一大" + 0.002*"完整" + 0.002*"孤独" + 0.002*"犹寒"')
(27, '0.038*"苦痛" + 0.038*"悲伤" + 0.038*"幸好" + 0.038*"幼稚" + 0.038*"最爱" + 0.038*"模糊" + 0.038*"委婉" + 0.038*"浮沉" + 0.038*"幸运" + 0.038*"冲淡"')
(28, '0.002*"忧愁" + 0.002*"愉快" + 0.002*"私聊" + 0.002*"欢乐" + 0.002*"妥妥" + 0.002*"唯美" + 0.002*"热爱" + 0.002*"骄傲" + 0.002*"凉凉" + 0.002*"简单"')
(29, '0.002*"鲜艳" + 0.002*"沉默" + 0.002*"遗憾" + 0.002*"新颖" + 0.002*"闷热" + 0.002*"红遍" + 0.002*"轻狂" + 0.002*"模糊" + 0.002*"好酷" + 0.002*"平均"')
(30, '0.002*"轻狂" + 0.002*"悦耳" + 0.002*"有愧" + 0.002*"真好玩" + 0.002*"蛮快" + 0.002*"超傲" + 0.002*"慵懒" + 0.002*"重名" + 0.002*"犹豫" + 0.002*"温热"')
LDA模型--歌曲情感主题结果:
(0, '0.025*"厉害" + 0.025*"悲伤" + 0.017*"尊重" + 0.017*"最全" + 0.017*"快乐" + 0.017*"不错" + 0.017*"最强" + 0.017*"年轻" + 0.017*"最多" + 0.017*"耳熟"')
(1, '0.014*"厉害" + 0.012*"幸福" + 0.012*"不错" + 0.012*"最爱" + 0.011*"正好" + 0.010*"简单" + 0.010*"完美" + 0.010*"尴尬" + 0.010*"骄傲" + 0.009*"成功"')
(2, '0.013*"不错" + 0.013*"厉害" + 0.011*"最爱" + 0.011*"尴尬" + 0.011*"杰迷" + 0.011*"成功" + 0.009*"紧张" + 0.009*"疯狂" + 0.009*"心疼" + 0.009*"快乐"')
(3, '0.027*"不好意思" + 0.025*"厉害" + 0.024*"杰迷" + 0.022*"不错" + 0.022*"幸福" + 0.018*"年轻" + 0.015*"很好" + 0.015*"幸运" + 0.015*"完美" + 0.014*"很棒"')
(4, '0.016*"不错" + 0.015*"害羞" + 0.014*"厉害" + 0.014*"惊喜" + 0.014*"幸好" + 0.013*"简单" + 0.013*"舒服" + 0.012*"快乐" + 0.012*"有趣" + 0.011*"神奇"')
(5, '0.012*"年轻" + 0.011*"快乐" + 0.011*"惊喜" + 0.011*"最爱" + 0.010*"幸福" + 0.010*"厉害" + 0.010*"不错" + 0.009*"最多" + 0.009*"亲爱" + 0.008*"无聊"')
(6, '0.028*"优秀" + 0.022*"不错" + 0.022*"厉害" + 0.017*"很好" + 0.017*"快乐" + 0.017*"优美" + 0.017*"浪漫" + 0.011*"孤独" + 0.011*"舒服" + 0.011*"自私"')
(7, '0.015*"不错" + 0.013*"年轻" + 0.012*"厉害" + 0.011*"珍惜" + 0.011*"简单" + 0.010*"好奇" + 0.010*"很酷" + 0.010*"疯狂" + 0.009*"很大" + 0.009*"舒服"')
(8, '0.014*"幸福" + 0.014*"厉害" + 0.013*"完美" + 0.013*"很棒" + 0.013*"最爱" + 0.012*"寂静" + 0.012*"不错" + 0.011*"温柔" + 0.010*"杰迷" + 0.010*"孤独"')
(9, '0.013*"完美" + 0.013*"美好" + 0.013*"幸福" + 0.012*"快乐" + 0.012*"不错" + 0.012*"幸运" + 0.012*"温柔" + 0.012*"年轻" + 0.012*"简单" + 0.011*"最强"')
(10, '0.017*"幸运" + 0.017*"好烦" + 0.013*"害羞" + 0.012*"意外" + 0.011*"最美" + 0.011*"惊喜" + 0.011*"疯狂" + 0.010*"完美" + 0.010*"尴尬" + 0.010*"杰迷"')
(11, '0.020*"幸福" + 0.020*"厉害" + 0.018*"不错" + 0.016*"勇敢" + 0.016*"温柔" + 0.015*"最爱" + 0.014*"沉默" + 0.013*"最多" + 0.013*"完美" + 0.013*"简单"')
(12, '0.028*"幸好" + 0.027*"厉害" + 0.019*"孤独" + 0.019*"幸福" + 0.019*"凄美" + 0.019*"激动" + 0.016*"深爱" + 0.015*"杰迷" + 0.013*"浪漫" + 0.013*"最爱"')
(13, '0.018*"厉害" + 0.015*"不错" + 0.013*"快乐" + 0.012*"最爱" + 0.012*"悲伤" + 0.011*"惊喜" + 0.011*"尊重" + 0.010*"年轻" + 0.010*"最美" + 0.010*"幸运"')
(14, '0.025*"厉害" + 0.023*"年轻" + 0.023*"有爱" + 0.020*"不错" + 0.015*"连续" + 0.015*"欢快" + 0.014*"妥妥" + 0.014*"快乐" + 0.012*"神奇" + 0.012*"最爱"')
(15, '0.032*"不错" + 0.021*"厉害" + 0.017*"合适" + 0.017*"简单" + 0.016*"杰迷" + 0.012*"成熟" + 0.012*"珍惜" + 0.012*"年轻" + 0.012*"尴尬" + 0.012*"青涩"')
(16, '0.015*"杰迷" + 0.015*"浪漫" + 0.015*"神奇" + 0.015*"简单" + 0.015*"灵感" + 0.015*"厉害" + 0.015*"精通" + 0.015*"很美" + 0.015*"最爱" + 0.015*"阴暗"')
(17, '0.019*"不错" + 0.018*"成功" + 0.015*"最爱" + 0.014*"美好" + 0.014*"疯狂" + 0.014*"遗憾" + 0.013*"幸福" + 0.013*"孤独" + 0.012*"很棒" + 0.012*"珍惜"')
(18, '0.026*"不错" + 0.023*"伤害" + 0.019*"最强" + 0.015*"年轻" + 0.015*"太酷" + 0.014*"有趣" + 0.014*"滑稽" + 0.013*"惭愧" + 0.012*"恐怖" + 0.011*"不腻"')
(19, '0.022*"厉害" + 0.019*"幼稚" + 0.018*"不错" + 0.017*"安好" + 0.016*"美好" + 0.015*"最爱" + 0.013*"青涩" + 0.012*"唯美" + 0.012*"最美" + 0.012*"不腻"')
(20, '0.026*"厉害" + 0.020*"幸福" + 0.018*"不错" + 0.014*"很棒" + 0.014*"最爱" + 0.013*"正好" + 0.013*"疯狂" + 0.012*"成功" + 0.012*"美好" + 0.012*"完美"')
(21, '0.001*"很棒" + 0.001*"厉害" + 0.001*"不好意思" + 0.001*"幸福" + 0.001*"珍惜" + 0.001*"惊讶" + 0.001*"骄傲" + 0.001*"成功" + 0.001*"完美" + 0.001*"很好"')
(22, '0.019*"好酷" + 0.015*"杰迷" + 0.015*"温柔" + 0.015*"不错" + 0.015*"幸福" + 0.013*"真美" + 0.010*"紧张" + 0.010*"有趣" + 0.009*"一晃" + 0.009*"不腻"')
(23, '0.011*"惊艳" + 0.011*"美好" + 0.010*"不错" + 0.010*"完美" + 0.010*"清纯" + 0.010*"纯爱" + 0.010*"优美" + 0.010*"良心" + 0.009*"无聊" + 0.009*"伤害"')
(24, '0.022*"厉害" + 0.022*"一大" + 0.021*"著名" + 0.018*"不错" + 0.014*"骄傲" + 0.013*"成功" + 0.012*"完整" + 0.012*"心疼" + 0.011*"激动" + 0.011*"辛苦"')
(25, '0.020*"厉害" + 0.017*"温柔" + 0.015*"成功" + 0.015*"简单" + 0.015*"杰迷" + 0.015*"尴尬" + 0.015*"幸福" + 0.014*"快乐" + 0.013*"最爱" + 0.012*"遗憾"')
(26, '0.016*"不错" + 0.015*"厉害" + 0.013*"杰迷" + 0.012*"完美" + 0.011*"尴尬" + 0.011*"幸福" + 0.011*"激动" + 0.011*"疯狂" + 0.011*"最强" + 0.011*"遗憾"')
(27, '0.020*"舒服" + 0.019*"最爱" + 0.019*"厉害" + 0.018*"幸福" + 0.016*"欢乐" + 0.015*"惊艳" + 0.015*"尴尬" + 0.014*"简单" + 0.013*"不错" + 0.013*"疯狂"')
(28, '0.021*"美好" + 0.019*"凉凉" + 0.018*"快乐" + 0.018*"最强" + 0.018*"幸福" + 0.017*"最爱" + 0.016*"杰迷" + 0.015*"厉害" + 0.014*"矫情" + 0.013*"幸运"')
(29, '0.022*"厉害" + 0.016*"遗憾" + 0.016*"快乐" + 0.015*"幸福" + 0.014*"最强" + 0.013*"很棒" + 0.013*"完美" + 0.012*"最爱" + 0.011*"激动" + 0.011*"不错"')
(30, '0.015*"完美" + 0.014*"很棒" + 0.014*"不错" + 0.013*"厉害" + 0.012*"幸福" + 0.011*"快乐" + 0.011*"最爱" + 0.011*"遗憾" + 0.011*"美好" + 0.010*"温柔"')
该任务完成!!!!代码放在:
参考文章:
【1】Jieba分词词性标注以及词性说明
【2】了解Jieba分词,可参考:Jieba