找到观看这个项目的观众的所有观演的历史项目后,分析这些项目的标签属性,反推给观众,即这群观众的观演属性。
笔者的观点:
演出项目的标签可以丰富观演用户的画像属性,用户在观看这场演出时,可以有两个方向,一是用户喜欢这场演出,二是用户看了这场演出之后,对这类演出有了了解,极大可能的产生了兴趣。
以下的工作都是基于这个观点触发的,所以有不同想法的大佬留下建议哈,给您递笔~
历时,2周多吧,真的给每个项目加标签太痛苦了,虽然用的方法算是半自动化,如下。
第一步,给项目添加标签
首先比如拿《茶馆》来说,首先笔者要做的是百度搜索茶馆的介绍,一般都是在票务售卖平台上的官方为主(当然后面如果有评论情感分析就更妙了,笔者技术很渣,给大佬递键盘)
找到时候,存入txt文档,像这样!就这样直接暴力!标签符号,图片什么的不用在乎,直接拉完,复制+粘贴+保存,ok(当然因为所选文本小,为了准确起见,一些艺术家介绍或者和本次演出项目无关的可以小手抖一抖放过它们)
分词
接下来就是给文章分词的时候了!
当然用的孰知的jieba分词。
考虑到演出项目的专属词,和不用于评论性质的分词特点和权重。考虑到训练词频的复杂性,笔者深度学习的大门还没有撬开的情况下,笔者直接用了自己的词库(就是自己模仿jieba中文词库,自己建的)
如果你问后面的“3 n” 是什么,3 代表的是权重,n 是词性,名词(大概理解)
有了自己的词库后,开始统计仅限这张词库表里的词,在文中出现的词频。
上文分析的是一个儿童剧的词频;
统计出来之后再选取词标签添加到项目中,也许你会问为什么不直接添加到标签里呢,还要做进一步筛选,因为我们的分词基数太小了,有很大的不确定性,只能在手动筛选一遍了(当然为了尽可能的减少鼠标点点点,保留笔者一丝计算机妹子的尊严,这里是用代码读取添加保存的)
这里有一个环节是扩建专属词库,这里笔者就用的是jieba分词词库,目的是浏览本文中的词语分布,
当然,jieba分词的词库更全一些,接下来要做的是,选定一些词,判断是否有没有在专属词库里,如果没有则添加(没错,就是这么手动,哭泣~~为了突出主题,这里的代码就不做展示了)
看看最终的效果
第二步,统计标签
来,让我们回想下主题,指定项目的观演观众的标签分析,那现在就是来做标签统计分析了
可以看出这个项目的观众观看的音乐会的比较多,特别是古典音乐以及一些歌剧类音乐演出居多。
为了良好的可视化效果,为了看的更牛逼(好看)一些,笔者用了词云;
好了,项目-观众分析到这里了完成了。
(笔者还是想再唠叨唠叨,这里的标签其实不光可以这样用,还可以针对项目做分析,比如项目间的相似度,再完善一些维度,比说票价,座位数,推广渠道因子等等,是不是就有可能分析出项目的预期票房,好了这是一个大饼,谢谢观看,笔者继续搬砖去了)
在此,非常感谢 王树义老师的 《如何用Python做词云?》https://www.jianshu.com/p/a2924231037c
王树义老师的其他文章也很有意思,有料,推荐大家去康康~~
附上wordcloud的官方指导 https://github.com/windard/Python_Lib/blob/master/content/wordcloud.md