一、前言:
研究行业趋势是每家公司的硬需求,如手机业者希望了解同行有没有什么颜色是比较受消费者欢迎的,护肤品公司想要了解什么成分是被广泛而且美誉的讨论,借由加入这些概念元素,他们可以让他们的产品更具吸引力,这种跟风做法其实一直都有,但是传统人工去看会遇到两个问题:
1、发现过慢:
通常人工可以发现时,这些概念元素通常是已经是被很多同行应用了,等到研发生产出来可能风头已经过了,例如之前樱花这个概念在美妆品里很火,但是等公司发现了樱花很火到决定应用在新产品再到研发生产上线后发现已经晚了,消费者用过后其他竞品的樱花系列商品后觉得没新鲜感就不再买了,这也是为什么跟风是个分秒必争的工作的原因。
2、视野不全:
人工去看的数据其实只是全局数据的一小块,可能会出现偏差,例如你发现某个概念很火,但是可能只是一小撮人在炒作,其实大众还没有认知,即使认知了接受度也不高,但由于研究人员无法全观的去检视数据,就会导致这种偏差,又或者有个概念已经有一定热度了,可是不在研究人员的视野范围内,这种事也是不少见的。
鉴于上述情况,越来越多公司希望能有一个很宏观全面的分析工具,能快速从互联网大数据中找出当前消费者正在讨论的热点。对于一些大品牌,不创新就是坐以待毙,因为现在有太多网红小品牌配合社媒行销来抢市场,所以如何高效的去创新产品,并且提高成功率,就是我们这次系统建设的目标,下面会介绍我们当前是如何去建设这样一套系统。
二、实现方法:
从上面的图可以看到,首先,我们要先圈定数据来源,数据来源决定输出的质量和效果,所以,一定要非常审慎的去梳理。一般来说,我们会将数据来源区分为4种,下面会逐一说明:
1、专家数据(PGC):这个一般代表这具有一定权威性和影响力的人物,比如阅读量很高的微信公众号,微博上活跃的大V,论坛上知名的KOL,行业权威专家的blog,行业新闻等。由于他们的权威性和影响力,很多的概念都是由他们带动或是传播的,如果PGC升高通常代表这个概念正在被广泛传播。
2、社交数据(UGC):这是代表一般消费者的声音,比如微博普通用户,论坛上的用户。可以透过他们了解这个概念在消费者的接受度和观感,如果消费者声量里面提及此概念负面情感偏高通常代表这个概念比较不被大众所接受。
3、广告数据(AD):一般是微博上的微商广告文,或是某些平台上面的广告文,通常如果某一个概念大量出现在广告中,代表他现在正火,或是极具吸引力,微商为了要吸引眼球通常会在标题或是图片特别强调这个概念。
4、电商数据(EC):这边我们可以看两个数据,一个是商品名称,一个是销量,如果有某个概念近期被大量使用在商品名称上,代表这个概念正火,如果同类型产品,包含此概念的商品比不包含的销量高很多,代表这个概念对是极具购买吸引力的。
了解这4种数据的特性和代表意义后,我们就要进入到如何去做数据处理。
首先,我需要了解的是我们行业的趋势(如手机,我想知道现在手机颜色的趋势是啥,或是摄像头的趋势),我不需要了解食品、化妆品的趋势,所以,我的数据采集是要针对手机的讨论阵地,并且透过合适的关键词和过滤词来采集手机行业的数据,再将采集回来的数据进行清洗和融合,整理成我们可以用来分析的数据,记住,这边务必要让整个流程自动化,一开始先人工检查输出的数据质量,并且调整流程中的参数(如调整过滤词,降低杂音),使数据能稳定且自动化的进行输出。
三、算法介绍
这边会用到的算法,除了基本的NLP相关算法,有三个重要的算法需要特别说明一下。
1、概念识别:
其实就是实体识别,只是要根据业务的需求去重新训练算法,比如,for食品行业,我们要从食品的数据里面识别出成分(蔓越莓、杏仁)、功效(瘦身、美白)、口味(草莓、芝士)。for手机行业,我们要从手机数据里面识别出价格区间(2K - 2.5K、3K - 3.5K)、颜色(极光色、琥珀色)、摄像(潜望镜、1亿像素),这边需要根据业务方想看到哪些维度的数据去进行训练,这边有个难点,首先有些概念会有不同的说法,或是错别字,就会导致同一个概念的声量被拆分,这个时候就需要去做归一化的工作,比如护甲、保护指甲、宝护指甲其实都是讲同一个概念,需要将他们的数据合并视为一体。
2、新奇度计算:
根据每个概念的过往在各种数据上的声量增涨和波动去计算新奇度值,比如香草这个概念在PGC上面声量增长很快,接着UGC也开始有声量的增长,利用这些去增长比例去判断概念是否是最近新起的概念,或是微商已经在炒作的热门概念,这些需要去设定各种声量的权重,并且也需要考虑到品牌集中度(比如极光色声量很高,但是只有出现在华为的手机上),通常比较有价值去研究的概念是已经出现在市场上,并且消费者反馈良好,PGC也在推广,但是UGC和微商声量还不是很高的概念,这些才是具有潜力可以去跟风的概念。
3、知识图谱:
知识图谱是相对比较成熟的技术,也是在前一阵子被炒的特别的热,这边的应用就是在做概念研究的时候,可以参考知识图谱输出完整的产品原型,比如在研究怎么做出一款防脱发的洗发素时,有没有什么成分可以添加进去,或是现在很火的海盐成分,到底可以用在哪些产品上,消费者认为海盐具备哪些功效,都是可以透过知识图谱去串联出来。这边要注意的是,知识图谱需要慎重采用数据来源,否则出来的效果会很差,并且知识图谱的效能是建立在数据源的量上,要找出质高量大的数据是建立知识图谱最困难的地方。
四、输出样式
这套系统的服务业务方式如上,首先系统会自动生成一个概念榜单,透过总声量、各数据种类声量、声量增长、新奇度值等指标进行排序,展示近期比较火或是比较有潜力的概念,使用者可以从中挑选一些有兴趣的概念进行深挖研究。接着,透过系统观察概念在PGC、UGC、电商、广告的声量变化趋势,还有观察讨论内容,商品应用情况,消费者反馈等等综合因素,决定要研究的概念。最后,知识图谱可以帮助概念具象化,帮助研究人员生成合适的产品原型,达到新品研发的目标。
举个例子,某个研究人员在潜力概念榜单上发现了“防脱发”这个词最近声量增长趋势不错,于是他检查了“防脱发”的声量变化趋势,发现了防脱发在PGC和广告已经持续热了一段时间,但是近期UGC声量突然上涨,查看数据后发现由于前一阵子程序员掉发的话题很火,其他消费者也开始担心是否自己有一天也会开始脱发,于是就开始讨论防脱发的各种方法,接着我们去电商和广告看了,大部分防脱发的产品都是洗发水护发素的形式,而且销量也都表现的不错,所以我们决定也要开发一款防脱发的洗发水。最后我透过知识图谱去找,跟防脱发相关的概念都有哪些,我们发现草本、天然、精油、芦荟、蜂蜜、生姜等等词都是跟防脱发相关的,于是我们再去研究消费者对这些词的观感,就可以研发出一款迎合消费者需求和喜爱的产品。
当然上面是很理想化的过程,传统这种产品研发往往耗时一年以上,并且成功率也不高,而使用了这套大数据产品创新系统后,可以更快的发现好的概念,并且提供各种维度的数据支持,让研究人员可以更高效的去完成新品研发的工作。
五、结语
整个解决方案虽然很美好,但是实施起来其实难度很高,最困难的莫过于数据质量的问题,一开始出来的概念趋势也不是很好看,需要人工不断进行优化,调整关键词和过滤词,排除噪音,建立归一化规则。知识图谱也是,需要找到大量而且质量高的数据其实很不容易。但是系统实际搭建完成后,大部分的使用者都很满意系统为他们带来的便捷性,以往这些支撑数据是需要专项去抓取,非常花费人力和时间,现在几乎是自动化的进行数据展示,更及时更高效。对于一些大公司而言,除了能够节省大量的人力外,也能更快更及时的捕捉到市场上的趋势,整体收益还是相当明显的。