红红火火恍恍惚,眨眼间春节已过,不知道各位春节档的电影看了几部?
在上篇文章中,小编在电影上映前1周,用数据挖掘对4部大片进行了票房预测。
原文:《遍历了100部电影票房数据,我预测2019春节档冠军是……》
截止到2月12日早上9点,再来看一下首周票房对比结果:
再对比下网络上犀牛研究小组的预测数据,这个民间专业机构有预测首周票房数据:
虽没能料准流浪地球这匹黑马,但就其他三部电影票房的准确率,以及其他机构预测的误差对比,小编也心服口服愿给大家发红包!
对于票房预测,有人疑惑?一部电影在未上映之前、无口碑、无首日票房数据,为什么能预测,莫不是拍脑袋蒙?也有人质疑,历史数据在预测面前毫无价值(数据人听了气的直跺脚)
我来简单解释下,为什么能预测?甚至大部分数据都能预测精准?
票房数据挖掘预测
如上图所示,简而言之电影票房预测思路就是先根据历史票房变化预测出春节档总票房,然后根据各导演、演员制作的历史电影质量、票房情况、SEO情况等预测出各电影票房占比,之后综合预测出各电影的实际票房。
第一步:获取数据
从m1095、票房网、豆瓣网等获取电影票房、质量、属性等数据,如下图:
获取数据如下:
影响电影票房的三个重要因素:电影质量、电影宣传力度、档期电影总票房。相比较之下,电影宣传力度与档期电影总票房是比较好获得的,宣传力度依靠SEO、上映前排片、点映等就可以衡量;档期电影总票房更是典型的时间序列问题,使用时间序列就能预测出春节档总票房;新电影的质量用什么来预测?看起来似乎是一个有趣又困难的问题?
第二步:预测出春节档电影首周票房
使用FineBI的智能时序预测功能预测出2019年春节档首周总票房为76亿,预测步骤如下图:
第三步:预测电影质量从而预测电影在该档期的票房占比
如何使用历史数据来预测电影质量?俗话说,铁打的营盘流水的兵,对于电影来讲不变的就是那些导演与演员,导演的水平与演员的水平基本决定电影质量从而影响电影票房。因此,如何衡量导演、演员水平以及导演演员如何与票房联系就是最大的问题。
为了客观衡量导演、演员水平,根据历史电影评分、导演信息、演员信息、票房信息、电影类型信息、评价信息等特征进行组合最终共有74个特征,再结合历史票房数据等通过加权算法分析得到四部电影的票房占比情况,处理后的数据如下:
通过导演、演员水平预测得到的票房占比以及首周票房如下:
从这个结果来看,四部电影首周总票房大约在56亿左右,并且星爷的电影票房还是比较高的,从这里也能看出星爷历史电影的票房都是比较好的,而流浪地球由于导演的历史票房问题表现就不是那么理想了。
第四步:结合SEO、市场响应等优化票房占比
上文提到电影票房还与SEO等相关,我们找寻了百度指数、微信指数、淘票票指数等数据,如下图:
从历史数据发现这些指数与电影票房呈正相关关系,也就是指数越高票房越高,这么看来星爷的新喜剧之王、吴京的流浪地球并不是太乐观。
好了,加入这些指数, 使用算法重新进行预测得到我们最后的票房预测结果如下:
也就得到我们最终的票房预测结果了。
那为什么数据挖掘没有hold住《流浪地球》?
答案只有两个字:“黑马”。
何为黑马?黑马就是在预测之时没有任何数据能够证明这部电影票房会爆,比如上映前的拍片、上映前的宣传、上映前的观众关注度、导演与演员近期历史电影质量与票房等,都显示《流浪地球》很平凡。《流浪地球》导演、演员历史综合表现并不是很好,市场效应衡量指数也不咋的,难怪算法要认为票房不咋的。
数据挖掘作为一种挖掘数据潜在关系、规则的科学方法,显然对《流浪地球》这种不按既定规则来的电影没有丝毫办法,只能送它一句666.
票房预测得准,其他东西,例如销售额能精准预测嘛?
答案是肯定的。
不论是电影票房预测还是销售额预测或者产量预测、精准营销等等,万变不离其宗,这些都是能够用数据挖掘的方法来实现的,只是由于业务应用场景的不同、企业文化的不同、本身数据的不同在实施与应用阶段都有一些个性化的东西。
比如同样是新店选址,由于每个企业所处行业不同、选址业务环节不同、选址目标属性不同,在实施阶段所考虑的特征、数据处理过程以及结果应用都会有所不同,即使是用同样的方法,大体的方向上不会有变化。
又比如企业智能排产、智能补货、个性化推荐、风险识别等等应用场景需求,同样由于企业不同也会有所不同。
因此,我要预测电影票房是其次,其实小编是想介绍下我们(帆软)的数据挖掘方案,帮助企业客户能够更快更好的用数据挖掘实现这些需求并最终应用到业务中去。分享一些场景案例吧:
1、店铺选址
适用企业:服装、鞋靴、珠宝、美食等拓店速度快、拓店数量大的这类企业
业务需求:企业在拓店之前需要评估店址,店址的评估最终表现形式多是新店址未来一年销售额能达到多少,当预估销售额超过企业内部新店标准时就算合格。实际业务中采用人工估算不仅预估值误差大而且人力成本高,因此,切合实际业务来讲,需要使用算法模型来预估新店销售额,作为店铺选址的数据支撑。
解决方案:结合新店址所在区域、商圈的人口密度、消费水平、消费习惯、商圈口碑、同区域的老店铺历史销售额等数据,使用算法训练模型,预测出新店未来某个时间范围的年度销售额、季度销售额、月度销售额,以预测值作为业务开展依据。
达成效果:企业可以以预测销售额来开展新店址选择业务,并且根据中间结果做相应的成本投入安排以及销售额调控措施,帮助企业降低成本的同时提升企业收益,使企业达到利益最大化。
2、精准营销/个性化推荐
适用企业:电商、超市、大型商场等从事B2C销售以及部分B2B销售企业。
业务需求:随着消费升级反推产业升级,在海量可供选择商品中,如何给用户推荐他当前最想要、最需要、最满意的产品很大程度上了交易成功与否,给不同的用户推荐各自当前最想要的产品需要大量的规则与算法支撑,也是企业营销的重点。
解决方案:对用户做基于用户基本属性、LBS属性、业务属性、行为属性、特征人群属性、用户分级属性、兴趣偏好属性等属性的用户画像,之后使用各种算法经过推荐召回和推荐排序给用户推荐其当前最想要、最需要、最满意的产品,从而减少用户选择时间以及提升交易成功率。
达成效果:企业能够针对特定人群开展当前时间最适合的促销等活动,企业通过个性化推荐给每个用户推荐不同的商品以及开展的一系列营销活动,企业销售额、成交率、利润率、好评率、回头客等都有明显的提升。
3、智能排产/补货
适用企业:制造业类企业、供货商、销售终端等处于SCM内的企业
业务需求:大量企业存在供货不及时、库存堆积、物流周转不理想的问题,企业需要知道未来一段时间产品的销量、库存剩余可供销售时间、未来一段时间需要生产产品数量等信息,才能更好去开展排产、库存调节等工作,而这些数据需要大量的规则与算法来支撑。
解决方案:以超市生鲜为例,基于超市生鲜历史销售数据、天气数据、日期数据、客流量数据等使用算法建模,预测出未来天粒度、周粒度、月粒度的生鲜销量,超市根据未来销量开展库存调配与生鲜进货等工作。
达成效果:超市生鲜内产品销售额较之前有所上升,运营成本、材料成本等有非常大的降低幅度,从而使超市的收益有明显提升。
最后我们数据挖掘方案感兴趣的可戳帆软数据挖掘方案。