2018年11月17日,深圳——首届极光开发者大会在深圳召开,近千位互联网公司技术领袖、合作伙伴、开发者齐聚一堂,围绕大数据、人工智能、移动开发等广受关注的热点话题,共同探讨移动开发的下半场,构建健康的开发者生态。
极光开发者大会是极光七周年系列活动的压轴项目。成立7年来,极光始终专注于为移动应用开发者提供稳定高效的服务,包括消息推送、即时通讯、统计分析、社会化组件和短信等。从推出极光推送,到全面布局极光开发者服务和极光数据服务的业务版图,极光与35万开发者共同成长,携手走过了移动互联网的蓬勃发展期。通过此次开发者大会,极光希望为广大开发者搭建一个沟通交流的平台,探讨和分享了移动开发领域的前沿技术和行业趋势。
在极光开发者大会上,李润超带来了《漫画平台的数据与智能》的主题演讲。
李润超于2015年加入快看漫画,是快看漫画的联合创始人,目前主要负责技术、产品、人事等团队。
李润超任职的快看漫画创立于2014年12月,是国内首个专注于移动端的漫画阅读平台。成立仅三年,迅速以条漫、高清、全彩等特点获取了大量年轻用户。截止到2018年1月,快看漫画总用户量达1.3亿,月活近4000万,日活近1000万。
他的演讲主要包含以下几方面内容:
1. 快看漫画是谁
2. 漫画层面数据和智能的应用
3. 平台层面数据和智能的应用
漫画平台的数据与智能
主讲人:快看漫画联合创始人李润超
大家好,我是来自快看漫画的李润超,今天给大家分享的是漫画平台的数据和智能。
漫画平台首先是内容平台。可能大家会有疑问,快看漫画作为一个内容平台,它的数据和智能有什么特殊之处。其实正是漫画的特殊之处决定了漫画平台的数据和智能的特殊性。
漫画有什么特殊之处呢?相比较其它的短内容平台,漫画首先是一个连载型的作品。我们是一话一话地去追一个作品,而不是一口气看完了一个作品的完整故事。除了连载性之外,还有一点也是由连载性衍生出来的,就是漫画作品的总量非常少。我们曾经抓取过全网的漫画作品,中国全网的漫画作品不去重的情况下总共只有不到二十万部,去重之后数量可能要砍掉一半以上。所以说整个的漫画作品的总量是非常低的。在低总量的平台和连载型的作品形态下,我们对于大数据的应用和人工智能的应用方式也产生了一些变化,我们要更着重关注漫画作品的整个生命周期和承载漫画作品的平台。
所以今天我的分享大体上分为两个部分。第一个部分介绍在漫画方面,数据和智能的应用,第二个部分介绍在平台的方向上,数据和智能的应用。
快看漫画是谁
快看漫画已经是中国最大的原创漫画平台。我们整个漫画平台上共有近千位的签约作品,产生了近两千部的漫画作品。刚才我提到全网有20万部作品,而快看只有两千部,这个是百分之一的一个量级。快看只通过百分之一的漫画作品就取得了非常优异的成绩,我们有近一千万的日活,近四千万的月活,总用户量突破了1.3亿。
通过引用极光大数据的动漫app渗透率可以证明,我们在漫画行业内稳稳得坐在了第一名。左侧的图是漫画前五名的DAU的数据,右侧这张图是漫画app渗透率数据。大家简单做个加和就能看到,我们的量级比第二名到第五名的加和还要大,我们的市场占有率可以说已经突破了50%。
除了在线上取得了不错的成绩外,我们在线下也取得了不错的成绩。15年-18年,我们连续四年在广州突破这个城市的签售记录,每场签售人数过万,漫画作者享受到了像明星一样的待遇,被簇拥着,被送礼物。签售的主角是图书,其实除了图书,我们对IP书画方向也进行了很多尝试。
我们对15年的头部作品《快把我哥带走》进行了较完整的孵化,拍成了动画片、网剧、真人电影。
《快把我哥带走》是我们既以成名作品的一个孵化案例,但是在快看漫画这个平台上还有大量的其它作品,这些作品并没有进行完整的孵化。在没有完整孵化的情况下,我们尝试了一些虚拟衍生。例如《怦然心动》这部作品,今年我们尝试在OPPO、vivo、三星等平台上做相关壁纸的下载。超过我们的想象,《怦然心动》壁纸的月销售额突破了百万。
这些已成名作品或待开发作品所取得的成绩,说明了漫画不仅仅是漫画了,它已经是新生代针对年轻人的一个重要内容来源。而且漫画IP的影响力也已经是当前最具影响力的IP形态之一,漫画具有很大的商业潜质。
介绍了这么多漫画,再给大家说一说我们的数据规模。我们每天核心事件的上报数量都超过十个亿。这个事件埋点上线一年多,已经有累计接近5000亿条的数据上报量。另外,在我们核心系统24小时请求的监控图里,QPS峰值超过每秒170万次,系统全天的请求接近一千亿次。正因为有了这样的数据规模,快看才得以在大数据和人工智能方向进行一些尝试。
介绍了这么多,大家会想到也能够理解到,快看首先是一家内容公司,然后才是一家技术型公司。在快看创立的早期,整个公司都以内容型人才为主,而内容型人才又以女性为主。我作为最早加入公司的几个工程师之一,初到公司感到很夸张的一件事是,上厕所找不到地方,为什么找不到地方呢?跑遍整个楼层发现只有女厕所,而没有男厕所…
今天这一切都已经改变了,我们产研团队达到190人的规模,技术研发团队成为公司第一大部门。我们有一半的资金都投入到研发的方向,数据和智能是目前研发的重点方向。在未来的一年里,我们计划在深圳或者广州成立第二个研发中心。
漫画层面数据和智能的应用
现在我要回归正题了,前面说过我要分漫画和平台两个方向去介绍我们的数据和智能。接下来我先介绍漫画的部分。
首先,我们了解一下漫画的生命周期。一个漫画的生命周期大体上可以分为四个部分。第一个部分漫画的诞生和生产,第二个部分是签约和上架,第三个部分是上架之后进行的数据监测,第四个部分是由于数据表现很好,我们开始进行IP孵化。
传统的模式之下其实没有大数据和人工智能的参与。大家可以看到,作者供稿给我们,我们的编辑进行人工评级,或者由我们的制作人团队产生命题,发出任务,让我们合作的工作室和个人进行试稿,这样就完成了整个生产和诞生的流程。一旦上架之后,编辑会每天盯着数据看作品的评论量多少、点赞量多少,浏览量多少。一旦我们觉得一个作品的数据表现不好,我们就开始要求作者进行优化调整。如果调整持续一段周期,数据还不好就下架。其实前面提到快看只有近两千部作品,占整个全网平台作品总数的百分之一,为什么快看的作品数量这么少?因为我们始终坚持精品的原则,所以下架对我们来说是最一件相对平常的事情。
如果一个作品的数据持续看好,到了一定程度,我们就开启它的周边孵化。最简单的周边孵化就是图书,图书之外,刚才提到了动画、网剧、电影,也可以做游戏和周边的售卖和形象的授权。这就是一个漫画的传统生命周期。
了解了漫画的生命周期,大家可能也就开始想了解数据和智能如何在漫画的整个生命周期中起到作用。在座很多人可能都看过一个很有名的美剧《纸牌屋》,但大家可能不知道的是,早在2012年的时候,Netflix就宣布这部作品会采用大数据和人工智能进行辅助创作,根据分析行业特点和流行趋势去制作这部作品。《纸牌屋》在2013年第一季上映的时候一举成名,也证明了Netflix在数据和智能辅助创作方向所取得的成就。
Netflix如何能做到这一点,根据快看漫画目前的实践,我们认为可以主要归结为两点。
第一点,你要有一个能够解构作品的标签体系。标签在所有的推荐系统里都很常见,但是大多数常见的标签体系并不是用来解构作品,而我们要求创建的标签体系是需要用来解构作品的。
截至目前,快看的标签体系有超过20个维度,大多数维度下都有超过百个的标签。我们对标签的要求,首先是维度上的,我们要求所有的维度度之间尽量是正交的,维度和维度刻划的是不同的事情。此外我们对于一个维度下的标签也提出了更高的要求,我们希望一个维度下的标签和标签之间是尽量不相关的,标签和标签之间覆盖的作品是交集越小越好。这样我们才能构建出一套有效的能够解构作品的一个标签体系。
这个标签体系的构建过程也是十分漫长的。我们的编剧和制作人团队要将他们过去二、三十年看过的作品全部拿出来分析,看能够创建出哪些标签和维度。分析完这些标签之后,我们初步对所有的作品打标签,这些都是人工进行的。接下来我们开始利用大数据挖掘,看能不能挖掘出一些新的标签或者新的维度。
这个标签体系如何应用呢?我下面举几个例子。
定制化制作:当我们对大量作品进行整体分析之后,假设会看到恋爱、爆笑、剧情、奇幻是比较火的几种类型。基于这个分类,我们可以定制化作品,要求作品具有恋爱、奇幻、校园这样的属性,然后把任务发给内容生产的个人或者团队让他们去制作。
提供调整方向:过去的调整主要根据编辑个人的喜好和敏感度,现在我们可以依赖这套标签体系告诉作者现在流行的趋势是什么,需要往哪个方向进行调整。
作品评分:我们可以依赖标签体系对投稿的作品进行自动评分。依赖这个标签体系,我们在今年2月上架了一部评分较高的作品《DOLO命运胶囊》,这部作品从2月份上架到现在,关注人数已经突破了600多万,达到了600多万的订阅人数。
第二点,我们需要通过数据监测,客观评价全网漫画作品。
这个需求怎么来的呢?我们曾经拿《怦然心动》和《一人之下》的漫画进行过比较,发现在微信指数上《怦然心动》远远高于《一人之下》,但是到了百度指数上结果刚好相反,这样就导致没办法评估究竟哪部作品更火。其实,这主要是因为其中有很多干扰因素,比如《怦然心动》其实也是一部美国电影的名字,而经过IP孵化的《一人之下》的热度也受其动画片的影响。这就要求我们建立一套体系,对作品进行完整客观的评估。
这个体系怎么建立呢?最初,我们想把全网的漫画平台数据全部抓回来进行监测,但是把不同平台的作品放到一个坐标系上去评价是很难的。所以,我们选择了做UGC平台监测,去监测微博、兴趣部落、贴吧等各种平台的用户讨论。
监测了UGC平台之后,我们也希望像Netflix一样,根据全人群的流行趋势定制作品。这种情况下,只分析漫画平台已经不够了,因为单一平台具有一定的滞后性。所以我们就把所有的长视频平台、网文平台等全部监测起来,分析当前最火的作品是什么,分别具备哪些流行元素。
通过以上的全网数据监测,我们输出了IP孵化的指数。孵化的第一步是商业化评估,通过这个指数,我们决定一个作品是不是该转化成付费作品或者会员作品,然后再根据之后的数据表现,看是否要进行动画化的孵化。
通过数据监测,我们还能预判是否开发周边,什么时候开发周边,第一批生产多少个等等,这也就催生周边售卖的指数。
平台层面数据和智能的应用
快看漫画是一家To C的企业,用户增长是我们很核心的一件事情。今天我想通过一个指标来阐述快看是如何做用户增长的。
我们的日活跃用户构成主要有两个部分,一个部分是忠实用户,流入流出速度比较稳定,另外一个部分是每天获取的新用户,到第二天、第三天的时候会形成一定的留存,累计后就构成了某一时刻的日活。大家可以看到,日活高与低取决于留存率曲线衰减的速度,衰减得越慢每天累计得越多。另外也取决于花了多长时间做增长,能让留存率在一个水平上稳定多长时间。因此,我认为留存率和周期是决定日活的关键因素。
但现实往往是残忍的,不只有留存率和周期,还有个预算这个矛盾点。一般创业公司刚刚起步的时候,往往会融入一大笔钱,希望在一个周期内达到比较高的日活。随着的公司发展,大家会开始把预算拆解成单用户获取成本和用户获取量两个因素。数量和周期结合之后,我们就获得了用户的日新增量。日新增量和预算之间的矛盾在于,越大的日新增量,花的钱就越多,因为把用户的注意力从别的竞争对手那里抢过来总要付出更高的成本。但日新增量和留存率之间也不是正相关的关系。当你想要获取更多的用户,只能获取一些不属于目标定位的人群,留存率也会因此而快速下降。
单用户获取成本(CAC)、留存率和日新增量是影响日活的几个变量。为了决策用户的获取量,我们需要合并留存率和单用户获取成本。怎么合并呢?在留存率曲线中,我们引入了TAD,即用户在一个时间周期内能够活跃的天数。如果我要定义这个用户第一年的的活跃天数,就要把原来公式里的无穷改成365,最终这个值就是用户的年总活跃天数Annual TAD。
ARPU值指一个时间段内每用户平均收入,它取决于平台的产品属性、运营属性和促销策略,其上限取决于平台用户的消费能力和用户的品牌认知度、认可度。所以如果公司运营得好,ARPU值应该是稳步上升的状态。
接下来,我们定义了一个最终简化的模型,叫PFY,也称首年产出率。它的计算公式是PFY(Productivity of First Year) = (日ARPU × Annual TAD) / CAC。如果PFY等于1,说明这一年正好把花在用户身上的钱赚回来了。只要PFY大于1,就可以随便卡,大于0.8就赔20%。只要有了这个指标,就可以不用考虑留存率和单一获取成本,根据它来决定要获取多少用户就好了。如果你的产品没有营收,可以用某个核心指标替代ARPU,例如社区产品可以用日轮互动量代替日ARPU,这时你同样可以考核一个互动量的PFY指标。
至此,就不必再纠结单用户获取成本(CAC)、留存率与日新增量之间的矛盾,只要监测PFY达标就可以马力开足提高用户的日新增量。
我的分享就到这儿,谢谢大家。