估计现在今日头条的用户量应该达到 5 亿了。从 2012 年到 2016 年这几年间,平均
算下来,今日头条平均一年新增 1 亿多用户,平均每月新增 1000 多万用户。每个月
的成长,几乎相当于别人努力一年甚至几年的结果。
有人说,今日头条的用户量大多是靠预装带起来的。然而,预装对于各家门户的新闻1
客户端来说,是一个带来用户量的常用手段。如果大家都用了同样的手段,但最终留
下来的是今日头条,这说明了什么?
市场是检验一款产品到底成功与否的唯一标准。今日头条推荐的新闻,更符合用户群
体的口味。
然而,在拥有数亿用户的情况下,今日头条若依然坚持人工推荐的话,人力成本巨大
不说,效率也不会高。通过技术手段,自动化整个服务链条,从来是应对业务规模化
的路径。假如你以前不相信今日头条自己有做个性化内容推荐算法,那么现在,你必
须相信今日头条它已经这么做了。因为没有一份报纸,可以每天出版数亿份不同内容
的读物。
那么,今日头条如何做到内容精准化的推荐,它对今日头条的商业模式带来怎么样的
影响?通过机器的方式对信息的分拣,以及推送,真的可以触动到读者的心吗?
今日头条核心算法负责人杨震原,之前就在在 MindStore 分享时提到,一开始今日头
条的推荐算法,首先入手的是“非个性化推荐”——解决的热门文章推荐,以及新文
章冷启动的问题。
杨震原在“MindTalk 线场”说,“单纯的热门(文章),会让一些新文章没有机会。
单纯的随机(推荐),(文章)质量当然不好,所以考虑一些简单方法,比如算一下
威尔逊置信区间,来平衡热与新的问题。”
之后,今日头条开始逐步引入个性化推荐的策略。他们所采用的,是协同过滤
(Collaborative Filtering)** + 基于内容推荐,直到今天依然构成今日头条推荐
算法的基础。
关于协同过滤,参考 IBM developerWorks 中文社区的专业解释,“协同过滤一般是
在海量的用户中发掘出一小部分和你品位比较类似的,在协同过滤中,这些用户成为
邻居,然后根据他们喜欢的其他东西组织成一个排序的目录作为推荐给你。”
杨震原在 MindStore 分享,
(协同过滤)是一个很好的方法,直到今天我们还一直使用。但缺点也很明显,对
于没有行为(记录)的文章,没办法推荐,所以没办法用于文章的冷启动。所以我
们引入了基于内容推荐的策略。比如计算文章的分类、文章的关键词,然后根据用
户对文章的阅读、浏览等信息,细化用户的个人资料。——这样子,如果文章是和
科技相关的,而用户的个人资料也显示科技相关,那么就算匹配。”
在之后的工作,是把特征、模型做得更加细化。比如,文章实体词的抽取。我们最
近对文章的分析,已经做得很细,可以精确地提取实体词。我们近期引入了‘词嵌
入’(word embedding)方法,做向量化的分析,还引入 LDA 的方法,进行
topic 分析等等。
除此之外,今日头条还通过用户对内容的“正负反馈”来判断内容匹配是否精准。正
反馈,包括用户点击了、看了很长时间、分享了、收藏了、评论了,都是正反馈。负
反馈反而是比较难获取的,现在今日头条在内容上设置了一个小叉,点击之后,会咨
询用户不感兴趣的理由,这种做法则会获取比较强的负反馈。但是通过这种方式收集
到的数据还不多。
那么,我们知道现在的个性化推荐算法还未尽善尽美。在“MindTalk 线场”上,有用
户提问,“今日头条如何平衡传统意义上的头条新闻和用户感兴趣的头条新闻?”对
此,杨震原的回答是,“我们目前是增加非常少的运营干预一天只有零星几条,来增
强传统头条新闻的推荐,避免机器推荐对这类内容推荐的不足。”但是,拿捏新闻推
荐的平衡点,是整个业界都在钻研的问题。
通过杨震原的解释,我们基本知道了今日头条推荐算法的原理:通过算法,一边提取
内容的特征,一边提取用户兴趣的特征,然后让内容与用户的兴趣匹配。
不过,除了对文本进行分析外,今日头条如何对用户进行分析呢?
杨震原说,“新用户能够得到的信息(历史行为)非常有限。我们尽量通过一下其它
途径想办法获取信息,比如说,如果通过微博登录,那么就可以拿到很多信息,解决
冷启动的难题。再比如,手机机型、手机在什么城市等信息,基本也可以知道。当用
户积累了一定的行为数据之后,就可以算出他们的兴趣特征。总之,尽量通过有限的
信息,来猜测用户的兴趣。”
今日头条通过机器匹配用户阅读兴趣,与内容本身的特征之后,这对他们的商业有怎
样的影响?
广告界有一句名言,“企业所投放的广告费总有一半是浪费掉的,但是却没有办法知
道被浪费掉的是哪一部分。”今日头条目前的商业模式也是以广告为主,因此在产品
上所产生的巨大流量,可否与广告内容精确匹配,进而进行更加精准的转化。
根据今日头条所提供的案例,此前海尔旗下卡萨帝选择在今日头条的动态开屏和信息
流中投放广告,最后开屏广告的转化率达 11.93%。