在电商、互联网广告、移动互联网,推荐系统发挥着越来越大的价值。豆瓣是国内较早涉及推荐算法和推荐系统的公司,在国内技术圈,豆瓣还有明显的工程师驱动的风格。在QCon北京2014大会上,豆瓣首席科学家王守崑将分享《大数据环境下社交图谱和兴趣图谱的融合》的话题。日前,InfoQ对王守崑进行了专访,以下为采访内容:
InfoQ:王守崑你好,首先做个自我介绍吧。
王守崑:我在2006年加入豆瓣,8年来一直从事个性化推荐技术、数据挖掘等互联网算法相关的工作。在此之前,我做过供应链优化建模、管理咨询,以及项目管理等工作。
InfoQ:过去一年中,你观察到推荐领域有哪些值得关注变化?
王守崑:过去几年来,一个明显的趋势是搜索、计算广告,以及个性化推荐这三者在底层模型和技术工具上越来越趋于融合。各种机器学习算法作为这三者的基础起到了至关重要的作用。运用各种成熟的机器学习方法来改善推荐质量,提升用户体验已经是从业者必备的技能之一。此外,移动互联网的蓬勃发展为个性化推荐提供了更加广阔的前景和想象空间,相比于PC互联网,用户使用场景和习惯的改变使得用户行为模型在个性化推荐领域的重要性获得了空前提升。个性化推荐不再单单局限于兴趣领域,兴趣、关系、场景、行为模式,这四者都会起到至关重要的作用。在技术上,个性化推荐也促进了很多机器学习算法并行化的发展,新的并行范式、新的数据存储方式层出不穷。可以毫不夸张的说,当前是个性化推荐领域飞速前进的时代。
InfoQ:社交图谱和兴趣图谱的建立,强烈依赖于用户是否想在这个平台上展示自己。想展示自己的用户的数量是有限的,那么怎么挖掘出那些用户活跃度不是很高的用户的兴趣图谱呢?即怎么解决数据的稀疏性的问题。
王守崑:数据稀疏性或冷启动问题的确是个性化推荐领域的经典问题之一。改进推荐算法,提升精准度在这个问题上有一定帮助,但是坦白的说,获取启动数据的关键更多的在产品和运营,尤其在产品初创阶段,算法能够起到的帮助比较有限。也就是说,关键在于产品的功能能否满足用户的需求,能否激发用户的分享和传播,从而使内容和数据的增长进入一个良性循环的轨道。当然,我们可以用一些隐式模型或降维的方法来预先处理数据,缓解稀疏性的问题,当更加主要的,还是要看产品的方向。
InfoQ:解决人与人、人与物的关联形成的图分析,目前有哪些比较好的开源计算框架?豆瓣现在使用了什么样的架构?这个架构能够分析什么样的数量级的数据?
王守崑:图计算也是引人瞩目的领域之一,利用图的特殊性进行数据存储和并行化计算,非常适合进行以链接和关系为基础的数据分析和相关的机器学习算法。比如GraphLab、GraphDB、GraphSQL、Neo4j等等都是大家使用比较多的工具。
InfoQ:兴趣图谱表明的是用户的兴趣的问题,如何把这个兴趣商业化呢?在购买交易等行为中,用户往往会综合考虑兴趣、价格、位置等多方面的因素,也就是如何把兴趣图谱应用到电子商务的商品推荐上呢?
王守崑:广义来看,兴趣是人们很多行为的持久驱动力之一。因此,从这个意义上讲,由兴趣而派生的商业行为和商业模式也会有持久的生命力。至于兴趣图谱在电子商务中的应用,很多电子商务的个性化推荐从业者都做的非常好,在这方面他们比我更有经验。
InfoQ:社交关系往往是社交网络才具有这样的数据,而对于其他企业(特别是电商)如何利用这些社交关系创造利润呢?也就是社交网络公司怎么才能把自己的数据的价值变现呢?
王守崑:社交关系会作为基础设施而存在,事实上我们在一些大的社交平台上已经可以很清楚的看到这一趋势了,这是正在发生的事情。各种应用,无论是电商、工具还是游戏,都可以社交关系这一基础设施中获得更好的传播和流量输入,从而获取更多利润。拥有大规模社交关系的公司一定是平台级的公司,他们变现的方式多种多样,有很大的想象空间。在这一过程中,个性化推荐可以帮助各方更有效的分配资源、提升利用率。
InfoQ:豆瓣一直专注推荐系统,说说你在QCon北京2014大会上的分享有哪些新信息?
王守崑:主要还是分享我们在兴趣图谱和社交图谱融合方面的一些经验和教训,以及对用户行为模式的一些理解和发现。
InfoQ:豆瓣的兴趣图谱与国外的PInterest等有何异同?社交图谱是只来自于豆瓣本身,还是会考虑其他的社会关系(如微博)?
王守崑:我们力图建立一个能够涵盖用户的各种兴趣的体系,并以此和社交图谱为基础串联起整个用户体系和用户在网站上的各种行为。社交图谱主要来自于豆瓣本身,在得到用户授权的情况下,我们也会考虑使用用户其他的社会关系。
InfoQ:豆瓣对两种图谱的融合,除了用于个性化推荐,还有哪些用途?
王守崑:搜索、广告、提醒,动态交互等等各方面都可以利用兴趣图谱和社交图谱融合所得到的结果。
InfoQ:除了这两种图谱,现在很多人还在说知识图谱,这个有没有可能与其他两种图谱结合?
王守崑:如果我们说的是Knowledge Graph,那是Google对搜索未来的一种判断和期待。背后是Google整合人类所有信息和知识的努力,是语义网、认知科学和人工智能长久以来的积累和发展。这会是未来我们值得期待的突破之一,但目前对它的各种实用性要求,还为时尚早。
此专题详细信息,请见专题页面。关于此次QCon北京其他专题的详细信息,请移步至大会官网。
需要特别注明的是,每年QCon大会门票都会在开幕前售罄,及早预定可提前确保席位,并享受更低折扣。3月26日前报名参加可享受9折优惠。团体购票(5人及以上)将享有更多优惠。详请咨询qcon【at】cn.infoq.com,或直接致电010-64738142。报名请点击报名页面。