雅虎广告平台的技术演进

个人简介 容力现任雅虎北京全球研发中心高级研发总监,负责雅虎在线广告精准投放产品的北京研发团队,致力于基于海量数据的用户行为分析和挖掘,以及在大数据平台上优化显示广告的个性化投放。在加入雅虎北京全球研发中心之前,容力曾经在美国微软公司担任资深研发经理,领导多个工程师和研究工程师团队,负责有关显示广告和内容广告产品的算法与平台技术的研发。 容力曾经在加拿大一家数据挖掘技术服务公司长期效力,担任资深科学家和专业服务总监,为国际顶级的石油公司提供数据挖掘服务,其中包括加拿大自然资源公司、壳牌石油公司和中石化。容力曾就读于加拿大滑铁卢大学并获得博士学位。

   

1. 各位InfoQ的读者大家下午好,我是InfoQ中国的编辑包研,我们现在在雅虎北京全球研发中心,我们今天非常高兴邀请到了雅虎北京全球研发中心的高级研发总监容力先生。你能不能先跟我们介绍一下你自己的背景和团队的一些人员情况?

容力:我叫容力,我从微软来到雅虎大概是四年半以前的事情,现在在雅虎带领雅虎北京的有关广告平台的研发团队,北京研发中心有相当多的人在我们这个团队里。

   

2. 我们知道雅虎给人一种感觉,就是它的广告平台是蛮强的,包括它贡献了大数据的一个非常流行的计算框架Hadoop,是雅虎最早提出来的。您能不能介绍一下您这个团队到底在雅虎整个广告服务器当中扮演了怎么样的角色?做了哪些工作?

容力:这个问题问得非常好,雅虎过去作为一个比较强大的媒体公司,它的广告平台的业务并不为大家所知,实际上我们在近几年来逐渐发展成为一个技术公司,而不是一个媒体公司,这个我们的CEO也多次提过。我们在广告技术上的研发最近主要的贡献是在几个特定的地方,比如说北京研发团队正在做的,叫做需求方平台这样一个东西,英文叫做DSP,还有一个数据服务平台,英文叫做DMP。当然我们还在依托于这样两个平台做广告精准投放,这是我们最近的一些新的产品。

   

3. 能不能聊一聊这些产品背后的一些架构?比如说我想到有些算法,数据的存储,有各种数据收集过来之后要做一些交叉的计算,这些底层的架构是怎么样的?

容力:这个简单地讲,背后的架构是一个大数据的架构,稍微复杂一点讲,现在大家都在谈大数据,我们的大数据具体一点有什么东西呢?我前面提到了DSP、DMP和广告的精准投放,这里所依托需要的是实时的、非实时的和准实时地对大数据的处理,尤其是对实时的大数据处理,这是这一两年来才发展起来的技术,雅虎作为这些技术的推动者,不仅在我们产品里应用了这些技术,同样也把这方面的技术通过我们的一些改进,回馈给开源社区,包括像Storm,包括像你提到的Hadoop,还有一些更实时的像Juicy这些系统,这些东西雅虎都在技术上有很多的投入,支持我们在广告上面的处理。雅虎为了对广告的精准投放,也就是说要在特定的时刻、准确的时刻,把广告在合适的位置打给合适的人,那么需要做很多用户的分析。我们全球有大约10亿的用户,过去比如说30天甚至90天的数据,这样大的数据量的处理是一个典型的大数据的处理,同时一个用户比如说现在在搜索引擎上搜索了一个词,他的这种心态,这种intention,马上在1秒钟之内就能反映到广告投放上,这是一种实时大数据处理,基本上就是这些。

   

4. 我们知道雅虎做广告平台已经很多年了,它这个平台经历过哪几个比较大的变化或者说是迭代?能不能介绍一下整个发展过程?

容力:因为我在雅虎大概也待了4年,也经历了这几年的变化,也许正好是这几年的变化还真挺多,主要有两方面的变化。一方面是技术的演化,比如说在5年前,那时候已经有Hadoop了,其实更早的时候已经有这个概念了,已经有实现了,但是那时候的技术不足以支撑实时的大数据运算。在这一段时间里,我们逐渐发展了类似Hadoop Online技术,就是实时的Hadoop处理,还有一些实时分析的系统。这些系统都是逐渐迭代出来,通过我们工程师的努力,一步一步加上来的,这是一种变化。还有一种变化是市场的变化,因为我们知道所有的技术和产品是市场驱动的,比如说大概在5~6年前,那时候比较先进的广告的系统是Exchange,翻译过来就相当于是个广告的交换平台,在这几年,尤其是这2年以来,我前面提到的这些概念,像DSP、需求方服务平台、数据服务平台这样的,这种新的广告展示模式,包括近一年出来的原生态广告,这个我手下也有团队在做,这些都是一些新的广告形式,这些需求驱使我们的产品要不断地演化。

   

5. 其实现在移动的设备越来越多,大家每天投入在移动设备上的时间和注意力也越来越多,它给我们生活带来的变化也越来越大,毫无疑问这些移动设备的数据相对于传统的数据有更大的价值。在您看来,在这种大的背景下,在广告平台上的公司,您觉得有哪些机会?您能否预测一下未来几年的市场有没有一些新的广告平台的商业模式或者一种新的趋势?能不能跟我们谈一谈?

容力:让我预测这个市场还是比较难的,我谈一谈我所知道的吧。比如说我的团队有做广告精准投放的,他需要对我们的用户有全方位的了解,最近的发展,包括微信、QQ,手机上的QQ,大家有很多的时间花在一些新的社交媒体、新的设备上。我们通常说的是移动设备,实际上大家花在移动设备的时间是碎片化的,碎片化时间比如等车时间,坐地铁时间,在QQ上聊天,或者在微信上聊天,也有时候是看一些新闻,还是非常碎片化的,但是这些碎片化的东西,包括在手机上,包括在办公室的电脑上,这些东西整体合起来,就是对一个人360度全息的了解,所以在过去只有掌握了一个人在搜索引擎上的行为,就能掌握一个人的行为,了解这个人的需求,了解这个人喜欢什么东西,但是在现在这个情况下,光靠搜索引擎是不行了,我们还需要收集这些人在其他各方面的一些行为,当然在安全性可以保证的情况下,我们通常在匿名的情况下收集这些数据,然后更好地服务客户,也就是把合适的广告推送给合适的客户。所以我觉得雅虎在这方面是非常重视的,我们最近的一些比较大的收购,像美国的一个社交轻博客网站Tumblr,还有一个手机公司叫Flurry,这些收购都体现了雅虎在这方面的重视,我们需要全方位的了解我们的客户。

   

6. 最后一个问题,其实刚才也提到了很多,像Storm这些技术对广告平台的影响,它的发展是起到至关重要的作用,未来您觉得有没有一些能够影响未来广告平台发展的技术,您现在有没有大概的察觉或者预测?

容力:我感觉这个硬件技术的发展会有很大的突破,目前这些技术上,它的一些瓶颈还在于硬件上,软件技术的发展现在超过了硬件技术的发展,虽然过去英特尔之父曾说过摩尔定律,但是在近期内我感觉像In-Memory的一些东西,底下的团队有去尝试,In-MemoryDB这样的技术还不太成熟。它在一些其他的行业有它的一些应用,包括股票,实时的股票的预测,但是对于在线广告这种十亿级规模的人数上,现在的In-Memory数据库技术还不成熟,但如果将来能够在硬件技术发展的推动下,能让它上一个台阶的话,相当于有另外一个Hadoop,我们当时说出现了像Storm、Shark、Spark等实时技术之后,等于是在原来的Hadoop之上又有了一个新的东西,如果In-Memory的数据库这一套系统有更大的改进的话,我感觉将来会是一个新的突破,谢谢。

你可能感兴趣的:(雅虎广告平台的技术演进)