KDD的全称为ACM SIGKDD conference on Knowledge Discovery and Data Mining,今年的会期是8.12-8.16,在北京的国家会议中心。这是KDD第一次在亚洲举办,机会难得;加之我们组幸运的被邀请在KDDCUP的workshop上做一个报告,我们5位同学就欢快地从上海赶赴北京学习、腐败了。
今年参会人数有1000多人,虽然不能跟SIGGRAPH这种万人级别的盛会相比,但也创造了KDD的历史记录。
一方面KDD跟工业界结合非常紧密,随着互联网产业的快速发展和大数据的处理及挖掘越来越受重视,会场上随处可见各大互联网公司的算法工程师。百度、腾讯、淘宝、点评等好多团队负责人都露面了。另一方面,KDD委员会也刻意地在强化与工业界的联系,今年除了Industry/Govt Track之外,还新增了Industry practice expo invited talks,甚至要邀请了百度老大李彦宏等大佬来演讲,介绍工业界最近遇到的挑战。会场中还有各大赞助公司的展览,实际上就是一个招聘意向会。当然,长长的赞助商列表和滚滚而来的赞助费肯定也让KDD委员会的腰板硬了不少。
这次北京之行的收获,除了主要目的-KDDCUP的报告,就是见到了各路牛人,包括Robin Li、Jiawei Han、Michael Jordan等大佬,Steffen Rendle、Ben Hammer等通过Kaggle比赛认识的同行,中科院的同学们,以及听了多场精彩的演讲。当然,这次还顺路去了清华和天安门,吃到了新疆办、川办、水晶烤肉以及驴肉火烧这样的美味,还去MIX high了一下。。。
言归正传,总结一下听的几场演讲的收获。
1. KDDCUP workshop
主要内容是今年kddcup的各个获奖团队的报告,和今年主办方腾讯的演讲。今年kddcup的题目有2个,track1是关于weibo推荐,track2是搜索广告ctr预估。track1的获奖者包括上交的ACM班、我们、德国Kanstanz大学的Steffen Rendle、以及美国的Xing Zhao;track2的获奖者包括台湾国立大学、opera solutions、巴西人、以及中科院的同仁。
大家的算法各异,但主要还是SVD、LR、tree based methods、SVM、linear methods等,这里就不一一介绍了,可以参考这个页面。后来Kaggle的Ben Hammer做了一个数据挖掘竞赛的数据分布的统计分析,slides中的各个图表都非常有意思。
2. Learning to Rank
主讲人是MSRA的刘铁岩,讲得真心不错。先是对Learning to rank做了一些科普性的介绍,像是MAP、NDCG等,然后讲了一些具体的模型,例如RankSVM、SVM-MAP、ListNet等。可惜后来我逐渐听不懂了,听到一半就放弃了。
Learning to rank是个很有价值的方向,在web search、advertising、recommendation等领域用的很多。最近中科院计算所的一篇相关paper还得了SIGIR的best student paper,引用一下兰艳艳的话:ranking已成为一个基本问题,与其他application结合的趋势越来越明显,例如recommendation,query suggestion等。
3. Factorization Models for Recommender Systems
主讲人分别是MyMediaLite的作者之一德国hildesheim大学的Lars Schmidt-Thieme和LibFM的作者Steffen Rendle。主要侧重于对FM的介绍和一些改进方法。FM是推荐系统中最常用的方法之一,尤其是比赛利器。在FM相关的开源软件中,LibFM非常易用,效果也非常棒,值得推荐。
4. KDD开幕式
各种颁奖。亮点是Innovation Award获奖者的演说,今年的获奖者是Minnesota大学的Vipin Kumar教授。他做了很多全球变暖的数据挖掘和分析,很有意思。
5. Nine Real Problems we'd like you to solve
演讲者是百度的Robin Li,他从工业界,尤其是国内搜索引擎行业的需求谈了当前学术界的挑战。
第一点是复杂背景下的OCR问题。
第二点是复杂背景下的语音识别。
第三点是基于内容的图像检索。Robin提到百度图像搜索的流量已经超过网页搜索了,还提到qzone每天的图片上传量超过3个亿。
然后是社交网络中垃圾内容的识别和过滤(anti-spam in social),主要是广告帖的识别,因为现在广告帖伪装的越来越高明了。
接下来是百度强调多年的框计算,包括:open data, open app, open publishing。当中提到百度open data已经覆盖了17%的搜索需求。
当然还有个性化。
最后是社交网络如何变现-money in social。
听下来Robin最感兴趣的还是3个点:框计算、社交网络、图像搜索。框计算可以极大地巩固百度的行业地位,而图像的语义搜索一直是搜索行业的瓶颈。
后来是提问环节,问题也很有意思。
第一个问题是关于百度的优势和劣势。Robin的回答在强调百度的创新:帖吧、知道等。
第二个和第三个问题都是关于移动互联网。Robin提到了图像搜索在mobile上需求很明显;还有app搜索,因为app取代了pc web上网站的入口地位;还有context信息、social需求等等。
接下来是open platform 和 semantic web的对比。Robin的回答则更多的在强调推荐系统的作用和前景。
然后是box computing中如何识别高质量的user generated content。
然后是百度知道和帖吧怎么赚钱?
最后是搜索引擎如何对框计算的结果和高质量的网页结果做选择和平衡。
6. Mobile Application Recommendation
演讲者是Getjar公司的Kent,主要任务是预测用户的app的使用情况,来做app推荐。
Kent比较了传统的CF、pure SVD、SVD++、eigenAPP等算法的效果。评价指标是accuracy, popularity和variety。其中多样性通过entropy来度量。svd的效果很差,cf的精确性不错但偏向与热门结果,eigenapp的精确性和多样性最好,具体做法是首先做PCA,用eigen vector来计算app的相似性。
后来跟Kent聊了下,他们的线下数据集是10万user,7000item,数据稀疏性是0.25%。他的观点是多样性很重要,推太热门的大家都知道的应用没啥价值。不过他也没有线上测试的情况,比较遗憾。
7. Mining Heterogeneous Information Networks
Jiawei Han老师算是数据挖掘行业的开山祖师爷,是张三丰等级的人物了。我自己虽然对异构网络不太感兴趣,但还是早起去听了一会儿。因为我没听多久就可耻地进入梦乡了,听过的也不怎么明白,就不赘述了。
8. Semantic Search and a New Moore's Law Effect in Knowledge Engineering
主讲人是MSRA的Wei-Ying Ma。马维英是亚研的副院长,讲话很有气势。主要是围绕着一个新的摩尔定律:Big Data, Crow Sourcing 和 Machine Learning三者间的相互促进和循环。
semantic search的过程是 signals(web, image, video, book, answer)-> query -> ranking。具体思路是,第一步需要deep mining of better results,这又包括 intent识别和knowledge挖掘2部分,第二步是结果的组织,最好能做到像杂志一样,有条理、图文并茂。
intent识别主要是靠query分析,计算p(concept | short text),用到的技术包括 query segmentation, labeling, intent detection等。
knowledge挖掘的流程可以归纳为:n-gram分词->co-occurrence of phrases->relations->empowered search。
9. Key Lessions Learned Building Reommender Systems for Large-Scale Social Networks
演讲者是LinkedIn的首席数据科学家Christian Poss。Poss年纪不小了,语速很快,但思路很清楚。sclides的信息量很大,Poss也以超高的语速讲了大半个小时,结束后还被人团团围住,然后又滔滔不绝的在讲。。。太佩服了。
LinkedIn有1.75亿用户,其中62%是非美国用户。网站超过50%的friend、job、group相关的操作是来自于推荐系统,可见其推荐效果的过人之处。
LinkedIn的推荐系统要平衡buyer(job seeker)和seller(job poster)的利益,侧重于long term value of actions,因此主要以点击率和活跃度作为指标,不会直接考察推荐系统带来的直接收益。
演讲从以下几个方面考察了一个良好设计的推荐系统需要兼顾的方面:
user intent, user flow, locations of modules, right expection(You may ...), explanation, interact, social referral。
10. Divide and Conquer
演讲者又是一位开山祖师级的人物,graphical models的权威、很多机器学习领域大牛的导师Michael Jordan。话说我的英文名也叫Michael,部分原因就是这个Michael大神的影响。
这次演讲主要是关于一个新方法:bag of little bootstraps。主要思路是对数据抽样多分,同时训练多个小的不完整的模型,再将它们进行合并。虽然这个方法不能取得更好的效果,但是大大改善了时间效率。
鉴于我们的时间比较紧,没有参加完kdd的正会。有几个关于推荐系统和个性化的session都没来得及听。不过已经收获很大了。尤其是吃到这么多好吃的,还跟Jiawei Han老师合了个影,哈哈。