科技高速发展的社会,人与人之间的交流越来越密切,随之带来了庞大的数据量,然而对于多维度用户而言,在训练个性化模型的过程中,数据依然很少,那么,如何解决数据稀疏问题,挖掘出更多可用数据?如何将数据高效运用于互联网产品的主要承载形式——推荐系统?带着诸多问题,我们采访了微软亚洲研究院(MSRA)资深研究员谢幸博士,一起聊聊异构数据与推荐系统的那些事儿。
谢幸博士,微软亚洲研究院社会计算组资深研究员,并任中国科技大学兼职博士生导师。他分别于1996年和2001年在中国科技大学获得计算机软件专业学士和博士学位, 2001年7月加入微软亚洲研究院。他在国际会议和学术期刊上发表了200余篇学术论文,拥有50余项专利,是ACM、IEEE高级会员和计算机学会杰出会员。
12月7日-9日,中国大数据技术大会(BDTC 2017)将于北京新云南皇冠假日酒店举行,谢幸博士作为“推荐系统论坛”演讲嘉宾,将分享题为《结合跨平台异构数据的推荐系统》的演讲,欢迎与会者现场参与讨论。
CSDN:请谈谈您及团队在现阶段的研究侧重点或下一步研究和实践(例如应用到哪些领域)计划?
谢幸:我们研究数据挖掘的子课题:用户画像和推荐系统,关注“怎样用数据来刻画一个人”,利用用户产生的数据反过来更深入地了解用户。推荐系统是比较常见的应用,有很大的商业前景,它可以看作用户画像的一个重要应用,用户画像的用途很广,可以用于个体和群体数据建模、个性化或预测等。
现阶段研究重点主要为深度学习与推荐系统的结合。深度学习在计算机视觉、语音、自然语言处理都有很好的应用,在推荐系统里的应用也是最近几年的研究热点,我们关注怎么将这方面的应用落地——与微软重要的产品、项目和工程结合,这对于系统和产品设计都有一定要求。另外,我们也关注知识图谱与推荐系统的结合,并将研究成果真正应用到提高推荐性能上,比如微软的广告系统、新闻搜索,以及小冰、小娜这些个性化产品。
CSDN:您是微软亚洲研究院资深研究员,您希望看到新加入的研究员们具有什么样的特质?
谢幸:新加入的研究员在具备学者精神的同时,团队合作和交流表达也是必备特性。对于做研究,交流能力是比较重要的,尤其是现在,需要将个人研究成果对外介绍,去与别人合作,以及去推广自己研究的项目。MSRA研究员在这方面的能力相比普通工程师强很多。除了这些软实力,研究员需要热爱技术和创新,不热爱技术,就不会想把事情做深。此外,过去偏学术理论的研究环境,对研究员的动手能力要求并不是特别高,但现在面对庞大数据以及项目,都要求研究员能够动手实现,所以动手和系统开发也是研究员必不可少的能力。
CSDN:您也是中国科技大学兼职博士生导师,您在教学过程中更看重什么环节?人才培养方面,您认为即将毕业的学生在基础研究和实践应用(与市场结合),哪方面更为重要?
谢幸:我在中国科技大学并不授课,博士生在学校学习课程,而在项目研究阶段,他们来到微软,由我指导完成比较系统的研究项目以及论文。“基础研究”和“实践应用”对于即将毕业的学生都很重要。学校不会发布或维护任何产品,做得更多的是基础研究。在微软,我们更强调学生参与产品项目。一方面,要达到博士的水平需要做很多技术研究,比如论文至少要有三个以上的创新工作,这些工作如果完全没有技术研究作基础,不可能做到;另一方面,我们也要求能够把这些研究成果应用到微软的产品里,不仅如此,这些研究需要成系统,对领域有深度的掌握。
CSDN:根据您的体会,哪些习惯对于研究与解决问题很有帮助?
谢幸:带着兴趣去探索“为什么”,这样对于研究是很有帮助的。有些人在很多事情上喜欢探究“为什么”,有时会问得深一点,比如通过用搜索引擎去查看背后的原因,很多时候,这种极客的方式都是靠兴趣驱动,如果只追求“差不多”,就不能探究很深。
CSDN:在演讲主题之外,请谈谈您目前还关注哪些技术与研究,为什么对这些话题感兴趣?
谢幸:我们在做数据挖掘的同时,也关注其它非计算机领域的学科,比如心理学、社会学、脑科学,我们本质上是对用户或者人进行研究。心理学研究人类心理现象,社会学是研究人类群体和社会行为还有脑科学研究人类大脑。这些与数据挖掘是可以相结合的,心理学里有一个方向是人格心理学,我了解以后觉得很有意思,可以用计算机做这件事情,后来我们与心理学结合完成了人格推测模型。我们也和社会学领域的教授合作,脑科学也是最近比较受关注的,深度学习的很多方面都受到了脑科学的启发,微软与中科大有些联合研究项目,就与跟脑科学有关。
CSDN:在您的研究领域之中,最希望哪些技术能取得突破,为什么?或者在更长远的未来,您希望未来的研究者们能集中精力解决哪些问题,或实现哪些目标?
谢幸:除了知识图谱和深度学习,我最近对“可解释”较为感兴趣,很多人在讲可解释机器学习,“可解释”对推荐系统也很重要,比如用户在看到推荐内容时,可能在想,为什么你会把它推荐给我?有时推荐系统背后的算法比较复杂,用户并不知道推荐内容是如何出来的,如果我们能与他解释,一方面让用户觉得比较透明,另一方面用户会更倾向去看你推荐的这些东西,讲道理是一种说服的过程,所以我们最近也在做可解释推荐,并与心理学相结合。
CSDN:异构数据在推荐系统中扮演着怎样的角色?它能给推荐系统带来哪些优势?有哪些创新之处?
谢幸:用户数据稀疏是任何推荐系统或者用户画像都面临的问题,无论现在怎样谈论大数据,但对用户来说维度太多,数据相对而言还是很少,为了解决数据稀疏的问题,我们发掘还有哪些数据可用,异构数据实际上是在解决这个问题,挖掘其他的数据帮助推荐,比如用户曾发表的文字、图片、社交关系等就是异构的,其类型结构都不一样,对算法也会带来挑战。
异构数据在推荐系统中所扮演的角色是怎样解决数据稀疏的问题,当我们有了额外数据以后,推荐性能相应会提高,但如何结合这些异构数据,用什么方法,这就需要创新了,在这次演讲中,我会介绍相关的研究应用。
CSDN:“跨平台异构数据”可以解决哪些现有系统所不能解决的难题?未来这一技术还将有怎样的发展和应用前景?
谢幸:知识图谱里面包含了异构数据,将知识图谱的数据结合到推荐系统中,能建立比较丰富的用户表示和商品表示,本次演讲我会介绍跨平台数据如何结合,如何充分利用来自不同平台的数据。跨平台异构数据除了用于推荐也可做预测,用于其他个性化甚至在对话系统,总的来说就是怎么样去表达一些异构的或者跨平台不同来源的数据,这个表示的问题是相对在别的地方,其他很多场景可以通用的。关于跨平台异构数据这项技术,我们目前主要围绕推荐系统来做,应用于个性化的信息的浏览。
CSDN:此前您提出了“人格推测模型”,利用社交媒体上的异构数据来预测人格,在模型训练过程中,遇到了哪些困难?如何突破?
谢幸:难点是数据采集,要采集大规模的用户数据并不容易,当时我们想了一些办法,一方面通过微软小冰收集志愿者的数据,另外也自己标注了一组数据,有了这些数据,在训练模型的过程中,更多是设计模型来把这些异构数据用好,我们采用了较为通用的集成学习来搭建“人格推测模型”,针对不同数据设计不同特征,也结合了一些心理学的理论和词典来帮助建立特征。
CSDN:您在BDTC推荐论坛的报告,侧重点将放在哪些问题上,旨在解开哪些疑惑,希望观众从中收获什么启示?
谢幸:我将通过我们的研究项目来告诉大家怎样开展这方面的研究,也许听众未必直接使用这种算法,但对于同样类型的研究能带来一些启示。跨平台和异构实际上是两个点,我将围绕如何收集跨平台的异构数据来做推荐,以及如何设计这个模型来做介绍。
相关阅读: