大部分人都会有好朋友,也会有普通朋友,但目前很多网站中并没有体现出来,而且多数研究工作也都是基于无权网络展开,把好朋友与点头朋友都混淆在了一起。本文基于用户间的交互行为(如查看资料、连接确立、标记图片等行为)和用户资料相似度,提出了一个无监督的模型来评估人们之间交互关系的强弱,这个强弱关系的度量是一系列连续的值,区分与之前的强弱二元关系。
实际应用
度量好友关系的强弱对于社交网站的实际应用有很大的帮助,包括:
链路预测:在LinkedIn和Facebook这样的社交网站中,都会向用户自动推荐新的链接。在推荐具有一定距离的用户的时候(比如是两度距离或者是在同一公司),度量用户之间的关系强弱有利于给予用户更好的建议。
产品推荐:度量关系强弱有利于推荐产品,因为越是强关联的人,他们的喜好越是相似,比如说LinkedIn中为用户推荐群组。
新闻反馈:好友动态、新闻更新这些是社交网站的重要内容,基于好友关系强弱为每个用户提供个性化的动态更新,删除那些无关的内容,从而为用户带来便利。
人物搜索:把搜索的结果按照与申请人的关系强弱进行排名,用户能更方便地找到他们想找的人。
可视化设计:有利于更清晰地现实用户的局部社交网络。
模型建立
本文的一个基本假设就是社会学中的同质性——越是相似的人越是容易形成连接。在线社交网络中,可以拿来使用的属性包括是否属于同一学校、公司,是否加入了同一个群组,是否地理临近等等。需要考虑的行为信息包括:浏览个人信息的行为、关系建立、标记图片等等,两人之间的关系越多,他们的关系也就越强。
基于此,本文为用户i建立了一个属性向量x(i),并且用(t = 1,2…,m)表示用户i和j在m种不同“交互行为”中的出现率,表示用户i和j之间的潜在关系权重,它综合了用户的属性相似度和交互强弱。模型的框架如下图。模型分为上下两部分,分别表示为p(Z|X)和p(Y,Z),式子表示为:
该模型既适用于有向网路,也适用于无向网络,这取决于网络的构建方式。本文模型在有向网络中展开,即不同于
模型详解
给定用户“资料”的相似性,本文使用常用的高斯分布来建立关联强度的条件概率。定义sk(x(i),x(j)) (k=1,2,…n)表示用户i和j之间的一套相似性度量方法,于是和x(i),x(j)的依赖关系可定义为:
其中,s是基于x(i)和x(j)计算的相似度向量,w是一个需要估算的n维的权重向量,v是高斯模型中的方差(在该模型中被定为0.5)。于是,模型可以被重新设计,如下图所示。
在模型中,给定后,每个的概率分布是条件独立的。由于数据的稀疏性,所有的交互行为都被设定为二元的而不去考虑交互的频率。而且,为了增加模型的准确性,本文为每一个交互行为t引入了一组辅助变量如上图所示。
最后,在给定了和条件下,本文采用了罗吉斯函数来建立的条件概率,如下式所示
其中,是需要估计的参数。为了简练,定义
可得
最后,为了防止过拟合,本文将w和 进行L2正则化处理。
实验结果
本文分别在LinkedIn和Facebook中进行了实验。
在LinkedIn中考虑的“资料相似性”因素包括:是否在同一学校、同一公司、同一地理位置、同一工厂,是否有相同的职位、相同的职能范围,每一对用户参与共同群组的数目在标准化处理之后再取对数,每一对用户共享连接的数目在标准化处理之后再取对数,一共8个资料相似度的参考因素;“交互行为”因素包括:用户i是否建立了对用户j的连接,用户i是否为j写过推荐信,用户i是否看过j的资料,用户i是否将j加入到了LinkedIn地址簿,一共4种交互行为变量作为参考因素。
在Facebook中考虑的资料相似性因素包括:用户i和j的共同网络个数在标准化处理之后再取对数,用户i和j的共同群组个数在标准化处理之后再取对数,用户i和j的共同好友个数在标准化处理之后再取对数,一共3个资料相似度参考因素;“交互行为”因素包括两个:用户i是否在用户j的facebook墙上留过言,用户i是否标记过用户j的图片。
实验结果现实,单独使用这些影响因素进行建模得到的结果都不好,但是把这些因素综合考虑起来,就会有非常好的表现。