微博关系的数学描述: 粉丝模型

http://blog.sciencenet.cn/blog-652078-602627.html

微博具有在线即时、网络浩瀚、关系复杂、行为任意和海量数据等特征。伦敦奥运期间的社交网络更是丰富多彩,孙杨诗文拉郎配、H2O钓鱼博、《自然》杂志抹黑等等,情况不断,让人应接不暇。跨学科、多方位的理论和技术研究面临着巨大挑战。虽说复杂网络的理论和实践[1-8] 已取得丰硕结果,但在描述微博用户间的关注(Follow)、互粉(R-friend)以及转发(Repost)等的关系和行为时,理论和方法尚存不足,需要深入探讨和研究。

    应运而生的粉丝模型(FANS model)系巴西利亚大学团队参加2012年WISE国际会议微博竞赛获奖项目的部分结果[9],旨在对社交网络新型关系和行为进行
准确有效的数学描述。本文从微博用户界面分析入手, 在前人复杂网络研究的基础上,建立粉丝间关系的逻辑模型,简化微博大数据咨询分析,为研发快捷查询算法提供理论依据。粉丝模型为新浪微博竞赛研发,但对腾讯、网易和推特等微博平台具有同样实用意义。

    1.微博之问:“我”和姚晨 ...

    笔者和姚晨没什么事儿,本是南美学者,业余研究微博,在新浪有325位粉丝;Ta是当红明星,勤于微博运作,拥有2341多万粉丝,美誉中国微博王。

    用笔者的新浪微博账号进入姚博主的微博网页,便是开始有点事了。图一是7月5日姚晨微博界面截图。先看右边新浪微博平台为用户提供的相关信息:
    关注她的人同时关注了…,就是说姚晨的粉丝同时也关注了林心如、李冰冰、郑丽郑丽和走过高考等等。当然,新浪是在暗示“我”,是否需要也和他们一样关注这些...
    这些人也关注她…,这里是说本人的粉丝中也关注她的网友如周杰伦、齐鲁晚报、郑建亚和东方卫视等等。
    我和她都关注了
…,这项指标反映了“我”和美女的共同爱好,就是说笔者和姚晨共同关注的网友有杨幂、朱丹和潘石屹等等。    

 
    新浪告诉用户这三条信息的意图为何? 说白了,实际上都是微博平台利用在线查询结果,吸引用户眼球。笔者在微博尚为新人,算算上面的后两项没太大意思。如从新浪微博排行第二的小S帐户进入姚晨网页,两个大腕一起耍,想一想,这拥有2341万和2260万粉丝博主间的并集、交集咨询计算,参照3亿多新浪微博用户,这可是有玩的!更有意思的是如何用数学把这些关系描述清楚,进一步挖掘出有用的社会和商业价值来。

微博关系的数学描述: 粉丝模型

                     图一   从“我”进入姚晨新浪微博界面截图

    2.微博关系的粉丝模型(FANS model)

    微博上尊称用户为“博主”,有时亦叫“粉”。在这个社区内,如果用户A关注B,称A是B的粉(Follower),称B是A的关注人(Followee)。如果A是B的粉,B亦是A的粉,称A和B为互粉关系(R-friends)。

    微博类在线社交网络可以用一有向图来描述:G = (V,E),这里图的节点V表示用户;节点间的有向连接为E:V x V,表示用户间的关系。(A, B) ϵ E, 表明用户A关注用户B,即A 是 B 的粉,B 是 A 的关注人。

    较正式的用户关系数学描述是这样的:对于用户间关系函数finfoutfr,V →V*,有:
      fout(A) = {B|(A,B) ϵ E },表示A的关注人集函数,A关注B;
      fin(B) = {A|(A,B) ϵ E },表示B的粉丝集函数,A为B的粉;
      fr(A) = fout(A)∩ fin(A),表示A的互粉集函数,A的关注人集合与关注A的粉丝集合之交集。

    这些函数把微博用户关系简洁和准确
描述出来。为便于分析和应用,笔者团队暂将其称为粉丝模型(FANS model),在新浪微博62GB大数据的查询和算法优化方面,已崭露头角,取得理想结果[9]。
 
    3.粉丝模型基本性质
 
    粉丝模型依附于图论描述的社交网络,也就是常说的在线复杂网络,但具备以下特点:
    
    1)反对称与对称性。
    从函数的对称意义来看,可以定义其反函数。若 
f ϵ {finfoutfr},有其反函数  ′ 定义为:
                  fin  若 f = fout
      ′ = {   fout 若 f = fin                                                   (1)  
                  
f r    若 ffr

    2)可组合性。
    若 f1 、f2 ϵ {finfoutfr},对于用户间关系函数 f1f2,V →V*,则函数间的并集、交集计算为:
      f1f2 = U f1(A), c ϵ f2 (B)                                            (2)
      I(A, B) = f1(A) ∩ f2 (B),                                           (3)
    对于交集计算,前述的互粉关系函数定义就是特例:fr(A) = fout(A)∩ fin(A) ,这里  f1=fout 、
f2 fin

    3)可扩展性。
    考虑到进一步的操作性,这些函数间的扩展可表达更多的用户关系,实现不同查询计算。例如,finfout(A) 是指A关注人的粉丝集函数,而 fin2(A)就是A的粉丝的粉丝集函数。
这里如果 f1f2相同,(2) 式并集计算有 ff = f 2和进一步的 ff n-1f n。例如,fin2(A) 就是A的粉丝的粉丝的集函数;而 frn(A)就是A的互粉的互粉的...互粉的集函数。

    有了微博用户关系的函数定义和特性,图一中姚晨微博平台的有关网友关系的在线查询可以较正式地用数学函数表示了。

    关注她的人同时关注了…,对应上述定义的微博用户逻辑关系,是对fout fin(A) 的求解,A在这里就是博主姚晨,函数集表示关注她的粉丝同时关注的网友。
    这些人也关注她…,对应上述定义的微博用户逻辑关系,是对fout(A)∩fin(B) 的求解,这里的A是笔者,B是姚晨博主,就是说这个用户集是笔者所关注的网友,同时也是姚晨的粉丝。
    我和她都关注了…,对应上述定义的微博用户逻辑关系,是对fout(A)∩fout(B) 的求解,这里的A是笔者,B是明星姚晨。函数集表达“我”和Ta共同感兴趣的网友。

    4.小结

    上面简单介绍用于描述微博关系的粉丝模型和其特性。2012年国际Web信息系统工程会议(WISE)的对客户关系数据和微博信息数据的查询性能比赛项目中,需要参赛者实现对客户关系和微博转发相关的19个查询(Query)。粉丝模型模型的提出使得这些查询的数学描述更准确和方便,成为开发优化算法和转发预测的理论基础。
以后的文章将继续介绍这方面的工作。

    需要指出的是,基于图论开展的经典复杂网络研究,提出了某节点用户的点出度(outdegree)和点入度(indegree) [5]。但这些概念仅是用于研究网络各节点的量化指标。描述微博用户间的关注(Follow)和互粉(R-friend)等关系的粉丝模型具备三个特性,1) 对称和反性对称刻画了动态节点(微博用户)间的单向/双向关系和相互转换规则;2) 可组合性是通过粉丝关系函数间的并集或交集,生成新的用户特性集合,为进一步转发预测和博主推荐开拓空间;3) 可扩展性则是粉丝关系函数的深层展示,根据微博机制,提出新的函数关系定义,使得复杂的用户关系得以清晰和简单的数学描述。粉丝模型的这三个特性,是传统文献中没有的[1-8]。

    粉丝模型的原创作者为:Edans Sandes, Li Weigang and Alba de Mello,参照文献[9]。本文以微博平台为实例,进一步解释该模型特性和应用。只是博文中的公式和符号表达不太严密,
敬请网友和同行专家的批评指正。感谢博士生郑建亚和唐建生两位同学对本文中文版的有益建议。

    参考资料

    [1] Valente, T., (2012), Network Interventions, Science, Vol. 337, 6 July, 2012.
    [2] Kwak, H., Lee, C., Park, H., and Moon, S. (2010). What is twitter, a social network or a news media? In the ACM proceedings of the World Wide Web, pp. 591-600, Raleigh, USA.
    [3] D. Liben-Nowell and J. Kleinberg. The link-prediction problem for social networks. J. Am. Soc. Inf. Sci., 58(7):1019–1031, 2007.
    [4] L. Lü. and T. Zhou. Link prediction in complex networks: A survey. Physica A, 390 (2011) 1150.
    [5] K Lerman, S. Intagorn, J-H Kang, and R. Ghosh, Using proximity to predict activity in social networks, in the Proceedings of ACM WWW 2012 Companion, pp. 555-556. April 16–20, 2012, Lyon, France.
    [6] A. Clauset, C. Moore, and M.E.J. Newman. Hierarchical structure and the prediction of missing links in networks. Nature 453 (2008) 98.
    [7] 2012中国网络科学论坛, 2012年4月。
http://bbs.sciencenet.cn/blog-266190-558494.html
    [8] 2012年第八届全国复杂网络学术会议, 2012年10月。
http://www.ccnchina.org/
    [9] Edans Sandes, Li Weigang and Alba de Mello, 2012, Logical model of relationship for online social networks and performance optimizing of queries, to appear in proceedings of the 13th International Conference on Web Information System Engineering - WISE, Paphos, Cyprus.  Championship on T1: Scalability

    相关博文

    WISE微博竞赛揭晓 四国名校擂台获奖
    微博研究系列:WISE,塞浦路斯新浪微博大赛

你可能感兴趣的:(数学)