社交网络影响力最大化(Influence Maximization)

  研一上学期告一段落,在这一学期中我的主要研究方向就是社交网络影响力最大化,今天在这里做一个总结。主要分为以下几个模块。

  1. 相关概念讲解
  2. 目前的研究现状以及经典论文的讲解
  3. 本人实验室的相关工作

1. 相关概念

1.1 什么是社交网络影响力最大化?

        社交网络归根结底就是一个图G(V,E,P),V是节点集,E是边集,P是所有边的概率集。一个用户就是一个节点v,用户与用户之间的关系就是边e,每条边都有一条概率p,信息会在图上按照边的概率进行传播。影响力最大化问题现在主要分为两种:其一是给定节点数k,选择出k个节点作为种子集使得种子集能影响的节点数最多;其二是给定所要求产生的影响力,找到满足条件的最小节点集合。

1.2 作用

        影响力最大化的应用场景十分丰富,包括病毒营销,推荐系统,信息扩散,时间探测,专家发现,链接预测等。我拿病毒营销举个例子,比如某一公司想要推广自家商品,希望通过病毒式营销手段,先选择少部分人让其免费试用所需推广的商品,当选中的用户(种子节点)对商品满意时便要通过网络向自己的同事朋友推荐该商品,使得更多的人了解并最终购买该商品。应该如何找出这部分人来试用商品能够使得最终购买商品的人数最多就是公司所需要考虑的最核心的问题。

1.3 传播模型

        最经典的两种模型分别是:独立级联(IC)模型和线性阈值(LT)模型。这也是一般论文实验中会使用的两种模型。

       1.3.1 独立级联(IC)模型

       IC模型假设每条边e∈E并且与概率p(e)∈[0,1]相关联。对于任何节点u和其任何输出邻居v,u是在离散时刻 i 处被激活的节点,则v具有p(v>)的概率在时间戳 i + 1 处被激活。换句话说,在u被激活之前,u是否可以激活v与扩散历史无关,因此,节点激活的顺序不会影响扩散结果。对于这样的模型,种子集S的扩散过程如下:

      通俗些讲,就是每个新激活的节点都能按照边的概率独立地去激活与其相邻的节点。

      1.3.2 线性阈值(LT)模型

      在线性阈值模型下,每个节点v包含从间隔[0,1]中随机均匀选择的激活阈值θv。 此外,LT规定所有进入边缘权重的总和最多为1,其它的进入节点对它的影响是累加的,当影响超过阈值时,该节点被激活。

2. 目前的研究现状以及经典论文的讲解

2.1 研究现状

        该问题最早是由Domimgos 和 Richardson 等人提出,他们把问题建模为马尔科夫随机场,采用启发式算法解决该问题。Kempe et al等人2003年在论文Maximizing the spread of influence through a social network中设计了一个贪婪算法,算法从空的种子集开始,并迭代地添加相对于当前种子集具有最大边际增益的节点,这个贪婪算法在种子集的质量上具有严格的保证,对后面的研究具有十分重要的启发意义。该算法简单易懂并且具有 $1-\frac{1}{e}-\epsilon$ 的近似保证,但是在时间上确并不令人满意,往往需要几天的时间,对于如今庞大的社交网络更是难以适应。

        这篇文章先写到这里,我将在下一篇博客中接着介绍近年来最受认可的几种能够在大型社交网络上运行的影响力最大化算法。

 

转载于:https://www.cnblogs.com/xctcherry/p/8447376.html

你可能感兴趣的:(社交网络影响力最大化(Influence Maximization))