Allen_Ciel

Influence maximization based on the realistic independent cascade model

基于现实的独立级联模型的影响最大化

前言
- 文章内容
- - 摘要
  - 背景
  - 真实独立级联模型
  - R-greedy算法介绍
  - - step1:
    - - 计算 $\delta(C)$
      - 确定最大的 $\delta(C)$
    - step2:
    - step3:
  - M-greedy算法
  - - step1:
    - step2:
    - step3:
  - D-greedy算法
  - 实验
  - - 数据集
    - 对比算法
    - 实验结果
    - - 不同的概率分布
      - 算法的时间复杂度
  - 结论

前言

2020年发表在KBS上的一篇，是影响力最大化方面对影响力传播进行改进的文章。文章的highlights：提出了适合现实世界网络的现实独立级联（RIC）模型；在RIC模型的基础上，提出了三种新的播种算法；M-greedy和D-greedy减少了R-greedy的时间消耗；在不同网络上的实验证明了所提算法的优越性。

https://www.sciencedirect.com/science/article/pii/S0950705119305702

文章内容

摘要

In order to propagate information through the social network, how to find a seed set that can affect the maximum number of users is named as influence maximization problem. A lot of works have been done on this problem, mainly including two aspects: establishing a reasonable information diffusionmodel and putting forward the appropriate seeding strategy. However, there are few models in the existing ones that consider the acceptance probability of candidate seed nodes in social networks. So in this paper, we consider and solve this problem by introducing a more realistic model, which is the proposed Realistic Independent Cascade (RIC) model. Based on the RIC model, many state-of-the-art seeding algorithms perform not so well because there is no mechanism on dealing with the acceptance probability. So based on the RIC model, we propose a new seeding strategy which is called R-greedy.Furthermore, M-greedy algorithm is proposed to reduce the time complexity of R-greedy. Then, D-greedy algorithm which not only increased the performance but also reduced the time complexity ofR-greedy is proposed by combining the advantages of R-greedy and M-greedy. Experiments on thereal-world networks and synthetic networks demonstrate that the proposed R-greedy, M-greedy andD-greedy algorithms outperforms state-of-the-art algorithms.

为了在社会网络中传播信息，如何找到一个能够影响最大数量用户的种子集，被称为影响力最大化问题。在这个问题上已经做了很多工作，主要包括两个方面：建立一个合理的信息扩散模型和提出适当的播种策略。然而，在现有的模型中，很少有考虑到社交网络中候选种子节点的接受概率。 在本文中，我们通过引入一个更现实的模型，即提出的现实独立级联（RIC）模型来考虑和解决这个问题。基于RIC模型，许多最先进的播种算法表现得不是很好，因为没有处理接受概率的机制。因此，基于RIC模型，我们提出了一种新的播种策略，即R-greedy。此外，我们还提出了M-greedy算法来降低R-greedy的时间复杂度。然后，结合R-greedy和M-greedy的优点，提出了D-greedy算法，该算法不仅提高了性能，还降低了R-greedy的时间复杂度。在真实世界网络和合成网络上的实验表明，所提出的R-greedy、M-greedy和D-greedy算法的性能超过了最先进的算法。

背景

常用的IC模型没有考虑到现实信息传播的一些特征。例如，在选种子节点时，选中的用户不一定愿意成为种子节点；或者在信息传播时，用户 $u$ 尝试传播信息给用户 $v$ ，用户 $v$ 是否会接受是未知的。考虑这两种情况，为每个用户设置一个概率值，称为接受概率（acceptance probability），反应用户接受信息的概率。
接受概率的意义：

在寻找种子节点的过程，某个节点根据特定准则被选中时，接受概率表示其称为种子的概率；
在信息传播的过程，传播概率表示其从邻居接受信息的概率。

并且每个用户的接受概率不同。

所以提出了RIC(Realistic Independent Cascade) 模型，不同节点具有不同的接受概率，并遵循一定的分布，两个节点之间的传播概率也不同，遵循一定分布。基于RIC模型，考虑如何选择种子节点，需要同时考虑影响和接受概率，假设两个用户，一个接受概率较小但是影响力大，一个接受概率大但是影响力小，如何选择？因此提出了R-greedy。又提出M-greedy减少R-greedy的时间消耗。最后又提出D-greedy进一步提高R-greedy的性能。

主要贡献：

提出了更适合真实世界网络的真实独立级联模型（RIC）。
基于RIC模型，提出了新的种子节点选择策略R-greedy。
基于R-greedy，提出启发式策略M-greedy，减少R-greedy的时间消耗。进一步结合两者提出更强的D-greedy。
在真实世界网络和合成网络上实验，证明提出的三种算法在RIC模型上优于其他算法。

真实独立级联模型

图中节点有两种状态：活跃和非活跃。在初始，所有节点都是非活跃的，节点可以通过1）被选为种子节点；2）被邻居激活，变为活跃态。

给每个节点一个接受概率， $p_v, p\in[0,1]$ ，它是随机变量，遵循分布 $f_v$ 。因此节点 $v$ 愿意接受免费样本，这意味着成功激活，当它被选为种子并提供免费样本时，其接受概率为 $p_v$ 。此外，当信息从其邻居成功传播到节点 $v$ 时，节点 $v$ 以接受概率 $p_v$ 接受该信息。

对于边，有传播概率 $p_{u,w}$ ，表示活跃节点 $u$ ，以传播概率沿着边 $< u, w >$ 去传播信息给出度邻居 $w$ 。 $p_{u,w}\in[0,1]$ ，也是随机变量，遵循一定的分布 $f_e$ ，说明相同信息在不同节点间的传播不同。

但是难以精确每个节点每条边的概率，所以选择采用不同分布来模拟。

RIC模型的传播过程：
影响传播过程以离散的时间步展开。
时间 $t$ ，节点 $u$ 被激活，它有一次机会去传播信息给它每一个非活跃的出度邻居节点 $w$ ，传播概率是 $p_{u,w}$ 。
如果 $w$ 有多个新的活跃邻居，它们的影响传播可以无序排列。
一旦信息从节点成功从 $u$ 传播到 $w$ ，并且节点 $w$ 愿意接受它（考虑概率吗？？），我们认为节点 $w$ 成功被 $u$ 激活并变成活跃态，它将在时间 $t + 1$ 去影响它的非活跃出度邻居。
无论 $u$ 是否成功激活 $w$ ，它在接下来的步骤都不会影响任何节点。
知道没有新的激活节点，上述过程中止。

图1是信息传播过程的实例。图a，节点1作为种子节点没有被成功激活。图b，节点1作为种子节点被成功激活了，但是没有成功传播信息。图c，节点1作为种子节点被成功激活且信息也成功传播了但是节点2不愿接受信息。图d，节点1作为种子节点被成功激活且信息也成功传播了，节点2成功接受了信息，并且成功传播信息给节点3，但是节点3不愿接受信息。

RIC公式化：
$G=(V,E, f_v,f_e)$ ， $V$ 表示节点集， $E$ 表示边集， $f_v$ 是接受概率 $p_v$ 的分布， $f_e$ 是传播概率 $p_{u,w}$ 的分布。用 $n$ 表示节点集 $V$ 的个数。种子节点预算个数 $B$ ，如果节点被选为种子但没有被激活则流失一个预算，所以最终种子节点的个数小于等于 $B$ 。

R-greedy算法介绍

R-greedy的思想是根据一定的准则从候选集中选择种子节点，同时考虑候选节点的影响和接受概率。

三个步骤：

根据节点影响选择候选种子节点集合 $C$
给出从候选种子集中选择种子集的准则，记为 $T$
从候选集合 $C$ 中选择种子集合 $A$

step1:

根据节点影响选择候选种子节点集合 $C$ 。这里不考虑接受概率，也就是被选为种子的节点一定会被激活。候选集 $C$ 在传播前就选定，个数为 $k$ 个， $k$ 要大于预算 $B$ ， $k\in K$ 。

$K$ 是 $k$ 的取值，是离散的，每两个取值之间相差十，最大的取值 $k_I$ 是节点的个数 $n$ 。
如果 $k_{i-1}ki−1<B≤ki(i=1,2,⋯,I)$

定义 $\delta(C)$ 为候选集C的影响传播，开始只有C中的节点被激活了，信息传播后，激活节点数量的期望就是 $\delta(C)$ 。最终的 $\delta(C)$ 满足 $\delta(C)\geq\delta(C')$ ， $C^{'}$ 表示其他个数为k的候选集合。

计算 $\delta(C)$

定义1:
一个现实图 $G=(V,E, f_v,f_e)$ ，每条边有两种状态{live, not live}，表示信息是否能成功传播，每个节点也有两个状态{active, not active}，表示是否接受信息。

图2是传播中可能会出现的一种情况，还可能会出现很多其他的情况。
在种子集C的情况下，图2的扩散计作 $\delta_x(C)$ 。

$P r o b (x)$ 就是出现x这张传播情况的概率， $\delta(C)$ 就是不同情况的加权平均。
传播情况有多少种？每种情况的权重是多少？不好计算。
这里其实就取一个相对较大的值 $R_m$ ，重复 $R_m$ 次扩散取平均。
$\delta(C)=\frac{\sum_{r:1\rightarrow R_m}\delta_{r}(C)}{R_m}$

确定最大的 $\delta(C)$

贪心算法，边缘效益一步步确定候选集

$H_v$ 是节点 $v$ 的边际收益

选取边际收益最大的节点

$w_i$ 表示第i个候选节点

算法分析：

输入： $G=(V,E, f_v,f_e)$ 和候选集大小 $k$
line1: 初始化候选集列表 $C$
line2-4: 将每个节点的边际收益设为正无穷
line5: 在候选集个数小于 $k$ 时进行循环，以下每循环一次添加一个候选节点
line6-8: 对于不在候选集中的节点， $h_v$ 标签设为false，表示边际收益没有更新
line9: 循环
line10: 选出边际收益最大的节点 $v^*$
line11-13: 如果 $v^*$ 的 $h_v$ 标签是 $t r u e$ 表示边际收益更新了，该节点加入候选集返回line5
line14-17: 否则，计算 $v^*$ 的边际收益，并更新 $h_v$ 标签为true
line18: 输出 $C$

step2:

给出从候选种子集中选择种子集的准则，记为 $T$
这一步就要考虑候选节点的接受概率。

$w_i$ 是第i个候选节点
$H_{w_i}$ 边际收益
$p_{w_i}$ 接受概率

step3:

从候选集合 $C$ 中选择种子集合 $A$
一步步选择节点。给定预算B，首先选择T值最高的，尝试选为种子节点，如果接受，则成功选为种子节点，不接受则下一步继续尝试，直到成功选为种子节点；然后选择T值第二高的，尝试直到成功选为种子节点。每次尝试用一次预算B。