Robust Submodular Maximization: Offline and Online Algorithms

Robust Submodular Maximization: Offline and Online Algorithms

    • 说在最前面的话
    • Abstract
    • 1 Introduction
      • 1.1 Our Results and Contributions
      • 1.2 Related Work
    • 2 The Offline Case
      • 2.1 Preliminaries

说在最前面的话

本人仅为在校本科生,对于鲁棒性算法为初学者。本文旨在督促作者自己进一步学习论文以及内容整理,很多翻译以及理解可能出现较大偏差,一切以原文为准。原文链接
由于很多学术类英文单词在汉语里没有对应翻译(或者是我没有认真找过特定的翻译),所以大多采用直译,还应该以英文为准。
已经鸽了(数学太难了www

鲁棒是Robust的音译,也就是健壮和强壮的意思。它是在异常和危险情况下系统生存的关键。比如说,计算机软件在输入错误、磁盘故障、网络过载或有意攻击情况下,能否不死机、不崩溃,就是该软件的鲁棒性。所谓“鲁棒性”,是指控制系统在一定(结构,大小)的参数摄动下,维持其它某些性能的特性。根据对性能的不同定义,可分为稳定鲁棒性和性能鲁棒性。以闭环系统的鲁棒性作为目标设计得到的固定控制器称为鲁棒控制器。------百度百科

Robustness is the property of being strong and healthy in constitution. When it is transposed into a system, it refers to the ability of tolerating perturbations that might affect the system’s functional body. In the same line robustness can be defined as “the ability of a system to resist change without adapting its initial stable configuration”.------Wiki

个人对鲁棒性的理解还不是很到位,offline和online算法的理解参考Free Market of Crowdsourcing: Incentive Mechanism Design for Mobile Sensing

Abstract

受约束的子集选择问题(constrained subset selection problem)在子模函数最大化(submodular function maximization)问题中已经有了很多的应用场景。例如,在候选的传感器位置(sensor location)集合中选择一个子集,使得其提供的信息最为丰富(informative)。在很多的应用场景中,目的是得到一个能同时使得多目标最优化(optimize multiple objectives)的解。受约束的鲁棒子模最大化问题(Constrained Robust Submodular maximization problems)被认作是这些场景下的一个自然的(natural)以及有效的(effective)模型。在本文中,我们考虑了在线(online)和离线(offline)下,服从于拟阵(matroid)约束下的鲁棒子模最大化问题。

In computer science, an online algorithm is one that can process its input piece-by-piece in a serial fashion, i.e., in the order that the input is fed to the algorithm, without having the entire input available from the start. In contrast, an offline algorithm is given the whole problem data from the beginning and is required to output an answer which solves the problem at hand. In operations research, the area in which online algorithms are developed is called onlineoptimization.------Wiki

在离线模式下,我们得到 k k k个单调的子模函数和一个基于规模为 n n n集合的拟阵。目标是选择一个能使得子模函数最小值最大的独立集合。这是个NP-hard的问题。我们设计了最佳的双标准近似算法(bi-criteria approximation algorthms)返回一个集合 S S S S S S l n ( k ϵ ) + O ( 1 ) ln(\frac{k}{\epsilon})+O(1) ln(ϵk)+O(1)个独立集合的并集,每一个函数通过集合 S S S的估计值至少是最佳解的 1 − ϵ 1-\epsilon 1ϵ倍。这些结果是由均匀拟阵(uniform matroid)

均匀拟阵(uniform matroid)是一种特殊的拟阵,设n≥r≥0是两个整数,E是一个含有n个元素的集合。如果I={X⊆E:|X|≤r},则称(E,I)是一个均匀拟阵,记为Ur,n。------百度百科

或者是 k k k为常数的一般拟阵得到的结果进行了改进。我们也注意到,与一般的子模函数形成对照,双标准近似算法不可用于非单调的子模函数。

在线模式下,我们在每一个时间点(time step)得到了一个新的函数集,目标是每一步都要选取一个(最佳的)独立集合。在后悔设定(regret setting)中,目标是找到一个解,比选择一个单个的集合用于所有步骤得到的结果要好。我们计算算法在后悔设定中的表现。再一次,我们给出了一个得到最佳近似解以及后悔边界(regret bounds)的双标准近似算法。我们的结果非常依赖于修改Follow the Perturbed Leader算法,该算法在问题中引入了非凸性(non-convexity)子模问题以及鲁棒性原则。

1 Introduction

受约束的子模函数最大化(constrained submodular function maximization)在理论上已经取得很大进展,并在受约束的子模最大化问题上发现了很多的应用场景。例如,它被用为从候选的传感器位置中选择子集的求解模型。这些传感器用于如温度、PH值、湿度等空间上的检测。此处的目标是找出覆盖面最广或者在对观察现象提供最多信息的传感器位置。此外,对于选择的位置还有很多额外的组合约束,如大小(size)、背包或是更为普遍的约束。

子模函数最大化已经成为一个用于解决这些问题的基本工具。子模性自然地有着边缘效益递减的性质。传感器用的越多,覆盖面、获得的信息这些边际效益就会减少。特别地,遵循收益递减的财产在参数分布的自然模型下构成了观察值在变化幅度上的减少的基础(这里没太读懂)。子模最大化为处理这些问题提供了方法,但它也有两个缺点:(1)传感器一般会用于同时测量不同参数。每一个观察的参数都可以用一个子模函数表示。因而,我们旨在选择一个传感器位置的子集,以使得每一个子模函数能同时获得不错的效果。(2)观察的很多现象都不是静止的,并且在特定的位置都是多变的。为获得一个好的解,一个方法是用不同的的子模函数表示不同空间区域。因而与前面相同,我们旨在获得一个在不同标准下都能同时表现出色的解。

鲁棒子模最大化自然地通过同时最大化这些函数来处理这些不足。论文15中有鲁棒子模最大化的其他应用。

本文中我们考虑拟阵约束下鲁棒子模最大化问题的离线和在线算法。在离线模式中,我们得到一系列单调的子模函数 f i : 2 V → R + f_i:2^V\to R_+ fi:2VR+,其中集合 V = [ n ] V=[n] V=[n] i ∈ [ k ] : = { 1 , . . . , k } i\in[k]:=\{1,...,k\} i[k]:={1,...,k},拟阵 M = ( V , I ) M=(V,I) M=(V,I)。目标是选择一个独立集合 S ∈ I S\in I SI,使得 m i n i ∈ [ k ] f i ( S ) min_{i\in[k]}f_{i}(S) mini[k]fi(S)最大,也就是解 m a x S ∈ I m i n i ∈ [ k ] f i ( S ) \underset{S\in I}{max}\underset{i\in[k]}{min}f_{i}(S) SImaxi[k]minfi(S)

该问题NP-hard,即便 k = 1 k=1 k=1。关于 k = 1 k=1 k=1问题前十年已经有很大进展。特殊情况,例如,当 k k k为常数,或者拟阵均匀,已经被广泛研究过(见related work)。

在线模式下,我们得到一个拟阵 M = ( V , I ) M=(V,I) M=(V,I)。在每一个时间点 t t t 1 ≤ t ≤ T 1\leq{t}\leq{T} 1tT,我们选择一个子集 S t S_t St,然后收到一系列非负的单调子模函数 f i t f_i^t fit i ∈ [ k ] i\in[k] i[k],报酬是 m i n i ∈ [ k ] f i t ( S t ) min_{i\in[k]}f_{i}^t(S_t) mini[k]fit(St)。我们假定这些函数是有边界的,即对于所有 S ⊂ V S\subset V SV 0 ≤ f i t ( S ) ≤ 1 0\leq{f_{i}^t(S)}\leq1 0fit(S)1。我们的目标是最大化总回报 ∑ t ∈ [ T ] m i n i ∈ { k } f i t ( S t ) \sum_{t\in[T]}min_{i\in\{k\}}f_i^t(S_t) t[T]mini{k}fit(St)。我们将我们的结果与事后静态数据得到的最好结果,即 m a x S ∈ I ∑ t ∈ [ T ] m i n i ∈ [ k ] f i t ( S ) max_{S\in I}\sum_{t\in[T]}min_{i\in[k]}f_i^t(S) maxSIt[T]mini[k]fit(S)。因为离线模式问题是NP-hard的,即便是在后悔设定中,我们也只能用一个双标准算法。因此,形式上通过测算 ( 1 − ϵ ) (1-\epsilon) (1ϵ)后悔(regret)的期望来分析我们随机化后的算法。后悔定义为 R e g r e t 1 − ϵ ( T ) = ( 1 − ϵ ) ⋅ m a x S ∈ I ∑ t ∈ [ T ] m i n i ∈ [ k ] f i t ( S ) − ∑ t ∈ [ T ] m i n i ∈ [ k ] E [ f i t ( S t ) ] Regret_{1-\epsilon}(T)=(1-\epsilon)\cdot\underset{S\in I}{max}\underset{t\in[T]}{\sum}\underset{i\in[k]}{min}f_{i}^t(S)-\underset{t\in[T]}{\sum}\underset{i\in[k]}{min}E[f_i^t(S_t)] Regret1ϵ(T)=(1ϵ)SImaxt[T]i[k]minfit(S)t[T]i[k]minE[fit(St)]
我们设计的算法,与 ( 1 − ϵ ) − r e g r e t (1-\epsilon)-regret (1ϵ)regret成亚线性。

亚线性(sublinear),用于描述量与量之间的一种变化关系,例如y=a+b*x^n,其中0

1.1 Our Results and Contributions

在线和离线问题近似到多项式系数都是NP-hard。本文中我们的目标是设计最佳的双标准近似算法,输出一系列基本最优的目标值,同时保证输出集合是几个独立集合的并集。在两种模式下,我们假定拟阵可以通过一个独立的oracle(数据库)访问,子模函数可以通过一个值的oracle(数据库)访问。
对于离线模式下的问题我们获得了下面的结果:
Theorem 1. Let ( V , I ) (V,I) (V,I) be a matroid and let f i : 2 V → R + f_i:2^V\to R_+ fi:2VR+ be a monotone submodular function for i ∈ [ k ] i\in[k] i[k]. Then, there is a randomized polynomial time algorithm that with constant probability returns a set S A L G S^{ALG} SALG, such that for all i ∈ [ k ] i\in[k] i[k], for a given 0 < ϵ < 1 0<\epsilon<1 0<ϵ<1,
f i ( S A L G ) ≥ ( 1 − ϵ ) ⋅ m a x S ∈ I m i n j ∈ [ k ] f j ( S ) f_i(S^{ALG})\geq(1-\epsilon)\cdot\underset{S\in I}{max}\underset{j\in [k]}{min}f_j(S) fi(SALG)(1ϵ)SImaxj[k]minfj(S)
and S A L G = S 1 ∪ ⋯ ∪ S m S^{ALG}=S_1\cup\cdots\cup S_m SALG=S1Sm for m = l n ( k ϵ ) + O ( 1 ) m=ln(\frac k \epsilon)+O(1) m=ln(ϵk)+O(1), and S 1 , … , S m ∈ I S_1,\ldots,S_m\in I S1,,SmI.
这个结果依赖于推广连续的贪心算法,通过添加新要素使其在鲁棒模式下适用。 连续贪心算法对离散的子模函数进行连续、多线性的推广。从空解开始,在每一(极小的)步选择一个能增加最多权重(weight)的独立集合,权重是由多线性推广的倾斜度决定的。我们用了同种方法,但遇到了多种问题。第一个问题是 k k k个权重函数要用哪一个。出乎意料地,观察到每一时间步骤都有唯一一个独立集合能较好地同时实现关于所有 k k k个函数的目标,问题也就得以解决。我们不能有效地计算出这个集合,但我们可以计算出一个较少的集合,该集合的表现至少与解决线性规划一样好。这允许我们获得一个较少的集合,该集合能同时达到所有函数的最佳解的 ( 1 − 1 e ) (1-\frac{1}{e}) (1e1),也就给我们的目标提供了 ( 1 − 1 e ) (1-\frac{1}{e}) (1e1)的近似度。不幸的是,这个较少的解不能被四舍五入(认作)为一个经用pipage rounding得到的完备的解,原因是在本例中需要适用于简单子模函数,而pipage rounding需要函数明确。为了修正这个,我们回到连续贪心算法并将它运行久一点,直到时间为 τ = l n ( k ϵ ) + O ( 1 ) \tau =ln(\frac{k}{\epsilon})+O(1) τ=ln(ϵk)+O(1)。最终得到的较少的解不再是一个较少的独立集合(fractional independent set),我们在independent set polytope中用matroid union theorem将它展示为 M τ M_\tau Mτ(the τ \tau τ-fold union of matroid M M M)。为了四舍五入较少的解,我们use randomized swap rounding over the matroid M τ M_\tau Mτ。四舍五入得出我们想要的集合 S A L G S^{ALG} SALG。虽然每一个函数的值只有在计算期望时比较大,将算法运行到时间 t t t并小心地截断子模函数给我们用马尔可夫不等式证明想要的结果提供了可能。我们在Section 2中提供了结果。

据我们所知,对于在线模式,只有 k = 1 k=1 k=1的情况被研究过,见论文[10]。我们的方法有些关联,但是我们通过在鲁棒问题在线模式中应用soft-min function展现了新的视角。我们得到了下面的结果:

Theorem 2. For the online robust submodular optimization problem with parameters ϵ \epsilon ϵ η > 0 \eta>0 η>0,there is a randomized algorithm that returns a set S t S_t St for each 1 ≤ t ≤ T 1\leq t\leq T 1tT, such that it is the union of at most O ( l n 1 ϵ ) O(ln\frac{1}{\epsilon}) O(lnϵ1) independent sets and
∑ t ∈ [ T ] m i n i ∈ [ k ] E [ f i t ( S t ) ] ≥ ( 1 − ϵ ) ⋅ m a x S ∈ I ∑ t ∈ [ T ] m i n i ∈ [ k ] f i t ( S ) − O ( n 5 4 T l n 1 ϵ ) . \underset{t\in[T]}{\sum}\underset{i\in[k]}{min}E[f_i^t(S_t)]\geq(1-\epsilon)\cdot\underset{S\in I}{max}\underset{t\in[T]}{\sum}\underset{i\in[k]}{min}f_i^t(S)-O(n^\frac{5}{4}\sqrt{T}ln\frac{1}{\epsilon}). t[T]i[k]minE[fit(St)](1ϵ)SImaxt[T]i[k]minfit(S)O(n45T lnϵ1).

1.2 Related Work

2 The Offline Case

2.1 Preliminaries

考虑一个非负集合函数 f : 2 V → R + f:2^V\to R_+ f:2VR+。用下面方式表示边际价值,对任意子集 A ⊂ V A\subset V AV e ∈ V e\in V eV,边际价值为 f A ( e ) : = f ( A + e ) − f ( A ) f_A(e):=f(A+e)-f(A) fA(e):=f(A+e)f(A),其中 A + e : = A ∪ { e } A+e:=A\cup\{e\} A+e:=A{e} f f f当且仅当它满足边际收益递减规律(diminishing returns property),即,对任意 e ∈ V e\in V eV A ⊂ B ⊂ V ∖ { e } A\subset B\subset V \setminus \{e\} ABV{e},有 f A ( e ) ≥ f B ( e ) f_A(e)\geq f_B(e) fA(e)fB(e)。另外,如果对任意 A ⊂ B ⊂ V A\subset B\subset V ABV,有 f ( A ) ≤ f ( B ) f(A)\leq f(B) f(A)f(B),那么称 f f f是单调的。
对于一个集合函数 f f f,它的多线性拓展(multilinear extension) F : [ 0 , 1 ] V → R + F:[0,1]^V\to R_+ F:[0,1]VR+定义为:对任意 y ∈ [ 0 , 1 ] V y\in[0,1]^V y[0,1]V f ( S y ) f(S_y) f(Sy)的期望值。其中 S y S_y Sy是一个随机生成的集合,每个元素 e ∈ V e\in V eV都有 y e y_e ye的概率选进去。形式为:
F ( y ) = E S ∼ y [ f ( S ) ] = ∑ S ⊂ V f ( S ) ∏ e ∈ S y e ∏ e ∉ S ( 1 − y e ) F(y)=E_{S\sim y}[f(S)]=\underset{S\subset V}{\sum}f(S)\underset{e\in S}{\prod}y_e\underset{e\notin S}{\prod}(1-y_e) F(y)=ESy[f(S)]=SVf(S)eSyee/S(1ye)

上式就是V中的每一个子集S对应的函数值乘上每一个元素e在S中的概率ye或者不在S中的概率1-ye之和

观察发现,这实际上是 f f f的扩展(extension)。对任意子集 S ⊂ V S\subset V SV,有 f ( S ) = F ( 1 S ) f(S)=F(1_S) f(S)=F(1S)。其中, 1 S ( e ) 1_S(e) 1S(e) e ∈ S e\in S eS时为1,其他情况为0。该多线性拓展在为各式各样的约束子模最优化问题(constrained submodular optimization)设计近似算法时起至关重要的作用。我们现在展示一些一般性质,证明见论文[4]。对任意vector x , y ∈ R V x,y\in R^V x,yRV,用 x ∨ y x\lor y xy表示vector取得coordinate-wise最大值。

As far as I remember, in the context of optimization, “coordinate wise” means that you are manipulating each coordinate independently with the only criterion being that it improves your objective function. So you’re zigzagging instead of taking a direct path. I can’t remember where I read this, but in some cases, you can go through your coordinates in any order you want and still hit the optimum.------cnblogs

Fact 1.[单调子模函数的多线性拓展] f f f是一个单调子模函数, F F F是它的多线性拓展。
1.由 f f f的单调性,对于任意 e ∈ V e\in V eV ∂ F ∂ y e ≥ 0 \frac{∂F}{∂y_e}\geq0 yeF0。这表示对任意coordinate-wise的 x ≤ y x\leq y xy F ( x ) ≤ F ( y ) F(x)\leq F(y) F(x)F(y)。另外,由于 f f f的子模性, F F F在任何正方向上是凹的,即对任意 e , f ∈ V e,f\in V e,fV,有 ∂ 2 F ∂ y e ∂ y f ≤ 0 \frac{∂^2F}{∂y_e∂y_f}\leq0 yeyf2F0
2.文章中 ∇ e F ( y ) \nabla_eF(y) eF(y)表示 ∂ F ( y ) ∂ y e \frac{∂F(y)}{∂y_e} yeF(y),用 Δ e F ( y ) \Delta_eF(y) ΔeF(y)表示 E S ∼ y [ f S ( e ) ] E_{S\sim y}[f_S(e)] ESy[fS(e)]。显而易见, Δ e F ( y ) = ( 1 − y e ) ∇ e F ( y ) \Delta_eF(y)=(1-y_e)\nabla_eF(y) ΔeF(y)=(1ye)eF(y)。考虑两点 x , y ∈ [ 0 , 1 ] V x,y\in[0,1]^V x,y[0,1]V以及从 S ∼ x S\sim x Sx U ∼ y U\sim y Uy中独立取样得到的两个集合。由子模性,
(1)
f ( S ∪ U ) ≤ f ( S ) + ∑ e ∈ V 1 U ( e ) f S ( e ) f(S\cup U)\leq f(S)+\underset{e\in V}{\sum}1_U(e)f_S(e) f(SU)f(S)+eV1U(e)fS(e)
3.在(1)中计算 x x x y y y的期望,得到
F ( x ∨ y ) ≤ F ( x ) + ∑ e ∈ V y e Δ e F ( x ) ≤ F ( x ) + ∑ e ∈ V y e ∇ e F ( x ) F(x\lor y)\leq F(x)+\underset{e\in V}{\sum}y_e\Delta eF(x)\leq F(x)+\underset{e\in V}{\sum}y_e\nabla eF(x) F(xy)F(x)+eVyeΔeF(x)F(x)+eVyeeF(x)
因此,得到下面重要性质
(2)
F ( x ∨ y ) ≤ F ( x ) + y ⋅ ∇ F ( x ) F(x\lor y)\leq F(x)+y\cdot \nabla F(x) F(xy)F(x)+yF(x)
M = ( V , I ) M=(V,I) M=(V,I)为拟阵, V = [ n ] V=[n] V=[n] I I I为一系列独立集合的集合。我们用 P ( M ) = c o n v { 1 i ∣ i ∈ I } P(M)=conv\{1_i|i\in I\} P(M)=conv{1iiI}

你可能感兴趣的:(Robust,Online,Offline)