文章考虑了一个数据驱动的风险规避随机优化(data-driven risk-averse stochastic optimization)问题:
(DD-SP) min x ∈ X c T x + max P ^ ∈ D E P ^ [ Q ( x , ξ ) ] \text{(DD-SP)} \quad \mathop{\min}\limits_{x\in X} c^Tx + \mathop{\max}\limits_{\hat{\mathbb{P}}\in\mathcal{D}} \mathbb{E}_{\hat{\mathbb{P}}} [\mathcal{Q}(x,\xi)] (DD-SP)x∈XmincTx+P^∈DmaxEP^[Q(x,ξ)] 其中 x ∈ X x\in X x∈X是第一阶段的决策变量,第二阶段的问题为
Q ( x , ξ ) = min y ∈ Y { d ( ξ ) T y : A ( ξ ) x + B y ≥ b ( ξ ) } , \mathcal{Q}(x,\xi) = \mathop{\min}\limits_{y\in Y} \left\{ d(\xi)^Ty \;:\; A(\xi)x + By \ge b(\xi) \right\}, Q(x,ξ)=y∈Ymin{d(ξ)Ty:A(ξ)x+By≥b(ξ)}, 假设 A ( ξ ) A(\xi) A(ξ)和 B ( ξ ) B(\xi) B(ξ)都关于 ξ \xi ξ连续, 随机变量 ξ \xi ξ属于某个概率空间。 ξ \xi ξ 服从的分布 P ^ \hat{\mathbb{P}} P^是未知的,只知道它属于某个confidence set D = { P ^ : d M ( P 0 , P ^ ) ≤ θ } \mathcal{D}=\{\hat{\mathbb{P}}: d_M(\hat{\mathbb{P}_0,\mathbb{P}})\leq \theta\} D={P^:dM(P0,P^)≤θ}.
特别地,文中考虑的是一组经验数据 ξ 1 , ⋯ , ξ N \xi^1,\cdots,\xi^N ξ1,⋯,ξN给定的经验分布为中心的Wasserstein Ball。文章主要的贡献就是,给出了 max P ^ ∈ D E P ^ [ Q ( x , ξ ) ] \mathop{\max}\limits_{\hat{\mathbb{P}}\in\mathcal{D}} \mathbb{E}_{\hat{\mathbb{P}}} [\mathcal{Q}(x,\xi)] P^∈DmaxEP^[Q(x,ξ)] 的 worst-case distribution,从而给出了 DD-SP 的reformulation。
假设1. DD-SP有相对完备的补偿( relatively complete recourse)并且是有界的,亦即对任意 x ∈ X x\in X x∈X,都有 sup ξ ∈ Ω ∣ Q ( x , ξ ) ∣ < ∞ \mathop{\sup}\limits_{\xi\in\Omega} |\mathcal{Q}(x,\xi)|<\infty ξ∈Ωsup∣Q(x,ξ)∣<∞.
命题1(原文Proposition 2). 假设 ξ 1 , ⋯ , ξ N \xi^1,\cdots,\xi^N ξ1,⋯,ξN 是从真实分布 P \mathbb{P} P 中独立同部分(i.i.d.)选择的一组样本数据,那么对任何固定的第一阶段决策变量 x ∈ X x\in\mathcal{X} x∈X,我们有
max P ^ ∈ D E P ^ [ Q ( x , ξ ) ] = min β ≥ 0 { θ β + 1 N ∑ i = 1 N max ξ ∈ Ω { Q ( x , ξ ) − β ρ ( ξ , ξ i ) } } \mathop{\max}\limits_{\hat{\mathbb{P}}\in\mathcal{D}} \mathbb{E}_{\hat{\mathbb{P}}} [\mathcal{Q}(x,\xi)] = \mathop{\min}\limits_{\beta\ge 0} \left\{ \theta\beta + \frac{1}{N} \mathop{\sum}\limits_{i=1}^N \mathop{\max}\limits_{\xi\in\Omega}\left\{ \mathcal{Q}(x,\xi)-\beta\rho(\xi,\xi^i) \right\} \right\} P^∈DmaxEP^[Q(x,ξ)]=β≥0min{θβ+N1i=1∑Nξ∈Ωmax{Q(x,ξ)−βρ(ξ,ξi)}} 这里 ρ \rho ρ就是用于定义Wasserstein时两个随机变量之间的距离。
定义: ρ i ( ξ ) = ρ ( ξ , ξ i ) \rho^i(\xi)=\rho(\xi,\xi^i) ρi(ξ)=ρ(ξ,ξi)
命题1(原文Proposition 4). 假设 Q ( x , ξ ) \mathcal{Q}(x,\xi) Q(x,ξ) 关于 ξ \xi ξ是凹的, ρ i ( ξ ) \rho^i(\xi) ρi(ξ)是严格凸函数(比如 L 2 L_2 L2-范数), β ∗ \beta^* β∗是命题1中的唯一解,那么存在 max P ^ ∈ D E P ^ [ Q ( x , ξ ) ] \mathop{\max}\limits_{\hat{\mathbb{P}}\in\mathcal{D}} \mathbb{E}_{\hat{\mathbb{P}}} [\mathcal{Q}(x,\xi)] P^∈DmaxEP^[Q(x,ξ)] 的一个 worst-case distribution,并且它可以表示为
P ^ ∗ = 1 N ∑ i = 1 N δ ξ ∗ i , \hat{\mathbb{P}}^*=\frac{1}{N} \mathop{\sum}\limits_{i=1}^N \delta_{\xi_*^i}, P^∗=N1i=1∑Nδξ∗i,其中 ξ ∗ i \xi_*^i ξ∗i 是 max ξ ∈ Ω { Q ( x , ξ ) − β ∗ ρ i ( ξ ) } \mathop{\max}\limits_{\xi\in\Omega}\left\{ \mathcal{Q}(x,\xi)-\beta^*\rho^i(\xi)\right\} ξ∈Ωmax{Q(x,ξ)−β∗ρi(ξ)}的最优解。
Remark:这个证明值得好好念,用到Helly–Bray定理。
链接:概率收敛、均方收敛、分布收敛的关系
Helly–Bray定理是关于分布收敛的一个等价形式:假设 g g g 是一个有界且连续的函数,随机变量 X n X_n Xn收敛于 X X X,则 E [ g ( X n ) ] E[g(X_n)] E[g(Xn)] 收敛于 E [ g ( X ) ] E[g(X)] E[g(X)].
fixed recourse:是指第二阶段的系数矩阵是确定的
Chaoyue Zhao, Yongpei Guan. Data-driven risk-averse stochastic optimization with Wasserstein
metric. Operations Research Letters