UA MATH567 高维统计IV Lipschitz组合4 对称群上的均匀分布

UA MATH567 高维统计IV Lipschitz组合4 对称群上的均匀分布

S n S_n Sn表示一个对称群,为简化起见,我们假设 S n S_n Sn包含 { 1 , 2 , ⋯   , n } \{1,2,\cdots,n\} { 1,2,,n}上的所有置换,则 S n S_n Sn n ! n! n!个元素。我们可以在 S n S_n Sn上引入度量使之成为度量空间: ∀ σ , τ ∈ S n \forall \sigma,\tau \in S_n σ,τSn,引入normalized Hamming distance
d ( σ , τ ) = 1 n ∑ i = 1 n 1 σ ( i ) ≠ τ ( i ) d(\sigma,\tau) = \frac{1}{n} \sum_{i=1}^n 1_{\sigma(i) \ne \tau (i)} d(σ,τ)=n1i=1n1σ(i)=τ(i)

S 5 S_5 S5为例,假设
σ = ( 1 2 3 4 5 2 3 4 5 1 ) , τ = ( 1 2 3 4 5 3 5 4 2 1 ) \sigma = \left( \begin{matrix} 1& 2& 3& 4& 5 \\ 2 & 3& 4 & 5 & 1 \end{matrix} \right),\tau = \left( \begin{matrix} 1& 2& 3& 4& 5 \\ 3 & 5& 4 & 2 & 1 \end{matrix} \right) σ=(1223344551),τ=(1325344251)

这种记号表示置换 σ \sigma σ把上一行的指标置换为下一行的对应指标,于是
σ ( 1 ) = 2 ≠ 3 = τ ( 1 ) σ ( 2 ) = 3 ≠ 5 = τ ( 2 ) σ ( 4 ) = 5 ≠ 2 = τ ( 4 ) \sigma(1) = 2 \ne 3 = \tau(1) \\ \sigma(2) = 3 \ne 5 = \tau(2)\\ \sigma(4) = 5 \ne 2 = \tau(4) σ(1)=2=3=τ(1)σ(2)=3=5=τ(2)σ(4)=5=2=τ(4)

所以
d ( σ , τ ) = 3 / 5 d(\sigma,\tau)=3/5 d(σ,τ)=3/5

接下来,我们可以在度量空间 ( S n , d ) (S_n,d) (Sn,d)上定义Borel代数,用 B ( S n ) \mathcal{B}(S_n) B(Sn)来表示,这样我们就有了一个可测空间 ( S n , B ( S n ) ) (S_n,\mathcal{B}(S_n)) (Sn,B(Sn)),在这个可测空间上,我们用古典概型的思路定义均匀概率测度:
P ( A ) = ∣ A ∣ n ! , ∀ A ∈ B ( S n ) P(A) = \frac{|A|}{n!},\forall A \in \mathcal{B}(S_n) P(A)=n!A,AB(Sn)

综上,我们在 n n n阶对称群上定义了概率空间: ( S n , B ( S n ) , P ) (S_n,\mathcal{B}(S_n),P) (Sn,B(Sn),P)


假设 X X X是对称群上的均匀分布,记为 X ∼ U n i f ( S n ) X \sim Unif(S_n) XUnif(Sn),则我们有如下结论:

对称群上的均匀分布的Lipschitz函数是亚高斯的
f : S n → R f:S_n \to \mathbb{R} f:SnR是均匀分布,则 ∃ C > 0 \exists C>0 C>0
∥ f ( X ) − E f ( X ) ∥ ψ 2 ≤ C ∥ f ∥ L i p n \left\| f(X) - Ef(X)\right\|_{\psi_2} \le \frac{C \left\| f \right\|_{Lip}}{\sqrt{n}} f(X)Ef(X)ψ2n CfLip

评注
在尝试证明这个结论之前,我们先按照惯例推一下对称群上的Isoperimetric不等式, ∀ A ∈ B ( S n ) \forall A \in \mathcal{B}(S_n) AB(Sn),定义
A t = { x ∈ S n : ∃ y ∈ S n , d ( x , y ) ≤ t } A_t = \{x \in S_n:\exists y \in S_n,d(x,y) \le t\} At={ xSn:ySn,d(x,y)t}

如果 0 ≤ t < 1 / n 0 \le t<1/n 0t<1/n,则 A t = A A_t=A At=A,如果 1 / n ≤ t < 2 / n 1/n \le t<2/n 1/nt<2/n,则 A t A_t At包含所有与 A A A中的置换不超过一位不相同的所有置换;如果 k / n ≤ t < ( k + 1 ) / n k/n \le t<(k+1)/n k/nt<(k+1)/n,则 A t A_t At包含所有与 A A A中的置换不超过 k k k(注意到 k = [ n t ] k=[nt] k=[nt])位不相同的所有置换。现在假设 P ( A ) > 1 / 2 P(A)>1/2 P(A)>1/2,则
P ( A t ) = P ( { x ∈ S n : ∃ y ∈ A , d ( x , y ) ≤ t } ) P(A_t) = P(\{x \in S_n:\exists y \in A,d(x,y) \le t\}) P(At)=P({ xSn:yA,d(x,y)t})

X X X表示置换 x , y x,y x,y的差别,相同位记为 0 0 0,不相同记为 0 0 0,则 X X X的取值在Hamming cube { 0 , 1 } n \{0,1\}^n { 0,1}n上, d ( x , y ) ≤ t d(x,y) \le t d(x,y)t说明
∑ i = 1 n X i ≤ [ n t ] \sum_{i=1}^n X_i \le [nt] i=1nXi[nt]

因此,如果 X ∼ U n i f ( { − 1 , 1 } n ) X \sim Unif(\{-1,1\}^n) XUnif({ 1,1}n)
P ( { x ∈ S n : ∃ y ∈ A , d ( x , y ) ≤ t } ) ≥ P ( ∑ i = 1 n ( X i + 1 ) / 2 ≤ [ n t ] ) P(\{x \in S_n:\exists y \in A,d(x,y) \le t\})\ge P(\sum_{i=1}^n (X_i+1)/2 \le [nt]) P({ xSn:yA,d(x,y)t})P(i=1n(Xi+1)/2[nt])

U n i f ( { − 1 , 1 } n ) Unif(\{-1,1\}^n) Unif({ 1,1}n)是一个亚高斯随机向量,根据推广Hoeffding不等式, ∃ C > 0 \exists C>0 C>0

P ( ∑ i = 1 n X i / 2 ≤ a ) ≥ 1 − 2 exp ⁡ ( − C a 2 / n ) P(\sum_{i=1}^n X_i /2 \le a) \ge 1-2 \exp \left( -Ca^2/n \right) P(i=1nXi/2a)12exp(Ca2/n)

所以 ∃ C > 0 \exists C>0 C>0
P ( ∑ i = 1 n ( X i + 1 ) / 2 ≤ [ n t ] ) ≥ 1 − 2 exp ⁡ ( − C n t 2 ) P(\sum_{i=1}^n (X_i+1)/2 \le [nt]) \ge 1-2\exp(-Cnt^2) P(i=1n(Xi+1)/2[nt])12exp(Cnt2)

这样我们就得到了对称群上的Isoperimetric不等式。

证明
假设 ∥ f ∥ L i p = 1 \left\| f\right\|_{Lip}=1 fLip=1,不然我们总是可以分析 f / ∥ f ∥ L i p f/\left\| f\right\|_{Lip} f/fLip

第一步:说明 f ( X ) − M f(X)-M f(X)M是亚高斯的,其中 M M M f ( X ) f(X) f(X)的中位数,也就是
P ( f ( X ) ≥ M ) ≥ 1 / 2 , P ( f ( X ) ≤ M ) ≥ 1 / 2 P(f(X) \ge M) \ge 1/2,P(f(X) \le M) \ge 1/2 P(f(X)M)1/2,P(f(X)M)1/2

定义
A = { x ∈ S n : f ( x ) ≤ M } A = \{x \in S_n:f(x) \le M\} A={ xSn:f(x)M}


σ ( A ) = P ( X ∈ A ) = P ( f ( X ) ≤ M ) ≥ 1 / 2 \sigma(A) = P(X \in A) = P(f(X) \le M) \ge 1/2 σ(A)=P(XA)=P(f(X)M)1/2

根据对称群上的Isoperimetric不等式,
P ( A t ) ≥ 1 − 2 e − C n t 2 , ∃ C > 0 P(A_t) \ge 1-2e^{-Cnt^2},\exists C>0 P(At)12eCnt2,C>0

因为 x ∈ A t x \in A_t xAt说明 ∃ y ∈ A \exists y \in A yA, d ( x , y ) ≤ t d(x,y) \le t d(x,y)t,根据Lipschitz函数的定义:
f ( x ) − f ( y ) ≤ ∥ f ∥ L i p d ( x , y ) ≤ t f(x)-f(y) \le \left\| f \right\|_{Lip}d(x,y) \le t f(x)f(y)fLipd(x,y)t

y ∈ A y \in A yA说明 f ( y ) ≤ M f(y) \le M f(y)M,所以
f ( x ) ≤ f ( y ) + t ≤ M + t f(x) \le f(y)+t \le M+t f(x)f(y)+tM+t

因此

P ( f ( X ) − M ≤ t ) ≥ P ( X ∈ A t ) = P ( A t ) ≥ 1 − 2 e − C n t 2 P(f(X)-M \le t) \ge P(X \in A_t)=P(A_t) \ge 1-2e^{-Cnt^2} P(f(X)Mt)P(XAt)=P(At)12eCnt2

类似地,对于 f ( X ) − M ≥ − t f(X)-M \ge -t f(X)Mt,我们有
P ( f ( X ) − M ≥ − t ) ≥ 1 − 2 e − C n t 2 P(f(X)-M \ge -t) \ge 1-2e^{-Cnt^2} P(f(X)Mt)12eCnt2

所以
P ( ∣ f ( X ) − M ∣ ≥ t ) ≤ 4 e − C n t 2 P(|f(X)-M| \ge t) \le 4e^{-Cnt^2} P(f(X)Mt)4eCnt2

第二步:使用centering技巧,假设 X X X是亚高斯随机变量,则 X − E X X-EX XEX也是亚高斯随机变量,并且存在常数 C C C使得
∥ X − E X ∥ ψ 2 ≤ C ∥ X ∥ ψ 2 \left\| X-EX \right\|_{\psi_2} \le C\left\| X \right\|_{\psi_2} XEXψ2CXψ2

因为 f ( X ) − M f(X)-M f(X)M是亚高斯的,于是 f ( X ) − M − E [ f ( X ) − M ] = f ( X ) − E f ( X ) f(X)-M-E[f(X)-M]=f(X)-Ef(X) f(X)ME[f(X)M]=f(X)Ef(X)也是亚高斯的,证毕。

你可能感兴趣的:(#,高维统计,机器学习,概率论,线性代数)