UA MATH567 高维统计II 随机向量1 随机向量的范数

UA MATH567 高维统计II 随机向量1 随机向量的范数

这是高维统计理论的第二部分,这一部分的任务是把第一部分介绍的分析一元随机变量的concentration与尾部概率的方法推广到随机向量。推广的思路是将随机向量这种高维的结构化归为一维的结构进行研究,比较容易想到的是随机向量的范数、随机向量在某个向量上的投影以及上一部分末尾提到的Lipschitz组合等,这些量都是一维的随机变量,我们可以通过研究这类随机变量的性质,进而去理解随机向量的concentration与尾部概率行为。这一讲我们先研究随机向量的范数:

假设 X = ( X 1 , ⋯   , X n ) X=(X_1,\cdots,X_n) X=(X1,,Xn) X i X_i Xi是独立、零均值、方差为1的随机变量(我们假设这一讲讨论的所有随机变量都是如此),则
E ∥ X ∥ 2 2 = E ∑ i = 1 n X i 2 = n E \left\|X \right\|_2^2 = E \sum_{i=1}^n X_i^2 = n EX22=Ei=1nXi2=n

这说明 ∥ X ∥ 2 \left\|X \right\|_2 X2的concentration是 n \sqrt{n} n ,我们想知道的是how concentrated ∥ X ∥ 2 \left\|X \right\|_2 X2 is around n \sqrt{n} n ?

L2-Norm的Concentration 假设 X X X是每个分量都是独立亚高斯的 n n n维随机变量,假设它的每个分量二阶矩均为1, K = max ⁡ 1 ≤ i ≤ N ∥ X i ∥ ψ 2 K=\max_{1\le i \le N}\left\| X_i\right\|_{\psi_2} K=max1iNXiψ2,则 ∃ C > 0 \exists C>0 C>0
∥ ∥ X ∥ 2 − n ∥ ψ 2 ≤ C K 2 \left\| \left\| X\right\|_{2}-\sqrt{n} \right\|_{\psi_2} \le CK^2 X2n ψ2CK2

评述 这是一个non-asymptotic result,对亚高斯范数不太了解的读者可能会不明觉厉,所以我们可以结合亚高斯性和亚高斯范数简单理解一下。首先这个不等式说明 ∥ X ∥ 2 − n \left\| X\right\|_{2}-\sqrt{n} X2n 的亚高斯范数有界,也就是 ∥ X ∥ 2 − n \left\| X\right\|_{2}-\sqrt{n} X2n 是亚高斯随机变量,于是它的tail probability满足
P ( ∣ ∥ X ∥ 2 − n ∣ ≥ t ) ≤ 2 exp ⁡ ( − c t 2 / ∥ ∥ X ∥ 2 − n ∥ ψ 2 2 ) ≤ 2 exp ⁡ ( − c t 2 C 2 K 4 ) , ∀ t > 0 P(|\left\| X\right\|_{2}-\sqrt{n}|\ge t) \le 2\exp(-ct^2/\left\| \left\| X\right\|_{2}-\sqrt{n} \right\|_{\psi_2}^2) \\ \le 2\exp(-\frac{ct^2}{C^2K^4}),\forall t>0 P(X2n t)2exp(ct2/X2n ψ22)2exp(C2K4ct2),t>0

也就是tail probability的阶被控制为 e − t 2 e^{-t^2} et2

说明 我们可以直观理解一下这个不等式, ∥ ∥ X ∥ 2 − n ∥ ψ 2 \left\| \left\| X\right\|_{2}-\sqrt{n} \right\|_{\psi_2} X2n ψ2可以理解为 ∥ X ∥ 2 \left\| X\right\|_{2} X2 n \sqrt{n} n 的距离,这个不等式说明它们之间的距离是有界的。事实上对于这里的亚高斯分布,
E ∑ i = 1 n X i 2 = n , V a r ∑ i = 1 n X i 2 = O ( n ) E \sum_{i=1}^n X_i^2=n,Var \sum_{i=1}^n X_i^2 = O(n) Ei=1nXi2=n,Vari=1nXi2=O(n)

类比正态分布的性质,从直觉上讲 ∑ i = 1 n X i 2 \sum_{i=1}^nX_i^2 i=1nXi2的概率集中在 [ μ − σ , μ + σ ] [\mu-\sigma,\mu+\sigma] [μσ,μ+σ]上,也就是 [ n − O ( n ) , n + O ( n ) ] [n-O(\sqrt{n}),n+O(\sqrt{n})] [nO(n ),n+O(n )]上,因此 ( ∑ i = 1 n X i 2 ) 1 / 2 (\sum_{i=1}^nX_i^2)^{1/2} (i=1nXi2)1/2的概率集中在 [ n − O ( n ) , n + O ( n ) ] [\sqrt{n-O(\sqrt{n})},\sqrt{n+O(\sqrt{n})}] [nO(n ) ,n+O(n ) ]上,因为(证明见末尾)
n ± O ( n ) = n ± O ( 1 ) \sqrt{n\pm O(\sqrt{n})}=\sqrt{n} \pm O(1) n±O(n ) =n ±O(1)

于是 ( ∑ i = 1 n X i 2 ) 1 / 2 − n (\sum_{i=1}^nX_i^2)^{1/2}-\sqrt n (i=1nXi2)1/2n 是有界的。

推论 根据亚高斯性, ∥ X ∥ L p ≤ C ∥ X ∥ ψ 2 p , ∀ p ≥ 1 \left\| X \right\|_{L^p} \le C\left\|X \right\|_{\psi_2}\sqrt{p},\forall p \ge 1 XLpCXψ2p ,p1,取 p = 1 p=1 p=1,则
∥ ∥ X ∥ 2 − n ∥ 1 ≤ C ′ K 2 , ∃ C ′ > 0 \left\| \left\| X\right\|_{2}-\sqrt{n} \right\|_{1} \le C'K^2,\exists C'>0 X2n 1CK2,C>0

进一步,我们知道
∣ E ∥ X ∥ 2 − n ∣ ≤ ∥ ∥ X ∥ 2 − n ∥ 1 ≤ C ′ K 2 |E\left\| X\right\|_{2}-\sqrt{n}| \le \left\| \left\| X\right\|_{2}-\sqrt{n} \right\|_{1} \le C'K^2 EX2n X2n 1CK2

也就是说average distance between ∥ X ∥ 2 , n \left\| X\right\|_{2},\sqrt{n} X2,n is bounded. 取 p = 2 p=2 p=2,则
∥ ∥ X ∥ 2 − n ∥ 2 ≤ C ′ ′ K 2 , ∃ C ′ ′ > 0 ⇒ E [ ∥ X ∥ 2 − n ] 2 ≤ C ′ ′ 2 K 4 \left\| \left\| X\right\|_{2}-\sqrt{n} \right\|_{2} \le C''K^2,\exists C''>0 \\ \Rightarrow E[\left\| X\right\|_{2}-\sqrt{n}]^2 \le C''^2K^4 X2n 2CK2,C>0E[X2n ]2C2K4

于是 V a r ( ∥ X ∥ 2 ) ≤ C ′ ′ 2 K 4 Var(\left\| X\right\|_{2}) \le C''^2K^4 Var(X2)C2K4,基于这个结果我们可以进一步讨论 E ∥ X ∥ 2 − n E\left\| X\right\|_{2}-\sqrt{n} EX2n 的上界,因为
( E ∥ X ∥ 2 ) 2 = E ∥ X ∥ 2 2 − V a r ( ∥ X ∥ 2 ) = n − V a r ( ∥ X ∥ 2 ) ⇒ 0 ≤ V a r ( ∥ X ∥ 2 ) = n − ( E ∥ X ∥ 2 ) 2 ≤ C ′ ′ K 4 (E\left\| X\right\|_{2})^2 = E\left\| X\right\|_{2}^2 - Var(\left\| X\right\|_{2})=n-Var(\left\| X\right\|_{2}) \\ \Rightarrow 0 \le Var(\left\| X\right\|_{2}) = n - (E\left\| X\right\|_{2})^2 \le C''K^4 (EX2)2=EX22Var(X2)=nVar(X2)0Var(X2)=n(EX2)2CK4

于是
[ n − E ∥ X ∥ 2 ] = C ′ ′ K 4 n + E ∥ X ∥ 2 ≤ C ′ ′ K 4 n = O ( 1 / n ) = o ( 1 ) [\sqrt{n}-E\left\| X\right\|_{2}] = \frac{C''K^4}{\sqrt{n}+E\left\| X\right\|_{2}} \le \frac{C''K^4}{\sqrt{n}}=O(1/\sqrt{n})=o(1) [n EX2]=n +EX2CK4n CK4=O(1/n )=o(1)

也就是说 n − E ∥ X ∥ 2 \sqrt{n}-E\left\| X\right\|_{2} n EX2趋近于0的速率至多与 1 / n 1/\sqrt{n} 1/n 一致,
∣ E ∥ X ∥ 2 − n ∣ < o ( 1 ) |E\left\| X\right\|_{2}-\sqrt{n}| < o(1) EX2n <o(1)

证明 现在我们正式证明L2-Norm的Concentration。

引理1
E X 2 = 1 ⇒ ∥ X ∥ ψ 2 ≥ 1 ⇒ K = max ⁡ i ∥ X i ∥ ψ 2 ≥ 1 EX^2=1 \Rightarrow \left\| X \right\|_{\psi_2} \ge 1 \Rightarrow K = \max_i\left\| X_i \right\|_{\psi_2} \ge 1 EX2=1Xψ21K=imaxXiψ21

(可以简单检查这个结果,如果 E e X 2 / t 2 ∣ t = 1 ≥ 2 Ee^{X^2/t^2}|_{t=1} \ge 2 EeX2/t2t=12,则 ∥ X ∥ ψ 2 ≥ 1 \left\| X \right\|_{\psi_2} \ge 1 Xψ21)

引理2 X X X是亚高斯的,则 X 2 − E X 2 = X 2 − 1 X^2-EX^2=X^2-1 X2EX2=X21亚指数的,(根据centering技巧, ∥ X 2 − 1 ∥ ψ 2 ≤ C ∥ X 2 ∥ ψ 1 = C ∥ X ∥ ψ 2 \left\|X^2-1 \right\|_{\psi_2} \le C \left\| X^2 \right\|_{\psi_1}=C\left\| X\right\|_{\psi_2} X21ψ2CX2ψ1=CXψ2)

下面我们使用Bernstein不等式
P ( ∣ ∥ X ∥ 2 2 n − 1 ∣ ≥ u ) = P ( ∣ 1 n ∑ i = 1 n ( X i − 1 ) 2 ∣ ≥ u ) ≤ 2 e − c n min ⁡ ( u C K 2 , u 2 C 2 K 4 ) ≤ 2 e − c n C 2 K 4 min ⁡ ( u C K 2 , u 2 ) P(|\frac{\left\| X \right\|_2^2}{n}-1| \ge u)=P(|\frac{1}{n}\sum_{i=1}^n (X_i-1)^2| \ge u) \\ \le 2e^{-cn\min (\frac{u}{CK^2},\frac{u^2}{C^2K^4})} \le 2e^{-\frac{cn}{C^2K^4}\min (uCK^2,u^2)} P(nX221u)=P(n1i=1n(Xi1)2u)2ecnmin(CK2u,C2K4u2)2eC2K4cnmin(uCK2,u2)

这里 C , c > 0 C,c>0 C,c>0是常数,我们不妨选择 C C C使得 C K 2 > 1 CK^2>1 CK2>1,则
2 e − c n C 2 K 4 min ⁡ ( u C K 2 , u 2 ) ≤ 2 e − C ′ n K 4 min ⁡ ( u 2 , u ) 2e^{-\frac{cn}{C^2K^4}\min (uCK^2,u^2)} \le 2e^{-\frac{C'n}{K^4}\min(u^2,u)} 2eC2K4cnmin(uCK2,u2)2eK4Cnmin(u2,u)

引理3 ∣ z − 1 ∣ ≥ δ ⇒ ∣ z 2 − 1 ∣ ≥ max ⁡ ( δ , δ 2 ) , ∀ z ≥ 0 |z-1| \ge \delta \Rightarrow |z^2-1| \ge \max(\delta,\delta^2),\forall z \ge 0 z1δz21max(δ,δ2),z0

于是
P ( ∣ ∥ X ∥ 2 n − 1 ∣ ≥ δ ) ≤ P ( ∣ ∥ X ∥ 2 2 n − 1 ∣ ≥ max ⁡ ( δ , δ 2 ) ) ≤ 2 e − C ′ n K 4 min ⁡ ( u 2 , u ) , w h e r e   u = max ⁡ ( δ , δ 2 ) P(|\frac{\left\| X \right\|_2}{\sqrt{n}}-1| \ge \delta) \le P(|\frac{\left\| X \right\|_2^2}{n}-1| \ge \max(\delta,\delta^2)) \\ \le 2e^{-\frac{C'n}{K^4}\min(u^2,u)},where\ u=\max(\delta,\delta^2) P(n X21δ)P(nX221max(δ,δ2))2eK4Cnmin(u2,u),where u=max(δ,δ2)

有趣的事情发生了,
min ⁡ ( u 2 , u ) = min ⁡ ( [ max ⁡ ( δ , δ 2 ) ] 2 , max ⁡ ( δ , δ 2 ) ) = δ 2 , ∀ δ ≥ 0 \min(u^2,u)=\min([\max(\delta,\delta^2)]^2,\max(\delta,\delta^2))=\delta^2,\forall \delta \ge 0 min(u2,u)=min([max(δ,δ2)]2,max(δ,δ2))=δ2,δ0

事实上
min ⁡ ( [ max ⁡ ( x , x 2 ) ] 2 , max ⁡ ( x , x 2 ) ) = { x 2 , ( − ∞ , − 1 ) ∪ ( 0 , ∞ ) x 4 , [ − 1 , 0 ] \min([\max(x,x^2)]^2,\max(x,x^2)) = \begin{cases} x^2,(-\infty,-1) \cup (0,\infty) \\ x^4, [-1,0] \end{cases} min([max(x,x2)]2,max(x,x2))={x2,(,1)(0,)x4,[1,0]

因此
P ( ∣ ∥ X ∥ 2 n − 1 ∣ ≥ δ ) ≤ 2 e − C ′ n δ 2 K 4 P(|\frac{\left\| X \right\|_2}{\sqrt{n}}-1| \ge \delta) \le2e^{-\frac{C'n\delta^2}{K^4}} P(n X21δ)2eK4Cnδ2

这就说明了 ∥ X ∥ 2 n − 1 \frac{\left\| X \right\|_2}{\sqrt{n}}-1 n X21是亚高斯的,选择 δ = t / n \delta = t/\sqrt{n} δ=t/n ,则
P ( ∣ ∥ X ∥ 2 − n ∣ ≥ t ) ≤ 2 e − C ′ t 2 K 4 P(|\left\| X \right\|_2-\sqrt{n}| \ge t) \le2e^{-\frac{C't^2}{K^4}} P(X2n t)2eK4Ct2

并且对比亚高斯性的 P ( ∣ X ∣ ≥ t ) ≤ 2 exp ⁡ ( − c t 2 / ∥ X ∥ ψ 2 2 ) , ∀ t ≥ 0 P(|X|\ge t) \le 2\exp(-ct^2/\left\|X \right\|_{\psi_2}^2),\forall t\ge 0 P(Xt)2exp(ct2/Xψ22),t0

我们知道它的亚高斯范数与 K 2 K^2 K2同阶。
证毕


n ± O ( n ) = n ± O ( 1 ) \sqrt{n\pm O(\sqrt{n})}=\sqrt{n} \pm O(1) n±O(n ) =n ±O(1)的证明
在这里插入图片描述
Notice that a n / n ≥ 0 a_n/\sqrt{n}\ge 0 an/n 0. Thus, n + a n − n ≥ 0 \sqrt{n+a_n}-\sqrt{n}\ge 0 n+an n 0, b n ≥ 0 b_n \ge 0 bn0. Now that a n < M n a_n<M\sqrt{n} an<Mn and b n b_n bn is increasing on a n a_n an,
b n < n + M n − n = M n n + M n + n → M 2 ,   a s   n → ∞ b_n < \sqrt{n+M\sqrt{n}}-\sqrt{n} = \frac{M\sqrt{n}}{\sqrt{n+M\sqrt{n}}+\sqrt{n}} \to \frac{M}{2},\ as\ n \to \infty bn<n+Mn n =n+Mn +n Mn 2M, as n

In fact, define sequence c n c_n cn as c n = n + M n − n c_n = \sqrt{n+M\sqrt{n}}-\sqrt{n} cn=n+Mn n , and we’ll see c n c_n cn is increasing on n n n and has an upper bound.
c n = ( ( n + M 2 ) 2 − M 2 4 − n c_n=\sqrt{\left((\sqrt{n}+\frac{M}{2}\right)^2-\frac{M^2}{4}}-\sqrt{n} cn=((n +2M)24M2 n

Let f ( x ) = ( x + a ) 2 − a 2 − x f(x)=\sqrt{(x+a)^2-a^2}-x f(x)=(x+a)2a2 x, a > 0 a>0 a>0
f ′ ( x ) = x + a ( x + a ) 2 − a 2 − 1 = ( x + a ) 2 − ( x + a ) 2 − a 2 ( x + a ) 2 − a 2 > 0 f'(x)=\frac{x+a}{\sqrt{(x+a)^2-a^2}}-1 = \frac{\sqrt{(x+a)^2}-\sqrt{(x+a)^2-a^2}}{\sqrt{(x+a)^2-a^2}}>0 f(x)=(x+a)2a2 x+a1=(x+a)2a2 (x+a)2 (x+a)2a2 >0

This means f ( x ) f(x) f(x) is monotonically increasing and in turn, c n c_n cn is increasing on n n n. c n = ( ( n + M 2 ) 2 − M 2 4 − n < ( ( n + M 2 ) 2 − n = M 2 c_n=\sqrt{\left((\sqrt{n}+\frac{M}{2}\right)^2-\frac{M^2}{4}}-\sqrt{n} < \sqrt{\left((\sqrt{n}+\frac{M}{2}\right)^2}-\sqrt{n}=\frac{M}{2} cn=((n +2M)24M2 n <((n +2M)2 n =2M

So c n c_n cn has an upper bound. Above, we conclude that M 2 \frac{M}{2} 2M is the supremum of c n c_n cn. Hence, we define M ′ = M 2 M'=\frac{M}{2} M=2M.

Furthermore, since 0 ≤ a n / n < M 0 \le a_n/\sqrt{n} < M 0an/n <M, we may use a n a_n an to replace O ( n ) O(\sqrt{n}) O(n ), so
n + a n − n = b n = O ( 1 ) \sqrt{n+a_n}-\sqrt{n}=b_n=O(1) n+an n =bn=O(1)

We have proved that 0 ≤ b n < M / 2 0 \le b_n < M/2 0bn<M/2. Thus, b n = O ( 1 ) b_n=O(1) bn=O(1) is true.

相关推荐
©️2020 CSDN 皮肤主题: 撸撸猫 设计师:马嘣嘣 返回首页