UA MATH567 高维统计I 概率不等式4 亚高斯分布

UA MATH567 高维统计I 概率不等式4 亚高斯分布

上一讲我们介绍了Hoeffding不等式与Chernoff不等式,这两个不等式的共性是它们的上界关于 t t t的递减阶数都是 e − c t 2 e^{-ct^2} ect2,它们具有非常好的性质,这一讲我们试图将这种尾部概率性质的分布抽象化,并推导出一些更普遍的结果,我们称这些结果为亚高斯性 (sub-Gaussian property) K 1 , ⋯   , K 5 K_1,\cdots,K_5 K1,,K5指的是一些常数。

  1. 尾部概率条件: P ( ∣ X ∣ ≥ t ) ≤ 2 exp ⁡ ( − t 2 / K 1 2 ) , ∀ t ≥ 0 P(|X|\ge t) \le 2\exp(-t^2/K_1^2),\forall t\ge 0 P(Xt)2exp(t2/K12),t0
  2. 矩条件: ∥ X ∥ L p ≤ K 2 p , ∀ p ≥ 1 \left\| X \right\|_{L^p} \le K_2\sqrt{p},\forall p \ge 1 XLpK2p ,p1
  3. 矩母函数条件: E e λ 2 X 2 ≤ exp ⁡ ( K 3 2 λ 2 ) , ∀ ∣ λ ∣ ≤ 1 / K 3 Ee^{\lambda^2 X^2} \le \exp(K_3^2\lambda^2),\forall |\lambda| \le 1/K_3 Eeλ2X2exp(K32λ2),λ1/K3
  4. 矩母函数上界: E e X 2 / K 4 2 ≤ 2 Ee^{X^2/K_4^2} \le 2 EeX2/K422
  5. 矩母函数又一个条件: E e λ X ≤ exp ⁡ ( K 5 2 λ 2 ) , ∀ λ ∈ R , E X = 0 Ee^{\lambda X} \le \exp(K_5^2 \lambda^2),\forall \lambda \in \mathbb{R}, EX=0 EeλXexp(K52λ2),λR,EX=0

并且称满足这五个等价条件中任一条的分布为亚高斯分布 (sub-Gaussian distribution)。下面我们来简单证明一下它们的等价性。另外就是第一个和第四个中的2并不一定是非得是2,是任何一个大于1的常数就可以。


1推2
假设性质1成立,取 K 1 = 1 K_1=1 K1=1(即使 K 1 = ≠ 1 K_1 =\ne 1 K1==1,我们也可以考虑对 X / K 1 X/K_1 X/K1进行分析),因为期望等于生存函数的积分,于是
E ∣ X ∣ p = ∫ 0 ∞ P ( ∣ X ∣ p ≥ u ) d u = ∫ 0 ∞ P ( ∣ X ∣ p ≥ t p ) p t p − 1 d t E|X|^p = \int_0^{\infty}P(|X|^p \ge u)du = \int_0^{\infty}P(|X|^p \ge t^p)pt^{p-1}dt EXp=0P(Xpu)du=0P(Xptp)ptp1dt

第二个等号是用的积分换元, u = t p u=t^p u=tp,根据性质1,
P ( ∣ X ∣ p ≥ t p ) = P ( ∣ X ∣ ≥ t ) ≤ 2 exp ⁡ ( − t 2 ) , ∀ t ≥ 0 P(|X|^p \ge t^p)=P(|X| \ge t) \le 2\exp(-t^2),\forall t \ge 0 P(Xptp)=P(Xt)2exp(t2),t0

于是
∫ 0 ∞ P ( ∣ X ∣ p ≥ t p ) p t p − 1 d t ≤ ∫ 0 ∞ 2 e − t 2 p t p − 1 d t \int_0^{\infty}P(|X|^p \ge t^p)pt^{p-1}dt \le \int_0^{\infty}2e^{-t^2}pt^{p-1}dt 0P(Xptp)ptp1dt02et2ptp1dt

右边这个积分可以通过凑Gamma函数积出来,
∫ 0 ∞ 2 e − t 2 p t p − 1 d t = p ∫ ( t 2 ) p 2 − 1 e − t 2 d t 2 = p Γ ( p / 2 ) \int_0^{\infty}2e^{-t^2}pt^{p-1}dt=p\int (t^2)^{\frac{p}{2}-1}e^{-t^2}dt^2=p\Gamma(p/2) 02et2ptp1dt=p(t2)2p1et2dt2=pΓ(p/2)

根据Gamma函数的上界,当 x ≥ 1 / 2 x \ge 1/2 x1/2时, Γ ( x ) ≤ 3 x x \Gamma(x) \le 3x^x Γ(x)3xx
Γ ( p / 2 ) ≤ 3 p ( p / 2 ) p / 2 \Gamma(p/2) \le 3p(p/2)^{p/2} Γ(p/2)3p(p/2)p/2

因此
∥ X ∥ L p = ( E ∣ X ∣ p ) 1 / p ≤ ( 3 p ) 1 / p p / 2 ≤ 3 p \left\| X \right\|_{L^p}=(E|X|^p)^{1/p} \le(3p)^{1/p}\sqrt{p/2} \le 3\sqrt{p} XLp=(EXp)1/p(3p)1/pp/2 3p 也就是比较合适的 K 2 K_2 K2的取值是 K 2 ≤ 3 K_2 \le 3 K23


2推3
假设性质2成立,不妨取 K 2 = 1 K_2=1 K2=1,考虑Taylor展开,
E exp ⁡ ( λ 2 X 2 ) = E [ 1 + ∑ p = 1 ∞ ( λ 2 X 2 ) p p ! ] = 1 + ∑ p = 1 ∞ λ 2 p E X 2 p p ! E\exp(\lambda^2X^2)=E \left[1+\sum_{p=1}^{\infty} \frac{(\lambda^2X^2)^p}{p!} \right] = 1+ \sum_{p=1}^{\infty} \frac{\lambda^{2p}EX^{2p}}{p!} Eexp(λ2X2)=E[1+p=1p!(λ2X2)p]=1+p=1p!λ2pEX2p

性质2说明
E X 2 p ≤ ( 2 p ) p EX^{2p} \le (2p)^p EX2p(2p)p

根据Stirling公式,
p ! ≥ ( p / e ) p p! \ge (p/e)^p p!(p/e)p

所以
E exp ⁡ ( λ 2 X 2 ) ≤ 1 + ∑ p = 1 ∞ ( 2 λ 2 p ) p ( p / e ) p = ∑ p = 0 ∞ ( 2 e λ 2 ) p = 1 1 − 2 e λ 2 E\exp(\lambda^2X^2) \le1+ \sum_{p=1}^{\infty} \frac{(2\lambda^2p)^p}{(p/e)^p}=\sum_{p=0}^{\infty}(2e\lambda^2)^p=\frac{1}{1-2e\lambda^2} Eexp(λ2X2)1+p=1(p/e)p(2λ2p)p=p=0(2eλ2)p=12eλ21

上式当且仅当 2 e λ 2 < 1 2e\lambda^2<1 2eλ2<1时收敛。根据不等式
1 1 − x ≤ e 2 x , ∀ x ∈ [ 0 , 1 / 2 ] \frac{1}{1-x} \le e^{2x},\forall x \in [0,1/2] 1x1e2x,x[0,1/2]

我们可以进一步得到
E exp ⁡ ( λ 2 X 2 ) ≤ e 4 e λ 2 , ∀ ∣ λ ∣ ≤ 1 2 e E\exp(\lambda^2X^2) \le e^{4e\lambda^2},\forall |\lambda| \le \frac{1}{2\sqrt{e}} Eexp(λ2X2)e4eλ2,λ2e 1

也就是说性质3在 K 3 = 2 e K_3 =2\sqrt{e} K3=2e 时成立。


3推4
假设性质3成立,取 K 3 = 1 K_3=1 K3=1,则
E e λ 2 X 2 ≤ e λ 2 , ∀ ∣ λ ∣ ≤ 1 Ee^{\lambda^2X^2} \le e^{\lambda^2},\forall |\lambda| \le 1 Eeλ2X2eλ2,λ1

λ = 1 / 2 \lambda=1/\sqrt{2} λ=1/2 ,则
E e X 2 / 2 ≤ e 1 / 2 < 2 Ee^{X^2/2} \le e^{1/2}<2 EeX2/2e1/2<2

也就是说性质4对 K 4 = 2 K_4=\sqrt{2} K4=2 成立。


4推1
假设性质4成立,取 K 4 = 1 K_4=1 K4=1,根据Markov不等式,
P ( ∣ X ∣ ≥ t ) = P ( e X 2 ≥ e t 2 ) ≤ e − t 2 E e X 2 ≤ 2 e − t 2 P(|X|\ge t) = P(e^{X^2} \ge e^{t^2}) \le e^{-t^2}Ee^{X^2} \le 2e^{-t^2} P(Xt)=P(eX2et2)et2EeX22et2

因此 K 1 = 1 K_1=1 K1=1性质1成立。


假设 X X X零均值。

3推5
假设性质3成立,取 K 3 = 1 K_3=1 K3=1,则
E e λ 2 X 2 ≤ e λ 2 , ∀ ∣ λ ∣ ≤ 1 Ee^{\lambda^2X^2} \le e^{\lambda^2},\forall |\lambda| \le 1 Eeλ2X2eλ2,λ1

因为性质5是对任意 λ \lambda λ都成立的,但性质3对 λ \lambda λ的取值有限制,于是我们做分类讨论。

Case 1: ∣ λ ∣ ≤ 1 |\lambda| \le 1 λ1,根据不等式
e x ≤ x + e x 2 , ∀ x ∈ R e^x \le x+e^{x^2},\forall x \in \mathbb{R} exx+ex2,xR

我们可以估计
E e λ x ≤ E ( λ X + e λ 2 X 2 ) = E e λ 2 X 2 ≤ e λ 2 Ee^{\lambda x} \le E(\lambda X+e^{\lambda^2X^2})=Ee^{\lambda^2X^2} \le e^{\lambda^2} EeλxE(λX+eλ2X2)=Eeλ2X2eλ2

Case 2: ∣ λ ∣ > 1 |\lambda|>1 λ>1,根据不等式
2 λ x ≤ λ 2 + x 2 , ∀ x ∈ R 2\lambda x \le \lambda^2+x^2,\forall x \in \mathbb{R} 2λxλ2+x2,xR

我们可以估计
E e λ x ≤ E e λ 2 + X 2 2 = e λ 2 2 E e X 2 2 ≤ e λ 2 2 e 1 2 ≤ e λ 2 2 e λ 2 2 = e λ 2 Ee^{\lambda x} \le Ee^{\frac{\lambda^2+X^2}{2}}=e^{\frac{\lambda^2}{2}}Ee^{\frac{X^2}{2}}\le e^{\frac{\lambda^2}{2}}e^{\frac{1}{2}} \le e^{\frac{\lambda^2}{2}}e^{\frac{\lambda^2}{2}}=e^{\lambda^2} EeλxEe2λ2+X2=e2λ2Ee2X2e2λ2e21e2λ2e2λ2=eλ2

综上,性质5对 K 5 = 1 K_5=1 K5=1成立。


5推1
假设性质5成立,取 K 5 = 1 K_5=1 K5=1,考虑
P ( ∣ X ∣ ≥ t ) = P ( X ≥ t ) + P ( X ≤ − t ) = P ( e λ X ≥ e λ t ) + P ( e − λ X ≥ e λ t ) P(|X| \ge t) = P(X \ge t)+P(X \le -t) \\ = P(e^{\lambda X} \ge e^{\lambda t})+P(e^{-\lambda X} \ge e^{\lambda t}) P(Xt)=P(Xt)+P(Xt)=P(eλXeλt)+P(eλXeλt)

先考虑前半个概率,根据Markov不等式,
P ( e λ X ≥ e λ t ) ≤ e − λ t E e λ X ≤ e − λ t e λ 2 = e − t 2 / 4 ( λ = t / 2 ) P(e^{\lambda X} \ge e^{\lambda t})\le e^{-\lambda t}Ee^{\lambda X} \le e^{-\lambda t}e^{\lambda^2} =e^{-t^2/4} (\lambda = t/2) P(eλXeλt)eλtEeλXeλteλ2=et2/4(λ=t/2)

然后考虑后半个概率,同样根据Markov不等式,我们可以得到
P ( e − λ X ≥ e λ t ) ≤ e − t 2 / 4 P(e^{-\lambda X} \ge e^{\lambda t}) \le e^{-t^2/4} P(eλXeλt)et2/4

这样我们就说明了 K 1 = 2 K_1=2 K1=2时性质1成立。


现在我们就完成了所有亚高斯性等价的证明,但大家应该也发现了,每一条亚高斯性都有一个常数,不同的常数可以有不同的取值,每次使用性质前还需要选取一下常数的值,于是我们不由得发问,有没有一种统一亚高斯性中常数的方法?

这就要回到上一讲的定义了,亚高斯范数(sub-Gaussian norm):
∥ X ∥ ψ 2 = inf ⁡ { t > 0 : E e X 2 / t 2 ≤ 2 } \left\|X \right\|_{\psi_2} = \inf\{t>0:Ee^{X^2/t^2} \le 2\} Xψ2=inf{t>0:EeX2/t22}就是能够统一亚高斯性中常数的结构,后续会介绍为什么要这样定义亚高斯范数,因为它的本质是一种Orlicz范数。我们已经证明了亚高斯范数的确是一个范数,下面我们用几个例子说明如何计算随机变量的亚高斯范数。

例 正态分布
假设 X ∼ N ( 0 , σ ) X \sim N(0,\sigma) XN(0,σ),则 ∥ X ∥ ψ 2 = 8 3 σ \left\|X \right\|_{\psi_2}=\sqrt{\frac{8}{3}}\sigma Xψ2=38 σ
如果 σ = 1 \sigma=1 σ=1,我们直接计算
E e X 2 / t 2 = ∫ − ∞ ∞ e x 2 t 2 1 2 π e − x 2 2 d x = ∫ − ∞ ∞ 1 2 π e x 2 t 2 − x 2 2 d x Ee^{X^2/t^2} = \int_{-\infty}^{\infty} e^{\frac{x^2}{t^2}} \frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}dx= \int_{-\infty}^{\infty} \frac{1}{\sqrt{2\pi}}e^{\frac{x^2}{t^2}-\frac{x^2}{2}}dx EeX2/t2=et2x22π 1e2x2dx=2π 1et2x22x2dx

显然我们可以通过凑正态分布的概率密度的方法做积分,
e x 2 t 2 − x 2 2 = e − x 2 2 [ t 2 / ( t 2 − 2 ) ] e^{\frac{x^2}{t^2}-\frac{x^2}{2}}=e^{-\frac{x^2}{2[t^2/(t^2-2)]}} et2x22x2=e2[t2/(t22)]x2

这是正态分布 N ( 0 , t 2 t 2 − 2 ) N(0,\sqrt{\frac{t^2}{t^2-2}}) N(0,t22t2 )的密度核,于是
∫ − ∞ ∞ 1 2 π e x 2 t 2 − x 2 2 d x = t 2 t 2 − 2 ∫ − ∞ ∞ 1 2 π t 2 t 2 − 2 e x 2 t 2 − x 2 2 d x = t 2 t 2 − 2 \int_{-\infty}^{\infty} \frac{1}{\sqrt{2\pi}}e^{\frac{x^2}{t^2}-\frac{x^2}{2}}dx \\=\sqrt{\frac{t^2}{t^2-2}}\int_{-\infty}^{\infty} \frac{1}{\sqrt{2\pi}\sqrt{\frac{t^2}{t^2-2}}}e^{\frac{x^2}{t^2}-\frac{x^2}{2}}dx = \sqrt{\frac{t^2}{t^2-2}} 2π 1et2x22x2dx=t22t2 2π t22t2 1et2x22x2dx=t22t2

考虑
t 2 t 2 − 2 ≤ 2 ⇒ ∣ t ∣ ≥ 8 3 \sqrt{\frac{t^2}{t^2-2}} \le 2 \Rightarrow |t| \ge \sqrt{\frac{8}{3}} t22t2 2t38

因此 ∥ X ∥ ψ 2 = 8 3 \left\|X \right\|_{\psi_2}=\sqrt{\frac{8}{3}} Xψ2=38 ,如果 σ ≠ 1 \sigma \ne 1 σ=1,操作方法与之类似。

例 对称Bernoulli分布
假设 X X X服从对称Bernoulli分布, P ( X = 1 ) = 1 / 2 , P ( X = − 1 ) = 1 / 2 P(X=1)=1/2,P(X=-1)=1/2 P(X=1)=1/2,P(X=1)=1/2,则
E e X 2 / t 2 = 1 2 e 1 / t 2 + 1 2 e 1 / t 2 = e 1 / t 2 ≤ 2 ⇒ ∣ t ∣ ≥ 1 / ln ⁡ 2 Ee^{X^2/t^2}=\frac{1}{2}e^{1/t^2}+\frac{1}{2}e^{1/t^2} = e^{1/t^2} \le 2 \Rightarrow |t| \ge 1/\sqrt{\ln 2} EeX2/t2=21e1/t2+21e1/t2=e1/t22t1/ln2

于是 ∥ X ∥ ψ 2 = 1 / ln ⁡ 2 \left\| X \right\|_{\psi_2}=1/\sqrt{\ln 2} Xψ2=1/ln2

例 有界的分布
假设 X 2 ≤ ∥ X ∥ ∞ 2 = ( max ⁡ X ) 2 , a . s . X^2 \le \left\| X \right\|_{\infty}^2 = (\max X)^2,a.s. X2X2=(maxX)2,a.s.,则
E e X 2 / t 2 ≤ E e ∥ X ∥ ∞ 2 / t 2 ≤ 2 ⇒ ∣ t ∣ ≥ ∥ X ∥ ∞ / ln ⁡ 2 Ee^{X^2/t^2} \le Ee^{\left\| X \right\|_{\infty}^2/t^2} \le 2 \Rightarrow |t| \ge \left\| X \right\|_{\infty}/\sqrt{\ln 2} EeX2/t2EeX2/t22tX/ln2

于是 ∥ X ∥ ψ 2 = ∥ X ∥ ∞ / ln ⁡ 2 \left\| X \right\|_{\psi_2}=\left\| X \right\|_{\infty}/\sqrt{\ln 2} Xψ2=X/ln2

前两个例子介绍了准确计算亚高斯范数的方法,如果 E e X 2 / t 2 Ee^{X^2/t^2} EeX2/t2关于 t t t的表达式可以明确写出来,我们就可以通过最小化 t t t计算亚高斯范数;第三个例子介绍了当 E e X 2 / t 2 Ee^{X^2/t^2} EeX2/t2的表达式无法求出来的时候,可以通过找 E e X 2 / t 2 Ee^{X^2/t^2} EeX2/t2的上界来估计亚高斯范数。

相关推荐
©️2020 CSDN 皮肤主题: 撸撸猫 设计师:马嘣嘣 返回首页