UA MATH567 高维统计I 概率不等式7 亚指数性与亚指数分布

UA MATH567 高维统计I 概率不等式7 亚指数分布与亚指数范数

第三讲到第六讲讨论了亚高斯分布,这类分布的尾部概率满足
P ( ∣ X ∣ ≥ t ) ≲ e − t 2 / 2 P(|X| \ge t) \lesssim e^{-t^2/2} P(Xt)et2/2

随着 t t t增长,尾部概率下降的速率是非常大的,另一个与之类似的分布族是亚指数分布,这类分布的尾部概率满足
P ( ∣ X ∣ ≥ t ) ≲ e − t P(|X| \ge t) \lesssim e^{-t} P(Xt)et

这个尾部概率下降的概率比亚高斯分布尾部概率下降得更慢,所以亚指数分布族包含的分布比亚高斯分布族包含的分布更多。这一讲我们讨论亚指数性。

亚指数性 (sub-exponential property)

  1. 尾部概率条件: P ( ∣ X ∣ ≥ t ) ≤ 2 exp ⁡ ( − t / K 1 ) , ∀ t ≥ 0 P(|X|\ge t) \le 2\exp(-t/K_1),\forall t\ge 0 P(Xt)2exp(t/K1),t0
  2. 矩条件: ∥ X ∥ L p ≤ K 2 p , ∀ p ≥ 1 \left\| X \right\|_{L^p} \le K_2p,\forall p \ge 1 XLpK2p,p1
  3. 矩母函数条件: E e λ ∣ X ∣ ≤ exp ⁡ ( K 3 λ ) , ∀ 0 < λ ≤ 1 / K 3 Ee^{\lambda |X|} \le \exp(K_3\lambda),\forall 0<\lambda \le 1/K_3 EeλXexp(K3λ),0<λ1/K3
  4. 矩母函数上界: E e ∣ X ∣ / K 4 ≤ 2 Ee^{|X|/K_4} \le 2 EeX/K42
  5. 矩母函数又一个条件: E e λ X ≤ exp ⁡ ( K 5 2 λ 2 ) , ∀ λ , ∣ λ ∣ ≤ 1 / K 5 , E X = 0 Ee^{\lambda X} \le \exp(K_5^2 \lambda^2),\forall \lambda, |\lambda| \le 1/K_5, EX=0 EeλXexp(K52λ2),λ,λ1/K5,EX=0

称满足这五条性质的分布叫亚指数分布(sub-exponential distribution)与亚高斯性类似,前四个性质等价性的证明与亚高斯分布类似(1推2,2推3,3推4,4推1),这里介绍一下第五条性质与其他性质的等价性(亚高斯性是3推5,5推1;亚指数性我们用5推2,2推5)。

2推5
假设性质2成立,取 K 2 = 1 K_2=1 K2=1,考虑 E e λ X Ee^{\lambda X} EeλX,假设 E X = 0 EX=0 EX=0,做Taylor展开,
E e λ X = E [ 1 + λ X + ∑ p = 2 ∞ ( λ X ) p p ! ] = 1 + ∑ p = 2 ∞ λ p E [ X p ] p ! Ee^{\lambda X} = E \left[ 1+\lambda X + \sum_{p=2}^{\infty} \frac{(\lambda X)^p}{p!} \right]=1+\sum_{p=2}^{\infty} \frac{\lambda^pE[X^p]}{p!} EeλX=E[1+λX+p=2p!(λX)p]=1+p=2p!λpE[Xp]

性质2说明
E [ X p ] ≤ p p , ∀ p ≥ 1 E[X^p] \le p^p,\forall p \ge 1 E[Xp]pp,p1

根据Stirling公式,
p ! ≥ ( p / e ) p p! \ge (p/e)^p p!(p/e)p

于是,当 ∣ e λ ∣ < 1 |e\lambda|<1 eλ<1
E e λ X ≤ 1 + ∑ p = 2 ∞ λ p p p ( p / e ) p = 1 + ∑ p = 2 ∞ ( e λ ) p = 1 + ( e λ ) 2 1 − e λ Ee^{\lambda X} \le 1+\sum_{p=2}^{\infty} \frac{\lambda^pp^p}{(p/e)^p}=1+\sum_{p=2}^{\infty}(e\lambda)^p=1+\frac{(e\lambda)^2}{1-e\lambda} EeλX1+p=2(p/e)pλppp=1+p=2(eλ)p=1+1eλ(eλ)2

∣ e λ ∣ < 1 / 2 |e\lambda|<1/2 eλ<1/2时,
1 + ( e λ ) 2 1 − e λ ≤ 1 + 2 ( e λ ) 2 ≤ e 2 e 2 λ 2 1+\frac{(e\lambda)^2}{1-e\lambda} \le 1+2(e\lambda)^2 \le e^{2e^2\lambda^2} 1+1eλ(eλ)21+2(eλ)2e2e2λ2

于是

E e λ X ≤ e 2 e 2 λ 2 , ∀ ∣ λ ∣ < 1 / 2 e Ee^{\lambda X} \le e^{2e^2\lambda^2},\forall |\lambda|<1/2e EeλXe2e2λ2,λ<1/2e

5推2 假设性质5成立,取 K 5 = 1 K_5=1 K5=1,根据不等式
∣ x ∣ p ≤ p p ( e x + e − x ) , ∀ x ∈ R , p > 0 |x|^p \le p^p(e^x+e^{-x}),\forall x \in \mathbb{R},p >0 xppp(ex+ex),xR,p>0

我们可以得到期望的估计:
E ∣ X ∣ p ≤ p p ( E e X + E e − X ) E|X|^p \le p^p(Ee^X+Ee^{-X}) EXppp(EeX+EeX)

性质5说明
E e X ≤ e , E e − X ≤ e Ee^X \le e,Ee^{-X} \le e EeXe,EeXe

所以
E ∣ X ∣ p ≤ 2 e p p E|X|^p \le 2ep^p EXp2epp

这就验证了 K 2 = 2 e K_2=2e K2=2e时性质2成立。


例 亚指数分布的应用
在判别分析、特征选择等统计学习模型中,我们总是需要对特征 X = ( X 1 , ⋯   , X p ) T X=(X_1,\cdots,X_p)^T X=(X1,,Xp)T的协方差矩阵 Σ \Sigma Σ进行估计,记估计量为 Σ ^ \hat \Sigma Σ^,目标是这个估计量与真实的协方差不要差别太大,也就是二者之差的某个范数 ∥ Σ ^ − Σ ∥ \left\| \hat \Sigma - \Sigma \right\| Σ^Σ需要足够小。

Σ ^ \hat \Sigma Σ^并不是一个确定的值,它是一个随机变量,所以一种保证 ∥ Σ ^ − Σ ∥ \left\| \hat \Sigma - \Sigma \right\| Σ^Σ足够小的充分条件是 Σ ^ \hat \Sigma Σ^的每一个元素 σ ^ i j \hat \sigma_{ij} σ^ij的分布都尽量集中在对应的真实值 σ i j \sigma_{ij} σij附近,也就是
P ( ∣ σ ^ i j − σ i j ∣ ) P(|\hat \sigma_{ij}-\sigma_{ij}|) P(σ^ijσij)

这个概率要足够的小。

一种非常常用的协方差的估计是
σ ^ i j = X i T X j n \hat \sigma_{ij} = \frac{X_i^TX_j}{n} σ^ij=nXiTXj

这里 n n n表示样本量,如果 X X X是高斯的,则我们下一讲会证明, X i T X j X_i^TX_j XiTXj是亚指数分布,于是我们可以用亚指数性来研究概率 P ( ∣ σ ^ i j − σ i j ∣ ) P(|\hat \sigma_{ij}-\sigma_{ij}|) P(σ^ijσij)的大小。

相关推荐
©️2020 CSDN 皮肤主题: 撸撸猫 设计师:马嘣嘣 返回首页