UA MATH567 高维统计 专题0 为什么需要高维统计理论?——高维统计理论的常用假设

UA MATH567 高维统计 专题0 为什么需要高维统计理论?——高维统计理论的常用假设

延续前三讲对线性判别分析的讨论,在高维时,根据中心极限定理
n ( X ˉ − μ ) → d N ( 0 , I d ) \sqrt{n}(\bar X - \mu) \to_d N(0,I_d) n (Xˉμ)dN(0,Id)

这说明 n ∥ X ˉ − μ ∥ 2 2 → d χ d 2 n\left\| \bar X - \mu \right\|_2^2 \to_d \chi^2_d nXˉμ22dχd2
∥ X ˉ − μ ∥ 2 2 ∼ d n → α > 0 \left\| \bar X - \mu \right\|_2^2 \sim \frac{d}{n} \to \alpha >0 Xˉμ22ndα>0

因此在高维时,正态总体的样本均值不再是总体均值的一致估计,所以统计中基于样本均值的方法在高维中都无法得到在经典统计中那样好的结果。

作为计算成本与模型的performance的trade-off,我们在建立高维模型时会引入稀疏性假设:
s = ∣ { j : μ j ≠ 0 } ∣ < < d s = |\{j:\mu_j \ne 0\}|<<d s={j:μj=0}<<d

也就是大部分特征都是噪声,只有很少的特征才是signal;引入这个假设有一些比较明显的好处,比如我们可以去挖掘数据中的low-dimensional structure作为近似,以降低计算成本提高模型performance;同时这也降低了模型具有统计优良性的门槛。上一讲我们讨论了hard-threshold与soft-threshold,这两种方法是定义数据low-dimensional structure的最简单的方法。比如在variable selection的问题中,best subset algorithm就是hard-threshold,LASSO就是soft-threshold。soft-threshold相比hard-threshold得到的估计量更稳定,因为它是连续函数,而hard-threshold存在两个断点,所以估计量会依赖于断点的位置;但soft-threshold对原估计做了shrink,所以引入了额外的bias。因此后来的penalty有一部分就在致力于结合hard-threshold、soft-threshold的优点,把noise shrink to 0,同时又尽可能保护significant signal不被shrink,比如SCAD就是一个这样的penalty。

在这里插入图片描述
另一个重要的问题是threshold如何选择。我们之前讨论过极值的概率不等式
P ( n X ˉ ( n ) ≤ 2 log ⁡ d ) → 0 P ( X ˉ ( n ) ≤ 2 log ⁡ d n ) → 0 P(\sqrt{n}\bar X_{(n)} \le \sqrt{2 \log d}) \to 0 \\ P(\bar X_{(n)} \le \sqrt{\frac{2 \log d}{n}}) \to 0 P(n Xˉ(n)2logd )0P(Xˉ(n)n2logd )0

因此,如果我们取threshold为 2 log ⁡ d n \sqrt{\frac{2 \log d}{n}} n2logd ,则当 μ j = 0 \mu_j=0 μj=0时,它的hard-threshold估计会依概率1一致收敛到0,这就是上一讲取 λ = 2 log ⁡ d n \lambda = \sqrt{\frac{2 \log d}{n}} λ=n2logd 的理由。如果 μ j ≠ 0 \mu_j \ne 0 μj=0,并且 d < e n α , α < 1 d<e^{n^{\alpha}},\alpha<1 d<enα,α<1,则 2 log ⁡ d n → 0 \sqrt{\frac{2 \log d}{n}} \to 0 n2logd 0,也就是说signal不会被shrink to 0。

在矩阵与张量中也可以引入low dimensional structure,常用的思路有这几种:对角阵(比如Nearest Shrunken Centroids)、稀疏性、low rank approximation、low rank+sparse等。


经过专题0的讨论,现在我们可以根据特征的维数来理解统计理论了。如果 d = o ( n ) d=o(\sqrt{n}) d=o(n ),这就是传统统计理论的范畴;如果 d ∼ n d \sim n dn或者 d > n d>n d>n,这就是现代统计或者说高维统计理论的范畴;如果 d ∼ e n α d \sim e^{n^{\alpha}} denα,这就是ultra-high dimensional理论的范畴。

已标记关键词 清除标记
相关推荐
©️2020 CSDN 皮肤主题: 撸撸猫 设计师:C马雯娟 返回首页