日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

UA MATH567 高维统计 专题0 为什么需要高维统计理论?——高维统计理论的常用假设

發布時間:2025/4/14 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 UA MATH567 高维统计 专题0 为什么需要高维统计理论?——高维统计理论的常用假设 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

UA MATH567 高維統計 專題0 為什么需要高維統計理論?——高維統計理論的常用假設

延續前三講對線性判別分析的討論,在高維時,根據中心極限定理
n(Xˉ?μ)→dN(0,Id)\sqrt{n}(\bar X - \mu) \to_d N(0,I_d) n?(Xˉ?μ)d?N(0,Id?)

這說明n∥Xˉ?μ∥22→dχd2n\left\| \bar X - \mu \right\|_2^2 \to_d \chi^2_dn?Xˉ?μ?22?d?χd2?
∥Xˉ?μ∥22~dn→α>0\left\| \bar X - \mu \right\|_2^2 \sim \fracozvdkddzhkzd{n} \to \alpha >0?Xˉ?μ?22?nd?α>0

因此在高維時,正態總體的樣本均值不再是總體均值的一致估計,所以統計中基于樣本均值的方法在高維中都無法得到在經典統計中那樣好的結果。

作為計算成本與模型的performance的trade-off,我們在建立高維模型時會引入稀疏性假設:
s=∣{j:μj≠0}∣<<ds = |\{j:\mu_j \ne 0\}|<<ds={j:μj??=0}<<d

也就是大部分特征都是噪聲,只有很少的特征才是signal;引入這個假設有一些比較明顯的好處,比如我們可以去挖掘數據中的low-dimensional structure作為近似,以降低計算成本提高模型performance;同時這也降低了模型具有統計優良性的門檻。上一講我們討論了hard-threshold與soft-threshold,這兩種方法是定義數據low-dimensional structure的最簡單的方法。比如在variable selection的問題中,best subset algorithm就是hard-threshold,LASSO就是soft-threshold。soft-threshold相比hard-threshold得到的估計量更穩定,因為它是連續函數,而hard-threshold存在兩個斷點,所以估計量會依賴于斷點的位置;但soft-threshold對原估計做了shrink,所以引入了額外的bias。因此后來的penalty有一部分就在致力于結合hard-threshold、soft-threshold的優點,把noise shrink to 0,同時又盡可能保護significant signal不被shrink,比如SCAD就是一個這樣的penalty。


另一個重要的問題是threshold如何選擇。我們之前討論過極值的概率不等式
P(nXˉ(n)≤2log?d)→0P(Xˉ(n)≤2log?dn)→0P(\sqrt{n}\bar X_{(n)} \le \sqrt{2 \log d}) \to 0 \\ P(\bar X_{(n)} \le \sqrt{\frac{2 \log d}{n}}) \to 0 P(n?Xˉ(n)?2logd?)0P(Xˉ(n)?n2logd??)0

因此,如果我們取threshold為2log?dn\sqrt{\frac{2 \log d}{n}}n2logd??,則當μj=0\mu_j=0μj?=0時,它的hard-threshold估計會依概率1一致收斂到0,這就是上一講取λ=2log?dn\lambda = \sqrt{\frac{2 \log d}{n}}λ=n2logd??的理由。如果μj≠0\mu_j \ne 0μj??=0,并且d<enα,α<1d<e^{n^{\alpha}},\alpha<1d<enα,α<1,則2log?dn→0\sqrt{\frac{2 \log d}{n}} \to 0n2logd??0,也就是說signal不會被shrink to 0。

在矩陣與張量中也可以引入low dimensional structure,常用的思路有這幾種:對角陣(比如Nearest Shrunken Centroids)、稀疏性、low rank approximation、low rank+sparse等。


經過專題0的討論,現在我們可以根據特征的維數來理解統計理論了。如果d=o(n)d=o(\sqrt{n})d=o(n?),這就是傳統統計理論的范疇;如果d~nd \sim ndn或者d>nd>nd>n,這就是現代統計或者說高維統計理論的范疇;如果d~enαd \sim e^{n^{\alpha}}denα,這就是ultra-high dimensional理論的范疇。

總結

以上是生活随笔為你收集整理的UA MATH567 高维统计 专题0 为什么需要高维统计理论?——高维统计理论的常用假设的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。