日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

UA MATH574M 统计学习V Variable Selection简介

發(fā)布時間:2025/4/14 编程问答 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 UA MATH574M 统计学习V Variable Selection简介 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

UA MATH574M 統(tǒng)計學習V Variable Selection簡介

  • 兩個基礎方法
    • Ranking Variables
    • Best Subset Algorithm
  • 對基礎方法的改進
    • Generalized Information Criteria (GIC)
    • Search Method
      • Forward Selection
      • Backward Elimination

Variable selection的目標是從所有的predictor中選擇一個子集,這個子集具有所有的predictor的大部分解釋力,同時又能顯著減少model fitting的計算成本。先定義一些符號: {(Xi,Yi)}i=1n\{(X_i,Y_i)\}_{i=1}^n{(Xi?,Yi?)}i=1n?是數(shù)據(jù)集, Xi∈RdX_i\in \mathbb{R}^dXi?Rdddd的含義是predictor的數(shù)目,假設這些數(shù)目的index set為 S={1,2,?,d}S=\{1,2,\cdots,d\}S={1,2,?,d},用某種算法選擇的index subset記為 AAA。如果用線性模型來fit這些數(shù)據(jù),假設系數(shù)為 β\betaβ,真實系數(shù)為 β0\beta_0β0?,真實模型的index set為 A0A_0A0?

兩個基礎方法

Ranking Variables

記每一個predictor為xi,i=1,?,dx_i,i=1,\cdots,dxi?,i=1,?,d,dependent variable的數(shù)據(jù)為yyy。假設xix_ixi?yyy已經(jīng)做了centered,并且xjTxk=0,j≠kx_j^Tx_k=0,j \ne kxjT?xk?=0,j?=k(正交設計),則
β^=xjTyxjTxj,j=1,?,d\hat{\beta} = \frac{x_j^Ty}{x_j^Tx_j},j=1,\cdots,dβ^?=xjT?xj?xjT?y?,j=1,?,d
因為設計矩陣的各列正交,因此XTXX^TXXTX是對角陣,由此可以寫出上面這個系數(shù)估計。定義
tj=β^j∣∣xj∣∣1/2/σ^t_j = \hat{\beta}_j ||x_j||^{1/2}/\hat{\sigma} tj?=β^?j?xj?1/2/σ^
由此計算回歸平方和為
SSR=(Xβ^)T(Xβ^)=∑i=1dβ^j2∣∣xj∣∣2=∑i=1dσ^2tj2=∑j=1dRj2SSR = (X \hat{\beta})^T (X \hat{\beta})=\sum_{i=1}^d \hat{\beta}_j^2 ||x_j||^2=\sum_{i=1}^d \hat{\sigma}^2 t_j^2 = \sum_{j=1}^d R_j^2 SSR=(Xβ^?)T(Xβ^?)=i=1d?β^?j2?xj?2=i=1d?σ^2tj2?=j=1d?Rj2?
模型的可決系數(shù)為
R2=SSRSST=1SST∑j=1dRj2R^2 = \frac{SSR}{SST} = \frac{1}{SST} \sum_{j=1}^d R_j^2R2=SSTSSR?=SST1?j=1d?Rj2?
RjR_jRj?或者tjt_jtj?都可以理解為第jjj個predictor在回歸模型中的解釋力,按任何一個從大到小的順序可以用來給predictor排個序,用來做variable selection。這個想法非常直觀,但只適用于正交設計,實際上大多數(shù)問題的predictor都不會是正交的,所以這個方法只能作為一個基準。

Best Subset Algorithm

這個算法的思想很簡單,并且不需要正交設計的條件。我們可以把full index setS={1,2,?,d}S=\{1,2,\cdots,d\}S={1,2,?,d}的所有subset對應的模型都fit并且evaluate一下,找到最優(yōu)的那個就好。然而它所有的子集數(shù)目為2d2^d2d,這意味著要遍歷所有的子集找出最優(yōu)的一個,需要做2d2^d2d次model fitting,顯然這是個NP問題。另外evaluate的方法可能造成overfitting,比如用殘差平方和來evaluate,實際上使用的predictor數(shù)目越多,殘差平方和肯定是會下降了,所以模型傾向于多用predictor,造成overfitting。要解決overfitting的問題比較簡單,因為用統(tǒng)計方法直接做的話相當于只做了最小化training error,而沒有對model size做penalty,因此加上對model size的penalty可以改進這個不足。

對基礎方法的改進

Generalized Information Criteria (GIC)

定義GIC為:
GIC=trainingerror+αd.f.GIC = training\ error + \alpha d.f.GIC=training?error+αd.f.
其中d.f.d.f.d.f.是模型的自由度,則最優(yōu)的subsets具有最小的GIC。第一項考慮的就是training error,不看第二項的時候第一項與監(jiān)督學習的問題是完全一樣的,α\alphaα是對model size的penalty,加上第二項說明我們需要在最小化training error的情況下盡量讓model size比較小。經(jīng)典的criteria是AIC和BIC。AIC的定義是
AIC=nln?Remp(f)+2d.f.AIC=n\ln R_{emp}(f) + 2d.f.AIC=nlnRemp?(f)+2d.f.
BIC的定義是
BIC=nln?Remp(f)+d.f.ln?nBIC=n\ln R_{emp}(f) + d.f. \ln nBIC=nlnRemp?(f)+d.f.lnn
事實上,BIC具有一致性,即樣本量趨近無窮時,BIC決定的結果趨近于真實模型。但樣本數(shù)沒有那么多的時候,BIC和AIC各有優(yōu)劣。但要用線性模型來近似真實模型時(真實模型不在model set里面),AIC決定的結果是最優(yōu)近似。因此,實際應用的時候兩個都會計算一下,比較結果會不會差很多。當樣本量稍微大一點的時候,即lnn>2ln n>2lnn>2時,BIC penalizes more on model size,所以當candidate mode set比較大的時候,BIC比AIC好,因為BIC選擇出來的結果會更sparse。

Search Method

解決了penalty之后接下來就是NP問題,Furnival and Wilson(1974)指出d≤40d \le 40d40的時候best subset algorithm是有效的。當ddd比較大時,要解決這個NP問題可以用search method(或者叫greedy method),即找出一條path,只需要遍歷這條path上的subset就可以了。常用的search method有三種:forward selection、backward elimination、stepwise selection。這一類方法的優(yōu)勢比較明顯,簡單直觀可能實現(xiàn)更低的prediction error,但也可能得到局部最優(yōu),并且這類方法沒有理論支撐,即沒有BIC那種一致性。下面兩種方法的示例可以看回歸那個系列的文章。

Forward Selection

Forward Selection能夠把遍歷的subset的數(shù)目從2d2^d2d減少為∑i=1d=Cd2\sum_{i=1}^d = C_d^2i=1d?=Cd2?。它的思想非常簡單,首先比較所有的ddd個predictor,選出最優(yōu)的一個,然后比較最優(yōu)的這個predictor和其他d?1d-1d?1個predictor,選出最優(yōu)的一組,然后比較這一組predictor和其他d?2d-2d?2個predictor組成的三個predictor的組合,選出最優(yōu)的一組。。。關于每次新加的那個predictor值不值得加還可以再用F檢驗(廣義線性檢驗方法,參考回歸那個系列)來做一下,如果沒法拒絕原假設還可以再少考慮一個subset。最后evaluate模型可以用AIC或者BIC。

Backward Elimination

Backward Elimination也能夠把遍歷的subset的數(shù)目從2d2^d2d減少為Cd2C_d^2Cd2?。它的想法和Forward Selection正好相反,它從full model出發(fā),逐步減少predictor,還是用廣義線性檢驗方法判斷該不該減少。用AIC、BIC來evaluate模型。

在具體應用的時候,Backward Elimination從最復雜的模型開始計算,Forward Selection從最簡單的模型開始計算,所以計算上Forward Selection要更便捷一點。但這兩種方法都有個缺點,如果在判斷的時候錯誤地刪除了一個變量,它們都無法改正回來。因此又提出了Stepwise Selection,就是允許每一步添加或者刪除一個predictor,相當于結合了這兩種方法,從而可以修改錯誤判斷。

總結

以上是生活随笔為你收集整理的UA MATH574M 统计学习V Variable Selection简介的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 黄色成人毛片 | 日韩资源在线 | 精品无码av一区二区三区不卡 | 亚洲三区在线观看无套内射 | 看黄色一级大片 | 蜜桃99视频一区二区三区 | av在线资源 | 亚洲一区中文字幕在线观看 | 熊出没之冬日乐翻天免费高清观看 | 国产免费看黄 | 欧美韩日国产 | 久久精品国产一区二区电影 | 超碰成人免费在线 | 91久久精 | 亚洲第一黄色网址 | 奇米婷婷| 成人免费视频软件网站 | 天天色一色 | 亚洲一区二区三区四区 | 欧美日本在线视频 | 91香蕉视频污污 | 成人午夜影视 | 激情黄色小说视频 | 妺妺窝人体色www婷婷 | 一区二区中文字幕在线观看 | 九九av | 国产精品国产三级国产三级人妇 | 日韩精品一区二区三区四区五区 | 精品一区二区三区在线播放 | 啪啪网站免费观看 | 中文字幕无码乱码人妻日韩精品 | 欧美一级视频免费观看 | 亚洲成a人在线观看 | 拍真实国产伦偷精品 | 国产日韩综合 | 男女做那个视频 | 日本香蕉网 | 99在线精品免费视频 | 国产精品国语对白 | 三级91| 欧美在线视频一区二区 | 自拍视频网址 | 五月婷网站 | 性色影院 | 99久久久精品免费观看国产 | av成人毛片 | 国产精品你懂的 | 日本熟妇毛茸茸丰满 | 操操久久 | 成人免费视屏 | 欧美性xxxx| 国产肉体ⅹxxx137大胆 | 人人91| www.rihan| 中文字幕第22页 | 天堂影院一区二区 | 深夜福利一区二区三区 | 武侠古典av| 亚洲综合第一区 | 香蕉视频影院 | 久久午夜影视 | 久久久久无码国产精品一区李宗瑞 | 成年人黄视频 | 亚洲精品国产精品乱码不99 | 怡红院一区二区三区 | 久久久久久久久久av | 国产精品视频一区二区三区, | 亚洲97在线| 大尺度床戏揉捏胸视频 | 青青青国产视频 | 欧美操老女人 | 欧美日韩一二三四区 | 国产va在线观看 | 国产素人自拍 | 男人干女人视频 | 红桃视频国产精品 | 曰本黄色片 | 69av一区二区三区 | 熟女一区二区三区四区 | 三级做爰在线观看视频 | 成人午夜精品一区二区三区 | 久热亚洲| 啦啦啦免费高清视频在线观看 | 国产伦一区二区三区 | 一级全黄毛片 | 精品一区二区久久久久蜜桃 | 亚洲视频免费观看 | 亚洲精品视频在线免费 | 国产老女人精品毛片久久 | 欧美激情精品久久 | 懂色av一区二区三区四区 | 激情视频免费在线观看 | 一级片福利| 激情欧美一区二区免费视频 | 手机看片1024欧美 | 色噜噜网站 | 国产3级在线 | 手机看片日韩在线 | 孕妇毛片 |