统计学习概论
統(tǒng)計學習的定義
統(tǒng)計學習(statistical learning):關于計算機基于數(shù)據(jù)構建概率統(tǒng)計模型并運用模型對數(shù)據(jù)進行預測與分析的一門學科。統(tǒng)計學習也稱為統(tǒng)計機器學習。
統(tǒng)計學習的特點
特點
統(tǒng)計學習以計算機機網(wǎng)絡為平臺,是建立在計算機網(wǎng)絡之上的;
統(tǒng)計學習以數(shù)據(jù)為研究對象,是數(shù)據(jù)驅動的學科;
統(tǒng)計學習的目的是對數(shù)據(jù)進行預測和分析;
統(tǒng)計學習以方法為中心,統(tǒng)計學習方法構建模型并應用模型進行預測與分析;
統(tǒng)計學習是概率論、統(tǒng)計學、信息論、計算理論、最優(yōu)化理論及計算機科學等多個領域的交叉學科,并且在發(fā)展中逐步形成獨自的理論體系與方法論。
學習的定義:如果一個系統(tǒng)能夠能夠執(zhí)行某個過程改進它的性能,這就是學習。按照這一觀點,統(tǒng)計學習就是計算機系統(tǒng)通過運用數(shù)據(jù)及統(tǒng)計方法提高系統(tǒng)性能的機器學習。現(xiàn)在,當人們提及機器學習時,往往是指機器學習。
統(tǒng)計學習的對象
統(tǒng)計學習的對象是數(shù)據(jù)(data),它從數(shù)據(jù)出發(fā),提取數(shù)據(jù)的特征,抽象出數(shù)據(jù)的模型,發(fā)現(xiàn)數(shù)據(jù)中的知識,又回到對數(shù)據(jù)的分析與預測中去,作為統(tǒng)計學習的對象,數(shù)據(jù)是多樣的,包括存在于計算機及網(wǎng)絡上的各種數(shù)字、文字、圖像、視頻、音頻數(shù)據(jù)以及它們的組合。
統(tǒng)計學習關于數(shù)據(jù)的基本假設是同類數(shù)據(jù)具有一定的統(tǒng)計規(guī)律性,這是統(tǒng)計學習的前提。這里的同類數(shù)據(jù)是指某種共同性質的數(shù)據(jù)。由于他們具有統(tǒng)計規(guī)律性,所以可以用概率統(tǒng)計方法加以處理。
統(tǒng)計學習的目的
統(tǒng)計學習用于對數(shù)據(jù)進行預測與分析,特別是對未知新數(shù)據(jù)進行預測與分析。對數(shù)據(jù)的預測可以是計算機更加智能化,或者說使計算機的某些性能得到提高;對數(shù)據(jù)的分析可以讓人們獲得新的知識,給人們帶來新的發(fā)現(xiàn)。
對數(shù)據(jù)的預測與分析是通過構建概率統(tǒng)計模型實現(xiàn)的。統(tǒng)計學習總的目標就是考慮學習什么樣的模型和如何學習模型,以使模型能對數(shù)據(jù)進行準確的預測與分析,同時也要考慮盡可能地提高學習效率。
統(tǒng)計學習的分類
監(jiān)督學習(supervised learning ):任務是學習一個模型,使模型能夠對任意給定的輸入,對其相應的輸出做出一個好的預測(注意此處的輸入輸出指的是某個系統(tǒng)的輸入輸出,與學習的輸入輸出不同)。監(jiān)督學習是極其重要的統(tǒng)計學習的分支,也是統(tǒng)計學習中內容最豐富的、應用最廣泛的部分。
分類問題:監(jiān)督學習核心問題,在監(jiān)督學習中,當輸出變量取有限個離散值時,預測問題就變成了分類問題。這時,輸入X可以是離散,也可以是連續(xù)的。監(jiān)督學習從數(shù)據(jù)中學習一個分類模型或分類決策函數(shù),稱為分類器。分類器對新的輸入進行輸出的預測,稱為分類,可能的輸出稱為類。分類的類別為多個時(多于兩個),稱為多類分類問題。
標注問題:是分類問題的一個推廣,標注問題是一個更復雜的結構預測問題的簡單形式。標注問題的輸入是一個觀測序列,輸出是一個標記序列或狀態(tài)序列。
注意,可能的標記個數(shù)是有限的,但其組合所成的標記序列的個數(shù)是依序長度呈指數(shù)級增長的。
回歸問題:函數(shù)擬合.
非監(jiān)督學習(unsupervised learning):輸出未明,作為監(jiān)督與增強學習的預處理。
- 半監(jiān)督學習(semi-supervised learning)
- 強化學習(又稱增強學習,reinforcement learning):輸出行為,經(jīng)過行為獲得回報最優(yōu),有延遲,訓練較難。
統(tǒng)計學習的方法
統(tǒng)計學習方法三要素,方法=模型+策略+算法。下面以監(jiān)督學習中的統(tǒng)計學習三要素為例說明,非監(jiān)督學習、強化學習也同樣擁有這三要素,可以說構建一種統(tǒng)計學習方法就是具體的統(tǒng)計學習三要素。
模型:監(jiān)督學習過程中,模型就是所要學習的條件概率分布或決策函數(shù)。模型的假設空間 包含所有可能的條件概率分布 或 決策函數(shù)。
本書中稱由決策函數(shù)表示的模型為非概率模型,有條件概率表示的模型為概率模型。
策略:有了模型的假設空間,統(tǒng)計學習接著需要考慮的是按照什么樣的準則學習或者選擇最優(yōu)的模型,統(tǒng)計學習的目標在于從假設空間中選取最優(yōu)的模型。引入 損失函數(shù)與風險函數(shù)的概念,損失函數(shù)度量模型一次預測的好壞,風險函數(shù)度量平均意義下模型預測的好壞。損失函數(shù)值越小,模型就越好平均意義下的損失,稱為風險函數(shù)或期望損失,學習的目標就是選擇期望風險最小的模型。期望風險是模型關于聯(lián)合分布的期望損失, 經(jīng)驗風險是模型關于訓練樣本集的平均損失。根據(jù)大數(shù)定理,當樣本容量N趨于無窮時,經(jīng)驗風險趨于期望風險。由于現(xiàn)實中訓練樣本數(shù)目有限,甚至很小,所以用經(jīng)驗風險估計期望風險常常不理想,要對經(jīng)驗風險進行一定的矯正,這就關系到監(jiān)督學習的兩個基本策略: 經(jīng)驗風險最小化和結構風險最小化(結構風險最小化是為了防止過擬合提出來的策略)。
算法:學習模型的具體計算方法。統(tǒng)計學習基于訓練數(shù)據(jù)集,根據(jù)學習策略,從假設空間中選擇最優(yōu)的模型,最后需要考慮用什么樣的計算方法求解最優(yōu)的模型。
統(tǒng)計學習的研究
統(tǒng)計學習研究一般包括統(tǒng)計學習方法、統(tǒng)計學習理論及統(tǒng)計學習應用三個方面。統(tǒng)計學習方法的研究旨在開發(fā)新的學習方法;統(tǒng)計學習理論的研究在于探求統(tǒng)計學習方法的有效性與效率,以及統(tǒng)計學習的基本理論問題;統(tǒng)計學習的研究主要考慮將統(tǒng)計學習方法應用到實際問題中去,解決實際問題。
統(tǒng)計學習的重要性
近20年來,統(tǒng)計學習無論在理論還是在應用方面度得到了巨大的發(fā)展,有許多重大突破,統(tǒng)計學習已被成功地應用到人工智能、模式識別、數(shù)據(jù)挖掘、自然語言處理、語音識別、圖像識別、信息檢索和生物信息等許多計算機應用領域中,并且稱為這些領域的核心技術。人們確信,統(tǒng)計學習將會在今后的科學發(fā)展和技術應用中發(fā)揮越來越大的作用。
統(tǒng)計學習學科在科學技術中的重要性體現(xiàn)在以下幾個方面:
(1)處理海量數(shù)據(jù)
(2)計算機智能化
(3)計算機科學發(fā)展的一個重要組成部分
模型評估與模型選擇
模型評估
- 訓練誤差與測試誤差
統(tǒng)計學習的目的是學到的模型不僅對已知數(shù)據(jù)而且對位置數(shù)據(jù)都能有很好的預測能力。不同的學習方法會給出不同的模型,當損失函數(shù)給定時,基于損失函數(shù)的模型的訓練誤差和模型的測試誤差就自然成為學習方法評估的標準。
統(tǒng)計學習方法具有采用的損失函數(shù)未必是評估時使用的損失函數(shù),當然,兩者一致是比較理想的。
訓練誤差的大小,對判斷給定的問題是不是一個容易學習的問題是有意義的,但本質上不重要。測試誤差反應學習方法對未知的測試數(shù)據(jù)集的預測能力,是學習中重要概念,顯然,給定兩種學習方法,測量誤差小的方法具有更好的預測能力,是更有效的方法。通常將學習方法對未知數(shù)據(jù)的預測能力稱為泛化能力。
模型選擇
- 過擬合和模型選擇
當假設空間含有不同復雜度(如不同的參數(shù)個數(shù))的模型時,就要面臨模型選擇的問題。我們希望選擇或學習一個合適的模型。如果在假設空間中存在“真”模型,那么所選擇的模型應該逼近模型。具體地,所選擇的模型要與真模型的參數(shù)個數(shù)相同,所選擇模型的參數(shù)向量與真模型的參數(shù)向量相近。
過擬合:如果一味追求提高對訓練數(shù)據(jù)的預測能力,所選模型的復雜度則往往會比真模型高,這種現(xiàn)象稱為過擬合(over-fitting)。過擬合是指學習時選擇的模型所包含的參數(shù)過多,以致于出現(xiàn)這一模型對已知數(shù)據(jù)預測的很好,但對未知數(shù)據(jù)預測很差的現(xiàn)象。可以說模型選擇旨在避免過擬合并提高模型的預測能力。
模型選擇方法
正則化
定義:結構風險最小化策略的實現(xiàn),是在經(jīng)驗風險上加上一個正則化項(regularization)或罰項(penalty term)。正則化項一般是模型復雜度的單調遞增函數(shù),模型越復雜,正則化值就越大。
正則化的作用是選擇經(jīng)驗風險和模型復雜度同時較小的模型。
正則化符合Occam’s razor原理,該原理應用于模型選擇時變?yōu)橐韵孪敕?#xff1a;在所有可能選擇的模型中,能夠很好地解釋已知數(shù)據(jù)并且十分簡單才是最好的模型,也就是應選擇的模型 。從貝葉斯估計的角度看,正則化項對應于模型的先驗概率,可以假設復雜的模型有較小的先驗概率,簡單的模型有較大的先驗概率。
具體可參考:機器學習之正則化
交叉驗證
提出背景:如果給定的樣本數(shù)據(jù)充足,進行模型選擇的一種簡單方法是隨機地將數(shù)據(jù)集切分成三部分,分為
訓練集(training set),用來訓練模型;
驗證集(validation set),用于模型選擇;
測試集(test set),用于最終對學習方法的評估。
在學習到不同復雜度模型中,選擇對驗證集有最小預測誤差的模型,由于驗證集有足夠多的數(shù)據(jù),用它對模型進行選擇也是有效的。但是在很多實際應用中數(shù)據(jù)是不充足的。為了選擇好的模型,可以采用交叉驗證方法,交叉驗證方法的基本思想是重復地使用數(shù)據(jù);把給定的數(shù)據(jù)進行切分,將切分的數(shù)據(jù)集組合為訓練集與測試集,在此基礎上反復地進行先練、測試以及模型選擇。
分類
簡單交叉驗證:將數(shù)據(jù)集隨機分為訓練集和測試集。
K-折交叉驗證:將數(shù)據(jù)等分為K份,每一部分都作為作為一次的測試集,計算k次求得的分類率的平均值,作為該模型或者假設函數(shù)的真實分類率。。示意圖如下:
留一交叉驗證:每次只留下一個樣本做測試集,其它樣本做訓練集,如果有k個樣本,則需要訓練k次,測試k次。留一發(fā)計算最繁瑣,但樣本利用率最高。適合于小樣本的情況。
參考資料:2012.李航著.《統(tǒng)計學習方法》
總結
- 上一篇: 空间谱专题07:干涉仪仿真思路
- 下一篇: 空间谱专题08:相位模糊