流行学习简单入门与理解
最近博主再看西瓜書第十三章半監(jiān)督學習,文章中作者提到需要少量查詢的主動學習、K-means簇的聚類,以及流行學習。對于流行學習,博主也是第一次接觸,下面我們來簡單學習和理解一下流行學習。
1. 半監(jiān)督學習
SSL的成立依賴于模型假設,當模型假設正確時,無類標簽的樣例能夠幫助改進學習性能。SSL依賴的假設有以下三個:
1)平滑假設(Smoothness Assumption):位于稠密數(shù)據(jù)區(qū)域的兩個距離很近的樣例的類標簽相似,也就是說,當兩個樣例被稠密數(shù)據(jù)區(qū)域中的邊連接時,它們在很大的概率下有相同的類標簽;相反地,當兩個樣例被稀疏數(shù)據(jù)區(qū)域分開時,它們的類標簽趨于不同。
2)聚類假設(Cluster Assumption):當兩個樣例位于同一聚類簇時,它們在很大的概率下有相同的類標簽。這個假設的等價定義為低密度分離假設(Low Sensity Separation Assumption),即分類決策邊界應該穿過稀疏數(shù)據(jù)區(qū)域,而避免將稠密數(shù)據(jù)區(qū)域的樣例分到?jīng)Q策邊界兩側(cè)。
聚類假設是指樣本數(shù)據(jù)間的距離相互比較近時,則他們擁有相同的類別。根據(jù)該假設,分類邊界就必須盡可能地通過數(shù)據(jù)較為稀疏的地方,以能夠避免把密集的樣本數(shù)據(jù)點分到分類邊界的兩側(cè)。在這一假設的前提下,學習算法就可以利用大量未標記的樣本數(shù)據(jù)來分析樣本空間中樣本數(shù)據(jù)分布情況,從而指導學習算法對分類邊界進行調(diào)整,使其盡量通過樣本數(shù)據(jù)布局比較稀疏的區(qū)域。例如,Joachims提出的轉(zhuǎn)導支持向量機算法,在訓練過程中,算法不斷修改分類超平面并交換超平面兩側(cè)某些未標記的樣本數(shù)據(jù)的標記,使得分類邊界在所有訓練數(shù)據(jù)上最大化間隔,從而能夠獲得一個通過數(shù)據(jù)相對稀疏的區(qū)域,又盡可能正確劃分所有有標記的樣本數(shù)據(jù)的分類超平面。
3)流形假設(Manifold Assumption):將高維數(shù)據(jù)嵌入到低維流形中,當兩個樣例位于低維流形中的一個小局部鄰域內(nèi)時,它們具有相似的類標簽。
流形假設的主要思想是同一個局部鄰域內(nèi)的樣本數(shù)據(jù)具有相似的性質(zhì),因此其標記也應該是相似。這一假設體現(xiàn)了決策函數(shù)的局部平滑性。和聚類假設的主要不同是,聚類假設主要關注的是整體特性,流形假設主要考慮的是模型的局部特性。在該假設下,未標記的樣本數(shù)據(jù)就能夠讓數(shù)據(jù)空間變得更加密集,從而有利于更加標準地分析局部區(qū)域的特征,也使得決策函數(shù)能夠比較完滿地進行數(shù)據(jù)擬合。流形假設有時候也可以直接應用于半監(jiān)督學習算法中。例如,Zhu 等人利用高斯隨機場和諧波函數(shù)進行半監(jiān)督學習,首先利用訓練樣本數(shù)據(jù)建立一個圖,圖中每個結(jié)點就是代表一個樣本,然后根據(jù)流形假設定義的決策函數(shù)的求得最優(yōu)值,獲得未標記樣本數(shù)據(jù)的最優(yōu)標記;Zhou 等人利用樣本數(shù)據(jù)間的相似性建立圖,然后讓樣本數(shù)據(jù)的標記信息不斷通過圖中的邊的鄰近樣本傳播,直到圖模型達到全局穩(wěn)定狀態(tài)為止。
從本質(zhì)上說,這三類假設是一致的,只是相互關注的重點不同。其中流行假設更具有普遍性。
2. 流行學習
流形學習是個很廣泛的概念。這里我主要談的是自從2000年以后形成的流形學習概念和其主要代表方法。自從2000年以后,流形學習被認為屬于非線性降維的一個分支。眾所周知,引導這一領域迅速發(fā)展的是2000年Science雜志上的兩篇文章: Isomap and LLE (Locally Linear Embedding)。
2.1. 流形學習的英文名為manifold learning。其主要思想是把一個高維的數(shù)據(jù)非線性映射到低維,該低維數(shù)據(jù)能夠反映高維數(shù)據(jù)的本質(zhì),當然有一個前提假設就是高維觀察數(shù)據(jù)存在流形結(jié)構(gòu),其優(yōu)點是非參數(shù),非線性,求解過程簡單。
2.2. 流形學習的可行性是因為:1.從認知心理學的角度來講心理學家認為人的認知過程是基于認知流形和拓撲連續(xù)性的;2.許多高維采用數(shù)據(jù)都是由少數(shù)幾個隱變量所決定的,所以可以用少數(shù)的低維數(shù)據(jù)來刻畫高維數(shù)據(jù)。
2.3. 流形學習所需的數(shù)學背景知識:微分流形,黎曼流形,微分幾何,切向量場,拓撲空間,光滑映射等。
2.4. 經(jīng)典流形學習算法:
Isomap:等距映射。前提假設為低維空間中的歐式距離等于高維空間中的側(cè)地線距離,當然該算法具體實施時是高維空間中較近點之間的測地線距離用歐式距離代替,較遠點距離用測地線距離用最短路徑逼近。
LLE:局部線性嵌入。前提假設是數(shù)據(jù)所在的低維流形在局部是線性的,且每個采樣點均可以利用其近鄰樣本進行線性重構(gòu)表示。
LE:拉普拉斯特征映射。前提假設是在高維中很近的點投影到低維空間中的象也應該離得很近。
HLLE:局部等距映射。前提假設是如果一個流形局部等距與歐式空間中的一個開集,那么由這個流形到開集的映射函數(shù)為一個線性函數(shù),線性函數(shù)的二次混合偏導數(shù)為0,所以由hessian系數(shù)構(gòu)成的二次型也為0.
LPP:局部保留投影。在LE算法的基礎上,假設一個從原空間到流形空間的映射矩陣P,然后通過某種方法求出P,最后得到了一個顯示的投影映射。
LTSA:局部坐標表示。其基本思想是流形的局部幾何先用切坐標表示,那么流形中的每一個點處的切空間可以和歐式空間中的一個開子集建立同構(gòu),也就是切映射。
MVU:局部等距。構(gòu)造一個局部的稀疏歐式距離矩陣,同構(gòu)保持距離來學習一個核矩陣。
Logmap:側(cè)地距離和方向。思想是已知流形空間中一點的坐標和方向,通過切平面找到法坐標,形成一個指數(shù)映射。
……
??
2.5.流形學習存在的問題:
抗干擾噪聲能力差,低維空間的維數(shù)不好確定,需要存在流形結(jié)構(gòu)這一假設,采樣需要稠密采樣,測試數(shù)據(jù)的out-of-samples問題。
2.6.流形學習未來的發(fā)展方向:
提高魯棒性,可視化手段提高,低維空間維數(shù)的確定,與統(tǒng)計學習結(jié)合等。
參考:
1.半監(jiān)督學習的基本假設
2.流行學習初步理解?
3.流形學習 (Manifold Learning)
4.淺談流形學習
總結(jié)
以上是生活随笔為你收集整理的流行学习简单入门与理解的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Kettle常用的配置文件
- 下一篇: 机器学习对价格预测做模型与应用