k 近邻降维
k 近鄰(k-Nearest Neighbor,簡稱 kNN)學(xué)習(xí)是一種常用的監(jiān)督學(xué)習(xí)方法, 其工作機(jī)制非常簡單: 給定測試樣本?基于某種距離度量找出訓(xùn)練集中與其最 靠近的 k 個(gè)訓(xùn)練樣本,然后基于這 k 個(gè)"鄰居"的信息來進(jìn)行預(yù)測. 通常, 在分 類任務(wù)中可使用"投票法" 即選擇這 k 個(gè)樣本中出現(xiàn)最多的類別標(biāo)記作為預(yù) 測結(jié)果;在回歸任務(wù)中時(shí)使用"平均法" ,即將這 k 個(gè)樣本的實(shí)值輸出標(biāo)記的 平均值作為預(yù)測結(jié)果;還可基于距離遠(yuǎn)近進(jìn)行加權(quán)平均或加權(quán)投票,距離越近 的樣本權(quán)重越大.
與前面介紹的學(xué)習(xí)方法相比, k 近鄰學(xué)習(xí)有一個(gè)明顯的不同之處: 它似乎 沒有顯式的訓(xùn)練過程!事實(shí)上,它是"懶惰學(xué)習(xí)" (lazy learning)的著名代表, 此類學(xué)習(xí)技術(shù)在訓(xùn)練階段僅僅是把樣本保存起來,訓(xùn)練時(shí)間開銷為零,待收到 測試樣本后再進(jìn)行處理;相應(yīng)的,那些在訓(xùn)練階段就對樣本進(jìn)行學(xué)習(xí)處理的方 法,稱為"急切學(xué)習(xí)" (eager learning).
假設(shè)樣本獨(dú)立罔分布,且對任意 m 和任意小E數(shù) 8,在 z 附近 6 距離范圍 內(nèi)總能找到一個(gè)訓(xùn)練樣本;換言之,對任意測試樣本,總能在任意近的范圍內(nèi)找 到式(10.1)中的訓(xùn)練樣本 z.
上一節(jié)的討論是基于一個(gè)重要假設(shè):任意測試樣本 a 附近任意小的 6 距 離范圍內(nèi)總能找到一個(gè)訓(xùn)練樣本,即訓(xùn)練樣本的來樣密度足夠大,或稱為"辛苦 來樣" (dense sample). 然而,這個(gè)假設(shè)在現(xiàn)實(shí)任務(wù)中通常很難滿足,例如若 8 = 0.001,僅考慮單個(gè)屬性,則僅需 1000 個(gè)樣本點(diǎn)平均分布在歸一化后的屬 性取值范圍內(nèi),即可使得任意測試樣本在其附近 0.001 距離范圍內(nèi)總能找到一 個(gè)訓(xùn)練樣本,此時(shí)最近鄰分類器的錯(cuò)誤率不超過貝葉斯最優(yōu)分類器的錯(cuò)誤率 的兩倍.然而,這僅是屬性維數(shù)為 1 的情形,若有更多的屬性,則情況會(huì)發(fā)生 顯著變化.例如假定屬性維數(shù)為 20,若要求樣本滿足密來樣條件,則至少需 (103)20 = 1060 個(gè)樣本.現(xiàn)實(shí)應(yīng)用中屬性維數(shù)經(jīng)常成千上萬,要滿足密采樣條件 所需的樣本數(shù)目是無法達(dá)到的天文數(shù)字.此外,許多學(xué)習(xí)方法都涉及距離計(jì)算, 而高維空間會(huì)給距離計(jì)算帶來很大的麻煩,例如當(dāng)維數(shù)很高時(shí)甚至連計(jì)算內(nèi)積都不再容易.
事實(shí)上,在高維情形下 出 現(xiàn)的數(shù)據(jù)樣本稀疏、 距離計(jì)算困難等問 題, 是所有機(jī)器學(xué)習(xí)方法共同面 臨 的嚴(yán)重障礙, 被稱為" 維數(shù)災(zāi)難" (curse of
dimensionality) .
緩解維數(shù)災(zāi)難的一個(gè)重要途徑是降維(dimension red uction) , 亦稱"維數(shù) 約簡 PP ,即通過某種數(shù)學(xué)變換將原始高維屬性空間轉(zhuǎn)變?yōu)橐粋€(gè)低維"子空 間" (subspace),在這個(gè)子空間 中樣本密度大幅提高, 距離計(jì)算也變得更為容 易為什么能進(jìn)行降維?這是因?yàn)樵诤芏鄷r(shí)候, 人們觀測或收集到的數(shù)據(jù)樣本 雖是高維的?但與學(xué)習(xí)任務(wù)密切相關(guān)的也許僅是某個(gè)低維分布,即高維空間中 的一個(gè)低維"嵌入" (embedding). 原始高維 空間中的樣本點(diǎn),在這個(gè)低維嵌入子空間中更容易進(jìn)行學(xué)習(xí).
若要求原始空間中樣本之間的距離在低維空間中得以保持,即得到"多維縮放" (Multiple Dimensional Scaling,簡稱 MDS) [Cox and Cox, 2001] 這樣一種經(jīng)典的降維方法. 下面做一個(gè)簡單的介紹.
假定 m 個(gè)樣本在原始空間的距離矩陣為 D ε J?mx氣 其第 4 行 j 列的元 素 distij 為樣本 Xi 到 Xj 的距離. 我們的目標(biāo)是獲得樣本在 d’ 維空間的表示 Z E ]Rd’xm , d’ ~三 d, 且任意兩個(gè)樣本在 d’ 維空間中的歐氏距離等于原始空間中 的距離,即 IIZi - zjll = distij.
降維后低維空間的維數(shù) d’ 通常是由用戶事先指定,或通過在 d’ 值不同的 低維空間中對 k 近鄰分類器(或其他開銷較小的學(xué)習(xí)器)進(jìn)行交叉驗(yàn)證來選取 較好的 d’ 值.PCA 僅需保留 W 與樣本的均值向量即可通過簡單的向量減法和矩陣"向 量乘法將新樣本投影至低維空間中. 顯然,低維空間與原始高維空間必有不同, 因?yàn)閷?yīng)于最小的 d-d’ 個(gè)特征值的特征向量被舍棄了,這是降維導(dǎo)致的結(jié)果. 但舍棄這部分信息往往是必要的- 一方面舍棄這部分信息之后能使樣本的采 樣密度增大,這正是降維的重要?jiǎng)訖C(jī); 另一方面,當(dāng)數(shù)據(jù)受到噪聲影響時(shí), 最小 的特征值所對應(yīng)的特征向量往往與噪聲有關(guān)?將它們舍棄能在一定程度上起到 去噪的效果.
總結(jié)
- 上一篇: 阿里巴巴Java开发手册-finally
- 下一篇: hbase常见处理方式