矩阵范数及其求导
在機(jī)器學(xué)習(xí)的特征選擇中,利用選擇矩陣的范數(shù)對(duì)選擇矩陣進(jìn)行約束,即是正則化技術(shù),是一種稀疏學(xué)習(xí)。
矩陣的L0,L1范數(shù)
為了度量稀疏矩陣的稀疏性,則定義矩陣的一種范數(shù),為:??∥W∥1=∑i,j|Wi,j|。即為矩陣所有元素的絕對(duì)值之和,能夠描述接矩陣的稀疏性,但是在優(yōu)化時(shí),難度較大,是將情況向矩陣中元素盡可能是0的方向優(yōu)化。
1)L0范數(shù)是指向量中非0的元素的個(gè)數(shù)。如果我們用L0范數(shù)來(lái)規(guī)則化一個(gè)參數(shù)矩陣W的話,就是希望W的大部分元素都是0。換句話說(shuō),讓參數(shù)W是稀疏的。
2)L1范數(shù)是指向量中各個(gè)元素絕對(duì)值之和。L1范數(shù)是L0范數(shù)的最優(yōu)凸近似。任何的規(guī)則化算子,如果他在Wi=0的地方不可微,并且可以分解為一個(gè)“求和”的形式,那么這個(gè)規(guī)則化算子就可以實(shí)現(xiàn)稀疏。W的L1范數(shù)是絕對(duì)值,|w|在w=0處是不可微。
3)雖然L0可以實(shí)現(xiàn)稀疏,但是實(shí)際中會(huì)使用L1取代L0。因?yàn)長(zhǎng)0范數(shù)很難優(yōu)化求解,L1范數(shù)是L0范數(shù)的最優(yōu)凸近似,它比L0范數(shù)要容易優(yōu)化求解。
矩陣的L2范數(shù)
L2范數(shù),又叫“嶺回歸”(Ridge Regression)、“權(quán)值衰減”(weight decay)。它的作用是改善過擬合。過擬合是:模型訓(xùn)練時(shí)候的誤差很小,但是測(cè)試誤差很大,也就是說(shuō)模型復(fù)雜到可以擬合到所有訓(xùn)練數(shù)據(jù),但在預(yù)測(cè)新的數(shù)據(jù)的時(shí)候,結(jié)果很差。
?L2范數(shù)是指向量中各元素的平方和然后開根。我們讓L2范數(shù)的規(guī)則項(xiàng)||W||2最小,可以使得W的每個(gè)元素都很小,都接近于0。而越小的參數(shù)說(shuō)明模型越簡(jiǎn)單,越簡(jiǎn)單的模型則越不容易產(chǎn)生過擬合現(xiàn)象。
L1是絕對(duì)值最小,L2是平方最小:L1會(huì)趨向于產(chǎn)生少量的特征,而其他的特征都是0,而L2會(huì)選擇更多的特征,這些特征都會(huì)接近于0。
矩陣的L2,1范數(shù)
而為了進(jìn)一步說(shuō)明矩陣的稀疏性,來(lái)說(shuō)明特征選擇中矩陣L2,1范數(shù)的作用。?
在特征選擇中,通過稀疏化的特征選擇矩陣來(lái)選取特征,即相當(dāng)于是一種線性變換。?
對(duì)于特征選擇矩陣W,每一行(即行向量)用向量的2-范數(shù)描述,即。那么,描述化之后即為向量,那么對(duì)整個(gè)選擇矩陣W還需要用范數(shù)對(duì)進(jìn)行描述,因?yàn)閾p失函數(shù)中的正則項(xiàng),或稱為正則化的項(xiàng)是一個(gè)數(shù),而不是一個(gè)向量。因此再用1-范數(shù)對(duì)描述,即是W的L2,1范數(shù)。?
這便是矩陣的L2,1范數(shù)的實(shí)際描述過程。矩陣的L2,1范數(shù)滿足矩陣范數(shù)的自反性、非負(fù)性、對(duì)稱性和三角不等式關(guān)系,是一個(gè)范數(shù)。
先看上面L21范數(shù)的定義,注意原始矩陣是d行n列的,根號(hào)下平方是對(duì)列求和,也就是說(shuō)是在同一行中進(jìn)行操作的,根號(hào)部分就相當(dāng)于一個(gè)L2范數(shù),由此可以看出L2,1范數(shù)實(shí)則為矩陣X每一行的L2范數(shù)之和。在矩陣稀疏表示模型中,把它作為正則化項(xiàng)有什么作用呢?前面說(shuō)到它是每一行的L2范數(shù)之和,在最小化問題中,只有每一行的L2范數(shù)都最小總問題才最小。而每一個(gè)行范數(shù)取得最小的含義是,當(dāng)行內(nèi)盡可能多的元素為0時(shí),約束才可能取得最小。行內(nèi)出現(xiàn)盡可能多的0元素,盡可能稀疏,也稱為行稀疏。綜上可以這樣解釋,不同于L1范數(shù)(矩陣元素絕對(duì)值之和)的稀疏要求,l21范數(shù)還要求行稀疏!
?那么,在線性學(xué)習(xí)模型,損失函數(shù)如:
??
在優(yōu)化中,矩陣的范數(shù)該如何求導(dǎo)?關(guān)于矩陣的F范數(shù)求導(dǎo),可以參考矩陣的 Frobenius 范數(shù)及其求偏導(dǎo)法則(https://blog.csdn.net/txwh0820/article/details/46392293)。而矩陣L2,1范數(shù)求導(dǎo)如下推導(dǎo):?
對(duì)于一個(gè)矩陣W=[w1,?,wd]T?, 其中wi?是W?的第i?行。由矩陣的定義有
那么,L2,1范數(shù)的求導(dǎo)為:
矩陣一般化L2,P范數(shù)的求導(dǎo)
就矩陣一般化L2,P范數(shù)給出推導(dǎo):?
矩陣的核范數(shù)Nuclear?Norm
核范數(shù)||W||*是指矩陣奇異值的和,用于約束Low-Rank(低秩)。
從物理意義上講,矩陣的秩度量的就是矩陣的行列之間的相關(guān)性。如果矩陣的各行或列是線性無(wú)關(guān)的,矩陣就是滿秩的,也就是秩等于行數(shù)。秩可以度量相關(guān)性,而矩陣的相關(guān)性實(shí)際上有帶有了矩陣的結(jié)構(gòu)信息。如果矩陣之間各行的相關(guān)性很強(qiáng),那么就表示這個(gè)矩陣實(shí)際可以投影到更低維的線性子空間,也就是用幾個(gè)向量就可以完全表達(dá)了,它就是低秩的。所以:如果矩陣表達(dá)的是結(jié)構(gòu)性信息,例如圖像、用戶-推薦表等,那么這個(gè)矩陣各行之間存在這一定的相關(guān)性,那這個(gè)矩陣一般就是低秩的。低秩矩陣每行或每列都可以用其他的行或列線性表出,可見它包含大量的冗余信息。利用這種冗余信息,可以對(duì)缺失數(shù)據(jù)進(jìn)行恢復(fù),也可以對(duì)數(shù)據(jù)進(jìn)行特征提取。rank()是非凸的,在優(yōu)化問題里面很難求解,rank(w)的凸近似就是核范數(shù)||W||*。
1)矩陣填充(Matrix Completion):
矩陣填充即矩陣補(bǔ)全,是低秩矩陣重構(gòu)問題,例如推薦系統(tǒng)。其模型表述:已知數(shù)據(jù)是一個(gè)給定的m*n矩陣A,如果其中一些元素因?yàn)槟撤N原因丟失了,能否根據(jù)其他行和列的元素,將這些元素恢復(fù)?當(dāng)然,如果沒有其他的參考條件,想要確定這些數(shù)據(jù)很困難。但如果已知A的秩rank(A)<<m且rank(A)<<n,那么可以通過矩陣各行(列)之間的線性相關(guān)將丟失的元素求出。這種假定“要恢復(fù)的矩陣是低秩的”是十分合理的,比如一個(gè)用戶對(duì)某電影評(píng)分是其他用戶對(duì)這部電影評(píng)分的線性組合。所以,通過低秩重構(gòu)就可以預(yù)測(cè)用戶對(duì)其未評(píng)價(jià)過的視頻的喜好程度。從而對(duì)矩陣進(jìn)行填充。
2)魯棒主成分分析(Robust PCA):
主成分分析,可以有效的找出數(shù)據(jù)中最“主要"的元素和結(jié)構(gòu),去除噪音和冗余,將原有的復(fù)雜數(shù)據(jù)降維,揭示隱藏在復(fù)雜數(shù)據(jù)背后的簡(jiǎn)單結(jié)構(gòu)。最簡(jiǎn)單的主成分分析方法就是PCA了。從線性代數(shù)的角度看,PCA的目標(biāo)就是使用另一組基去重新描述得到的數(shù)據(jù)空間。希望在這組新的基下,能盡量揭示原有的數(shù)據(jù)間的關(guān)系。這個(gè)維度即最重要的“主元"。PCA的目標(biāo)就是找到這樣的“主元”,最大程度的去除冗余和噪音的干擾。
Robust PCA考慮的是這樣一個(gè)問題:一般情況下數(shù)據(jù)矩陣X會(huì)包含結(jié)構(gòu)信息,也包含噪聲。那么可以將這個(gè)矩陣分解為兩個(gè)矩陣相加,一個(gè)是低秩的(由于內(nèi)部有一定的結(jié)構(gòu)信息,造成各行或列間是線性相關(guān)的),另一個(gè)是稀疏的(由于含有噪聲,而噪聲是稀疏的),則Robust PCA可以寫成優(yōu)化問題:
與經(jīng)典PCA問題一樣,Robust? PCA本質(zhì)上也是尋找數(shù)據(jù)在低維空間上的最佳投影問題。對(duì)于低秩數(shù)據(jù)觀測(cè)矩陣X,假如X受到隨機(jī)(稀疏)噪聲的影響,則X的低秩性就會(huì)破壞,使X變成滿秩的。所以就需要將X分解成包含其真實(shí)結(jié)構(gòu)的低秩矩陣和稀疏噪聲矩陣之和。找到了低秩矩陣,實(shí)際上就找到了數(shù)據(jù)的本質(zhì)低維空間。PCA假設(shè)數(shù)據(jù)的噪聲是高斯的,對(duì)于大的噪聲或者嚴(yán)重的離群點(diǎn),PCA會(huì)被它影響,導(dǎo)致無(wú)法正常工作。而Robust PCA則不存在這個(gè)假設(shè),它只是假設(shè)噪聲是稀疏的,而不管噪聲的強(qiáng)弱如何。
由于rank和L0范數(shù)在優(yōu)化上存在非凸和非光滑特性,所以一般將它轉(zhuǎn)換成求解以下一個(gè)松弛的凸優(yōu)化問題:
具體應(yīng)用:考慮同一副人臉的多幅圖像,如果將每一副人臉圖像看成是一個(gè)行向量,并將這些向量組成一個(gè)矩陣的話,那么可以肯定,理論上,這個(gè)矩陣應(yīng)當(dāng)是低秩的。但是,由于在實(shí)際操作中,每幅圖像會(huì)受到一定程度的影響,例如遮擋,噪聲,光照變化,平移等。這些干擾因素的作用可以看做是一個(gè)噪聲矩陣的作用。所以可以把同一個(gè)人臉的多個(gè)不同情況下的圖片各自拉長(zhǎng)一列,然后擺成一個(gè)矩陣,對(duì)這個(gè)矩陣進(jìn)行低秩和稀疏的分解,就可以得到干凈的人臉圖像(低秩矩陣)和噪聲的矩陣了(稀疏矩陣),例如光照,遮擋等等。
矩陣的跡范數(shù)Trace Norm
Schatten范數(shù):
令p = 1 ,得到跡范數(shù):
?
本文為自己學(xué)習(xí)過程中對(duì)其他資源的學(xué)習(xí)整理而得的學(xué)習(xí)筆記,內(nèi)容源自:https://blog.csdn.net/lqzdreamer/article/details/79676305;https://blog.csdn.net/zchang81/article/details/70208061;https://blog.csdn.net/lj695242104/article/details/38801025
轉(zhuǎn)載于:https://www.cnblogs.com/go-go/p/9674984.html
總結(jié)
- 上一篇: 移动端rem适配-JS
- 下一篇: Mac模拟慢速网络 - Network