日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

UFLDL教程:数据预处理

發(fā)布時間:2023/12/13 编程问答 42 豆豆
生活随笔 收集整理的這篇文章主要介紹了 UFLDL教程:数据预处理 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

數(shù)據(jù)預(yù)處理是深度學(xué)習(xí)中非常重要的一步!如果說原始數(shù)據(jù)的獲得,是深度學(xué)習(xí)中最重要的一步,那么獲得原始數(shù)據(jù)之后對它的預(yù)處理更是重要的一部分。
一般來說,算法的好壞一定程度上和數(shù)據(jù)是否歸一化,是否白化有關(guān)。


數(shù)據(jù)歸一化


數(shù)據(jù)預(yù)處理中,標(biāo)準(zhǔn)的第一步是數(shù)據(jù)歸一化。雖然這里有一系列可行的方法,但是這一步通常是根據(jù)數(shù)據(jù)的具體情況而明確選擇的。特征歸一化常用的方法包含如下幾種:

1.樣本尺度歸一化:簡單縮放對數(shù)據(jù)的每一個維度的值進行重新調(diào)節(jié),使其在 [0,1]或[-1,1] 的區(qū)間內(nèi)。例子:在處理自然圖像時,我們獲得的像素值在 [0,255] 區(qū)間中,常用的處理是將這些像素值除以 255,使它們縮放到 [0,1] 中. 2.逐樣本均值消減(也稱為移除直流分量)在每個樣本上減去數(shù)據(jù)的統(tǒng)計平均值,用于平穩(wěn)的數(shù)據(jù)(即數(shù)據(jù)每一個維度的統(tǒng)計都服從相同分布),對圖像一般只用在灰度圖上。 3.特征標(biāo)準(zhǔn)化(使數(shù)據(jù)集中所有特征都具有零均值和單位方差) 首先計算每一個維度上數(shù)據(jù)的均值(使用全體數(shù)據(jù)計算),之后在每一個維度上都減去該均值,然后在數(shù)據(jù)的每一維度上除以該維度上數(shù)據(jù)的標(biāo)準(zhǔn)差。

數(shù)據(jù)尺度歸一化的原因是:

(1) 數(shù)據(jù)中每個維度表示的意義不同,所以有可能導(dǎo)致該維度的變化范圍不同,因此有必要將他們都歸一化到一個固定的范圍,一般情況下是歸一化到[0 1]或者[-1 1]。
(2) 這種數(shù)據(jù)歸一化還有一個好處是對后續(xù)的一些默認參數(shù)(比如白化操作)不需要重新過大的更改。

逐樣本的均值相減

(1) 主要應(yīng)用在那些具有穩(wěn)定性的數(shù)據(jù)集中,也就是那些數(shù)據(jù)的每個維度間的統(tǒng)計性質(zhì)是一樣的。
比如說,在自然圖片中,這樣就可以減小圖片中亮度對數(shù)據(jù)的影響,因為我們一般很少用到亮度這個信息。
(2) 不過逐樣本的均值相減這只適用于一般的灰度圖,在rgb等色彩圖中,由于不同通道不具備統(tǒng)計性質(zhì)相同性所以基本不會常用。

在數(shù)據(jù)的每個維度的統(tǒng)計性質(zhì)是一樣的時候。對于圖像來說就是,對圖像的照度并不感興趣,而更多地關(guān)注其內(nèi)容,這時對每個數(shù)據(jù)點移除像素的均值是有意義的,這時可以逐樣本均值消減,它一般只適用于灰度圖。

彩色圖像不能“逐樣本均值消減”,它的歸一化方法及原因見 UFLDL教程: Exercise:Learning color features with Sparse Autoencoders ,即:“每一維0均值化”,進行預(yù)處理。

特征標(biāo)準(zhǔn)化

特征標(biāo)準(zhǔn)化是指對數(shù)據(jù)的每一維進行均值化和方差相等化。這在很多機器學(xué)習(xí)的算法中都非常重要,比如SVM等。


數(shù)據(jù)白化


PCA白化、ZCA白化。重點是規(guī)則化項 epsilon的選擇。

數(shù)據(jù)的白化是在數(shù)據(jù)歸一化之后進行的。實踐證明,很多deep learning算法性能提高都要依賴于數(shù)據(jù)的白化。

在對數(shù)據(jù)進行白化前要求先對數(shù)據(jù)進行特征零均值化。這保證了
在數(shù)據(jù)白化過程中,最主要的還是參數(shù)epsilon的選擇,因為這個參數(shù)的選擇對deep learning的結(jié)果起著至關(guān)重要的作用。

在基于重構(gòu)的模型中(比如說常見的RBM,Sparse coding, autoencoder都屬于這一類,因為他們基本上都是重構(gòu)輸入數(shù)據(jù)),通常是選擇一個適當(dāng)?shù)膃psilon值使得能夠?qū)斎霐?shù)據(jù)進行低通濾波。

但是何謂適當(dāng)?shù)膃psilon呢?

epsilon太小,則起不到過濾效果,會引入很多噪聲,而且基于重構(gòu)的模型又要去擬合這些噪聲
epsilon太大,則又對元素數(shù)據(jù)有過大的模糊

一般的方法是畫出變化后數(shù)據(jù)的特征值分布圖,如果那些小的特征值基本都接近0,則此時的epsilon是比較合理的。

如下圖所示,讓那個長長的尾巴接近于x軸。該圖的橫坐標(biāo)表示的是第幾個特征值,因為已經(jīng)將數(shù)據(jù)集的特征值從大到小排序過。


epsilon的選擇方法:

a.以圖形方式畫出數(shù)據(jù)的特征值
b.選取大于大多數(shù)較小的、反映數(shù)據(jù)中噪聲的特征值作為 epsilon


實用技巧:

如果數(shù)據(jù)已被縮放到合理范圍(如[0,1]),可以從epsilon = 0.01或epsilon = 0.1開始調(diào)節(jié)epsilon。

基于正交化的ICA模型中,應(yīng)該保持參數(shù)epsilon盡量小,因為這類模型需要對學(xué)習(xí)到的特征做正交化,以解除不同維度之間的相關(guān)性。


參考文獻


Deep learning:三十(關(guān)于數(shù)據(jù)預(yù)處理的相關(guān)技巧)

Deep Learning 11_深度學(xué)習(xí)UFLDL教程:數(shù)據(jù)預(yù)處理(斯坦福大學(xué)深度學(xué)習(xí)教程)

數(shù)據(jù)預(yù)處理

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯,堅持創(chuàng)作打卡瓜分現(xiàn)金大獎

總結(jié)

以上是生活随笔為你收集整理的UFLDL教程:数据预处理的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。