當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Lesson 14.1 数据归一化与Batch Normalization理论基础

發(fā)布時間：2025/4/5 编程问答 21 豆豆

生活随笔收集整理的這篇文章主要介紹了 Lesson 14.1 数据归一化与Batch Normalization理论基础小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

Lesson 14.1 數(shù)據(jù)歸一化與Batch Normalization理論基礎(chǔ)

??數(shù)據(jù)歸一化是機器學習領(lǐng)域的一種對數(shù)據(jù)處理的常規(guī)方式。在傳統(tǒng)機器學習領(lǐng)域，由于各特征的量綱不一致，可能出現(xiàn)建模過程中量綱較大的特征得不到有效學習的情況，而通過歸一化處理之后的數(shù)據(jù)可以統(tǒng)一放縮在一個區(qū)間內(nèi)，從而避免的各量綱的學習偏差問題，并且我們發(fā)現(xiàn)，歸一化處理之后的數(shù)據(jù)能夠能夠提升模型訓練效率、加快模型收斂速度、提升模型穩(wěn)定性。當然，在傳統(tǒng)機器學習領(lǐng)域，有很多需要確保模型可解釋的情況，而對數(shù)據(jù)進行歸一化處理會降低模型本身的可解釋性。
??而在深度學習領(lǐng)域，正如上一節(jié)所論述的一樣，將數(shù)據(jù)處理成Zero-centered Data，將能夠有效確保模型各層學習的有效性，緩解梯度消失和梯度爆炸的情況發(fā)生，并且深度學習并不要求可解釋性，因此數(shù)據(jù)標準化并不存在太多障礙。
??當然，深度學習的數(shù)據(jù)歸一化和經(jīng)典機器學習的歸一化有較大差別，但本質(zhì)上理論是相通的，本節(jié)先從經(jīng)典機器學習的歸一化算法開始討論，再逐步過渡到深度學習的數(shù)據(jù)歸一化方法。
??深度學習中歸一化是一種通用的方法，深度學習所有模型都能歸一化

一、經(jīng)典機器學習的歸一化算法

??經(jīng)典機器學習領(lǐng)域的數(shù)據(jù)歸一化算法主要有兩種，分別是0-1標準化（Max-Min Normalization）和Z-Score標準化。二者使用效果差別不大，并且都是逐列對輸入的數(shù)據(jù)進行處理。

1.經(jīng)典機器學習歸一化方法回顧

1.1 0-1標準化方法

??0-1標準化是最簡單也是最容易想到的方法，同時也是經(jīng)典機器學習領(lǐng)域最常用的標準化方法。該方法通過在輸入特征中逐列遍歷其中里的每一個數(shù)據(jù)，將Max和Min的記錄下來，并通過Max-Min作為基數(shù)（即Min=0，Max=1）進行數(shù)據(jù)的歸一化處理，基本公式為：
$xnormalization=x?MinMax?Min{x}_{normalization}=\frac{x-Min}{Max-Min}$ 也就是每一列中的元素減去當前列的最小值，再除以該列的極差。PyTorch中我們可以借助張量的廣播運算、通過以下方法對數(shù)據(jù)進行0-1標準化。

t = torch.arange(12).reshape(6, 2).float() t #tensor([[ 0., 1.], # [ 2., 3.], # [ 4., 5.], # [ 6., 7.], # [ 8., 9.], # [10., 11.]]) t.max(0)[0] #tensor([10., 11.]) t_max = t.max(0)[0] # 提取每列最大值 t_max #tensor([10., 11.]) t_min = t.min(0)[0] # 提取每列最小值 t_min #tensor([0., 1.]) (t - t_min) / (t_max - t_min) # 計算0-1標準化后結(jié)果 #tensor([[0.0000, 0.0000], # [0.2000, 0.2000], # [0.4000, 0.4000], # [0.6000, 0.6000], # [0.8000, 0.8000], # [1.0000, 1.0000]])

至此，我們將t的兩列都放縮到了0-1區(qū)間內(nèi)，從而保證了模型對各列的學習狀況不受量綱影響。不過在深度學習領(lǐng)域，我們更希望輸入模型的數(shù)據(jù)是Zero-Centered Data，此時Z-Score標準化會更加合適。

1.2 Z-Score標準化

??和0-1標準化不同，Z-score標準化利用原始數(shù)據(jù)的均值（mean）和標準差（standard deviation）進行數(shù)據(jù)的標準化。同樣是逐列進行操作，每一條數(shù)據(jù)都減去當前列的均值再除以當前列的標準差。很明顯，通過這種方法處理之后的數(shù)據(jù)是典型的Zero-Centered Data，并且如果原數(shù)據(jù)服從正態(tài)分布，通過Z-Score處理之后將服從標準正態(tài)分布。Z-Score標準化計算公式如下：
$xnormalization=x?μσ{x}_{normalization}=\frac{x-\mu }{\sigma }$ 其中 $μ\mu$ 代表均值， $σ\sigma$ 代表標準差。當然，我們也可通過如下方式對張量進行Z-Score標準化處理。

t #tensor([[ 0., 1.], # [ 2., 3.], # [ 4., 5.], # [ 6., 7.], # [ 8., 9.], # [10., 11.]]) t.mean(0) #tensor([5., 6.]) t.std(0) #tensor([3.7417, 3.7417]) (t - t.mean(0)) / t.std(0) #tensor([[-1.3363, -1.3363], # [-0.8018, -0.8018], # [-0.2673, -0.2673], # [ 0.2673, 0.2673], # [ 0.8018, 0.8018], # [ 1.3363, 1.3363]])

能夠看出，上述處理之后得到的數(shù)據(jù)就是Zero-Centered Data。為了后續(xù)實驗需要，我們可以將Z-Score標準化過程封裝為一個函數(shù)，方便調(diào)用：

def Z_ScoreNormalization(data):stdDf = data.std(0)meanDf = data.mean(0)normSet = (data - meanDf) / stdDfreturn normSet

一種更加嚴謹?shù)淖龇?#xff0c;是在分母項、也就是標準差上加上一個非常小的常數(shù) $μ\mu$ ，從而使得分母恒大于0。

2.經(jīng)典機器學習歸一化算法在深度學習中的實踐

??既然Z-Score能夠創(chuàng)建Zero-Centered Data，如果我們建模過程中，提前將數(shù)據(jù)進行Z-Score標準化處理，能否提升模型性能呢？

在訓練集上訓練，測試集上測試
??在建模之前，首先需要明確兩個問題，其一是標簽是否需要標準化（如果是回歸類問題的話），其二是測試集的特征是否需要標準化？
??首先，標簽是否標準化對建模沒有影響，因此一般我們不會對標簽進行標準化；其次，在實際模型訓練過程中，由于數(shù)據(jù)集要劃分成訓練集和測試集，因此一般來說我們會在訓練集的特征中逐行計算其均值和標準差，然后進行模型訓練，當輸入測試集進行測試時，我們會將在訓練集上計算得出的每一列的均值和標準差帶入測試集并對測試集特征進行標準化，然后再帶入進行模型測試。值得注意的是，此時進行標準化時涉及到的每一列的均值和方差也相當于是模型參數(shù)，必須從訓練集上得出，不能借助測試集的數(shù)據(jù)。
Z-Score建模實驗
??接下來，我們嘗試先對數(shù)據(jù)進行標準化，再帶入模型進行訓練，借此測試Z-Score標準化對深度學習模型的實際效果。注意，此處簡化了在訓練集上計算均值方差再帶入測試集進行操作的流程，直接采用全部數(shù)據(jù)集進行數(shù)據(jù)歸一化操作。

# 設(shè)置隨機數(shù)種子 torch.manual_seed(420) # 創(chuàng)建最高項為2的多項式回歸數(shù)據(jù)集 features, labels = tensorGenReg(w=[2, -1], bias=False, deg=2) features_norm = Z_ScoreNormalization(features)# 進行數(shù)據(jù)集切分與加載 train_loader, test_loader = split_loader(features, labels) train_loader_norm, test_loader = split_loader(features_norm, labels)# 設(shè)置隨機數(shù)種子 torch.manual_seed(24) # 關(guān)鍵參數(shù) lr = 0.03 num_epochs = 40# 實例化模型 sigmoid_model3 = Sigmoid_class3() sigmoid_model3_norm = Sigmoid_class3() # 進行Xavier初始化 for m in sigmoid_model3.modules():if isinstance(m, nn.Linear):nn.init.xavier_uniform_(m.weight) # <torch._C.Generator at 0x281815c16b0> # Parameter containing: # tensor([[ 0.8590, -0.6975], # [ 0.1762, -0.7295], # [ 0.5904, 0.3405], # [-0.7281, -0.0867]], requires_grad=True) # Parameter containing: # tensor([[-0.5633, 0.1303, -0.5045, 0.3393], # [-0.7823, 0.2525, 0.7264, 0.5470], # [ 0.7246, -0.0357, -0.6253, 0.1108], # [-0.3299, -0.5521, 0.5269, 0.1061]], requires_grad=True) # Parameter containing: # tensor([[ 0.4386, 0.8341, 0.1352, -0.8077], # [ 0.2441, 0.4123, 0.0232, -0.7393], # [ 0.8236, -0.8110, 0.6018, -0.0395], # [ 0.6284, -0.7337, 0.8656, 0.2915]], requires_grad=True) # Parameter containing: # tensor([[0.9703, 0.6656, 0.8244, 0.3487]], requires_grad=True) for m in sigmoid_model3_norm.modules():if isinstance(m, nn.Linear):nn.init.xavier_uniform_(m.weight) # Parameter containing: # tensor([[-0.2945, 0.9237], # [ 0.7596, -0.6387], # [-0.0023, -0.3001], # [-0.9573, 0.0271]], requires_grad=True) # Parameter containing: # tensor([[-0.5126, -0.1948, -0.2230, 0.7317], # [ 0.3355, -0.7767, 0.4933, 0.5650], # [ 0.3391, 0.3513, 0.3385, 0.0232], # [-0.7911, -0.4265, 0.5541, 0.2841]], requires_grad=True) # Parameter containing: # tensor([[ 0.6846, 0.2079, 0.8334, -0.3973], # [-0.4116, 0.3072, -0.4335, 0.3472], # [ 0.0940, -0.3414, 0.2058, 0.8155], # [ 0.4660, -0.8182, 0.3571, 0.5147]], requires_grad=True) # Parameter containing: # tensor([[ 0.7612, -0.2644, 0.8887, 0.8696]], requires_grad=True)# sigmoid_model3模型訓練 train_l, test_l = model_train_test(sigmoid_model3, train_loader,test_loader,num_epochs = num_epochs, criterion = nn.MSELoss(), optimizer = optim.SGD, lr = lr, cla = False, eva = mse_cal)# sigmoid_model3_norm模型訓練 train_l_norm, test_l_norm = model_train_test(sigmoid_model3_norm, train_loader_norm,test_loader,num_epochs = num_epochs, criterion = nn.MSELoss(), optimizer = optim.SGD, lr = lr, cla = False, eva = mse_cal)

然后對比兩種模型的運算結(jié)果

plt.plot(list(range(num_epochs)), train_l, label='train_mse') plt.plot(list(range(num_epochs)), train_l_norm, label='train_norm_mse') plt.legend(loc = 1)

plt.plot(list(range(num_epochs)), test_l, label='test_mse') plt.plot(list(range(num_epochs)), test_l_norm, label='test_norm_mse') plt.legend(loc = 1)

值得注意的是，此處我們統(tǒng)一先對模型進行Xavier參數(shù)初始化計算然后再使用數(shù)據(jù)歸一化方法，是為了避免不同隨機數(shù)種子對參數(shù)初始化取值的影響，但實際上目前很多神經(jīng)網(wǎng)絡(luò)用到的歸一化方法（后面會談到）在最終效果上都能讓模型擺脫參數(shù)初始化的限制，也就是能夠讓模型在不使用初始化方法的情況下仍然可以進行快速和穩(wěn)定的收斂。

??從模型最終運行結(jié)果能夠看出，經(jīng)過Z-Score歸一化的數(shù)據(jù)收斂速度更快，在某些情況下也能獲得更好的結(jié)果，當然我們也能通過微觀層面、通過查看各層梯度值來觀察數(shù)據(jù)歸一化的效果，驗證歸一化是否有助于各層梯度保持平穩(wěn)。

# 設(shè)置隨機數(shù)種子 torch.manual_seed(24) # 關(guān)鍵參數(shù) lr = 0.03 num_epochs = 5# 實例化模型 sigmoid_model3 = Sigmoid_class3() sigmoid_model3_norm = Sigmoid_class3() # 進行Xavier初始化 for m in sigmoid_model3.modules():if isinstance(m, nn.Linear):nn.init.xavier_uniform_(m.weight) # Parameter containing: # tensor([[ 0.8590, -0.6975], # [ 0.1762, -0.7295], # [ 0.5904, 0.3405], # [-0.7281, -0.0867]], requires_grad=True) # Parameter containing: # tensor([[-0.5633, 0.1303, -0.5045, 0.3393], # [-0.7823, 0.2525, 0.7264, 0.5470], # [ 0.7246, -0.0357, -0.6253, 0.1108], # [-0.3299, -0.5521, 0.5269, 0.1061]], requires_grad=True) # Parameter containing: # tensor([[ 0.4386, 0.8341, 0.1352, -0.8077], # [ 0.2441, 0.4123, 0.0232, -0.7393], # [ 0.8236, -0.8110, 0.6018, -0.0395], # [ 0.6284, -0.7337, 0.8656, 0.2915]], requires_grad=True) # Parameter containing: # tensor([[0.9703, 0.6656, 0.8244, 0.3487]], requires_grad=True) for m in sigmoid_model3_norm.modules():if isinstance(m, nn.Linear):nn.init.xavier_uniform_(m.weight) # Parameter containing: # tensor([[-0.2945, 0.9237], # [ 0.7596, -0.6387], # [-0.0023, -0.3001], # [-0.9573, 0.0271]], requires_grad=True) # Parameter containing: # tensor([[-0.5126, -0.1948, -0.2230, 0.7317], # [ 0.3355, -0.7767, 0.4933, 0.5650], # [ 0.3391, 0.3513, 0.3385, 0.0232], # [-0.7911, -0.4265, 0.5541, 0.2841]], requires_grad=True) # Parameter containing: # tensor([[ 0.6846, 0.2079, 0.8334, -0.3973], # [-0.4116, 0.3072, -0.4335, 0.3472], # [ 0.0940, -0.3414, 0.2058, 0.8155], # [ 0.4660, -0.8182, 0.3571, 0.5147]], requires_grad=True) # Parameter containing: # tensor([[ 0.7612, -0.2644, 0.8887, 0.8696]], requires_grad=True)# sigmoid_model2模型訓練 train_l, test_l = model_train_test(sigmoid_model3, train_loader,test_loader,num_epochs = num_epochs, criterion = nn.MSELoss(), optimizer = optim.SGD, lr = lr, cla = False, eva = mse_cal)# sigmoid_model2_norm模型訓練 train_l_norm, test_l_norm = model_train_test(sigmoid_model3_norm, train_loader_norm,test_loader,num_epochs = num_epochs, criterion = nn.MSELoss(), optimizer = optim.SGD, lr = lr, cla = False, eva = mse_cal)weights_vp(sigmoid_model3, att="grad")

weights_vp(sigmoid_model3_norm, att="grad")

??由此能看出，使用歸一化后的數(shù)據(jù)進行建模的模型，前幾輪迭代時梯度相對平穩(wěn)。我們知道，當各層梯度更加均衡時模型學習能力更強，進而能夠加快模型收斂速度，甚至提升模型準確率。因此我們也可以推斷，歸一化是通過維持梯度平穩(wěn)來加快收斂速度、提升模型準確率的。

注意，此處所介紹的結(jié)論：歸一化的實際作用是維持梯度平穩(wěn)，也可以算是近幾年的研究成果，我們只是相當于創(chuàng)造了實驗驗證了該結(jié)論。在早些年，人們?nèi)藶闅w一化能夠提升模型效果的根本原因是能夠一定程度上消除數(shù)據(jù)偏移問題，相關(guān)討論后面會介紹。

3.Z-Score數(shù)據(jù)歸一化的局限

??不過，畢竟Z-Score初始化并不是為深度學習算法量身設(shè)計的數(shù)據(jù)歸一化方法，在實際神經(jīng)網(wǎng)絡(luò)建模過程中，Z-Score的使用還是存在很多局限，具體來說主要有以下兩點。

3.1 Zero-Centered特性消失

??盡管Z-Score歸一化能夠一定程度保證梯度平穩(wěn)，進而提升模型收斂速度甚至是提升模型效果，但是，和Xavier初始化方法一樣，由于是對于“初始值”的修改，因此也會存在隨著迭代次數(shù)增加就逐漸破壞了Zero-Centered Data這一條件的問題，當然，該問題也可視作經(jīng)典機器學習歸一化方法應(yīng)用于深度神經(jīng)網(wǎng)絡(luò)時的局限。
??并且，隨著參數(shù)和輸入數(shù)據(jù)都回到不可控狀態(tài)，各層的梯度又將回到不可控的狀態(tài)，而所謂的控制梯度平穩(wěn)性也將無從談起。例如，我們嘗試創(chuàng)建相對梯度容易不平穩(wěn)的tanh激活函數(shù)模型，查看迭代5輪和40輪時各層梯度變化情況。

# 設(shè)置隨機數(shù)種子 torch.manual_seed(24) # 學習率 lr = 0.03# 實例化模型 tanh_model2_norm1 = tanh_class2() tanh_model2_norm2 = tanh_class2() # 進行Xavier初始化 for m in tanh_model2_norm1.modules():if isinstance(m, nn.Linear):nn.init.xavier_uniform_(m.weight) #Parameter containing: #tensor([[ 0.2847, 0.4558], # [ 0.1465, -0.3580], # [-0.3710, -0.0826], # [ 0.9358, 0.5741]], requires_grad=True) #Parameter containing: #tensor([[ 0.5889, -0.3163, 0.2033, -0.5345], # [-0.1101, -0.4292, 0.3611, 0.4440], # [ 0.1075, 0.6876, -0.8603, 0.3756], # [ 0.4682, 0.7871, 0.1877, -0.7922]], requires_grad=True) #Parameter containing: #tensor([[ 0.7348, -0.0581, 0.3638, -0.7409]], requires_grad=True) for m in tanh_model2_norm2.modules():if isinstance(m, nn.Linear):nn.init.xavier_uniform_(m.weight) #Parameter containing: #tensor([[ 0.0359, 0.9580], # [ 0.3218, 0.8097], # [ 0.1927, 0.8312], # [-0.8618, 0.4136]], requires_grad=True) #Parameter containing: #tensor([[ 0.8077, 0.4030, 0.5159, 0.6062], # [ 0.7439, -0.6040, 0.1526, -0.6317], # [ 0.5113, 0.2949, -0.6306, -0.0751], # [-0.5633, 0.1303, -0.5045, 0.3393]], requires_grad=True) #Parameter containing: #tensor([[-0.9895, 0.3193, 0.9188, 0.6919]], requires_grad=True)# sigmoid_model2模型訓練 train_l, test_l = model_train_test(tanh_model2_norm1, train_loader_norm,test_loader,num_epochs = 5, criterion = nn.MSELoss(), optimizer = optim.SGD, lr = lr, cla = False, eva = mse_cal)# sigmoid_model2_norm模型訓練 train_l_norm, test_l_norm = model_train_test(tanh_model2_norm2, train_loader_norm,test_loader,num_epochs = 40, criterion = nn.MSELoss(), optimizer = optim.SGD, lr = lr, cla = False, eva = mse_cal)weights_vp(tanh_model2_norm1, att="grad")

weights_vp(tanh_model2_norm2, att="grad")

能夠看出，剛開始時梯度較為平穩(wěn)，而迭代到后期時就出現(xiàn)了明顯的梯度爆炸現(xiàn)象。

3.2 Zero-Centered Data的作用局限

??除了輸入數(shù)據(jù)在迭代過程中會逐漸喪失Zero-Centered特性外，Z-Score標準化在應(yīng)用到深度學習模型中，還會面臨一個更加嚴峻的問題——那就是Zero-Centered Data本身作用范圍也是有限的。我們哪怕能夠維持輸入數(shù)據(jù)的Zero-Centered特性，也很難保證只憑借這一點就能確保梯度平穩(wěn)。
??在Lesson 13中，我們知道深度學習中保證各層梯度平穩(wěn)，是確保模型能夠順利有效進行學習的關(guān)鍵，而所謂的梯度平穩(wěn)，我們可以用Glorot條件來進行描述，即正向傳播過程中數(shù)據(jù)流經(jīng)各層時輸入和輸出數(shù)據(jù)方差相同，反向傳播時數(shù)據(jù)流經(jīng)各層前后該層梯度的方差相同。
??盡管此前我們一直強調(diào)零均值數(shù)據(jù)的良好特性，但歸根結(jié)底還是因為零均值數(shù)據(jù)在各層梯度計算過程中，可以使得激活函數(shù)導函數(shù)輸出結(jié)果盡可能大（ReLU激活函數(shù)時能夠避免Dead ReLU Problem），從而確保梯度計算的有效性。此處我們不妨回顧此前我們得出的三層神經(jīng)網(wǎng)絡(luò)中各層梯度的計算公式： $grad1=?loss?y^?w3?f(F(X?w1)?w2)?f(F(X?w1))?w2?f(X?w1)?Xgrad_1 = \frac{\partial loss}{\partial \hat y} \cdot w_3 \cdot f(F(X*w_1)*w_2) \cdot f(F(X*w_1)) \cdot w_2 \cdot f(X * w_1) \cdot X$ $grad2=?loss?y^?w3?f(F(X?w1)?w2)?F(X?w1)grad_2 = \frac{\partial loss}{\partial \hat y} \cdot w_3 \cdot f(F(X*w_1)*w_2) \cdot F(X * w_1)$ $grad3=?loss?y^?F(F(X?w1)?w2)grad_3 = \frac{\partial loss}{\partial \hat y} \cdot F(F(X * w_1) * w_2)$ 由于各層的梯度實際上受到激活函數(shù)、各層輸入數(shù)據(jù)和參數(shù)三者共同影響，因此哪怕我們將所有的輸入數(shù)據(jù)都調(diào)整為零均值的，各層梯度的計算結(jié)果還是有可能因為受到其他因素影響導致不平穩(wěn)。因此，一味追求輸入數(shù)據(jù)的Zero-Centered或許并不是最好的選擇。

值得注意的是，由于數(shù)據(jù)的平移和放縮本身并不影響數(shù)據(jù)分布，因此理論上是可以對每一層接收到的數(shù)據(jù)進行歸一化的。

4.保證梯度平穩(wěn)的第二條道路：輸入數(shù)據(jù)調(diào)整

??不過呢，盡管Z-Score作用有限，但對輸入數(shù)據(jù)進行有效處理，卻是至關(guān)重要的深度學習模型優(yōu)化方向。
??根據(jù)上述各層梯度計算公式，不難發(fā)現(xiàn)，影響梯度平穩(wěn)性的核心因素有三個，其一是各層的參數(shù)、其二是各線性層接收到的數(shù)據(jù)、其三則是激活函數(shù)。關(guān)于參數(shù)的優(yōu)化我們在Lesson 13中已經(jīng)進行了詳細的介紹，簡單來說就是通過Glorot條件巧妙設(shè)置參數(shù)初始值，從而使得各層梯度在計算過程中盡可能更加平穩(wěn)。但由于參數(shù)本身的特殊性，我們只能設(shè)置其初始值，一旦模型開始迭代，參數(shù)就將開始“不受控制”的調(diào)整，初始值的設(shè)置是很難長期保證梯度平穩(wěn)的，這點和Z-Score對數(shù)據(jù)進行初始化所存在的問題一致。
??除了參數(shù)調(diào)整外，在確保梯度平穩(wěn)性上我們就只剩下選擇激活函數(shù)和調(diào)整輸入數(shù)據(jù)兩條路可走。關(guān)于新興激活函數(shù)的選擇我們將在下一節(jié)課進行詳細討論，但對于輸入數(shù)據(jù)的優(yōu)化，目前來看，應(yīng)用最為廣泛、并且被驗證的實踐效果最好的數(shù)據(jù)歸一化方法，是由Sergey loffe和Christian Szegedy在2015年發(fā)表的《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》中提出的一種方法，該方法通過修改每一次帶入訓練的數(shù)據(jù)分布（每一個Batch）的數(shù)據(jù)分布，來提升模型各層梯度的平穩(wěn)性，從而提升模型學習效率、提高模型訓練結(jié)果。由于是修改每一個Batch的數(shù)據(jù)分布，因此該方法也被稱為Batch Normalization（BN），小批量數(shù)據(jù)歸一化方法。不過需要注意的是，盡管BN也是一種數(shù)據(jù)歸一化方法，但深度學習領(lǐng)域的歸一化方法和經(jīng)典機器學習的歸一化方法卻存在很大區(qū)別，經(jīng)典機器學習的歸一化方法主要是為了消除不同特征的量綱影響而對各列的數(shù)據(jù)分布進行修改，并且并非所有機器學習模型都要采用數(shù)據(jù)歸一化方法才能進行有效建模，而深度學習歸一化方法的目標則是為了確保模型能夠進行有效訓練為目的，是一種適用于所有模型的一種必要的優(yōu)化方法。同時，盡管BN是一種針對小批數(shù)據(jù)的數(shù)據(jù)歸一化方法，但我們不能將其簡單想象成就是針對每個小批數(shù)據(jù)進行類似傳統(tǒng)機器學習的歸一化操作，并且在使用層面也會相對較難。在學習BN的過程中，首先我們需要了解其背后的優(yōu)化原理，然后再掌握在PyTorch中的實踐方法。
z—score標準化兩個問題（1）創(chuàng)建的數(shù)據(jù)分布，會伴隨著迭代次數(shù)的增加，改變原來調(diào)整的數(shù)據(jù)分布（2）所創(chuàng)建的zero—center這樣的分布不一定是最好的分布，而batch normalization對剛才兩個問題有了很好的解決（1）能圍繞每一個線性層的數(shù)據(jù)進行調(diào)整，而不只是原始數(shù)據(jù)進行調(diào)整（2）靈活調(diào)整分布，自適應(yīng)調(diào)整分布不一定是zero—center分布

二、Batch Normalization基礎(chǔ)理論

??盡管目前來看，Batch Normalization已經(jīng)是被驗證的、行之有效的模型優(yōu)化手段，但BN的誕生及其有效性的原理證明，卻有一段有趣的歷史。
??根據(jù)《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》一文中的觀點，作者認為在深度神經(jīng)網(wǎng)絡(luò)模型訓練過程中，容易出現(xiàn)一種名為內(nèi)部協(xié)方差偏移（Internal Covariate Shift、ICS）的問題，該問題會導致模型性能下降，而為了解決該問題，作者提出了BN方法，并在各種實驗中驗證了BN對模型效果提升的有效性。
??然而，到底什么是ICS，作者在原文中只給出了簡單的描述而未給出嚴格定義，并且對于BN可以提升模型性能方面，作者表示根本原因是因為BN能夠消除ICS。有趣的是，盡管這套理論沒有在原文中給出更加嚴謹?shù)恼f明和論證，但由于BN方法本身在應(yīng)用實踐中效果很好，因此大多數(shù)情況下人們并未對原文中論述不嚴謹?shù)睦碚撏茖Р糠诌M行深究。直到2018年，來自MIT的研究團隊發(fā)表論文，《How Does Batch Normalization Help Optimization?》，研究人員表示，通過一些列嚴謹?shù)膶嶒灴梢宰C明，BN方法對模型優(yōu)化的有效性和原論文中所描述的消除ICS沒有任何關(guān)系，甚至在某些場景下BN還會加劇模型的ICS，而到底是什么讓BN如此有效，MIT的研究團隊最終也沒有給出嚴謹?shù)睦碚撟C明。如此一來BN方法就成了基礎(chǔ)理論“不成立”但實際上很好用的一項優(yōu)化方法，而對于BN的有效性的理論研究，也成為了諸多科研團隊的命題。
??不過，盡管BN有效性原理成謎，但MIT的研究團隊通過一系列的實驗，最終還是給出了一些BN有效性的理論推斷，他們判斷BN之所以有效，應(yīng)該是和修改數(shù)據(jù)分布、從而使得梯度更加平穩(wěn)有關(guān)，也就是該方法之所以能夠發(fā)揮作用，仍然可能和滿足了Glorot條件有關(guān)。因此，在介紹BN方法時，我們將不再討論BN是否能夠ICS這一命題，轉(zhuǎn)而探討是BN如何修正數(shù)據(jù)分布進而使得模型能夠更好滿足Glorot條件這一點入手，盡可能幫助學員建立對BN方法有效性的判別依據(jù)。
??深度學習作為“實證型”技術(shù)，在很多時候模型效果才是首要考慮因素，因此類似BN這種，雖然理論基礎(chǔ)不成立，但實踐效果很好的方法在深度學習領(lǐng)域是廣泛存在的，但是，這并不意味著我們可以不管不顧只討論怎么用而忽略背后的理論討論。對于一名合格的算法工程師，我們還是需要對諸多方法的使用及原理背景樹立正確的認知。

1.歸一化方法與數(shù)據(jù)分布的相互獨立性

??首先，我們需要知道，任何歸一化的本質(zhì)都是對數(shù)據(jù)進行平移和放縮，所謂平移，就是指數(shù)據(jù)集每一列統(tǒng)一加上或減去某一個數(shù)，在Z-Score中就是每一列減去該列的均值，而所謂的放縮，就是指數(shù)據(jù)集中每一列數(shù)據(jù)統(tǒng)一除以或乘以某一個數(shù)，在Z-Score中就是每一列除以當前列的標準差。而數(shù)據(jù)的平移和放縮，是不會影響數(shù)據(jù)特征的分布情況的。

# 設(shè)置隨機數(shù)種子 torch.manual_seed(420) # 創(chuàng)建數(shù)據(jù)集 features, labels = tensorGenCla(num_class= 2, deg_dispersion=[6, 2])# 查看其分布 plt.scatter(features[:, 0], features[:, 1], c = labels)

對原數(shù)據(jù)進行歸一化

features #tensor([[-3.0141, -1.9911], # [-1.6593, -3.7657], # [-2.9395, -2.2347], # ..., # [ 3.9623, 3.0861], # [ 1.4535, 0.7860], # [-1.6681, 4.3935]]) f = Z_ScoreNormalization(features) f #tensor([[-0.8529, -0.5795], # [-0.4764, -1.0878], # [-0.8322, -0.6492], # ..., # [ 1.0859, 0.8750], # [ 0.3887, 0.2161], # [-0.4789, 1.2495]])

然后對比查看歸一化前后數(shù)據(jù)集分布

plt.subplot(121) plt.scatter(features[:, 0], features[:, 1], c = labels) plt.title('features distribution') plt.subplot(122) plt.scatter(f[:, 0], f[:, 1], c = labels) plt.title('f distribution')

我們發(fā)現(xiàn)，歸一化前后數(shù)據(jù)分布不變，但數(shù)據(jù)在空間中的坐標的絕對值發(fā)生變化。當然，我們也可以對原始數(shù)據(jù)進行任意的平移和放縮，查看是否會改變原數(shù)據(jù)的分布。

plt.subplot(121) plt.scatter(features[:, 0], features[:, 1], c = labels) plt.title('features distribution') plt.subplot(122) plt.scatter(f[:, 0]*10-100, f[:, 1]*0.001, c = labels) plt.title('f distribution')

??而比較重要的一點是，數(shù)據(jù)的分布其實就代表著數(shù)據(jù)背后的規(guī)律，我們使用模型去捕捉數(shù)據(jù)規(guī)律，其實就是對數(shù)據(jù)分布情況進行學習。因此，數(shù)據(jù)歸一化不修改數(shù)據(jù)分布，是我們使用歸一化方法的基本前提，否則，一旦數(shù)據(jù)歸一化方法會修改數(shù)據(jù)分布，則相當于是人為破壞了數(shù)據(jù)原始規(guī)律，這將會對后續(xù)的模型學習造成巨大的影響。

在任何情況下，機器學習建模都應(yīng)避免人為修改數(shù)據(jù)規(guī)律，因為一旦加入人為創(chuàng)造的規(guī)律，算法也會不加區(qū)分的進行學習。

2.歸一化與仿射變換

??需要補充的第二點基礎(chǔ)理論就是，歸一化的本質(zhì)仍然是對數(shù)據(jù)進行仿射變換。根據(jù)此前介紹，數(shù)據(jù)的仿射變換用矩陣形式來進行表示就是： $x^=x?w+b\hat x = x * w + b$ 其中x是原數(shù)據(jù)，w是參數(shù)矩陣，b是截距， $x^\hat x$ 是經(jīng)過變換之后的數(shù)據(jù)。此處以Z-Score為例，探討歸一化操作轉(zhuǎn)化為仿射變換的方法。

# 創(chuàng)建一組數(shù)據(jù) f = torch.arange(1, 5).reshape(2, 2).float() f #tensor([[1., 2.], # [3., 4.]]) # 對其進行Z-Score歸一化 Z_ScoreNormalization(f) #tensor([[-0.7071, -0.7071], # [ 0.7071, 0.7071]])

在歸一化運算時，我們進行了如下操作：
$x?mean(x)std(x)\frac{x-mean(x)}{std(x)}$ 當然，該過程也可以寫成如下表達式：
$xstd(x)?mean(x)std(x)=x?1std(x)?mean(x)std(x)=x?γ+β\frac{x}{std(x)} - \frac{mean(x)}{std(x)} = x \cdot\frac{1}{std(x)}- \frac{mean(x)}{std(x)} = x \otimes \gamma + \beta$ 其中 $?\otimes$ 表示逐個元素相乘， $γ和β\gamma 和\beta$ 為指代參數(shù)。

r = torch.tensor(1.) / f.std(0) # 每列的標準差

而原數(shù)據(jù)每列的標準差分之一和原始數(shù)據(jù)的每一列相乘，可以通過如下矩陣相乘形式計算得出：

rm = torch.diag(r) # 構(gòu)建以每列標準差分之一為對角線元素的對角矩陣 rm #tensor([[0.7071, 0.0000], # [0.0000, 0.7071]]) torch.mm(f, rm) # 計算得出每一列除以標準差之后的結(jié)果 #tensor([[0.7071, 1.4142], # [2.1213, 2.8284]]) f / f.std(0) #tensor([[0.7071, 1.4142], # [2.1213, 2.8284]]) b = -(f.mean(0) / f.std(0)) b #tensor([-1.4142, -2.1213]) torch.mm(f, rm) + b #tensor([[-0.7071, -0.7071], # [ 0.7071, 0.7071]]) Z_ScoreNormalization(f) #tensor([[-0.7071, -0.7071], # [ 0.7071, 0.7071]])

??至此，我們可以發(fā)現(xiàn)，在歸一化的過程中，放縮的部分可以通過矩陣乘法來完成，假設(shè)原數(shù)據(jù)為一個m*n的數(shù)據(jù)集，則令其左乘一個對角線元素為原數(shù)據(jù)集每一列放縮參數(shù)的矩陣即可完成放縮，而平移部分則更加簡單，令數(shù)據(jù)集加上由每一列平移幅度所構(gòu)成的向量即可完成平移。
??而如果歸一化是一種仿射變換，并且歸一化的計算過程可以用矩陣運算來完成，那么就有兩方面的直接影響，其一，PyTorch中對數(shù)據(jù)的仿射變換是用線性層完成的，既然歸一化是一種特殊的仿射變換，歸一化的操作也可以由一個特殊的線性層來完成，并且和所有的線性層一樣，歸一化層也可以放置在任何隱藏層前后；其二，在具體實現(xiàn)層面上，在仿射變換中我們是可以設(shè)置參數(shù)、并且通過構(gòu)建損失函數(shù)再利用梯度下降進行求解的，那么對于歸一化這種特殊的仿射變換，平移和放縮的尺度是否可以簡單設(shè)計成一個參數(shù)，然后帶入模型進行訓練求解呢?
??當然是可以的，并且這么做是非常有必要的！如前文所述，將數(shù)據(jù)轉(zhuǎn)化為Zero-Centered Data并非最好的選擇，如果可以通過梯度下降求解出最佳放縮和平移的尺度，大概率會比簡單使用Z-Score將其放縮為均值為0、方差為1的數(shù)據(jù)分布效果更好（至少不會差）。另外，我們將歸一化操作看成一個特殊的線性層，也將極大拓展歸一化操作可以出現(xiàn)的位置。在經(jīng)典機器學習領(lǐng)域，對數(shù)據(jù)的歸一化只停留在輸入數(shù)據(jù)時對數(shù)據(jù)進行統(tǒng)一處理，但正如前文所述，如果只對初始輸入數(shù)據(jù)進行歸一化，那么在迭代過程中，數(shù)據(jù)會逐漸失去初始化之后所帶來的良好特性，此時如果我們可以像添加線性層一樣，在任意隱藏層前后添加歸一化層，則可以在迭代的每個環(huán)節(jié)對數(shù)據(jù)進行歸一化，如此一來就能避免迭代過程中數(shù)據(jù)逐漸偏移所導致的梯度不平穩(wěn)問題。
??而實際上，BN就是這么做的。在BN中，以每次輸入的小批數(shù)據(jù)為訓練數(shù)據(jù)，我們將平移和放縮的尺度視作參數(shù)，通過帶入模型進行訓練，最終得出最佳平移和放縮尺度，并且這種BN歸一化層會可以出現(xiàn)在任意隱藏層的前后，為數(shù)據(jù)傳輸?shù)拿恳徊竭M行歸一化操作。具體原理如下節(jié)所示。

當然，這里需要補充一點。將平移和放縮的尺度視為參數(shù)，則代表我們不是朝著零均值的方向去進行歸一化處理，實際上在參數(shù)化尺度的時候，參數(shù)迭代的方向自然就變成了盡量保持各層梯度平穩(wěn)，這也是參數(shù)化歸一化尺度的有效性的最佳證明。相關(guān)數(shù)學原理可參考上述兩篇論文，課上不對此進行拓展。

實際上，均值為0、方差為1的歸一化卻是也不一定是最優(yōu)選擇，根據(jù)各層梯度計算公式不難看出，最佳的數(shù)據(jù)歸一化方法并不是絕對的0均值1方差，而是能夠使得最終各變量相乘之后梯度保持均衡。 $grad1=?loss?y^?w3?f(F(X?w1)?w2)?f(F(X?w1))?w2?f(X?w1)?Xgrad_1 = \frac{\partial loss}{\partial \hat y} \cdot w_3 \cdot f(F(X*w_1)*w_2) \cdot f(F(X*w_1)) \cdot w_2 \cdot f(X * w_1) \cdot X$ $grad2=?loss?y^?w3?f(F(X?w1)?w2)?F(X?w1)grad_2 = \frac{\partial loss}{\partial \hat y} \cdot w_3 \cdot f(F(X*w_1)*w_2) \cdot F(X * w_1)$ $grad3=?loss?y^?F(F(X?w1)?w2)grad_3 = \frac{\partial loss}{\partial \hat y} \cdot F(F(X * w_1) * w_2)$

3.Batch Normalization基本流程

??有了基本認知之后，接下來我們來討論Batch Normalization的基本實現(xiàn)流程。作為針對數(shù)據(jù)歸一化方法，Batch Normalization的理論實現(xiàn)流程看似更加復雜，但實際上，和所有的歸一化方法一樣，BN做的也就是對輸入數(shù)據(jù)進行平移和放縮。只不過BN的平移和放縮分為兩個階段，第一個階段是進行Z-Score處理，也就是將輸入數(shù)據(jù)的均值平移至0點，并將輸入數(shù)據(jù)的方差放縮至1；第二階段則是在此基礎(chǔ)上在對數(shù)據(jù)的均值進行參數(shù)平移（加上一個通過訓練、也就是梯度下降算法算得的參數(shù)），并對其方差進行參數(shù)（另一個通過模型訓練、也就是梯度下降算得的參數(shù)）放縮。具體數(shù)學過程如下：

Stage 1：Z-Score放縮
$μB=1mB∑i=1mBx(i)\mu_B = \frac{1}{m_B}\sum^{m_B}_{i=1}x^{(i)}$ $δB2=1mB∑i=1mB(x(i)?μB)2\delta^2_B=\frac{1}{m_B}\sum^{m_B}_{i=1}(x^{(i)}-\mu_B)^2$ $x^(i)=x(i)?μBδB2+?\hat{x}^{(i)} = \frac{x^{(i)}-\mu_B}{\sqrt{\delta^2_B+\epsilon}}$
??其中 $μB\mu_B$ 代表輸入的小批數(shù)據(jù)均值， $δB2\delta^2_B$ 代表輸入的小批數(shù)據(jù)方差， $x^\hat{x}$ 代表Z-Score歸一化后的數(shù)據(jù)結(jié)果，和此前一樣，Z-Score計算過程為減去每一列的元素減去該列的均值除以該列的修正后的標準差（方差加上一個極小的數(shù)使得其不為零）。第一階段的參數(shù)都是可以計算或者人工設(shè)置的，其中均值和方差都是簡單計算即可得出，而修正項 $?\epsilon$ 則是可以手動設(shè)置的。

Stage 2：帶參數(shù)的平移和放縮
$z(i)=γ?x^(i)+βz^{(i)}=\gamma \otimes \hat{x}^{(i)}+\beta$ ??和第一階段參數(shù)可以簡單計算得出不同，二階段的參數(shù)，也就是 $γ\gamma$ 和 $β\beta$ 都是模型參數(shù)，在實際模型訓練過程中是需要作為模型整體參數(shù)的一部分，帶入損失函數(shù)、進而通過梯度下降計算得出的。而二階段的實際處理數(shù)據(jù)過程，則是首先對一階段放縮之后每一列的 $x^\hat{x}$ 乘以一個固定的 $γ\gamma$ 在加上一個固定的 $β\beta$ 。需要強調(diào)的是，上述公式是針對列進行處理，即每一列都乘以一個 $γ\gamma$ 再加上一個 $β\beta$ ，并不是所有數(shù)據(jù)都乘以一個 $γ\gamma$ 再加上一個 $β\beta$ ，也不是每一個數(shù)據(jù)都乘以一個 $γ\gamma$ 再加上一個 $β\beta$ 。

BN的兩個階段之間關(guān)系

??細心的同學不難發(fā)現(xiàn)，實際上BN的第一個階段和第二個階段都是在做同一件事——都是在對數(shù)據(jù)進行平移和放縮，甚至當 $γ=δB2+?,β=μB\gamma=\sqrt{\delta^2_B+\epsilon}, \beta=\mu_B$ ，二階段處理結(jié)果將還原回原始輸入數(shù)據(jù)，也就是 $z^{(i)}=x^{(i)}$
??既然兩個階段做的相同的事情，為何不能直接合并為一個階段。從理論上來說，我們可以將上述過程合并為：
$z(i)=γ?x^(i)+β=γ?x(i)?μBδB2+?+β=γδB2+??x(i)+(β?γ?μBδB2+?)=γ^?x(i)+β^\begin{aligned} z^{(i)} & = \gamma \otimes \hat{x}^{(i)}+\beta \\ & = \gamma \otimes \frac{x^{(i)}-\mu_B}{\sqrt{\delta^2_B+\epsilon}} + \beta \\ & = \frac{\gamma}{\sqrt{\delta^2_B+\epsilon}}\otimes x^{(i)}+(\beta-\frac{\gamma \cdot \mu_B}{\sqrt{\delta^2_B+\epsilon}}) \\ & = \hat\gamma \otimes {x}^{(i)}+\hat \beta \\ \end{aligned}$ ??但在實際建模過程中我們并沒有這么做，實際PyTorch模型訓練完成后輸出的參數(shù)結(jié)果也是原始的 $γ和β\gamma和\beta$ 。這里我們可以這樣理解：BN方法無疑會增加模型計算量，而提前對數(shù)據(jù)進行Z-Score處理，就相當于是先選擇了一組初始的 $γ和β\gamma和\beta$ 對數(shù)據(jù)進行處理（此時 $γ0=1δB2+?,β0=?μBδB2+?\gamma_0=\frac{1}{\sqrt{\delta^2_B+\epsilon}}, \beta_0 = \frac{-\mu_B}{\sqrt{\delta^2_B+\epsilon}}$ ），然后再此基礎(chǔ)之上進行帶參數(shù)的平移和縮放，二階段平移和縮放的參數(shù)是需要經(jīng)過梯度下降迭代計算得出，而選擇在 $γ0和β0\gamma_0和\beta_0$ 基礎(chǔ)上進行梯度下降計算，就相當于選擇了一組初始值點，而該初始值點能夠有效提升迭代收斂速度。

好處：
（1）而選擇在 $γ0和β0\gamma_0和\beta_0$ 基礎(chǔ)上進行梯度下降計算，就相當于選擇了一組初始值點，而該初始值點能夠有效提升迭代收斂速度
（2）計算小批數(shù)據(jù)的均值和方差，由此來計算出整個測試集的均值和方差，如果沒有stage1，就沒法計算整體的均值和方差

數(shù)據(jù)歸一化與仿射變換

??根據(jù)前文論述我們知道，數(shù)據(jù)歸一化本質(zhì)也是對數(shù)據(jù)進行一種特殊的仿射變換，并且在PyTorch中，仿射變換是能通過矩陣運算來實現(xiàn)。既然如此，我們在PyTorch中進行BN歸一化的操作其實就可以視作添加了一層特殊的線性層來進行計算，其中線性層的參數(shù)就是 $γ和β\gamma和\beta$ ，實際的計算過程如下： $diag(\frac{\gamma}{\sqrt{\delta^2_B+\epsilon}}) +(\beta-\frac{\gamma \cdot \mu_B}{\sqrt{\delta^2_B+\epsilon}})$ 也就相當于 $x ? w + b$

這里需要注意的是， $γ和β\gamma和\beta$ 都是列向量，和 $μ、δ\mu、\delta$ 一樣，每個元素對應(yīng)輸入數(shù)據(jù)的一列。

并且我們需要知道兩種特殊情況，其一，當 $γ=1,β=0\gamma = 1, \beta=0$ 時，上述仿射變換過程就退化為Z-Score變換；其二，當 $γ=δB2+?,β=μB\gamma=\sqrt{\delta^2_B+\epsilon}, \beta=\mu_B$ 時，就相當于退回原始數(shù)據(jù)集。

4.Batch Normalization方法有效性認知

??接下來，我們從理論角度，簡單分析BN方法的實際作用。我們知道，一旦 $γ和β\gamma和\beta$ 訓練完成、也就是數(shù)值確定，經(jīng)過BN處理完的數(shù)據(jù)將朝向方差為 $γ\gamma$ 、均值為 $β\beta$ 的分布方向靠攏。也就是BN作為一種特殊的仿射變換，會調(diào)整經(jīng)過BN層的數(shù)據(jù)分布，而數(shù)據(jù)分布的均值和方差又是由模型訓練得到的，并不一定像Z-Score一樣是調(diào)整為0均值1方差的數(shù)據(jù)分布，因此我們可以理解為BN在調(diào)整數(shù)據(jù)分布時其實是朝著最有利于提升模型效果的方向調(diào)整，或者說，朝著滿足損失函數(shù)能取得更小數(shù)值的方向調(diào)整。在這個過程中，調(diào)整后的數(shù)據(jù)分布可以以任何形態(tài)出現(xiàn)，并不局限于0均值和1方差的數(shù)據(jù)分布，這一點是BN方法和Z-Score方法最核心的區(qū)別，當然，如果我們反向論證，如果最終模型算得最佳分布不是0均值1方差的分布，那么也就說明Z-Score歸一化方法并不是適用于當前模型的最佳歸一化方法。
??另外，我們前面也討論過，對數(shù)據(jù)進行歸一化處理，也就是放縮和平移，其實是不會改變數(shù)據(jù)分布規(guī)律的，因此我們可以在模型訓練的任何時候、任意階段對數(shù)據(jù)進行放縮和平移。而BN方法本身又是一種數(shù)據(jù)分布自適應(yīng)的方法，可以根據(jù)實際情況訓練出最合適的數(shù)據(jù)分布，因此我們可以將BN方法放置于神經(jīng)網(wǎng)絡(luò)的各個線性層前后的，協(xié)助模型即時調(diào)整數(shù)據(jù)在每一層的分布。當然，就像此前說的一樣，其實我們也可以對每一層數(shù)據(jù)進行Z-Score處理，但可想而知，效果應(yīng)當不如數(shù)據(jù)分布自適應(yīng)的BN方法好。
??如果這種自適應(yīng)的數(shù)據(jù)分布調(diào)整是朝向損失函數(shù)取值更小的方向調(diào)整，并且數(shù)據(jù)分布直接影響的就是各線性層的梯度平穩(wěn)行，而梯度平穩(wěn)又是保證模型有效性的根本原因之一，據(jù)此我們或許也可以從理論上推導出這種數(shù)據(jù)分布上的自適應(yīng)的調(diào)整確實是朝向保證模型梯度平穩(wěn)的方向調(diào)整的。

5.Batch Normalization的訓練和測試過程

??理論階段的最后一部分，我們補充一下關(guān)于BN方法在測試集上的使用過程。
??對于傳統(tǒng)機器學習的歸一化方法來說，在訓練集上進行訓練、在測試集上進行測試的流程相對比較清晰，用于測試集歸一化的參數(shù)是從訓練集當中計算而來的，也就是說在對測試集進行歸一化時，均值和方差都是訓練集中數(shù)據(jù)計算結(jié)果。當然，對于BN方法來說，這一點仍然沒變，只不過由于BN方法是針對每一個小批數(shù)據(jù)進行歸一化，并且計算過程也是使用了整體均值和方差的無偏估計，盡管當模型訓練完成時將算出 $γ和β\gamma和\beta$ 的值，但當帶入測試數(shù)據(jù)進行向前傳播時，均值和方差仍然是需要計算的數(shù)值。這里由于測試集可能是一條條數(shù)據(jù)進來，因此我們是不能使用測試集的均值和方差對整體進行無偏估計的。為解決該問題，BN方法一般都會配套一個記錄訓練數(shù)據(jù)整體均值和方差的方法，并且為了做到訓練階段和測試階段使用不同的計算方式，在PyTorch中調(diào)用BN方法時也會涉及到關(guān)于模型狀態(tài)切換的相關(guān)內(nèi)容。
??以上就是Batch Normalization的基礎(chǔ)理論介紹，下一節(jié)開始我們將進行Batch Normalization在PyTorch中的實現(xiàn)方法的介紹。

《新程序員》：云原生和全面數(shù)字化實踐50位技術(shù)專家共同創(chuàng)作，文字、視頻、音頻交互閱讀

總結(jié)

以上是生活随笔為你收集整理的Lesson 14.1 数据归一化与Batch Normalization理论基础的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Lesson 13.5 Xavier方法
下一篇： Lesson 14.3 Batch No