人工智能复习总结
文章目錄
- 多層感知機
- 注意力機制
- RNN 網(wǎng)絡(luò)
- 遷移學(xué)習(xí)抑制遺忘
- 增量學(xué)習(xí)
- 重復(fù)模型然后調(diào)參
- 特征提取器保留
- 非遺忘學(xué)習(xí)
- 神經(jīng)網(wǎng)絡(luò)的可解釋性
- 多模態(tài)學(xué)習(xí)
- 統(tǒng)一特征
- 聯(lián)合表示
- 常用的訓(xùn)練優(yōu)化方法
- 預(yù)訓(xùn)練
- dropout 方法
- 權(quán)重衰減正則化
- 數(shù)據(jù)增廣
- Batch Normalization 批量歸一化
- 內(nèi)部協(xié)變量移位
多層感知機
結(jié)構(gòu):輸入層,隱藏層,輸出層;mlp 是一種最簡單的神經(jīng)網(wǎng)絡(luò)算法。
學(xué)習(xí)率:參數(shù)變化的步長
CrossEntropyLoss 是 交叉熵
為什么使用交叉熵
使用交叉熵作為損失函數(shù)相比于均方差,可以消除sigmoid的一次導(dǎo)數(shù)項(很小的數(shù)據(jù)),反向傳播時可以保留更多的數(shù)據(jù),加速網(wǎng)絡(luò)收斂
torch 的 nn 包里面有input_layer 有 hidden 有 output 都使用nn的Linear構(gòu)造輸入輸出節(jié)點
optim.Adam() 包含很多的優(yōu)化包
torch中tensor的使用
將data數(shù)據(jù)類型轉(zhuǎn)換為float
如何理解 pytorch 中的tensor 的 dim=-1
dim=-1和dim=2 是同樣的效果
tensor.T相當(dāng)于是在做轉(zhuǎn)置
zero_grad() 優(yōu)化器的梯度去除是為了不讓上一次的梯度影響這一次的傳播,因此需要在方向傳播之前完成
注意力機制
一文看懂注意力機制
為什么需要注意力機制?人看東西不是看完了所有的細節(jié),只看重點,同樣可以很好的完成日常任務(wù),使用注意力機制可以幫助及其關(guān)注重點,更快,更好完成任務(wù)。
注意力機制步驟:
1.計算不同的屬性和目標的相似度
2.用softmax表達相似度的概率
3.概率高的,權(quán)重高,加權(quán)訓(xùn)練
RNN 網(wǎng)絡(luò)
干什么:處理有一定關(guān)聯(lián)的神經(jīng)網(wǎng)絡(luò)輸入。例如根據(jù)輸入的上一個單詞的性質(zhì)預(yù)測下一個單詞的詞性。
怎么做:將隱藏層的輸出連回隱藏層的輸入。
遷移學(xué)習(xí)抑制遺忘
增量學(xué)習(xí)
學(xué)習(xí)新知識的時候?qū)W習(xí)舊知識。面對新任務(wù)時,將舊的數(shù)據(jù)也納入訓(xùn)練數(shù)據(jù)集。
重復(fù)模型然后調(diào)參
用舊的模型參數(shù)做為起點,訓(xùn)練新的模型,做決策時同時考慮新舊兩種模型。
特征提取器保留
將特征提取器的參數(shù)保留,而訓(xùn)練全連接層的參數(shù)
非遺忘學(xué)習(xí)
學(xué)習(xí)新任務(wù)時,用舊的模型給部分新的數(shù)據(jù)打上標簽,再訓(xùn)練新的數(shù)據(jù),達到遷移學(xué)習(xí)的目的。
神經(jīng)網(wǎng)絡(luò)的可解釋性
反向cnn訓(xùn)練,知道某個輸出代表了什么輸入
多模態(tài)學(xué)習(xí)
統(tǒng)一特征
將特征映射到同一個空間中,歸一化特征
聯(lián)合表示
使得不同形態(tài)的數(shù)據(jù)形式間有關(guān)聯(lián)性,約束性
常用的訓(xùn)練優(yōu)化方法
預(yù)訓(xùn)練
類似于遷移學(xué)習(xí),將已經(jīng)訓(xùn)練好的參數(shù)直接拿來使用。
dropout 方法
神經(jīng)元不是所有的都連接,隨機選擇激活神經(jīng)元。用來解決過擬合。
權(quán)重衰減正則化
限制模型不能非常復(fù)雜,可以在損失函數(shù)上下功夫。
數(shù)據(jù)增廣
人工神經(jīng)網(wǎng)絡(luò)需要很多的訓(xùn)練樣本,如果說是數(shù)據(jù)夠,可以自己來湊,對圖片旋轉(zhuǎn),平移,翻轉(zhuǎn)。
Batch Normalization 批量歸一化
為什么要這個方法:提高模型的泛化能力
核心思想:識別對網(wǎng)絡(luò)用處不大的神經(jīng)元,削弱這些神經(jīng)元的作用。
內(nèi)部協(xié)變量移位
多層感知機底層的參數(shù)變化,會導(dǎo)致上層參數(shù)的巨大變化。也很容易陷入激活函數(shù)的飽和區(qū)。解決辦法要么換激活函數(shù),要么限制輸入數(shù)據(jù)的方位,限制范圍是BN算法做的事情
總結(jié)
- 上一篇: 对F-score的理解
- 下一篇: 写日记的序