當前位置：首頁 > 人工智能 > pytorch >内容正文

pytorch

深度学习——名词总结篇

發布時間：2024/1/18 pytorch 40 豆豆

生活随笔收集整理的這篇文章主要介紹了深度学习——名词总结篇小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

103. HIN(異構信息網絡)

102.?Hypergraph(超圖):

一條邊上有多個點的圖
二階超圖: 平時使用的圖
三階超圖:?

?

101.hard sample mining:

取那些識別不好的樣本再次進行模型微調

?

100.ground truth:

直述：有監督學習里的真值，有效值，標準值

?

90.范數：

范數主要是對矩陣和向量的一種描述，有了描述那么“大小就可以比較了”，從字面理解一種比較構成規范的數。有了統一的規范，就可以比較了。
例如：1比2小我們一目了然，可是（3,5,3）和（6,1,2）哪個大？不太好比吧
矩陣范數：描述矩陣引起變化的大小，AX=B，矩陣X變化了A個量級，然后成為了B。
向量范數：描述向量在空間中的大小。更一般地可以認為范數可以描述兩個量之間的距離關系。
L-0范數：用來統計向量中非零元素的個數。
L-1范數：向量中所有元素的絕對值之和。可用于優化中去除沒有取值的信息，又稱稀疏規則算子。
L-2范數：典型應用——歐式距離。可用于優化正則化項，避免過擬合。
L-∞范數：計算向量中的最大值。

89.梯度裁剪：

直述：使得梯度不超過一個閾值
目的：解決梯度消失，梯度爆炸問題
公式：
- 把所有梯度接成一個向量g
- 假設裁剪的閾值是
- 則，裁剪使得||g||不會超過

?

88.核范數：

矩陣奇異值的和，用于約束矩陣的低秩
對于稀疏性質的數據而言，其矩陣是低秩且會包含大量冗余信息
冗余信息可被用于恢復數據和提取特征

?

87.奇異值：

矩陣里的概念
一般通過奇異值分解定理求得
定義：設A為m*n階矩陣，q=min(m,n), A*A的q個非負特征值的算數平方根，叫做A的奇異值
奇異值分解是線性代數和矩陣論中一種重要的矩陣分解法，適用于信號處理和統計學等領域

86.拉普拉斯矩陣：

L=D-A： D----度矩陣，A----領接矩陣
拉普拉斯矩陣是半正定矩陣
特征值中0出現的次數就是圖連同區域的個數
最小特征值是0, 因為拉普拉斯矩陣每一行的和均為0
最小非零特征值是圖的代數連通度

85.弱監督學習：

已知：數據和其一一對應的弱標簽
目的：學習映射，將數據映射到更強的一組標簽
解釋：標簽的強弱是指標簽蘊含信息量的多少
例：已知圖中有一只豬，學習住在哪，豬和背景的分界線

84.Benchmark

基準

83.Monocular Depth Estimation：單目深度估計

直述：從二維圖像中，估計出三維空間

分割線：倒著來。。。。。。。。。。。。。。。

1.Memory:

我的出處：ECN。元學習時提及此方式。
原理：目標域的圖片經網絡題取出特征向量，存儲到memory中;下一次新的即可和上次的做聚類;
公式：?(其中是隨著epoch不斷線性增加的：? ?PS:但為什么新特征的影響會越來越大？)
用處：
? ? ? ? ?1.Domain Adaptation，用新提取出的特征向量和舊的做聚類，可使模型在目標域上的泛化能力增強
? ? ? ? ?2.因為是在整個訓練過程中不斷積累，所以能夠很好地傳遞全局性質，不僅僅只在一個batch中。

2.Domain Adaptation:域適應

我的出處:ECN的主題。老師提及。語義分割也有此問題。? ? ? ? ? ?
描述：用源域訓練數據得到模型，在目標域上的泛化能力不強。
背景：常常出現在無監督和半監督學習。

3.Semantic Segmentation:語義分割

4.GCN:圖卷積

我的出處：師兄提到過，CVPR19的工作中，不僅有可以做多標簽識別，還有做半監督的，所以有必要~
背景：可以把圖（鄰階矩陣）做輸入，以探究信息訓練模型
原理：

? ? ? ? ? ? ? ? ?（1）輸入：

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?1）特征矩陣?(節點數，每個結點的特征數)

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?2）鄰階矩陣A

? ? ? ? ? ? ? ? ? ?(2) 隱藏層的傳播規則：? (：非線性激活函數，W:權重矩陣，決定了下一層的特征數)

（補）拉普拉斯矩陣：

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?1）

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?2）(GCN很多論文中用這種)

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?3）

相關名詞：譜聚類，拉普拉斯矩陣，傳播規則

5.Residual Network:殘差網絡（大名鼎鼎的ResNet）

我的出處：ECN修改預訓練模型的時候，作者提及未懂。接下來時間又見到很多次。
背景：用深度網絡比用淺層網絡在訓練集上的效果更差（不是過擬合：注意因為不是在測試集而是在訓練集上）
作用：解決網絡退化問題。即又保持了深的網絡的高準確度，又避免了它會退化的問題。
實現：shortcut（identity mapping）(其實很簡單：每一層不僅取決于上一層，還要取決于很久之前的層)

存在的問題：如果和的維度不一樣怎么辦？那就做一層卷積升維或者降維再做加法運算。
相關名詞：shortcut

6.Learning Rate:學習率

我的出處：論文實驗部分。pytorch有多種調節學習率的函數。
作用：調節梯度下降快慢。一般最開始值大，后續會減小。（太大會超過最優值，太小會下降得過慢）
相關名詞：weight-decay（減小不重要參數對結果影響，即網絡中有用的權重不會受到它的影響）;momentum(當誤差曲面在平坦區域，就可以更快學習);learning rate decay(提高SGD的尋優能力，學習率隨著epoch的增大而減小)

8.Baseline

我的出處：ECN的時候，作者在實驗部分闡述用到的名詞。還有鄭哲東那篇baseline的文章。
我的理解：不加作者的技巧，干干凈凈的基礎網絡。

9.Data Augmentation:數據增強

我的出處：ECN看實驗的時候，提及對數據做的處理。pytorch有專門函數調用。
主要方法：

? ? ? ? ? ? ? ? ? ? ? ?（1）flip:翻轉變換

? ? ? ? ? ? ? ? ? ? ? ?（2）random crop:隨機修剪

? ? ? ? ? ? ? ? ? ? ? ?（3）color jitterjing:色彩抖動

? ? ? ? ? ? ? ? ? ? ? ?（4）shift:平移變換

? ? ? ? ? ? ? ? ? ? ? ?（5）scale:尺度變換

? ? ? ? ? ? ? ? ? ? ? ?（6）constrast:對比度變換

? ? ? ? ? ? ? ? ? ? ? ?（7）noise:噪聲擾動

? ? ? ? ? ? ? ? ? ? ? ? ?(8) rotation/reflection:旋轉變換/反射變換

? ? ? ? ? ? ? ? ? ? ? ?（9）random erasing:隨機擦除

10.temprature fact:

我的出處：ECN在做softmax時在指數項上加的分母
作用：平衡數據的分布

11.semi-supervised learning：半監督學習

我的出處：ECN的整個訓練模式
描述：用標簽數據和未標簽數據共同訓練模型
過程：

? ? ? ? ? ? ? ? ? ? step1:用標簽數據訓練模型

? ? ? ? ? ? ? ? ? ? step2:用無標簽數據訓練上述模型，并打上偽標簽

? ? ? ? ? ? ? ? ? ? step3:用標簽數據和偽標簽數據共同訓練模型

?好處：

? ? ? ? ? ? ? ? ? ? ?（1）有標簽數據太過昂貴

? ? ? ? ? ? ? ? ? ? ?（2）精確決策邊界以改變模型的魯棒性

相關名詞：pseudo labelling(偽標簽)

12.pseudo labelling:偽標簽

我的出處：ECN的memory損失函數計算
描述：使用某種方法未無標簽的數據貼上標簽，然后訓練模型
方法：memory

13.finetune：遷移學習

我的出處：pytorch使用時涉及

14.NPLM：（一種根據前幾個詞預測下一個詞的語言模型）

我的出處：word2vec前的詞向量語言模型
作用：用前幾個詞預測下一個詞。詞向量（輸入層的參數）是這個過程重要的副產品。
具體：

? ? ? ? ? ? ? ? （1）輸入：根據詞典進行one-hot編碼，輸入。（不是輸入好幾個詞預測下一個詞嗎？）

? ? ? ? ? ? ? ? （2）過程：循環輸入前幾個詞，預測值，訓練網絡。

缺點：訓練過程過慢（和Word2Vec比起來）

15.Word2Vec：（一種產生詞向量的模型,以無監督方式學習語義）

我的出處：NPL第一個接觸的重要名詞
作用：用前幾個詞預測下一個詞。詞向量（輸入層的參數）是這個過程重要的副產品。
結構：CBOW? ? +? ? Skip-gram

? ? ? ? ? ? ? ? ? （1）CBOW：（連續詞袋模型）用上下文預測當前詞。（將向量簡單地加到一起，中間只有一層，迫使網絡更加有效地生成詞向量）

? ? ? ? ? ? ? ? ? （2）Skip-gram:用當前詞詞預測上下文

增加效率的方式（和NPLM比起來）：Hierarchical Softmax
增加Loss效果的方式:負采樣
調用庫：gensim

16.Hierarchical Softmax:(一種輸入層數據結構)

我的出處：word2vec中CBOW的輸入層的數據結構
作用：增加訓練效率。查詢變快，訓練也變快。
原理：將輸入層原來的扁平結構變成Huffman樹。（NPLM只是更新一個詞節點的權重，而Hierarchical Softmax從葉節點到連邊的所有權重。）

17.negtive sample:負采樣

我的出處：word2vec中CBOW的損失函數
公式：? （這個思想很多地方用到）

18.RNN:循環神經網絡

我的出處：為什么粲要選這里
特點：同層之間有循環，使信息能夠保留，使網絡具有記憶能力
公式（最簡單的，以便理解）：

? ? ? ? ? ? ? ? ? ? ? ? ? （1）輸入層到隱含層：? ?(激勵函數的項不僅有函數本身的，還有記憶遺留的)

? ? ? ? ? ? ? ? ? ? ? ? ? （2）隱含層到輸出層：? ?（激勵函數的還是普通的項）

缺點：

? ? ? ? ? ? ? ? ? ? ? ? ? ?（1）記憶能力有限

? ? ? ? ? ? ? ? ? ? ? ? ? ?（2）梯度消失，梯度爆炸（難以訓練收斂）

序列生成問題：需要種子，訓練和預測都需要循環
相關名詞：LSTM（比起RNN神經元多了輸入門，輸出門，遺忘門），GRU
補充：RNN既可關注到詞語的含義也可關注到詞語間的聯系。
拓展：音樂生成模型網絡

? ? ? ? ? ? ? ? ? ?網絡架構：

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?（1）輸入輸出：多輸入多輸出（如曲調的旋律，節奏，強弱等等）

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?（2）隱藏層：不分多段，可以幫助更好地捕捉序列間的微妙關系。

? ? ? ? ? ? ? ? ? 使用工具:MIDII音樂

? ? ? ? ? ? ? ? ? ?

? ? ? ? ? ? ? ? ? ? ? ?

19.Encoder-Decoder(seq2seq):編碼器和解碼器

我的出處：文本翻譯時遇到的模型
背景：人類在進行翻譯的時候，定然不是一字一句進行翻譯的。一般都是先理解整個語義，然后按照自己的理解翻譯出來。而編碼器就像是先“理解語義”，解碼器就像“翻譯出來”。
結構：

? ? ? ? ? ? ? ? ? ? ? ? ? （1）編碼器：輸入文本經過幾層RNN,輸出內部狀態（向量）

? ? ? ? ? ? ? ? ? ? ? ? ? （2）解碼器：只是比編碼器多一個輸出層（直接用編碼器的權重初始化解碼器！！！理解：其實這種方式也是網絡連接的過程）。用SOS循環生成。

相關名詞：Attention
拓展：encoder和decoder不僅僅可以用RNN,還可以用CNN等各種網絡。這里就會提到一個廣義的翻譯的問題了，不僅僅是文本轉文本，還有圖片轉文本等等。

20.Attention:注意力

我的出處：組會時師兄多次提及。Encoder和Decoder模型優化的一種方式。
背景：Encoder和Decoder翻譯模型在較短的句子變現較好，但是長的句子不佳。
直述：一種前饋式神經網絡，輸出詞的權重。
原理：

? ? ? ? ? ? ? ? （1）在encoder過程中，會生成每個詞的內部狀態（向量）

? ? ? ? ? ? ? ? （2）在decoder的時候，不僅要產生翻譯結果，還要將內部狀態（向量）輸入到Attention網絡里，該網絡會輸出一個權重向量。

? ? ? ? ? ? ? ? （3）在下次內部狀態（向量）要使用decoder之前：使用內部狀態（向量）和Attention的輸出做點乘（理解：表示重點關注某個詞），然后做decoder的輸入。

21.Reinforcement Learning:強化學習

我的出處：轉專業友喜歡，學校有老師研究
強調：不止是被動地學習神經網絡，還有完整的intelligent agent和環境的互動。
組成：

? ? ? ? ? ? ? ? ? ? ? ? （1）Agent:主體（動作的執行者）

? ? ? ? ? ? ? ? ? ? ? ? （2）Environment:環境（環境無法操控主體，但是會給主體反饋）

? ? ? ? ? ? ? ? ? ? ? ? （3）Action:動作

? ? ? ? ? ? ? ? ? ? ? ? （4）Reward:獎勵

? ? ? ? ? ? ? ? ? ? ? ? （5）Q(s,a)：一個評價函數，用以給當前狀態下的動作打分。主導Agent的動作，做分高者。

原理：神經網絡擬合Q函數
過程：(如Flappy Bird游戲)

? ? ? ? ? ? ? ? ? ? ?1.隨機執行，積累數據：此時狀態，動作，環境反饋，下時刻的狀態

? ? ? ? ? ? ? ? ? ? ?2.神經網絡訓練Q函數：（開始訓練，不再隨機，逐漸清醒）

? ? ? ? ? ? ? ? ? ? ? ? ?(1) 輸入：游戲一幀的圖像畫面

? ? ? ? ? ? ? ? ? ? ? ?（2）經過：卷積，池化，全連接等等操作。

? ? ? ? ? ? ? ? ? ? ? ?（3）輸出：

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?神經元的個數：可以執行的動作的個數。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?數值：Q函數的值，分高者，即為應該執行的值。

?難點：在覺大部分時間環境都不會給出即時反饋。在沒有反饋的階段應該如何？將下一時刻的狀態輸入，得到的Q函數作為此次的Q函數，如此，即可保證動作的選擇會傾向與未來想要的狀態一致。
啟發：

? ? ? ? ? ? ? ? （1）大的算法框架，它的思維往往主導者一個非常大的學習方向（如CNN,RNN,GAN, Encoder 和 Decoder, Reinforcement Learnning等等）。

? ? ? ? ? ? ? ? （2）其他問題向深度學習的轉換。

相關名詞：DQN

20.SlowFast Network:(一種視頻分類網絡)

我的出處：2019ICCV口頭文章
原理：快慢雙通道網絡。快捕捉動作，慢捕捉語義。

21.Batch Normalization

22.Internal Covariate Shift

https://blog.csdn.net/hjimce/article/details/50866313

https://www.zhihu.com/question/38102762

https://zhuanlan.zhihu.com/p/39918971

https://www.jianshu.com/p/5977ea170322

https://blog.csdn.net/mao_xiao_feng/article/details/54317852

https://blog.csdn.net/guoyuhaoaaa/article/details/80236500

23.Distillation:知識蒸餾（KD）

我的出處：2019CVPR涉及的主題知識點
背景：

? ? ? ? ? ? ? ?（1）提高機器學習算法表現的一個簡單方法就是：訓練不同模型然后對預測結果取平均

? ? ? ? ? ? ? ?（2）但是要訓練多個模型會帶來過高的計算復雜度和部署難度。

? ? ? ? ? ? ? ?（3）

作用：

? ? ? ? ? ? ? ?（1）distillation:把大網絡的知識壓縮成小網絡的一種方法

? ? ? ? ? ? ? ? ?(2)? ?specialist models:對于一個大網絡，可以訓練多個專用網絡來提升大網絡的模型表現

相關名詞：

? ? ? ? ? ? ? ?（1）teacher:原始模型或模型ensemble（一種集成模型一個完整和多個專用，能夠學習區分完整模型容易混淆的細粒度的類別）

? ? ? ? ? ? ? ? ?(2)? ?student:新模型

? ? ? ? ? ? ? ? ?(3)? ?transfer set:用來遷移teacher知識，訓練student的數據集合

? ? ? ? ? ? ? ? ?(4)? ? soft target:teacher輸出的預測結果（一般是softmax預測之后的概率）

? ? ? ? ? ? ? ? ?(5)? ? hard target:樣本原本的標簽

? ? ? ? ? ? ? ? ?(6)? ? temperature:蒸餾目標函數中的超參數

? ? ? ? ? ? ? ? ?(7)? ? born-again network(BAN):蒸餾的一種，指student和teacher的結構和尺寸完全一樣。既然老師和學生一樣就可以不斷地迭代下去，就新出來的student又可以當下一個的老師。這樣，student甚至可以青出于藍而勝于藍。

? ? ? ? ? ? ? ? ?(8)? ? teacher annealing:防止student的表現被teacher限制，在蒸餾時逐漸減少soft targets的權重。

? ? ? ? ? ? ? ?（9）? dark knowledge:捕捉類和類之間的關系（主要是soft-target的作用吧）

? ? ? ? ? ? ? ?（10）secondary information:捕捉圖片中，除標簽以外其他的信息。即“Tolerant Teacher”,就降低teacher的top1,teacher會就此差一點，但是因此訓練出來的student會好很多。

24.Lable Smoothing:標簽平滑

我的出處：Re-ID Baseline的時候好像提過，然后Teacher-Student Learning中的BAN加速好像也有它。
作用：解決one-hot導致的過擬合問題
公式：new_lables=(1.0-lable_smoothing)*one_hot_lables+lable_smoothing/num_classes

25.AutoML

我的出處：CVPR2019分享會的一個點，開組會的時候師兄也提過
直述：盡量不通過人來設定超參數，而是使用某些學習機制，調節這些超參數
分類：

? ? ? ? ? ? ? ? ? （1）傳統AutoML:

? ? ? ? ? ? ? ? ? ? ? ? ? ?貝葉斯優化：

? ? ? ? ? ? ? ? ? ? ? ? ? ?多臂老虎機：

? ? ? ? ? ? ? ? ? ? ? ? ? ?進化算法：

? ? ? ? ? ? ? ? ? ? ? ? ? ?強化學習：

? ? ? ? ? ? ? ? ? ? (2)? ?深度AutoML:

? ? ? ? ? ? ? ? ? ? ? ? ? ?1）Hyperparameter optimization(ho)(訓練超參數)

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?learning rate:

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?regularzation:

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?momentum:

? ? ? ? ? ? ? ? ? ? ? ? ? ?2）Neural architecture search(nas)(網絡結構超參數)

26.Space Subspace Clustering(SSC):子空間聚類? ?

我的出處：CVPR2019論文
背景:高維數據聚類是聚類技術的重點和難點。其思想是將搜索局部化在相關維中進行。
傳統聚類方法分類：

? ? ? ? ? ? ? ? ? ? ? ?（1）劃分方法：將數據集隨機劃分為k個子集，隨后通過迭代重定位技術試圖將數據對象從一個簇移到另一個簇來不斷改進聚類的質量。

? ? ? ? ? ? ? ? ? ? ? ?（2）層次方法：對給定的數據對象集合進行層次分解，根據層次的形成方法又可分為凝聚和分裂兩大類。

? ? ? ? ? ? ? ? ? ? ? ?（3）基于密度方法：根據領域對象的密度或者密度函數生成聚類，使得每個類在給定范圍的區域內至少包含一定數目的點。

? ? ? ? ? ? ? ? ? ? ? ?（4）基于網絡方法：將對象空間量化為有限數目的單元，形成一個網格結構，使所有聚類操作都在這個網絡結構上進行，使聚類速度得到較大提高。

? ? ? ? ? ? ? ? ? ? ? ?（5）基于模型方法：為每個類假定一個模型，尋找數據對給定模型的最佳擬合。

聚類問題的難點：

? ? ? ? ? ? ? ? ? ? ? ? （1）聚類方法的可伸縮性

? ? ? ? ? ? ? ? ? ? ? ? （2）對復雜形狀和類型數據進行聚類的有效性

? ? ? ? ? ? ? ? ? ? ? ? （3）高維聚類分析技術

? ? ? ? ? ? ? ? ? ? ? ? （4）混合數據的聚類

高維數據聚類的難點和解決：

? ? ? ? ? ? 1）難點

? ? ? ? ? ? ? ? ? ? ? ? （1）高維數據集中存在大量無關的屬性使得在所有維中存在簇的可能性幾乎為零。

? ? ? ? ? ? ? ? ? ? ? ? （2）高維空間較低維空間中數據分布要稀疏，數據間距離幾乎相等是普遍現象，而傳統聚類方法是基于距離進行聚類的，因此在高維空間中無法基于距離來構建簇。

? ? ? ? ? ?2）解決：

? ? ? ? ? ? ? ? ? ? ? ? （1）特征轉換

? ? ? ? ? ? ? ? ? ? ? ? （2）特征選擇/子空間聚類：特征選擇只在相關子空間上執行挖掘任務，因此它比特征轉換更有效地減少維。特征選擇一般使用貪心策略等搜索方法搜索不同特征子空間，然后使用一些標準來評價子空間，以找到所需要的簇。

?子空間搜索分類：自頂向下，自底向上。

27.Decomposition:矩陣分解

直述：將矩陣拆解為數個矩陣的乘積。
方法：

? ? ? ? ? ? ? ? 1）三角（LU）分解法:分解為上三角和下三角

? ? ? ? ? ? ? ? 2）QR分解法:分解為上三角和正規正交矩陣

? ? ? ? ? ? ? ? 3）奇異值分解法：分解為正交矩陣

28.Spectral clustering:譜聚類

29.Fourier Transformation:傅里葉變換

直述：將滿足條件的的某個函數表示成三角函數或者它們積分的線性組合。

30.Spectral decomposition：譜分解/Eigendecomposition：特征分解

直述：將矩陣分解為由其特征值和特征向量表示的矩陣之積的方法

31.Semi-Supervised Learning:半監督學習

我的出處：ECN及CVPR2019香港理工大學用圖網絡做半監督的工作。
方法：

32.Graph Signal Processing(GSP):圖信號處理

33.Hidden Markov Model(HMM):隱馬爾可夫模型

34.Conditional Random Field(CRF):條件隨機場?

我的出處：NLP涉及的概念
直述：一種序列預測模型（有人說它是邏輯回歸的序列版）
原理：

? ? ? ? ? ? ? Step1:

? ? ? ? ? ? ? ? ? ? ? 序列情況矩陣

? ? ? ? ? ? ? ? ? ? ? 參數矩陣

? ? ? ? ? ? ? Step2:

? ? ? ? ? ? ? ? ? ? ? 用上兩者列出又像邏輯回歸，又像貝葉斯的公式，進行最大化后即可求得參數矩陣。

? ? ? ? ? ? ? ? ? ? ? 然后就可以用之前的序列預測下一個。

? ? ? ? ? ? ? ? ?

35.Bayes' theorem:貝葉斯定理

直述：

? ? ? ? ? ? ? ? ? 已知：

? ? ? ? ? ? ? ? ? ? ? ? ? （1）H[1],H[2]...H[3]互斥，且構成完全事件

? ? ? ? ? ? ? ? ? ? ? ? ? （2）各時間概率：P(H[I]),? I=1,2...N

? ? ? ? ? ? ? ? ? ? ? ? ? （3）P(A|H[i])

? ? ? ? ? ? ? ? ? ?求：

? ? ? ? ? ? ? ? ? ? ? ? ? ? P(H(i)|A)

公式：P(H[i]|A)=

36.Long-Short Term Memory（LSTM）

37.Logistic:邏輯回歸

我的出處：在看似然估計的時候突然牽扯到
用處：預測問題，二分類問題
原理：

? ? ? ? ? ? ? ? ? ? ?Step1:hypothesis:??(亦稱sigmoid函數。其中，z=)

? ? ? ? ? ? ? ? ? ? ?Step2:Loss:?

? ? ? ? ? ? ? ? ? ? ? ? ? ? (上為對數似然函數，從似然函數推導而來：)

? ? ? ? ? ? ? ? ? ? ? Step3: 用梯度下降法不斷更新的值，直到使的值為最大，即為所求的回歸。

38.Markov Model:馬爾可夫模型

我的出處：第一次數學建模交通流預測的時候
直述：一種統計模型
作用：在語音識別，詞性標注，語音轉換，概率文法等NLP領域作用甚大。

39.HMM：隱馬爾可夫模型

我的出處：在學隨機條件場的時候被進行對比
直述：一個統計模型。
作用：用來描述一個含有隱含未知參數的馬爾可夫過程。

40.Viterbi Alorithm:維特比算法

我的出處：條件隨機場時見。（好像是深度學習常見的底層算法）
一種動態規劃算法
作用：尋找最有可能產生觀測事件序列的”維特比路徑“隱含狀態序列。（特別是在馬爾可夫信息源上下文和隱馬爾可夫模型中）

41.Confusion Matrix:混淆矩陣

我的出處：在做RNN實例時，評估處用的
直述：一個表示真實和預測關系的矩陣。（常用在人工智能領域）
原理：

? ? ? ? ? ? ? ? ? 行：真實（每一行總數：這一類真實有多少個）

? ? ? ? ? ? ? ? ? 列：預測（每一列總數：這一類預測有多少個）

? ? ? ? ? ? ? ? ? 對角線：每一類對的個數

例：

? ? ? ? ? ? ? ? ??

42.Instance Segmentation:實例分割

我的出處:CVPR一篇文章用Mask-R-CNN做實例分割
直述：圈出物體的輪廓，比目標檢測更進一步（目標檢測只是框框）。

43.ULMFiT:通用語言模型微調

44.ELMo:語言模型的詞嵌入

45.BERT:(一種NLP模型)

46.BigGAN:(生成的圖片十分逼真，真假難辨。但是需要很大算力。是算力的提升，不是算法的提升)

47.Fast.ai:(可以在18min內訓練完image net)

48.vid2vid:（一個可以生成超逼真視頻的生成對抗網絡）

49.Pytext:(FaceBook工程師開源自家工程師在用的工業級NLP建模框架)

50.Duplex:AI打電話（谷歌I/O開發者大會上的）

51.Spining Up:(OpenAI的一個強化學習教程，完全在初學者視角)

52.Dopamine:多巴胺（谷歌的一個強化學習開源框架）

53.R-CNN/fast R-CNN/faster R-CNN+RPN/YOLO/SSD/R-FCN

我的出處：目標檢測，語義分割，實例分割了解
詳情：

54.PCA/Tracking-by-Detection/SAE/DLT/FCNT/MD Net

55.VGG

56.DBN:深度信念網絡

57.FCN:全卷積網絡

相關名詞：SegNet

58.Dilated Convolutiona(空洞卷積)，DeepLab, RefineNet

59.Mask R-CNN

60.T-SNE

61.DCN:(一種自編碼器方法，在聚類的時候使用)

62.Deep Cluster:(聚類時使用)

63.Associative Deep Clustering:(聚類時使用)

64.Invarient Information Clustering CNN(IIC-CNN):(聚類，于網絡本身)

65.SVD:

我的出處：在學Fast RCNN的時候，提到全鏈接如何使用SVD加速。之前也聽到過。

66.Bilinear Interpolation：雙線性插值

67.IoU Net:

我的出處：CVPRS實例分割提到的可以改變做某個工作的網絡

68.Inception:

69.NAS:Architecture Search with Reinforcement Learning

70.BERT

71.Multi-Task Learning

我的出處：在了解半監督學習的時候，提到解決數據量不夠的方法
相關名詞：權重轉換矩陣

72.MixMatch:

我的出處：了解半監督學習時，說到谷歌用的一個新方法

73.UDA:無監督數據增強

74.pseudo labels:偽標簽

我的出處：ECN的時候師兄第一次提及。之后常見卻反映不過來。
直述：半監督，無監督模型總歸還是要用標簽訓練模型的，但這個標簽又不是真的，而是通過聚類等方法得到的。

75.Leaky ReLUs:

我的出處：WMCT
直述：原來的ReLU在x為負數的時候為零，但是Leaky ReLUs是賦一個斜率。

76.weight-ratio:源域和目標域之間的權重比

我的出處：WMCT里提到偽標簽好壞里說的。
直述：網上沒有資料，自己的理解就是源域初始化的效果對之后的影響。

77.DBSCAN:一種基于密度的聚類算法

我的出處：WMCT里提到的
直述：https://www.naftaliharris.com/blog/visualizing-dbscan-clustering/(動畫)
優點：

? ? ? ? ? ? ? ? 1.與K-means方法相比：無需事先知曉形成簇類的數量。

? ? ? ? ? ? ? ? 2.與K-means方法相比：可以發現任意形狀的簇類。（？）

? ? ? ? ? ? ? ? 3.能夠識別出噪聲點。（？）

? ? ? ? ? ? ? ? 4.對樣本數據不敏感。

缺點：

? ? ? ? ? ? ? ? ?1.不能很好地反映高維數據。

? ? ? ? ? ? ? ? ?2.不能很好地反映數據集變化的密度。

? ? ? ? ? ? ? ? ?3.如果樣本集密度不均勻，聚類的間距相差較大時，聚類質量較差。

78.Mahalanobis distance:馬式距離

我的出處：WMCT提到用K-reciprocal Encoding Distance來度量距離在Re-ID十分有用，由馬氏和杰卡德組成
直述：? ?(即在歐式距離中間添了一個協方差矩陣)
作用：將量綱做歸一化，如圖：

79.Jaccard Distance：杰卡德距離

我的出處：WMCT中提到K-reciprocal Encoding Distance的組成部分
直述：樣本間不同值所占的比例：

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

80.?k-reciprocalEncoding

我的出處：WMCT里提到用KRE做相似度度量，提高re-ranking準確度的一種方式。
直述：有馬式距離和杰卡德距離一起，如圖：

? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

81.CycleGAN

我的出處：WMCT提到相關工作的時候，有篇文章和CycleGAN是相同的架構，只不過換成了特征
直述：

82.Co-Train:協同訓練

我的出處：WMCT受Co-Train的啟發
直述：一種MultiView算法。有多個數據集，訓練出多個模型（分類器）。然后，用各自對無標簽數據打標。選取前K個置信度的數據，扔到對方的數據集里面。

?83.trip

總結

以上是生活随笔為你收集整理的深度学习——名词总结篇的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Pyechart（一）折线图
下一篇：【深度强化学习】深度学习：Pytorch