gelu
- 聯系
- 管理
- 訂閱
-
<div class="blogStats"><!--done-->隨筆-
75?
文章-
0?
評論-
40?</div><!--end: blogStats --></div><!--end: navigator 博客導航欄 --><div id="post_detail">[Deep Learning] GELU (Gaussian Error Linerar Units)
</h1><div class="clear"></div><div class="postBody">目錄
- TL; NR
- 1. 正態分布
- 1.1 定義
- 1.2 概率密度函數
- 1.3 累積分布函數
- 1.4 標準正態分布
- 2. 誤差函數
- 2.1 定義
- 2.2 誤差函數與正態分布
- 2.3 性質(部分)
- 3. GELU
- 3.1 Abstract
- 3.2 Introduction
- 3.3 GELU Formulation
- 3.4 實驗結果
- 3.5 Discussion
- 3.6 GELU的導數
?
(轉載請注明出處哦~)
參考鏈接:
1. 誤差函數的wiki百科:https://zh.wikipedia.org/wiki/%E8%AF%AF%E5%B7%AE%E5%87%BD%E6%95%B0
2. 正態分布的博客:https://blog.csdn.net/hhaowang/article/details/83898881
3. StackExchange Mathematics:?Why the error function is so similar to the hyperbolic tangent??
https://math.stackexchange.com/questions/1892553/why-the-error-function-is-so-similar-to-the-hyperbolic-tangent
4. WolframAlpha:?y = tanh(x) - \int_{0}^{x}e^{-t^{2}}dt
https://www.wolframalpha.com/input/?i=y+%3D+tanh(x)+-+%5Cint_%7B0%7D%5E%7Bx%7De%5E%7B-t%5E%7B2%7D%7Ddt
前導知識:正態分布(section 1),誤差函數(section 2),ReLU,ELU, dropout,?zoneout.
5. GELU 論文:https://arxiv.org/abs/1606.08415
6. Data Science: What is GELU activation???https://datascience.stackexchange.com/questions/49522/what-is-gelu-activation
7. Logistic vs Gaussian:?http://visionlab.harvard.edu/Members/Anne/Math/Logistic_vs_Gaussian.html
8.?Normal approximation to logistic distribution:?https://www.johndcook.com/blog/2010/05/18/normal-approximation-to-logistic/
分類: NLP, 算法模型, 概率論與數理統計, Deep learning 標簽: GELU, 激活函數, bert, 誤差函數GELU(x)=Φ(x)?I(x)+(1?Φ(x))?0x=xΦ(x)GELU(x)=Φ(x)?I(x)+(1?Φ(x))?0x=xΦ(x) 鏈接:https://arxiv.org/pdf/1710.05941.pdf
對比GELU與swish函數,GELU在正值區間的變化更為顯著,因此具有稍高一些的梯度,在反向傳播時可以更有效的更新梯度;
在負值區域,GELU函數的值相較于swish普遍更接近與x軸,因此具有更佳的單邊抑制效果。
比較有意思的是GELU與swish的導數均在負值區間內出現了負數的情況,這與以往的激活函數ReLU, sigmoid, tanh等不同,這些激活函數的導數取值非負。但是GELU導數的負值出現的更早,并且負值更小,swish有較長一段區間都有非常微小的負值,變化并不明顯。個人認為這可能是GELU效果優于xσ(x)及其他激活函數的原因之一。即當input的值在接近-1邊界時,可以通過負的導數的調節,將其拉回較大取值處。GELU相較于swish可能有更好的調節效果。
另外,GELU的導數相較于xσ(x)的導數變化幅度更大一些,對于網絡中權值的更新調節可能更為靈敏。---這只是個人的理解,并非官方論文的結論。
?您愿意請我吃一根雪糕嗎?[支付寶] O(∩_∩)O??
好文要頂 關注我 收藏該文 listenviolet<div id="blog_post_info">
關注 - 2
粉絲 - 20 +加關注 0 0
posted @ 2019-07-02 17:12?listenviolet 閱讀(697) 評論(0) 編輯 收藏 刷新評論刷新頁面返回頂部 注冊用戶登錄后才能發表評論,請 登錄 或 注冊, 訪問 網站首頁。 【推薦】騰訊云海外1核2G云服務器低至2折,半價續費券限量免費領取!<div class="clear"></div> <div id="post_next_prev"><a href="https://www.cnblogs.com/shiyublog/p/11078313.html" class="p_n_p_prefix">? </a> 上一篇: <a href="https://www.cnblogs.com/shiyublog/p/11078313.html" title="發布于 2019-06-24 19:15">[Python] 等號賦值, copy, deepcopy的區別</a> <br> <a href="https://www.cnblogs.com/shiyublog/p/11136940.html" class="p_n_p_prefix">? </a> 下一篇: <a href="https://www.cnblogs.com/shiyublog/p/11136940.html" title="發布于 2019-07-05 10:53">[NLP] cs224n-2019 Assignment 1 Exploring Word Vectors</a>
【活動】京東云服務器_云主機低于1折,低價高性能產品備戰雙11
【推薦】超50萬行VC++源碼: 大型組態工控、電力仿真CAD與GIS源碼庫
【培訓】馬士兵老師一對一在線指導!幫你從月薪3000到日薪3000
【推薦】天翼云雙十一翼降到底,云主機11.11元起,抽獎送大禮
【提升】Java程序員年薪40W,他1年走了別人5年的學習之路
【推薦】流程自動化專家UiBot,體系化教程成就高薪RPA工程師
相關博文:
· 激活函數記錄
· 牛頓方法
· 透過表象看本質!?之二數據擬合
· deep learning 自編碼算法詳細理解與代碼實現(超詳細)
· 線性回歸
? 更多推薦...
最新 IT 新聞:<div id="google_ads_iframe_/1090369/C2_0__container__" style="border: 0pt none;"><iframe id="google_ads_iframe_/1090369/C2_0" title="3rd party ad content" name="google_ads_iframe_/1090369/C2_0" width="468" height="60" scrolling="no" marginwidth="0" marginheight="0" frameborder="0" srcdoc="" style="border: 0px; vertical-align: bottom;" data-google-container-id="2" data-load-complete="true"></iframe></div></div> </div> <div id="under_post_kb">
· 5nm怎樣給摩爾定律續命?巨頭開打制程之戰2.0,祭出三大殺器
· 蘋果英特爾對軟銀子公司發起反壟斷訴訟 指控其為專利流氓
· 王思聰被北京二院再發限制消費令:此前上海禁令剛取消
· 私有云服務商Gravitational獲2500萬美元A輪融資
· 比特幣礦業巨頭嘉楠在美IPO融資9000萬美元
? 更多新聞...</div>
總結
- 上一篇: view(*args)改变张量的大小和形
- 下一篇: 【PyTorch学习笔记】4:在Tens