日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人文社科 > 生活经验 >内容正文

生活经验

gelu

發布時間:2023/11/28 生活经验 47 豆豆
生活随笔 收集整理的這篇文章主要介紹了 gelu 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
新隨筆
  • 聯系
  • 管理
  • 訂閱
  • 		<div class="blogStats"><!--done-->
    

    隨筆-
    75?
    文章-
    0?
    評論-
    40?

    		</div><!--end: blogStats --></div><!--end: navigator 博客導航欄 --><div id="post_detail">
    

    [Deep Learning] GELU (Gaussian Error Linerar Units)

    	</h1><div class="clear"></div><div class="postBody">
    

    目錄

    • TL; NR
    • 1. 正態分布
      • 1.1 定義
      • 1.2 概率密度函數
      • 1.3 累積分布函數
      • 1.4 標準正態分布
    • 2. 誤差函數
      • 2.1 定義
      • 2.2 誤差函數與正態分布
      • 2.3 性質(部分)
    • 3. GELU
      • 3.1 Abstract
      • 3.2 Introduction
      • 3.3 GELU Formulation
      • 3.4 實驗結果
      • 3.5 Discussion
      • 3.6 GELU的導數

    ?


    (轉載請注明出處哦~)

    參考鏈接:

    1. 誤差函數的wiki百科:https://zh.wikipedia.org/wiki/%E8%AF%AF%E5%B7%AE%E5%87%BD%E6%95%B0

    2. 正態分布的博客:https://blog.csdn.net/hhaowang/article/details/83898881

    3. StackExchange Mathematics:?Why the error function is so similar to the hyperbolic tangent??

    https://math.stackexchange.com/questions/1892553/why-the-error-function-is-so-similar-to-the-hyperbolic-tangent

    4. WolframAlpha:?y = tanh(x) - \int_{0}^{x}e^{-t^{2}}dt

    https://www.wolframalpha.com/input/?i=y+%3D+tanh(x)+-+%5Cint_%7B0%7D%5E%7Bx%7De%5E%7B-t%5E%7B2%7D%7Ddt

    前導知識:正態分布(section 1),誤差函數(section 2),ReLU,ELU, dropout,?zoneout.

    5. GELU 論文:https://arxiv.org/abs/1606.08415

    6. Data Science: What is GELU activation???https://datascience.stackexchange.com/questions/49522/what-is-gelu-activation

    7. Logistic vs Gaussian:?http://visionlab.harvard.edu/Members/Anne/Math/Logistic_vs_Gaussian.html

    8.?Normal approximation to logistic distribution:?https://www.johndcook.com/blog/2010/05/18/normal-approximation-to-logistic/

    GELU(x)=Φ(x)?I(x)+(1?Φ(x))?0x=xΦ(x)GELU(x)=Φ(x)?I(x)+(1?Φ(x))?0x=xΦ(x) 鏈接:https://arxiv.org/pdf/1710.05941.pdf

    對比GELU與swish函數,GELU在正值區間的變化更為顯著,因此具有稍高一些的梯度,在反向傳播時可以更有效的更新梯度;

    在負值區域,GELU函數的值相較于swish普遍更接近與x軸,因此具有更佳的單邊抑制效果。

    比較有意思的是GELU與swish的導數均在負值區間內出現了負數的情況,這與以往的激活函數ReLU, sigmoid, tanh等不同,這些激活函數的導數取值非負。但是GELU導數的負值出現的更早,并且負值更小,swish有較長一段區間都有非常微小的負值,變化并不明顯。個人認為這可能是GELU效果優于xσ(x)及其他激活函數的原因之一。即當input的值在接近-1邊界時,可以通過負的導數的調節,將其拉回較大取值處。GELU相較于swish可能有更好的調節效果。

    另外,GELU的導數相較于xσ(x)的導數變化幅度更大一些,對于網絡中權值的更新調節可能更為靈敏。---這只是個人的理解,并非官方論文的結論。


    ?您愿意請我吃一根雪糕嗎?[支付寶] O(∩_∩)O??

    分類: NLP, 算法模型, 概率論與數理統計, Deep learning 標簽: GELU, 激活函數, bert, 誤差函數
    <div id="blog_post_info">
    
    好文要頂 關注我 收藏該文 listenviolet
    關注 - 2
    粉絲 - 20 +加關注 0 0
    <div class="clear"></div>
    <div id="post_next_prev"><a href="https://www.cnblogs.com/shiyublog/p/11078313.html" class="p_n_p_prefix">? </a> 上一篇:    <a href="https://www.cnblogs.com/shiyublog/p/11078313.html" title="發布于 2019-06-24 19:15">[Python] 等號賦值, copy, deepcopy的區別</a>
    <br>
    <a href="https://www.cnblogs.com/shiyublog/p/11136940.html" class="p_n_p_prefix">? </a> 下一篇:    <a href="https://www.cnblogs.com/shiyublog/p/11136940.html" title="發布于 2019-07-05 10:53">[NLP] cs224n-2019 Assignment 1  Exploring Word Vectors</a>
    
    posted @ 2019-07-02 17:12?listenviolet 閱讀(697) 評論(0) 編輯 收藏 刷新評論刷新頁面返回頂部 注冊用戶登錄后才能發表評論,請 登錄 或 注冊, 訪問 網站首頁。 【推薦】騰訊云海外1核2G云服務器低至2折,半價續費券限量免費領取!
    【活動】京東云服務器_云主機低于1折,低價高性能產品備戰雙11
    【推薦】超50萬行VC++源碼: 大型組態工控、電力仿真CAD與GIS源碼庫
    【培訓】馬士兵老師一對一在線指導!幫你從月薪3000到日薪3000
    【推薦】天翼云雙十一翼降到底,云主機11.11元起,抽獎送大禮
    【提升】Java程序員年薪40W,他1年走了別人5年的學習之路
    【推薦】流程自動化專家UiBot,體系化教程成就高薪RPA工程師
    相關博文:
    · 激活函數記錄
    · 牛頓方法
    · 透過表象看本質!?之二數據擬合
    · deep learning 自編碼算法詳細理解與代碼實現(超詳細)
    · 線性回歸
    ? 更多推薦...
        <div id="google_ads_iframe_/1090369/C2_0__container__" style="border: 0pt none;"><iframe id="google_ads_iframe_/1090369/C2_0" title="3rd party ad content" name="google_ads_iframe_/1090369/C2_0" width="468" height="60" scrolling="no" marginwidth="0" marginheight="0" frameborder="0" srcdoc="" style="border: 0px; vertical-align: bottom;" data-google-container-id="2" data-load-complete="true"></iframe></div></div>
    </div>
    <div id="under_post_kb">
    
    最新 IT 新聞:
    · 5nm怎樣給摩爾定律續命?巨頭開打制程之戰2.0,祭出三大殺器
    · 蘋果英特爾對軟銀子公司發起反壟斷訴訟 指控其為專利流氓
    · 王思聰被北京二院再發限制消費令:此前上海禁令剛取消
    · 私有云服務商Gravitational獲2500萬美元A輪融資
    · 比特幣礦業巨頭嘉楠在美IPO融資9000萬美元
    ? 更多新聞...
    </div>
    

總結

以上是生活随笔為你收集整理的gelu的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。