當前位置：首頁 > 人文社科 > 生活经验 >内容正文

生活经验

gelu

發布時間：2023/11/28 生活经验 47 豆豆

生活随笔收集整理的這篇文章主要介紹了 gelu 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

博客園
首頁

新隨筆

聯系
管理
訂閱
```
		<div class="blogStats">
```
隨筆-
75?
文章-
0?
評論-
40?
```
		</div></div><div id="post_detail">
```
[Deep Learning] GELU (Gaussian Error Linerar Units)
```
	</h1><div class="clear"></div><div class="postBody">
```
目錄
- TL; NR
- 1. 正態分布
  - 1.1 定義
  - 1.2 概率密度函數
  - 1.3 累積分布函數
  - 1.4 標準正態分布
- 2. 誤差函數
  - 2.1 定義
  - 2.2 誤差函數與正態分布
  - 2.3 性質(部分)
- 3. GELU
  - 3.1 Abstract
  - 3.2 Introduction
  - 3.3 GELU Formulation
  - 3.4 實驗結果
  - 3.5 Discussion
  - 3.6 GELU的導數
?

(轉載請注明出處哦~)

參考鏈接：

1. 誤差函數的wiki百科：https://zh.wikipedia.org/wiki/%E8%AF%AF%E5%B7%AE%E5%87%BD%E6%95%B0

2. 正態分布的博客：https://blog.csdn.net/hhaowang/article/details/83898881

3. StackExchange Mathematics:?Why the error function is so similar to the hyperbolic tangent??

https://math.stackexchange.com/questions/1892553/why-the-error-function-is-so-similar-to-the-hyperbolic-tangent

4. WolframAlpha:?y = tanh(x) - \int_{0}^{x}e^{-t^{2}}dt

https://www.wolframalpha.com/input/?i=y+%3D+tanh(x)+-+%5Cint_%7B0%7D%5E%7Bx%7De%5E%7B-t%5E%7B2%7D%7Ddt

前導知識：正態分布(section 1)，誤差函數(section 2)，ReLU，ELU, dropout,?zoneout.

5. GELU 論文：https://arxiv.org/abs/1606.08415

6. Data Science: What is GELU activation???https://datascience.stackexchange.com/questions/49522/what-is-gelu-activation

7. Logistic vs Gaussian:?http://visionlab.harvard.edu/Members/Anne/Math/Logistic_vs_Gaussian.html

8.?Normal approximation to logistic distribution:?https://www.johndcook.com/blog/2010/05/18/normal-approximation-to-logistic/

GELU(x)=Φ(x)?I(x)+(1?Φ(x))?0x=xΦ(x) 鏈接：https://arxiv.org/pdf/1710.05941.pdf

對比GELU與swish函數，GELU在正值區間的變化更為顯著，因此具有稍高一些的梯度，在反向傳播時可以更有效的更新梯度；

在負值區域，GELU函數的值相較于swish普遍更接近與x軸，因此具有更佳的單邊抑制效果。

比較有意思的是GELU與swish的導數均在負值區間內出現了負數的情況，這與以往的激活函數ReLU, sigmoid, tanh等不同，這些激活函數的導數取值非負。但是GELU導數的負值出現的更早，并且負值更小，swish有較長一段區間都有非常微小的負值，變化并不明顯。個人認為這可能是GELU效果優于xσ(x)及其他激活函數的原因之一。即當input的值在接近-1邊界時，可以通過負的導數的調節，將其拉回較大取值處。GELU相較于swish可能有更好的調節效果。

另外，GELU的導數相較于xσ(x)的導數變化幅度更大一些，對于網絡中權值的更新調節可能更為靈敏。---這只是個人的理解，并非官方論文的結論。

?您愿意請我吃一根雪糕嗎？[支付寶] O(∩_∩)O??

分類: NLP, 算法模型, 概率論與數理統計, Deep learning 標簽: GELU, 激活函數, bert, 誤差函數
```
<div id="blog_post_info">
```
好文要頂關注我收藏該文 listenviolet
關注 - 2
粉絲 - 20 +加關注 0 0
```
<div class="clear"></div>
<div id="post_next_prev"><a href="https://www.cnblogs.com/shiyublog/p/11078313.html" class="p_n_p_prefix">? </a> 上一篇：    <a href="https://www.cnblogs.com/shiyublog/p/11078313.html" title="發布于 2019-06-24 19:15">[Python] 等號賦值, copy, deepcopy的區別</a>
<br>
<a href="https://www.cnblogs.com/shiyublog/p/11136940.html" class="p_n_p_prefix">? </a> 下一篇：    <a href="https://www.cnblogs.com/shiyublog/p/11136940.html" title="發布于 2019-07-05 10:53">[NLP] cs224n-2019 Assignment 1  Exploring Word Vectors</a>
```
posted @ 2019-07-02 17:12?listenviolet 閱讀(697) 評論(0) 編輯收藏刷新評論刷新頁面返回頂部注冊用戶登錄后才能發表評論，請登錄或注冊，訪問網站首頁。【推薦】騰訊云海外1核2G云服務器低至2折，半價續費券限量免費領取！
【活動】京東云服務器_云主機低于1折，低價高性能產品備戰雙11
【推薦】超50萬行VC++源碼: 大型組態工控、電力仿真CAD與GIS源碼庫
【培訓】馬士兵老師一對一在線指導！幫你從月薪3000到日薪3000
【推薦】天翼云雙十一翼降到底，云主機11.11元起，抽獎送大禮
【提升】Java程序員年薪40W，他1年走了別人5年的學習之路
【推薦】流程自動化專家UiBot，體系化教程成就高薪RPA工程師
相關博文：
· 激活函數記錄
· 牛頓方法
· 透過表象看本質！？之二數據擬合
· deep learning 自編碼算法詳細理解與代碼實現（超詳細）
· 線性回歸
? 更多推薦...
```
    <div id="google_ads_iframe_/1090369/C2_0__container__" style="border: 0pt none;"><iframe id="google_ads_iframe_/1090369/C2_0" title="3rd party ad content" name="google_ads_iframe_/1090369/C2_0" width="468" height="60" scrolling="no" marginwidth="0" marginheight="0" frameborder="0" srcdoc="" style="border: 0px; vertical-align: bottom;" data-google-container-id="2" data-load-complete="true"></iframe></div></div>
</div>
<div id="under_post_kb">
```
最新 IT 新聞:
· 5nm怎樣給摩爾定律續命？巨頭開打制程之戰2.0，祭出三大殺器
· 蘋果英特爾對軟銀子公司發起反壟斷訴訟指控其為專利流氓
· 王思聰被北京二院再發限制消費令：此前上海禁令剛取消
· 私有云服務商Gravitational獲2500萬美元A輪融資
· 比特幣礦業巨頭嘉楠在美IPO融資9000萬美元
? 更多新聞...
```
</div>
```

總結

以上是生活随笔為你收集整理的gelu的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

gelu

上一篇： view(*args)改变张量的大小和形
下一篇：【PyTorch学习笔记】4：在Tens