日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 人文社科 > 生活经验 >内容正文

生活经验

第二章:1、函数求导

發(fā)布時(shí)間:2023/11/27 生活经验 20 豆豆
生活随笔 收集整理的這篇文章主要介紹了 第二章:1、函数求导 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

機(jī)器學(xué)習(xí)中問題的求解往往轉(zhuǎn)化為優(yōu)化問題。

1、函數(shù)極限

函數(shù)的導(dǎo)數(shù)是通過極限來定義和表達(dá)的。極限理解:

向量的2范數(shù):表示點(diǎn)到原點(diǎn)的歐氏距離,就是向量的長度。點(diǎn)的鄰域表示以點(diǎn)a為心,以為半徑的一個(gè)d維的開球。(開球的原因是小于而不是小于等于,球是不包含表面的)

極限存在但函數(shù)不連續(xù)的例子。(函數(shù)在某點(diǎn)的極限存在是不能保證函數(shù)是連續(xù)的)(反之函數(shù)是連續(xù)的,能夠保證函數(shù)的極限是存在的)

第一個(gè)函數(shù)是表示:在非0點(diǎn)都等于0,但在0點(diǎn)等于B的這樣的一個(gè)函數(shù)。第一個(gè)函數(shù)是不連續(xù)的;換句話可以說函數(shù)存在極限未必能保證函數(shù)是連續(xù)的。

第二個(gè)函數(shù):叫做單位越階函數(shù)。這個(gè)函數(shù)也是一個(gè)不連續(xù)的函數(shù);不管他連不連續(xù),他在原點(diǎn)處的極限是不存在的,當(dāng)x小于0的時(shí)候函數(shù)取值為0,當(dāng)x大于等于0的時(shí)候函數(shù)取值為1。這個(gè)函數(shù)在神經(jīng)網(wǎng)絡(luò)中經(jīng)常使用,比如當(dāng)這個(gè)神經(jīng)元被抑制的時(shí)候,相當(dāng)于x小于0,因?yàn)樵谏窠?jīng)元中他有一個(gè)激活函數(shù),當(dāng)這個(gè)神經(jīng)元被抑制的時(shí)候,相當(dāng)于x小于0,他的神經(jīng)元對(duì)應(yīng)的值f(x)就是他的輸出值會(huì)是0;當(dāng)x大于0的時(shí)候,相當(dāng)于神經(jīng)元被激活了就是興奮了就會(huì)有個(gè)高電位他等于1;

兩個(gè)重要極限:

函數(shù)連續(xù)是指極限運(yùn)算和函數(shù)運(yùn)算是可以交換的。先做函數(shù)運(yùn)算,在做極限運(yùn)算。先做極限運(yùn)算再做函數(shù)運(yùn)算。(即在函數(shù)連續(xù)的情況下這兩種運(yùn)算是可以交換順序的)

2、函數(shù)求導(dǎo)

2.1一元函數(shù)導(dǎo)數(shù)

? ?

割線的極限就是切線。割線就是(比如與之間的連線就是割線);如果讓無限的逼近于,那么割線的極限位置就是T這條線,T這條線就是函數(shù)在處的切線。所以切線由割線的極限來定義。

導(dǎo)數(shù)的定義就是函數(shù)的變化除以自變量的變化,此時(shí)這個(gè)相當(dāng)于平均變化,如果讓變化的自變量無限的趨近于,那么整個(gè)平均變化的極限值就是瞬時(shí)變化(瞬時(shí)變化率),即所謂的導(dǎo)數(shù)。

? ?

整體的含義就是:函數(shù)相對(duì)于在處的瞬時(shí)變化率。在某一點(diǎn)存在導(dǎo)數(shù),表明在該點(diǎn)可導(dǎo);如果在整個(gè)實(shí)數(shù)集上可導(dǎo),表示在R上可導(dǎo)。

函數(shù)在某一點(diǎn)的導(dǎo)數(shù)為正表明增長率為正;

函數(shù)在某一點(diǎn)的導(dǎo)數(shù)為負(fù)表明增長率為負(fù);

PS:函數(shù)極限存在不能保證函數(shù)連續(xù),但是函數(shù)連續(xù)可以保證函數(shù)極限存在。在某一點(diǎn)處可導(dǎo),那么在該點(diǎn)必連續(xù),連續(xù)不一定可導(dǎo)。可導(dǎo)必連續(xù),連續(xù)必然極限存在,反之都不成立。

基本的函數(shù)求導(dǎo)公式:

? ?

2.2多元函數(shù)求導(dǎo)

2.2.1方向?qū)?shù)

1元函數(shù)求導(dǎo)關(guān)于x只有兩個(gè)方向,一個(gè)是x的正方向,另一個(gè)是x的負(fù)方向;但是多元函數(shù)求導(dǎo)的情況下,關(guān)于x有很多個(gè)方向(比如下圖中在某一點(diǎn)A關(guān)于x有無數(shù)個(gè)方向)。

在有這么多個(gè)方向的前提下,此時(shí)要定義這個(gè)變化率的話必然是要選擇一個(gè)方向,肯定是函數(shù)關(guān)于x沿著某一個(gè)方向的變化率才是有意義的,所以才會(huì)有方向?qū)?shù)的概念。

固定一點(diǎn)A,x在這一個(gè)點(diǎn)的方向u可以有無數(shù)個(gè)

u是一個(gè)單位向量,表示的是方向,x+tu表示x沿著u的方向走了t小步。f(x)表示原來在x點(diǎn)的函數(shù)值。

方向?qū)?shù)的物理含義:(可以聯(lián)想一元函數(shù)導(dǎo)數(shù)的物理含義)

固定一點(diǎn)A,x在這一個(gè)點(diǎn)的方向u可以有無數(shù)個(gè),那么在該點(diǎn)的方向?qū)?shù)其實(shí)是有無數(shù)個(gè)的,沿著不同的方向,其實(shí)是有不同的方向?qū)?shù)。

假定函數(shù)f在x處的方向?qū)?shù)有一個(gè)最大值,把最大值標(biāo)記為,含義表示f在x處沿著方向增長的最快,并且把沿著增長最快的這個(gè)方向記做,表示函數(shù)在x處沿著方向增長最快。

問題Q:到底函數(shù)在x處,沿著哪個(gè)方向增長最快?

結(jié)論A:函數(shù)在x處沿著梯度的方向增長最快。

下面解釋為什么沿著梯度的方向增長最快;并且增長最快的值是梯度的長度。

2.2.2偏導(dǎo)數(shù)

在回答上述問題之前,先引入偏導(dǎo)數(shù)。

對(duì)求偏導(dǎo),我們關(guān)心的是變量,其他的相當(dāng)于他是不變的是一個(gè)常數(shù)。因?yàn)樵谧筮厛D中的極限中,如果我們是對(duì)求偏導(dǎo)的話,變化的是,其他的到,到都是不變的。

事實(shí)上偏導(dǎo)數(shù)只是方向?qū)?shù)的一個(gè)特例。這個(gè)特例就是在上述方向?qū)?shù)例子中,我們只要讓方向取坐標(biāo)軸的方向,比如說第個(gè)坐標(biāo)軸的方向,然后把帶到方向?qū)?shù)的式子里邊,帶入后式子中的到,到都是固定不動(dòng)的,變化的是讓無限的趨于0,然后再看整體的變化率,所以說函數(shù)關(guān)于的偏導(dǎo)數(shù)其實(shí)就是在處沿第個(gè)坐標(biāo)軸的正方向的增長率的大小,所以偏導(dǎo)數(shù)是方向?qū)?shù)的特例,他只是在方向?qū)?shù)中讓那些方向等于坐標(biāo)軸的正方向,

2.2.3梯度

梯度實(shí)際就是把函數(shù)關(guān)于到的這些偏導(dǎo)數(shù)拼成一個(gè)向量,拼成的這個(gè)向量就叫做梯度。也就是說把函數(shù)關(guān)于軸一直到軸的這些正方向上的增長率全部都寫成一個(gè)向量,就是這個(gè)梯度。

梯度的物理含義:

PS:因?yàn)樵诳紤]方向的時(shí)候與大小無關(guān),所以把它寫成單位向量的形式。即相當(dāng)于除以他的長度模。這個(gè)是一個(gè)單位向量,表示梯度的方向。梯度的方向是函數(shù)在該點(diǎn)增長率最大的方向。最大的增長率到底等于多少呢?正好就等于在這點(diǎn)的梯度的長度就是梯度的二范數(shù)。

簡而言之梯度的方向是函數(shù)局部上升最快的方向,梯度的反方向是函數(shù)局部上升最慢的方向。這里的局部主要是指在x這一點(diǎn),所以梯度是局部的概念,他在某一點(diǎn)的增長率最大的方向。

下面是證明這個(gè)性質(zhì):

首先引入多元函數(shù)可微的概念,在一元函數(shù)中可微與可導(dǎo)是等價(jià)的。

可導(dǎo)就是導(dǎo)函數(shù)存在;

可微在一元函數(shù)中可以直觀理解成個(gè)函數(shù)在某一點(diǎn)處有切線,在局部可以有切線近似;

在多元函數(shù)中,可微的幾何含義是函數(shù)在某一點(diǎn)可微,表示在該點(diǎn)存在切平面。這個(gè)切平面便是函數(shù)在該點(diǎn)局部的一個(gè)近似。這個(gè)切平面能夠很好的近似某一點(diǎn)的局部。

Q:為什么他可以表示切平面???

切平面是由這個(gè)式子給出的。在這個(gè)式子里邊是固定了x這一點(diǎn),所以y是變量。所以這個(gè)平面是過這一點(diǎn),因?yàn)楫?dāng)y等于x時(shí),y-x是為0的。

中的f(y)是f的真實(shí)的值。如果我這個(gè)真實(shí)的f的值,和切平面上對(duì)應(yīng)的函數(shù)值他們的離差就是差的絕對(duì)值很小,其中小o這個(gè)記號(hào)就表示很小。

差值除以關(guān)于自變量上的長度,當(dāng)y趨于x的時(shí)候,結(jié)果是趨于0的;因?yàn)楫?dāng)y趨于x的時(shí)候分母是趨于0的,當(dāng)這個(gè)極限趨于0的時(shí)候說明上面更快的比下面更快的收斂于0。所以就反應(yīng)了在點(diǎn)A上這個(gè)切平面的局部是很好的近似這個(gè)曲面的局部的,這個(gè)就是可微的定義。

PS:在機(jī)器學(xué)習(xí)中正常的情況下都是假定函數(shù)是可微的。

除了之前定義的方向?qū)?shù)的定義的表達(dá)式外,函數(shù)在x處沿u的方向?qū)?shù)計(jì)算公式如下:

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

即函數(shù)在x處沿u的方向?qū)?shù)就是u這個(gè)方向和函數(shù)在這點(diǎn)梯度的內(nèi)積。

梯度的物理性質(zhì):

圖中是一個(gè)單位向量,長度等于1。

取等號(hào)的前提是和同向或者反向。

柯西—施瓦茨不等式:(Cauchy-Schwarz不等式:就是兩個(gè)向量內(nèi)積的絕對(duì)值不超過這兩個(gè)向量長度的的乘積)

stationary/critical point 穩(wěn)定點(diǎn)/駐點(diǎn)(梯度等于0,實(shí)際上對(duì)應(yīng)的是一個(gè)向量等于0,是一個(gè)方程組 )

梯度反方向的物理含義是下降最快的方向。

左圖中是一個(gè)凸函數(shù),凸函數(shù)可以理解為極小值點(diǎn)就是最小值點(diǎn)。所以直接使用梯度下降法找梯度等于0,是沒有問題的。因?yàn)橥购瘮?shù)可以避免掉鞍點(diǎn)和多個(gè)極小值。

Q1:梯度等于0,實(shí)際上對(duì)應(yīng)的是一個(gè)向量等于0,是一個(gè)方程組 。為什么不直接讓梯度等于0,去求解這個(gè)方程組呢?

(1)因?yàn)橥笸陮?dǎo)之后的結(jié)果很復(fù)雜,方程組直接求他的解很難求。

(2)即使容易求解,也會(huì)存在矩陣操作,所以一般是給一個(gè)初始點(diǎn)一步步的去找。找到導(dǎo)數(shù)為0的點(diǎn),因?yàn)橐徊讲降恼业綄?dǎo)數(shù)為0的點(diǎn)之后,他不會(huì)再上去,因?yàn)楫?dāng)他很靠近最優(yōu)處的點(diǎn)的時(shí)候呢,這個(gè)梯度值就會(huì)很接近于0,就相當(dāng)于接近于0,此時(shí)就會(huì)和很接近,達(dá)到最優(yōu)點(diǎn)之后,此點(diǎn)的梯度就會(huì)等于0,,則,此時(shí)就不再更新了,相當(dāng)于找到的這個(gè)解就收斂了,收斂于最優(yōu)解。

Q2:如果是求最大值?(梯度上升法,找函數(shù)上升最快的方向)

(1)具體公式就是把上邊的減號(hào),變成加號(hào)。

Q3:學(xué)習(xí)率大小對(duì)優(yōu)化過程的影響?

(1)相當(dāng)于在某一點(diǎn)沿著梯度的正方向或者反方向走的步子的大小,如果在接近于梯度等于0處走的步子過于大,一下子就走過去了,越過了最優(yōu)處,這樣就很難找到最優(yōu)點(diǎn),相當(dāng)于這個(gè)序列不收斂。

如果步子比較小,相當(dāng)于要迭代好多次才收斂到這個(gè)最優(yōu)處。比較小的好處是在接近最優(yōu)點(diǎn)處,他會(huì)很容易找到最優(yōu)點(diǎn),壞處就是在整個(gè)過程中要迭代很多次。

(2)所以一般標(biāo)準(zhǔn)做法是在剛開始時(shí)把設(shè)置的大一點(diǎn),在接近最優(yōu)點(diǎn)的時(shí)候設(shè)置的小一點(diǎn)。常用的是將?后邊可以乘以一個(gè)常數(shù)C;或者是;其中就是一開始剛開始迭代的時(shí)候比較小,此時(shí)相當(dāng)于比較大,步子走的大一點(diǎn);然后當(dāng)?shù)妮啍?shù)變多,比較大的時(shí)候,就比較小,相當(dāng)于此時(shí)即將接近最優(yōu),步子走的小一點(diǎn)。

Q4:在求最小值的情況下,是不是只要找梯度等于0的點(diǎn),即就足夠了呢?

(1)不是,是取決于我們手上的函數(shù)的復(fù)雜程度。比如說在鞍點(diǎn)(saddle point)A處,梯度等于0,但是此處鞍點(diǎn)這個(gè)點(diǎn)即不是最大點(diǎn)也不是最小點(diǎn);比如在處的導(dǎo)數(shù)為0,但是此點(diǎn)既不是一個(gè)最小點(diǎn)也不是一個(gè)最大點(diǎn)。

(2)具有多個(gè)極小值點(diǎn)的函數(shù)。在C點(diǎn)和D點(diǎn)的導(dǎo)數(shù)都是0。但是C點(diǎn)是極小值,D點(diǎn)才是最小值點(diǎn)。

(3)所以總結(jié)只是單純的讓梯度等于0是不夠的,還需要根據(jù)我們具體優(yōu)化的函數(shù)來分析。

?

?

?

?

?

總結(jié)

以上是生活随笔為你收集整理的第二章:1、函数求导的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。