数学笔记:重要性采样
1 重要性采樣
?????????假設我們要計算一個函數f(x)的期望值,那我們可以從X的分布p中先采樣一些x,然后再把x帶到f里面,得到f(x)。
????????
? ? ? ? 但如果我們沒有辦法從p這個分布里面采樣數據呢?
? ? ? ? 我們可以從另外的一個分布q里面采樣數據,q可以是任何數據
? ? ? ? 然后我們對f(x)的期望值做一個如下的修正:
?????????從 q 里面采樣?x,然后再去計算,再去取期望值
????????所以就算我們不能從 p 里面去采樣數據,只要能夠從 q 里面去采樣數據,然后代入上式,也可以計算從 p 這個分布采樣?x?代入?f以后所算出來的期望值。
2 重要性權重
????????這邊是從 q 做采樣,所以從 q 里采樣出來的每一筆數據,需要乘上一個重要性權重(importance weight)?來修正這兩個分布的差異。
????????q(x)?可以是任何分布,唯一的限制情況就是q(x)?的概率是 0 的時候,p(x)?的概率不為 0,這樣會沒有定義。? ? ? ??
?3 重要性采樣的小問題
????????雖然理論上你可以把 p 換成任何的 q。但是在實現上,p 和 q 不能差太多。
? ? ? ? 那么差太多會怎么樣呢?
????????
????????雖然p采樣和q采樣期望一樣,但是它們的方差是不一樣的:
? ? ? ? ? 二者方差的差別是第一項的系數,如果差距很大的話,這個的方差就會很大(p很大的地方q很小,商很大;p很小的地方q很大,商很小)
?
????????所以理論上它們的期望值一樣,也就是說,你只要對 p 這個分布采樣夠多次,q 這個分布采樣夠多,你得到的結果會是一樣的。但是如果你采樣的次數不夠多,因為它們的方差差距是很大的,所以你就有可能得到非常大的差別。
????????3.1 舉例
????????舉個例子,當?p(x) 和?q(x) 差距很大的時候,會發生什么樣的問題。
????????
?????????假設藍線是 p(x)?的分布,綠線是 q(x)?的分布,紅線是 f(x)。如果我們要計算 f(x)的期望值,從 p(x)?這個分布做采樣的話,那顯然是負的(因為左邊那塊區域?p(x)?的概率很高,所以要采樣的話,都會采樣到這個地方,而?f(x)?在這個區域是負的, 所以理論上這一項算出來會是負)。
????????接下來我們改成從q(x)?這邊做采樣,因為q(x)?在右邊這邊的概率比較高,所以如果你采樣的點不夠的話,那你可能都只采樣到右側。如果你都只采樣到右側的話,算這一項,應該還是正的。
?????????假設今天好不容易采樣到左邊的點,因為左邊的點,p(x)?和 q(x)?是差很多的,p(x)?很大,q(x)?很小。f(x)?好不容易終于采樣到一個負的,這個負的就會被乘上一個非常大的權重,這樣就可以平衡掉剛才那邊一直采樣到正的值的情況。最終你算出這一項的期望值,終究還是負的。
????????但前提是你要采樣夠多次,這件事情才會發生。但有可能采樣次數不夠多,跟就有可能有很大的差距。這就是重要性采樣的問題。
總結
以上是生活随笔為你收集整理的数学笔记:重要性采样的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: pandas笔记:根据列索引名称/行索引
- 下一篇: statsmodels 笔记:自回归模型