pgm17
這部分討論決策理論與 PGM 的關(guān)系,一個(gè)主要的思路就是將決策與 PGM 的 inference 完美的融合在一起。
MEU
為了引入決策理論中的 maximum expected utility 原則,我們先引入一些概念:
- lottery(彩票)是一個(gè)結(jié)果與概率的映射關(guān)系,用戶對(duì)不同的 lottery 的偏好能顯示其對(duì)風(fēng)險(xiǎn)的不同評(píng)估方式
- 決策問(wèn)題一般有一組結(jié)果 ,一組行為 ,結(jié)果的概率模型,即給定某個(gè)行為后,得到結(jié)果上的一個(gè)分布(lottery),一個(gè) utility function,它給出用戶對(duì)不同結(jié)果的偏好
所謂的 MEU 原則是
事實(shí)上也有做其他的選擇的原則的,比如 min max risk,最大風(fēng)險(xiǎn)最小化
我們這里只考慮前者。那么一般說(shuō)來(lái)合理的 utility function 要求滿足,
- orderability,即對(duì)任意兩個(gè) lottery,或者選其一或者兩個(gè)傾向一樣
- transitivity,即如果兩兩比較 ,則有
- continuity,即若 ,則存在 使得 與 compound lottery
- monoticity,若 ,則
- substitutability,若 ,則這兩個(gè) lottery 可替換:
- decomposability,
可證明對(duì)滿足以上六點(diǎn)的 lottery 存在 utility function 使得 當(dāng)且僅當(dāng) 。這里 。
一般說(shuō)來(lái)一個(gè) utility function 對(duì) money 的曲線一般是單調(diào)增,在正象限是 concave 的,表示 diminishing utility,這一般表示的是 risk averse:即選擇帶隨機(jī)的收益和無(wú)隨機(jī)的收益(兩者平均 utility 相等)兩種 lottery 的時(shí)候會(huì)傾向后者。與此相反有 risk seeking 和 risk neutral,前者是 convex 的而后者是線性函數(shù)。但是很多時(shí)候人并不是一成不變或者一味有理智的,他們的 utility function 可能會(huì)變化。但是實(shí)際情況下的 outcome 可能并不是 money 這么簡(jiǎn)單,我們往往面對(duì)的是多個(gè) attribute 造成的影響建立對(duì)應(yīng)的 utility model。簡(jiǎn)單的說(shuō)這是一個(gè)多元函數(shù)如何能寫(xiě)出表達(dá)式的問(wèn)題。事實(shí)上,如果這些 attribute 滿足某些性質(zhì),我們可以將這個(gè)函數(shù) decompose 成為若干 attribute 上各自的 utility。為此我們引入一些概念,
- 如 是 attributes 的一個(gè) partition,稱(chēng) 是 preferentially independent of ,當(dāng)且僅當(dāng)對(duì)任意 ,給定 時(shí)有 ,當(dāng)且僅當(dāng)給定 時(shí)也有
- 以上是說(shuō)這個(gè) attribute 的 partition 之間有這樣一個(gè)無(wú)關(guān)性,其中一個(gè)取定不會(huì)影響另外一個(gè)的 preference,我們可以將其延拓到分布上,為此引入 conditional preference structure,當(dāng) 對(duì)任意 成立時(shí),記為
- 這樣我們就可以定義 utility independence,即對(duì)任意 如果兩個(gè) lottery 的 preference 是恒定的
可以證明:如果 attributes 是 utility independent of ,當(dāng)且僅當(dāng) 。這個(gè)定理的推論是,如果每個(gè)子集 滿足它和它的補(bǔ)集是 utility independent 的,當(dāng)且僅當(dāng)存在以下分解
或者
這也就是說(shuō) utility function 的最終形式大約是一個(gè)關(guān)于 attributes 子集上 utility function 的 multilinear function。如果我們只考慮相加這種形式(后者)往往會(huì)降低我們的 utility function modeling power,但是它也有一些自己的特點(diǎn),比如所謂 additive independence,就是說(shuō)對(duì)任意的 attribute margin 來(lái)說(shuō)發(fā)現(xiàn)兩個(gè) lottery 的 preference 都是一樣的,這種情況下的 utility function 必然能寫(xiě)成每個(gè) attribute 上 utility function 的和。類(lèi)似我們可以定義 conditional additive independence,這是在給定某個(gè) attribute 值(如 )的情況下任兩個(gè) lottery 的 preference 在任意兩個(gè) margin 上(如 )是一致的,這時(shí)的 utility function 會(huì) decompose 成為幾個(gè) utility function,即 。事實(shí)上我們甚至可以用 MRF 表示 CAI-map,這樣 utility function 的 decomposition 也會(huì)變成對(duì)應(yīng)幾個(gè) clique 上 utility function 的和。事實(shí)上上述要求 disjoint attribute 可以被松弛,這稱(chēng)為 generalized additive independence,對(duì)應(yīng)情況下的 utility function 分解仍然成立。
一個(gè)基本的求解 MEU 的策略是使用 decision tree,根據(jù)每個(gè)隨機(jī)變量的取值進(jìn)行分叉,最后得到每個(gè) leaf 上的 utility function value,這樣一來(lái)最優(yōu)的 decision 就是能導(dǎo)致走到 utility 最高的 leaf 上的策略。而另一種也就是前面提到對(duì) BN 的擴(kuò)展是在 BN 中加入 decision variable(對(duì)應(yīng) action)和 utility variable(對(duì)應(yīng)最終的 utility),而原先的 r.v.s 稱(chēng)為 chance variable。這個(gè)新的圖模型稱(chēng)為 influence diagram。很快我們就可以發(fā)現(xiàn) MEU 實(shí)際上就是要求 或者對(duì)應(yīng)有一定的 observation 時(shí)要求 。這里 utility function 是對(duì)應(yīng)節(jié)點(diǎn) 的父節(jié)點(diǎn)的(確定性)函數(shù)。影響 action variable 的 edge 也叫 information edge,而我們需要的 decision rule 。通常我們求解 MEU 策略和前面的 inference 過(guò)程也呈現(xiàn)了某種相似之處。我們分幾種情況討論
- 如果沒(méi)有 decision variable,我們只需要 marginalize 所有的東西就得到了 expected utility
- 如果只有一個(gè) decision variable,記為 ,那么我們可以 marginalize 掉除了 以外的東西,即得到的函數(shù)為 ,這樣取
- 如果有多個(gè),可以采用 iterated optimization algorithm,即每次固定別的 decision rule,更新當(dāng)前的,這種算法在某些特定條件下能收斂到全局最優(yōu),一個(gè)充分的條件是滿足 perfect recall,即存在某個(gè) r.v.s 的順序使得按照這個(gè)順序走的時(shí)候后面的 decision variable 的 parent 必須在之前的 decision variable 及其 parent 里面。
為了更好地刻畫(huà)什么時(shí)候 local optimal 的 decision 能夠?qū)е?global 的 optimal decision,我們需要研究改變某個(gè) decision rule 時(shí)如何會(huì)不影響到其他的 decision rule(這樣各自保持最優(yōu)),這樣以上 iterated optimization algorithm 就能減少迭代次數(shù)。為此引入了 strategically relevant 和 s-reachability 的概念,并證明兩者的等價(jià),可以證明滿足 perfect recall 性質(zhì)對(duì)應(yīng)的 relevance graph 一定是 acyclic 的。那么實(shí)際上如果 relevance graph 本身是 acyclic 的直接用 iterated optimization algorithm 也定能獲得最優(yōu)解。
在 marginalize 其他的 r.v.s 的時(shí)候注意到 information edge 的作用(傳遞有用的 message),而某些信息其實(shí)是對(duì) MEU 無(wú)用的,這一般是不存在一條 active trail 會(huì)產(chǎn)生的現(xiàn)象(此時(shí)稱(chēng)為 irrelevant information edge),去掉 irrelevant edge 不會(huì)改變 optimal decision。
一個(gè)很重要的問(wèn)題是我們是否能通過(guò)某種方式確定某個(gè)觀測(cè)對(duì)決定的影響。對(duì)單個(gè) decision observation 而言,我們可以使用所謂 value of perfect information 來(lái)衡量,即增加一條 information edge 從該 r.v. 到 decision variable 后 MEU 的變化,記為 ,可以證明這個(gè)值不小于零。也就是說(shuō)知道更多決策不會(huì)變差。多個(gè)的情況會(huì)變復(fù)雜很多,一般只能用近似。
——————
And it came to pass at that time, that Abimelech and Phichol the chief captain of his host spoke to Abraham, saying, God is with you in all that you do:
轉(zhuǎn)載于:https://www.cnblogs.com/focus-ml/p/3775472.html
總結(jié)
- 上一篇: 关于 原码 反码 补码 位运算
- 下一篇: Mysql在大型网站的应用架构演变