【机器学习】机器学习视角下的因果推断
機器學習可以通過樣本直接匹配以及提升傾向性得分(PSM)準確度來實現樣本的精準匹配,使得樣本對反事實預測的研究更具有隨機化實驗的特性。本文從匹配法、斷點回歸法、雙重差分法、合成控制法四個方面講解機器學習視角下的因果推斷。
1 因果推斷分析框架
1.1 結構因果模型與潛在結果模型
1.1.1 結構因果模型
結構因果模型(structural casual model, SCM)的因果關系有以下一系列非線性和非參數所組成的結構方程組來刻畫:
()
其中,是我們關注的對象變量,是直接影響對象變量的父類變量,是無法觀測的擾動因素。
純理論建模在一系列前提假設的情況下由式(1)所構建的方程組進行均衡求解,為此會將式(1)進一步展開為以下線性形式的簡約方程關系來進行從參數估計和參數檢驗:
()
其中所對應的變量,即對應式(1)中的父類變量。
1.1.2 潛在結果模型
潛在結果模型(potential outcom,PO)框架的因果效應被看作是實驗中樣本的實際結果與受到隨機處理后所產生的潛在結果之間的差異,即在一個N個樣本的隨機試驗中,若有n0個未被處理的樣本和n1倍隨機處理的樣本,則飾演的無偏平均因果效應(average treatment effect,ATE)被定義為:()
其中和是觀測樣本的潛在結果,上標表示是否收到處理,我們只能觀測到兩者中的一個,因此此時的ATE的無偏估計量為:
()
這個模型框架后續被Rubin(1974,2005)拓展到非隨機領域,形成了著名的“Neyman-Rubin”模型。假設用啞變量D表示是否收到政策干預,D = 1表示收到政策干預,其樣本集合被稱為處理組,D = 0表示沒有收到政策干預(也就是我們之前文章談到的LATE模型),其樣本集合被稱為控制組。實驗組和控制組的潛在觀測結果分為和,則實際觀測結果可表示為:,此時ATE的估計量為:()其中為條件期望算子。如果我們更加關注參與者的平均因果效應(average treatment effect on the treated,ATT)或者非參與者平均因果效應(average treatment effect on the untreated,ATU),則可以通過下面兩個公式分別得到ATT和ATU的估計量:
()()
1.2 機器學習與因果推斷框架
PO因果推斷在實踐應用中會進行一定程度的簡化,例如采用線性化假定、設定通用函數等,從而構建實證模型來進行因果效應的估計,但是這種簡化方式必然會帶來結果的偏差,因此可以通過引入機器學習方法提升因果效應識別的效果成為了可能。而改進的路徑體現在兩個方面:
(1)加強樣本匹配的隨機性,即提升控制組和處理組樣本之間匹配過程的隨機性,
(2)提升反事實預測的準確度,即對控制組和處理組樣本的不可觀測效應進行準確預測
1.2.1 樣本匹配隨機性
在社會科學研究中,很難去真正隨機化一個社會實驗,因此就需要充分利用觀測數據進行隨機化條件的創造。Rosenbaum和Rubin提出了一種傾向性得分匹配(PSM)的方法將非隨機化的觀測數據盡量模擬成隨機化實驗的重要方法(本質就是將實驗組和對照組原本流量不同的群體,通過PSM變成流量分布一致的)。
從理論上看,傾向性得分是在給定樣本特征X時,不同樣本接受處理的條件概率,即。
傾向性得分有常規的兩步法:
(1)使用Logit模型利用觀測數據擬合回歸模型,并用該回歸模型對所有觀測值計算一個范圍0~1之間的擬合值,作為各觀測樣本的傾向得分估計值;因此可以考慮使用不同的機器學習模型學習更加準確的傾向性得分估計值
(2)基于傾向得分估計值對樣本進行匹配后估計因果效應。
1.2.2 反事實預測
公式(4)說明了反事實的原因,即只能獲取參與與不參與中的一個結果,我們也將這種問題叫做缺失數據問題。
除了上面說到的提升樣本匹配隨機性之外,可以利用已有的觀測數據對未知項進行反事實預測,通過計算實際觀測值與反事實觀測值之間的差異來估計因果效應。
在PO框架下,因果效應識別問題被轉化為了純粹的精準預測問題,因而機器學習方法能夠拼接樣本內與樣本外的精準預測能力,提升因果效應識別的準確性。下面展開具體說說。
2 基于機器學習的因果效應識別提升方法
2.1 匹配法
樣本匹配是因果推斷效應識別中極其重要的一環。比如,在社會研究中,雙胞胎匹配是被看作最理想的配對樣本(理解為實驗組和對照組可比較),可以通過控制不可觀測的個體因素而得到較為準確的因果效應。但是我們知道,在大多數問題中,這種完美的匹配樣本幾乎是不存在的。利用已有的觀測數據,盡可能的提升樣本之間的可比性,主要的方法有兩種:
(1)通過協變量進行直接匹配
(2)通過PSM方法進行匹配
機器學習方法在上述兩種方法中均能夠被應用,并未匹配效果帶來一定的提升。
2.1.1 直接匹配
使用協變量進行樣本匹配的核心思想是構造一個基于多維協變量的標量距離值,通過設定卡尺(caliper)來篩選距離處理組較近的控制組樣本來進行配對匹配,計算一下配對匹配估計量來作為因果效應的估計值:
()
其中表示樣本t屬于處理組,c(t)表示匹配上的控制組樣本,Nt表示處理組樣本數量。不過由于距離函數的多種多樣和數據集的豐富性,因果效應的估計值也會有所區別
2.1.2 傾向性得分匹配PSM
參考上面說到的兩步法。
2.2 斷點回歸法
斷點回歸法是一種較為特殊的因果效應識別方法,相比較其他方法:斷點回歸法在研究設計之初已經完成了控制組和處理組的樣本匹配過程。
具體定義是指,當研究的樣本對象分別位于斷點附近的位置但卻受到了不同的政策對待時,被天然的分為了控制組和處理組(比如英語四六級425分的要求)。因此樣本在政策錢沒有收到特殊的區分對待時,可以認為兩個分組的樣本的各個協變量特征方面是極其相似的。
斷點回歸估計主要分為兩類:
(1)精確斷點回歸
(2)模糊斷點回歸
2.3 雙重差分法
控制組與處理組之間的樣本因變量差異是第一重差分
兩個樣本組的因變量差異在兩個時期時間的差異是第二重差分
因此時間因素是雙重差分法的重要因素,因此用于眾多的經濟學因果效應實證研究中。在AB測試中也常用于空跑期實驗指標就存在天然顯著的問題。
雙重差分的一個前提假設是匹配后的控制組和處理組樣本的因變量(或者說是指標)呈現出平行趨勢,即沒有政策干預的情況下,兩個樣本組的指標應該以相同趨勢發生變化,表示如下:()
當滿足平行趨勢假設前提時,反事實結果是可以被準確估計的,從而可以通過雙重差分法求出參與者平均因果效應,表示如下:
()
所以當平行趨勢假設無法得到滿足的時候,公式(13)得到的因果效應就會存在誤差,而且隨著樣本的時間長度增加,平行趨勢假設的可能性就會不斷下降。
2.4 合成控制法
合成控制法估計因果效應的核心思想與雙重差分法一致。
其本質就是當一個對照組和處理組在上策略之前不具有很好的相似性(即指標顯著),這個時候就需要對多個控制組進行合成,保證合成后的控制組和處理組具有很好的相似性,從而觀察上策略之后的合成控制組和對照組的因果效應估計值。
假設有J個樣本,樣本1時唯一收到策略錯誤干預的處理組樣本,剩余的J-1個樣本均是控制組樣本,合成控制法試圖找出一組最優的非負權重的向量 且滿足,控制組樣本在經過最優權重向量加權后形成合成樣本,該合成樣本與樣本1在收到干預措施前具有非常相似的性質(即沒有上策略之前,指標不顯著),對應的合成控制估計量可以表示為:
()
其中,下標t表示時間,Y表示結果變量。
通過公式(14)來看,雙重查分匹配過程看作合成控制法的一個特征,即控制組中去一個樣本的權重為1,其余樣本的權重為0,就是雙重差分法。
參考文獻
[1]更精確的因果效應識別:基于機器學習的視角
往期精彩回顧適合初學者入門人工智能的路線及資料下載(圖文+視頻)機器學習入門系列下載中國大學慕課《機器學習》(黃海廣主講)機器學習及深度學習筆記等資料打印《統計學習方法》的代碼復現專輯 AI基礎下載機器學習交流qq群955171419,加入微信群請掃碼:總結
以上是生活随笔為你收集整理的【机器学习】机器学习视角下的因果推断的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 浅谈XSS攻击的那些事(附常用绕过姿势)
- 下一篇: 设置response.setConten