【论文翻译】(UAI 2018)使用感知预测网络进行潜在物理属性的无监督学习
目錄
- 摘要
- 1 介紹
- 2 相關工作
- 3 模型
- 3.1 感知-預測網絡
- 3.2 交互網絡
- 3.3 感知網絡
- 3.4 預測網絡
- 4 實驗
- 4.1 物理系統
- 4.2 模型架構
- 5 結果
- 5.1 提取潛在屬性
- 5.2 Rollout預測
- 5.3 對新目標的泛化
- 6 討論
譯者:子魚
論文地址:https://arxiv.org/pdf/1807.09244.pdf
參考文獻和補充材料請見原文。譯者水平有限,錯誤難免,懇請讀者批評指正。譯者目前正在做這個方向的研究,歡迎讀者與我交流,可博客留言或發郵件至infinitylyceum@163.com
摘要
我們提出了一個從潛在物體的相互作用中學習其屬性的完全無監督的框架:感知-預測網絡(PPN)。PPN由一個感知模塊和一個預測模塊組成,感知模塊提取潛在物體屬性的表示,預測模塊使用這些提取的屬性來模擬系統動力學,PPN可以完全從物體動力學樣本進行端到端的訓練。通過PPN學習到的潛在物體屬性表示不僅足以精確地模擬由以前沒見過的物體組成的系統的動力學,而且可以在完全無監督的方式下直接轉化為可解釋的屬性(例如質量、恢復系數)。至關重要的是,PPNs也適用于新的場景:基于梯度的訓練可以應用于許多動力系統,基于圖的結構函數可以應用于由不同數量的對象組成的系統。我們的結果證明了基于圖的神經結構在以物體為中心的推理和預測任務中的有效性,并且我們的模型有潛力在尚未被很好理解的系統中發現相關的物體屬性。
1 介紹
物體的物理特性與物理定律結合在一起,支配著我們世界中物體運動和相互作用的方式。為觀察到的對象分配屬性可以幫助我們總結對這些對象的理解,并更好地預測它們的未來行為。通常,這些性質的發現可以在很少的監督下進行。例如,通過觀察一個弓箭手射出幾支箭,我們可能總結出弓弦的張力、風的強度和方向、箭的質量和阻力系數等特性都會影響箭的最終軌跡。即使在完全陌生的微觀世界中觀察,人類仍然能夠了解到系統的相關物理特性[1]。
我們的工作利用神經關系網絡的最新進展,以無監督的方式學習系統的潛在物理特性。特別是,神經關系體系結構[2,3]已被證明能夠準確地模擬涉及具有已知物理屬性對象的復雜物理交互作用。關系網絡有幾個特點,使它們特別適合我們的任務:它們是完全可微的,這允許它們應用于各種不同的情況,而不需要任何架構更改;他們有一個模塊化的基于圖的結構,概括了不同數量的對象;它們的基本結構可以很容易地應用于動力學預測和潛在性質的學習。
我們使用關系網絡來構造感知-預測網絡(PPN),這是一個新的系統,使用一個表示學習[4]范式,純粹通過觀察來提取一個物理系統的屬性編碼。以前的神經關系結構只使用關系網絡來預測具有已知屬性值的對象狀態,與此不同的是,我們使用關系網絡來創建一個感知網絡(從觀察中獲得屬性值)和一個預測網絡(給定屬性值預測對象位置)。通過觀察由具有不同屬性值的對象組成的系統的動力學,PPN能夠推導出與物理模擬相關的潛在屬性的無監督表示。這些學習的表征可以直接轉化為人類可解釋的屬性,如質量和恢復系數。
我們的系統的一個重要方面是泛化,這是人類在推斷新系統的潛在特性時所擅長的。我們提出的系統在幾種形式的泛化下是健壯的,我們的實驗證明了我們的無監督方法識別可解釋的屬性的能力,即使在訓練和測試中面對不同數量的對象,以及屬性值在以前沒見過的范圍內。
我們評估了PPN的兩個主要功能:對未見過的對象的動力學預測的準確性和通過模型學習到的的屬性的可解釋性。實驗結果表明,該模型能夠準確地模擬具有未知屬性值的復雜多相互作用系統的動力學過程,只需經過較短的觀測周期即可推斷出這些屬性值。此外,我們證明,通過我們的模型學習的表示,可以很容易地使用完全無監督的方法轉換成相關的人可解釋的屬性。此外,我們使用幾個實驗表明,動力學預測的準確性和性質的可解釋性都很好地推廣到新的場景與不同數量和配置的對象。最終,PPN為發現物理系統的潛在特性和模擬其動力學提供了一個強大的通用框架。
2 相關工作
以往建立直觀物理模型的方法主要分為兩大類:自頂向下的方法,為現有的符號物理引擎推斷物理參數[1,5,6,7,8,9];以及自底向上的方法,直接預測物理量或給定觀測的未來運動[10,11,12,13,14,15,16]。盡管自頂向下方法能夠很好地泛化到其底層物理引擎支持的任何情況(例如,不同數量的物體、以前未見過的屬性值等),但它們很難適應其底層描述語言不支持的情況,需要手動修改以支持新的交互類型。另一方面,自底向上的方法通常能夠學習以前沒有見過的情況的動力學而不需要手動修改,盡管它們通常缺乏以與自頂向下方法相同的方式進行概括的能力。
最近,一種混合方法使用了神經關系網絡(更一般的基于圖的神經網絡的一個具體實例[17,18])來獲得自頂向下方法的泛化優勢,而不需要底層的物理引擎。關系網絡依靠可交換和可結合的運算(通常是向量加法)來組合對象狀態向量之間的成對交互,以預測未來的對象狀態[19]。這些網絡已經成功地模擬了庫侖電荷、物體碰撞(具有或不具有完全彈性)和彈簧張力等相互作用下的多物體動力學[2,3,20,21]。類似于自頂向下的方法,關系網絡能夠在不修改網絡權值的情況下,將其對目標位置和速度的預測推廣到不同數量的目標(例如,訓練6個目標,測試9個目標);此外,它們是完全可微的架構,可以通過在各種交互作用下的梯度下降來訓練。我們的論文以一種新穎的方式利用了交互網絡,首次證明了它作為感知模塊和無監督表示學習的一個組成部分的有效性。
其他的研究著眼于對潛在物體屬性的監督和無監督學習,試圖反映人類在物理環境中能夠執行的物體屬性的推斷[1]。Wu等人[9]利用了一個深度模型和一系列物理定律,從原始視頻輸入來估計質量、體積和材料等屬性。Fraccaro等人[22]使用變分自動編碼器推導出單個彈跳球域的潛在狀態,然后使用該域的卡爾曼濾波進行模擬。Chang等人[3]證明,他們的基于關系網絡的物理模擬器也能夠通過將每種可能的模擬輸出與現實相比較,對一組可能的屬性值進行最大似然推斷。我們的論文更進一步,表明物理性質可以從僅僅是原始的多物體運動數據中學習。最近,Kipf等人[23]也利用關系網絡來推斷對象之間的范疇交互的一致性;相反,我們的論文關注的是對象屬性的學習。
3 模型
3.1 感知-預測網絡
PPN觀察具有未知潛在屬性(例如質量、恢復系數)的物體的物理動力學,并學會生成這些物體屬性的有意義的表示,以便用于以后的模擬。整個網絡的概述如圖1所示,PPN由以下兩部分組成:
- 感知網絡在一個短的觀察窗內以物體運動的幀序列作為輸入。它為場景中的每個對象輸出一個屬性向量,為該對象編碼相關的潛在物理屬性。每個輸入幀是一組狀態向量,由每個物體的位置和瞬時速度組成。在訓練過程中,沒有對屬性向量給出直接的監督目標。
- 預測網絡使用感知網絡生成的屬性向量來模擬不同初始設定的對象。網絡以感知網絡生成的屬性向量和所有對象的新的初始狀態向量作為輸入。它的輸出是從對象的新開始狀態開始的未來狀態的rollout(一條軌跡)。預測網絡的訓練目標是rollout序列的真實狀態。
圖1:模型概述。PPN遵循的無監督對象屬性發現范式從對象動力學樣本中提取屬性向量,以準確預測這些對象的新軌跡。將無監督學習方法應用到學習向量中,可以提取人可解釋的對象屬性。
圖2:模型架構。PPN用觀察到的狀態序列O1,…,OTO_1,…,O_TO1?,…,OT?和初始狀態R0R_0R0?來開始新的rollout。編碼向量C1,…,CTC_1,…, C_TC1?,…,CT?利用交互網絡由觀察狀態導出,最終的屬性向量ZZZ由感知網絡產生。對于給定初始狀態R0R_0R0?的新rollout,預測網絡利用屬性向量來遞歸預測未來物體狀態R1,R2,…R_1, R_2,…R1?,R2?,…。我們對PPN進行訓練,使這些時間步長預測的rollout狀態和真實狀態之間的L2距離最小化。
我們使用交互網絡[2]來實現感知和預測網絡,這是一種特殊類型的神經關系網絡,它是完全可微的,可以推廣到任意數量的對象。這使得我們可以使用梯度下降對兩個網絡進行端到端的訓練,只使用預測網絡的rollout目標的監督信號,將感知網絡輸出的屬性向量直接輸入到預測網絡中。
3.2 交互網絡
交互網絡(IN)是一種關系網絡,它是感知網絡和預測網絡的基礎。在高水平上,交互網絡使用多層感知器(MLPs)實現兩個模塊化函數,關系模型frelf_relfr?el和對象模型fobjf_objfo?bj,用于把一組特定對象的輸入特征{x(1),…,x(N)}\{x^{(1)},…,x^{(N)}\}{x(1),…,x(N)}轉換為特定對象的輸出特征{y(1),…,y(N)}\{y^{(1)},…,y^{(N)}\}{y(1),…,y(N)},其中NNN是系統中對象的數量。給定對象iii和jjj的輸入特征,frelf_relfr?el計算出對象jjj對對象iii的“效果”向量為e(i,j)=frel(x(i),x(j))e^{(i,j)}= f_rel(x^{(i)},x^{(j)})e(i,j)=fr?el(x(i),x(j))。網絡對對象iii的影響e(i)e^{(i)}e(i)是對象iii上所有成對效應的向量和∑j≠ie(i,j)\sum_{j\ne i}e^{(i,j)}∑j?=i?e(i,j)。最后,對象iii的輸出為y(i)=fobj(x(i),e(i))y^{(i)}= f_obj(x^{(i)},e^{(i)})y(i)=fo?bj(x(i),e(i))。重要的是,frelf_relfr?el和fobjf_objfo?bj是應用于所有對象和對象-對象交互的共享函數,允許網絡泛化不同數量的對象。
交互網絡能夠學習具有復雜物理動力學的系統的狀態到狀態的轉換函數。然而,更普遍的情況是,交互網絡可用于為輸入和輸出特性特定于特定對象的函數建模,并且對于每個對象,輸入和輸出之間的關系是相同的。
當我們的預測網絡使用交互網絡來模擬狀態轉換時,我們的感知網絡使用交互網絡來根據觀察到的證據對對象潛在屬性的值進行增量更新。
3.3 感知網絡
感知網絡從一系列觀察到的狀態OOO中產生特定對象的屬性向量ZZZ。如圖2所示,我們的感知網絡是一個使用交互網絡作為其核心遞歸單元的遞歸神經網絡。感知網絡從特定于對象的編碼向量C1C_1C1?開始,初始化為零向量,每個向量有固定的大小LCL_CLC?。在每一步ttt中,IN獲取前面的編碼向量Ct?1C_{t-1}Ct?1?以及最后兩個觀察到的狀態Ot?1O_{t-1}Ot?1?和OtO_tOt?,以生成更新后的編碼向量CtC_tCt?,其大小也為LCL_CLC?。在處理完所有的觀察幀TOT_OTO?后,感知網絡將最終的編碼向量CTOC_{T_O}CTO??輸入到一個單獨的MLP中,該MLP將每個對象的編碼向量轉換為每個對象的大小為LZL_ZLZ?的“無中心”屬性向量。我們將無中心屬性向量的最終集合表示為ZuZ_uZu?。
在許多物理系統中,在絕對尺度上測量物體的潛在屬性可能是不可能或不可取的。例如,在一個兩個球彈性碰撞的系統中,一次碰撞只能告訴我們每個物體相對于另一個物體的質量,而不是它們的絕對質量值。為了允許對絕對屬性值進行推斷,我們讓每個系統的第一個對象作為參考對象,并在每個系統中使用相同的屬性值。在此過程中,我們可以通過觀察其他所有對象相對于參考對象的值來推斷它們的絕對屬性值。為了加強對參考對象的推斷,我們通過從每個對象的非居中屬性向量中減去參考對象的非居中屬性向量來“居中”屬性向量,從而產生最終的屬性向量ZZZ。注意,這確保了參考對象的屬性向量始終是零向量,這與它的屬性已知為常量這一事實相一致。我們可以用以下公式來總結感知網絡:
C1=0Ct=INpe(Ct?1∣∣Ot?1∣∣Ot),for?t=2,…,TOZu(i)=MLPpe(CTO(i)),for?i=1,…,NZ(i)=Zu(i)?Zu(1),for?i=1,…,NC_1=\bold{0}\\C_t=\bold{IN}_{pe}(C_{t-1}||O_{t-1}||O_t), \text{for}\ t=2,\dots,T_O\\ Z_u^{(i)}=\bold{MLP}_{pe}(C_{T_O}^{(i)}), \text{for}\ i=1,\dots,N\\ Z^{(i)}=Z_u^{(i)}-Z_u^{(1)}, \text{for}\ i=1,\dots,N C1?=0Ct?=INpe?(Ct?1?∣∣Ot?1?∣∣Ot?),for?t=2,…,TO?Zu(i)?=MLPpe?(CTO?(i)?),for?i=1,…,NZ(i)=Zu(i)??Zu(1)?,for?i=1,…,N
其中∣∣||∣∣是面向對象的串聯操作,INpe\bold{IN}_{pe}INpe?是感知交互網絡,MLPpe\bold{MLP}_{pe}MLPpe?是把編碼轉化為屬性的MLP,Zu(1)Z_u^{(1)}Zu(1)?是參考對象的非居中屬性向量。
3.4 預測網絡
預測網絡利用感知網絡產生的屬性向量,從一個新的初始狀態R0R_0R0?開始對系統進行狀態到狀態的rollout。與感知網絡一樣,預測網絡也是具有交互網絡核心的遞歸神經網絡。在第ttt步,IN獲取前一個狀態向量Rt?1R_{t-1}Rt?1?和屬性向量ZZZ,并輸出下一個狀態向量RtR_tRt?的預測。換句話說:
Rt=INpr(Rt?1∣∣Z),for?t=1,…,TRR_t=\bold{IN}_{pr}(R_{t-1}||Z), \text{for}\ t=1,\dots,T_R Rt?=INpr?(Rt?1?∣∣Z),for?t=1,…,TR?
這里INpr\bold{IN}_{pr}INpr?是預測交互網絡,TRT_RTR?是rollout的幀數。
模型的預測損失函數是預測值與真實值{Rt}t=1…TR\{R_t\}_{t=1\dots T_R}{Rt?}t=1…TR??之間的總MSE。
4 實驗
4.1 物理系統
在我們的實驗中,我們關注于潛在屬性推斷任務和后續動力學預測任務都具有挑戰性的二維域。在所有系統中,第一個對象作為參考對象并具有固定的屬性。所有其他對象的屬性都可以相對于參考對象的屬性推斷出來。我們在以下的域評估PPN(見圖5):
- 彈性 質量相等的球具有一種叫做“彈性荷”*(spring charge, charge有電荷之意——譯者注)*的假想性質,它們相互作用,就好像所有成對的物體都是由遵循胡克定律的彈簧控制的。參考對象的彈性荷為1,而其他所有對象的彈性荷都是從[0.25,4]上的的對數均勻分布中獨立隨機選擇的。連接任意一對物體的彈簧的彈性系數是兩個物體的彈性荷的乘積,所有彈簧的平衡距離是一個固定的常數。
- 完全彈性碰撞 半徑固定的球在封閉的盒子里彈性碰撞。參考對象的質量為1。其他所有的球的質量都是從[0.25,4]上的的對數均勻分布中獨立隨機選擇的。圍繞著這些球的四堵墻具有無限的質量,并且不會移動。
- 非完全彈性碰撞 在上一個域的基礎上,我們通過添加恢復系數(COR)來引入額外的復雜性,作為每個對象的另一個變化的潛在屬性。一次碰撞的COR是兩個碰撞物體沿垂直于接觸平面的軸的最終相對速度與初始相對速度的比值。例如,在完全彈性情況,所有碰撞的COR都是1。我們設定所有的球的COR都是從[0.5,1]上的的均勻分布中獨立隨機選擇的。參考對象的COR為0.75。用于計算兩個球之間的碰撞動力學的COR被定義為兩個碰撞對象的COR的最大值。當一個球與墻碰撞,球的COR用于碰撞。
對于每個域,我們在一個包含10610^6106個樣本的擁有6個對象的數據集上訓練PPN,并在一個包含10510^5105個樣本的擁有6個對象的數據集上驗證。每個樣本由50個觀測幀作為感知網絡的輸入和24個rollout幀作為預測網絡的目標組成。我們在擁有3、6和9個對象的測試集上評估我們的模型,每個測試集有10510^5105個樣本。
此外,我們還希望證明PPN推廣到潛在屬性超出訓練中看到的值范圍的新對象的能力。在這個實驗中,我們在一個新的有10510^5105個樣本的2個對象完全彈性球數據集上測試我們的模型。第一個球的質量仍然固定在1,而第二個球的質量從11個值里選擇,這11個值的范圍從32?132^{-1}32?1到32,在對數尺度間隔均勻。我們在彈性域中做了一個類似的實驗,使用同樣的11個值作為第二個物體的彈性荷。
我們使用matter-js,一個通用的剛體物理引擎,用于生成真實值數據。在所有的模擬中,球被包含在一個512px×512px的封閉盒子中。每個球有一個50像素的半徑和隨機初始化的位置,這樣球沒有重疊。在彈性域中,從[-15,15]px/sec范圍內均勻隨機選取初始x、y速度分量,每個彈簧的平衡位移為150,所有球的質量為10410^4104。在完全彈性碰撞域中,初始速度分量選取范圍為[-9,9]px/sec。在非彈性碰撞域中,它們的選取范圍為[-13,13]px/sec。每個數據集的幀以120幀每秒的速度采樣。
在創建我們的彈球數據集時,我們使用拒絕采樣來過濾一些無法從觀察幀中推斷出的對象潛在屬性的模擬。在每種彈球域中,我們必須能夠推斷出每個物體的質量。為了保證這一點,每個對象必須直接與參考對象碰撞,或者通過一系列碰撞間接與參考對象連接。對于非彈性區域,我們必須確保每個對象的COR也可以推斷出來。在球-球碰撞中,只有較高的對象COR用于確定碰撞動力學,因此只有較高的對象COR可以從碰撞中推斷出來。因為這個原因,每個球必須要么與COR較低的球或一堵墻碰撞。
4.2 模型架構
我們在所有的實驗中使用單一的模型架構。我們將每個編碼向量的大小LCL_CLC?設置為25,將每個屬性向量的大小LZL_ZLZ?設置為15。模型中所有的MLP,包括交互網絡中的MLP,都使用帶有ReLU激活的線性隱藏層和一個線性輸出層。
按照Battaglia等人[2]的整體結構,感知網絡的IN核心由大小為[75,75,75,50]的4層關系為中心的MLP和大小為[50,50,25]的3層對象為中心的MLP組成。由IN輸出的最終的編碼向量輸入到另一個大小為[15,15,15]的以對象為中心的MLP中,以產生大小為15的最終潛在屬性向量。預測網絡的IN核心是一個以關系為中心的大小為[100, 100, 100, 100, 50]的5層MLP和一個3層以對象為中心大小為[50,50,4]的MLP,用于預測每個對象的下一個位置和速度。
感知網絡和預測網絡使用單一的訓練損失進行端到端的訓練,我們稱之為預測損失。預測損失是24個rollout時間步內所有對象的預測與實際狀態向量的MSE的未加權和。此外,我們在感知網絡和預測網絡的“效應”層應用L2正則化。這種正則化鼓勵在交互過程中進行最小程度的信息交換,并被證明是一般化到不同數量的對象的關鍵組成部分。我們通過網格搜索為每個正則化項選擇懲罰因子。我們還實驗了在屬性向量上使用β\betaβ-VAE正則化[24,25],以鼓勵學習可解釋的和分解的屬性。
為了提高在模擬長時間鋪展時的穩定性,我們在整個rollout上為每個狀態向量添加了少量的高斯噪聲,迫使模型進行誤差自校正。通過實驗,我們發現設置噪聲std. dev.等于0.001乘以數據集上每個狀態向量元素值的std. dev.,可以穩定rollout位置而不影響損失。我們對模型進行了150個epoch的訓練,并使用Adam[26]對256個小批量對模型參數進行了優化。我們使用瀑布方法,即開始時學習率為5×1045×10^45×104,和縮減規模0.8每次驗證誤差,估計10個epoch的一個窗口,停止下降。
5 結果
5.1 提取潛在屬性
結果表明,對象的物理屬性被成功地編碼到感知網絡輸出的屬性向量中。事實上,我們可以對訓練過程中感知網絡生成的屬性向量利用主成分分析(PCA)來提取人類可解釋的彈性荷、質量和COR等概念。我們發現,每個屬性向量的第一主分量與彈性域內的彈性荷的對數和彈性域內物體質量對數高度相關。在非彈性球領域,我們也發現,第二主成分的屬性向量與COR高度相關。表1顯示了在所有三個領域每個學到的屬性向量的前4個主成分的解釋方差比率(EVR),以及當每個組件是用來預測真實對象屬性時的R2R^2R2。由于主成分分析是一種無監督的技術,這些標量可以在沒有質量和COR先驗概念的情況下被發現,我們可以使用某些主成分EVR的數量級差異來識別哪些成分代表有意義的性質,哪些成分僅僅捕捉噪聲。
表1:主成分分析。將主成分分析應用于屬性向量,得到與人類可解釋的潛在屬性(如COR和質量的對數)高度相關的主成分。我們計算每一個訓練集的屬性向量的前四個主成分的統計量。解釋方差比EVR是主成分的解釋方差作為總體方差的一小部分,而R2R^2R2是主成分和真實屬性之間平方樣本相關性。值小于10310^3103的數字近似為0。
表2:數據效率和對象泛化數量。PPN用10510^5105個訓練數據學會了獲取物理性質,當給定2×1052×10^52×105個實例時收斂。它的預測可以很好地推廣到對象數量變化的樣本外測試集。我們在一個6個對象的數據集上訓練PPN,并在由6、3和9個對象組成的全新數據集上測試它。在上面,我們報告了當使用屬性向量的第一個主成分來預測對數質量和第二個主成分來預測COR(對于非彈性球的情況)時的R2R^2R2。注意即使在3和9個對象的情況PPN也能提取出R2R^2R2很高的質量和恢復系數。
我們還發現,每個已學習的屬性向量只包含有關其關聯對象的信息,而不包含任何其他對象的信息。我們通過使用線性最小二乘法來計算每個對象的真實潛在屬性和所有其他對象的屬性向量之間的樣本內R2R^2R2來檢驗這個假設。這個R2R^2R2小于5%對于這三個域和它們相關的潛在性質。
為了測試我們的感知網絡的泛化特性,我們在使用感知網絡(經過6對象動力學訓練)和主成分分析預測不同對象數量的測試集的屬性值時,計算樣本外R2R^2R2,如表2所示。表2也展示出當給定不同數量的訓練實例時,PPN的表現如何。在所有彈球測試集中,我們的模型訓練了10610^6106個數據點,對數質量的OOS R2R^2R2大于90%,COR的OOS R2R^2R2大于68%,彈簧域中對數彈性荷的OOS R2R^2R2大于87%。(原文沒說什么是OOS,可能是out-of-sample,意為樣本外——譯者注)
我們還將PPN與LSTM-PPN基線進行了比較。LSTM-PPN用多層LSTM替換了PPN中的感知和預測網絡。與交互網絡不同,LSTM不按對象對輸入和輸出進行因式分解。相反,每個對象的狀態向量被連接起來并一起處理,并且學習所有對象的單個屬性向量。表格3表明LSTM-PPN沒有學習有意義的潛在特性。在每個場景中,真實對象屬性和屬性向量之間的樣本內R2R^2R2中的線性最小二乘小于2%。我們也實驗了不同的β\betaβ數值在屬性向量Z的正則化項中,如在β\betaβ-VAE25]中。在學習對象屬性時,β\betaβ對其值不產生影響。
對于兩個彈球域,物體的相對質量是通過碰撞來推斷的,但并不是所有的物體都與參考對象直接碰撞。我們將物體的參考距離定義為在觀察過程中將物體的質量與參考物體的質量聯系起來所需要的最小碰撞次數。例如,對參考距離為3的物體的推斷依賴于對兩個中間物體質量的推斷。圖3顯示了PPN預測R2R^2R2和6個目標測試集的參考距離之間的關系。雖然在推斷過程中,由于復合誤差的存在,參考距離增加時R2R^2R2會衰減,但PPN清楚地證明了使用及物性來推斷大參考距離物體質量的能力。
圖3:質量預測與參考距離。用于預測不同參考距離下的對數質量的兩個6個物體彈球數據集的樣本外R2R^2R2。PPN必須結合一系列中間質量推斷來準確推斷大參考距離物體的質量。
表3:與基準方法比較。改變正則化項β\betaβ的值并不會顯著改變PPN的性能。PPN始終優于基線的LSTM。
5.2 Rollout預測
雖然PPN的主要目標是潛在物理特性的無監督學習,網絡也可以用來模擬對象動力學。為了評估PPN的預測性能,我們使用平均歐幾里得預測誤差,或平均歐幾里得范數之間的真值和預測rollout位置,對所有樣本和對象求平均。我們比較PPN在兩個基準方法上的表現。平均屬性完美Rollout(MPPR)基準方法從開始狀態輸出一個完美的Rollout,但是錯誤地假設所有的對象質量和彈性荷都是1。對于非彈性球域,也假定所有物體的COR是0.75。真實屬性(GPIN)基準方法是一種與PPN預測網絡具有相同IN架構的網絡。不像PPN,它直接獲取真實潛在值作為輸入,但它仍然只在6個目標的數據集上訓練。圖4列出了三種模型在不同場景下的平均歐氏預測誤差,并顯示了預測誤差在不同rollout步驟下的變化情況。PPN的平均歐幾里得預測誤差明顯優于MPPR基線和相當接近GPIN模型,特別是對彈性和完全彈性球數據集。
最后,圖5顯示了PPN的rollout軌跡的可視化。隨機選擇的模擬可以在http://ppn.csail.mit.edu找到。像原始的IN,PPN的推出對早期時間步長的小預測誤差很敏感,但在視覺上仍具有說服力。
圖4:平均歐幾里得預測誤差。上:每個測試集的所有時間步長和樣本的歐氏預測誤差平均值,以幀寬度的分數衡量。對于每個域,PPN和GPIN在6對象系統上進行訓練,并在具有6、3和9個對象的新系統上進行測試。下:6個目標場景中每一個不同推出時間步長的歐式預測誤差平均值。3-對象和9-對象場景的圖形表現出類似的行為。
圖5:Rollout軌跡。6個測試集中的每一個的rollout軌跡樣本(超過24個時間步長)。每個領域的模型在6個目標樣本上進行訓練,并在6個、3個和9個目標樣本上進行測試。
5.3 對新目標的泛化
我們的實驗還探索泛化對象的屬性值范圍之外的訓練集,我們在2對象完全彈性測試集中測試PPN框架,這里第二個球的質量從從32?132^{-1}32?1到32不等。質量值范圍[0.25,4]是在訓練集內找到的,而超出這個范圍的質量值要求PPN將其對質量的理解推斷為之前未接觸到的值。我們在彈性域中做了一個類似的實驗,其中第二個物體的彈性荷為32?132^{-1}32?1到32。圖6繪制了兩個域中第二個球的真實屬性值和預測屬性值之間的關系,使用第5.1節中所述的主成分分析技術進行預測。
在完全彈性球領域,盡管整體上存在低估大質量值和高估小質量值的趨勢,但即使真實值遠在訓練范圍之外,PPN仍能提供對質量的準確預測。在彈性領域,PPN對彈性荷大的對象的預測效果較好,但對彈性荷小的對象的預測效果較差。這可能是由于彈性荷低的物體總體上感覺不到多少彈簧力,在32?132^{-1}32?1到16?116^{-1}16?1之間的彈性荷相較于16到32之間的彈性荷是很不值一提的。
圖6:屬性值泛化。彈性和完全彈性球域的2對象測試集中第二個對象的預測屬性值與真實屬性值的對比。真實屬性值的范圍從32?132^{-1}32?1到32。綠色區域4?14^{-1}4?1到4,表示在訓練過程中出現在PPN中的屬性值。誤差條顯示95%置信區間。總的來說,PPN繼續對訓練集之外的質量和彈性荷做出合理的預測,盡管預測的對象彈性荷比之前遇到的低
6 討論
我們提出了PPN模型,它能夠以完全無監督的方式從對象動力學樣本中發現潛在的對象屬性。通過實驗,我們不僅證明了通過PPN學習到的物體性質的表征足以準確地模擬相同規律下的新系統的動力學;而且,通過主成分分析,這些學習到的表征可以很容易地轉化為相關的、可人類解釋的屬性,如質量和恢復系數。
PPN證明了魯棒性,通過推廣到新的場景,幾乎沒有損失的準確性的動態預測或潛在性質推斷。通過使用交互網絡作為我們的感知和預測模塊的基本構建塊,我們使我們的模型能夠伸縮到任意數量的對象和交互,而不需要架構的改變。特別是我們的感知網絡結構,是一種簡單而有效的關系和遞歸網絡的組合,可能在其他涉及交互對象的時間序列推理任務中有用。我們還建立了PPN推斷訓練中看到的值范圍之外的潛在屬性的能力,進一步提高了它發現新系統的相關潛在屬性的潛力。
一些擴展將進一步提高我們的模型對潛在對象屬性的普遍發現的適用性。特別是,基于交互網絡的體系結構還不能解決的一些一般性問題:任意形狀剛體之間的碰撞檢測、稠密流體模擬等。將交互網絡擴展到基于粒子的對象表示是一個很有前途的研究方向[27]。
雖然交互網絡框架通常可擴展到任意數量的對象,但由于所有對象對之間存在交互項,處理所有對象所需的計算時間將與對象數量成二次關系,這使得它不適用于非常大的系統。提高感知和預測模塊的計算效率的一種方法是只考慮目標對象鄰域內的對象的交互作用(大多數交互作用只在較短的長度尺度上強),類似于Chang等人[3]。一個更小的全局相互作用網仍然可以用來模擬更遠距離的相互作用。
PPN提供了一種很有前途的方法來導出控制系統動力學的底層屬性,除此之外,它還是一個更通用的可學習的物理引擎,能夠推理潛在的未知對象的屬性。其操作的完全無監督方式和許多泛化特性使其具有良好的通用性。PPN適用于多種系統的應用,甚至可以發現尚未被很好理解的領域的相關潛在特性。
總結
以上是生活随笔為你收集整理的【论文翻译】(UAI 2018)使用感知预测网络进行潜在物理属性的无监督学习的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: nginx.conf文件(原始无修改)
- 下一篇: AI如何实现安全生产智能监控