顶会论文:基于神经网络StarNet的行人轨迹交互预测算法
1.背景
民以食為天,如何提升超大規模配送網絡的整體配送效率,改善數億消費者在”吃“方面的體驗,是一項極具挑戰的技術難題。面向未來,美團正在積極研發無人配送機器人,建立無人配送開放平臺,與產學研各方共建無人配送創新生態,希望能在一個場景相對簡單、操作高度重復的物流配送中,提高物流配送效率。在此過程中,美團無人配送團隊也取得了一些技術層面的突破,比如基于神經網絡StarNet的行人軌跡交互預測算法,論文已發表在IROS 2019。IROS 的全稱是IEEE/RSJ International Conference on Intelligent Robots and Systems,IEEE智能機器人與系統國際會議,它和ICRA、RSS并稱為機器人領域三大國際頂會。
1.1??行人軌跡預測的意義
在無人車行駛過程中,它需要對周圍的行人進行軌跡預測,這能幫助無人車更加安全平穩地行駛。我們可以用圖1來說明預測周圍行人的運動軌跡對于無人車行駛的重要性。
圖1 主車規劃軌跡跳變問題
圖1中藍色方塊代表無人車,白色代表行人。上半部分描述的是在不帶行人軌跡預測功能情況下無人車的行為。這種情況下,無人車會把行人當做靜態物體,但由于每個時刻行人都會運動,導致無人車規劃出來的行駛軌跡會隨著時間不停地變化,加大了控制的難度,同時還可能產生碰撞的風險,這樣違背了安全平穩行駛的目標。下半部分是有了行人軌跡預測功能情況下的無人車行為。這種情況下,無人車會預測周圍行人的行駛軌跡,因此在規劃自身行駛時會考慮到未來時刻是否會與行人碰撞,最終規劃出來的軌跡更具有“預見性”,所以避免了不必要的軌跡變化和碰撞風險。
1.2??行人軌跡預測的難點
總體而言,行人軌跡預測的難點主要有兩個:
第一,行人運動靈活,預測難度大。本身精確預測未來的運動軌跡是一個幾乎不可能完成的任務,但是通過觀察某個障礙物歷史時刻的運動軌跡,可以根據一些算法來大致估計出未來的運動軌跡(最簡單的是勻速直線運動)。在實際中,相比于自行車、汽車等模型,行人運動更加靈活,很難對行人建立合理的動力學模型(因為行人可以隨時轉彎、停止、運動等),這加劇了行人預測的難度。
第二,行人之間的交互,復雜又抽象。在實際場景中,某一行人未來的運動不僅受自己意圖支配,同樣也受周圍行人的影響(例如避障)。這種交互非常抽象,在算法中往往很難精確地建模出來。目前,大部分算法都是用相對空間關系來進行建模,例如相對位置、相對朝向、相對速度大小等。
1.3??相關工作介紹
傳統算法在做預測工作時會使用一些跟蹤的算法,最常見的是各類時序模型,例如卡爾曼濾波(Kalman Filter, KF)、隱馬爾可夫(Hidden Markov Model, HMM)、高斯過程(Gaussian Process, GP)等。這類方法都有一個很明顯的特點,就是根據歷史時序數據,建立時序遞推數學公式:$X^t=f\left(X^{t-1}\right)$或者$p\left(X^t \mid \ X^{t-1}\right)$。因為這類方法具有嚴格的數學證明和假設,也能處理一些常規的問題,但是對于一些復雜的問題就變得“束手無策”了。這是因為這些算法中都會引入一些先驗假設,例如隱變量服從高斯分布,線性的狀態轉換方程以及觀測方程等,而最終這些假設也限制了算法的整體性能。神經網絡一般不需要假設固定的數學模型,憑借大規模的數據集促使網絡學習更加合理的映射關系。本文我們主要介紹一些基于神經網絡的行人預測算法。
基于神經網絡的預測算法(主要以長短期記憶神經網絡Long Short Term Memory,LSTM為主)在最近5年都比較流行,預測效果確實比傳統算法好很多。在CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 2019上,僅行人預測算法的論文就有10篇左右。這里我們簡單介紹2篇經典的行人預測算法思路,如果對這方面感興趣的同學,可以通過文末的參考文獻深入了解一下。第一篇是CVPR 2016斯坦福大學的工作Social-LSTM,也是最經典的工作之一。Social-LSTM為每個行人都配備一個LSTM網絡預測其運動軌跡,同時提出了一個Social Pooling Layer的模塊來計算周圍其他行人對其的影響。具體的計算思路是將該行人周圍的區域劃分成NxN個網格,每個網絡都是相同的大小,落入這些網格中的行人將會參與交互的計算。
圖2 左:Social LSTM原理 右:Social Pooling計算過程
第二篇是CVPR 2019卡耐基梅隆大學&谷歌&斯坦福大學的工作,他們的工作同樣使用LSTM來接收歷史信息并預測行人的未來軌跡。不同于其他算法的地方在于,這個模型不僅接收待預測行人的歷史位置信息,同時也提取行人外觀、人體骨架、周圍場景布局以及周圍行人位置關系,通過增加輸入信息提升預測性能。除了預測具體的軌跡,算法還會做粗粒度預測(決策預測),輸出行人未來時刻可能所在的區域。
圖3 算法整體結構
其他的相關工作,還包括基于語義圖像/占有網格(Occupancy Grid Map, OGM)的預測算法,基于信息傳遞(Message Passing, MP)的預測算法,基于圖網絡(Graph Neural Network, GNN)的預測算法(GCN/GAT等)等等。
2. StarNet介紹
目前,現有的軌跡預測算法主要還是聚焦在對行人之間交互的建模,軌跡預測通常只使用LSTM預測即可。如下圖4左,現有關于軌跡預測的相關工作基本都是考慮行人之間兩兩交互,很少有考慮所有行人之間的全局交互(即使是GCN,也需要設計對應的相似矩陣來構造拉普拉斯矩陣,這也是一個難點)。我們可以舉一個例子來說明現有其他算法預測的流程:
假設感知模塊檢測到當前N個行人的位置,如何計算第一個行人下一時刻的位置? Step 1計算其他人對于第一個行人的交互影響。將第i個行人在第t時刻的位置記為(一般是坐標x和y)。可以通過以下公式計算第一個行人的交互向量: $$Interaction_1^t = f\left(P_2^t-P_1^t, P_3^t-P_1^t, \cdots, P_N^t-P_1^t\right)$$ 從上述公式可以大致看到,相對位置關系是最重要的計算指標,計算的函數f一般是一個神經網絡。 Step 2 計算第一個行人下個時刻的位置。通常需要根據上一時刻的位置與交互向量: $$P_1^{t+1} = g\left(P_1^t, Interaction_1^t\right)$$ 上述公式中,計算的函數g同樣是神經網絡,即上面提到的長短期記憶神經網絡LSTM。
圖4 算法思路對比圖 上:傳統算法 下:StarNet
兩兩交互的方式存在兩個問題:
障礙物2和3確實會影響障礙物1的運動,但是障礙物2和3之間同樣也存在相互影響,因此不能直接將其他障礙物對待預測障礙物的影響單獨剝離出來考慮,這與實際情況不相符。
兩兩計算消耗的資源大,如果有N個障礙物,那么兩兩交互就需要N的平方次計算,隨著N的變大,計算量呈平方倍增長。我們希望障礙物之間的交互能否只計算1次而非N次,所有障礙物的軌跡預測都共享這個全局交互那就更好了。
基于上述兩個問題,我們提出了一種新的模型,該模型旨在高效解決計算全局交互的問題。因為傳統算法普遍存在計算兩兩交互的問題(即使是基于Attention注意力機制的Message Passing也很難考慮到全局的交互),本文想嘗試通過一些更加簡單直觀的方式來考慮所有障礙物之間的全局交互,我們的算法大致思路如下:
每個時刻所有障礙物的位置可以構成一張靜態的“地圖”,隨著時間的變化,這些靜態地圖就變成了一張帶有時序信息的動態圖。這張動態圖中記錄了每個區域內的障礙物運動信息,其中運動信息是由所有障礙物一起影響得到的,而非單獨地兩兩交互形成。對于每個障礙物的預測階段,只要根據該障礙物的位置,就可以在這張時序地圖中查詢該區域在歷史時刻的障礙物運動信息(例如這個區域在歷史時刻中,障礙物1、2、4、5都有其運動的軌跡)。通過“共享全局交互地圖+個體查詢”的方式,就可以做到計算全局交互以及壓縮計算開銷。
圖5 StarNet網絡結構圖
我們的算法結構如上圖5所示,Host Network是基于LSTM的軌跡預測網絡; Hub Network是基于LSTM的全局時序交互計算網絡。在論文具體的實現中,首先Hub Network的靜態地圖模塊是通過接受所有障礙物同一時刻的位置信息、全連接網絡和最大池化操作得到一個定長的特征向量$s^t$; 然后動態地圖模塊使用LSTM網絡對上述的特征向量$s^t$進行時序編碼,最終得到一個全局交互向量$r^t$。Host Network首先根據行人(假設要預測第一個行人下時刻的位置)的位置$P_1^t$去動態地圖$r^t$中查詢自己當前位置區域內的交互$q_1^t$,具體我們采用簡單的點乘操作(類似于Attention機制)。最終自己的位置$P_1^t$和交互$q_1^t$一起輸入LSTM網絡預測下時刻的的位置$P_1^{t+1}$。
實驗階段,我們與4種經典的算法作比較,使用的數據集為UCYÐ數據集,這兩個數據集包含4個子場景,分別為ZARA-1/ZARA-2、UNIV、ETH、HOTEL。在預測過程中,所有算法根據每個行人過去3.2秒的運動軌跡,預測出它在未來3.2秒的軌跡。每0.4秒采樣一個離散點,因此3.2秒的軌跡可以用8個軌跡離散點表示。對比的指標有:
(a)平均距離差ADE(Average Displacement Error):用算法預測出的軌跡到真實軌跡所有8個點之間的平均距離差。 (b)終點距離差FDE(Final Displacement Error):用算法預測出的軌跡與真實軌跡最后一個終點之間的距離差。 (c)前向預測時間以及參數量。??????????????????
最終的實驗結果如下表:
從實驗結果可以看到,我們的算法在80%的場景下都優于其他算法,且實時性高(表中LSTM的推理時間為0.029秒,最快速是由于該算法不計算交互,因此速度最快參數也最少,但是性能較差)。
總結一下,我們提出算法StarNet的優勢主要包括以下兩點:
- 使用全局動態地圖的形式來描述行人之間在時間和空間上的相互影響,更加合理,也更加準確。
- Hub Network全局共享的特征提升了整個算法的計算效率。
3. 未來工作
首先,我們會進一步探索新的模型結構。雖然我們的算法在數據集上取得了不錯的效果,但這是我們的第一次嘗試,模型設計也比較簡單,如果提升模型結構,相信可以取得更好的結果。
其次,我們會提升預測的可解釋性。同現有算法一樣,目前的模型對計算到的交互缺乏可解釋性,仍然依賴于數據驅動。在今后的工作中,我們將通過對交互的可解釋建模來提升預測的準確性。
最后,在構建時序的動態地圖過程中,引入對于每個障礙物的跟蹤信息。換句話說,我們知道每塊區域在各個時間點障礙物的位置,但目前算法沒有對障礙物在時序上做跟蹤(例如時刻1有三個障礙物,時刻2三個障礙物運動了得到新的位置,網絡輸入為三個障礙物的位置信息,但是網絡無法理解兩個時刻中障礙物的對應關系,這降低了交互的性能),這點在以后的工作中還需要繼續改進。
參考文獻
[1] A. Alahi, K. Goel, V. Ramanathan, A. Robicquet, F. Li and S. Savarese, “Social lstm: Human trajectory prediction in crowded spaces,” in 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE 2016, pp. 961-971.
[2] H. Wu, Z. Chen, W. Sun, B. Zheng and W. Wang, “Modeling trajectories with recurrent neural networks,” in 28th International Joint Conference on Artificial Intelligence (IJCAI). 2017, pp. 3083-3090.
[3] A. Gupta, J. Johnson, F. Li, S. Savarese and A. Alahi, “Social GAN: Socially acceptable trajectories with generative adversarial networks,” in 2018 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2018, pp. 2255-2264.
[4] A. Vemula, K. Muelling and J. Oh, “Social attention: Modeling attention in human crowds,” in 2018 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2018, pp. 1-7.
[5] Y. Xu, Z. Piao and S. Gao S, “Encoding crowd interaction with deep neural network for pPedestrian trajectory prediction,” in 2018 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2018, pp. 5275-5284.
[6] D. Varshneya, G. Srinivasaraghavan, “Human trajectory prediction using spatially aware deep attention models,” arXiv preprint arXiv:1705.09436, 2017.
[7] T. Fernando, S. Denma, S. Sridharan and C. Fookes, “Soft+hardwired attention: An lstm framework for human trajectory prediction and abnormal event detection,” arXiv preprint arXiv:1702.05552, 2017.
[8] J. Liang, L. Jiang, J. C. Niebles, A. Hauptmann and F. Li, “Peeking into the future: Predicting future person activities and locations in videos,” in 2019 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2019, pp. 5725-5734.
[9] A. Sadeghian, V. Kosaraju, Ali. Sadeghian, N. Hirose, S. H. Rezatofighi and S. Savarese, “SoPhie: An attentive GAN for predicting paths compliant to social and physical constraints,” in 2019 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2019, pp. 5725-5734.
[10] R. Chandra, U. Bhattacharya and A. Bera, “TraPHic: Trajectory prediction in dense and heterogeneous traffic using weighted interactions,” in 2019 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2019, pp. 8483-8492.
[11] J. Amirian, J. Hayet and J. Pettre, “Social Ways: Learning multi-modal distributions of pedestrian trajectories with GANs,” arXiv preprint arXiv:1808.06601, 2018.
作者簡介
朱炎亮,美團無人配送部
錢德恒,美團無人配送部
任冬淳,美團無人配送部
夏華夏,美團無人配送部
招聘信息
美團軌跡預測組招聘深度學習算法工程師,我們希望你:
- 具有扎實的編程能力,能夠熟練使用C++或Python作為編程語言。
- 具有深度學習相關知識,能熟練使用TensorFlow或Pytorch作為深度學習算法研發框架。
- 對預測無人車周圍障礙物的未來軌跡感興趣。
歡迎有興趣的同學投送簡歷到 tech@meituan.com(郵件標題注明:美團軌跡預測組)。
總結
以上是生活随笔為你收集整理的顶会论文:基于神经网络StarNet的行人轨迹交互预测算法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 实时数据产品实践——美团大交通战场沙盘
- 下一篇: 美团 iOS 工程 zsource 命令