《Improved Crowd Counting Method Based onScale-Adaptive Convolutional Neural Network》论文笔记
《Improved Crowd Counting Method Based onScale-Adaptive Convolutional Neural Network》論文筆記
- 論文地址
- 論文翻譯
- ABSTRACT
- I. INTRODUCTION
- II. INTRODUCTION ON SACNN
- A. GENERATION OF THE GROUND TRUTH DENSITY MAP
- B. ARCHITECTURE
- C. IMPLEMENTATION
- REFERENCES
論文地址
論文翻譯
ABSTRACT
由于場景轉換,復雜的人群分布,照明不均勻和遮擋等各種因素的影響,人群計數是一項具有挑戰性的任務。為了克服這些問題,規模自適應卷積神經網絡(SaCNN)使用卷積神經網絡來獲得高質量的人群密度圖估計并整合密度圖以獲得估計的人數。提出了一種基于SaCNN的人群計數方法。對SaCNN中使用的幾何自適應高斯核的擴展參數(即標準方差)進行了優化,以生成用于訓練的更高質量的地面真實密度圖。權重為4e-5的絕對計數損失與密度圖損失共同優化,以提高行人少的人群場景的網絡泛化能力。另外,采用隨機裁剪方法來改善訓練樣本的多樣性,以增強網絡泛化能力。上海科技大學公共數據集上的實驗結果表明,與SaCNN相比,該方法在人群計數上可以獲得更準確,更可靠的結果。
I. INTRODUCTION
人群計數的目的是在獲得人群密度的同時,估計人群場景中行人的數量。當人群密度超過一定的閾值1時,人群很容易失控,公眾安全受到嚴重威脅。因此,人群計數的研究對安全領域具有重要意義,在視頻監控、交通監控、城市規劃建設等領域有著廣泛的應用。它也是對象分割2、3、行為分析4、5、對象跟蹤6、7、場景感知8、9、異常檢測10、11等相關任務的組成部分。這可能是高水平認知能力12的基礎。與其他計算機視覺問題一樣,人群計數也面臨著許多挑戰,如遮擋、不均勻的人口分布、不均勻的光照、尺度和視角變化、復雜的場景變化等。任務的復雜性及其現實意義越來越受到研究者的關注。此外,人群計數方法可以很容易地轉移到計算機視覺的其他任務中,如顯微鏡下的細胞計數13,14,車輛計數15,環境調查16。
~~~~~~??????與基于檢測的人群計數方法(通常使用滑動窗口檢測每個行人并計數行人17、18的數量)相比,基于回歸的方法在高密度人群和嚴重遮擋場景1920的人群計數中較為流行,且效果良好。對于基于回歸的方法,早期研究者提出學習從局部圖像塊19、21中提取的低水平特征與行數之間的直接映射。然而,這種直接回歸的人群計數方法忽略了重要的空間信息。2010年,Lempitsky和Zisserman19提出學習圖像塊局部特征與其對應的密度圖之間的線性映射,其中包括空間信息,然后對密度圖上的任意區域進行積分,得到該區域內的物體總數。2015年,Phamet al.21提出學習圖像塊局部特征與密度圖之間的非線性映射。2016年,Wang和Zou14針對現有人群密度估計方法計算復雜度低的問題,提出了一種基于子空間學習的快速度估計方法。同年,受到人臉識別等其他研究領域的高維特征的啟發,Xu和Qiu20提出了一種利用更豐富的特征集來提高人群計數估計性能的方法。由于初始高斯過程回歸或嶺回歸過于復雜,難以處理高維特征,因此采用隨機森林作為回歸模型。
~~~~~~??????近年來,卷積神經網絡在許多計算機視覺任務中取得了很大的成功,這促使研究者們使用卷積神經網絡來學習從人群圖像到密度圖或相應計數的非線性函數。2015年,Wanget al.22首先利用Alexnet架構23將卷積神經網絡應用于人群計數任務。將4096個神經元的全連接層替換為只有一個神經元的連接層來估計人群圖像中的行人數量。但該方法只能用于人群計數估計,無法獲得圖像的密度分布信息。Fuet al.24提出人群密度分為5個等級:超高密度、高密度、中密度、低密度和極低密度。他們參考Sermanet等人提出的多尺度卷積神經網絡25、26來估計人群的密度水平。Zhanget al.27認為,當應用于與訓練數據集不同的新場景時,現有方法的性能急劇下降。為了克服這個問題,提出了一種數據驅動的方法,利用訓練數據對預訓練的CNN模型進行微調,以適應未知的應用場景。然而,這種方法很大程度上依賴于準確的視角,需要大量的訓練數據。2016年,Zhang等人28提出了一個多列CNN (MCNN),通過構造一個包含三個不同大小的過濾器(大、中、小)的列的網絡。它可以適應由圖像分辨率、視角或行人頭部大小引起的變化。然而,由于訓練過程繁瑣,參數過多,網絡訓練難度大。Samet al.29在2017年提出了一個 Switching CNN,根據圖像中不同的人群密度,使用一組特定的訓練數據的圖像patch訓練返回者。zhang和Shi30提出了尺度自適應CNN (scale-adaptive CNN, SaCNN)來估計人群密度圖,并整合密度圖得到估計的人頭數量,該算法在2017年獲得了最先進的人群計數性能。在SaCNN中,對幾何自適應高斯核進行了優化,以生成用于訓練的高質量地面真實密度圖。此外,還使用了密度圖和相對人群計數損失函數進行聯合優化。
~~~~~~??????為了獲得更好的人群計數性能,提出了一種改進的基于SaCNN的人群計數方法。擴展參數,即優化了幾何自適應高斯核的標準方差,生成了高質量的地面真值密度圖。利用加權4e-5的絕對計數損失與密度圖損失聯合優化,提高了行人較少人群場景的網絡泛化能力。將原始圖像隨機裁剪為256幅圖像,提高訓練樣本的多樣性,提高網絡泛化能力。
~~~~~~??????一般來說,我們工作的主要貢獻包括
~~~~~~??????(1) 通過分析SaCNN中用于幾何自適應高斯核的人頭大小估計的參數設置,發現人頭大小估計在相對稀疏的場景中會才產生較大的誤差,這可能會影響地面實況密度圖的質量并降低人群的準確性。因此,對幾何自適應高斯核的標準方差進行了優化,以獲得更準確的頭部尺寸估計以及更高質量的地面真密度圖。
~~~~~~??????(2)使用絕對計數損失函數與密度圖損失進行聯合優化,以提高行人少的人群場景的網絡泛化能力。
~~~~~~??????(3)在ShanghaiTech公共數據集上進行的實驗表明,我們改進的SaCNN的性能優于原始SaCNN。
~~~~~~??????本文的組織如下。在第二節中,SaCNNis進行了詳細介紹。第三節介紹了改進的SaCNN用于人群計數,而第四節則進行了實驗并分析了結果。最終結論在第五節中給出。
II. INTRODUCTION ON SACNN
~~~~~~??????在SaCNN30中,將人群圖像映射到相應的密度圖中,然后對密度圖進行積分,得到人群計數。本節詳細介紹了SaCNN,包括地面真值密度圖的生成、體系結構和實現。
A. GENERATION OF THE GROUND TRUTH DENSITY MAP
~~~~~~??????在SaCNN中,利用幾何自適應高斯核生成訓練用的高質量地面真值密度圖。
~~~~~~??????假設在像素 xix_ixi? 處有一個行人頭部,由增量函數 δ(x?xi)δ(x - x_i)δ(x?xi?)表示。三角函數應使用高斯核 GσG_σGσ? 轉換為連續密度函數,以進行網絡訓練。考慮到場景中的透視變換,頭部大小是不一致的。頭部到其鄰居的平均距離被用來估計幾何失真以獲得高質量的密度圖。對于給定的頭部坐標 xix_ixi? ,距近鄰的距離為 [d1i,d2i,....,dki][d^i_1,d^i_2,.... ,d^i_k][d1i?,d2i?,....,dki?] ,平均距離為 d ̄i=1/k∑j?1kdji\overlineozvdkddzhkzd_i = 1/k∑^k_{j-1}d^i_jdi?=1/k∑j?1k?dji?。
~~~~~~??????因此,具有幾何自適應高斯核的連續密度函數可以表示為:
其中N表示人群圖像中的總頭部數,散布參數 σiσ_iσi? 表示幾何自適應高斯核的標準方差,取決于與 kkk 的平均距離(在參考文獻28中,k設置為2) 每個頭部坐標的鄰域和系數 βββ(在參考文獻28中,其設置為0.3)。
~~~~~~??????而且,對于人群分布相對稀疏的人群場景,一些行人與其他行人之間的距離較遠,這會導致較大的誤差。因此,對于每個行人,頭部的大小(高斯內核的內核大小)需要限制在100個像素以內(當 d ̄i\overlineozvdkddzhkzd^idi > 100時,let d ̄i\overlineozvdkddzhkzd^idi = 100)。
B. ARCHITECTURE
~~~~~~??????SaCNN的結構如圖1所示,包括網絡和損失函數。
~~~~~~??????SaCNN的網絡是通過參考VGG設計的31。保留了VGG中的前5組卷積塊,下采樣系數為8。為了融合 conv53conv5_3conv53? 和 conv61conv6_1conv61? 的特征圖,將池5的步長設置為1,并通過反卷積運算對融合特征進行上采樣 到原始圖像的 1/81/81/8。然后,使用Conv43的跨層融合和反卷積特征圖。conv71conv7_1conv71? 和 conv72conv7_2conv72? 卷積層逐漸減少了特征圖的數量。最后,使用帶1×11×11×1 濾波器的卷積層獲得密度圖,可以將其集成以獲得人數估計。
~~~~~~??????在SaCNN中,使用密度圖損失函數和相對計數損失函數共同訓練網絡。
~~~~~~??????密度圖損失函數表示為:
密度圖損失函數表示為
其中 θθθ 是要在網絡中學習的參數集,MMM 是訓練圖像的總數,XiX_iXi? 是輸入圖像,DiD_iDi? 是相應的地面真實密度圖。Fd(Xi;θ)-DiF_d (X_i;θ) -D_iFd?(Xi?;θ)-Di? 代表 XiX_iXi? 估計密度圖。對每個像素應用歐氏距離,然后累加。
~~~~~~??????利用相對計數損失函數得到高質量的人群密度分布,進行準確的人群計數:
其中Fd(Xi;θ)F_d (X_i;θ)Fd?(Xi?;θ) 是通過積分獲得的估計頭數,YiY_iYi? 是地面真頭數。
C. IMPLEMENTATION
~~~~~~??????在SaCNN中,對于原始訓練數據集,使用隨機裁剪方法從每個圖像到增強訓練圖像裁剪9個補丁。每個色塊是原始圖像的1/4大小。 隨機梯度下降(SGD)優化器用于訓練。 學習率從1e-6開始,并隨著多步策略而下降到1e-8。 動量為0.9,批量為1。
~~~~~~??????
~~~~~~??????
~~~~~~??????
~~~~~~??????
~~~~~~??????
~~~~~~??????
~~~~~~??????
~~~~~~??????
~~~~~~??????
REFERENCES
J. J. Fruin,Pedestrian Planning and Design. New York, NY, USA:Metropolitan Association of Urban Designers and Environmental Planners,1971. ??
L. Dong, V. Parameswaran, V. Ramesh, and I. Zoghlami, ‘‘Fast crowdsegmentation using shape indexing,’’ inProc. Int. Conf. Comput.Vis. (ICCV), Rio de Janeiro, Brazil, Oct. 2007, pp. 1–8. ??
K. Kang and X. Wang. (2014). ‘‘Fully convolutional neural networks forcrowd segmentation.’’ [Online]. Available: https://arxiv.org/abs/1411.4464 ??
B. Zhou, X. Wang, and X. Tang, ‘‘Understanding collective crowd behav-iors: Learning a mixture model of dynamic pedestrian-agents,’’ inProc.IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Providence, RI, USA,Jun. 2012, pp. 2871–2878. ??
J. Shao, C. C. Loy, and X. Wang, ‘‘Scene-independent group profilingin crowd,’’ inProc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR),Columbus, OH, USA, Jun. 2014, pp. 2219–2226. ??
S. Yi, X. Wang, C. Lu, J. Jia, and H. Li, ‘‘L0regularized stationary-timeestimation for crowd analysis,’’IEEE Trans. Pattern Anal. Mach. Intell.,vol. 39, no. 5, pp. 981–994, May 2017. ??
M. Rodriguez, I. Laptev, J. Sivic, and J.-Y. Audibert, ‘‘Density-awareperson detection and tracking in crowds,’’ inProc. Int. Conf. Comput.Vis. (ICCV), Barcelona, Spain, Nov. 2011, pp. 2423–2430. ??
F. Zhu, X. Wang, and N. Yu, ‘‘Crowd tracking with dynamic evolutionof group structures,’’ inProc. Eur. Conf. Comput. Vis. (ECCV), Zürich,Switzerland, Sep. 2014, pp. 139–154. ??
J. Shao, K. Kang, C. C. Loy, and X. Wang, ‘‘Deeply learned attributes forcrowded scene understanding,’’ inProc. IEEE Conf. Comput. Vis. PatternRecognit. (CVPR), Boston, MA, USA, Jun. 2015, pp. 4657–4666. ??
V. Mahadevan, W. Li, V. Bhalodia, and N. Vasconcelos, ‘‘Anomaly detec-tion in crowded scenes,’’ inProc. IEEE Conf. Comput. Vis. Pattern Recog-nit. (CVPR), San Francisco, CA, USA, Jun. 2010, pp. 1975–1981. ??
W. Li, V. Mahadevan, and N. Vasconcelos, ‘‘Anomaly detection andlocalization in crowded scenes,’’IEEE Trans. Pattern Anal. Mach. Intell.,vol. 36, no. 1, pp. 18–32, Jan. 2014. ??
V. A. Sindagi and V. M. Patel, ‘‘A survey of recent advances in CNN-basedsingle image crowd counting and density estimation,’’Pattern Recognit.Lett., vol. 107, pp. 3–16, May 2018. ??
K. Chen, C. C. Loy, S. Gong, and T. Xiang, ‘‘Feature mining for localisedcrowd counting,’’ inProc. Brit. Mach. Vis Conf. (BMVC), Surrey, BC,Canada, vol. 1, no. 2, Sep. 2012, p. 3. ??
Y. Wang and Y. Zou, ‘‘Fast visual object counting via example-baseddensity estimation,’’ inProc. Int. Conf. Image Process. (ICIP), Phoenix,AZ, USA, Sep. 2016, pp. 3653–3657. ?? ??
D. O?oro-Rubio and R. J. López-Sastre, ‘‘Towards perspective-free objectcounting with deep learning,’’ inProc. Eur. Conf. Comput. Vis. (ECCV),Oct. 2016, pp. 615–629. ??
G. French, M. Fisher, M. Mackiewicz, and C. Needle, ‘‘Convolutionalneural networks for counting fish in Fisheries surveillance video,’’ inProc.Mach. Vis. Animals Behav. (MVAB), Swansea, U.K., Sep. 2015, pp. 1–10. ??
T. Zhao, R. Nevatia, and B. Wu, ‘‘Segmentation and tracking of multiplehumans in crowded environments,’’IEEE Trans. Pattern Anal. Mach.Intell., vol. 30, no. 7, pp. 1198–1211, Jul. 2008. ??
W. Ge and R. T. Collins, ‘‘Marked point processes for crowd counting,’’inProc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Miami, FL,USA, Jun. 2009, pp. 2913–2920. ??
V. Lempitsky and A. Zisserman, ‘‘Learning to count objects in images,’’inProc. Adv. Neural Inf. Process. Syst. (NIPS), Vancouver, BC, Canada,Dec. 2010, pp. 1324–1332. ?? ?? ??
B. Xu and G. Qiu, ‘‘Crowd density estimation based on rich features andrandom projection forest,’’ inProc. IEEE Winter Conf. Appl. Comput.Vis. (WACV), Lake Placid, NY, USA, Mar. 2016, pp. 1–8. ?? ??
V.-Q. Pham, T. Kozakaya, O. Yamaguchi, and R. Okada, ‘‘COUNTforest: Co-voting uncertain number of targets using random forest forcrowd density estimation,’’ inProc. IEEE Conf. Comput. Vis. PatternRecognit. (CVPR), Boston, MA, USA, Dec. 2015, pp. 3253–3261 ?? ??
C. Wang, H. Zhang, L. Yang, S. Liu, and X. Cao, ‘‘Deep people counting inextremely dense crowds,’’ inProc. ACM Int. Conf. Multimedia, Brisbane,QLD, Australia, Oct. 2015, pp. 1299–1302. ??
A. Krizhevsky, I. Sutskever, and G. E. Hinton, ‘‘ImageNet classificationwith deep convolutional neural networks,’’ inProc. Adv. Neural Inf. Pro-cess. Syst. (NIPS), Las Vegas, NV, USA, Dec. 2012, pp. 1097–1105. ??
M. Fu, P. Xu, X. Li, Q. Liu, M. Ye, and C. Zhu, ‘‘Fast crowd densityestimation with convolutional neural networks,’’Eng. Appl. Artif. Intell.,vol. 43, pp. 81–88, Aug. 2015. ??
P. Sermanet and Y. LeCun, ‘‘Traffic sign recognition with multi-scaleconvolutional networks,’’ inProc. Int. Joint Conf. Neural Netw. (IJCNN),San Jose, CA, USA, Jul./Aug. 2011, pp. 2809–2813. ??
P. Sermanet, S. Chintala, and Y. LeCun, ‘‘Convolutional neural networksapplied to house numbers digit classification,’’ inProc. Int. Conf. PatternRecognit. (ICPR), Tsukuba, Japan, Nov. 2012, pp. 3288–3291. ??
C. Zhang, H. Li, X. Wang, and X. Yang, ‘‘Cross-scene crowd counting viadeep convolutional neural networks,’’ inProc. IEEE Conf. Comput. Vis.Pattern Recognit. (CVPR), Boston, MA USA, Jun. 2015, pp. 833–841. ??
Y. Zhang, D. Zhou, S. Chen, S. Gao, and Y. Ma, ‘‘Single-image crowdcounting via multi-column convolutional neural network,’’ inProc. IEEEConf. Comput. Vis. Pattern Recognit. (CVPR), Las Vegas, NV, USA,Jun. 2016, pp. 589–597. ??
D. B. Sam, S. Surya, and R. V. Babu, ‘‘Switching convolutional neuralnetwork for crowd counting,’’ inProc. IEEE Conf. Comput. Vis. PatternRecognit. (CVPR), Honolulu, HI, USA, Jul. 2017, p. 6. ??
L. Zhang, Q. Chen, and M. Shi. (2018). ‘‘Crowd counting via scale-adaptive convolutional neural network.’’ [Online]. Available: https://arxiv.org/abs/1711.04433 ?? ??
K. Simonyan and A. Zisserman. (2015). ‘‘Very deep convolutionalnetworks for large-scale image recognition.’’ [Online]. Available:https://arxiv.org/abs/1409.1556 ??
總結
以上是生活随笔為你收集整理的《Improved Crowd Counting Method Based onScale-Adaptive Convolutional Neural Network》论文笔记的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 小米android手机密码忘了怎么解锁,
- 下一篇: 会签是什么,何时使用会签,如何设计使用会