日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

遥感领域多模态综述论文翻译

發布時間:2023/12/8 编程问答 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 遥感领域多模态综述论文翻译 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

From Single- to Multi-modal Remote Sensing Imagery Interpretation: A Survey and Taxonomy

文章目錄

  • From Single- to Multi-modal Remote Sensing Imagery Interpretation: A Survey and Taxonomy
    • Abstract
    • 1. Introduction
    • 2. Taxonomy
    • 3. Multi-source Alignment
        • 3.1 Spatial Alignment
        • 3.2 Temporal Alignment
        • 3.3 Cross-element Alignment
        • 3.4 Related work and Challenges
    • 4. Muti-source Fusion
        • 4.1 Homogeneous Data Fusion
          • 4.1.1 Spatial reference
          • 4.1.2 Spatio-temporal reference
        • 4.2 Heterogeneous Data Fusion
        • 4.3 Remote Sensing And Other Type Data Fusion
        • 4.4 Remaining problems
    • 5 Multimodal Representation
        • 5.1 Joint Representation
        • 5.2 Coordinated Representation
        • 5.3 Encoder-decoder Representation
        • 5.4 Discussion
    • 6. Cross-modal Translation
        • 6.1 Cross-sensor translation
        • 6.2 Cross-element Translation
        • 6.3 The challenges and differences from nature scenes
    • 7. Co-learning
    • 8. Datasets of MRSII
    • 9 Applications
        • 9.1 Land Use Classification
        • 9.2 Urban Planning
        • 9.3 Agriculture and Ecology
    • 10 Future Directions
    • 11 Conclusion

本文是遙感領域多模態解譯的一篇綜述論文。最近在看多模態相關的內容,粗糙地翻譯了一下這篇論文。推薦配合原文閱讀。

原文指路:https://engine.scichina.com/doi/10.1007/s11432-022-3588-0

Abstract

模態是信息的來源或形式。通過各種模態信息,人類可以從多個角度感知世界。同時,遙感觀測是多模態的。我們通過全色、激光雷達和其他模態傳感器宏觀地觀察世界。多模態遙感觀測已成為一個活躍的領域,它有利于城市規劃、監測和其他應用。盡管在這一領域取得了許多進展,但仍然沒有一項全面的評估,能夠為系統的概覽提供統一的評價。因此,在本文中,我們首先強調了單模態和多模態遙感影像判讀之間的關鍵差異,然后利用這些差異來指導我們對級聯結構中多模態遙感影像判讀的研究。最后,對未來可能的研究方向進行了探討和展望。我們希望這項調查將成為研究人員回顧最新發展和開展多模式研究的起點。

1. Introduction

裝備各種傳感器的高空間分辨率(HSR)衛星的發展,帶來了豐富的數據來源。得益于此,HSR遙感圖像具有多模態特性,這為遙感和計算機視覺界提出了更具挑戰性的問題。與單模觀測相比,它提供了更多關于傳感器、角度、分辨率和時間的信息,這是至關重要的,為前沿帶來了巨大的推動[1-4]。因此,如何充分利用多模態遙感影像進行地球觀測就顯得尤為迫切。相關研究進一步表明遙感影像解譯正逐步由單一模型向多模型發展,提供了更多的觀測細節來細化場景信息。因此,本文對多模態遙感解譯的前沿技術進行了全面、及時的綜述,以幫助研究人員學習和應用多模態遙感解譯的前沿技術,為進一步的實驗奠定堅實的基礎。

多模態遙感圖像解譯(MRSII)是地球觀測和計算機視覺領域的一個新興方向。它具有挑戰性,具有比單模態更大的應用價值。從特性的角度來看,至少有四個原因:

1)圖像數據是多光譜的。如圖1所示,不同傳感器的成像機理和光譜帶不同。在獲取場景空間圖像信息的同時,各元素的光譜特征向量反映了場景的地球物理性質。由于上述特性,現有的預訓練模型[6-8]在通道尺寸和高級空間表示方面面臨挑戰。

2)同一區域的多模態觀測提供了來自不同視角(如三維空間、距離和高度)的互補信息。對于一些地球觀測應用,如城市土地規劃、三維重建、森林分類等,我們需要多模態傳感器從多個角度觀察場景。但由于受計算資源的限制,觀測角度越多,計算復雜度越大。

3)表1列出了一些著名衛星的參數。由于MRSII的多尺度特性,要求系統具有處理不同分辨率圖像的自適應能力。例如,在WV-3圖像中,一架飛機可能會占用大約400像素,但在高分2圖像中只占用150像素。這種情況給單模態模型帶來了巨大的挑戰,特別是當同一對象之間存在顯著的尺度變化時。

4)多模態圖像為地球監測提供了時間維度,為相關研究提供了新的動力。多時間變化檢測、數據融合、基于域適應的分割/檢測等一系列具有廣闊應用前景的時間任務應運而生,加速了遙感影像解譯向多維度、多任務的方向發展。

如圖2所示,我們檢索了Web of Science 上與MRSII相關的出版物。從近20年的文獻變化趨勢來看,MRSII的數量逐年增加,MRSII已經成為遙感研究的熱點。盡管該領域有超過30年的研究和它在理論和實踐層面的重要性,很少有相關的綜述可用。這是一個遙感影像解譯由單一模式向多模式轉變的時代。我們希望我們的工作將有助于遙感和計算機視覺的社區。本文的主要貢獻有四個方面:

(1)我們利用多平臺、多傳感器數據對MRSII的論文進行了全面和及時的綜述。通過詳盡的闡述,可以把握MRSII的整個發展過程,構建完整的MRSII知識體系。

(2)提出了一種易于理解的層次分類法,將MRSII方法分為不同的任務:多源融合、多模態表示、多源對齊、跨模態翻譯和聯合學習,然后根據可泛化的特性對每個任務進行更詳細的分類。

(3)我們總結了除了普通MRSII外最近出現的幾個擴展研究主題,并討論了這些主題的最新進展。這些課題具有挑戰性,同時也為許多現實的影像解譯問題的解決提供了突出的現實意義。

4)在總結的基礎上,進一步探討了MRSII的應用和未來發展方向,以期為從事多模態遙感影像解譯的研究者提供參考。

2. Taxonomy

目前,該領域的研究人員對MRSII存在不同意見的根本原因是它涉及的領域更廣,邊界模糊。不同的觀點導致不同的解譯和分類結果。在本文中,我們參考[9]并將MRSII方法分為五大類(如圖3所示),即多源對齊(第3節)、多源融合(第4節)、多模態表示(第5節)、跨模態翻譯(第6節)和聯合學習(第7節),以應對MRSII挑戰的核心技術。

1)Alignment 多模態對齊提供不同模態信息的對齊和匹配,旨在發現模態之間的空間和時間聯系。例如,來自不同傳感器的圖像之間的圖像配準和檢索,以及圖像與文本之間的檢索和匹配。這些方法的重點是將不同的模式映射到統一的語義空間,并通過距離度量它們的相似性

2)Fusion MRSII中的多源融合旨在將兩個或多個遙感數據或其他觀測數據與相同復雜場景的互補信息結合起來。通過結合它們的信息進行處理、分析和決策,可以獲得用于目標預測(分類或回歸)的更高質量的數據。例如,將高分辨率全色圖像與多光譜圖像融合,可使多光譜圖像的空間分辨率提高數倍。

3)Representation 一項基本任務是將圖像編碼到用于下游任務分析的高級特征空間中。類似地,在MRSII中,representation負責將多模態信息提取并抽象為高級特征向量。它利用不同模態特征之間的互補性,消除冗余,以學習更好的特征。例如,為了對城市分類和三維建筑重建進行編碼,將數字表面模型(Digital Surface Model, DSM)和真正射電像相結合,送入相同的表示空間。

4)Translatioin 一個新出現的挑戰是將信息從一種形式翻譯成另一種形式。該任務的方法傾向于生成模型,預測的目標是開放的或主觀的。生成的模態與源模態是異構的。例如,我們使用SAR數據生成全色圖像。

5)Co-learning 對于一些復雜的場景,一個單模態傳感器可能是不足的,因此需要另一個豐富的模態來輔助它的學習。在某些需要域適應或遷移的情況下,跨模態信息可以利用聯合學習來輔助學習。例如,利用資源豐富的光學圖像特征進行預訓練,然后對稀缺的SAR圖像特征進行學習,可以提高模型的性能。

為了幫助說明和組織MRSII新興研究領域的最新工作,我們進一步細分和總結每個分類。對于不同的分類,它們不是不相關的,而且在許多情況下互為補充。它們在各種情況下相互補充,一個優秀的多模態模型通常需要組合兩種以上的技術。例如,多模態表示可以用作alignment或translation的骨干模型。在接下來的五個部分中,我們將詳細解釋這些任務。

3. Multi-source Alignment

遙感多源對齊的目的是將原始源與目標源進行匹配,在異構數據之間找到相應的顯式和隱式關系。例如,給定兩張來自不同傳感器的包含相同復雜場景的圖像,我們將匹配或檢索它們的子組件(sub-components)。多源對齊是MRSII的一個重要分支,相關工作包括圖像配準[12-14]、變化檢測[18,27 - 29]和跨模態檢索[26,30,31]。

如圖8所示,根據數據源的對齊維度,我們將多源對齊方法分為三種:1)空間對齊,2)時間對齊,3)交叉元素對齊。表2列出了這些方法的不同。

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-6E5vqCx2-1667051259210)(https://gitee.com/FouforPast/md_picture/raw/master/typora/image-20221029200344039.png)]

3.1 Spatial Alignment

空間對齊主要是圖像對齊的過程。即找到來自同一復雜場景的當前圖像與參考圖像之間的像素空間映射關系,從而實現不同圖像源的幾何同步。這些圖像通常由不同的傳感器在不同的時間和視點拍攝[10,11]。空間對齊是一項重要的任務,它會顯著影響MRSII的預處理步驟、圖像融合、圖像拼接和地圖更新等。

在過去的幾十年里,遙感領域發展了許多類型的空間對準技術。根據訓練樣本類型的不同,空間對齊框架可分為三種類型:無監督方法、半監督方法和監督方法。

Unsupervised methods沒有任何事先訓練的樣本,需要直接對數據建模。它們是第一批應用于多模態對齊的方法,通過構建一系列范式并從這些范式中識別它們潛在的類規則來聚類同一類特征。

最初,無監督方法的應用方向是圖像配準,將不同傳感器在不同時間捕捉到的同一場景的兩張或多張圖像對齊,是各種遙感應用的重要前提[32,33]。在[34-36]中,作者采用互信息最大化算法,并結合其他特征增強方法,對不同模態衛星數據進行精確配準。自然,無監督空間對齊在土地覆蓋分類中也有廣泛的應用[15-17]。

Semi-supervised method是另一種空間對齊框架,它利用大量的未標記和標記數據來執行MRSII[37,38]。在[39]中,MAPPER被用來進行光學數據和偏振SAR數據的多重對齊,用于土地覆蓋和當地氣候的半監督分類。半監督研究利用半監督對齊方法從潛在空間獲取具有多時間、多源、多傳感器和多角度特征的圖像的線性可逆變換。Hong[40]提出了一種可學習流形對齊框架,直接從數據中學習joint graph structure。采用半監督學習方法對多模態圖像進行對齊,可以減少標注人員的工作量,獲得較高的對齊精度。因此,它受到了遙感界的廣泛關注。

Supervised methods根據來自標記數據集的輸入和輸出結果之間的關系訓練一個最佳模型。在監督學習中,訓練數據既有特征又有標簽,通過訓練,機器可以自己找到特征和標簽之間的聯系。

由于數據量大,一些方法[41-43]使用非深度學習架構。隨著深度學習的發展,監督方法已經成為空間對齊的主流。在[44-46]中,作者設計了生成網絡來生成耦合的光學和SAR圖像,并使用深度匹配網絡進行匹配。Zhang等和Fan等[47,48]提出了一種用于多模態圖像配準的孿生神經網絡,該網絡采用了使正和難負樣本(hard negative samples)之間的特征距離最大化的策略。

3.2 Temporal Alignment

時間比對主要針對長序列遙感影像分析。與空間對齊相比,它負責尋找來自同一子實例的不同模態信息的子分支或元素之間的對應關系。如圖8所示,給定來自不同傳感器的系列圖像,時間對齊面向場景中隨時間變化的實例,并可進一步用于下游任務,如區域規劃、作物、植物分類等。因此,時間對齊對算法對時間相關性和空間變化的敏感性提出了挑戰。

目前的時間對齊主要是針對一對多模態圖像之間的元素對齊。根據網絡結構的對稱性將方法分為:對稱結構、非對稱結構。如圖4對稱結構中所示,不同數據源的子網絡結構是相同的體系結構,各模態特征之間存在交互作用。在非對稱結構中,網絡結構是不對稱的,每一邊的編碼器層和投影層都不同。

Symmetric structures更傾向于通過網絡結構學習和匹配不同模態信息之間的屬性。在[50]中,提出了一種基于圖的數據融合算法,用于數據驅動的半無監督變化檢測和水稻作物生物量估計。Sun等人[19-21]構造了一個魯棒的k近鄰圖來學習每個圖像的結構,并使用圖映射來比較同一圖像域中的圖。Yang等[51]提出了一種用于異構圖像變化檢測的深度金字塔特征學習網絡

Asymmetric structures更強調不同模態信息之間的特征,用不同的編碼器學習各種模態特征,然后用解碼器進行融合解碼[52-54]。

3.3 Cross-element Alignment

人工智能的日益成熟給遙感領域帶來了更多新的機遇和挑戰。MRSII融合了越來越多的新元素,如語音、文本、OSM和其他非遙感模態。跨元素對齊旨在實現遙感圖像和非遙感模態之間的全局或子組件對齊。通過調整模態,它可以進一步用于圖像檢索和視覺問題回答任務。

根據跨元素對齊的目的,我們將其分為兩類:場景增強和人機交互。第一類是融合和對齊非觀測模態,以減少觀測誤差,獲得更全面和準確的地表數據。第二類是通過將其他模式與圖像對齊,實現協同檢索,提高圖像檢索速度,從而更好地方便人員查詢和搜索。

有許多非觀測特征可以提供遙感場景的增強表示。它們具有與空間對齊相同的目的,在模態中匹配和對齊相同區域,以用于下游任務。在[55-58]中,作者通過尋找實體之間的最佳匹配,將Openstreetmap與遙感圖像相匹配,用于building footprint的描述、更新和城市土地利用制圖。并且[59-62]結合了生物量、植被覆蓋和全球電離層圖估計的地基數據,顯著提高了單模態估計的準確性和置信度。此外,許多研究人員將GNSS[63-65]、GIS[66-68]、水文氣象學[69-71]和其他信息進行對齊,以實現在交通統計、地圖繪制、動物行為、環境相互作用等方面的應用。

為了更好的人機交互,研究人員將語音和文本模式與遙感圖像相結合。在[31,72-74]中,作者討論了基于圖像和語音的遙感標簽標注之間的多標簽跨模態信息檢索問題,通過學習輸入模態的判別共享特征空間的深度神經網絡體系結構,適合于語義一致的信息檢索。[24-26]設計了一系列圖像-文本匹配網絡,以探索遙感圖像與其各自自然語言描述之間的相關性。

3.4 Related work and Challenges

廣義模態對齊更側重于跨元素對齊,檢索和匹配兩個或兩個以上模態[9]之間實例關系的子組件,如圖像+文本[75-77]、視頻+音頻[78-80]、視頻+文本[81-83]等。

除了不同元素的對齊之外,模態對齊在MRSII中更關注各種傳感器的對齊。在多源對齊中,仍然存在以下挑戰:1)圖像規模過大,包含的實例子組件數量遠遠大于自然場景。2)相關數據集中的數據量太小,使得有監督模型難以進行圖像對齊檢索,在訓練過程中容易出現過擬合問題。3)實例的子組件復雜,形狀和方向任意,即使是同一區域的實例也會因為成像而產生失真或缺失。

4. Muti-source Fusion

受傳感器成像機理的限制,遙感影像的空間分辨率和光譜分辨率是相互制約的,單一成像手段無法獲得高空間分辨率和高光譜分辨率的遙感影像。多源融合是在遙感數據指標上解決傳感器瓶頸限制的有效途徑。它通過算法組合來自不同指標或來源的數據,獲得比單一數據源更豐富的信息。

多源數據融合作為MRSII的重要組成部分,有著悠久的歷史。多源數據融合的概念發展于20世紀70年代初,但理論方法直到20世紀90年代被提出。近年來,它的發展迅速,仍然是一個熱門的研究課題。多源融合的應用非常廣泛,包括自然資源調查[94-96]、精準農業[97-99]、城市規劃[100-102]等。在本節中,我們將通過融合級別和類別詳細回顧多源融合。然后根據融合的類型來進行分類。

參考D.L. Hall等人[103],我們將多源數據融合細分為三個級別:1)數據級融合,2)特征級融合,3)決策級融合。三種體系結構的概述如圖5所示。數據級融合是對原始傳感器數據或預處理數據的直接計算處理,這些數據可以包含數據源最原始的細節。主要目的是提高數據的質量,即分辨率、對比度、完整性和其他指標。特征級融合是在從目標場景(原始傳感器數據)提取特征信息之后的步驟進行的。它融合提取的特征,生成新的特征,用于后續復雜場景的解釋。決策級融合需要從源圖像中提取目標特征,并對特征進行濾波和分類,最后根據特征的類別進行融合。它主要解決不同數據的決策結果不一致的問題,從而從各種傳感器數據中獲得更可靠的決策知識。這三種融合策略并非互不相容,而是可以聯合使用,多層級融合是一個前沿的研究方向。

根據融合數據的類型,我們引入了一種更直接、更明確的分類策略,如表3所示。我們將遙感多源融合分為三類:同質數據融合、異構數據融合和遙感與其他類型數據融合。

4.1 Homogeneous Data Fusion

同質數據融合是指來自相同成像方式的傳感器之間的數據融合,如高分辨率全色圖像和多光譜圖像之間的數據級融合。這種方法的主要目的是提高圖像的分辨率,并減輕空間、光譜和時間分辨率之間的相互(制約)聯系。同時,通過數據級融合,對圖像中的陰影、云層等噪聲進行修復和濾波,獲得最佳的時間、空間和光譜分辨率。除了全色-多光譜融合[104-106]外,還包括同模態融合[107-109]、全色-高光譜融合[110-112]、多光譜-高光譜融合[113-115]等。

同質數據融合是一個歷史悠久的問題,我們將其分為基于空間和基于時空兩種方向,融合方法示意圖如圖6所示。基于空間的方法通過對圖像進行空間對齊,聚焦于空間上一致的圖像對,建立特征關系,實現數據融合。基于時空的融合方法更側重于從具有多時相的低分辨率數據推斷出特定時間的高分辨率數據。該算法利用一系列時間圖像構建時間和空間維度關系,利用優化約束算法實現融合。

4.1.1 Spatial reference

我們確定了三種用于空間參考的算法:全色銳化線性優化基于深度學習的算法。全色銳化是一種通過融合全色和多光譜圖像來獲得高空間和光譜分辨率圖像的輻射變換。線性優化主要是通過添加線性約束來實現同模態融合,從而獲得最優解的重建圖像。基于深度學習的算法通過模擬生物神經元的結構來建模圖像之間的非線性關系,從而實現同構數據融合。線性優化主要是通過添加線性約束來實現同模態融合,從而獲得最優解的重建圖像。基于深度學習的算法通過模擬生物神經元的結構來建模圖像之間的非線性關系,從而實現同構數據融合。

Panchromatic sharpening 常用的全色銳化方法可分為兩大類:成分替換多解析度分析。成分替換模型將圖像投影到新變換的空間中,用高空間分辨率的圖像替換包含空間信息的成分,并將將其反變換到原空間,得到空間增強的數據。多解析度分析模型將原始數據分解成不同分辨率的圖像進行融合,最后進行反變換得到融合后的圖像。

成分替換法(CS)的先驅是IHS變換[116-119]和主成分分析(PCA)[120-123]。IHS變換被廣泛用于融合圖像,因為它能夠分離出RGB圖像中的H和S分量中的光譜信息,同時分離出I分量中的大部分空間信息。PCA主要是通過線性變換將數據投影到新變換的空間中,第一主成分沿方差最大的方向變換,保留了原始數據的大部分信息,因此第一主成分進行替換。這些方法的另一種替代方法是Gram Schmidt方法(GS) [124-126]。該方法的本質是Gram-Schmidt正交法,它將酉空間中的一組線性無關向量變換為一組正交向量。此外,還有Brovey變換(BT)[127, 128],張量因子分解[129,130]等。

由于CS方法能夠以較低的計算成本有效地提高空間分辨率,目前仍是研究的重點。基于GS自適應(GSA)、廣義IHS (GIHS)[131]、GIHS自適應的方法(GIHSA)[124]和基于比值圖像的光譜重采樣(RIBSR)[132]已經被廣泛研究,減弱了多光譜融合過程中的光譜失真問題。

多解析度分析(MRA)將多模態數據分解成多個分量,當這些分量被重新組合在一起時,就會生成更高分辨率的圖像。對圖像進行分解和融合以獲得更高分辨率的圖像是MRA的核心。每個組成部分理想地將圖像分解為物理上有意義和可解釋的部分。

常用的MRA方法包括高通濾波法(HPF)[120,133]、小波變換[84,85,134]、拉普拉斯金字塔法[86,135]和曲波變換法[136-138]。MRA方法比CS方法能更好地保持光譜信息。但是,如果多模態數據沒有嚴格對齊,在這種情況下,在高頻譜細節注入(high-pass detail injection)存在的情況下,融合產品可能會發生空間失真,這通常是由振鈴或混疊效應、原始偏移、輪廓和紋理模糊引起的[124]。

Linear optimization 線性優化模型將數據融合問題歸結為其線性最優解,假設多源數據之間的關系為X1,X2,?,XNX_1,X_2,\cdots,X_NX1?,X2?,?,XN?與融合數據ZZZ呈線性關系,可表示為
Z=W1X1+?+WNXN+bZ=W_1X_1+\cdots+W_NX_N+b Z=W1?X1?+?+WN?XN?+b
其中WnW_nWn?是轉換因子,bbb是偏差。

根據求解的原理,可分為光譜分解法、貝葉斯概率法和稀疏分解法(spectral demixing, Bayesian probabilistic, and sparse demixing methods)。光譜分解將混合像素分解為一系列的組成光譜(端元,end-members)和一組對應的分量(豐度,abundances),并進行線性求和和重構。貝葉斯概率理論將待融合的數據視為觀測值,將融合的數據視為未觀察到的真值。它通過計算真實值在給定觀測值的情況下出現的概率來求解融合過程中的參數值。貝葉斯概率理論將待融合的數據視為觀測值,將融合的數據視為未觀察到的真值。該算法通過在觀測值下計算真實值出現的概率并使概率最大化來求解融合過程中的參數值。稀疏分解方法將多模態數據分解為字典矩陣(dictionary matrix)和稀疏系數矩陣,并添加稀疏約束對稀疏系數進行求解,得到融合后的數據。

Deep learning-based 基于深度學習的算法專注于構建同一區域內不同圖像之間的非線性關系。最常見的方法是基于卷積神經網絡(CNN),它通過放棄全局連通性來解決權重數量極其龐大的問題[139-141]。有兩個代表性的工作,Scarpa等人[142]設計了輕量級CNN和目標自適應使用方式,以確保在數據源不匹配的情況下也能獲得良好的性能。在[115]中,作者提出了一種3D-CNN來融合MS和HS圖像,以獲得高分辨率的高光譜圖像。

4.1.2 Spatio-temporal reference

基于時空的方法與基于空間的方法在空間關系構建中的方法本質上是相同的。因此,我們將研究重點放在時間關系的建構上。

早期的工作集中在線性優化模型。時空自適應反射率融合模型(STARFM)是Gao等人[143]提出的一種預測時空融合的有效方法。基于STARFM,一系列時空參考算法陸續被提出,如ESTARFM [144],STRUM[145],USTARFM[146]等。Xue等人[147]提出了一種組合時間序列中的時間相關信息的貝葉斯統計算法,他們將融合問題視為具有最大后驗(MAP)估計量的估計問題來獲取融合圖像。在基于深度學習的算法中,主要是尋找空間中的非線性關系,構建時間關系相對較少。

4.2 Heterogeneous Data Fusion

異構遙感數據融合是指來自不同成像方式的傳感器之間的融合,如光學-雷達、SAR-多光譜、SAR-高光譜數據融合等。由于不同傳感器之間的成像機制差異過大,異構數據融合更適合于特征級、決策級的融合,如特征分類、變化檢測、參數反演等

根據優化方法的不同,我們將其分為基于特征堆疊的方法、基于子空間的方法和基于深度學習的方法。在基于特征堆疊的方法中,我們將輔助傳感器提取的信息疊加到圖像的每個像素上,得到包含所有模態信息的特征向量。基于子空間的方法將所有信息投射到一個低維子空間中,然后進行特征融合。基于深度學習的方法學習系統輸入和輸出之間的非線性關系。這些方法能夠較好地刻畫不同分辨率圖像之間的非線性關系,具有很強的可移植性。

Feature stacking-based 基于特征堆疊的方法是異構融合最簡潔的實現。該策略在相同的結構中過濾和堆疊各種源數據。例如,將從LiDAR數據中提取的高度和強度特征疊加到多/高光譜圖像的光譜波段中,并對復雜場景中的每個像素形成擴展的特征向量[148]。

形態學輪廓、屬性輪廓和消光輪廓被廣泛應用于特征提取和過濾,以充分利用異構數據中有辨識度的特征信息。這些方法[149-151]概念簡單,計算效率高,通常用于異構數據融合,并提供高質量的融合結果。

雖然基于特征疊加的方法可以獲得更好的融合結果,但從異構數據中提取的光譜、空間和海拔特征的直接疊加增加了樣本的特征維數,從而給后續的分類任務帶來了兩個主要挑戰:維數災難和高計算復雜度。

Subspace-based 基于子空間的方法避免了后續分類任務的維數災難,提高了計算效率。它們將異構數據中的特征表示為低維子空間中的特征,以減輕后續任務的壓力。在原始的子空間模型中,子空間的基準和融合特征都是未知的,如何估計它們是子空間模型的核心問題。

許多基于子空間的方法的早期工作使用了經典的IHS變換[152]或PCA方法[153,154]。這些方法可以有效降低特征維數,提高信噪比,減少計算量,提高異構數據融合問題的分類精度。

Deep learning-based 遙感場景通常具有復雜的類別分布,導致遙感數據與目標樣本之間存在非線性關系。多傳感器數據融合增強了這種非線性關系,使樣本在特征空間中表現出高階非線性。基于深度學習的方法可以很好地擬合異構數據之間的非線性關系,并具有從數據中提取高階、多維、抽象特征的能力。深度學習提取的特征一般不受樣本的非線性分布的影響,對復雜場景具有魯棒性。

基于深度學習的方法[87-89]可以獲得更好的融合結果和分類精度。但由于通常需要大量的標記樣本進行訓練,且遙感場景的標記樣本通常難以獲取,這在一定程度上限制了深度學習方法在異構數據融合中的應用。

4.3 Remote Sensing And Other Type Data Fusion

遙感數據還可以與其他類型的數據融合,進行處理和協同應用,從而獲得更多關于資源環境特征的數據。將遙感數據與全景采集數據、景觀圖像以及陸地、大氣、水文等數據進行融合,為大規模復雜場景的數據感知提供了更精確的觀測。遙感數據可以為場景提供更精確的初始觀測和邊界條件,然后自動連續地將它們和其他數據進行調整,從而將模擬誤差降低到高精度、空間連續的地表數據。這種融合方法是當前發展的一個重要趨勢。

遙感和地面觀測是獲取對地觀測數據的兩種重要途徑。遙感可以提供大尺度的區域觀測,但由于其成像過程復雜,易受環境干擾,觀測精度往往難以保證。地面觀測質量高,但觀測點稀疏,難以獲得全面的觀測。因此,遙感與地面觀測數據的融合引起了眾多研究者的關注[90-93]。同時,遙感數據與大氣數據、流體動力數據的融合可以進一步降低模擬誤差,可用于水文氣象[155,156]、植被[157,158]和大氣信息[159,160]的協同分析。

4.4 Remaining problems

在多模態融合中,同構數據融合技術已經非常成熟,在生活中有著廣泛的應用。我們在互聯網上獲得的光學圖像是同構融合數據。而在異構融合和其他類型的數據融合中,由于模型對不同傳感器和場景的適應性較差,盡管融合后的圖像在空間維度和可視化方面比單模態遙感圖像有很大的提高,但是在應用中仍然需要根據場景環境進行測試和選擇不同的模型。為此,我們重點研究了異構數據融合和其他類型數據融合中存在的問題,希望能給研究者帶來一些啟示,具體如下:

1)數據來源不同。不同傳感器所攜帶的模態信息存在較大的類間差異。融合過程需要進行信息之間地理空間上的對齊和標準化處理,去除多模態數據的冗余性,即在保留有效信息的同時去除冗余信息。

2)觀察角度不同。不同模態數據的觀察角度是不同的。衛星對同一區域有不同的視角,即使進行了正交校正,兩幅圖像也不可能完全相同。此外,其他類型的數據,如地面數據,由于地面觀測平臺的原因,在與遙感圖像融合時,數據特征很難對齊。

3)不同分辨率。多模態融合需要解決不同分辨率的問題,特別是在異構數據的融合中,由于數據類型的巨大差異導致了這一問題更加突出。分辨率的尺度影響模型的性能,當分辨率過高時,模型更傾向于觀察小目標(汽車、樹木、小屋),而當分辨率較低時,模型更適合觀察大目標(體育場、道路、高層建筑)。

4)**未知觀測場景。**遙感場景是不可預測的,現有模型往往只適用于單一場景,如城市、森林、沙漠、海洋等。由于觀測場景往往存在未知情況,因此提高模型的魯棒性以應用于未知的觀測場景是未來的發展方向之一。

5 Multimodal Representation

使用機器學習方法將原始數據轉換為計算機可以識別和處理的數學表示,進一步提取有用信息,以便用于分類或其他預測任務,這是表示研究的一個主要領域。在遙感多模態表示中,多模態數據從不同角度描述了復雜的場景,上下文信息是互補的或補充的。因此,它們比單模態數據攜帶了更多優秀的信息,所以利用來自異構源的多個模態提供的綜合語義是有價值的。

機器學習方法的性能在很大程度上取決于應用數據表示特征的有效表示[161]。對于視覺[7,162 - 164]、文本[165-167]、語音[168,169]和圖形[170-172]形式,單模態特征的表示相對先進,在現實應用中得到廣泛應用。然而,在多模態特征表示中,特別是在遙感場景的多模態特征表示學習中還存在許多難點:1)如何抑制來自不同傳感器的不可控噪聲,2)如何組合來自異構數據源的小樣本數據,3)如何處理不同數據源之間的成像透視圖,4)如何解決某些模態下的缺失數據。

受[9]和[173]中定義的啟發,為了便于討論如何清晰有效地表示來自不同模態的數據,我們將遙感多模態表示分為三個框架:1)聯合表示,2)協調表示,3)編碼器-解碼器表示。三種體系結構的概述如圖5所示。

最常見的遙感圖像表示學習是基于CNN的。這項工作傾向于通過使用Deep CNN模型來遷移學習,即利用在自然場景(如LeNet[174])上進行了預先訓練的模型,例如VGGNet [7], GoogleNet[175]和ResNet[6],從而獲得比從零開始訓練更好的性能。隨著transformer[176]的興起,它越來越多地被用于圖像表示學習[163,177,178]中,這是遙感圖像解譯的一個新的研究熱點[179-181]。它們可以集成到多模態表示學習中,并與其他模態數據一起進行訓練(例如,文本數據的word2vec[165]、Glove[166]和BERT[167]以及wav2vec[168]、PASE[182]和Mockingjay[183])。通過使用來自其他模態的表征學習模型進行訓練,可以大大提高多模態表征學習的性能。

5.1 Joint Representation

聯合表示旨在將各種單模態特征投射到一個共享的語義子空間中,以減少模態之間的異質性,挖掘特征之間的互補性,從而學習更好的特征表示

相關的算法將來自不同傳感器的圖像以及其他模態信息表示為特征向量(張量),縮小異質性差距,獲得互補的特征表示。Manish Sharma等[184]和Yang等[185]通過學習紅外傳感器的特性,擴展RGB圖像的表征能力,提高了遙感和無人機圖像在各種天氣條件下的目標檢測精度。Flynn等[186]和Oliveira等[187]通過光學圖像與紅外或熱成像圖像的聯合表示,使用航空視頻進行人員檢測和隨時間的跟蹤檢測,獲得了較高的檢測精度。Breckon等人[188]引入了一種實時多模態目標檢測算法,該算法結合了來自多個自主平臺(地面和空中)部署網絡的可見光波段、熱波段和雷達圖像,自動檢測人和車輛。

除了目標檢測任務外,多模態聯合表示在其他遙感影像解譯任務中也有廣泛的研究應用。對于遙感分類任務,Audebert等人[189,190]研究了激光雷達和多光譜數據的早期和晚期聯合表示,發現早期融合允許更好的聯合特征學習,但代價是對缺失源的靈敏度更高,而晚期融合使得從模糊源恢復錯誤成為可能。Li等人[191]提出了一種多模態雙線性融合網絡來提取光學和SAR圖像的深度語義特征圖,并對聯合表示進行雙線性集成。Poliyapram等[2]提出了一種基于深度學習的端到端點式激光雷達和光學圖像多模態融合網絡,通過整合航空圖像特征對航空點云進行三維分割。Jeong等人[192]提出了一種基于多模態傳感器的語義三維映射系統,該系統使用三維激光雷達與光學相機相結合的數據。

多分辨率同構數據的聯合特征學習也是聯合表示的一個重要研究方向。在不同分辨率的圖像中,同一物體具有不同的尺度和感知場,并且由于不同傳感器的成像方法不同,同一物體內存在色差,這對模型的適應性和魯棒性提出了更大的挑戰。多分辨率聯合學習在作物分類[193,194]、目標識別[195,196]、土地覆蓋分類等任務中具有廣泛的應用和研究價值。

5.2 Coordinated Representation

另一種多模態表示是協調表示。在協調表示框架中,每個模態單獨學習其單獨的表示,然后通過統一的約束來協調它們。這類算法更強調不同模態元素的相似性和互補性。它試圖在協調子空間中學習每個模態的獨立但有約束的表示

根據協調表示的目的,我們將這些方法分為兩類:互補方法和相似方法。互補方法主要關注模態之間的差異和互補信息,通過比較差異信息來補充和增強復雜場景信息的表示。相似度法更關注不同模態之間的相似度,期望同一語義相關模態之間的距離盡可能小,不同語義之間的距離盡可能大。

Complementary methods 互補方法使得協調空間能夠發現多模態變異性,以補充融合表示。例如,提取多光譜圖像和Lidar特征,在更高維度上拼接和相互作用,獲得互補的融合特征,用于土地覆蓋分類[88]。在[1]中,作者將來自谷歌地圖的俯視圖和來自谷歌街景的每個城市對象的地面圖像(側視圖)結合起來,以獲得與城市對象相關的互補視覺信息,以增強對城市土地利用的理解。

Similarity methods 除了學習互補性外,利用相似度方法協調學習子空間中各模態相同元素的相似度也是協調表示的一個重要分支。Ye等人[41,200]通過基于SAR圖像與激光雷達數據的全局和局部特征的特征表示進行相似性度量來進行圖像配準。在[201]中,Uss等人訓練了一個雙通道的patch matching CNN檢測圖像塊之間的相似性,并測量它們的相互位移。通過對真實遙感圖像的測試,該模型具有較高的識別力和較高的定位精度。Zhu等[202]的一種基于深度學習的匹配方法是通過光學和紅外圖像的比較,在目標圖像的搜索窗口中搜索和參考圖像中給定點對應的點。

5.3 Encoder-decoder Representation

編碼器-解碼器表示利用了translation的概念。它首先通過編碼器-解碼器體系結構將信息從一個模態轉換為另一個模態的特征表示,然后將它們投影到相同的向量子空間,以保持語義的一致性。例如,給定一幅光學圖像,我們的目標是生成相應的SAR特征,或者給定SAR圖像生成相應的光學特征。

該方法主要用于某模態的數據比較復雜、有噪聲、數據量小或缺失的情況。大多數多光譜圖像都受到云的影響,利用SAR圖像生成相應的光學特征來恢復受影響區域是當前多模態表示學習中的一個熱點[203-205]。在/cite gao2020cloud中,為了重建損壞區域,必須建立生成對抗網絡將SAR圖像與模擬光學圖像相結合。Dai等[206]研究了多時相圖像,實現了自訓練和門控卷積層,以區分渾濁像素和干凈像素,彌補了普通卷積層區分能力的不足。

除了消除干擾外,編碼器-解碼器表示還可以應用于土地覆蓋分類、模態變換、目標檢測等。在[207]中,Hong等人進一步改進了土地覆蓋分類的性能,分別使用self-GANs模塊和mutual GANs模塊學習對擾動不敏感的特征表示,并消除多模態之間的差距,以產生更有效和更健壯的信息傳遞。Liu[208]提出了一種模態轉換模型,將稀疏模態的信息轉化為豐富模態的特征空間,為多時相圖像解譯任務提供了堅實的基礎。

5.4 Discussion

多模態表示學習是一個廣泛研究的課題,為其他應用提供了統一的特征表示空間,如模態對齊、模態轉換等。

在本節中,我們將其分為聯合表示、協調表示和編碼器-解碼器表示。從結構圖(圖7)可以看出,聯合表示更適合于不同模態數據均衡,推理過程中需要模態交互共同預測的情況。在協調表示中,各模態相互獨立但又相互協調,更傾向于評估過程中缺少數據或單模態輸入的情況。編碼器-解碼器表示更關注具有不平衡樣本或需要額外模態輔助學習的任務。

6. Cross-modal Translation

在MRSII中,將信息從一種模態轉換為另一種模態是一個極好的挑戰。由于遙感場景的復雜性和傳感器的多變性,遙感跨模態翻譯比自然場景的類內(不同圖像模態之間)和類間(圖像與其他模態之間)翻譯更具挑戰性。遙感跨模態翻譯是遙感領域的一個新興課題。隨著深度學習算法和計算機硬件的發展,在場景圖像翻譯[209-212]、遙感圖像描述[213-215]等方面都取得了進展。

跨模態翻譯是遙感研究中一個新興的課題,由于其廣泛的應用,已經有大量的算法應用于跨模態翻譯。同時,根據模態的類內和類間關系,我們將跨模態翻譯分為跨傳感器翻譯和跨元素翻譯兩個分支,如圖9所示。跨傳感器翻譯主要是指圖像在不同傳感器之間的翻譯,如全色和多光譜。跨元素翻譯是指圖像與其他類型模態之間的翻譯。

6.1 Cross-sensor translation

近年來,遙感數據在地球觀測和城市規劃中發揮了越來越重要的作用。在獲得了大量數據的情況下,由于以下三個原因,跨傳感器翻譯仍然存在很大的挑戰:

1)很大一部分數據受到云、霧等大氣因素的干擾,這些不可控因素大大降低了遙感圖像的利用率,增加了處理和訓練的難度。例如,在Landsat ETM+數據[216]中,約35%的陸地區域被云覆蓋,而海洋區域的情況更糟。

2)由于傳感器成像和(衛星)revisit time的關系,一些模態圖像的數據量相對較小。它嚴重限制了基于深度學習的算法在這一研究領域的應用。

3)由于傳感器載體軌跡的影響,在某些區域或場景,特別是特定時間階段(季節),可能會出現遙感數據缺失的情況。因此,在遙感中,對特定時期的特定地點進行成像仍然存在困難。

早期的工作關注的是超分辨率重建(SRR),即從低分辨率(LR)圖像中獲取超分辨率(SR)圖像。目前流行的SRR方法主要是基于傳統算法和基于學習的算法。我們將標準算法分為基于插值和基于稀疏的表示方法。雖然基于插值的方法,如雙線性或雙三次往往生成過于平滑的圖像,帶有較為明顯的人工痕跡,但由于其實現簡單,仍然被廣泛使用。[217-219]通過引入一系列具有先驗知識的優化策略,提高了模型的性能。基于稀疏的方法增強了線性模型從先驗知識中恢復高頻信息的能力,如小波變換[220]、耦合稀疏自編碼器[221]和外部字典[222],但這些方法計算復雜,需要大量的計算資源。基于學習的模型試圖捕捉圖像塊之間的共現先驗(co-occurrence prior)。深度學習是一種基于學習的基本方法。它通過構建端到端神經網絡,如CNN[223-225]、GAN[226-228]、注意力網絡[229-231]等,學習并擬合LR和HR圖像之間的映射關系。由于它的非線性特性,可以在不需要大量計算資源的情況下恢復高頻信息。因此,基于深度學習的SRR成為研究熱點。

遙感圖像在采集過程中受到各種噪聲的影響,使得邊緣細節模糊,降低了圖像質量。因此,需要去噪以獲得清晰、高質量的圖像。基于多模態信息的遙感圖像去噪方法是一個新的熱門課題,它將不同模態的無噪聲參考圖像作為先驗知識納入去噪目標函數[232,233]。此外,研究人員還對自然氣候圖像的去噪進行了一系列的研究。在這方面,云的去除已經變得越來越復雜。云的存在是造成光學圖像信息缺失的主要因素之一,如何通過其他模態圖像生成缺失的信息是一個值得關注的問題。Huang等人[203]提出了一種基于稀疏表示的刪除方法來恢復缺失的高分辨率信息。隨著GAN網絡的發展,越來越多的研究人員采用GAN進行云霧去除,并取得了顯著的改進,重建圖像更加自然和真實[204,205,211]。

很自然,跨傳感器翻譯在解決數據稀缺問題時有著廣泛的應用。該領域主要有兩個方向:跨傳感器和跨區域。跨傳感器意味著生成不容易通過資源豐富的數據源訪問的數據。[234-236]將SAR轉換為光學,用于全天候觀測,同時簡化SAR圖像的觀測條件。跨區域是指從區域的一種風格生成到區域的另一種風格,以達到數據增強的目的。Ji等人[237]提出了一種基于域適應的GAN的方法進行土地覆蓋分類。Peng等人[238]設計了一種用于建筑物提取的新型FDANet。

6.2 Cross-element Translation

將遙感圖像翻譯成其他模態信息,或利用其他模態信息對遙感圖像的語義信息進行配圖并總結圖像內容,在跨模態檢索[31,72,74]、智能生成[213,239,240]和場景問答等許多領域發揮著重要作用[241 - 243]。跨元素翻譯需要模型充分理解復雜的場景,識別出場景的關鍵組成部分,通過對高層次語義信息的理解和分析,生成標準化、簡潔、全面的模態信息來表示場景。

隨著計算資源的豐富和數據量的增加,越來越多的研究人員開始將目光投向遙感圖像描述。在[244-246]中,作者設計了一系列基于注意機制的圖像描述方法。Huang等人[247]從多尺度特征融合的角度考慮了大尺度場景導致特征缺失或遺漏的問題。Wang等人提出了一種新的詞句框架[248],從圖像中提取有價值的詞,生成格式正確的句子。

6.3 The challenges and differences from nature scenes

多模態翻譯的挑戰主要體現在兩個方面:遙感數據的復雜性和評價指標。

遙感圖像往往具有大尺度、高密度和大縱橫比的特點。在跨模態翻譯過程中,經常會出現信息丟失的問題。因此,它包含的信息比自然場景圖像多幾倍甚至幾十倍。特別是在跨元素翻譯中,模型很難保證場景中的所有信息都被描述出來。此外,該問題面臨的主要挑戰是如何對圖像中的關鍵信息進行過濾和確定,并對其進行精確提取,同時對其進行清晰詳細的描述

另一個挑戰是對模型性能的評估。由于模態翻譯是一個生成問題,很難通過評價指標自動評價模型的生成質量,甚至利用人工判斷也會造成一定程度的主觀性。同時,與自然場景不同的是,進行跨傳感器的翻譯,例如從光學圖像到SAR圖像或Lidar數據的翻譯,需要專業人員進行評估,這進一步增加了評估的難度。

7. Co-learning

利用資源豐富的數據輔助資源貧乏的數據進行訓練是解決小樣本學習的有效方法。在多模態機器學習中,幫助一個模態從一個資源豐富的模態過渡到另一個模態,特別是當另一個模態的信息有限或缺乏標記數據、輸入有噪聲、具有不可靠的標記[9]時。

在本節中,我們關注MRSII中的聯合學習,包括遷移學習、聯合訓練和小樣本學習,即使用其他傳感器或模態來輔助一種模態進行有效學習。通過使用聯合學習從不同的模態信息中學習特征,我們可以獲得一個更健壯的模型,作為樣本缺乏或樣本帶有噪聲問題的有效解決方案。

Transfer learning 遷移學習是遙感影像解譯中最常用的工具之一。通過使用在大規模自然場景中訓練的預訓練模型作為解譯模型的骨干,可以提高模型的收斂速度和性能。跨傳感器遷移學習也得到了廣泛的研究和應用。2010年,Yao等人[249]引入了MultiSource-TrAdaBoost和TaskTrAdaBoost,用于從多個來源轉移知識。Liu等人[250]提出了一種新的域適應方法用于多模態數據的無監督遷移學習——多核聯合域匹配。

Co-training and few-shot learning 聯合訓練和小樣本學習也是聯合學習的主要研究領域。在[252]中,Hu等人設計了一種聯合訓練分類方法來處理不明確的觀察樣本。Qiu等人[253]結合Sentinel-2和Landsat-8圖像,以及Global Urban Footprint、OSM和Nighttime Light數據,研究了它們的相關關系以區分不同LCZ分類。對于小樣本學習,Rostami等[3,254]將知識從Electro-Optical domains轉移到SAR域,以消除對于大量標記SAR圖像的需求。Ying等人[255]提出了一種有效的輕量級CNN,可以有效地將先驗知識從光學、混合光學和非光學領域遷移到SAR圖像的目標識別任務中。

在MRSII中,聯合學習面向目標數據較少或缺失的情況,主要體現在數據源缺失和區域缺失兩個方面。利用豐富的源數據與目標數據進行輔助或共同學習,可以大幅提高模型的性能,是遙感領域的研究熱點。

8. Datasets of MRSII

在本節中,我們將討論MRSII的相關數據集。我們根據數據的維度將不同的數據集分為空間、時間和跨元素(表4中總結了一些代表性的數據集)。

Spatial Dataset 空間數據集中的圖像是相互分離的,這些工作的算法更關注基本的計算機視覺任務,例如,分類[6,162,263],目標檢測[264-266],分割[267-269],和圖像檢索[270-272]。隨著復雜網絡和腦科學的發展,多模態數據集得到了持續的關注。研究人員利用多模式信息,例如,光學/激光雷達[190],光學/SAR [256],SAR/Lidar[257],以解決更復雜的場景理解,這對機器來說是一個極具挑戰性的問題。然而,現有的多模態數據集沒有足夠多的注釋良好的數據來支持大多數基于深度學習的技術。當數據量相對于模型參數數量過于稀缺時,容易出現過擬合問題。

Temporal Dataset 時間數據集更多關注同一區域的時間演化,現有的工作包含兩幅圖像的比較,關注特定的對象實例。例如,LEVV-CD[258]和HRSCD[259]是變化檢測的基本驅動。許多優秀的模型都是基于這些數據集上實現,并在日常生活中得到了應用。CRC[260]和SITSC[261]促進了作物分類和覆蓋的發展。相應的,Emelyanova等[273],Zeebruges[274]和WUDAPT[275]促進了數據融合的發展。這些數據集為時間分析開創了先例。

Cross-element Dataset 跨元素數據集主要關注RS圖像與其他類型數據的交互和轉換,如圖像/音頻[30,72,244]、圖像/文本[26,214,239]和圖像/大氣數據[262,276]。RS圖像描述[214,239,277]、跨模態檢索[26,30,72,244]和大氣數據觀測[262,276]都依賴于這些數據集。由于RS圖像的規模大,包含的內容太多,其他類型的數據往往很難描述和對齊整個場景的關鍵信息。因此,當前跨元素數據集的主要問題仍然是如何將不同元素之間的信息以一種有效、同構的表示方式進行合理、詳細的表示。

9 Applications

9.1 Land Use Classification

土地利用分類(圖10左上)是MRSII最早的應用。不同的土地覆被在衛星圖像中具有相似的光譜特征,單一模態分類不可避免地會導致一些鑒別誤差。通過多模態數據對其進行分析,可以從三個方面增強它們:1)分辨率;2)光譜;3)時間。MRSII有效地提高了同區域的分辨率,減少了混合像元的數量;高光譜分辨率提高了光譜維度信息的保真度和準確性;時間信息被不同時間序列中土地覆蓋類型的不同特征進一步補充。

Chen等人[278]將Landsat-8數據與MODIS、HJ-1A和ASTER DEM數據融合,以提高土地覆蓋分類精度。一項研究應用Sentinel-1、Sentinel-2和Landsat-8數據解決了由于云層覆蓋導致的空間不連續的問題[279]。在[280]中,作者進一步研究了融合數據的不同級別(數據級、特征級和決策級)的效果比較。

9.2 Urban Planning

通過對多模態數據的分析,大大縮短了同一區域的觀測間隔。因此,數據的多模態提供了多角度觀察城市變化和發展的可能性,通過對歷史數據的觀察,可以有效地規劃和預測城市的發展(圖10右上)。

在[281]中,作者提出了一種基于兩幅異構圖像提出了一種無監督深度卷積耦合網絡用于變化檢測。最近的一項研究探索了使用卷積自編碼器和通用自編碼器來消除兩個異構圖像(光學和SAR)中的大部分冗余,以獲得更一致的特征表示[282]。另一項研究設計了一個邊緣保存神經網絡(edge-preservation neural network, EPUNet),它用極少的人工干預就可以將現有的建筑數據庫自動更新到它們的最新狀態[54]。

9.3 Agriculture and Ecology

多模態衛星圖像的監測在農業和生態兩個方向都具有重大的政治和經濟意義(圖10底部)。許多作物往往在同一時刻外觀相似,需要通過衛星是時間序列圖像進行觀測,以提高分類精度。在生態學中,多模態圖像在生態變量估計、生態系統動態監測和生態系統干擾檢測等方面也有很大的應用潛力[283,284]。

Garnot等人[22,23]提出使用基于自注意力機制的定制神經體系結構提取時相特征,并為大規模農業地塊分類設計了輕量級的時間自注意力。一項研究通過整合多時相和多光譜遙感數據,研究了一種用于大規模動態玉米和大豆制圖的DeepCropMapping方法[285]。He等人[286]結合細顆粒物(PM2.5)濃度、地表溫度(LST)和植被覆蓋(VC)的遙感數據,在國家的尺度、城市群之間和快速城市化地區評估了城市環境變化。Hilker等[287]和Tran等[288]使用STAARCH融合Landsat和MODIS反射率數據來繪制森林擾動圖。

10 Future Directions

隨著數據源的增加,MRSII提供了高分辨率、高光譜和長時間觀測的可行性。同時,它也給遙感領域帶來了更多的任務和挑戰。下面,我們從不同的角度提出了一些潛在的研究方向。

Multimodal Image Restoration 由于多模態圖像恢復的各種有趣應用,它已經吸引了越來越多的研究人員的興趣。與單模態圖像恢復不同,該任務更傾向于從異構圖像中獲取互補信息進行圖像恢復,這需要對不同模態之間的依賴關系進行適當建模。該領域在去噪任務如去除云層[204,289,290]中具有非常重要的作用。

3D Scene Reconstruction and Multi-view Interpretation 從衛星圖像進行場景模型的自動三維重建仍然是一個具有挑戰性的研究課題。該方向有許多有趣的應用,如場景建模、城市仿真和路徑規劃。在復雜遙感場景建模時,需要從多個角度觀察場景,同時涉及到各種數據源的分析。與室內自然場景重建相比,大尺度遙感場景更加復雜(特別是在復雜的城市地區),因此帶來了很大的挑戰。

這一課題最近幾年才出現,Huang等人[291,292]構建了一系列相關數據集,并將位姿估計方法應用到重構算法中,取得了很大的突破和進展。

Land Use Classification and Detection 盡管近年來MRSII在土地利用分類和檢測方面取得了相當大的進展,但由于以往的數據集往往不具有代表性,很難在所有實際場景中取得實效。目前,大多數方法缺乏魯棒性和通用性,而且它們都是針對特定類別和數據集進行了過度設計,削弱了對其他更通用場景的適用性。一個理想的多模態解碼框架應該能夠處理具有不同數據復雜度和數據源的各種學習任務。因此,如何提高方法的魯棒性和通用性是當前任務的熱點課題。

Heterogeneous Image Time Series Change Detection 目前,異構圖像變化檢測任務只考慮雙時相遙感圖像。而在實際應用中,我們往往需要通過對一系列長時間序列圖像的分析,來推斷出場景在該時間段內的變化和發展,這對于城市發展、規劃和自然環境保護都是非常有用的。

Scene Prediction and Complementary 場景預測與互補是一個新興的研究方向。它通過對場景長時間序列的特征提取和建模,預測場景的未來發展或補充中間時刻的元素。這項任務為區域發展預測和歷史分析提供了可能性。

Cross-element analysis 由于遙感圖像規模大、更為復雜,對跨元素分析提出了很大的挑戰。該任務的關鍵是提取復雜場景中的關鍵實例,并將它們與其他模態對齊或轉換。因此,本課題主要涉及多源對齊(第3節)和跨模態翻譯(第6節)相關內容,主要涉及遙感圖像-語音(文本)對齊、遙感場景描述、遙感場景問答等研究方向。

11 Conclusion

利用多源數據進行大規模場景觀測和解譯是遙感和計算機視覺領域進一步發展的關鍵。據我們所知,本文是第一個描述多模態遙感領域進展的綜述,并提出了一個簡明易懂的分類法來對所有MRSII方法進行分組。通過深入分析,從空間、時間、跨元素三個方向分析了MRSII方法,揭示了主流方法之間的內在聯系。MRSII最近成為一個活躍的研究領域;因此,我們希望這項調查可以幫助研究人員,作為一個起點,回顧最新的發展,并為他們提供一個系統的和前所未有的概述。

總結

以上是生活随笔為你收集整理的遥感领域多模态综述论文翻译的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。