个人周报20200420
周報
本周主要看了visual dialog方面的論文,同時,閱讀了兩篇SGG領域的論文,引發了一些我對V&L領域的思考,下面詳細談一談。
1.visual dialog在一定程度上可以視為連續的VQA,但是dialog和question-answer應存在差異性,在dialog領域,AI的answer是否應具有推動后續對話的能力?visual dialog在V&L領域出現的算是比較晚,目前來說,可做的東西也應該更多。但是,這個領域的一些方法和V&L其他領域較為類似,存在一定共通性,值得思考。
2.閱讀了兩篇SGG領域早些年的論文,一篇出自ECCV2016[1],一篇出自CVPR2017[2],兩篇文章均出自李飛飛組。前者在視覺模型的基礎上加入了語言模型,后者加入了消息傳遞機制,通過不斷迭代來對相鄰節點進行約束,進行特征特征增強。
3.在V&L領域,數據集的標注正在由粗轉細,旨在提高模型的可解釋性。在captioning領域,是否可以使用一種簡單有效的無監督方法,利用更多的無標注數據提升模型的能力,目前還在思考。
下周將繼續深入探究visual dialog領域,并繼續閱讀景師兄推薦的近兩年頂會論文的剩余部分,閱讀的同時自己也會多思考。
對視覺與語言的理解
對于兩位老師和景師兄推薦的京東AI研究院對視覺與語言的理解,我有以下看法:
- 高層語義信息
在神經網絡中,低層特征圖中包含圖片的紋理、顏色等簡單信息,高層特征圖中包含場景、趨勢等語義信息。如:圖片中有一個人。經過神經網絡后,底層特征圖中會包含膚色、眼睛、手勢等信息,這些即為簡單信息。隨著感受野的增大,高層特征圖中可能會包含表情、情感、動作等信息,這些即為語義信息。我認為,高層語義信息指的那些接近人類理解圖片的信息。 - 語言建模
指的是建立指定自然語言的語言模型,針對該自然語言的文字系統,了解文字系統的內部結構,構建出詞序列的分布。 - 視覺語言匹配
對于給定的文本描述,在圖像上得到與其匹配的區域。 - 精細化的視覺語言數據
指的是標注粒度更細的數據。如VQA領域,A數據集的標注形式為[Question, Image]→[Answer],B數據集的標注形式為[Question, Image]→[Scene Graph]→[Answer],則B數據集的標注較A數據集更加細致。精細化的視覺語言數據可以在訓練時從多個角度對模型進行限制,同時也更容易驗證模型的可解釋性。 - V&L的核心
核心是視覺語言匹配,即兩種模態的跨模態對齊。只有將文本信息和視覺信息一一對齊,后續的推理和任務結果才具有說服力。 - 挑戰性問題
1.測試集中出現out-of-vocabulary詞匯。2.文本信息和視覺信息存在差異性。3.數據集標注不統一。4.數據集標注不夠詳細。 - 研究流派
可能是我對這個領域的了解不夠多,看的論文不夠全面。在我看來,目前在V&L領域是“百家齊放”的狀態,基于無監督的、基于強化學習的、基于SGG的、基于,但是未見像Fast R-CNN或YOLO那種一系列的文章。許多文章的方法在整體架構上有類似,比如均采用“Encoder-Decoder”模式,但是也不能算是研究流派。 - 和多模態學習的關系
V&L屬于多模態學習,VQA、Image (Video) Captioning等均可視為“文本-視覺”模態的下游任務。日常生活中,常見的模態有:圖像、視頻、語音、文本等。V&L任務中主要包含兩種模態,即文本和圖像(或視頻),圖像模態和視頻模態也可以統稱為視覺模態。 - 和推理的關系
推理是V&L方法的必要能力,也是實現V&L可解釋性的必要手段。在早幾年的V&L方法中,其實重視推理的并不多,但是也能在數據集上達到很好的指標,但它們的泛化能力可能不如傳統方法。一方面,這暴露了深度學習方法在各個研究領域的存在的通病——學習shortcut。另一方面,也讓研究學者們意識到了提高模型可解釋性的重要性,而推理正是提高可解釋性的重要手段。 - 可解釋的人工智能算法是怎樣服務于V&L的
在V&L任務中,無論是文本,還是圖片(或視頻),都包含多個物體,物體之間存在關系。如人一樣,一個好的方法處理問題應該是循序漸進的、有邏輯的。我目前看到了具有可解釋性的V&L領域論文,大多是通過場景圖演示模型的推理過程,實現模型的可解釋性。
[1]. Visual Relationship Detection with Language Priors
[2]. Scene Graph Generation by Iterative Message Passing
總結
以上是生活随笔為你收集整理的个人周报20200420的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2019年, SGG论文汇总
- 下一篇: Batch Normalization的