日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

个人周报20200420

發布時間:2025/3/15 编程问答 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 个人周报20200420 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

周報

本周主要看了visual dialog方面的論文,同時,閱讀了兩篇SGG領域的論文,引發了一些我對V&L領域的思考,下面詳細談一談。
1.visual dialog在一定程度上可以視為連續的VQA,但是dialog和question-answer應存在差異性,在dialog領域,AI的answer是否應具有推動后續對話的能力?visual dialog在V&L領域出現的算是比較晚,目前來說,可做的東西也應該更多。但是,這個領域的一些方法和V&L其他領域較為類似,存在一定共通性,值得思考。
2.閱讀了兩篇SGG領域早些年的論文,一篇出自ECCV2016[1],一篇出自CVPR2017[2],兩篇文章均出自李飛飛組。前者在視覺模型的基礎上加入了語言模型,后者加入了消息傳遞機制,通過不斷迭代來對相鄰節點進行約束,進行特征特征增強。
3.在V&L領域,數據集的標注正在由粗轉細,旨在提高模型的可解釋性。在captioning領域,是否可以使用一種簡單有效的無監督方法,利用更多的無標注數據提升模型的能力,目前還在思考。
下周將繼續深入探究visual dialog領域,并繼續閱讀景師兄推薦的近兩年頂會論文的剩余部分,閱讀的同時自己也會多思考。

對視覺與語言的理解

對于兩位老師和景師兄推薦的京東AI研究院對視覺與語言的理解,我有以下看法:

  • 高層語義信息
    在神經網絡中,低層特征圖中包含圖片的紋理、顏色等簡單信息,高層特征圖中包含場景、趨勢等語義信息。如:圖片中有一個人。經過神經網絡后,底層特征圖中會包含膚色、眼睛、手勢等信息,這些即為簡單信息。隨著感受野的增大,高層特征圖中可能會包含表情、情感、動作等信息,這些即為語義信息。我認為,高層語義信息指的那些接近人類理解圖片的信息。
  • 語言建模
    指的是建立指定自然語言的語言模型,針對該自然語言的文字系統,了解文字系統的內部結構,構建出詞序列的分布。
  • 視覺語言匹配
    對于給定的文本描述,在圖像上得到與其匹配的區域。
  • 精細化的視覺語言數據
    指的是標注粒度更細的數據。如VQA領域,A數據集的標注形式為[Question, Image]→[Answer],B數據集的標注形式為[Question, Image]→[Scene Graph]→[Answer],則B數據集的標注較A數據集更加細致。精細化的視覺語言數據可以在訓練時從多個角度對模型進行限制,同時也更容易驗證模型的可解釋性。
  • V&L的核心
    核心是視覺語言匹配,即兩種模態的跨模態對齊。只有將文本信息和視覺信息一一對齊,后續的推理和任務結果才具有說服力。
  • 挑戰性問題
    1.測試集中出現out-of-vocabulary詞匯。2.文本信息和視覺信息存在差異性。3.數據集標注不統一。4.數據集標注不夠詳細。
  • 研究流派
    可能是我對這個領域的了解不夠多,看的論文不夠全面。在我看來,目前在V&L領域是“百家齊放”的狀態,基于無監督的、基于強化學習的、基于SGG的、基于,但是未見像Fast R-CNN或YOLO那種一系列的文章。許多文章的方法在整體架構上有類似,比如均采用“Encoder-Decoder”模式,但是也不能算是研究流派。
  • 和多模態學習的關系
    V&L屬于多模態學習,VQA、Image (Video) Captioning等均可視為“文本-視覺”模態的下游任務。日常生活中,常見的模態有:圖像、視頻、語音、文本等。V&L任務中主要包含兩種模態,即文本和圖像(或視頻),圖像模態和視頻模態也可以統稱為視覺模態。
  • 和推理的關系
    推理是V&L方法的必要能力,也是實現V&L可解釋性的必要手段。在早幾年的V&L方法中,其實重視推理的并不多,但是也能在數據集上達到很好的指標,但它們的泛化能力可能不如傳統方法。一方面,這暴露了深度學習方法在各個研究領域的存在的通病——學習shortcut。另一方面,也讓研究學者們意識到了提高模型可解釋性的重要性,而推理正是提高可解釋性的重要手段。
  • 可解釋的人工智能算法是怎樣服務于V&L的
    在V&L任務中,無論是文本,還是圖片(或視頻),都包含多個物體,物體之間存在關系。如人一樣,一個好的方法處理問題應該是循序漸進的、有邏輯的。我目前看到了具有可解釋性的V&L領域論文,大多是通過場景圖演示模型的推理過程,實現模型的可解釋性。

[1]. Visual Relationship Detection with Language Priors
[2]. Scene Graph Generation by Iterative Message Passing

總結

以上是生活随笔為你收集整理的个人周报20200420的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。