AAAI 2019 《LiveBot: Generating Live Video Comments Based on Visual and Textual Contexts》论文笔记
目錄
- 簡介
- 動機
- 貢獻
- 方法
- 實驗
簡介
本文出自北大孫栩老師課題組,是第一篇提出ALVC(Automatic Live Video Commenting)任務(wù)的文章。更確切的說,此task的目標(biāo)是,生成video barrage(視頻彈幕)。
下載鏈接
- task challenge:彈幕和視頻存在復(fù)雜的依賴關(guān)系。
動機
彈幕可以讓視頻變得更加有趣、吸引人。同時,彈幕可以在觀眾之間建立聯(lián)系,使他們的意見和評論更加明顯(彈幕 vs 評論)。這些特性會對用戶數(shù)量、視頻點擊量、視頻觀看時長帶來顯著影響。
這個新的task也是一個很好的用于測試AI能力的平臺,模型需要同時處理動態(tài)的視覺信息(視頻)和動態(tài)的語言信息(彈幕)。
貢獻
- 提出ALVC task。
- 基于Bilibili構(gòu)造數(shù)據(jù)集,共包含2361個和895929條彈幕。
- 提出兩個用于處理此task的baseline模型——Fusional RNN、Unified Transformer。
- 提出了基于檢索的評估策略,對候選answers進行排序,再基于metrics進行評估。
方法
本文提出了兩個處理此task的baseline模型,分別是:層級結(jié)構(gòu)的Fusional RNN、線性結(jié)構(gòu)的Unified Transformer。模型的結(jié)構(gòu)如下二圖所示,不具體介紹了,這兩個baseline還是挺簡單的,都是encoder+decoder的傳統(tǒng)結(jié)構(gòu)。
- Fusional RNN
- Unified Transformer
介紹一下ALVC任務(wù)的輸入、輸出形式。
- 輸入:在視頻VVV中截取的mmm幀I={I1,...,Im}I=\{ I_1,...,I_m \}I={I1?,...,Im?}、時間戳ttt、時間戳周圍的彈幕(共計nnn條)C={C1,...,Cn}C=\{ C_1,...,C_n \}C={C1?,...,Cn?}
- 輸出:一條由kkk個單詞組成的彈幕y={y1,...,yk}y=\{ y_1,...,y_k \}y={y1?,...,yk?}
數(shù)據(jù)集中的example:
下面介紹數(shù)據(jù)集的Evaluation Metrics:
首先,模型要根據(jù)log-likelihood score對一組candidate comments進行排序,candidate comments由四部分組成,分別是:ground truth、50 most similar comments、20 most popular comments、29 randomly selected comments。
- Recall@k(越大越好):topK中存在gt的比例
- Mean Rank(越小越好):顧名思義,gt的平均rank
- Mean Reciprocal Rank(越大越好):顧名思義,gt的平均reciprocal rank
實驗
實驗結(jié)果如下圖所示,#I和#C分別代表使用的surrounding frame、surrounding comments的個數(shù)。
human evaluation metrics的結(jié)果:
總結(jié)
以上是生活随笔為你收集整理的AAAI 2019 《LiveBot: Generating Live Video Comments Based on Visual and Textual Contexts》论文笔记的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2020-07-16 CVPR2020
- 下一篇: IJCAI 2019 《GraspSno