當(dāng)前位置：首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

AAAI 2019 《LiveBot: Generating Live Video Comments Based on Visual and Textual Contexts》论文笔记

發(fā)布時間：2025/3/15 ChatGpt 23 豆豆

生活随笔收集整理的這篇文章主要介紹了 AAAI 2019 《LiveBot: Generating Live Video Comments Based on Visual and Textual Contexts》论文笔记小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

簡介

本文出自北大孫栩老師課題組，是第一篇提出ALVC（Automatic Live Video Commenting）任務(wù)的文章。更確切的說，此task的目標(biāo)是，生成video barrage（視頻彈幕）。
下載鏈接

task challenge：彈幕和視頻存在復(fù)雜的依賴關(guān)系。

動機

彈幕可以讓視頻變得更加有趣、吸引人。同時，彈幕可以在觀眾之間建立聯(lián)系，使他們的意見和評論更加明顯（彈幕 vs 評論）。這些特性會對用戶數(shù)量、視頻點擊量、視頻觀看時長帶來顯著影響。

這個新的task也是一個很好的用于測試AI能力的平臺，模型需要同時處理動態(tài)的視覺信息（視頻）和動態(tài)的語言信息（彈幕）。

貢獻

提出ALVC task。
基于Bilibili構(gòu)造數(shù)據(jù)集，共包含2361個和895929條彈幕。
提出兩個用于處理此task的baseline模型——Fusional RNN、Unified Transformer。
提出了基于檢索的評估策略，對候選answers進行排序，再基于metrics進行評估。

方法

本文提出了兩個處理此task的baseline模型，分別是：層級結(jié)構(gòu)的Fusional RNN、線性結(jié)構(gòu)的Unified Transformer。模型的結(jié)構(gòu)如下二圖所示，不具體介紹了，這兩個baseline還是挺簡單的，都是encoder+decoder的傳統(tǒng)結(jié)構(gòu)。

Fusional RNN
Unified Transformer

介紹一下ALVC任務(wù)的輸入、輸出形式。

輸入：在視頻 $V$ 中截取的 $m$ 幀 $I=\{ I_1,...,I_m \}$ 、時間戳 $t$ 、時間戳周圍的彈幕（共計 $n$ 條） $C=\{ C_1,...,C_n \}$
輸出：一條由 $k$ 個單詞組成的彈幕 $y=\{ y_1,...,y_k \}$

數(shù)據(jù)集中的example：

下面介紹數(shù)據(jù)集的Evaluation Metrics：
首先，模型要根據(jù)log-likelihood score對一組candidate comments進行排序，candidate comments由四部分組成，分別是：ground truth、50 most similar comments、20 most popular comments、29 randomly selected comments。