日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

虎牙直播在AI实时剪辑技术上的创新实践

發(fā)布時(shí)間:2024/4/11 ChatGpt 58 豆豆
生活随笔 收集整理的這篇文章主要介紹了 虎牙直播在AI实时剪辑技术上的创新实践 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

?點(diǎn)擊上方“LiveVideoStack”關(guān)注我們

▲掃描圖中二維碼或點(diǎn)擊閱讀原文▲

了解音視頻技術(shù)大會更多信息

1

背景介紹

虎牙平臺直播內(nèi)容日益豐富,不少用戶會對直播中的精彩鏡頭更加關(guān)注,如何讓用戶快速甚至實(shí)時(shí)地回顧到直播中的精彩鏡頭成了我們關(guān)注的問題。直接的人工剪輯需要耗費(fèi)大量人力,我們希望通過設(shè)計(jì)算法來自動剪輯,將好看的精彩鏡頭實(shí)時(shí)呈現(xiàn)給觀眾,同時(shí)精彩鏡頭作為直播過程中沉淀下來的優(yōu)質(zhì)內(nèi)容,也能夠在后續(xù)不同的產(chǎn)品形態(tài)上發(fā)揮作用。

1.1 什么是AI實(shí)時(shí)剪輯?

所謂AI實(shí)時(shí)剪輯,主要是通過AI識別技術(shù)實(shí)時(shí)分析直播視頻流內(nèi)容,自動捕捉直播過程中的精彩高能看點(diǎn),通過一定的剪輯規(guī)則,實(shí)時(shí)剪輯出精彩視頻片段入庫,通過建立直播到視頻的自動化生產(chǎn)能力,達(dá)到實(shí)時(shí)沉淀直播平臺高價(jià)值內(nèi)容的目的。直播過程雖然可以產(chǎn)生大量的錄像內(nèi)容,但由于直播時(shí)間長,導(dǎo)致直播錄像中冗余內(nèi)容較多,精彩看點(diǎn)分布比較稀疏,不足以吸引眼球,相較于短視頻存在較大劣勢,無法直接產(chǎn)生沉淀或分發(fā)價(jià)值。AI實(shí)時(shí)剪輯相當(dāng)于把直播過程中的精彩內(nèi)容實(shí)時(shí)沉淀為看點(diǎn)稠密的短視頻內(nèi)容,提升存量內(nèi)容的價(jià)值。

圖1 直播內(nèi)容實(shí)時(shí)沉淀

1.2 有哪些應(yīng)用場景

剪輯片段作為平臺沉淀下來的優(yōu)質(zhì)內(nèi)容,可以直接分發(fā)推薦或者二次加工,以不同的產(chǎn)品形態(tài),助力內(nèi)容生產(chǎn)。

1)直播間推薦。實(shí)時(shí)看點(diǎn)內(nèi)容,可滿足用戶實(shí)時(shí)回顧精彩看點(diǎn)的需求,提升用戶的觀看體驗(yàn)。如圖2所示,在王者榮耀主播直播間,實(shí)時(shí)推薦主播在直播過程中展示的精彩操作或游戲內(nèi)容片段,用戶可以選擇性地在直播間切換直播和精彩點(diǎn)播內(nèi)容,加強(qiáng)了用戶在直播間的內(nèi)容互動。這些精彩看點(diǎn)的實(shí)時(shí)呈現(xiàn),從平臺內(nèi)容生態(tài)來說,在某種程度上是對直播內(nèi)容的補(bǔ)充,同時(shí)精彩看點(diǎn)產(chǎn)量也是對主播輸出的一種隱式激勵,激勵主播持續(xù)產(chǎn)出高質(zhì)量的直播內(nèi)容,形成良性循環(huán)。

圖2 直播間實(shí)時(shí)推薦

2)二次加工內(nèi)容生產(chǎn)。一方面,AI剪輯內(nèi)容作為短視頻生產(chǎn)的優(yōu)質(zhì)素材渠道,可通過二次加工做站內(nèi)投放,助力視頻內(nèi)容生產(chǎn)。比如“王者TOP10”,視頻后臺自動將王者榮耀熱門直播間中發(fā)生的Top高能片段(加轉(zhuǎn)場動畫)整合成視頻集錦。另一方面,直播到視頻的自動化生產(chǎn)能力,可極大提升運(yùn)營類素材內(nèi)容的獲取效率和實(shí)時(shí)性。素材生產(chǎn)的流水線作業(yè)不僅提供了更加豐富的素材來源,也極大地減少了人力物力的投入,達(dá)到為平臺降本增效的目的。?

2

AI剪輯技術(shù)實(shí)踐

主要的實(shí)踐難點(diǎn)和挑戰(zhàn)來自兩個(gè)方面,1)如何搭建直播到視頻的自動化生產(chǎn)流程,2)如何實(shí)現(xiàn)精彩識別和剪輯算法。

2.1 直播到視頻自動化生產(chǎn)流程

首先需要建立一套完備的直播到視頻的實(shí)時(shí)生產(chǎn)通道,保證多品類剪輯在工程上的可擴(kuò)展性。如圖3所示,涉及到三個(gè)環(huán)節(jié)。1)音視頻環(huán)節(jié)拉取CDN錄制流并完成解碼;2)AI算法,對視頻流進(jìn)行精彩識別分析和剪輯信息結(jié)構(gòu)化生成;3)視頻后臺入庫,基于剪輯結(jié)構(gòu)化信息,調(diào)用CDN裁剪接口,生成精彩視頻片段并存入至視頻庫。視頻后臺和音視頻均拉取CDN錄制流,保證了時(shí)間戳與視頻內(nèi)容的統(tǒng)一對齊。AI算法將剪輯與識別分離,識別能力統(tǒng)一分發(fā)調(diào)度,做無狀態(tài)任務(wù)處理,保證識別結(jié)果簡單通用。剪輯邏輯統(tǒng)一后置,按品類生成精彩片段和標(biāo)簽,統(tǒng)一協(xié)議輸出至視頻后臺。生產(chǎn)流程可快速支持新品類上線,在協(xié)議完備的前提下,音視頻和視頻后臺的上下游接口無需做任何變動。

圖3 直播到視頻自動化生產(chǎn)流程

2.2 多品類精彩識別與剪輯算法?

由于直播內(nèi)容的差異性,精彩識別算法是分品類進(jìn)行的,我們將重點(diǎn)介紹王者榮耀、斯諾克賽事和足球賽事。

2.2.1 游戲品類:王者榮耀

預(yù)定義精彩片段類型20多種,主要為王者游戲中的高能事件(比如三連決勝/高能團(tuán)戰(zhàn)/殘血反殺等)。對于游戲直播而言,精彩片段是相對于玩家視角來講的,只有玩家視角的內(nèi)容才能體現(xiàn)在直播視頻流中,因此,核心的挑戰(zhàn)點(diǎn)是要獲得玩家視角下的精彩片段。

識別階段,識別框架融合了包括特征匹配、圖像分類、目標(biāo)檢測、OCR在內(nèi)的多種視覺技術(shù)(圖4),識別出包括玩家英雄、擊殺雙方英雄、英雄陣營、英雄位置、播報(bào)文本等在內(nèi)的多種對局基礎(chǔ)信息。核心點(diǎn)在于:1)預(yù)處理模塊,布局分析獲取游戲區(qū)域,確保游戲畫面的一致性,排除直播模板情況下非游戲區(qū)域的噪聲干擾。2)技能區(qū)域分支,通過技能圖標(biāo)特征確定玩家英雄,過濾所有非玩家視角的事件。3)播報(bào)區(qū)域分支,通過攻防雙方的英雄頭像特征獲得英雄類型和所屬陣營,播報(bào)文本由OCR識別。4)血條檢測分支,通過血條的位置和顏色可以確定英雄位置和陣營,左右顏色統(tǒng)計(jì)確定大致血量(滿血還是殘血),為場上局勢提供更豐富的語義。

圖4?王者基礎(chǔ)識別項(xiàng)生產(chǎn)

剪輯階段如圖5所示,通過識別項(xiàng)的邏輯組合推導(dǎo)出精彩事件,同時(shí)獲取事件相關(guān)聯(lián)的英雄、局勢、事件起止時(shí)間點(diǎn)等信息,比如“高能團(tuán)戰(zhàn)”事件,業(yè)務(wù)定義是“畫面至少出現(xiàn)3V3,且5s內(nèi)主播擊殺”,算法則需要綜合以下信息進(jìn)行邏輯推導(dǎo):a)畫面中敵我英雄人數(shù)信息;b)擊殺事件信息;c)擊殺方是否為主播玩家英雄。新生產(chǎn)的事件會送至各自隊(duì)列緩存,緩存區(qū)上可利用時(shí)序上的上下文信息確定片段起止時(shí)間點(diǎn),以及進(jìn)行英雄等附屬標(biāo)簽的糾錯(cuò),提升精彩事件內(nèi)容的精度。

圖5 識別項(xiàng)生成精彩片段

2.2.2 體育品類:斯諾克賽事

對于斯諾克賽事,我們預(yù)定義了6種精彩事件類別,主要為斯諾克賽事中發(fā)生的不同擊球和進(jìn)球方式,具體包括白球進(jìn)袋、扎桿、翻袋、解球、長臺進(jìn)球以及其他進(jìn)球,這些均為斯諾克賽事專用術(shù)語,這里不再一一解釋。核心目標(biāo)是對這些特定類型的擊球或進(jìn)球片段在直播視頻流中進(jìn)行定位和標(biāo)簽識別,首先想到的是嘗試通過視頻分類模型來進(jìn)行建模,做逐個(gè)視頻片段的7分類任務(wù)(6種事件+其他類別)。但從結(jié)果上來看,在保證一定精度的前提下,直接視頻分類的結(jié)果對各類精彩事件的召回非常低,原因在于斯諾克球在直播畫面上的占比非常小,直接使用視頻分類模型很難捕捉到不同擊球或進(jìn)球方式的視覺特征差異。

圖6 斯諾克賽事及轉(zhuǎn)場動畫示例

為了提升對精彩事件的召回,我們觀察了各類斯諾克賽事視頻,發(fā)現(xiàn)精彩事件通常會伴隨著如圖6所示的轉(zhuǎn)場動畫,也就是導(dǎo)播會對斯諾克賽事中的關(guān)鍵事件做一個(gè)視頻回放,統(tǒng)計(jì)發(fā)現(xiàn)這種回放片段可以定位出絕大部分精彩事件。轉(zhuǎn)場動畫過后的視頻回放過程中導(dǎo)播會拉近鏡頭與球臺的距離,讓整個(gè)回放畫面更加聚焦在選手的擊球方式和球的運(yùn)行軌跡上。基于這種先驗(yàn)信息,我們設(shè)計(jì)了如圖7所示的兩階段的算法來提升對精彩事件的召回。第一階段,通過特征模型建立動畫庫,通過匹配視頻片段特征來粗定位精彩事件的位置,通常由于單一賽事的動畫一致性較好,動畫匹配的精度較高,這一階段相當(dāng)于通過高精度的匹配方案過濾了絕大部分的非精彩事件片段;第二階段基于動畫定位結(jié)果獲取回放視頻片段的起止時(shí)間點(diǎn),利用回放視頻片段數(shù)據(jù)訓(xùn)練視頻分類模型,為回放片段打上不同類別的細(xì)分標(biāo)簽。第一階段的匹配過程過濾了大部分噪聲,相當(dāng)于簡化了第二階段對細(xì)分類別的識別難度。

圖7 兩階段精彩識別算法

通過上述兩階段識別算法可以獲得回放片段的事件類別,但是如果要輸出一個(gè)完整的視頻內(nèi)容片段,需要找到真實(shí)內(nèi)容的起止時(shí)間點(diǎn)。我們設(shè)計(jì)了一套如圖8所示的流程,通過引入鏡頭切分模塊來保證視頻內(nèi)容的完整性,圖示中藍(lán)圈和紅圈分別代表回放內(nèi)容的起始點(diǎn)和結(jié)束點(diǎn),藍(lán)色三角形為鏡頭切分點(diǎn)。剪輯模塊實(shí)時(shí)獲取動畫打點(diǎn)模塊、細(xì)分標(biāo)簽?zāi)K和鏡頭切分模塊的結(jié)果,來確定目標(biāo)片段的起止點(diǎn)。具體來說,將回放內(nèi)容的結(jié)束點(diǎn)作為目標(biāo)片段的結(jié)束點(diǎn),結(jié)合預(yù)定義的各類型片段的期望時(shí)長,按期望時(shí)長往前回溯粗定位一個(gè)起始點(diǎn),比如回溯20s,然后再從20s的位置再往前找到最近的一個(gè)鏡頭切分點(diǎn),將這個(gè)鏡頭切分點(diǎn)作為事件內(nèi)容的起始點(diǎn),在一定程度上保證了精彩片段內(nèi)容在鏡頭維度的完整性。

圖8 斯諾克精彩識別與剪輯

2.2.3 體育品類:足球賽事?

對于足球賽事,我們預(yù)定義了如圖9所示的17種精彩事件類型。主要識別難點(diǎn)包括:1)細(xì)粒度的問題:黃牌紅牌,關(guān)鍵信息視覺區(qū)域小,顏色也容易跟球場上其他物體撞色;依靠檢測費(fèi)時(shí)費(fèi)力費(fèi)標(biāo)注,也很難收集到非常多的樣本;2)視覺區(qū)分度的問題:部分事件有較為復(fù)雜的判斷邏輯,甚至球迷僅憑畫面信息也很難分辨,需要借助更多模態(tài)的能力來識別;3)視角差異:實(shí)際賽事直播中會放置多個(gè)相機(jī),導(dǎo)播會根據(jù)賽事情況進(jìn)行切換,因此直播畫面包括了不同視角的畫面,算法需要能做到對不同視角均有較好的識別能力。

圖9 足球賽事精彩事件17種類型

為了降低打點(diǎn)算法的識別難度,整個(gè)算法過程分成兩個(gè)階段:特征模型和打點(diǎn)模型(圖10)。第一個(gè)階段的目標(biāo)是提取更好的多模態(tài)特征,第二個(gè)階段是依賴于提取到的特征,進(jìn)行打點(diǎn)模型的學(xué)習(xí)。特征模型階段,使用足球賽事數(shù)據(jù)對特征模型分別進(jìn)行精調(diào),使提取出的特征更加適應(yīng)到足球的場景。特征模型的選取上,充分利用差異化的預(yù)訓(xùn)練和架構(gòu)的原則,提取盡可能豐富的多模態(tài)特征。打點(diǎn)模型階段,采用三層Transformer編碼器對輸入的多模態(tài)特征進(jìn)行時(shí)序建模,做18類的分類預(yù)測(17種事件+一種背景)。

圖10 兩階段事件打點(diǎn)框架

除了基本的事件打點(diǎn)模型之外,兩方面的輔助技術(shù)可進(jìn)一步提升事件的準(zhǔn)召。1)模板匹配。對于一些特殊的事件,直播畫面中會在固定位置出現(xiàn)固定模式的展示信息。例如,黃/紅牌會出現(xiàn)“Yellow Card”/ “Dismissal”,換人會出現(xiàn)特定的logo。對于前者,采用OCR技術(shù)識別特定字符,并通過模糊匹配減緩錯(cuò)符漏符的負(fù)面影響。對于后者,采用模板匹配技術(shù),模板與特定位置的圖像塊進(jìn)行互相關(guān)系數(shù)計(jì)算來確定是否匹配成功。2)語音識別(ASR)。利用足球賽事直播過程中伴隨的主播解說語音,通過ASR技術(shù),將語音信號轉(zhuǎn)化為文本,通過設(shè)置事件關(guān)鍵詞列表來進(jìn)行匹配,得到基于ASR技術(shù)的事件打點(diǎn)結(jié)果。例如,對于“解圍”事件,采用關(guān)鍵詞“解圍”、“成功破壞”、“防守成功”等關(guān)鍵詞來進(jìn)行匹配。圖11展示了上述打點(diǎn)模型和輔助技術(shù)的融合,針對不同事件,使用不同的融合方案。拿到精彩事件的打點(diǎn)結(jié)果之后,為保證剪輯片段的完整性,同樣采用類似斯諾克賽事的剪輯方案,結(jié)合鏡頭切分和各類型片段的期望時(shí)長來確定最終剪輯片段起止時(shí)間點(diǎn),這里不再贅述。

圖11 輔助技術(shù)融合

3

總結(jié)展望

基于虎牙在實(shí)時(shí)內(nèi)容創(chuàng)作技術(shù)領(lǐng)域的持續(xù)創(chuàng)新,AI剪輯實(shí)現(xiàn)了直播內(nèi)容的二次創(chuàng)作,已累計(jì)沉淀了數(shù)百萬的原始視頻素材。未來考慮從兩個(gè)方面去拓寬AI剪輯的業(yè)務(wù)影響,一方面,我們可以將成熟的AI剪輯能力開放給主播,將原本PGC工具以某種低成本的方式延伸至UGC,提升平臺主播的創(chuàng)作效率和積極性,加強(qiáng)平臺內(nèi)容的豐富度。另一方面,我們希望補(bǔ)齊短視頻自動化加工能力,包括自動生成標(biāo)題和自動配樂等,通過自動化剪輯和加工能力整合形成AIGC短視頻內(nèi)容生產(chǎn)閉環(huán),在未來的內(nèi)容生產(chǎn)上發(fā)揮更大的價(jià)值。


喜歡我們的內(nèi)容就點(diǎn)個(gè)“在看”吧!

總結(jié)

以上是生活随笔為你收集整理的虎牙直播在AI实时剪辑技术上的创新实践的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。