當(dāng)前位置：首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

虎牙直播在AI实时剪辑技术上的创新实践

發(fā)布時(shí)間：2024/4/11 ChatGpt 58 豆豆

生活随笔收集整理的這篇文章主要介紹了虎牙直播在AI实时剪辑技术上的创新实践小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

?點(diǎn)擊上方“LiveVideoStack”關(guān)注我們

▲掃描圖中二維碼或點(diǎn)擊閱讀原文▲

了解音視頻技術(shù)大會更多信息

背景介紹

虎牙平臺直播內(nèi)容日益豐富，不少用戶會對直播中的精彩鏡頭更加關(guān)注，如何讓用戶快速甚至實(shí)時(shí)地回顧到直播中的精彩鏡頭成了我們關(guān)注的問題。直接的人工剪輯需要耗費(fèi)大量人力，我們希望通過設(shè)計(jì)算法來自動剪輯，將好看的精彩鏡頭實(shí)時(shí)呈現(xiàn)給觀眾，同時(shí)精彩鏡頭作為直播過程中沉淀下來的優(yōu)質(zhì)內(nèi)容，也能夠在后續(xù)不同的產(chǎn)品形態(tài)上發(fā)揮作用。

1.1 什么是AI實(shí)時(shí)剪輯?

所謂AI實(shí)時(shí)剪輯，主要是通過AI識別技術(shù)實(shí)時(shí)分析直播視頻流內(nèi)容，自動捕捉直播過程中的精彩高能看點(diǎn)，通過一定的剪輯規(guī)則，實(shí)時(shí)剪輯出精彩視頻片段入庫，通過建立直播到視頻的自動化生產(chǎn)能力，達(dá)到實(shí)時(shí)沉淀直播平臺高價(jià)值內(nèi)容的目的。直播過程雖然可以產(chǎn)生大量的錄像內(nèi)容，但由于直播時(shí)間長，導(dǎo)致直播錄像中冗余內(nèi)容較多，精彩看點(diǎn)分布比較稀疏，不足以吸引眼球，相較于短視頻存在較大劣勢，無法直接產(chǎn)生沉淀或分發(fā)價(jià)值。AI實(shí)時(shí)剪輯相當(dāng)于把直播過程中的精彩內(nèi)容實(shí)時(shí)沉淀為看點(diǎn)稠密的短視頻內(nèi)容，提升存量內(nèi)容的價(jià)值。

圖1 直播內(nèi)容實(shí)時(shí)沉淀

1.2 有哪些應(yīng)用場景

剪輯片段作為平臺沉淀下來的優(yōu)質(zhì)內(nèi)容，可以直接分發(fā)推薦或者二次加工，以不同的產(chǎn)品形態(tài)，助力內(nèi)容生產(chǎn)。

1）直播間推薦。實(shí)時(shí)看點(diǎn)內(nèi)容，可滿足用戶實(shí)時(shí)回顧精彩看點(diǎn)的需求，提升用戶的觀看體驗(yàn)。如圖2所示，在王者榮耀主播直播間，實(shí)時(shí)推薦主播在直播過程中展示的精彩操作或游戲內(nèi)容片段，用戶可以選擇性地在直播間切換直播和精彩點(diǎn)播內(nèi)容，加強(qiáng)了用戶在直播間的內(nèi)容互動。這些精彩看點(diǎn)的實(shí)時(shí)呈現(xiàn)，從平臺內(nèi)容生態(tài)來說，在某種程度上是對直播內(nèi)容的補(bǔ)充，同時(shí)精彩看點(diǎn)產(chǎn)量也是對主播輸出的一種隱式激勵，激勵主播持續(xù)產(chǎn)出高質(zhì)量的直播內(nèi)容，形成良性循環(huán)。

圖2 直播間實(shí)時(shí)推薦

2）二次加工內(nèi)容生產(chǎn)。一方面，AI剪輯內(nèi)容作為短視頻生產(chǎn)的優(yōu)質(zhì)素材渠道，可通過二次加工做站內(nèi)投放，助力視頻內(nèi)容生產(chǎn)。比如“王者TOP10”，視頻后臺自動將王者榮耀熱門直播間中發(fā)生的Top高能片段（加轉(zhuǎn)場動畫）整合成視頻集錦。另一方面，直播到視頻的自動化生產(chǎn)能力，可極大提升運(yùn)營類素材內(nèi)容的獲取效率和實(shí)時(shí)性。素材生產(chǎn)的流水線作業(yè)不僅提供了更加豐富的素材來源，也極大地減少了人力物力的投入，達(dá)到為平臺降本增效的目的。?

AI剪輯技術(shù)實(shí)踐

主要的實(shí)踐難點(diǎn)和挑戰(zhàn)來自兩個(gè)方面，1）如何搭建直播到視頻的自動化生產(chǎn)流程，2）如何實(shí)現(xiàn)精彩識別和剪輯算法。

2.1 直播到視頻自動化生產(chǎn)流程

首先需要建立一套完備的直播到視頻的實(shí)時(shí)生產(chǎn)通道，保證多品類剪輯在工程上的可擴(kuò)展性。如圖3所示，涉及到三個(gè)環(huán)節(jié)。1）音視頻環(huán)節(jié)拉取CDN錄制流并完成解碼；2）AI算法，對視頻流進(jìn)行精彩識別分析和剪輯信息結(jié)構(gòu)化生成；3）視頻后臺入庫，基于剪輯結(jié)構(gòu)化信息，調(diào)用CDN裁剪接口，生成精彩視頻片段并存入至視頻庫。視頻后臺和音視頻均拉取CDN錄制流，保證了時(shí)間戳與視頻內(nèi)容的統(tǒng)一對齊。AI算法將剪輯與識別分離，識別能力統(tǒng)一分發(fā)調(diào)度，做無狀態(tài)任務(wù)處理，保證識別結(jié)果簡單通用。剪輯邏輯統(tǒng)一后置，按品類生成精彩片段和標(biāo)簽，統(tǒng)一協(xié)議輸出至視頻后臺。生產(chǎn)流程可快速支持新品類上線，在協(xié)議完備的前提下，音視頻和視頻后臺的上下游接口無需做任何變動。

圖3 直播到視頻自動化生產(chǎn)流程

2.2 多品類精彩識別與剪輯算法?

由于直播內(nèi)容的差異性，精彩識別算法是分品類進(jìn)行的，我們將重點(diǎn)介紹王者榮耀、斯諾克賽事和足球賽事。

2.2.1 游戲品類：王者榮耀

預(yù)定義精彩片段類型20多種，主要為王者游戲中的高能事件（比如三連決勝/高能團(tuán)戰(zhàn)/殘血反殺等）。對于游戲直播而言，精彩片段是相對于玩家視角來講的，只有玩家視角的內(nèi)容才能體現(xiàn)在直播視頻流中，因此，核心的挑戰(zhàn)點(diǎn)是要獲得玩家視角下的精彩片段。

識別階段，識別框架融合了包括特征匹配、圖像分類、目標(biāo)檢測、OCR在內(nèi)的多種視覺技術(shù)（圖4），識別出包括玩家英雄、擊殺雙方英雄、英雄陣營、英雄位置、播報(bào)文本等在內(nèi)的多種對局基礎(chǔ)信息。核心點(diǎn)在于：1）預(yù)處理模塊，布局分析獲取游戲區(qū)域，確保游戲畫面的一致性，排除直播模板情況下非游戲區(qū)域的噪聲干擾。2）技能區(qū)域分支，通過技能圖標(biāo)特征確定玩家英雄，過濾所有非玩家視角的事件。3）播報(bào)區(qū)域分支，通過攻防雙方的英雄頭像特征獲得英雄類型和所屬陣營，播報(bào)文本由OCR識別。4）血條檢測分支，通過血條的位置和顏色可以確定英雄位置和陣營，左右顏色統(tǒng)計(jì)確定大致血量（滿血還是殘血），為場上局勢提供更豐富的語義。

圖4?王者基礎(chǔ)識別項(xiàng)生產(chǎn)

剪輯階段如圖5所示，通過識別項(xiàng)的邏輯組合推導(dǎo)出精彩事件，同時(shí)獲取事件相關(guān)聯(lián)的英雄、局勢、事件起止時(shí)間點(diǎn)等信息，比如“高能團(tuán)戰(zhàn)”事件，業(yè)務(wù)定義是“畫面至少出現(xiàn)3V3，且5s內(nèi)主播擊殺”，算法則需要綜合以下信息進(jìn)行邏輯推導(dǎo)：a）畫面中敵我英雄人數(shù)信息；b）擊殺事件信息；c）擊殺方是否為主播玩家英雄。新生產(chǎn)的事件會送至各自隊(duì)列緩存，緩存區(qū)上可利用時(shí)序上的上下文信息確定片段起止時(shí)間點(diǎn)，以及進(jìn)行英雄等附屬標(biāo)簽的糾錯(cuò)，提升精彩事件內(nèi)容的精度。

圖5 識別項(xiàng)生成精彩片段

2.2.2 體育品類：斯諾克賽事

對于斯諾克賽事，我們預(yù)定義了6種精彩事件類別，主要為斯諾克賽事中發(fā)生的不同擊球和進(jìn)球方式，具體包括白球進(jìn)袋、扎桿、翻袋、解球、長臺進(jìn)球以及其他進(jìn)球，這些均為斯諾克賽事專用術(shù)語，這里不再一一解釋。核心目標(biāo)是對這些特定類型的擊球或進(jìn)球片段在直播視頻流中進(jìn)行定位和標(biāo)簽識別，首先想到的是嘗試通過視頻分類模型來進(jìn)行建模，做逐個(gè)視頻片段的7分類任務(wù)（6種事件+其他類別）。但從結(jié)果上來看，在保證一定精度的前提下，直接視頻分類的結(jié)果對各類精彩事件的召回非常低，原因在于斯諾克球在直播畫面上的占比非常小，直接使用視頻分類模型很難捕捉到不同擊球或進(jìn)球方式的視覺特征差異。

圖6 斯諾克賽事及轉(zhuǎn)場動畫示例

為了提升對精彩事件的召回，我們觀察了各類斯諾克賽事視頻，發(fā)現(xiàn)精彩事件通常會伴隨著如圖6所示的轉(zhuǎn)場動畫，也就是導(dǎo)播會對斯諾克賽事中的關(guān)鍵事件做一個(gè)視頻回放，統(tǒng)計(jì)發(fā)現(xiàn)這種回放片段可以定位出絕大部分精彩事件。轉(zhuǎn)場動畫過后的視頻回放過程中導(dǎo)播會拉近鏡頭與球臺的距離，讓整個(gè)回放畫面更加聚焦在選手的擊球方式和球的運(yùn)行軌跡上。基于這種先驗(yàn)信息，我們設(shè)計(jì)了如圖7所示的兩階段的算法來提升對精彩事件的召回。第一階段，通過特征模型建立動畫庫，通過匹配視頻片段特征來粗定位精彩事件的位置，通常由于單一賽事的動畫一致性較好，動畫匹配的精度較高，這一階段相當(dāng)于通過高精度的匹配方案過濾了絕大部分的非精彩事件片段；第二階段基于動畫定位結(jié)果獲取回放視頻片段的起止時(shí)間點(diǎn)，利用回放視頻片段數(shù)據(jù)訓(xùn)練視頻分類模型，為回放片段打上不同類別的細(xì)分標(biāo)簽。第一階段的匹配過程過濾了大部分噪聲，相當(dāng)于簡化了第二階段對細(xì)分類別的識別難度。

圖7 兩階段精彩識別算法

通過上述兩階段識別算法可以獲得回放片段的事件類別，但是如果要輸出一個(gè)完整的視頻內(nèi)容片段，需要找到真實(shí)內(nèi)容的起止時(shí)間點(diǎn)。我們設(shè)計(jì)了一套如圖8所示的流程，通過引入鏡頭切分模塊來保證視頻內(nèi)容的完整性，圖示中藍(lán)圈和紅圈分別代表回放內(nèi)容的起始點(diǎn)和結(jié)束點(diǎn)，藍(lán)色三角形為鏡頭切分點(diǎn)。剪輯模塊實(shí)時(shí)獲取動畫打點(diǎn)模塊、細(xì)分標(biāo)簽?zāi)K和鏡頭切分模塊的結(jié)果，來確定目標(biāo)片段的起止點(diǎn)。具體來說，將回放內(nèi)容的結(jié)束點(diǎn)作為目標(biāo)片段的結(jié)束點(diǎn)，結(jié)合預(yù)定義的各類型片段的期望時(shí)長，按期望時(shí)長往前回溯粗定位一個(gè)起始點(diǎn)，比如回溯20s，然后再從20s的位置再往前找到最近的一個(gè)鏡頭切分點(diǎn)，將這個(gè)鏡頭切分點(diǎn)作為事件內(nèi)容的起始點(diǎn)，在一定程度上保證了精彩片段內(nèi)容在鏡頭維度的完整性。

圖8 斯諾克精彩識別與剪輯

2.2.3 體育品類：足球賽事?

對于足球賽事，我們預(yù)定義了如圖9所示的17種精彩事件類型。主要識別難點(diǎn)包括：1）細(xì)粒度的問題：黃牌紅牌，關(guān)鍵信息視覺區(qū)域小，顏色也容易跟球場上其他物體撞色；依靠檢測費(fèi)時(shí)費(fèi)力費(fèi)標(biāo)注，也很難收集到非常多的樣本；2）視覺區(qū)分度的問題：部分事件有較為復(fù)雜的判斷邏輯，甚至球迷僅憑畫面信息也很難分辨，需要借助更多模態(tài)的能力來識別；3）視角差異：實(shí)際賽事直播中會放置多個(gè)相機(jī)，導(dǎo)播會根據(jù)賽事情況進(jìn)行切換，因此直播畫面包括了不同視角的畫面，算法需要能做到對不同視角均有較好的識別能力。

圖9 足球賽事精彩事件17種類型

為了降低打點(diǎn)算法的識別難度，整個(gè)算法過程分成兩個(gè)階段：特征模型和打點(diǎn)模型（圖10）。第一個(gè)階段的目標(biāo)是提取更好的多模態(tài)特征，第二個(gè)階段是依賴于提取到的特征，進(jìn)行打點(diǎn)模型的學(xué)習(xí)。特征模型階段，使用足球賽事數(shù)據(jù)對特征模型分別進(jìn)行精調(diào)，使提取出的特征更加適應(yīng)到足球的場景。特征模型的選取上，充分利用差異化的預(yù)訓(xùn)練和架構(gòu)的原則，提取盡可能豐富的多模態(tài)特征。打點(diǎn)模型階段，采用三層Transformer編碼器對輸入的多模態(tài)特征進(jìn)行時(shí)序建模，做18類的分類預(yù)測（17種事件+一種背景）。

圖10 兩階段事件打點(diǎn)框架

除了基本的事件打點(diǎn)模型之外，兩方面的輔助技術(shù)可進(jìn)一步提升事件的準(zhǔn)召。1）模板匹配。對于一些特殊的事件，直播畫面中會在固定位置出現(xiàn)固定模式的展示信息。例如，黃/紅牌會出現(xiàn)“Yellow Card”/ “Dismissal”，換人會出現(xiàn)特定的logo。對于前者，采用OCR技術(shù)識別特定字符，并通過模糊匹配減緩錯(cuò)符漏符的負(fù)面影響。對于后者，采用模板匹配技術(shù)，模板與特定位置的圖像塊進(jìn)行互相關(guān)系數(shù)計(jì)算來確定是否匹配成功。2）語音識別（ASR）。利用足球賽事直播過程中伴隨的主播解說語音，通過ASR技術(shù)，將語音信號轉(zhuǎn)化為文本，通過設(shè)置事件關(guān)鍵詞列表來進(jìn)行匹配，得到基于ASR技術(shù)的事件打點(diǎn)結(jié)果。例如，對于“解圍”事件，采用關(guān)鍵詞“解圍”、“成功破壞”、“防守成功”等關(guān)鍵詞來進(jìn)行匹配。圖11展示了上述打點(diǎn)模型和輔助技術(shù)的融合，針對不同事件，使用不同的融合方案。拿到精彩事件的打點(diǎn)結(jié)果之后，為保證剪輯片段的完整性，同樣采用類似斯諾克賽事的剪輯方案，結(jié)合鏡頭切分和各類型片段的期望時(shí)長來確定最終剪輯片段起止時(shí)間點(diǎn)，這里不再贅述。

圖11 輔助技術(shù)融合

總結(jié)展望

基于虎牙在實(shí)時(shí)內(nèi)容創(chuàng)作技術(shù)領(lǐng)域的持續(xù)創(chuàng)新，AI剪輯實(shí)現(xiàn)了直播內(nèi)容的二次創(chuàng)作，已累計(jì)沉淀了數(shù)百萬的原始視頻素材。未來考慮從兩個(gè)方面去拓寬AI剪輯的業(yè)務(wù)影響，一方面，我們可以將成熟的AI剪輯能力開放給主播，將原本PGC工具以某種低成本的方式延伸至UGC，提升平臺主播的創(chuàng)作效率和積極性，加強(qiáng)平臺內(nèi)容的豐富度。另一方面，我們希望補(bǔ)齊短視頻自動化加工能力，包括自動生成標(biāo)題和自動配樂等，通過自動化剪輯和加工能力整合形成AIGC短視頻內(nèi)容生產(chǎn)閉環(huán)，在未來的內(nèi)容生產(chǎn)上發(fā)揮更大的價(jià)值。

喜歡我們的內(nèi)容就點(diǎn)個(gè)“在看”吧！

總結(jié)

以上是生活随笔為你收集整理的虎牙直播在AI实时剪辑技术上的创新实践的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。