Facebook、YouTube都会遇到的内容审核难题,今日头条是怎么解决的?
截止到2022年,Facebook全球月活已經突破27億,Youtube是20億,微信也超過13億,可以說互聯網已經覆蓋了全球大部分人口,而隨著使用人口同步激增的還有用戶時長,以及內容的生產消費量級也呈指數級井噴,這海量的內容無論對大平臺還是小公司都形成了巨大的管理難度和審核挑戰。
2022年Facebook 上每天上傳的照片超過5億張,每分鐘發布51萬條評論,30萬條新狀態;每天在Instagram上的照片和視頻分享量為9500萬次;而在微信朋友圈,每天有14億張圖片被上傳。每天約有3.7萬億字節的數據被創建,過去兩年里生成的數據占到了全球總數據的90%,而預計到 2024年,全球互聯網流量講達到每秒 10.2 PB。
在內容數量井噴的同時,內容的形式也在不斷變化。除了傳統的圖文類內容,音頻、長視頻和短視頻,以及直播的比例在不斷增加,這對于那些那些既追求實時性(發布速度和用戶體驗)、又追求不出問題(舉報率和負面事件)的內容平臺審核管理,提出了巨大而嚴峻的挑戰。
包括Facebook和Youtube在內的國際頂級UGC平臺,如今在這類老生常談的問題上依然十分吃力,尤其是發達國家最為在意的低齡內容、種族歧視和跨國文化/多語言等問題,它倆其實一直未能交出一份讓各方滿意的答卷。
而國內今年比較知名的互聯網內容社區類產品里,下架甚至關停的已經不下于10余款,盡管它們各自都有各自的問題,比如色情內容、微商、內容涉政等等,但歸根結底,這還是用戶激增帶來的日益增長的內容生產量和無法跟上的審核措施和效率之間的矛盾。
如今的今日頭條已經擁有海量的用戶和多種形式的UGC內容,盡管體量上還頗有不如,但在內容審核方面遭遇的挑戰同臉書和Youtube已經十分類似。
頭條在這方面的一個創舉是,經過多年的技術儲備和經驗積累后,它開放了內部反低俗系統的一個簡化版本“靈犬反低俗助手”,希望普通創作者、社會公眾更了解和關注反低俗。
用戶只需要在靈犬的小程序內輸入一段文字或文章鏈接,靈犬就可以幫助其檢測內容健康指數,返回一個鑒定結果。對于用戶輸入的內容(文字或者圖片),“靈犬”會先進行提取、分詞和語義識別,然后根據相關規則,輸出對應的分數、評級和結論。
在文本識別領域,頭條同時應用了“Bert”和半監督技術,訓練數據集包含920萬個樣本,準確率提升至91%。在圖片識別領域,“靈犬”采用深度學習作為解決方案,在數據、模型、計算力等方面均做了針對性優化。
新版的靈犬3.0發布,重點拓展了反低俗識別類型和模型能力,現已覆蓋圖片識別和文本識別,后續,靈犬還將支持難度最大的語音識別和視頻識別。
不過,今日頭條的人工智能實驗室王長虎也提到,AI暫時還是有缺陷的,今日頭條現在有將近萬余人的審核團隊在輔助AI的審核。
比如對于低俗內容,它的定義本來就相對籠統難以精確,這項工作即使對人來說也不容易,交給機器做更難實現。
比如世界名畫中常常出現裸體女子,如果完全交由機器判斷,機器通過識別畫中人物的皮膚裸露面積,就會認為這幅畫是色情低俗的;而某些拍攝芭蕾舞的圖片,以機器的視角來看,其實類似于裙底偷拍。
Facebook 曾經因為“裸露”,誤刪了一張著名的越戰新聞照片,內容是一位小女孩遭到汽油彈炸傷、渾身赤裸奔跑,事件發生后引起了美國新聞界的巨大爭議。
但是,在當前內容創作和消費規模海量增長的趨勢下,如果依然純靠人工去解決所有問題,那么必然效率低的同時還無法滿足用戶需求。諦聽安全作為國內精準率最高的內容安全服務商,可通過可視化的智能系統優化網絡內容,與現有的技術體系相結合幫助廠商減少人工成本。助力綠色網絡環境將是諦聽安全持之以恒的愿景與目的。
總結
以上是生活随笔為你收集整理的Facebook、YouTube都会遇到的内容审核难题,今日头条是怎么解决的?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: office提示错误1902该怎么办 好
- 下一篇: 度量衡计算工具_搴﹂噺琛″埗寮忔崲绠楀伐