场景多、变种快、粒度细,网易易盾是如何有效解决这些内容安全难题的?
廣電一年一度的開年大展CCBN已經(jīng)拉開帷幕,3月19日,2019IPTV&OTT產(chǎn)業(yè)高峰論壇在北京維景國際大酒店召開。
網(wǎng)易易盾人工智能首席科學(xué)家方正
作為產(chǎn)業(yè)一年的風(fēng)向標(biāo),“2019IPTV&OTT產(chǎn)業(yè)高峰論壇”能幫助業(yè)界感知政策、技術(shù)、產(chǎn)品和市場(chǎng)走向。在這個(gè)背景下,網(wǎng)易易盾人工智能首席科學(xué)家方正受邀參加了本次高峰論壇,分享了互聯(lián)網(wǎng)行業(yè)的發(fā)展、常見有害信息、內(nèi)容行業(yè)面臨的技術(shù)難題,以及網(wǎng)易易盾是如何進(jìn)行解決。
以下是本次演講的實(shí)錄:
各位領(lǐng)導(dǎo)、各位來賓,我的分享主題是人工智能與晴朗網(wǎng)絡(luò)空間。由于我的出身就是工程師的背景,下面介紹的內(nèi)容可能有些偏重技術(shù)方面一點(diǎn)。
最近幾年,隨著互聯(lián)網(wǎng)技術(shù)和通訊技術(shù)的發(fā)展,越來越多的人開始使用互聯(lián)網(wǎng)。據(jù)統(tǒng)計(jì)報(bào)道,2018年中國的上網(wǎng)人數(shù)首次超過8億,平均每周人均上網(wǎng)時(shí)間也超過28小時(shí),人們開始把大量的時(shí)間花在網(wǎng)上,閱讀新聞、觀看電影電視劇、聊天交友中,上網(wǎng)娛樂已經(jīng)成為了生活當(dāng)中不可缺少的一部分。另一方面,手機(jī)、平板電腦和移動(dòng)終端設(shè)備的普及,也成為了互聯(lián)網(wǎng)飛速發(fā)展的重要推動(dòng)因素。現(xiàn)在大家只要有一部手機(jī)都可以成為記者、成為主播,這實(shí)現(xiàn)了無數(shù)人登臺(tái)表演、受人關(guān)注的夢(mèng)想,但這也為垃圾數(shù)據(jù)的制造和傳播創(chuàng)造了更多的條件。
常見有害信息
平時(shí)我們的上網(wǎng)過程當(dāng)中,大家經(jīng)常會(huì)看到各種各樣的垃圾數(shù)據(jù),比如常見的×××、謾罵、違禁和廣告,比如在視頻網(wǎng)站當(dāng)中大家經(jīng)常看到粉絲對(duì)某個(gè)明星進(jìn)行謾罵***,還有不明真相的網(wǎng)友對(duì)政府機(jī)關(guān)進(jìn)行惡意點(diǎn)評(píng)。×××的信息、××××××信息,這些廣告也是無處不在。讓我們比較頭疼的是×××視頻和節(jié)目,也是對(duì)正在成長發(fā)育的青少年造成了很大的身心危害。
認(rèn)識(shí)到這一點(diǎn),國家和政府在2015年就提出建設(shè)綠色健康網(wǎng)絡(luò)空間,已經(jīng)把網(wǎng)絡(luò)信息安全確定為重要的國家發(fā)展戰(zhàn)略,但是依靠傳統(tǒng)的人工審核內(nèi)容管理機(jī)制已經(jīng)不能滿足現(xiàn)在互聯(lián)網(wǎng)那種海量數(shù)據(jù)的場(chǎng)景實(shí)際情況要求。我們經(jīng)常在新聞當(dāng)中看到各種各樣的網(wǎng)站、APP,因?yàn)榇嬖谝恍┻`禁內(nèi)容被下架、關(guān)停。
而且最近幾年這類新聞也是越來越多。對(duì)海量數(shù)據(jù)進(jìn)行有效的內(nèi)容安全審核過濾,已經(jīng)成為各個(gè)互聯(lián)網(wǎng)公司需要面對(duì)和需要解決的技術(shù)難題。當(dāng)然,這也促使我們不斷思考怎么在技術(shù)上突破改進(jìn),實(shí)現(xiàn)和保障互聯(lián)網(wǎng)海量數(shù)據(jù)的內(nèi)容安全。
通過平時(shí)的實(shí)踐分析,針對(duì)網(wǎng)絡(luò)內(nèi)容安全,我們總結(jié)歸納幾個(gè)相對(duì)傳統(tǒng)文本分類、圖像識(shí)別不同特點(diǎn)和難點(diǎn),主要概括為以下三個(gè)方面:1.應(yīng)用服務(wù)的場(chǎng)景更多,2.處理的數(shù)據(jù)變種更快,3.檢測(cè)粒度更細(xì)。
產(chǎn)品應(yīng)用場(chǎng)景中的多意義
不同于平時(shí)我們看到的新聞內(nèi)容分類和電商情感分類,那些主要是針對(duì)單一的互聯(lián)網(wǎng)產(chǎn)品,互聯(lián)網(wǎng)內(nèi)容安全往往要處理的應(yīng)用場(chǎng)景多種多樣。比如我們經(jīng)常看到的博客、彈幕評(píng)論、小說、客服對(duì)話等等各種產(chǎn)品和場(chǎng)景,甚至有時(shí)還會(huì)有文言文的情況。也正是因?yàn)檫@些應(yīng)用場(chǎng)景的多種多樣導(dǎo)致了多義詞現(xiàn)象的普遍,比如蘋果和土豆,我們以為就是平時(shí)的水果蔬菜名字,但是互聯(lián)網(wǎng)新聞報(bào)道當(dāng)中正好對(duì)應(yīng)著蘋果手機(jī)、蘋果電腦、優(yōu)酷土豆這樣的視頻網(wǎng)站,機(jī)器理解就會(huì)造成很大的偏差,另外一些英文單詞的縮寫也會(huì)造成一詞多義的現(xiàn)象。AV這個(gè)詞在彈幕評(píng)論當(dāng)中大家一下子就會(huì)想到是×××的意思,但是在做內(nèi)容安全當(dāng)中會(huì)發(fā)現(xiàn)一些音樂發(fā)燒友用AV這個(gè)詞代表的就是音頻(audio)視頻(video)設(shè)備的意思,所以對(duì)內(nèi)容安全檢測(cè)造成很大的困難。
數(shù)據(jù)變種快
而第二個(gè)特點(diǎn),內(nèi)容安全當(dāng)中遇到的數(shù)據(jù)變種非常快,主要有兩方面內(nèi)容:1.數(shù)據(jù)自身會(huì)不斷變化,2.人為因素造成的變化。數(shù)據(jù)變化主要是因?yàn)樯鐣?huì)不斷發(fā)展,一些詞語具有新的含義,產(chǎn)品也具有新的外觀,這就導(dǎo)致數(shù)據(jù)分布產(chǎn)生巨大的變化,原有的內(nèi)容安全系統(tǒng)的效果和性能就大打折扣。比如之前發(fā)生的紅黃藍(lán)事件、法國黃背心運(yùn)動(dòng),這些原本只是表示顏色衣服的詞在現(xiàn)在的互聯(lián)網(wǎng)環(huán)境當(dāng)中具有了新的含義。人為因素造成的變化較快,主要是因?yàn)閺V告信息的發(fā)布者一直在不斷地尋找內(nèi)容安全系統(tǒng)的漏洞,不斷添加干擾符。互聯(lián)網(wǎng)內(nèi)容安全相對(duì)數(shù)據(jù)挖掘人工智能競(jìng)賽具有更多的難度和挑戰(zhàn),因?yàn)槟切└?jìng)賽當(dāng)中處理的數(shù)據(jù)都是靜態(tài)的、死的數(shù)據(jù),但業(yè)務(wù)當(dāng)中遇到的大部分?jǐn)?shù)據(jù)都是動(dòng)態(tài)的、活的數(shù)據(jù),也會(huì)不斷變化。
檢測(cè)粒度細(xì)
第三,內(nèi)容安全中檢測(cè)粒度更細(xì)的特點(diǎn),也包含兩方面的內(nèi)容:1.內(nèi)容語法結(jié)構(gòu)上的粒度細(xì);2.檢測(cè)輸出結(jié)果標(biāo)準(zhǔn)程度上的粒度細(xì)。內(nèi)容安全檢測(cè)任務(wù)中要求精確到具體的內(nèi)容語法結(jié)構(gòu),需要區(qū)分具體主語賓語指的是什么。比如謾罵***的垃圾數(shù)據(jù)檢測(cè)中,需要區(qū)分是對(duì)當(dāng)代人物的謾罵,還是對(duì)歷史小說虛構(gòu)人物的謾罵,這就有別于傳統(tǒng)的新聞內(nèi)容分類,只要一篇文章的全局主題類別進(jìn)行識(shí)別就行,而內(nèi)容安全當(dāng)中需要有非常細(xì)的檢測(cè)粒度。另外彈幕評(píng)論的場(chǎng)景也大大提高了垃圾信息的檢測(cè)難度,有些用戶使用的語言習(xí)慣相當(dāng)隨意,經(jīng)常缺省一些主語賓語,甚至?xí)褂缅e(cuò)別字、同音詞來借代,這也進(jìn)一步提高了檢測(cè)難度。而另一方面,檢測(cè)結(jié)果標(biāo)準(zhǔn)程度上的粒度細(xì),主要原因是:接入和服務(wù)的客戶多種多樣,有的客戶在違禁定義的標(biāo)準(zhǔn)各不相同,比如小學(xué)生作業(yè)幫APP針對(duì)×××的標(biāo)準(zhǔn)是嚴(yán)格零容忍,絕對(duì)不能出現(xiàn),但是在小說藝術(shù)作品和影視作品當(dāng)中,針對(duì)裸露的描寫和鏡頭有一定的容忍性。因?yàn)椴煌目蛻粢蟛灰粯?#xff0c;同一款的內(nèi)容安全系統(tǒng)分類器就很難滿足大家不同的需求。
除了前面介紹的幾點(diǎn)內(nèi)容安全上存在的特點(diǎn)和難點(diǎn),作為一個(gè)中小企業(yè),進(jìn)行內(nèi)容安全系統(tǒng)建設(shè)面臨的困難和挑戰(zhàn)也更多。數(shù)據(jù)角度方面,中小企業(yè)往往沒有海量的數(shù)據(jù),但是數(shù)據(jù)上的缺乏就會(huì)導(dǎo)致模型內(nèi)容安全系統(tǒng)效果的局限性和滯后性。前面提到數(shù)據(jù)不斷動(dòng)態(tài)變化,模型是會(huì)隨著時(shí)間變化性能下降的,如果不投入人力、物力進(jìn)行維護(hù)的話就難以維持原有的效果。中小企業(yè)進(jìn)行自建內(nèi)容安全,這部分負(fù)擔(dān)其實(shí)也非常難以承受。
正是看到這些行業(yè)背景和市場(chǎng)需求,網(wǎng)易基于二十一年的內(nèi)容安全數(shù)據(jù)和技術(shù)積累,結(jié)合海量特征庫,運(yùn)用人工智能、大數(shù)據(jù)技術(shù),面向市場(chǎng)推出網(wǎng)易易盾內(nèi)容安全服務(wù)。針對(duì)前面提到的各種特點(diǎn)和難點(diǎn),易盾的工程師針對(duì)性地進(jìn)行了技術(shù)開發(fā)并且予以解決。
針對(duì)前面提到的場(chǎng)景當(dāng)中多義詞現(xiàn)象的問題,易盾自主研究了語義池挖掘算法,通過挖掘關(guān)鍵目標(biāo)主題下的語義池,訓(xùn)練不同的詞向量模型,確定上下文語義關(guān)系圖,實(shí)際應(yīng)用當(dāng)中根據(jù)這些關(guān)系圖確定和定位具體多義詞表示的是什么含義。
針對(duì)數(shù)據(jù)變種快的問題,易盾的工程師也從特征和模型進(jìn)行針對(duì)性的開發(fā)。從特征角度的技術(shù)解決方案主要針對(duì)廣告變種問題,比如廣告發(fā)布者經(jīng)常添加同音詞、形近詞進(jìn)行干擾,易盾運(yùn)用大數(shù)據(jù)算法技術(shù)挖掘這些詞的使用規(guī)律,并對(duì)每個(gè)詞建立偏旁部首筆畫屬性特征,通過聯(lián)合聚類構(gòu)造出高階語義智能詞庫,輔助實(shí)際的有害信息過濾檢測(cè)器,提高內(nèi)容識(shí)別的效果。
從模型角度的技術(shù)解決方案,主要針對(duì)敏感社會(huì)事件的檢測(cè)。易盾開發(fā)在線學(xué)習(xí)算法,實(shí)時(shí)捕獲新環(huán)境下產(chǎn)生的新特征新含義,使得模型特征和參數(shù)能夠及時(shí)更新、進(jìn)化和調(diào)整,這樣減緩模型檢測(cè)性能下降的問題。
按照檢測(cè)力度細(xì)的特點(diǎn),這里簡單舉一個(gè)例子:怎么滿足不同的客戶在違禁標(biāo)準(zhǔn)上不同的問題,我們知道不同的客戶產(chǎn)品內(nèi)容垃圾違禁標(biāo)準(zhǔn)各不相同,易盾開發(fā)跨領(lǐng)域的知識(shí)遷移學(xué)習(xí)算法,挖掘不同產(chǎn)品之間的共性特征和個(gè)性化特征,針對(duì)每個(gè)產(chǎn)品和行業(yè)領(lǐng)域建立不同的分類器,通過聯(lián)合訓(xùn)練機(jī)制最終提高模型適應(yīng)度和準(zhǔn)確率,為不同客戶產(chǎn)品提供個(gè)性化的內(nèi)容安全服務(wù)。
前面提到的都是針對(duì)產(chǎn)品特點(diǎn)的技術(shù)解決方案,作為第三代內(nèi)容安全技術(shù)核心的人工智能技術(shù),其實(shí)已經(jīng)廣泛應(yīng)用到現(xiàn)在易盾的各種有害信息過濾場(chǎng)景。人工智能技術(shù)相對(duì)傳統(tǒng)機(jī)器學(xué)習(xí)算法有著明顯的優(yōu)勢(shì)和特點(diǎn),比如具有相同詞語的兩句話,詞語的順序不同,表達(dá)的意思也會(huì)不同,但是按照傳統(tǒng)的機(jī)器學(xué)習(xí)算法進(jìn)行數(shù)據(jù)處理時(shí),經(jīng)過獨(dú)熱編碼后,會(huì)得到相同的數(shù)據(jù)向量,這就不能識(shí)別兩句話的不同意思。而人工智能技術(shù)當(dāng)中RNN、LSTM神經(jīng)網(wǎng)絡(luò)模型可以針對(duì)句子語序結(jié)構(gòu)進(jìn)行理解,也對(duì)詞語序列進(jìn)行編碼,從而能夠識(shí)別兩句話的不同意思,最后提高垃圾檢測(cè)的精準(zhǔn)度。
除了內(nèi)容識(shí)別領(lǐng)域,人工智能技術(shù)在其它方面也有很多應(yīng)用。最近新聞中大家一定看到很多人工智能技術(shù)進(jìn)行視頻換臉的報(bào)道。根據(jù)新聞報(bào)道,現(xiàn)在效果已經(jīng)達(dá)到以假亂真的程度。很多熱心網(wǎng)友都表示很擔(dān)憂,擔(dān)心這個(gè)技術(shù)的濫用可能會(huì)對(duì)用戶驗(yàn)證登錄、新聞視頻的真實(shí)性造成危害。其實(shí)并不需要這些擔(dān)心,其實(shí)人工智能技術(shù)在合成這些假視頻假臉的同時(shí)也能對(duì)它們進(jìn)行有效的識(shí)別。盡管新聞報(bào)道當(dāng)中這些圖片效果都是非常逼真,但還是存在不少漏洞和細(xì)節(jié)。比如頭發(fā)、背景文字、常識(shí)邏輯特征當(dāng)中,從視頻里逐幀來看都有不少細(xì)節(jié)破綻和漏洞。合成的人臉頭發(fā)效果經(jīng)常會(huì)有種不自然,很僵硬的感覺,沒有自然的那種柔順的感覺,就像潑上去的油漆一樣,而且合成的假臉的背景文字效果經(jīng)常是玄幻或者模糊不清的,和真實(shí)的人臉圖片大不相同。另外,我們知道人臉是具有對(duì)稱性,合成的假臉還遠(yuǎn)遠(yuǎn)達(dá)不到那么完美,可能會(huì)有一只眼睛大一只眼睛小的問題,有的女性臉上還會(huì)有男性的胡子。
當(dāng)然,人工智能技術(shù)不僅能夠識(shí)別剛才我們看到的這些肉眼能夠看出的細(xì)節(jié)和漏洞,人工智能技術(shù)在細(xì)節(jié)捕捉的能力方面遠(yuǎn)遠(yuǎn)超過人類,可以識(shí)別出更多人類肉眼看不見的細(xì)節(jié)漏洞出來,從而實(shí)現(xiàn)視頻內(nèi)容的檢測(cè)。上圖展示的就是人工智能當(dāng)中的神經(jīng)網(wǎng)絡(luò),CNN處理圖像內(nèi)容進(jìn)行識(shí)別的過程。神經(jīng)網(wǎng)絡(luò)會(huì)先探測(cè)圖片內(nèi)容當(dāng)中邊緣信息,根據(jù)邊緣信息探測(cè)圖片中的紋理信息,然后根據(jù)紋理信息進(jìn)一步探測(cè)更高級(jí)、更抽象的模式信息,就這樣通過網(wǎng)絡(luò)一層一層的信息抽取和傳遞,識(shí)別圖片內(nèi)容所需要的各種細(xì)節(jié)部分都被神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到了,神經(jīng)網(wǎng)絡(luò)的內(nèi)容識(shí)別能力最后甚至?xí)_(dá)到超越人類的水平。從上面幾組熱力圖中可以看到,神經(jīng)網(wǎng)絡(luò)覺得最敏感具有嫌疑的部位,其實(shí)和肉眼觀察的常識(shí)都相當(dāng)吻合。
除了CNN卷積神經(jīng)網(wǎng)絡(luò),其實(shí)人工智能技術(shù)中的對(duì)抗生成網(wǎng)絡(luò)GAN也是識(shí)別這些合成視頻、假臉視頻的一個(gè)有效技術(shù)。我們來看對(duì)抗生成神經(jīng)網(wǎng)絡(luò)技術(shù),它包含了兩個(gè)部分的結(jié)構(gòu):一部分是生成網(wǎng)絡(luò),另一部分是鑒別網(wǎng)絡(luò)。這樣說可能比較枯燥,舉個(gè)例子,《射雕英雄傳》大家都看過,周通的絕技就是左右互搏,對(duì)抗生成網(wǎng)絡(luò)就和這套武功差不多,生成網(wǎng)絡(luò)是左手,鑒別網(wǎng)絡(luò)是右手,左手不斷出招制造各種假臉假視頻,右手不斷拆招識(shí)別這是真臉還是假臉,就像練武功一樣不斷迭代,神經(jīng)網(wǎng)絡(luò)的性能效果就能被訓(xùn)練成遠(yuǎn)遠(yuǎn)超過人類水平,前面提到的這種假視頻假臉基本上都能夠被識(shí)別出來。
易盾在技術(shù)的研發(fā)和創(chuàng)新也多次受到了國際同行的關(guān)注和認(rèn)可
值得一提的是,易盾實(shí)驗(yàn)室的工程師在2017年就對(duì)這項(xiàng)對(duì)抗生成網(wǎng)絡(luò)技術(shù)做了研究,并且已經(jīng)把這項(xiàng)技術(shù)應(yīng)用在現(xiàn)在的視頻內(nèi)容檢測(cè)、圖像內(nèi)容檢測(cè)的服務(wù)中。當(dāng)年年會(huì)展示的黑科技當(dāng)中,實(shí)驗(yàn)室的工程師還把明星演員的臉合成到自己新年拜年的節(jié)目當(dāng)中,那個(gè)視頻效果來看也已經(jīng)達(dá)到以假亂真的逼真效果。另外,易盾在內(nèi)容安全方面的科研、創(chuàng)新和努力也有多次受到了國際同行的關(guān)注和認(rèn)可,2017年易盾的工程師就關(guān)于對(duì)抗生成網(wǎng)絡(luò)的兩項(xiàng)研究成果進(jìn)行了論文發(fā)表,在當(dāng)年的國際人工智能計(jì)算機(jī)視覺頂級(jí)大會(huì)中還做了分享和介紹,和國際學(xué)者同行關(guān)于技術(shù)問題進(jìn)行了探討和交流。
除了科研方面,易盾工程師對(duì)市場(chǎng)的洞察和用戶的需求方面也非常重視,通過不斷研發(fā)來滿足各種平臺(tái)和企業(yè)客戶的需求。比如,傳統(tǒng)的音頻檢測(cè)方法需要將音頻信息轉(zhuǎn)化為文字信息,然后對(duì)文字信息再進(jìn)行審核過濾,但是隨著市場(chǎng)動(dòng)態(tài)變化,我們發(fā)現(xiàn)很多直播平臺(tái)中出現(xiàn)了很多嬌喘聲、呻吟聲的×××數(shù)據(jù),按照傳統(tǒng)的方法無法檢測(cè)識(shí)別出來。看到這種需求,我們的工程師及時(shí)調(diào)整研發(fā)方向和內(nèi)容,開發(fā)了聲紋檢測(cè)技術(shù),不需要通過文字的轉(zhuǎn)換,就可以檢測(cè)嬌喘聲、呻吟聲的×××類別數(shù)據(jù)。目前易盾音頻檢測(cè)還可以支持多種國家的語言,現(xiàn)在支持的語言包括英語、泰語、印尼語等。
自從易盾面向市場(chǎng)以來,我們的工程師一直保持著積極進(jìn)取、不斷開拓的心態(tài),通過不斷的迭代研發(fā),為更多的企業(yè)和客戶帶來更好的服務(wù)質(zhì)量,受到了行業(yè)的廣泛好評(píng)和認(rèn)可。2018年易盾為行業(yè)檢測(cè)的數(shù)據(jù)量就已經(jīng)達(dá)到3000+億條之多。
目前易盾接入和服務(wù)的客戶已經(jīng)達(dá)到數(shù)千家之多,包括知乎、OPPO、VIVO、一直播、魅族、攜程等。相信在不久的未來,易盾在互聯(lián)網(wǎng)內(nèi)容安全方面的技術(shù)肯定會(huì)達(dá)到更高的水平,我們期待著能夠與更多的機(jī)構(gòu)合作,也希望通過合作為更多的企業(yè)和客戶提供更多優(yōu)質(zhì)的服務(wù)和產(chǎn)品。
謝謝。
轉(zhuǎn)載于:https://blog.51cto.com/13610827/2366220
總結(jié)
以上是生活随笔為你收集整理的场景多、变种快、粒度细,网易易盾是如何有效解决这些内容安全难题的?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 转载:指定浏览器打开指定的网页
- 下一篇: 匹配替换指定文本为html标签