数字人正走进现实!AI大脑+高颜值
首屆數(shù)字人開發(fā)大會召開,虛擬數(shù)字人成為新熱門詞匯。
虛擬數(shù)字人,是存在于數(shù)字世界的“人”,通過動作捕捉、三維建模、語音合成等技術(shù)高度還原真實(shí)人類,再借助AR/MR/VR等終端呈現(xiàn)出來的立體“人”。在人工智能、虛擬現(xiàn)實(shí)等新技術(shù)浪潮的帶動下,虛擬數(shù)字人制作過程得到有效簡化、各方面性能獲得飛躍式提升,開始從外觀的數(shù)字化逐漸深入到行為的交互化、思想的智能化。以虛擬主播、虛擬員工等為代表的數(shù)字人成功進(jìn)入大眾視野,并以多元的姿態(tài)在影視、游戲、傳媒、文旅、金融等眾多領(lǐng)域大放異彩。
?
近日,首屆數(shù)字人開發(fā)者大會在北京召開。首屆數(shù)字人行業(yè)盛會由國家互聯(lián)網(wǎng)信息辦公室信息化發(fā)展局和中關(guān)村科技園區(qū)管理委員會作為指導(dǎo)單位,中國信息通信院、浦發(fā)銀行以及中關(guān)村數(shù)智人工智能產(chǎn)業(yè)聯(lián)盟主辦,凌云光技術(shù)協(xié)辦。
會上,中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟(簡稱“AIIA 聯(lián)盟”)和中關(guān)村數(shù)智人工智能產(chǎn)業(yè)聯(lián)盟(簡稱“ZAI 聯(lián)盟”)數(shù)字人工作委員會首次發(fā)布了《2020 年虛擬數(shù)字人發(fā)展白皮書》,白皮書回顧了虛擬數(shù)字人發(fā)展歷程,重點(diǎn)分析了虛擬數(shù)字人關(guān)鍵技術(shù)和產(chǎn)業(yè)發(fā)展現(xiàn)狀,對虛擬數(shù)字人的未來發(fā)展趨勢進(jìn)行了展望,剖析了數(shù)字人發(fā)展中的制約因素。
01 .
什么是虛擬數(shù)字人
1、虛擬數(shù)字人研究范疇
“虛擬數(shù)字人”一詞最早源于 1989 年美國國立醫(yī)學(xué)圖書館發(fā)起的“可視人計(jì)劃”(Visible Human Project, YHP)。2001年, 國內(nèi)以“中國數(shù)字化虛擬人體的科技問題”為主題的香山科學(xué)會議第 174 次學(xué)術(shù)討論會提出了“數(shù)字化虛擬人體”的概念。
這些“虛擬數(shù)字人”主要是指人體結(jié)構(gòu)的可視化,以三維形式顯示人體解剖結(jié)構(gòu)的大小、形狀、位置及器官間的相互空間關(guān)系,即利用人體信息,實(shí)現(xiàn)人體解剖結(jié)構(gòu)的數(shù)字化。主要應(yīng)用于醫(yī)療領(lǐng)域的人體解剖教學(xué)、臨床診療等。
與上述醫(yī)療領(lǐng)域的數(shù)字化人體不同,本篇中所分析的虛擬數(shù)字人(以下簡稱“數(shù)字人”)是指具有數(shù)字化外形的虛擬人物。與具備實(shí)體的機(jī)器人不同,虛擬數(shù)字人依賴顯示設(shè)備存在。虛擬數(shù)字人宜具備以下三方面特征:
一是擁有人的外觀,具有特定的相貌、性別和性格等人物特征;
二是擁有人的行為,具有用語言、面部表情和肢體動作表達(dá)的能力;
2、虛擬數(shù)字人發(fā)展歷程
虛擬數(shù)字人的發(fā)展與其制作技術(shù)的進(jìn)步密不可分,從最早的手工繪制到現(xiàn)在的 CG(Computer Graphics,電腦繪圖)、人工智能合成,虛擬數(shù)字人大致經(jīng)歷了萌芽、探索、初級和成長四個階段,詳見下圖。
?
▲虛擬數(shù)字人發(fā)展歷程
20 世紀(jì) 80 年代,人們開始嘗試將虛擬人物引入到現(xiàn)實(shí)世界中,虛擬數(shù)字人步入萌芽階段。該時期虛擬數(shù)字人的制作技術(shù)以手工繪制為主,應(yīng)用極為有限。1982 年,日本動畫《超時空要塞》播出后,制作方將女主角林明美包裝成演唱動畫插曲的歌手,并制作了音樂專輯,該專輯成功打入當(dāng)時日本知名的音樂排行榜 Oricon,林明美也成為了世界上第一位虛擬歌姬。
1984 年,英國人 George Stone 創(chuàng)作出一個名為Max Headroom 的虛擬人物,MAX 擁有人類的樣貌和表情動作,身穿西裝,佩戴墨鏡,曾參演了一部電影,拍攝了數(shù)支廣告,一度成為英國家喻戶曉的虛擬演員。由于技術(shù)的限制,其虛擬形象是由真人演員通過特效化妝和手繪實(shí)現(xiàn)。
21 世紀(jì)初,傳統(tǒng)手繪逐漸被 CG、動作捕捉等技術(shù)取代,虛擬數(shù)字人步入探索階段。該階段的虛擬數(shù)字人開始達(dá)到實(shí)用水平,但造價不菲,主要出現(xiàn)在影視娛樂行業(yè),如數(shù)字替身、虛擬偶像等。電影制作中的數(shù)字替身一般利用動作捕捉技術(shù),真人演員穿著動作捕捉服裝,臉上點(diǎn)上表情捕捉點(diǎn),通過攝像機(jī)、動作捕捉設(shè)備將真人演員的動作、表情采集處理,經(jīng)計(jì)算機(jī)處理后賦予給虛擬角色。
2001 年,《指環(huán)王》中的角色咕嚕就是由 CG 技術(shù)和動作捕捉技術(shù)產(chǎn)生,這些技術(shù)后續(xù)還在《加勒比海盜》、《猩球崛起》等電影制作中使用。2007 年,日本制作了第一個被廣泛認(rèn)可的虛擬數(shù)字人“初音未來”,初音未來是二次元風(fēng)格的少女偶像,早期的人物形象 主 要 利 用 CG 技 術(shù)合成 , 人物聲音采用雅馬哈的VOCALOID系列語音合成,呈現(xiàn)形式還相對粗糙。
近五年,得益于深度學(xué)習(xí)算法的突破,數(shù)字人的制作過程得到有效簡化,虛擬數(shù)字人開始步入正軌,進(jìn)入初級階段。該時期人工智能成為虛擬數(shù)字人不可分割的工具,智能驅(qū)動的數(shù)字人開始嶄露頭角。
2018 年,新華社與搜狗聯(lián)合發(fā)布的“AI合成主播”,可在用戶輸入新聞文本后,在屏幕展現(xiàn)虛擬數(shù)字人形象并進(jìn)行新聞播報,且唇形動作能與播報聲音實(shí)時同步。
當(dāng)前,虛擬數(shù)字人正朝著智能化、便捷化、精細(xì)化、多樣化發(fā)展,步入成長期。2019 年,美國影視特效公司數(shù)字王國軟件研發(fā)部負(fù)責(zé)人 Doug Roble 在 TED 演講時展示了自己的虛擬數(shù)字人“DigiDoug”,可在照片寫實(shí)級逼真程度的前提下,進(jìn)行實(shí)時的表情動作捕捉及展現(xiàn)。今年,三星旗下的STAR Labs在CES國際消費(fèi)電子展上展出了其虛擬數(shù)字人項(xiàng)目 NEON,NEON 是一種由人工智能所驅(qū)動的虛擬人物,擁有近似真人的形象及逼真的表情動作,具備表達(dá)情感和溝通交流的能力。
3、當(dāng)前虛擬數(shù)字人通用系統(tǒng)框架及運(yùn)作流程
當(dāng)前虛擬數(shù)字人作為新一代人機(jī)交互平臺,仍處于發(fā)展期,還未有統(tǒng)一的通用系統(tǒng)框架。這份白皮書根據(jù)虛擬數(shù)字人的制作技術(shù)以及目前市場上提供的數(shù)字人服務(wù)和產(chǎn)品結(jié)構(gòu),總結(jié)出虛擬數(shù)字人通用系統(tǒng)框架,如下圖所示。
?
虛擬數(shù)字人系統(tǒng)一般情況下由人物形象、語音生成、動畫生成、音視頻合成顯示、交互等 5 個模塊構(gòu)成。
人物形象根據(jù)人物圖形資源的維度,可分為 2D 和 3D 兩大類,從外形上又可分為卡通、擬人、寫實(shí)、超寫實(shí)等風(fēng)格;語音生成模塊和 動畫生成模塊可分別基于文本生成對應(yīng)的人物語音以及與之相匹配的人物動畫;音視頻合成顯示模塊將語音和動畫合成視頻,再顯示給用戶。
?
▲虛擬數(shù)字人通用系統(tǒng)框架
交互模塊為擴(kuò)展項(xiàng),根據(jù)其有無,可將數(shù)字人分為交互型數(shù)字人和非交互型數(shù)字人。非交互型數(shù)字人體統(tǒng)的運(yùn)作流程如下圖非交互類虛擬數(shù)字人系統(tǒng)運(yùn)作流程所示。系統(tǒng)依據(jù)目標(biāo)文本生成對應(yīng)的人物語音及動畫,并合成音視頻呈現(xiàn)給用戶。
?
▲非交互類虛擬數(shù)字人系統(tǒng)運(yùn)作流程
該人物模型是預(yù)先通過AI技術(shù)訓(xùn)練得到的,可通過文本驅(qū)動生成語音和對應(yīng)動畫,業(yè)內(nèi)將此模型稱為TTSA(Text To Speech & Animation)人物模型。真人驅(qū)動型數(shù)字人則是通過真人來驅(qū)動數(shù)字人,主要原理是真人根據(jù)視頻監(jiān)控系統(tǒng)傳來的用戶視頻,與用戶實(shí)時語音,同時通過動作捕捉采集系統(tǒng)將真人的表情、動作呈現(xiàn)在虛擬數(shù)字人形象上,從而與用戶進(jìn)行交互。
?
▲智能驅(qū)動型虛擬數(shù)字人運(yùn)作流程
?
▲真人驅(qū)動型虛擬數(shù)字人運(yùn)作流程
02 .
虛擬數(shù)字人關(guān)鍵技術(shù)趨勢
1、虛擬數(shù)字人技術(shù)架構(gòu)
當(dāng)前,虛擬數(shù)字人的制作涉及眾多技術(shù)領(lǐng)域,且制作方式尚未完全定型,通過對現(xiàn)有虛擬數(shù)字人制作中涉及的常用技術(shù)進(jìn)行調(diào)研,本白皮書在虛擬數(shù)字人通用系統(tǒng)框架的基礎(chǔ)上提煉出五橫兩縱的技術(shù)架構(gòu),如下圖所示。
?
▲虛擬數(shù)字人技術(shù)架構(gòu)
這份白皮書重點(diǎn)關(guān)注虛擬數(shù)字人制作過程涉及的建模、驅(qū)動、渲染三大關(guān)鍵技術(shù)。
2、建模 :靜態(tài)掃描建模仍為主流
相機(jī)陣列掃描重建替代結(jié)構(gòu)光掃描重建成為人物建模主流方式。早期的靜態(tài)建模技術(shù)以結(jié)構(gòu)光掃描重建為主。結(jié)構(gòu)光掃描重建可以實(shí)現(xiàn) 0.1 毫米級的掃描重建精度,但其掃描時間長,一般在 1 秒以上,甚至達(dá)到分鐘級,對于人體這類運(yùn)動目標(biāo)在友好度和適應(yīng)性方面都差強(qiáng)人意,因此被更多的應(yīng)用于工業(yè)生產(chǎn)、檢測領(lǐng)域。
近年來,拍照式相機(jī)陣列掃描重建得到飛速發(fā)展,目前可實(shí)現(xiàn)毫秒級高速拍照掃描(高性能的相機(jī)陣列精度可達(dá)到亞毫米級),滿足數(shù)字人掃描重建需求,成為當(dāng)前人物建模主流方式。
國際上 IR、Ten24 等公司已經(jīng)將靜態(tài)重建技術(shù)完全商業(yè)化,服務(wù)于好萊塢大型影視數(shù)字人制作,國內(nèi)凌云光等公司制作的拍照式人體掃描系統(tǒng)也已經(jīng)在電影、游戲、虛擬主播項(xiàng)目中成功應(yīng)用。
相比靜態(tài)重建技術(shù),動態(tài)光場重建不僅可以重建人物的幾何模型,還可一次性獲取動態(tài)的人物模型數(shù)據(jù),并高品質(zhì)重現(xiàn)不同視角下觀看人體的光影效果,成為數(shù)字人建模重點(diǎn)發(fā)展方向。
動態(tài)光場重建是目前世界上最新的深度掃描技術(shù),此技術(shù)可忽略材質(zhì),直接采集三維世界的光線,然后實(shí)時渲染出真實(shí)的動態(tài)表演者模型,它主要包含人體動態(tài)三維重建和光場成像兩部分。
人體動態(tài)三維重建一直是計(jì)算機(jī)視覺、計(jì)算機(jī)圖形學(xué)等領(lǐng)域研究的重點(diǎn),主要采用攝像機(jī)陣列采集動態(tài)數(shù)據(jù),可重建高低頻幾何、紋理、材質(zhì)、三維運(yùn)動信息。
光場成像是計(jì)算攝像學(xué)領(lǐng)域一項(xiàng)新興技術(shù),它不同于現(xiàn)有僅展示物體表面光照情況的 2D 光線地圖,光場可以存儲空間中所有光線的方向和角度,從而產(chǎn)出場景中所有表面的反射和陰影,這為人體三維重建提供了更加豐富的圖像信息。
近年來 Mirosoft、Google、Intel、Facebook 等公司都在積極展開相關(guān)研究,其中 Microsoft 的 108 攝像機(jī) MRstudio已經(jīng)在全球各大洲均有建設(shè);Google 的 Relightable 系統(tǒng)將結(jié)構(gòu)光、動態(tài)建模、重光照技術(shù)集成到一起,在一套系統(tǒng)中包含模型重建、動作重建、光照重建的全部功能;國內(nèi)清華大學(xué)、商湯科技、華為等也展開了相關(guān)研究,并取得國際水平的同步進(jìn)展。
3、驅(qū)動 :智能合成 、 動作捕捉遷移
2D、3D 數(shù)字人均已實(shí)現(xiàn)嘴型動作的智能合成,其他身體部位的動作目前還只支持錄播。2D、3D 數(shù)字人嘴型動作智能合成的底層邏輯是類似的,都是建立輸入文本到輸出音頻與輸出視覺信息的關(guān)聯(lián)映射,主要是對已采集到的文本到語音和嘴型視頻(2D)/嘴型動畫(3D)的數(shù)據(jù)進(jìn)行模型訓(xùn)練,得到一個輸入任意文本都可以驅(qū)動嘴型的模型,再通過模型智能合成。
然而,2D 視頻和 3D 嘴型動畫底層的數(shù)學(xué)表達(dá)不一樣,2D 視頻是像素表達(dá);3D 嘴型動畫是 3D 模型對應(yīng)的 BlendShape 的向量表達(dá)。除了嘴型之外的動作,包含眨眼、微點(diǎn)頭、挑眉等動畫目前都是通過采用一種隨機(jī)策略或某個腳本策略將預(yù)錄好的視頻/3D 動作進(jìn)行循環(huán)播放來實(shí)現(xiàn)。例如 3D 肢體動作目前就是通過在某個位置觸發(fā)這個預(yù)錄好的肢體動作數(shù)據(jù)得到。
觸發(fā)策略是通過人手動配置得到的,未來希望通過智能分析文本,學(xué)習(xí)人類的表達(dá),實(shí)現(xiàn)自動配置。截至目前,國內(nèi)外科技企業(yè)在數(shù)字人動作智能合成方面都有一定進(jìn)展,國際上如 Reallusion 公司研究的利用語音生成面部表情的 Craytalk 技術(shù)已在動畫制作中被成功商用,國內(nèi)搜狗、相芯科技等公司也有部分項(xiàng)目落地應(yīng)用。
通過將捕捉采集的動作遷移至數(shù)字人是目前3D數(shù)字人動作生成的主要方式,核心技術(shù)是動作捕捉。動作捕捉技術(shù)按照實(shí)現(xiàn)方式的不同,可分為光學(xué)式、慣性式、電磁式及基于計(jì)算機(jī)視覺的動作捕捉等?,F(xiàn)階段,光學(xué)式和慣性式動作捕捉占據(jù)主導(dǎo)地位,基于計(jì)算機(jī)視覺的動作捕捉成為聚焦熱點(diǎn)。光學(xué)動作捕捉通過對目標(biāo)上特定光點(diǎn)的監(jiān)視和跟蹤來完成運(yùn)動捕捉的任務(wù)。
最常用的是基于 Marker(馬克點(diǎn))的光學(xué)動作捕捉,即在演員身上粘貼能夠反射紅外光的馬克點(diǎn),通過攝像頭對反光馬克點(diǎn)的追蹤,來對演員的動作進(jìn)行捕捉。這種方式對動作的捕捉精度高,但對環(huán)境要求也高,并且造價高昂。光學(xué)式解決方案比較出名的企業(yè)有英國的Vicon,美國的 OptiTrack 和魔神(MotionAnalysis),國內(nèi)的 Nokov、uSens、青瞳視覺等。
慣性動作捕捉主要是基于慣性測量單元(Inertial Measurement Unit,IMU)來完成對人體動作的捕捉,即把集成了加速度計(jì)、陀螺儀和磁力計(jì)的IMU 綁在人體的特定骨骼節(jié)點(diǎn)上,通過算法對測量數(shù)值進(jìn)行計(jì)算,從而完成動作捕捉。這種慣性動作捕捉方案價格相對低廉,但精度較低,會隨著連續(xù)使用時間的增加產(chǎn)生累積誤差,發(fā)生位置漂移。
慣性式動捕方案的代表性企業(yè)有荷蘭的 Xsens,以及國內(nèi)的諾亦騰(Noitom)、幻境、國承萬通等?;谟?jì)算機(jī)視覺的動作捕捉主要是通過采集及計(jì)算深度信息來完成對動作的捕捉,是近些年才興起的技術(shù)。這種視覺動捕方式因其簡單、易用、低價,已成為目前使用的頻率較高的動作捕捉方案,代表性產(chǎn)品有 Leap Motion、微軟Kinect 等。以上動捕方案的性能對比如下圖所示。
?
▲主流動作捕捉方案性能對比
4、 渲染:真實(shí)性和實(shí)時性均大幅提升
PBR(Physically Based Rendering,基于物理的渲染技術(shù))渲染技術(shù)的進(jìn)步以及重光照等新型渲染技術(shù)的出現(xiàn)使數(shù)字人皮膚紋理變得真實(shí),突破了恐怖谷效應(yīng)??植拦刃?yīng)由日本機(jī)器人專家森政弘提出,認(rèn)為人們對機(jī)器人的親和度隨著其仿真程度增加而增高,但當(dāng)達(dá)到一個較高的臨界點(diǎn)時,親和度會突然跌入谷底,產(chǎn)生排斥、恐懼和困惑等負(fù)面心理。
數(shù)字人恐怖谷效應(yīng)主要由數(shù)字人外表、表情動作上與真人的差異帶來,其中外表真實(shí)感的關(guān)鍵就是皮膚材質(zhì)的真實(shí)感,無論是塑料感還是蠟像感都會給人類帶來不適。在 PBR 技術(shù)出現(xiàn)之前,限于相關(guān)軟硬件的發(fā)展程度,所有的 3D 渲染引擎,更多的著重在于實(shí)現(xiàn) 3D 效果,在真實(shí)感體現(xiàn)方面差強(qiáng)人意。
PBR 是基于真實(shí)物理世界的成像規(guī)律模擬的一類渲染技術(shù)的集合,它的關(guān)鍵在于微表面模型和能量守恒計(jì)算,通過更真實(shí)的反映模型表面反射光線和折射光線的強(qiáng)弱,使得渲染效果突破了塑料感。目前常見的幾款 3D 引擎,如UnrealEngine 4, CryEngine 3, Unity 3D 5,均有了各自的 PBR實(shí)現(xiàn)。
重光照技術(shù)通過采集模擬多種光照條件的圖像數(shù)據(jù),測算數(shù)字人表面光照反射特性,并合成出數(shù)字人模型在新的光照下的渲染結(jié)果,使計(jì)算機(jī)中的虛擬數(shù)字人在任意虛擬環(huán)境下都可以呈現(xiàn)近乎真實(shí)的效果,它徹底改變了傳統(tǒng)渲染方式通過模擬皮膚復(fù)雜的透射反射來計(jì)算渲染總會帶來誤差的局面。
?
該技術(shù)在 2000 年初由南加州大學(xué)實(shí)驗(yàn)室創(chuàng)建LightStage 平臺時提出,并開始了相關(guān)研究,目前已經(jīng)經(jīng)過 7代的迭代發(fā)展,已被成功應(yīng)用到《阿凡達(dá)》、《復(fù)仇者聯(lián)盟》等眾多經(jīng)典影片的角色制作中。國內(nèi)清華大學(xué)、浙江大學(xué)也都建設(shè)了重光照系統(tǒng),可以實(shí)現(xiàn)高精度人體光照采集與重建。
實(shí)時渲染技術(shù)的突破助力寫實(shí)類數(shù)字人實(shí)現(xiàn)實(shí)時交互,應(yīng)用范圍快速擴(kuò)大。實(shí)時渲染指圖形數(shù)據(jù)的實(shí)時計(jì)算與輸出,其每一幀都是針對當(dāng)時實(shí)際的環(huán)境光源、相機(jī)位置和材質(zhì)參數(shù)計(jì)算出來的圖像。與離線渲染相比,實(shí)時渲染面臨較大挑戰(zhàn)。一是渲染時長短,實(shí)時渲染每秒至少要渲染 30 幀,即在 33 毫秒內(nèi)完成一幀畫面渲染,離線渲染則可以花費(fèi)數(shù)小時甚至更長時間渲染一幀畫面;二是計(jì)算資源有限,實(shí)時渲染受限于時效要求,計(jì)算資源一般是不能及時調(diào)整,而離線渲染受時效限制較低,可臨時調(diào)配更多的計(jì)算資源。
早期的實(shí)時渲染只能選擇高度抽象和簡化過的渲染算法,犧牲了畫面質(zhì)量。隨著硬件能力的提升和算法的突破,渲染速度、渲染效果的真實(shí)度、渲染畫面的分辨率均大幅提升,在虛擬人物實(shí)時渲染方面,已經(jīng)能做到以假亂真。
?
2016 年,EpicGames 聯(lián)合 3Lateral、Cubic Motion、Ninja Theory 等公司聯(lián)合開發(fā)的可實(shí)時驅(qū)動的虛擬人物在當(dāng)年的 Siggraph(Special Interest Group for Computer GRAPHICS,計(jì)算機(jī)圖形圖像特別興趣小組,致力于推廣和發(fā)展計(jì)算機(jī)繪圖和動畫制作的軟硬件技術(shù))會議中做了演示,成功在消費(fèi)級的硬件環(huán)境下實(shí)時渲染了高質(zhì)量的虛擬角色。
2018 年 5 月,騰訊發(fā)布虛擬人 Siren,也一個支持實(shí)時渲染的虛擬人物。
現(xiàn)在,在AI+5G的加持下,“虛擬數(shù)字人”的蓬勃發(fā)展才剛剛開始,而這只是第三產(chǎn)業(yè)智能化趨勢的一個縮影,隨著我國產(chǎn)業(yè)轉(zhuǎn)型升級的腳步逐漸加速,將會有各種形態(tài)的虛擬數(shù)字人出現(xiàn)在各行各業(yè)。
總結(jié)
以上是生活随笔為你收集整理的数字人正走进现实!AI大脑+高颜值的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Windows server 2008
- 下一篇: AI也能作曲?谁来定义AI的freest