日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

天啦噜!在家和爱豆玩quot;剪刀石头布quot;,阿里工程师如何办到?

發(fā)布時(shí)間:2024/8/23 编程问答 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 天啦噜!在家和爱豆玩quot;剪刀石头布quot;,阿里工程师如何办到? 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

如今,90、00后一代成為消費(fèi)主力,補(bǔ)貼、打折、優(yōu)惠等“價(jià)格戰(zhàn)”已很難建立起忠誠(chéng)度,如何與年輕人建立更深層次的情感共鳴?互動(dòng)就是一種很好的方式,它能讓用戶更深度的參與品牌/平臺(tái)呈現(xiàn)的內(nèi)容,提供更深層的參與感,提升用戶對(duì)品牌/平臺(tái)的認(rèn)同感和滿意度。

今天,我們一起看看這些趣味互動(dòng)技術(shù)背后的秘密。

一. 背景

最近一年以來(lái),阿里巴巴搜索事業(yè)部和浙江大學(xué)宋明黎教授團(tuán)隊(duì)聯(lián)合打造了手淘視頻互動(dòng)平臺(tái)(AliPlayStudio),分別落地線上互動(dòng)、線下大屏互動(dòng)多個(gè)場(chǎng)景(線上手淘APP的拍立淘、掃一掃、搜索關(guān)鍵詞入口;線下商場(chǎng)大屏、影院互動(dòng)大屏等)。接入阿里集團(tuán)內(nèi)天貓品牌、阿里影業(yè)、優(yōu)酷IP、淘寶網(wǎng)紅,行業(yè)營(yíng)銷等各類資源,在線上線下讓用戶互動(dòng),打通線上公域場(chǎng)景 、手淘APP 、線下商超這3個(gè)流量場(chǎng)。以新穎的視頻化互動(dòng)方式,利用用戶對(duì)明星、紅人、IP、新奇的玩法所產(chǎn)生的好奇心及聚眾心理,創(chuàng)造全新的AI互動(dòng)營(yíng)銷方式,同時(shí)結(jié)合權(quán)益發(fā)放、店鋪加粉、商品推薦等手段,將互動(dòng)用戶自然轉(zhuǎn)化為真正的消費(fèi)者。


下面是18年雙11期間上線的“明星猜拳PK”互動(dòng):

下面是結(jié)合了人像語(yǔ)義切割、用戶年齡/性別預(yù)測(cè)的的18年天貓黑5“刷臉”活動(dòng):

下面是人臉融合的玩法:

下面是基于實(shí)時(shí)人體關(guān)鍵點(diǎn)檢測(cè)的《西虹市首富》宣發(fā)互動(dòng)玩法:


下面是和“黃小鹿”互動(dòng)大屏在線下商場(chǎng)部署的“明星合圖”活動(dòng):用戶通過(guò)在大屏上自拍,經(jīng)過(guò)人像切割后跟明星合照,用手淘掃碼導(dǎo)流到線上關(guān)注店鋪,完成照片打印。

為了打造AliPlayStudio視頻互動(dòng)平臺(tái),我們從基礎(chǔ)圖像算法能力到系統(tǒng)層面的端上模型推理加速、客戶端native實(shí)現(xiàn)(視頻、圖片,Camera多輸入源渲染)、H5玩法模塊化等,做了大量研發(fā)工作。

本文主要介紹圖像算法這塊的研發(fā)工作。

端上互動(dòng)用到的手勢(shì)識(shí)別、POSE檢測(cè)、人像語(yǔ)義切割等能力,涉及計(jì)算機(jī)視覺(jué)分類、檢測(cè)、語(yǔ)義切割幾個(gè)核心問(wèn)題。隨著這幾年深度學(xué)習(xí)的發(fā)展,目前這些任務(wù)比較好的解法都是基于深度學(xué)習(xí)方法。我們的業(yè)務(wù)場(chǎng)景(手淘)要求模型一般能夠大規(guī)模部署到手機(jī)和低性能的嵌入式設(shè)備上。這些任務(wù)盡管解決的Pipeline不一樣,都會(huì)面臨一個(gè)共性的問(wèn)題:設(shè)計(jì)一個(gè)面向低性能平臺(tái)的輕量級(jí)高效神經(jīng)網(wǎng)絡(luò),并且能在 cpu、gpu、dsp等混合環(huán)境有高效的實(shí)現(xiàn)部署、運(yùn)行,讓網(wǎng)絡(luò)在保持不錯(cuò)的性能下,盡量降低計(jì)算代價(jià)和帶寬需求。

在神經(jīng)網(wǎng)絡(luò)加速方面,目前業(yè)界常用的一些方法有網(wǎng)絡(luò)減支和參數(shù)共享、網(wǎng)絡(luò)量化、知識(shí)蒸餾以及模型結(jié)構(gòu)優(yōu)化等。關(guān)于剪枝方面的研究在大模型上做的比較多,效果也比較好。但是我們模型的backbone一般是采用MobileNet/ShuffleNet這類很小的網(wǎng)絡(luò),剪枝在小網(wǎng)絡(luò)上精度損失比較大,加速收益比不高。目前我們主要采用模型結(jié)構(gòu)優(yōu)化和知識(shí)蒸餾來(lái)提升網(wǎng)絡(luò)性能。

我們研發(fā)的視覺(jué)互動(dòng)基礎(chǔ)算法能力中,人臉識(shí)別、人臉關(guān)鍵點(diǎn)檢測(cè),用戶年齡性別預(yù)測(cè)等是已經(jīng)有較好解決方案的任務(wù),人像語(yǔ)義切割、手勢(shì)識(shí)別、人體關(guān)鍵點(diǎn)識(shí)別、圖像風(fēng)格化、人臉融合這幾個(gè)目前業(yè)界還沒(méi)有成熟方案的任務(wù)。我們的工作重點(diǎn)也主要投入在后面幾個(gè)任務(wù)上。

二. 人像語(yǔ)義切割

圖像語(yǔ)義分割任務(wù)(Semantic Segmentation)根據(jù)物體的不同類別進(jìn)行像素級(jí)別的標(biāo)記。針對(duì)人這個(gè)特殊的類別,Human Parsing將人的各個(gè)部位(臉部/頭發(fā)/四肢等)進(jìn)行像素級(jí)別的區(qū)分。我們分別從數(shù)據(jù)、模型、框架優(yōu)化三面著手,整體提升分割效果和體驗(yàn)。

在數(shù)據(jù)層面,語(yǔ)義切割的樣本標(biāo)注非常貴,我們通過(guò)圖片合成創(chuàng)造更多樣本。為了模擬真實(shí)的數(shù)據(jù)分布,分別采用了顏色遷移算法調(diào)整前背景光照、通過(guò)人位置的分布統(tǒng)計(jì)將人貼到合理的位置。通過(guò)人工合成高質(zhì)量的數(shù)據(jù),我們能夠獲得相比原來(lái)數(shù)十倍的分割樣本。

在模型層面,我們分別針對(duì)圖片分割場(chǎng)景和視頻分割場(chǎng)景訓(xùn)練了高精度模型和實(shí)時(shí)模型:

語(yǔ)義分割網(wǎng)絡(luò)大都采用Encoder-Decoder結(jié)構(gòu),Encoder負(fù)責(zé)提取高層語(yǔ)義信息,Decoder負(fù)責(zé)還原邊緣分割細(xì)節(jié)。對(duì)于高精度模型,在backbone選取方面,我們采用了Inception結(jié)構(gòu)。為了獲得更大的感受野,我們參考DeepLab系列工作的思路,引入了ASPP(Atrous Spatial Pyramid Pooling)。

在Decoder設(shè)計(jì)上,我們參考UNet系列工作的思路,將前層的特征進(jìn)行融合,以獲得更好的邊緣細(xì)節(jié)。整體的網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示:

實(shí)時(shí)模型需要做到精度 / 速度的相對(duì)平衡。因此模型設(shè)計(jì)的整體原則是:Encoder盡量精簡(jiǎn)、Decoder盡量恢復(fù)細(xì)節(jié)。Encoder模塊針對(duì)backbone分析耗時(shí)瓶頸,進(jìn)行模型裁剪,減少channels數(shù)目;采用fast downsample,使得feature maps的大小盡可能早的縮小,以節(jié)省計(jì)算量;不固定輸入大小,在不同機(jī)型下可以使用不同大小的輸入。

Decoder網(wǎng)絡(luò)在精簡(jiǎn)的基礎(chǔ)上盡可能多的融合前層特征,提高網(wǎng)絡(luò)整體并行度:采用類似UNet的結(jié)構(gòu),融入淺層特征;在Decoder部分也采用較大的卷積核來(lái)進(jìn)一步擴(kuò)大感受野;引入殘差結(jié)構(gòu)增加信息流動(dòng)。

通過(guò)以上優(yōu)化,我們的模型大小在1.7MB左右(量化后0.5M),miou 0.94,在中端Android機(jī)型(高通625)、320*240輸入下,能達(dá)到25FPS,滿足實(shí)時(shí)化要求。

此外針對(duì)人這個(gè)特定的類別,我們嘗試加入更多關(guān)于人的先驗(yàn)知識(shí)來(lái)提升分割效果。分別嘗試了Pose Estimation-Human Segmentation聯(lián)合訓(xùn)練和Human Parsing- Human Segmentation聯(lián)合訓(xùn)練。通過(guò)聯(lián)合訓(xùn)練的方式,不同任務(wù)之間能夠相互作用從而提高各個(gè)任務(wù)的精度。

下面是手機(jī)端實(shí)時(shí)切割的效果(同時(shí)加上了手勢(shì)檢測(cè),識(shí)別剪刀手勢(shì)來(lái)實(shí)時(shí)換背景):

下面是商場(chǎng)場(chǎng)景下的切割效果:

三. 猜拳游戲:手勢(shì)識(shí)別

18年雙11期間我們?cè)谑痔陨暇€了“明星猜拳大戰(zhàn)”玩法,受到用戶大量好評(píng)。這是業(yè)界首次在手機(jī)端上實(shí)現(xiàn)的實(shí)時(shí)猜拳玩法。

猜拳互動(dòng)要求實(shí)時(shí)檢測(cè)用戶的手勢(shì)(剪刀/石頭/布/其他),我們需要從用戶視頻的每一幀中找到手的位置,然后再對(duì)其進(jìn)行分類,這也就是目標(biāo)檢測(cè)要做的事情。

雖然目標(biāo)檢測(cè)在近幾年得到了飛速的發(fā)展,但是直接將現(xiàn)有模型算法用在猜拳游戲上還是會(huì)遇到一些挑戰(zhàn)。首先由于手是非剛體,形變極大,同一個(gè)手勢(shì)會(huì)表現(xiàn)出很多形態(tài),再加上角度等問(wèn)題,使得我們幾乎不可能窮舉所有可能的情況。另外,用戶在切換手勢(shì)的過(guò)程中會(huì)出現(xiàn)很多中間形態(tài),這些形態(tài)的類別也很難確定。此外我們需要在手淘app覆蓋的絕大部分中低端機(jī)型上做到實(shí)時(shí)運(yùn)行,這對(duì)我們的模型運(yùn)行速度提出很大挑戰(zhàn)。

為此我們從模型架構(gòu)、主干網(wǎng)絡(luò)、特征融合、損失函數(shù)、數(shù)據(jù)等層面進(jìn)行了全方位的優(yōu)化,保證游戲能夠在大部分移動(dòng)端上都能夠正常運(yùn)行。具體的,在模型架構(gòu)上我們采用了經(jīng)典的SSD框架,因?yàn)镾SD速度快、效果好、易擴(kuò)展;主干網(wǎng)絡(luò)借鑒了最新的MNasNet,進(jìn)行了深度的優(yōu)化,使其速度和精度進(jìn)一步提升;特征融合用的是改進(jìn)版的特征金字塔FPN,使其融合能力更強(qiáng)更高效。最終我們的模型優(yōu)化到只有1.9M,雙十一手淘的線上ios設(shè)備平均運(yùn)行時(shí)間17ms,在測(cè)試集上的AP(IoU=0.5)達(dá)到了0.984。

四. 人體關(guān)鍵點(diǎn)檢測(cè)

人體關(guān)鍵點(diǎn)檢測(cè)任務(wù)是針對(duì)RGB圖片或視頻輸入,檢測(cè)其中人物的頭、頸、肩、腕、肘、髖、膝、踝等骨骼關(guān)鍵點(diǎn)。傳統(tǒng)的基于視覺(jué)的關(guān)鍵點(diǎn)檢測(cè)技術(shù)一般需借助Kinect等特殊的攝像頭設(shè)備,解決方案成本高,且不易擴(kuò)展。而近年來(lái)學(xué)術(shù)界利用深度學(xué)習(xí)的相關(guān)工作又重在追求精度,模型設(shè)計(jì)復(fù)雜,速度比較慢且需要占用大量存儲(chǔ)空間。 我們?cè)谄胶庥?jì)算量和精度上做了大量探索和實(shí)驗(yàn),提出一個(gè)能在手機(jī)端上實(shí)時(shí)運(yùn)行的高精度人體關(guān)鍵點(diǎn)檢測(cè)模型。具體來(lái)說(shuō),我們借鑒了語(yǔ)義分割中的Encoder-Decoder模型,引入MobileNet系列輕量級(jí)網(wǎng)絡(luò)作為backbone提取高層語(yǔ)義信息,然后decoder使用轉(zhuǎn)置卷積進(jìn)行上采樣恢復(fù)稠密輸出,同時(shí)也使用了open pose工作的PAF(Part Affinity Fields)模塊進(jìn)行兩路輸出預(yù)測(cè)。

模型在高通驍龍845上運(yùn)行單幀圖片(320*320輸入)只需要11ms,在RK3399這種低端嵌入式芯片上也可以跑到15fps,預(yù)測(cè)精度能夠很好的支持我們線上線下的互動(dòng)場(chǎng)景,且模型大小僅2.5M。下面是我們多人實(shí)時(shí)關(guān)鍵點(diǎn)識(shí)別在RK3399上跑的效果:

五.圖像風(fēng)格化

圖像風(fēng)格化算法的目標(biāo)是在保持內(nèi)容圖的高級(jí)語(yǔ)義信息不變的情況下,將風(fēng)格圖的風(fēng)格遷移到內(nèi)容圖。 風(fēng)格化算法一般有2類:慢速、快速風(fēng)格化,我們的互動(dòng)場(chǎng)景下只適合后者: 對(duì)特定風(fēng)格圖訓(xùn)練前向神經(jīng)網(wǎng)絡(luò)模型,在測(cè)試的時(shí)候只需要一次前向即可得到響應(yīng)結(jié)果。雖然快速圖像風(fēng)格化算法的速度較快,但是與此同時(shí)帶來(lái)的一個(gè)缺點(diǎn)是風(fēng)格遷移過(guò)程中很多因素變得不可控,比如筆觸大小。 給定一個(gè)預(yù)訓(xùn)練好的網(wǎng)絡(luò)和一張固定大小的內(nèi)容圖,輸出的風(fēng)格化結(jié)果圖的筆觸大小是固定的,無(wú)法讓用戶進(jìn)行筆觸大小的靈活控制, 即無(wú)法實(shí)現(xiàn)精細(xì)的任意連續(xù)筆觸大小控制。針對(duì)此問(wèn)題,我們和浙江大學(xué)宋明黎老師團(tuán)隊(duì)合作,提出了一個(gè)筆觸大小可控的圖像風(fēng)格化遷移算法。

我們?cè)O(shè)計(jì)了一個(gè)筆觸金字塔結(jié)構(gòu),通過(guò)筆觸金字塔(StrokePyramid),把整個(gè)網(wǎng)絡(luò)劃分為了很多不同筆觸分支,下面的分支通過(guò)在前一分支的基礎(chǔ)上增加卷積層的方式獲得了更大的感受,并利用不同的感受野,使用不同尺度大小的風(fēng)格圖進(jìn)行訓(xùn)練,之后通過(guò)在特征空間進(jìn)行筆觸特征插值(stroke interpolation),來(lái)實(shí)現(xiàn)任意的連續(xù)筆觸大小控制。在測(cè)試階段,筆觸金字塔通過(guò)門函數(shù)來(lái)控制網(wǎng)絡(luò)的感受野,從而產(chǎn)生出與感受野對(duì)應(yīng)的不同的筆觸大小。


下面是我們?cè)诿餍呛蠄D活動(dòng)上應(yīng)用的不同筆觸風(fēng)格遷移效果。

對(duì)于1024×1024 大小的測(cè)試圖,我們的模型在NVIDIA Quadro M6000上只需要0.09s的時(shí)間,模型大小為0.99MB。


我們的工作發(fā)表于ECCV 2018上,具體見(jiàn)論文:Stroke Controllable Fast Style Transfer with Adaptive Receptive Fields.

六.人臉融合

人臉融合是將用戶自拍圖片的人臉與模板圖的人臉進(jìn)行融合,融合以后,模板圖的人臉呈現(xiàn)出用戶人臉的五官特征與臉型輪廓,并保持原模板圖的發(fā)飾、穿著,以此達(dá)到以假亂真的效果,實(shí)現(xiàn)“換臉”。 簡(jiǎn)單實(shí)現(xiàn)人臉融合并不困難,但是,如果想使得絕大多數(shù)的用戶圖片都能呈現(xiàn)滿意的效果并不容易,有許多細(xì)節(jié)問(wèn)題,其中最主要的兩個(gè)問(wèn)題是人臉變形與圖像融合:

用戶在自拍的時(shí)候,拍攝的角度多種多樣,無(wú)法做到與模板圖的人臉保持相同的角度。如果只做簡(jiǎn)單的變形就將用戶的人臉貼到模板上,會(huì)造成十分詭異的效果。

用戶所使用的拍照設(shè)備各異,拍照環(huán)境各異,會(huì)產(chǎn)生不同的像素與光照環(huán)境的圖片,這些圖片中存在大量白平衡失調(diào)、皮膚高光等的錯(cuò)誤。

如何對(duì)這些質(zhì)量不足的圖片進(jìn)行處理,使得融合后仍然能夠產(chǎn)生高質(zhì)量的融合圖片,是人臉融合中必須解決的問(wèn)題。 我們的方法獲得了完善的用戶臉部關(guān)鍵點(diǎn),在盡可能保持用戶五官臉部形狀的同時(shí),利用關(guān)鍵點(diǎn)插值對(duì)其進(jìn)行變換,保證了五官的和諧,同時(shí),針對(duì)用戶不同的臉型,如圓臉、尖臉,對(duì)模板圖進(jìn)行了變換,使得融合后得到的結(jié)果與用戶更加相似。 為了解決用戶照片質(zhì)量各異的問(wèn)題,我們利用皮膚在顏色空間上的特征值,采用預(yù)定義的LUT(LookUpTable),將用戶的膚色與模特膚色進(jìn)行了統(tǒng)一,并有效處理了高光的問(wèn)題,使得低質(zhì)量的圖片也能夠得到良好的融合效果,并且觀感上更加受用戶喜愛(ài)。

七. 總結(jié)

從18年3月份以來(lái),我們以活動(dòng)營(yíng)銷的方式,在手機(jī)淘寶app內(nèi)拍立淘、掃一掃、搜索等產(chǎn)品落地了十多場(chǎng)視覺(jué)互動(dòng)IP營(yíng)銷活動(dòng)。

譬如《西虹市首富》《碟中諜6》的影視IP宣發(fā)、雙11《明星猜拳大戰(zhàn)》、天貓國(guó)際黑5“刷臉”活動(dòng)、雙12"AI看相"、元旦"淘公仔"新年簽活動(dòng)。新鮮的AI互動(dòng)技術(shù)結(jié)合有趣的創(chuàng)意,受到用戶好評(píng),引發(fā)在微博等平臺(tái)上大量自發(fā)參與、傳播討論。

同時(shí)我們也與線下互動(dòng)大屏場(chǎng)景鹿合作,其線下拍照互動(dòng)產(chǎn)品“黃小鹿”部署在全國(guó)各大商場(chǎng)。我們?yōu)槠涮峁┝嘶A(chǔ)的人像語(yǔ)義切割等能力,從18年8月份開始陸續(xù)上線了健樂(lè)多、彈個(gè)車、婚博會(huì)糖類、貝殼租房等品牌宣傳活動(dòng)以及雙十一天貓線下快閃店、萬(wàn)圣節(jié)等活動(dòng)。 后面我們將通用互動(dòng)提煉,進(jìn)行平臺(tái)化沉淀。讓更多的品牌,尤其是中小品牌能夠通過(guò)平臺(tái)快速配置產(chǎn)出一套AI互動(dòng)營(yíng)銷活動(dòng),再借助其站外推廣資源引導(dǎo)用戶回流,提升活動(dòng)參與熱度,贏得平臺(tái)內(nèi)更多推廣資源。既能給品牌客戶提供強(qiáng)有力的營(yíng)銷抓手,實(shí)現(xiàn)“財(cái)丁兩旺“,又能為平臺(tái)帶來(lái)用戶增量,從而實(shí)現(xiàn)雙贏。

?


原文鏈接
本文為云棲社區(qū)原創(chuàng)內(nèi)容,未經(jīng)允許不得轉(zhuǎn)載。

總結(jié)

以上是生活随笔為你收集整理的天啦噜!在家和爱豆玩quot;剪刀石头布quot;,阿里工程师如何办到?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。