xMedia来了!支付宝客户端的智能化“武器”
阿里妹導讀:智能終端經過10多年的發展,又一次站在巨變前夕,智能化、去中心化逐漸成為趨勢。今天,我們將深入解析支付寶客戶端的智能化之路,了解如何在終端側構建完整的xMedia SDK,為用戶提供更加豐富的智能化體驗,積極探索和適配新的硬件形態,創造新的應用場景和方式,提升用戶體驗。
1、智能終端的發展趨勢
1983年摩托羅拉第一臺移動電話問世開始,手機已走過了30多年的歷史。在最初的功能機時代,手機提供語音通話和短信功能,初步解決了人和人之間的交流需求;在隨后的智能機時代,高質量的圖像、視頻能力成為競爭的重點,語音消息、圖片共享、視頻通話成為社交的主流方式,有效的豐富了人們之間的交流體驗。
從蘋果2007年發布IPhone開始,智能手機經過10年的發展,目前的視網膜分辨率、4K2K視頻拍攝,12M雙目拍照已經成為業界主流,音頻、視頻的效果已基本達到普通用戶的體驗上限。更高的顯示分辨率、更高的圖像、視頻分辨率對用戶的邊際價值越來越低,智能手機又一次走到了發展的拐點。
1.1 傳感器
攝像頭作為最重要的傳感器,在過去幾十年產生了翻天覆地的變化:
分辨率:從最初的2M增長到現在的主流12M,Nokia曾推出過高達41M的手機;
多目相機:雙目相機成為主流,通過雙目視覺計算周邊環境的深度Depth信息,從而實現大光圈效果、 3D建模等能力;據傳華為新一代P20聚成將搭載三目攝像頭,增強變焦效果;
主動光源相機:蘋果IPhoneX首次將結構光相機引入手機,獲得高精度深度Depth信息,實現FaceID;
麥克風作為重要但是容易被忽視的傳感器,也有了很大的演進。以IPhoneX為例,通過不同個位置的4個麥克風形成麥克風陣列,實現對聲場的重建,實現聲源定位、遠距離拾音、定向拾音等一系列相應功能。其他手機也基本采用類似設計,提升語音交互及音頻體驗。
除此之外,手機中集成了陀螺儀(Gyro),加速傳感器、距離傳感器、氣壓計、磁力感應器等多種類的傳感器,并且精度和種類越來越多,隨著多傳感器的信息融合,可以提供更豐富的對外界的感知能力。
1.2 計算能力
手機搭載的CPU、GPU能力持續增強,蘋果iPhoneX的A11芯片集成43億個晶體管, 6核CPU (2大4小),3核GPU(對3D游戲、深度學習、AR進行優化),搭載神經網絡引擎。高通、華為等手機均在主芯片上搭載NPU支持,可有效的加速深度學習在終端上的運行效果。
1.3 發展趨勢
我們認為隨著各種傳感器的增加、計算能力的增強,尤其是NPU的普及,智能手機會迎來新的變革:
智能化:即手機會更加智能化。手機的發展的重點從增強人和人之間的連接(更高分辨率、更高的圖片視頻質量)變為對周邊環境、對人和環境之間的感知,更加智能化的服務用戶。現在的雙目相機計算深度信息,麥克風陣列計算用戶位置,已經實現了初步的周邊環境感知能力;
多樣化:手機作為中心的交互方式會逐漸弱化,更自然、更多樣的終端設備(例如智能音箱、智能手環、VR/AR設備等)會承接手機的部分功能,從而逐漸減弱手機作為核心交互設備的重要性。目前Amazon/Google/Apple大力投入的智能音箱,就是希望音箱能成為用戶在家庭中的一個更自然的交互入口。雖然未來是否能成功有待探索,仍然是一個有益的嘗試;
2、多媒體客戶端基礎
隨著支付寶業務需求,從2015年初開始多媒體技術部啟動語音、圖片、小視頻等富媒體通信相關工作。目前在音頻視頻前端處理領域形成了完整的技術能力,支撐支付寶內各業務場景,為用戶提供極致的音視頻體驗。
前端數據采集是智能化能力的基礎,不論人臉識別,圖像理解還是語音識別,高質量、低噪聲的原始數據是后續高精度識別的基礎。我們希望通過多媒體相關技術,在終端上結合算法和工程能力,獲取到高質量的原始數據,并高速穩定的傳輸到云端,作為后續智能化做好準備。
2.1 富媒體通信
目前作為支付寶基礎組件,對接云端AFTS/Django/TFS等系統,提供完整的音頻/圖像/視頻編解碼、處理、渲染、傳輸及存儲能力,支撐眾多業務場景。在自研算法庫、緩存優化、網絡優化等領域形成自己特有技術能力,并通過數據大盤實現業務數據精細化監控,有效支撐各業務場景精細優化;
2.2 視頻直播
2017年自研視頻直播組件系統上線,陸續接入口碑、螞蟻會員周周樂、商家開放平臺培訓等直播業務,支持最新直播答題特性;
2.3 視頻通話
2017年自研視頻通話系統上線,支撐閑魚、菜鳥、IT等業務場景。在支付寶內支持財富遠程證券開戶(即將上線)。
3、多媒體客戶端智能化
基于多媒體客戶端高質量的數據采集,多媒體技術部在終端上布局系列技術,提升終端的理解能力(xNN)、空間感知能力(xSLAM)、3D渲染能力(xAnt3D),人機交互能力(手勢識別、人體姿態識別等等)。多種能力結合支撐更加智能化的業務場景,為用戶提供更加智能化的體驗。
3.1 客戶端深度學習引擎xNN
近年來,深度學習(DL)在圖像識別、語音識別、自然語言處理等諸多領域都取得了突破性進展。DL通常給人以計算復雜、模型龐大的印象。常規應用場景都是手機終端采集數據,云端識別處理。但是對于很多需要低延時、低帶寬、高隱私的應用而言,客戶端的DL能力是非常必要的。對于支付寶這種海量用戶APP,如果能將部分DL工作轉移到客戶端來實現,對用戶體驗和云端降成本都有很大的價值。
2017年8月,自研客戶端深度學習引擎xNN上線支付寶10.0.20版本,將DL能力推到終端,通過邊緣計算實現高實時應用,有效的降低云端負載,提升用戶體驗。自研xNN具有如下特點:
小引擎:通過移動端SDK的深度裁減,安卓平臺只有200KB;
輕模型:通過高效的模型壓縮算法,實現高精度+小尺寸的模型;
快速:結合指令層和算法層的優化,綜合提升DL計算的效率;
普適:不僅支持經典的CNN、DNN網絡,也支持RNN、LSTM、TFLite等網絡形態;
易用:完整模型轉換工具鏈,算法工程師能快速完成云端模型到移動端模型的轉換和部署;
xNN上線后,已經幫助螞蟻的多個業務,包括支付寶(掃五福等)、保險、財富、芝麻信用、網商銀行,完成客戶端DL算法的部署,并輸出到多個外部合作公司。阿里巴巴集團范圍內,也有多個BU在逐步接入。這得益于xNN自身優秀的性能,具體的:一方面,xNN能夠提供提供高達近數十倍的模型壓縮能力,解決了DL算法模型尺寸過大的落地瓶頸;另一方面,xNN不僅支持基礎的分類任務,而且已能夠為更為復雜的目標檢測、語義特征點提取等任務提供高效的移動端解決方案。
3.2 客戶端位姿計算引擎xSLAM
在我們面臨的很多問題中,需要知道手機在空間中的位置和姿態,從而反向推斷出用戶所在的位置和姿態。SLAM(simultaneous localization and mapping)作為業界廣泛使用的定位技術,通過機器視覺和手機傳感器相結合,解算出手機在空間中的位置和姿態(6自由度)。SLAM涵蓋了圖像視覺、多視幾何的幾乎所有關鍵算法,對于算法能力、性能優化、終端適配及魯棒性提出了很高的要求。
2017年9月,自研xSLAM引擎在支付寶10.1.5版本上線。自研算法針對算法在三維空間估計和位姿估計的準確度上,以及不同機型的硬件差異(特別是Andriod手機的IMU質量參差不齊),做了大量的算法及工程適配優化工作,同時在工程上基于各類芯片的GPU/DSP進行極致優化。
SLAM上線后,第一個業務是AR平臺掃可口可樂福娃活動。目前保險、萌寶等業務接入中。作為手機位置姿態的基礎能力,我們確信后續會支撐更多的業務場景。
3.3 客戶端3D渲染引擎xAnt3D
3D渲染是三維計算機圖形學最重要的研究課題之一,并且在實踐領域與其他技術密切相關,是智能化技術的交互入口。3D渲染是指將3D模型文件(包括幾何、視點、紋理、照明和陰影等信息)進行實時渲染獲得3D效果。
支付寶3D渲染引擎xAnt3D來自于2017年春節紅包的AR互動需求。多媒體技術部雖然之前在圖片裁剪/美顏、視頻渲染等等較多場景下使用過OpenGL技術,但和2D渲染場景相比,3D渲染涉及3D數學模型、view、project矩陣計算,以及粒子、陰影、光線、平面計算等知識,覆蓋光學、視覺感知、數學及軟件工程等技術點,對我們產生較大的挑戰。
經過1年多的研發工作,xAnt3D移動端輕量級3D渲染引擎,在圖像跟蹤、陀螺儀跟蹤、SLAM跟蹤等條件下對模型動畫進行穩定的渲染。同時在工程上做了深度的優化工作,Android4.3以上全機型兼容,支持特性有骨骼動畫、節點動畫、材質貼圖、粒子效果、光線、透明視頻、文字渲染,同時具備JS腳本擴展支持能力,并可以實現30fps的流暢渲染效果(依賴于手機采集幀率)。在支付寶環境中,xAnt3D渲染引擎在移動端輕量級包大小分在1MB左右。隨著更高質量的人機交互要求,xAnt3D渲染引擎肯定會起到更多的作用,支撐更多業務場景。
體驗效果可參考上面3.2中xSLAM福娃3D渲染效果。
3.4 客戶端人機交互能力
隨著終端處理能力和用戶要求的提高,我們希望給用戶提供類似手勢識別、人體姿態識別等更加自然的交互方式,創造更加新穎有趣的玩法,打造新的應用形態。
2018年春節AR紅包中的“五福到”紅包,首次利用人臉+人手手勢的方式進行用戶交互。為了降低云端負載,提高用戶相應時間,手勢識別在客戶端實現,業務獲得了較大的影響和用戶的好評。我們后續有計劃在更多業務場景中使用手勢識別,并且將支
持更加復雜的手勢。
人體姿態估計作為對人體姿態的理解能力,可給大量線上線下場景賦能,創造新的應用空間。例如在線上場景,可以在無需額外體感設備的條件下提供體感操作、體感娛樂的功能(例如QQ高能舞室)。在線下可以實現類似跳舞機的產品;在營銷活動中,無論線上還是線下,該技術均可為商家營銷提供用戶互動體驗。
4、多媒體泛終端能力
如最初所述,用戶交互方式會逐漸從圍繞手機的中心化逐漸離散化,多媒客戶端SDK也在技術上做好相應準備,以便將手機上的多媒體能力快速的移植到其他硬件平臺,支撐多樣性的用戶終端,支持業務發展。
網絡能力:網絡傳輸使用發布/訂閱消息模式,使用小型傳輸、開銷小、協議交互最小化的協議。不同消息傳輸發布不同服務質量類型消息,可支持低帶寬、不可靠的網絡傳輸及弱硬件能力設備;
跨平臺能力:增加底層代碼跨平臺覆蓋,和平臺特性無關邏輯下沉通過C實現增加Kernel層,上層涉及平臺差異性邏輯再通過iOS/Android/Liunx等系統方法來調用;
底層驅動能力:傳感器采集等其他硬件驅動擴展支持儲備,如智能貨柜場景需要支持多攝像頭數據采集處理,增加了對USB驅動、Camera驅動等技術儲備。
目前相關技術已經應用在行業智能機具管控平臺、無人貨柜、遠程娃娃機等項目中。
5、xMedia技術沙盤
多媒體技術部圍繞多媒體基礎體驗、智能化體驗、工程及優化能力,形成完整的多媒體客戶端方案xMedia。在核心算法層構建算法技術壁壘,在組件層形成多樣的多媒體能力,可以快速上線支撐業務發展。xMeida SDK具有如下特點:
完備:完整多媒體解決方案,包括內容采集、處理、理解、交互、網絡、緩存等,實現業務快速接入;
智能:豐富的智能化算法能力,包括智能壓縮、處理、視覺理解、深度學習,可在客戶端實現豐富功能;
普適:精細化的緩存管理,深入的終端適配工作,終端兼容性高;
傳輸:多樣性的網絡傳輸協議、自適應的網絡調度策略,支持富媒體、視頻通話、直播等業務場景;
5.1 算法層
算法及相應的工程化是xMedia的競爭力核心,我們在多媒體數據采集、處理、理解、交互及工程化等環節都進行了深入的工作:
多媒體數據采集:(1)在目前雙目及多目相機、多麥克風、多揚聲器成為標配的現狀下,如何充分利用既有硬件提升圖像、視頻、音頻的采集和播放效果,創造新的應用場景是我們面臨的重要問題。目前我們已充分掌握多目相機及麥克風陣列等硬件設計及開發能力,既能充分使用終端上的硬件能力,也可以根據需求定制相應的軟件硬件方案,形成自己技術壁壘。(2)IMU是終端上另一種重要的傳感器數據,對于SLAM有重要的作用,而Andriod平臺的IMU精度是我們面臨的最大問題。通過大量數據的采集和測試,我們初步完成了終端適配和數據降噪問題,可以滿足大部分場景;(3)未來相機、麥克風、IMU等傳感器數據融合是必然的趨勢,在不同場景下取長補短,獲得高精度的數據。相關的技術也在儲備中;
多媒體數據處理:(1)壓縮:我們對于語音、圖像、視頻提供豐富的編解碼支持,基于HEVC的圖像編解碼器也已上線灰度;(2)處理:我們提供豐富的圖像及視頻裁剪、降噪、增強能力;(3)人臉:我們提供豐富的人臉特效,支撐社交及其他場景的應用;(4)音頻及語音:我們對于語音3A、音頻信號處理有深入理解,支撐音頻錄制、語音通話、音樂播放等相關場景;
多媒體數據理解:(1)深度學習xNN 深度優化的移動端上DL引擎;(2)位姿計算xSLAM提供高精準和穩定的三維空間估計和位姿估計;(3)目標跟蹤x3Dot提供2D、3D的檢測及跟蹤能力;(4)OCR識別用于銀行卡識別、燃氣表識別、汽車行駛里程等業務場景;
多媒體工程能力:工程能力和用戶體驗息息相關,高質量的工程能力決定了算法能否成功落地。(1)性能優化,包括攝像頭啟動耗時優化,精細化內存緩沖區管理,網絡上傳耗時優化,通過IP直連、域名收斂、線程通道隔離等優化網絡下載成功率及耗時;(2)魯棒性&兼容性,xMedia SDK在支付寶上經受復雜應用場景的考驗,閃退率遠低于萬分之一的指標;尤其是解決眾多Android多廠商及多系統各種各樣的兼容性問題; (3)包大小,深度裁剪優化;
5.2 組件層
基于核心算法,我們提供豐富的多媒體組件供業務層使用:
多媒體基礎能力:提供豐富的語音、圖像及視頻處理接口,提供完整的富媒體通信、直播及通話引擎,業務可以快速接入;
多媒體智能能力:提供客戶端上深度學習引擎、位姿計算引擎、目標檢測引擎、3D渲染引擎、手勢識別/人體姿態識別的人機交互能力,支撐各種應用場景;
6、總結及展望
智能終端經過10多年的發展,又一次站在巨變前夕,智能化、去中心化逐漸成為趨勢。多媒體技術部集成算法、工程及硬件能力,希望在終端側構建完整的xMedia SDK:在手機上提供更加豐富的智能化體驗,積極探索和適配新的硬件形態,創造新的應用場景和方式,提升用戶體驗。我們希望通過自己的努力,實現用戶、商家、設備之間的互聯互通,實現我們人人互通,萬物互聯的夢想!
廣告篇
能看到這里的一定是同道中人,或者對未來智能終端方面有興趣的同學們,如果有技術交流或者技術合作的需求,歡迎聯系zhenghui.zh@antfin.com。
另外最最重要的在智能化的熱潮中,我們是求賢若渴,歡迎求簡歷、求推薦!
算法組:聯系pulin.wpl@antfin.com、dajiang.zdj@antfin.com
算法優化專家(匯編優化大師、gpu優化大師、反向逆向工程專家等等)、
圖像視覺專家(攝像頭圖像ISP、AR/VR/3D視覺算法、深度學習機器學習、圖形圖像處理等)
音頻算法專家 聯系heyang.th@antfin.com
客戶端:聯系zhenghui.zh@antfin.com
Android/iOS開發
3D渲染(有圖形學經驗優先)
移動端/互聯網后臺測試專家
嵌入式相關,包括Linux嵌入式技術專家、Android系統驅動移植等
服務端:勾搭熱線xiaofeng.dxf@antfin.com
GPU/CUDA優化專家;
IoT/java技術專家
3月24日,我們與你相約“調度&容器技術沙龍”上海站!《B 站 Kubernetes 容器平臺建設之路》《企業級富容器引擎技術 PouchContainer 詳解》《 HADOOP YARN 的發展現狀和未來》《 Mesos Container 在 360 的實踐與應用》四大主題為業務解決方案提供最新思路,更有 Hadoop YARN Committer&PMC Member 到場分享 Hadoop Yarn 最新進展。
報名地址:http://sc-meetup.mikecrm.com/L15edXD
名額有限,先到先得~
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的xMedia来了!支付宝客户端的智能化“武器”的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: AI时代的神马搜索!神马智能对话技术深度
- 下一篇: 阿里再开源!基于JAVA的模块化开发框架