云未来、新可能 - 绿色、无处不在、可信的计算
2021 年 12 月 9 日至 10 日,KubeCon + CloudNativeCon + OpenSourceSummit China 2021 在線上舉辦。阿里云資深技術專家、容器服務研發負責人易立在大會主論壇進行了主題為 “云未來,新可能” 的演講,分享了阿里云基于大規模云原生實踐下的技術趨勢判斷和技術創新進展。
以下為分享全文實錄。
易立,阿里云資深技術專家、容器服務研發負責人
大家好,我是阿里云易立,目前負責容器服務產品線,也是 CNCF governing board 的成員。這是第二次在 KubeCon 與大家在線上交流。今天,我會分享阿里云在云原生領域的實踐和思考,以及我們對未來的一些判斷。
云原生 - 數字經濟技術創新基石
2020 年以來,新冠疫情改變了全球經濟的運行與人們的生活。數字化的生產與生活方式成為后疫情時代的新常態。今天,云計算已經成為社會的數字經濟基礎設施,而云原生技術正在深刻地改變企業上云和用云的方式。
阿里云對云原生的定義是應云而生的軟件、硬件和架構,幫助企業最大化獲得云價值。具體來說,云原生技術給企業帶來 3 個核心的業務價值:
敏捷高效 - 更好支持 DevOps 提升應用研發和交付效率,提升彈性和資源利用率。幫助企業可以更好應對環境變化,降低計算成本。
加強韌性 - 利用容器技術可以簡化業務上云,更好支撐微服務應用架構;進一步加強 IT 企業基礎設施和應用架構韌性,保障企業業務連續性。
融合創新 - 5G,AIoT,AR/VR 等新技術快速發展,云原生技術讓計算無處不在,可以更好地支持的新的融合計算形態。
如果說云原生代表了云計算的今天,那么云計算的未來會是什么樣?
云未來,新可能
數據中心作為數字經濟的動力引擎,其能耗增長已成為云計算發展中不可忽略的問題。據報道,2020 年數據中心耗電量超過國內總用電量的 2.3%。而且占比將逐年增加。阿里云在身體力行地推動綠色計算,比如利用浸沒式液冷服務器來降低數據中心 PUE。除此之外,我們看到數據中心的計算效率也有很大提升空間,據統計,全球數據中心的平均資源利用率不到 20%,這是巨大資源和能源浪費。
而云計算的本質,就是把離散的算力,聚合成更大的資源池,通過優化的資源調度,充分削峰填谷,提供極致的能效比。
新一代統一資源調度助力綠色計算
在阿里集團實現了全面上云之后,我們啟動了一個新的計劃——利用云原生技術,對阿里集團分布在全球數十個地域的數千萬核的服務器資源,進行統一資源調度,全面提升利用率。通過阿里集團、阿里云眾多團隊的努力,今年雙 11,統一調度項目交出了一份閃亮的答卷!
基于 Kubernetes 和阿里自研的統一調度器 Cybernetes,通過一套調度協議、一套系統架構,對底層的計算資源進行智能化調度,向上支撐多種工作負載的混合部署,在保障應用 SLO 的前提下,提升資源利用率。讓電商的微服務、中間件等應用,搜推廣、MaxCompute 的大數據和 AI 業務,全部運行在統一的容器平臺基礎之上。為阿里集團每年可以減少數萬臺服務器算力的采購,帶來數以億計的資源成本優化。
其中單集群規模超過上萬節點、百萬核。任務調度效率達到每秒 2 萬個,滿足搜索、大數據、AI 等高吞吐、低延遲業務調度編排需求,性能卓越。統一調度幫助阿里雙 11 大促成本降低 50%,生產環境常態化 CPU 利用率 65%。
云原生 “Green AI” 應對 AI 大模型訓練的挑戰
多模態預訓練 AI 大模型被廣泛認為是邁向通用人工智能的關鍵路徑。
大家熟知的 GPT-3,擁有千億級參數,在某些自然語言理解領域可以實現比肩人類的處理能力。阿里巴巴達摩院最新發布的超大規模預訓練模型 M6 已經進入了 10 萬億參數時代。M6 擁有多模態的中文任務處理能力,尤其擅長設計、寫作、問答,在電商、服裝、科學研究等領域有廣泛應用前景。
Kubernetes 對深度學習任務的支持已經逐漸成熟。然而,超大規模模型訓練依然面臨著嚴峻的挑戰。萬億級參數模型訓練,動輒需要數千張 GPU、數十 T 顯存的計算資源,花費數十天才能完成訓練。
為了應對這些挑戰,Cybernetes 在原生 Kubernetes 基礎之擴展了面向大規模 AI 任務調度能力。通過高效的異構算力調度,數據感知和訪問加速,有效提升了 GPU 計算效率;通過錯峰調度,充分利用集群空閑資源。支撐了云原生的 PAI-Whale 框架高效的并行模型訓練。
M6 最終實現了僅用 512 張 GPU,在 10 天內可訓練出十萬億規模的超大模型。極大提升模型訓練的效率和資源利用率。與國際同等規模模型相比,能耗降低超過八成,真正實現了綠色 AI。
云邊端協同實現無處不在的計算
隨著 5G、物聯網、AR/VR 等新技術的不斷成熟,數字世界與物理世界在進一步融合。
OpenYurt 是業界首個開源的“零侵入的”云原生邊緣計算項目,去年 11 月成為 CNCF Sandbox 項目。
邊緣計算面臨著算力分散、資源異構以及弱網連接等技術挑戰。Openyurt 基于 Kubernetes 構建了云邊協同計算框架。在過去兩年已在視頻直播、云游戲、物流交通、智能制造、城市大腦等眾多行業落地。
今年,我們希望以云原生的方式來實現設備孿生,高效地解決物聯網場景下海量分布式設備的管理和運維挑戰。經歷了 OpenYurt 與 EdgeX Foundry 社區, VMWare、Intel 等工程師的合作,實現對端設備和應用管理的統一建模和統一管理。下面我將為大家介紹一個利用 OpenYurt 實現無處不在計算的案例。
機場運營效率對滿足日益增長的客流物流需求至關重要,與此同時機場安全性方面的挑戰也愈發突出。在智慧機場項目中,通過 OpenYurt 構建的云邊端一體化架構,完成攝像頭、傳感器、邊緣 AI 一體機等構筑的機場感知層,和基于云平臺搭建全局統一管理和大數據平臺,從而實現機場全局數據共享和分析,進而實現機場全景視頻拼接、安全的全域監控、物理可視全視野等能力。
隱私增強計算護航數據安全
隨著移動互聯網、物聯網的快速發展,無處不在的計算時刻產生著海量信息。如何讓基礎設施更加可信,保障隱私數據不被竊取、篡改、濫用成為重要的挑戰。隨著國家《數據安全法》的施行,隱私增強計算業務得到了業界越來越多的重視。
據 Gartner 預測,到 2025 年,60% 的大型機構將采用 “隱私增強計算技術” 來處理不可信環境或多方數據分析用例中的數據。
隱私增強型計算中一個重要的技術分支,是通過基于硬件的可信執行環境 TEE 實現數據保護。TEE 的安全性是基于邊界的安全模型,它的安全邊界非常小并且存在于硬件芯片本身,使 TEE 內執行的應用,不再擔心來自其他應用、其他租戶或者平臺方的威脅。
將容器與可信執行環境相結合的機密容器技術,進一步提升了對敏感信息的保護。一方面容器與完整的 OS 相比,攻擊面更小,另一方面基于容器的安全軟件供應鏈可以保障應用來源的可信、可追溯。
Inclavare Containers 是阿里開源的,業界第一個面向機密計算的容器運行時項目。今年 9 月成為 CNCF 沙箱項目。機密容器可以將機密計算底層系統的全部復雜性都隱藏起來,遵循既有的云原生標準化接口和規范,兼容現有的生態。這將加速這項技術的普及。在社區中協作中,我們看到來自 Kata Container 社區的工程師也在探索相關方向。
正如圖中所示,由 Inclavare Containers 項目支持的 SGX 機密容器和由 Kata Confidential Container 項目支持的基于 MicroVM 的機密容器,在技術形態上具有高度的相似性。為此,兩個項目的開發者在積極進行合作,通過互相復用彼此的技術組件,最大化了技術價值,并為不同的 TEE 實現實現統一的開發者體驗。這也正體現了開源社區的力量。
從技術角度來看,相比于 runC 和 Kata 容器運行時,包含了敏感數據的容器鏡像需要事先進行加密和數字簽名;鏡像的下載過程在 TEE 內進行,來確保鏡像解密過程的安全性;相關密鑰會通過機密計算特有的遠程證明機制所建立的安全可信信道傳遞到 TEE 中,以確保其內容不會被泄露和篡改;最后,整個機密容器在運行時都運行在硬件防護的 TEE 中,其計算過程中的數據在內存中是加密的,并受完整性保護。
通過云原生技術普及數字化信任,還是一個新興的技術領域,非常期待大家一起共建!
加速云原生人才梯隊培養
我們相信任何一項新技術的發展和普及,都要依靠專業的人才去驅動。作為云原生領域的實踐者和先行者,阿里云非常重視通過自身的經驗沉淀,為開發者賦能。今年 8 月,阿里云與 Linux 開源軟件學園、CNCF 共同發布 “云原生人才培養計劃 2.0” ,在生態的合力下,通過開放技能圖譜、專業課程、認證福利等方式,共同培養云原生專業人才。我們也歡迎更多的開發者小伙伴們一起踏上云原生的學習之路。
再次感謝大家的觀看,我們相信綠色、無處不在、可信的云計算將進一步推動產業發展,幫助我們實現更加美好的明天。謝謝!
👇👇點擊??此處??,即可直達阿里云云原生專場!
總結
以上是生活随笔為你收集整理的云未来、新可能 - 绿色、无处不在、可信的计算的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 阿里云消息队列 RocketMQ、Kaf
- 下一篇: Dubbo-Admin 功能展示与实操解