Fluid 架构创新论文被国际数据库顶会 ICDE 录用
近日,由阿里云聯(lián)合南京大學(xué)團(tuán)隊(duì)撰寫的關(guān)于 Fluid 開(kāi)源項(xiàng)目架構(gòu)創(chuàng)新論文被數(shù)據(jù)管理與數(shù)據(jù)庫(kù)國(guó)際頂級(jí)會(huì)議 ICDE 2022 長(zhǎng)文錄用。
ICDE(International Conference on Data Engineering,即國(guó)際數(shù)據(jù)工程會(huì)議)是電氣與電子工程師協(xié)會(huì)(IEEE)的旗艦會(huì)議,和 SIGMOD、VLDB并 稱數(shù)據(jù)管理與數(shù)據(jù)庫(kù)領(lǐng)域的三大國(guó)際頂尖學(xué)術(shù)會(huì)議,入選中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)推薦 A 類國(guó)際會(huì)議列表。
此次被錄用的論文–《Fluid: Dataset Abstraction and Elastic Acceleration for Cloud-native Deep Learning Training Jobs》,針對(duì)云原生環(huán)境下運(yùn)行深度學(xué)習(xí)訓(xùn)練作業(yè)往往面臨 I/O 方面的性能挑戰(zhàn),提出了新的數(shù)據(jù)集抽象和彈性加速系統(tǒng)架構(gòu),通過(guò)數(shù)據(jù)集特性自動(dòng)優(yōu)化的緩存引擎來(lái)加速數(shù)據(jù)的訪問(wèn)。其作者主要來(lái)自阿里云云原生團(tuán)隊(duì)和南京大學(xué)計(jì)算機(jī)系。
Fluid(https://github.com/fluid-cloudnative/fluid) 是云原生計(jì)算基金會(huì)(CNCF)旗下的一個(gè)彈性數(shù)據(jù)編排和加速沙箱開(kāi)源項(xiàng)目,是由阿里云云原生團(tuán)隊(duì)和南京大學(xué)共同發(fā)起,并投入大量精力維護(hù)的。其核心技術(shù)功能包括:屏蔽異構(gòu)存儲(chǔ)的數(shù)據(jù)集抽象、數(shù)據(jù)緩存自動(dòng)彈性擴(kuò)縮容、云上數(shù)據(jù)與應(yīng)用協(xié)同編排等。自 2020 年開(kāi)源以來(lái),Fluid 項(xiàng)目發(fā)展迅速,積累 1000 余次 PR 提交,發(fā)布了 7 個(gè)版本,并于 2021 年 4 月正式入選云原生計(jì)算基金會(huì),填補(bǔ)了 Kubernetes 生態(tài)中彈性數(shù)據(jù)緩存編排方面的空白,并進(jìn)入國(guó)際 CNCF 全景圖開(kāi)源云原生編排調(diào)度軟件層、被評(píng)為 2021 年度 OSCAR 尖峰開(kāi)源項(xiàng)目。
在實(shí)際生產(chǎn)環(huán)境中,Fluid 已經(jīng)幫助大量用戶顯著地提升 AI 模型訓(xùn)練性能,降低訓(xùn)練數(shù)據(jù)的管理復(fù)雜度。阿里云云原生團(tuán)隊(duì)將 Fluid 的核心思想和設(shè)計(jì),作為云原生 AI 領(lǐng)域的重要一環(huán)實(shí)現(xiàn)和優(yōu)化,并通過(guò)容器服務(wù) ACK 的云原生 AI 套件產(chǎn)品提供服務(wù)。
過(guò)去幾年,阿里云通過(guò)容器服務(wù) ACK 在異構(gòu)計(jì)算資源管理、AI 任務(wù)生命周期管理、AI 任務(wù)調(diào)度和加速、AI 訓(xùn)練數(shù)據(jù)加速等方面,進(jìn)行了一系列云原生 AI 方向的持續(xù)實(shí)踐和創(chuàng)新,為 AI 工程創(chuàng)建效率、計(jì)算資源利用率、AI 平臺(tái)建設(shè)速度等帶來(lái)了突破性提升。這些創(chuàng)新除了在云上服務(wù)通過(guò)多種工具和解決方案為企業(yè)賦能之外,阿里云云原生團(tuán)也將領(lǐng)先的云原生 AI 技術(shù)框架反哺開(kāi)源,與合作伙伴共同發(fā)起并維護(hù)開(kāi)源項(xiàng)目 Fluid,并將其向云原生基金會(huì) CNCF 捐獻(xiàn)。現(xiàn)在,已有來(lái)自 10+知名企業(yè)的 140+ 貢獻(xiàn)者,和 Fluid 社區(qū)一起推動(dòng)國(guó)內(nèi)云原生 AI 領(lǐng)域的技術(shù)創(chuàng)新與落地實(shí)踐。
此次論文入選 ICDE,也代表阿里云在云原生容器技術(shù)領(lǐng)域持續(xù)深耕和不斷創(chuàng)新的又一個(gè)結(jié)果,在此之前 Serverless 相關(guān)的去中心化快速鏡像分發(fā)技術(shù)論文被 USENIX ATC’21 錄用。2022 年 1 月,國(guó)際權(quán)威咨詢機(jī)構(gòu) Forrester 發(fā)布《 The Forrester WaveTM: Public Cloud Container Platforms, Q1 2022 》報(bào)告顯示,阿里云進(jìn)入全球公共云容器平臺(tái)"領(lǐng)導(dǎo)者"象限,這是中國(guó)云計(jì)算廠商首次進(jìn)入該象限。
附論文信息
錄用論文題目: Fluid: Dataset Abstraction and Elastic Acceleration for Cloud-native Deep Learning Training Jobs (ICDE 2022)
作者:顧榮,張凱,徐之浩,車漾,范斌,侯浩軍,戴海鵬,易立,丁宇,陳貴海,黃宜華
*論文概述: *得益于云原生平臺(tái)提供的容器化與編排技術(shù)所具有的高彈性、低成本、靈活運(yùn)維等優(yōu)勢(shì),越來(lái)越多的用戶開(kāi)始在 以Kubenetes/Docker 技術(shù)為代表的容器云平臺(tái)上運(yùn)行深度學(xué)習(xí)訓(xùn)練作業(yè)。然而,直接在云原生環(huán)境下運(yùn)行深度學(xué)習(xí)訓(xùn)練作業(yè)往往面臨 I/O 方面的性能挑戰(zhàn),包括復(fù)雜的數(shù)據(jù)訪問(wèn)和調(diào)優(yōu)、難以動(dòng)態(tài)匹配 GPU I/O 需求、以及跨作業(yè)的緩存數(shù)據(jù)資源共享低效等。針對(duì)上述問(wèn)題,本文研究提出了一套基于 Fluid 的解決方案:一個(gè)面向云原生深度學(xué)習(xí)作業(yè)訓(xùn)練的數(shù)據(jù)集抽象和彈性加速系統(tǒng)。Fluid 通過(guò)提供一個(gè) Fluid Dataset 的數(shù)據(jù)抽象屏蔽了底層異構(gòu)的存儲(chǔ),并且通過(guò)一種面向數(shù)據(jù)集特性自動(dòng)優(yōu)化的緩存引擎來(lái)加速數(shù)據(jù)的訪問(wèn)。進(jìn)一步地,Fluid 還可以在作業(yè)訓(xùn)練過(guò)程中根據(jù) I/O 需求的變化,動(dòng)態(tài)調(diào)整緩存空間的大小。最后,為了提升多作業(yè)執(zhí)行的性能,Fluid 還能夠根據(jù)跨作業(yè)緩存的應(yīng)用語(yǔ)義優(yōu)化作業(yè)調(diào)度執(zhí)行次序,從而提升總體執(zhí)行性能。相關(guān)場(chǎng)景實(shí)驗(yàn)表明,Fluid能夠大幅提升主流和業(yè)界領(lǐng)先的云原生調(diào)度系統(tǒng)的性能,并且對(duì)原系統(tǒng)無(wú)侵入性。
發(fā)布云原生技術(shù)最新資訊、匯集云原生技術(shù)最全內(nèi)容,定期舉辦云原生活動(dòng)、直播,阿里產(chǎn)品及用戶最佳實(shí)踐發(fā)布。與你并肩探索云原生技術(shù)點(diǎn)滴,分享你需要的云原生內(nèi)容。
關(guān)注【阿里巴巴云原生】公眾號(hào),獲取更多云原生實(shí)時(shí)資訊!
總結(jié)
以上是生活随笔為你收集整理的Fluid 架构创新论文被国际数据库顶会 ICDE 录用的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 企业深入使用微服务后会面临哪些问题?云原
- 下一篇: linux cmake编译源码,linu