如何应对多GPU大规模训练的挑战?
幾年前,深度學習還是一個只有少數(shù)幾位人工智能和數(shù)據(jù)科學研究人員涉足的領(lǐng)域。而如今情況早已今非昔比。尤其是在 GPU 技術(shù)的推動下,深度學習正在全球掀起一番新的浪潮。自動駕駛汽車、工業(yè)目標檢測、AI 醫(yī)療影像、自然語言處理等,如今人工智能已經(jīng)成為了與每個人的生活息息相關(guān)的一項項應(yīng)用。在 GPU 的加持下,訓練神經(jīng)網(wǎng)絡(luò)的時間已經(jīng)從起初的數(shù)月大幅縮短。?
然而隨著模型的復雜程度和規(guī)模的不斷增大,單個 GPU 的計算能力已經(jīng)無法滿足大規(guī)模神經(jīng)網(wǎng)絡(luò)的訓練需求。以自動駕駛汽車為例,自動駕駛汽車的人工智能訓練可以說得上是密集型計算的終極挑戰(zhàn)。一臺數(shù)據(jù)收集車輛每小時能生成 1 TB 數(shù)據(jù)。整個車隊經(jīng)過數(shù)年行駛后,其數(shù)據(jù)量將會很快達到幾 PB(千兆兆字節(jié))的量級。?
此外,例如 BERT 這類用于自然語言處理的大型計算密集型模型,其規(guī)模也是十分巨大——BERT 學習了包含有 33 億個單詞的英語語料庫。前不久,NVIDIA Research 還推出了 Megatron 項目,該項目旨在打造適用于最先進的 NLP 的 Transformer 模型。將具有 15 億參數(shù) GPT-2 模型擴展為更大規(guī)模的 GPT-2 8B 模型——一個具有 83 億參數(shù)的 Transformer 語言模型,是有史以來最大規(guī)模的 Transformer 語言模型,是 BERT 的 24 倍,GPT-2 的 5.6 倍。?
面對如此大規(guī)模的模型,即便是性能最強大的 GPU,憑借單 GPU 的計算能力也無法在短時間內(nèi)快速完成訓練。這時就需要采用多 GPU 訓練的方式,在多個 GPU 或更大規(guī)模的 GPU 集群上訓練大規(guī)模模型數(shù)據(jù)。
例如:NVIDIA 此前發(fā)布的全球速度排名第 22 位的超級計算機 - DGX SuperPOD,其內(nèi)含 1,536 顆 NVIDIA V100 Tensor Core GPU,由 NVIDIA NVSwitch 及 Mellanox 網(wǎng)絡(luò)結(jié)構(gòu)相聯(lián)接,為其提供強力支持。DGX SuperPOD 軟硬件平臺能夠在不到 2 分鐘的時間之內(nèi)完成 ResNet-50 訓練。相較于 2015 年,ResNet-50 模型推出的時候,即便采用當時最先進的系統(tǒng) – 單顆 NVIDIA K80 GPU,也需要 25 天才能完成訓練任務(wù),DGX SuperPOD 生成結(jié)果的速度較之加快了 18,000 倍。?
然而,采用多 GPU 訓練,不是簡單的 GPU 數(shù)量堆砌,其背后依賴著一系列復雜的算法。為了幫助開發(fā)者們更好地應(yīng)用多個 GPU 訓練神經(jīng)網(wǎng)絡(luò),NVIDIA 在 GTC CHINA 2019 大會期間推出《深度學習基礎(chǔ) — 用多 GPU 訓練神經(jīng)網(wǎng)絡(luò)》主題深度學習學院(DLI)培訓。?
NVIDIA 深度學習學院(DLI)是面向開發(fā)者、數(shù)據(jù)科學家和研究人員所設(shè)置的,在全球提供深度學習和加速計算的應(yīng)用實踐培訓。通過在云端完全配置的 GPU 服務(wù)器上訓練和部署神經(jīng)網(wǎng)絡(luò),親自實踐完成應(yīng)用項目開發(fā),掌握深度學習應(yīng)用開發(fā)的策略、方法、資源和端到端流程。參與者完成每一個 8 小時主題培訓后,還可以獲得 NVIDIA 培訓證書,助力職業(yè)發(fā)展。
點擊視頻,回顧 GTC CHINA 2018 DLI 深度學習課程培訓盛況:
▲?GTC CHINA 2018 DLI深度學習課程培訓視頻
今年 12 月 16-19 日,在 GTC CHINA 2019 在蘇州金雞湖國際會議中心舉辦期間,NVIDIA 將于 12 月 17 日推出《深度學習基礎(chǔ) — 用多 GPU 訓練神經(jīng)網(wǎng)絡(luò)》DLI 培訓,旨在幫助開發(fā)者們應(yīng)對大規(guī)模訓練的算法和工程挑戰(zhàn)。
學習模式:由 NVIDIA DLI 認證講師教授的現(xiàn)場培訓?
適用行業(yè):所有行業(yè)?
實驗資源:提供云端完全配置的 GPU 服務(wù)器?
培訓證書:學習完成并通過在線測試,即可獲取證書?
預備知識:具備隨機梯度下降法的知識和經(jīng)驗?
工具、庫和框架:TensorFlow?
課程時長:? 8 小時?
語言:中文
在驅(qū)動自動駕駛汽車等 AI 應(yīng)用方面,人們對于深度神經(jīng)網(wǎng)絡(luò)存在著巨大的計算需求。使用單個 GPU 進行一個訓練周期可能需耗費數(shù)周時間,而對于自動駕駛汽車研究等領(lǐng)域所用的更大數(shù)據(jù)集,該周期甚至長達數(shù)年。使用多個 GPU 進行深度學習能夠顯著縮短訓練大量數(shù)據(jù)所需的時間,從而為深度學習中的復雜問題提供了可行的解決方案。
本課程將教您如何使用多個 GPU 來訓練神經(jīng)網(wǎng)絡(luò)。您將了解到:?
針對多 GPU 的訓練方法
進行大規(guī)模訓練面臨的算法和工程挑
克服上述挑戰(zhàn)所用的關(guān)鍵技術(shù)?
完成本課程后,您將能夠使用 TensorFlow 十分有效地并行訓練深度神經(jīng)網(wǎng)絡(luò)。?
了解更多 DLI 深度學習培訓課程,請訪問:?
https://www.nvidia.cn/gtc/training/?
點擊“閱讀原文”鏈接,即刻注冊吧!?
🔍
現(xiàn)在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?|?即刻注冊
總結(jié)
以上是生活随笔為你收集整理的如何应对多GPU大规模训练的挑战?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 信用卡安全码在哪里
- 下一篇: 开炸鸡店怎么选址 还要多了解一些相关的知