日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

如何应对多GPU大规模训练的挑战?

發(fā)布時間:2024/10/8 编程问答 32 豆豆
生活随笔 收集整理的這篇文章主要介紹了 如何应对多GPU大规模训练的挑战? 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

幾年前,深度學習還是一個只有少數(shù)幾位人工智能和數(shù)據(jù)科學研究人員涉足的領(lǐng)域。而如今情況早已今非昔比。尤其是在 GPU 技術(shù)的推動下,深度學習正在全球掀起一番新的浪潮。自動駕駛汽車、工業(yè)目標檢測、AI 醫(yī)療影像、自然語言處理等,如今人工智能已經(jīng)成為了與每個人的生活息息相關(guān)的一項項應(yīng)用。在 GPU 的加持下,訓練神經(jīng)網(wǎng)絡(luò)的時間已經(jīng)從起初的數(shù)月大幅縮短。?

然而隨著模型的復雜程度和規(guī)模的不斷增大,單個 GPU 的計算能力已經(jīng)無法滿足大規(guī)模神經(jīng)網(wǎng)絡(luò)的訓練需求。以自動駕駛汽車為例,自動駕駛汽車的人工智能訓練可以說得上是密集型計算的終極挑戰(zhàn)。一臺數(shù)據(jù)收集車輛每小時能生成 1 TB 數(shù)據(jù)。整個車隊經(jīng)過數(shù)年行駛后,其數(shù)據(jù)量將會很快達到幾 PB(千兆兆字節(jié))的量級。?

此外,例如 BERT 這類用于自然語言處理的大型計算密集型模型,其規(guī)模也是十分巨大——BERT 學習了包含有 33 億個單詞的英語語料庫。前不久,NVIDIA Research 還推出了 Megatron 項目,該項目旨在打造適用于最先進的 NLP 的 Transformer 模型。將具有 15 億參數(shù) GPT-2 模型擴展為更大規(guī)模的 GPT-2 8B 模型——一個具有 83 億參數(shù)的 Transformer 語言模型,是有史以來最大規(guī)模的 Transformer 語言模型,是 BERT 的 24 倍,GPT-2 的 5.6 倍。?

面對如此大規(guī)模的模型,即便是性能最強大的 GPU,憑借單 GPU 的計算能力也無法在短時間內(nèi)快速完成訓練。這時就需要采用多 GPU 訓練的方式,在多個 GPU 或更大規(guī)模的 GPU 集群上訓練大規(guī)模模型數(shù)據(jù)。

例如:NVIDIA 此前發(fā)布的全球速度排名第 22 位的超級計算機 - DGX SuperPOD,其內(nèi)含 1,536 顆 NVIDIA V100 Tensor Core GPU,由 NVIDIA NVSwitch 及 Mellanox 網(wǎng)絡(luò)結(jié)構(gòu)相聯(lián)接,為其提供強力支持。DGX SuperPOD 軟硬件平臺能夠在不到 2 分鐘的時間之內(nèi)完成 ResNet-50 訓練。相較于 2015 年,ResNet-50 模型推出的時候,即便采用當時最先進的系統(tǒng) – 單顆 NVIDIA K80 GPU,也需要 25 天才能完成訓練任務(wù),DGX SuperPOD 生成結(jié)果的速度較之加快了 18,000 倍。?

然而,采用多 GPU 訓練,不是簡單的 GPU 數(shù)量堆砌,其背后依賴著一系列復雜的算法。為了幫助開發(fā)者們更好地應(yīng)用多個 GPU 訓練神經(jīng)網(wǎng)絡(luò),NVIDIA 在 GTC CHINA 2019 大會期間推出《深度學習基礎(chǔ) — 用多 GPU 訓練神經(jīng)網(wǎng)絡(luò)》主題深度學習學院(DLI)培訓?

NVIDIA 深度學習學院(DLI)是面向開發(fā)者、數(shù)據(jù)科學家和研究人員所設(shè)置的,在全球提供深度學習和加速計算的應(yīng)用實踐培訓。通過在云端完全配置的 GPU 服務(wù)器上訓練和部署神經(jīng)網(wǎng)絡(luò),親自實踐完成應(yīng)用項目開發(fā),掌握深度學習應(yīng)用開發(fā)的策略、方法、資源和端到端流程。參與者完成每一個 8 小時主題培訓后,還可以獲得 NVIDIA 培訓證書,助力職業(yè)發(fā)展。

點擊視頻,回顧 GTC CHINA 2018 DLI 深度學習課程培訓盛況:

▲?GTC CHINA 2018 DLI深度學習課程培訓視頻

今年 12 月 16-19 日,在 GTC CHINA 2019 在蘇州金雞湖國際會議中心舉辦期間,NVIDIA 將于 12 月 17 日推出《深度學習基礎(chǔ) — 用多 GPU 訓練神經(jīng)網(wǎng)絡(luò)》DLI 培訓,旨在幫助開發(fā)者們應(yīng)對大規(guī)模訓練的算法和工程挑戰(zhàn)。

學習模式:由 NVIDIA DLI 認證講師教授的現(xiàn)場培訓?

適用行業(yè):所有行業(yè)?

實驗資源:提供云端完全配置的 GPU 服務(wù)器?

培訓證書:學習完成并通過在線測試,即可獲取證書?

預備知識:具備隨機梯度下降法的知識和經(jīng)驗?

工具、庫和框架:TensorFlow?

課程時長:? 8 小時?

語言:中文

在驅(qū)動自動駕駛汽車等 AI 應(yīng)用方面,人們對于深度神經(jīng)網(wǎng)絡(luò)存在著巨大的計算需求。使用單個 GPU 進行一個訓練周期可能需耗費數(shù)周時間,而對于自動駕駛汽車研究等領(lǐng)域所用的更大數(shù)據(jù)集,該周期甚至長達數(shù)年。使用多個 GPU 進行深度學習能夠顯著縮短訓練大量數(shù)據(jù)所需的時間,從而為深度學習中的復雜問題提供了可行的解決方案。

本課程將教您如何使用多個 GPU 來訓練神經(jīng)網(wǎng)絡(luò)。您將了解到:?

  • 針對多 GPU 的訓練方法

  • 進行大規(guī)模訓練面臨的算法和工程挑

  • 克服上述挑戰(zhàn)所用的關(guān)鍵技術(shù)?

完成本課程后,您將能夠使用 TensorFlow 十分有效地并行訓練深度神經(jīng)網(wǎng)絡(luò)。?

了解更多 DLI 深度學習培訓課程,請訪問:?


https://www.nvidia.cn/gtc/training/?

點擊“閱讀原文”鏈接,即刻注冊吧!?



🔍

現(xiàn)在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

▽ 點擊 |?閱讀原文?|?即刻注冊

總結(jié)

以上是生活随笔為你收集整理的如何应对多GPU大规模训练的挑战?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。