人工智能训练平台
人工智能訓練平臺
1、平臺定位
為深度學習提供一個深度定制和優化的人工智能集群管理平臺,讓人工智能堆棧變得簡單、快速、可擴展。
● 為深度學習量身定做,可擴展支撐更多AI和大數據框架
通過創新的AI平臺運行環境支持,幾乎所有深度學習框架如CNTK、TensorFlow、PyTorch等無需修改即可運行;其基于Docker的架構則讓用戶可以方便地擴展更多AI與大數據框架。
● 容器與微服務化,讓AI流水線實現DevOps
AI平臺 100%基于微服務架構,讓AI平臺以及開發便于實現DevOps的開發運維模式。
● 支持GPU多租,可統籌集群資源調度與服務管理能力
在深度學習負載下,GPU逐漸成為資源調度的一等公民,AI平臺提供了針對GPU優化的調度算法,豐富的端口管理,支持Virtual Cluster多租機制,可通過Launcher Server為服務作業的運行保駕護航。
● 提供豐富的運營、監控、調試功能,降低運維復雜度
PAI為運營人員提供了硬件、服務、作業的多級監控,同時開發者還可以通過日志、SSH等方便調試作業。
2、系統架構
AI平臺的架構如下圖所示,用戶通過Web Portal調用REST Server的API提交作業(Job)和監控集群,其它第三方工具也可通過該API進行任務管理。隨后Web Portal與Launcher交互,以執行各種作業,再由Launcher Server處理作業請求并將其提交至Hadoop YARN進行資源分配與調度??梢钥吹?,AI平臺給YARN添加了GPU支持,使其能將GPU作為可計算資源調度,助力深度學習。其中,YARN負責作業的管理,其它靜態資
總結
- 上一篇: 圣诞纯情手势告白(Mediapipe基本
- 下一篇: 一、如何爬取链家网页房源信息