當(dāng)前位置：首頁(yè) > 编程资源 > 综合教程 >内容正文

综合教程

ChatGPT 低成本复现流程开源，任意单张消费级显卡可体验，显存需求低至 1.62 GB

發(fā)布時(shí)間：2023/12/15 综合教程 44 生活家

生活随笔收集整理的這篇文章主要介紹了 ChatGPT 低成本复现流程开源，任意单张消费级显卡可体验，显存需求低至 1.62 GB 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

首個(gè)開源的 ChatGPT 低成本復(fù)現(xiàn)流程來(lái)了！

預(yù)訓(xùn)練、獎(jiǎng)勵(lì)模型訓(xùn)練、強(qiáng)化學(xué)習(xí)訓(xùn)練，一次性打通。

最小 demo 訓(xùn)練流程僅需 1.62GB 顯存，隨便一張消費(fèi)級(jí)顯卡都能滿足了。單卡模型容量最多提升 10.3 倍。

相比原生 PyTorch，單機(jī)訓(xùn)練速度最高可提升 7.73 倍，單卡推理速度提升 1.42 倍，僅需一行代碼即可調(diào)用。

對(duì)于微調(diào)任務(wù)，可最多提升單卡的微調(diào)模型容量 3.7 倍，同時(shí)保持高速運(yùn)行，同樣僅需一行代碼。

要知道，ChatGPT 火是真的火，復(fù)現(xiàn)也是真的難。

畢竟 ChatGPT 是不開源的，市面上至今沒(méi)有開源預(yù)訓(xùn)練權(quán)重、完全開源的低成本訓(xùn)練流程，而且千億級(jí)別大模型的訓(xùn)練本身就是個(gè)難題。

但 ChatGPT 軍備賽已經(jīng)愈演愈烈，為了抓住趨勢(shì)，如谷歌等都在打造對(duì)標(biāo)競(jìng)品。快速?gòu)?fù)現(xiàn) ChatGPT 是應(yīng)趨勢(shì)所需。

開源加速方案 Colossal-AI 正是為此而來(lái)。

并且在提供開源完整復(fù)現(xiàn)流程的同時(shí)，把成本降了下來(lái)！

開源地址：https://github.com/ hpcaitech / ColossalAI

降顯存開銷是關(guān)鍵

ChatGPT 的效果好，主要是由于在訓(xùn)練過(guò)程中引入了人類反饋強(qiáng)化學(xué)習(xí)（RLHF），但這也直接導(dǎo)致 ChatGPT 的復(fù)現(xiàn)訓(xùn)練難度飆升。

其訓(xùn)練流程主要分為三個(gè)階段：

1、監(jiān)督微調(diào)：從 Prompt 庫(kù)中采樣，收集其人工回答，利用這些數(shù)據(jù)來(lái)微調(diào)預(yù)訓(xùn)練大語(yǔ)言模型；

2、獎(jiǎng)勵(lì)模型：從 Prompt 庫(kù)中采樣，使用大語(yǔ)言模型生成多個(gè)回答，人工對(duì)這些回答進(jìn)行排序后，訓(xùn)練獎(jiǎng)勵(lì)模型（RM），來(lái)擬合人類的價(jià)值判斷。

3、基于第一階段的監(jiān)督微調(diào)模型和第二階段的獎(jiǎng)勵(lì)模型，利用強(qiáng)化學(xué)習(xí)算法對(duì)大語(yǔ)言模型進(jìn)一步訓(xùn)練。

△RLHF 的三個(gè)階段

對(duì)于 ChatGPT 訓(xùn)練而言，第三階段是核心部分。

OpenAI 采用了強(qiáng)化學(xué)習(xí)中近端策略優(yōu)化算法（PPO），借此引入獎(jiǎng)勵(lì)信號(hào)，使得語(yǔ)言模型生成內(nèi)容更加符合人類評(píng)判標(biāo)準(zhǔn)。

但強(qiáng)化學(xué)習(xí)的引入，也意味著更多模型調(diào)用。

例如，使用基于 Actor-Critic（AC）結(jié)構(gòu)的 PPO 算法，需要在訓(xùn)練時(shí)進(jìn)行 Actor、Critic 兩個(gè)模型的前向推理和反向傳播，以及監(jiān)督微調(diào)模型、獎(jiǎng)勵(lì)模型的多次前向推理。

在 ChatGPT 基礎(chǔ)的 InstructGPT 論文中，Actor 和監(jiān)督微調(diào)模型都使用了 1750 億參數(shù)的 GPT-3 系列模型，Critic 和獎(jiǎng)勵(lì)模型則使用了 60 億參數(shù)的 GPT-3 系列模型。

如此大規(guī)模的模型參數(shù)，意味著想要啟動(dòng)原始 ChatGPT 訓(xùn)練流程，需要數(shù)千 GB 的顯存開銷，單張 GPU 顯然無(wú)法容納，常見的數(shù)據(jù)并行技術(shù)也不能搞定。

即便引入張量并行、流水并行對(duì)參數(shù)進(jìn)行劃分，也需要至少 64 張 80GB 的 A100 作為硬件基礎(chǔ)。而且流水并行本身并不適合 AIGC 的生成式任務(wù)，bubble 和調(diào)度復(fù)雜會(huì)導(dǎo)致效率受限。

單張消費(fèi)級(jí)顯卡都能體驗(yàn)

Colossal-AI 基于 ZeRO，Gemini, LoRA, Chunk-based 內(nèi)存管理等方法，提出了一系列單卡、單機(jī)多卡、大規(guī)模并行解決方案。

對(duì)于基于 GPT-3 系列模型的 ChatGPT，Colossal-AI 能用原本一半的硬件資源啟動(dòng) 1750 億參數(shù)模型訓(xùn)練，從 64 卡降低到 32 卡。

如果繼續(xù)用 64 卡，則將訓(xùn)練時(shí)間壓縮到更短，節(jié)省訓(xùn)練成本、加速產(chǎn)品迭代。

而為了能讓更大范圍的開發(fā)者體驗(yàn)復(fù)現(xiàn) ChatGPT，除了 1750 億參數(shù)版本外，Colossal-AI 還提供單卡、單機(jī) 4/8 卡的類 ChatGPT 版本，以降低硬件限制。

要知道，在單機(jī)多卡服務(wù)器上，即便把顯卡規(guī)格提升為 A100 80GB，由于 ChatGPT 的復(fù)雜性和內(nèi)存碎片，PyTorch 最大也只能啟動(dòng)基于 GPT-L（774M）這樣的小模型 ChatGPT。

用 PyTorch 原生的 DistributedDataParallel (DDP) 進(jìn)行多卡并行擴(kuò)展至 4 卡或 8 卡，性能提升有限。

Colossal-AI 最高可提升單機(jī)訓(xùn)練速度 7.73 倍，單卡推理速度 1.42 倍，還可繼續(xù)擴(kuò)大規(guī)模并行。

為了盡可能降低訓(xùn)練成本和上手門檻，Colossal-AI 還提供了在單張 GPU 上即可嘗試的 ChatGPT 訓(xùn)練流程。

相比于 PyTorch 在約 10 萬(wàn)元的 A100 80GB 上，最大僅能啟動(dòng) 7.8 億參數(shù)模型，Colossal-AI 將單卡容量提升 10.3 倍至 80 億參數(shù)。

對(duì)于基于 1.2 億參數(shù)小模型的 ChatGPT 訓(xùn)練，最低僅需 1.62GB 顯存，任意單張消費(fèi)級(jí) GPU 即可滿足。

此外，Colossal-AI 也致力于降低基于預(yù)訓(xùn)練大模型的微調(diào)任務(wù)成本。以 ChatGPT 可選的開源基礎(chǔ)模型 OPT 為例，相比 PyTorch，Colossal-AI 可將提升單卡微調(diào)模型容量 3.7 倍（原始計(jì)算量顯著增大），同時(shí)保持高速運(yùn)行。

一行代碼快速上手

到了具體操作部分，如上復(fù)現(xiàn)流程中的多個(gè)步驟，基于 Colossal-AI 開源方案，都能實(shí)現(xiàn)一行代碼快速上手。

先看模型使用方面。

盡管 ChatGPT 背后的大語(yǔ)言模型 GPT-3.5 不開源，但如 GPT、OPT、BLOOM 等主流開源模型可作為替代。

Colossal-AI 為 Hugging Face 社區(qū)的這些模型，提供了開箱即用的 ChatGPT 復(fù)現(xiàn)代碼，可覆蓋三個(gè)階段的訓(xùn)練。

以 GPT 為例，添加一行代碼指定使用 Colossal-AI 作為系統(tǒng)策略即可快速使用。

fromchatgpt.nnimportGPTActor,GPTCritic,RewardModel
fromchatgpt.trainerimportPPOTrainer
fromchatgpt.trainer.strategiesimportColossalAIStrategy



withstrategy.model_init_context():
actor=GPTActor().cuda()
critic=GPTCritic().cuda()
initial_model=deepcopy(actor).cuda()
reward_model=RewardModel(deepcopy(critic.model)).cuda()

trainer=PPOTrainer(strategy,actor,critic,reward_model,initial_model,...)
trainer.fit(prompts)

使用下列命令，即可快速啟動(dòng)單卡、單機(jī)多卡、1750 億版本訓(xùn)練，并測(cè)試各種性能指標(biāo)（包括最大顯存占用、吞吐率和 TFLOPS 等）：

#使用單機(jī)單卡訓(xùn)練GPT2-S，使用最小的batchsize，Colossal-AIGeminiCPU策略
torchrun--standalone--nproc_pero_node1benchmark_gpt_dummy.py--models--strategycolossalai_gemini_cpu--experience_batch_size1--train_batch_size1
#使用單機(jī)4卡訓(xùn)練GPT2-XL，使用Colossal-AIZero2策略
torchrun--standalone--nproc_per_node4benchmark_gpt_dummy.py--modelxl--strategycolossalai_zero2
#使用4機(jī)32卡訓(xùn)練GPT-3，使用Colossal-AIGeminiCPU策略
torchrun--nnodes4--nproc_per_node8\
--rdzv_id=$JOB_ID--rdzv_backend=c10d--rdzv_endpoint=$HOST_NODE_ADDR\
benchmark_gpt_dummy.py--model175b--strategycolossalai_gemini_cpu--experience_batch_

背后原理如何？

核心方案還是 Colossal-AI。

它從誕生起就面向大模型應(yīng)用，可基于 PyTorch 高效快速部署 AI 大模型訓(xùn)練和推理，是這一領(lǐng)域的明星項(xiàng)目了，GitHub Star 超八千顆，并成功入選 SC、AAAI、PPoPP、CVPR 等國(guó)際 AI 與 HPC 頂級(jí)會(huì)議的官方教程。

目前，Colossal-AI 已成功幫助一家世界五百?gòu)?qiáng)企業(yè)，開發(fā)具備在線搜索引擎能力增強(qiáng)的類 ChatGPT 聊天機(jī)器人模型。

此前，它們還為 Stable Diffusion、OPT、AlphaFold 等前沿模型，提供了多樣高效的大規(guī)模多維并行分布式解決方案。

主創(chuàng)人員為加州伯克利大學(xué)杰出教授 James Demmel 和新加坡國(guó)立大學(xué)校長(zhǎng)青年教授尤洋。

△Colossal-AI 與當(dāng)今主要開源項(xiàng)目同期開源數(shù)據(jù)對(duì)比

具體到細(xì)節(jié)原理上，LoRA、ZeRO+Gemini 是關(guān)鍵。

低成本微調(diào)的 LoRA

在微調(diào)部分，Colossal-AI 支持使用低秩矩陣微調(diào)（LoRA）方法。

LoRA 方法認(rèn)為大語(yǔ)言模型是過(guò)參數(shù)化的，其在微調(diào)中的參數(shù)改變量是一個(gè)低秩的矩陣，可以將其分解為兩個(gè)更小的的矩陣的乘積，即

在微調(diào)時(shí)，固定大模型參數(shù)，只調(diào)整低秩矩陣參數(shù)，從而顯著減小訓(xùn)練參數(shù)量。在微調(diào)之后，進(jìn)行推理部署之前，只需要將參數(shù)加回原有矩陣即可，即

，不增加模型的推理延遲。

△LoRA 示意圖，僅需訓(xùn)練 A、B

減少內(nèi)存冗余的 ZeRO+Gemini

Colossal-AI 支持使用無(wú)冗余優(yōu)化器 (ZeRO) 來(lái)優(yōu)化內(nèi)存使用，這種方法可以有效減少內(nèi)存冗余，并且相比傳統(tǒng)的數(shù)據(jù)并行策略，不會(huì)犧牲計(jì)算粒度和通信效率，同時(shí)可以大幅提高內(nèi)存使用效率。

為了進(jìn)一步提升 ZeRO 的性能，Colossal-AI 引入了自動(dòng) Chunk 機(jī)制。

通過(guò)將運(yùn)算順序上連續(xù)的一組參數(shù)存入同一個(gè) Chunk 中（Chunk 是一段連續(xù)的內(nèi)存空間），可以確保每個(gè) Chunk 的大小相同，從而提高內(nèi)存使用效率。

使用 Chunk 方式組織內(nèi)存可以保證 PCI-e 和 GPU-GPU 之間的網(wǎng)絡(luò)帶寬得到有效利用，減小通信次數(shù)，同時(shí)避免潛在的內(nèi)存碎片。

△Chunk 機(jī)制

此外，Colossal-AI 的異構(gòu)內(nèi)存空間管理器 Gemini 支持將優(yōu)化器狀態(tài)從 GPU 卸載到 CPU ，以節(jié)省 GPU 內(nèi)存占用。

可以同時(shí)利用 GPU 內(nèi)存、CPU 內(nèi)存（由 CPU DRAM 或 NVMe SSD 內(nèi)存組成）來(lái)突破單 GPU 內(nèi)存墻的限制，進(jìn)一步擴(kuò)展了可訓(xùn)練模型規(guī)模。

△ 通過(guò) ZeRO+Gemini 提升硬件的模型容量

One More Thing

盡管此次開源包含了復(fù)現(xiàn) ChatGPT 的完整算法流程和必要軟件系統(tǒng)，但想要走到實(shí)際應(yīng)用落地，還至少需要數(shù)據(jù)、算力等方面的支持。

參考開源大模型 BLOOM、開源 AI 畫畫工具 Stable Diffusion 的經(jīng)驗(yàn)，這背后都需要包括個(gè)人開發(fā)者、算力、數(shù)據(jù)模型等可能合作方的支持共建 ——

此前，超過(guò) 1000 個(gè)科學(xué)家聯(lián)合發(fā)起、耗時(shí)一年多煉出了號(hào)稱和 GPT-3 一樣強(qiáng)大的語(yǔ)言模型 BLOOM。還有 AI 畫畫趨勢(shì)的頭號(hào)明星 Stable Diffusion，也是由 Stability AI、EleutherAI 和 LAION 多方聯(lián)合完成的。

復(fù)現(xiàn) ChatGPT 也是如此，Colossal-AI 正在發(fā)起這一開發(fā)活動(dòng)。

開源地址：

https://github.com/hpcaitech/ColossalAI

參考鏈接：

https://www.hpc-ai.tech/blog/colossal-ai-chatgpt

本文來(lái)自微信公眾號(hào)：量子位（ID：QbitAI），作者：明敏

總結(jié)

以上是生活随笔為你收集整理的ChatGPT 低成本复现流程开源，任意单张消费级显卡可体验，显存需求低至 1.62 GB的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：用纯ASP代码实现图片上传并存入数据库中
下一篇： LOL英雄价格将大调整猫咪身价降至45