训练PyTorch模型遇到显存不足的情况怎么办
在跑代碼的過(guò)程中,遇到了這個(gè)問(wèn)題,當(dāng)前需要分配的顯存在600MiB以下
RuntimeError: CUDA out of memory. Tried to allocate 60.00 MiB (GPU 0; 10.76 GiB total capacity; 8.71 GiB already allocated; 59.00 MiB free; 8.81 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF
然后參考?《南溪的目標(biāo)檢測(cè)學(xué)習(xí)筆記》——訓(xùn)練PyTorch模型遇到顯存不足的情況怎么辦(“OOM: CUDA out of memory“)_墨門(mén)-CSDN博客
減小batch_size的數(shù)量
最小的數(shù)量可以設(shè)置為2;
本文目的:修改batch_size,在哪修改batch_size呢?
在train.py文件下,參數(shù)設(shè)置:?
很奇怪?
電腦的GPU是6G,為啥連4都跑不了??
如何設(shè)置batchsize
batchsize過(guò)小:每次計(jì)算的梯度不穩(wěn)定,引起訓(xùn)練的震蕩比較大,很難收斂。
batchsize過(guò)大:
(1)提高了內(nèi)存利用率,大矩陣乘法并行計(jì)算效率提高。
(2)計(jì)算的梯度方向比較準(zhǔn),引起的訓(xùn)練的震蕩比較小。
(3)跑完一次epoch所需要的迭代次數(shù)變小,相同數(shù)據(jù)量的數(shù)據(jù)處理速度加快。
缺點(diǎn):容易內(nèi)容溢出,想要達(dá)到相同精度,epoch會(huì)越來(lái)越大,容易陷入局部最優(yōu),泛化性能差。
batchsize設(shè)置:通常10到100,一般設(shè)置為2的n次方。
原因:計(jì)算機(jī)的gpu和cpu的memory都是2進(jìn)制方式存儲(chǔ)的,設(shè)置2的n次方可以加快計(jì)算速度。
總結(jié)
以上是生活随笔為你收集整理的训练PyTorch模型遇到显存不足的情况怎么办的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: GPU 显存不足的讨论(有用转载)
- 下一篇: 在显存不足时,增加batch size的