AssertionError: Invalid device id 和RuntimeError: CUDA error: invalid device ordinal
我在使用torch多卡并行時出現了這個兩個問題。
##問題一:AssertionError: Invalid device id,即無效的設備id
出現的原因:結合代碼解釋:
import ...os.environ["CUDA_VISIBLE_DEVICES"] = "2,3"model = model(...)torch.cuda.set_device(2) model = torch.nn.DataParrel(model, device_ids=[2,3])錯誤原因:os.environ["CUDA_VISIBLE_DEVICES"] = "2,3"這個語句將原本的divice:2和device:3的編號映射為device:0和device:1,因此在set_device時匯報錯,無效的設備id
解決辦法:方法一:將os.environ刪除。若是某些卡被占用不得不使用os.environ來設置可用設備,則使用方法二:按照重新映射的編號進行操作,例set_device(0)
##問題二:RuntimeError: CUDA error: invalid device ordinal
出現的原因:結合代碼
import ...os.environ["CUDA_VISIBLE_DEVICES"] = "2,3"model = model(...)model = torch.nn.DataParrel(model, device_ids=[2,3])錯誤原因:與上文一致,os.environ["CUDA_VISIBLE_DEVICES"] = "2,3"這個語句將原本的divice:2和device:3的編號映射為device:0和device:1,因此在執行torch.nn.DataParrel時會報錯
解決辦法:方法一:將os.environ刪除。若是某些卡被占用不得不使用os.environ來設置可用設備,則使用方法二:按照重新映射的編號進行操作,例:
model = torch.nn.DataParrel(model, device_ids=[0,1])推薦一篇文章,簡單實現多卡并行:
https://muzhan.blog.csdn.net/article/details/109318226
https://www.codeleading.com/article/2345206500
https://blog.csdn.net/weixin_34233421/article/details/91396978
總結
以上是生活随笔為你收集整理的AssertionError: Invalid device id 和RuntimeError: CUDA error: invalid device ordinal的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: pytorch选出数据中的前k个最大(最
- 下一篇: 记录之tensorflow和pytorc