NLP, Python, PyTorch, 資料科學 [PyTorch] 使用 torch.distributed 在單機多 GPU 上進行分散式訓練 2023-01-07 / 0 評論 Finetune 語言模型所需要的 GPU memory 比較多,往往會需要我們能夠利用到多顆 GPU 的資源。今天這篇文章會說明 DataParallel 和 DistributedDataParallel + Dis... 閱讀全文