-
[PyTorch] 使用 torch.distributed 在單機多 GPU 上進行分散式訓練
Finetune 語言模型所需要的 GPU memory 比較多,往往會需要我們能夠利用到多顆 GPU 的資源。今天這篇文章會說明 DataParallel 和 DistributedDataParallel + Dis...
-
【自然語言處理】Longformer 中文長文本 RoBERTa 模型 – 新聞分類實作
使用 pre-trained model BERT 進行各種 NLU 下游任務 fine-tuning 時,會有輸入限制 512 字符的限制,真實世界文章往往超過這個長度,因此如何應用 BERT 到長文本上是一個重要的議...