TPU v3-8与v5e-8有什么不同?
Kaggle 宣布他们将用 v5e-8 替换 v3-8 的 TPU,但出于某种原因,我在 v5e-8 上运行代码时遇到了内存溢出(OOM),而在 v3-8 上运行时没有。有没有人知道这可能是什么原因?作为参考,我正在使用 Torch XLA 训练一个 15 亿参数的 GPT 模型。
查看原文
Kaggle announced that they are replacing their TPU v3-8s with v5e-8s, but for some reason I get an OOM when running my code on v5e-8 and not when running it on v3-8. Does anybody know why this might be happening? For reference, I am training a 1.5b GPT model using Torch XLA