Merge pull request karpathy#71 from cchan/patch-1

karpathy · web-flow · commit 361133895915 · 2023-01-20T14:38:10.000-08:00
Zero-grad more aggressively to save memory
diff --git a/train.py b/train.py
@@ -259,7 +259,6 @@ def get_lr(iter):
         break
 
     # forward backward update, with optional gradient accumulation to simulate larger batch size
-    optimizer.zero_grad(set_to_none=True)
     for micro_step in range(gradient_accumulation_steps):
         X, Y = get_batch('train')
         if ddp:
@@ -272,6 +271,7 @@ def get_lr(iter):
             logits, loss = model(X, Y)
         loss.backward()
     optimizer.step()
+    optimizer.zero_grad(set_to_none=True)
 
     # timing and logging
     t1 = time.time()