Spaces:

hf-accelerate
/

accelerate_examples

Running on CPU Upgrade

muellerzr HF staff commited on May 15, 2023

Commit

d091751

1 Parent(s): 52eaca3

Move zero_grad

Files changed (8) hide show

code_samples/base/accelerate CHANGED Viewed

@@ -7,11 +7,11 @@ train_dataloader, model, optimizer scheduler = accelerator.prepare(
 model.train()
 for batch in train_dataloader:
-    optimizer.zero_grad()
     inputs, targets = batch
     outputs = model(inputs)
     loss = loss_function(outputs, targets)
     accelerator.backward(loss)
     optimizer.step()
     scheduler.step()
 </pre>

 model.train()
 for batch in train_dataloader:
     inputs, targets = batch
     outputs = model(inputs)
     loss = loss_function(outputs, targets)
     accelerator.backward(loss)
     optimizer.step()
     scheduler.step()
+    optimizer.zero_grad()
 </pre>

code_samples/base/basic CHANGED Viewed

@@ -7,7 +7,6 @@
 +)
 for batch in dataloader:
-    optimizer.zero_grad()
     inputs, targets = batch
 -    inputs = inputs.to(device)
 -    targets = targets.to(device)
@@ -16,7 +15,8 @@ for batch in dataloader:
 -    loss.backward()
 +    accelerator.backward(loss)
     optimizer.step()
-    scheduler.step()</pre>
 ##
 Everything around `accelerate` occurs with the `Accelerator` class. To use it, first make an object.
 Then call `.prepare` passing in the PyTorch objects that you would normally train with. This will

 +)
 for batch in dataloader:
     inputs, targets = batch
 -    inputs = inputs.to(device)
 -    targets = targets.to(device)
 -    loss.backward()
 +    accelerator.backward(loss)
     optimizer.step()
+    scheduler.step()
+    optimizer.zero_grad()</pre>
 ##
 Everything around `accelerate` occurs with the `Accelerator` class. To use it, first make an object.
 Then call `.prepare` passing in the PyTorch objects that you would normally train with. This will

code_samples/base/calculating_metrics CHANGED Viewed

@@ -11,7 +11,6 @@ import evaluate
 +)
 metric = evaluate.load("accuracy")
 for batch in train_dataloader:
-    optimizer.zero_grad()
     inputs, targets = batch
 -    inputs = inputs.to(device)
 -    targets = targets.to(device)
@@ -20,6 +19,7 @@ for batch in train_dataloader:
     loss.backward()
     optimizer.step()
     scheduler.step()
 model.eval()
 for batch in eval_dataloader:

 +)
 metric = evaluate.load("accuracy")
 for batch in train_dataloader:
     inputs, targets = batch
 -    inputs = inputs.to(device)
 -    targets = targets.to(device)
     loss.backward()
     optimizer.step()
     scheduler.step()
+    optimizer.zero_grad()
 model.eval()
 for batch in eval_dataloader:

code_samples/base/checkpointing CHANGED Viewed

@@ -7,13 +7,13 @@ dataloader, model, optimizer scheduler = accelerator.prepare(
 )
 for batch in dataloader:
-    optimizer.zero_grad()
     inputs, targets = batch
     outputs = model(inputs)
     loss = loss_function(outputs, targets)
     accelerator.backward(loss)
     optimizer.step()
     scheduler.step()
 +accelerator.save_state("checkpoint_dir")
 +accelerator.load_state("checkpoint_dir")</pre>
 ##

 )
 for batch in dataloader:
     inputs, targets = batch
     outputs = model(inputs)
     loss = loss_function(outputs, targets)
     accelerator.backward(loss)
     optimizer.step()
     scheduler.step()
+    optimizer.zero_grad()
 +accelerator.save_state("checkpoint_dir")
 +accelerator.load_state("checkpoint_dir")</pre>
 ##

code_samples/base/experiment_tracking CHANGED Viewed

@@ -9,7 +9,6 @@ train_dataloader, model, optimizer scheduler = accelerator.prepare(
 +accelerator.init_trackers()
 model.train()
 for batch in train_dataloader:
-    optimizer.zero_grad()
     inputs, targets = batch
     outputs = model(inputs)
     loss = loss_function(outputs, targets)
@@ -17,6 +16,7 @@ for batch in train_dataloader:
     accelerator.backward(loss)
     optimizer.step()
     scheduler.step()
 +accelerator.end_training()
 </pre>
 ##

 +accelerator.init_trackers()
 model.train()
 for batch in train_dataloader:
     inputs, targets = batch
     outputs = model(inputs)
     loss = loss_function(outputs, targets)
     accelerator.backward(loss)
     optimizer.step()
     scheduler.step()
+    optimizer.zero_grad()
 +accelerator.end_training()
 </pre>
 ##

code_samples/base/gradient_accumulation CHANGED Viewed

@@ -10,13 +10,13 @@ dataloader, model, optimizer scheduler = accelerator.prepare(
 for batch in dataloader:
 +  with accelerator.accumulate(model):
-      optimizer.zero_grad()
       inputs, targets = batch
       outputs = model(inputs)
       loss = loss_function(outputs, targets)
       accelerator.backward(loss)
       optimizer.step()
-      scheduler.step()</pre>
 ##
 When performing gradient accumulation in a distributed setup, there are many opportunities for efficiency mistakes

 for batch in dataloader:
 +  with accelerator.accumulate(model):
       inputs, targets = batch
       outputs = model(inputs)
       loss = loss_function(outputs, targets)
       accelerator.backward(loss)
       optimizer.step()
+      scheduler.step()
+      optimizer.zero_grad()</pre>
 ##
 When performing gradient accumulation in a distributed setup, there are many opportunities for efficiency mistakes

code_samples/base/initial CHANGED Viewed

@@ -1,6 +1,5 @@
 <pre>
 for batch in dataloader:
-    optimizer.zero_grad()
     inputs, targets = batch
     inputs = inputs.to(device)
     targets = targets.to(device)
@@ -8,4 +7,5 @@ for batch in dataloader:
     loss = loss_function(outputs, targets)
     loss.backward()
     optimizer.step()
-    scheduler.step()</pre>

 <pre>
 for batch in dataloader:
     inputs, targets = batch
     inputs = inputs.to(device)
     targets = targets.to(device)
     loss = loss_function(outputs, targets)
     loss.backward()
     optimizer.step()
+    scheduler.step()
+    optimizer.zero_grad()</pre>

code_samples/base/initial_with_metrics CHANGED Viewed

@@ -2,7 +2,6 @@
 import evaluate
 metric = evaluate.load("accuracy")
 for batch in train_dataloader:
-    optimizer.zero_grad()
     inputs, targets = batch
     inputs = inputs.to(device)
     targets = targets.to(device)
@@ -11,6 +10,7 @@ for batch in train_dataloader:
     loss.backward()
     optimizer.step()
     scheduler.step()
 model.eval()
 for batch in eval_dataloader:

 import evaluate
 metric = evaluate.load("accuracy")
 for batch in train_dataloader:
     inputs, targets = batch
     inputs = inputs.to(device)
     targets = targets.to(device)
     loss.backward()
     optimizer.step()
     scheduler.step()
+    optimizer.zero_grad()
 model.eval()
 for batch in eval_dataloader: