tangledgroup
/

tangled-llama-33m-32k-base-v0.1

Text Generation

Inference Endpoints

Model card Files Files and versions Community

mtasic85 commited on Sep 25

Commit

4000a4d

•

1 Parent(s): bb8cdc8

model

Files changed (1) hide show

scripts/model.yaml +3 -4

scripts/model.yaml CHANGED Viewed

@@ -56,8 +56,8 @@ train:
   global_batch_size: 512
   # Number of samples per data-parallel rank (type: int, default: 4)
-  # micro_batch_size: 16
-  micro_batch_size: 32
   # Number of iterations with learning rate warmup active (type: int, default: 2000)
   lr_warmup_steps: 2000
@@ -103,8 +103,7 @@ eval:
 # Optimizer-related arguments
 optimizer:
-  # class_path: torch.optim.AdamW
-  class_path: torch.optim.PagedAdamW
   # class_path: bitsandbytes.optim.PagedAdamW
   # class_path: bitsandbytes.optim.AdamW8bit
   # class_path: bitsandbytes.optim.PagedAdamW8bit

   global_batch_size: 512
   # Number of samples per data-parallel rank (type: int, default: 4)
+  micro_batch_size: 16
+  # micro_batch_size: 15
   # Number of iterations with learning rate warmup active (type: int, default: 2000)
   lr_warmup_steps: 2000
 # Optimizer-related arguments
 optimizer:
+  class_path: torch.optim.AdamW
   # class_path: bitsandbytes.optim.PagedAdamW
   # class_path: bitsandbytes.optim.AdamW8bit
   # class_path: bitsandbytes.optim.PagedAdamW8bit