Training in progress, step 462, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +109 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e28db0f053f0469288d9c661a2de0e7721acd04f65d12b2744dda53823792f55
 size 100966336

 version https://git-lfs.github.com/spec/v1
+oid sha256:b3457743154bf487a605b17ae1ca8ffa677506a228d2de5556e8a58ccfe3021f
 size 100966336

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9e52fae042af788b20ffbe20c3dffe04e516add806bf2e66c036ba1becc61501
 size 51613668

 version https://git-lfs.github.com/spec/v1
+oid sha256:850e3398e2d7223a85dd20ee485345b8d225137582b8621c64cd7348a66254fc
 size 51613668

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:79e5ef6a566f54a2b32cb3e8d5a68a7370551bdcc68ea3fc820d6c009103c0c9
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:4e44f8551f3c2c2d0e97d369427c4b2fc820d540a88b323a1fdeba466dacfd58
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d7641dde43bc7a22d17d22ddcaa29ef3541065d43d71357b77f45ce61017cfec
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:c9a75ab01cc15879cd61ff8e586fb370a9b8a51bf7b319e44e27d87274e2e703
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.06291899179806,
   "eval_steps": 42,
-  "global_step": 420,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1075,6 +1075,112 @@
       "eval_samples_per_second": 35.94,
       "eval_steps_per_second": 4.494,
       "step": 420
     }
   ],
   "logging_steps": 3,
@@ -1094,7 +1200,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.3537807518872371e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.069210890977866,
   "eval_steps": 42,
+  "global_step": 462,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 35.94,
       "eval_steps_per_second": 4.494,
       "step": 420
+    },
+    {
+      "epoch": 0.06336841316804614,
+      "grad_norm": 0.1810549646615982,
+      "learning_rate": 2.98511170358155e-06,
+      "loss": 1.0827,
+      "step": 423
+    },
+    {
+      "epoch": 0.06381783453803229,
+      "grad_norm": 0.1720385104417801,
+      "learning_rate": 2.7613352995397078e-06,
+      "loss": 1.1188,
+      "step": 426
+    },
+    {
+      "epoch": 0.06426725590801842,
+      "grad_norm": 0.1696414053440094,
+      "learning_rate": 2.545785969664524e-06,
+      "loss": 1.0283,
+      "step": 429
+    },
+    {
+      "epoch": 0.06471667727800456,
+      "grad_norm": 0.1651046723127365,
+      "learning_rate": 2.338543455269046e-06,
+      "loss": 1.1545,
+      "step": 432
+    },
+    {
+      "epoch": 0.06516609864799071,
+      "grad_norm": 0.1733168065547943,
+      "learning_rate": 2.1396844246046903e-06,
+      "loss": 1.1155,
+      "step": 435
+    },
+    {
+      "epoch": 0.06561552001797685,
+      "grad_norm": 0.1659458726644516,
+      "learning_rate": 1.949282444498238e-06,
+      "loss": 1.1315,
+      "step": 438
+    },
+    {
+      "epoch": 0.066064941387963,
+      "grad_norm": 0.16362150013446808,
+      "learning_rate": 1.767407953136202e-06,
+      "loss": 1.132,
+      "step": 441
+    },
+    {
+      "epoch": 0.06651436275794914,
+      "grad_norm": 0.162877157330513,
+      "learning_rate": 1.59412823400657e-06,
+      "loss": 1.0462,
+      "step": 444
+    },
+    {
+      "epoch": 0.06696378412793529,
+      "grad_norm": 0.1876746267080307,
+      "learning_rate": 1.4295073910076757e-06,
+      "loss": 1.03,
+      "step": 447
+    },
+    {
+      "epoch": 0.06741320549792143,
+      "grad_norm": 0.18567495048046112,
+      "learning_rate": 1.273606324733284e-06,
+      "loss": 1.0879,
+      "step": 450
+    },
+    {
+      "epoch": 0.06786262686790757,
+      "grad_norm": 0.2132405787706375,
+      "learning_rate": 1.1264827099427417e-06,
+      "loss": 1.0568,
+      "step": 453
+    },
+    {
+      "epoch": 0.0683120482378937,
+      "grad_norm": 0.14907406270503998,
+      "learning_rate": 9.881909742245177e-07,
+      "loss": 1.0681,
+      "step": 456
+    },
+    {
+      "epoch": 0.06876146960787985,
+      "grad_norm": 0.1873130202293396,
+      "learning_rate": 8.587822778610283e-07,
+      "loss": 1.0831,
+      "step": 459
+    },
+    {
+      "epoch": 0.069210890977866,
+      "grad_norm": 0.18441098928451538,
+      "learning_rate": 7.383044949021339e-07,
+      "loss": 1.1253,
+      "step": 462
+    },
+    {
+      "epoch": 0.069210890977866,
+      "eval_loss": 1.0889204740524292,
+      "eval_runtime": 312.7411,
+      "eval_samples_per_second": 35.95,
+      "eval_steps_per_second": 4.496,
+      "step": 462
     }
   ],
   "logging_steps": 3,
       "attributes": {}
     }
   },
+  "total_flos": 1.489210915600466e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null