Training in progress, step 20, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +81 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:106aa573046fcbe0f8bbeaab055c5ad672839af3c9f297a56d34080b4f1756bf
 size 45118424

 version https://git-lfs.github.com/spec/v1
+oid sha256:6e25fc3038a8e3f4d67294734295c486c8bc2398c6811e5f692a270d3008d6eb
 size 45118424

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7934da1c86c6c18d31d87a9c7f8a94370b350894481d16aabda27d614f76c448
 size 23159290

 version https://git-lfs.github.com/spec/v1
+oid sha256:a1774f77f007af7b55a69980f0a6cc754386dc022cc57f072771b815409c819b
 size 23159290

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:917ad58882644007533c4abc141424ee42139f4dc0c5ccabb771f99d9f33b084
 size 14512

 version https://git-lfs.github.com/spec/v1
+oid sha256:bd17b5df1022d14a6bc409d5199b678b4ef7ee120dd6b803365c640249735528
 size 14512

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c05c147f54d09793f94646e3c80d99a7f4fc46e672b3727c589118bb2c7a9f0e
 size 14512

 version https://git-lfs.github.com/spec/v1
+oid sha256:e6003b9da5fb97bf7840c3b5bc091d085fbbef473002eef31535fde335f58e3e
 size 14512

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3d45ccdc6e3c1cc0068abcc929ad0c964f2519a45cbca01b7ab8cd5851550cd1
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:c2b018ac4fe63057a6f92b6fc2b40d2df6ba47ab96e6b212db49c719e05a03a8
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.2620802620802621,
   "eval_steps": 10,
-  "global_step": 10,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -93,6 +93,84 @@
       "eval_samples_per_second": 36.916,
       "eval_steps_per_second": 9.337,
       "step": 10
     }
   ],
   "logging_steps": 1,
@@ -112,7 +190,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.1209052633563136e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.5241605241605242,
   "eval_steps": 10,
+  "global_step": 20,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 36.916,
       "eval_steps_per_second": 9.337,
       "step": 10
+    },
+    {
+      "epoch": 0.2882882882882883,
+      "grad_norm": 0.5569241642951965,
+      "learning_rate": 8.609780469772623e-05,
+      "loss": 1.6436,
+      "step": 11
+    },
+    {
+      "epoch": 0.3144963144963145,
+      "grad_norm": 0.5158886313438416,
+      "learning_rate": 8.303373616950408e-05,
+      "loss": 1.6523,
+      "step": 12
+    },
+    {
+      "epoch": 0.3407043407043407,
+      "grad_norm": 0.4968787729740143,
+      "learning_rate": 7.973165881521434e-05,
+      "loss": 1.6673,
+      "step": 13
+    },
+    {
+      "epoch": 0.3669123669123669,
+      "grad_norm": 0.49128782749176025,
+      "learning_rate": 7.621536417786159e-05,
+      "loss": 1.6519,
+      "step": 14
+    },
+    {
+      "epoch": 0.3931203931203931,
+      "grad_norm": 0.493300199508667,
+      "learning_rate": 7.251018724088367e-05,
+      "loss": 1.624,
+      "step": 15
+    },
+    {
+      "epoch": 0.41932841932841936,
+      "grad_norm": 0.5251982808113098,
+      "learning_rate": 6.864282388901544e-05,
+      "loss": 1.6108,
+      "step": 16
+    },
+    {
+      "epoch": 0.44553644553644556,
+      "grad_norm": 0.4884173274040222,
+      "learning_rate": 6.464113856382752e-05,
+      "loss": 1.6367,
+      "step": 17
+    },
+    {
+      "epoch": 0.47174447174447176,
+      "grad_norm": 0.5205239653587341,
+      "learning_rate": 6.0533963499786314e-05,
+      "loss": 1.6079,
+      "step": 18
+    },
+    {
+      "epoch": 0.49795249795249796,
+      "grad_norm": 0.5160295963287354,
+      "learning_rate": 5.6350890987343944e-05,
+      "loss": 1.6298,
+      "step": 19
+    },
+    {
+      "epoch": 0.5241605241605242,
+      "grad_norm": 0.46167778968811035,
+      "learning_rate": 5.212206015980742e-05,
+      "loss": 1.7101,
+      "step": 20
+    },
+    {
+      "epoch": 0.5241605241605242,
+      "eval_loss": 1.6339422464370728,
+      "eval_runtime": 6.9719,
+      "eval_samples_per_second": 36.862,
+      "eval_steps_per_second": 9.323,
+      "step": 20
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 6.275680826713702e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null