Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +81 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2ba79555c3c3efdec97edd16076639700328263b318a1b74af3683d0725d022a
 size 6804608

 version https://git-lfs.github.com/spec/v1
+oid sha256:326269bda607e9436b11dfb9ebcdb78b3ec20eb12cdc84d18d502c96821547f3
 size 6804608

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b4e708dc4a1735af4b8afbf7be39cec4a4d655c4d0822adab89c56c114b0e68a
 size 3633530

 version https://git-lfs.github.com/spec/v1
+oid sha256:92ad43829ccf54e5c92412c808a2c70c658b588f9711e5c46e16dba375b39508
 size 3633530

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c2baafb56fe3a2619cfc0fecd20a068c58a057e4c42cd93b97063a3d1ac12cb5
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:9e1522fdb5ef1b924ce4355d718f38cdadabd1f7abd6649f453c5e8fce157ce1
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0ddb9588ea654e56e83effcf81a2bc03480954babcf6415cb44d41d3bfb8039f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d8ce05761f46e7cf72fb17a02e3a0ca15c9d25ce3babf590eeb40568923b8bac
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.025050100200400802,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -171,6 +171,84 @@
       "eval_samples_per_second": 92.152,
       "eval_steps_per_second": 46.103,
       "step": 100
     }
   ],
   "logging_steps": 5,
@@ -190,7 +268,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 685853009510400.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.037575150300601205,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 92.152,
       "eval_steps_per_second": 46.103,
       "step": 100
+    },
+    {
+      "epoch": 0.02630260521042084,
+      "grad_norm": 1.3435356616973877,
+      "learning_rate": 5e-05,
+      "loss": 2.2789,
+      "step": 105
+    },
+    {
+      "epoch": 0.02755511022044088,
+      "grad_norm": 1.5827653408050537,
+      "learning_rate": 4.5871032726383386e-05,
+      "loss": 2.2494,
+      "step": 110
+    },
+    {
+      "epoch": 0.028807615230460923,
+      "grad_norm": 1.6257189512252808,
+      "learning_rate": 4.17702704859633e-05,
+      "loss": 2.1587,
+      "step": 115
+    },
+    {
+      "epoch": 0.03006012024048096,
+      "grad_norm": 1.565990686416626,
+      "learning_rate": 3.772572564296005e-05,
+      "loss": 2.2483,
+      "step": 120
+    },
+    {
+      "epoch": 0.031312625250501,
+      "grad_norm": 1.6951042413711548,
+      "learning_rate": 3.3765026539765834e-05,
+      "loss": 2.1623,
+      "step": 125
+    },
+    {
+      "epoch": 0.03256513026052104,
+      "grad_norm": 1.3800190687179565,
+      "learning_rate": 2.991522876735154e-05,
+      "loss": 2.1412,
+      "step": 130
+    },
+    {
+      "epoch": 0.03381763527054108,
+      "grad_norm": 1.6663275957107544,
+      "learning_rate": 2.6202630348146324e-05,
+      "loss": 2.1782,
+      "step": 135
+    },
+    {
+      "epoch": 0.03507014028056112,
+      "grad_norm": 1.4055718183517456,
+      "learning_rate": 2.2652592093878666e-05,
+      "loss": 2.1664,
+      "step": 140
+    },
+    {
+      "epoch": 0.036322645290581164,
+      "grad_norm": 1.295013189315796,
+      "learning_rate": 1.928936436551661e-05,
+      "loss": 2.0866,
+      "step": 145
+    },
+    {
+      "epoch": 0.037575150300601205,
+      "grad_norm": 2.0372097492218018,
+      "learning_rate": 1.6135921418712956e-05,
+      "loss": 2.0893,
+      "step": 150
+    },
+    {
+      "epoch": 0.037575150300601205,
+      "eval_loss": 2.1908504962921143,
+      "eval_runtime": 18.5604,
+      "eval_samples_per_second": 90.569,
+      "eval_steps_per_second": 45.312,
+      "step": 150
     }
   ],
   "logging_steps": 5,
       "attributes": {}
     }
   },
+  "total_flos": 1028779514265600.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null