Training in progress, step 75, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +187 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bb4d00d3244fb53b7bed60bed31993422c378ab54bc8c8cb435149e1da7f6d25
 size 50503544

 version https://git-lfs.github.com/spec/v1
+oid sha256:d145b77537be2e9aa5ee05ef7427ef528f82c94a0b9273628c79b7303cf7676b
 size 50503544

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b41af6b3b404b086e4053cfe2dd8df3293781080e77fbcc527f8bb8f324fb744
 size 101184122

 version https://git-lfs.github.com/spec/v1
+oid sha256:b6cc4527e081c8f27beb8f2a3c7ba6b6aae7eb20d24de1196aa6573580756adc
 size 101184122

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e7aa0d0e67365fdc49701f7b2fac3d548c531ebecfe193942b41511ef17685b5
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:ac338bbb57c907193c6be31f84660ad075123ebd05d4a2c6abf7bbfcfb49da43
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d914dc409ae93ac75985631a9974025ebaa397f621307eef226e7d6e1076a1f6
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:babd43118aa66a4f5266d730539cf7f09611158b169d9e63dbcb83f6bbaa8626
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.007399870502266211,
   "eval_steps": 25,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -381,6 +381,189 @@
       "eval_samples_per_second": 21.686,
       "eval_steps_per_second": 10.843,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -395,12 +578,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 1.02936877203456e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.011099805753399316,
   "eval_steps": 25,
+  "global_step": 75,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 21.686,
       "eval_steps_per_second": 10.843,
       "step": 50
+    },
+    {
+      "epoch": 0.007547867912311534,
+      "grad_norm": 3.295409917831421,
+      "learning_rate": 5.000000000000002e-05,
+      "loss": 1.53,
+      "step": 51
+    },
+    {
+      "epoch": 0.007695865322356859,
+      "grad_norm": 3.640821933746338,
+      "learning_rate": 4.6270039165317605e-05,
+      "loss": 1.5741,
+      "step": 52
+    },
+    {
+      "epoch": 0.007843862732402182,
+      "grad_norm": 3.3498494625091553,
+      "learning_rate": 4.264235636489542e-05,
+      "loss": 1.8344,
+      "step": 53
+    },
+    {
+      "epoch": 0.007991860142447507,
+      "grad_norm": 3.336550712585449,
+      "learning_rate": 3.9123857099127936e-05,
+      "loss": 1.7062,
+      "step": 54
+    },
+    {
+      "epoch": 0.008139857552492831,
+      "grad_norm": 3.63503360748291,
+      "learning_rate": 3.5721239031346066e-05,
+      "loss": 1.9349,
+      "step": 55
+    },
+    {
+      "epoch": 0.008287854962538156,
+      "grad_norm": 5.259622573852539,
+      "learning_rate": 3.244097923843398e-05,
+      "loss": 1.9626,
+      "step": 56
+    },
+    {
+      "epoch": 0.00843585237258348,
+      "grad_norm": 3.1736204624176025,
+      "learning_rate": 2.9289321881345254e-05,
+      "loss": 1.5769,
+      "step": 57
+    },
+    {
+      "epoch": 0.008583849782628805,
+      "grad_norm": 4.028581142425537,
+      "learning_rate": 2.6272266318987603e-05,
+      "loss": 1.5609,
+      "step": 58
+    },
+    {
+      "epoch": 0.008731847192674128,
+      "grad_norm": 3.3158867359161377,
+      "learning_rate": 2.339555568810221e-05,
+      "loss": 1.5602,
+      "step": 59
+    },
+    {
+      "epoch": 0.008879844602719452,
+      "grad_norm": 3.735447883605957,
+      "learning_rate": 2.0664665970876496e-05,
+      "loss": 1.6289,
+      "step": 60
+    },
+    {
+      "epoch": 0.009027842012764777,
+      "grad_norm": 3.006415843963623,
+      "learning_rate": 1.808479557110081e-05,
+      "loss": 1.5157,
+      "step": 61
+    },
+    {
+      "epoch": 0.009175839422810101,
+      "grad_norm": 4.4025163650512695,
+      "learning_rate": 1.566085541871145e-05,
+      "loss": 1.8182,
+      "step": 62
+    },
+    {
+      "epoch": 0.009323836832855426,
+      "grad_norm": 3.871246337890625,
+      "learning_rate": 1.339745962155613e-05,
+      "loss": 1.6006,
+      "step": 63
+    },
+    {
+      "epoch": 0.00947183424290075,
+      "grad_norm": 4.13185453414917,
+      "learning_rate": 1.129891668217783e-05,
+      "loss": 1.8801,
+      "step": 64
+    },
+    {
+      "epoch": 0.009619831652946073,
+      "grad_norm": 3.3973031044006348,
+      "learning_rate": 9.369221296335006e-06,
+      "loss": 1.608,
+      "step": 65
+    },
+    {
+      "epoch": 0.009767829062991397,
+      "grad_norm": 3.1978251934051514,
+      "learning_rate": 7.612046748871327e-06,
+      "loss": 1.4367,
+      "step": 66
+    },
+    {
+      "epoch": 0.009915826473036722,
+      "grad_norm": 3.893763780593872,
+      "learning_rate": 6.030737921409169e-06,
+      "loss": 1.7755,
+      "step": 67
+    },
+    {
+      "epoch": 0.010063823883082046,
+      "grad_norm": 3.148879289627075,
+      "learning_rate": 4.628304925177318e-06,
+      "loss": 1.6701,
+      "step": 68
+    },
+    {
+      "epoch": 0.01021182129312737,
+      "grad_norm": 3.3002231121063232,
+      "learning_rate": 3.40741737109318e-06,
+      "loss": 1.6809,
+      "step": 69
+    },
+    {
+      "epoch": 0.010359818703172695,
+      "grad_norm": 3.7661850452423096,
+      "learning_rate": 2.3703992880066638e-06,
+      "loss": 1.6621,
+      "step": 70
+    },
+    {
+      "epoch": 0.010507816113218018,
+      "grad_norm": 4.00441312789917,
+      "learning_rate": 1.5192246987791981e-06,
+      "loss": 1.595,
+      "step": 71
+    },
+    {
+      "epoch": 0.010655813523263342,
+      "grad_norm": 3.0560474395751953,
+      "learning_rate": 8.555138626189618e-07,
+      "loss": 1.546,
+      "step": 72
+    },
+    {
+      "epoch": 0.010803810933308667,
+      "grad_norm": 4.167281627655029,
+      "learning_rate": 3.805301908254455e-07,
+      "loss": 1.8541,
+      "step": 73
+    },
+    {
+      "epoch": 0.010951808343353991,
+      "grad_norm": 3.4628982543945312,
+      "learning_rate": 9.517784181422019e-08,
+      "loss": 1.48,
+      "step": 74
+    },
+    {
+      "epoch": 0.011099805753399316,
+      "grad_norm": 3.617460012435913,
+      "learning_rate": 0.0,
+      "loss": 1.5994,
+      "step": 75
+    },
+    {
+      "epoch": 0.011099805753399316,
+      "eval_loss": 1.7009334564208984,
+      "eval_runtime": 262.4084,
+      "eval_samples_per_second": 21.684,
+      "eval_steps_per_second": 10.842,
+      "step": 75
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 1.54405315805184e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null