Training in progress, step 75, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +187 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f62b7097e3f425b2e90deca4728016392a46c248054749cc43054539be64c051
 size 78480072

 version https://git-lfs.github.com/spec/v1
+oid sha256:7630752ecef715c9c401db41ab203c25b01be304fce69145d0b1b7c90220ffff
 size 78480072

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c869498b43610764b7aced71b0286197cf0b54651ed26aae56f721cd838dddb0
 size 157104826

 version https://git-lfs.github.com/spec/v1
+oid sha256:e9f5594de6a0fbd28ed23fb6d7797b91b214e79cc9153da583d3531e73ca8271
 size 157104826

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:16bf024688e8bd952a2153706e4c60bcffda672499b07a3e6985258247927051
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:de4e792da44d5028bd8adb4bd6d1cbc2846f0896643ffb4f9566a585f89e561d
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d914dc409ae93ac75985631a9974025ebaa397f621307eef226e7d6e1076a1f6
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:babd43118aa66a4f5266d730539cf7f09611158b169d9e63dbcb83f6bbaa8626
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.03063490847821092,
   "eval_steps": 25,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -381,6 +381,189 @@
       "eval_samples_per_second": 13.32,
       "eval_steps_per_second": 6.665,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -395,12 +578,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 1.96755069075456e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.04595236271731638,
   "eval_steps": 25,
+  "global_step": 75,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 13.32,
       "eval_steps_per_second": 6.665,
       "step": 50
+    },
+    {
+      "epoch": 0.03124760664777514,
+      "grad_norm": 4.884973049163818,
+      "learning_rate": 5.000000000000002e-05,
+      "loss": 1.72,
+      "step": 51
+    },
+    {
+      "epoch": 0.031860304817339355,
+      "grad_norm": 3.4544296264648438,
+      "learning_rate": 4.6270039165317605e-05,
+      "loss": 1.2158,
+      "step": 52
+    },
+    {
+      "epoch": 0.032473002986903574,
+      "grad_norm": 4.243190288543701,
+      "learning_rate": 4.264235636489542e-05,
+      "loss": 1.6973,
+      "step": 53
+    },
+    {
+      "epoch": 0.03308570115646779,
+      "grad_norm": 4.426884174346924,
+      "learning_rate": 3.9123857099127936e-05,
+      "loss": 1.7983,
+      "step": 54
+    },
+    {
+      "epoch": 0.03369839932603201,
+      "grad_norm": 4.506540298461914,
+      "learning_rate": 3.5721239031346066e-05,
+      "loss": 1.811,
+      "step": 55
+    },
+    {
+      "epoch": 0.03431109749559623,
+      "grad_norm": 3.716324806213379,
+      "learning_rate": 3.244097923843398e-05,
+      "loss": 1.5807,
+      "step": 56
+    },
+    {
+      "epoch": 0.03492379566516045,
+      "grad_norm": 3.674492597579956,
+      "learning_rate": 2.9289321881345254e-05,
+      "loss": 1.7437,
+      "step": 57
+    },
+    {
+      "epoch": 0.03553649383472467,
+      "grad_norm": 4.3944196701049805,
+      "learning_rate": 2.6272266318987603e-05,
+      "loss": 1.8616,
+      "step": 58
+    },
+    {
+      "epoch": 0.036149192004288885,
+      "grad_norm": 3.621537685394287,
+      "learning_rate": 2.339555568810221e-05,
+      "loss": 1.6906,
+      "step": 59
+    },
+    {
+      "epoch": 0.036761890173853104,
+      "grad_norm": 4.570217609405518,
+      "learning_rate": 2.0664665970876496e-05,
+      "loss": 1.9371,
+      "step": 60
+    },
+    {
+      "epoch": 0.03737458834341732,
+      "grad_norm": 5.0197978019714355,
+      "learning_rate": 1.808479557110081e-05,
+      "loss": 1.9263,
+      "step": 61
+    },
+    {
+      "epoch": 0.03798728651298154,
+      "grad_norm": 3.4639062881469727,
+      "learning_rate": 1.566085541871145e-05,
+      "loss": 1.4091,
+      "step": 62
+    },
+    {
+      "epoch": 0.03859998468254576,
+      "grad_norm": 3.4522595405578613,
+      "learning_rate": 1.339745962155613e-05,
+      "loss": 1.2912,
+      "step": 63
+    },
+    {
+      "epoch": 0.03921268285210998,
+      "grad_norm": 3.5978481769561768,
+      "learning_rate": 1.129891668217783e-05,
+      "loss": 1.2895,
+      "step": 64
+    },
+    {
+      "epoch": 0.0398253810216742,
+      "grad_norm": 3.4568052291870117,
+      "learning_rate": 9.369221296335006e-06,
+      "loss": 1.2123,
+      "step": 65
+    },
+    {
+      "epoch": 0.040438079191238416,
+      "grad_norm": 3.386666774749756,
+      "learning_rate": 7.612046748871327e-06,
+      "loss": 1.4917,
+      "step": 66
+    },
+    {
+      "epoch": 0.041050777360802634,
+      "grad_norm": 4.11414098739624,
+      "learning_rate": 6.030737921409169e-06,
+      "loss": 1.8244,
+      "step": 67
+    },
+    {
+      "epoch": 0.04166347553036685,
+      "grad_norm": 4.072088241577148,
+      "learning_rate": 4.628304925177318e-06,
+      "loss": 1.7772,
+      "step": 68
+    },
+    {
+      "epoch": 0.04227617369993107,
+      "grad_norm": 2.989717721939087,
+      "learning_rate": 3.40741737109318e-06,
+      "loss": 1.3807,
+      "step": 69
+    },
+    {
+      "epoch": 0.04288887186949529,
+      "grad_norm": 3.5867974758148193,
+      "learning_rate": 2.3703992880066638e-06,
+      "loss": 1.6627,
+      "step": 70
+    },
+    {
+      "epoch": 0.04350157003905951,
+      "grad_norm": 3.1271986961364746,
+      "learning_rate": 1.5192246987791981e-06,
+      "loss": 1.164,
+      "step": 71
+    },
+    {
+      "epoch": 0.04411426820862373,
+      "grad_norm": 3.63596248626709,
+      "learning_rate": 8.555138626189618e-07,
+      "loss": 1.4727,
+      "step": 72
+    },
+    {
+      "epoch": 0.044726966378187946,
+      "grad_norm": 3.8074846267700195,
+      "learning_rate": 3.805301908254455e-07,
+      "loss": 1.3727,
+      "step": 73
+    },
+    {
+      "epoch": 0.045339664547752165,
+      "grad_norm": 3.8898539543151855,
+      "learning_rate": 9.517784181422019e-08,
+      "loss": 1.2908,
+      "step": 74
+    },
+    {
+      "epoch": 0.04595236271731638,
+      "grad_norm": 3.450756311416626,
+      "learning_rate": 0.0,
+      "loss": 1.4413,
+      "step": 75
+    },
+    {
+      "epoch": 0.04595236271731638,
+      "eval_loss": 1.600237250328064,
+      "eval_runtime": 103.267,
+      "eval_samples_per_second": 13.315,
+      "eval_steps_per_second": 6.662,
+      "step": 75
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 2.95132603613184e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null