Training in progress, step 50, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_config.json +5 -5
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +225 -401
last-checkpoint/training_args.bin +1 -1

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -20,13 +20,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "k_proj",
-    "down_proj",
-    "q_proj",
-    "gate_proj",
     "up_proj",
     "v_proj",
-    "o_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "up_proj",
     "v_proj",
+    "o_proj",
+    "q_proj",
+    "down_proj",
+    "gate_proj",
+    "k_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4e091209793459243110477d9b79453c4bafaa92003a432b92672aef52cf4d29
 size 83945296

 version https://git-lfs.github.com/spec/v1
+oid sha256:c23ee6f81dd496aa2a837a563f66f71607eec837c9c178d4351919ddf89c7c59
 size 83945296

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7a80d3a702d920c9d1d698eb3308180707a61b26022b22ecdf692f396f752474
 size 43122580

 version https://git-lfs.github.com/spec/v1
+oid sha256:7b983c4dc1d54aeb8fa04b4467ff343795c06f02e2408d7abb5bedd3c7ea4498
 size 43122580

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5c3449066c51062e3580aecd4101da9ad8e106705402d76bc7d67c630b7508d5
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:1301d8ff77a21126a7a758614a70c01a552c16ba64fe53295c29cdd7bbf62b76
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7362d3d5b178b687d19e464d780e55e8b7b069063a073dfd94da0497a241db57
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:e69e2b49ea642509f0c688c16fb190b7cf27dac0a18903a5e2d1467d0343d8b8
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,569 +1,393 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.05847953216374269,
-  "eval_steps": 2,
   "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.0011695906432748538,
-      "grad_norm": 8.476790428161621,
-      "learning_rate": 1.0000000000000001e-07,
-      "loss": 3.1297,
       "step": 1
     },
     {
-      "epoch": 0.0011695906432748538,
       "eval_loss": 3.3358547687530518,
-      "eval_runtime": 14.0872,
-      "eval_samples_per_second": 6.389,
-      "eval_steps_per_second": 6.389,
       "step": 1
     },
     {
-      "epoch": 0.0023391812865497076,
-      "grad_norm": 11.907588958740234,
-      "learning_rate": 2.0000000000000002e-07,
-      "loss": 3.1984,
-      "step": 2
-    },
-    {
-      "epoch": 0.0023391812865497076,
-      "eval_loss": 3.336097478866577,
-      "eval_runtime": 13.9412,
-      "eval_samples_per_second": 6.456,
-      "eval_steps_per_second": 6.456,
       "step": 2
     },
     {
-      "epoch": 0.0035087719298245615,
-      "grad_norm": 9.732194900512695,
-      "learning_rate": 3.0000000000000004e-07,
-      "loss": 2.9559,
       "step": 3
     },
     {
-      "epoch": 0.004678362573099415,
-      "grad_norm": 8.285279273986816,
-      "learning_rate": 4.0000000000000003e-07,
-      "loss": 2.7216,
-      "step": 4
-    },
-    {
-      "epoch": 0.004678362573099415,
-      "eval_loss": 3.336188793182373,
-      "eval_runtime": 13.9965,
-      "eval_samples_per_second": 6.43,
-      "eval_steps_per_second": 6.43,
       "step": 4
     },
     {
-      "epoch": 0.005847953216374269,
-      "grad_norm": 11.178544044494629,
-      "learning_rate": 5.000000000000001e-07,
-      "loss": 3.3045,
       "step": 5
     },
     {
-      "epoch": 0.007017543859649123,
-      "grad_norm": 31.653640747070312,
-      "learning_rate": 6.000000000000001e-07,
-      "loss": 5.7524,
-      "step": 6
-    },
-    {
-      "epoch": 0.007017543859649123,
-      "eval_loss": 3.3365745544433594,
-      "eval_runtime": 14.1369,
-      "eval_samples_per_second": 6.366,
-      "eval_steps_per_second": 6.366,
       "step": 6
     },
     {
-      "epoch": 0.008187134502923977,
-      "grad_norm": 10.910638809204102,
-      "learning_rate": 7.000000000000001e-07,
-      "loss": 3.5631,
       "step": 7
     },
     {
-      "epoch": 0.00935672514619883,
-      "grad_norm": 12.292998313903809,
-      "learning_rate": 8.000000000000001e-07,
-      "loss": 3.2113,
-      "step": 8
-    },
-    {
-      "epoch": 0.00935672514619883,
-      "eval_loss": 3.335761785507202,
-      "eval_runtime": 14.0918,
-      "eval_samples_per_second": 6.387,
-      "eval_steps_per_second": 6.387,
       "step": 8
     },
     {
-      "epoch": 0.010526315789473684,
-      "grad_norm": 10.52215576171875,
-      "learning_rate": 9e-07,
-      "loss": 3.4784,
       "step": 9
     },
     {
-      "epoch": 0.011695906432748537,
-      "grad_norm": 10.834870338439941,
-      "learning_rate": 1.0000000000000002e-06,
-      "loss": 3.5036,
-      "step": 10
-    },
-    {
-      "epoch": 0.011695906432748537,
-      "eval_loss": 3.335782289505005,
-      "eval_runtime": 14.2442,
-      "eval_samples_per_second": 6.318,
-      "eval_steps_per_second": 6.318,
       "step": 10
     },
     {
-      "epoch": 0.012865497076023392,
-      "grad_norm": 14.306832313537598,
-      "learning_rate": 1.1e-06,
-      "loss": 3.7758,
       "step": 11
     },
     {
-      "epoch": 0.014035087719298246,
-      "grad_norm": 9.94528579711914,
-      "learning_rate": 1.2000000000000002e-06,
-      "loss": 3.173,
-      "step": 12
-    },
-    {
-      "epoch": 0.014035087719298246,
-      "eval_loss": 3.33567476272583,
-      "eval_runtime": 14.2012,
-      "eval_samples_per_second": 6.338,
-      "eval_steps_per_second": 6.338,
       "step": 12
     },
     {
-      "epoch": 0.0152046783625731,
-      "grad_norm": 12.635165214538574,
-      "learning_rate": 1.3e-06,
-      "loss": 2.9429,
       "step": 13
     },
     {
-      "epoch": 0.016374269005847954,
-      "grad_norm": 10.34188461303711,
-      "learning_rate": 1.4000000000000001e-06,
-      "loss": 3.5056,
-      "step": 14
     },
     {
-      "epoch": 0.016374269005847954,
-      "eval_loss": 3.33496356010437,
-      "eval_runtime": 13.9923,
-      "eval_samples_per_second": 6.432,
-      "eval_steps_per_second": 6.432,
       "step": 14
     },
     {
-      "epoch": 0.017543859649122806,
-      "grad_norm": 10.396870613098145,
-      "learning_rate": 1.5e-06,
-      "loss": 3.1286,
       "step": 15
     },
     {
-      "epoch": 0.01871345029239766,
-      "grad_norm": 11.446793556213379,
-      "learning_rate": 1.6000000000000001e-06,
-      "loss": 3.5737,
-      "step": 16
-    },
-    {
-      "epoch": 0.01871345029239766,
-      "eval_loss": 3.333711862564087,
-      "eval_runtime": 13.9756,
-      "eval_samples_per_second": 6.44,
-      "eval_steps_per_second": 6.44,
       "step": 16
     },
     {
-      "epoch": 0.019883040935672516,
-      "grad_norm": 8.924163818359375,
-      "learning_rate": 1.7000000000000002e-06,
-      "loss": 3.246,
       "step": 17
     },
     {
-      "epoch": 0.021052631578947368,
-      "grad_norm": 12.621112823486328,
-      "learning_rate": 1.8e-06,
-      "loss": 3.3298,
-      "step": 18
-    },
-    {
-      "epoch": 0.021052631578947368,
-      "eval_loss": 3.332756996154785,
-      "eval_runtime": 13.9715,
-      "eval_samples_per_second": 6.442,
-      "eval_steps_per_second": 6.442,
       "step": 18
     },
     {
-      "epoch": 0.022222222222222223,
-      "grad_norm": 16.083580017089844,
-      "learning_rate": 1.9e-06,
-      "loss": 3.8307,
       "step": 19
     },
     {
-      "epoch": 0.023391812865497075,
-      "grad_norm": 9.164115905761719,
-      "learning_rate": 2.0000000000000003e-06,
-      "loss": 3.2996,
-      "step": 20
-    },
-    {
-      "epoch": 0.023391812865497075,
-      "eval_loss": 3.3321051597595215,
-      "eval_runtime": 14.0785,
-      "eval_samples_per_second": 6.393,
-      "eval_steps_per_second": 6.393,
       "step": 20
     },
     {
-      "epoch": 0.02456140350877193,
-      "grad_norm": 13.98554801940918,
-      "learning_rate": 2.1000000000000002e-06,
-      "loss": 3.6964,
       "step": 21
     },
     {
-      "epoch": 0.025730994152046785,
-      "grad_norm": 9.490047454833984,
-      "learning_rate": 2.2e-06,
-      "loss": 3.5336,
-      "step": 22
-    },
-    {
-      "epoch": 0.025730994152046785,
-      "eval_loss": 3.330921173095703,
-      "eval_runtime": 13.9892,
-      "eval_samples_per_second": 6.434,
-      "eval_steps_per_second": 6.434,
       "step": 22
     },
     {
-      "epoch": 0.026900584795321637,
-      "grad_norm": 11.965221405029297,
-      "learning_rate": 2.3e-06,
-      "loss": 4.1548,
       "step": 23
     },
     {
-      "epoch": 0.028070175438596492,
-      "grad_norm": 7.872015953063965,
-      "learning_rate": 2.4000000000000003e-06,
-      "loss": 2.6803,
       "step": 24
     },
     {
-      "epoch": 0.028070175438596492,
-      "eval_loss": 3.330366373062134,
-      "eval_runtime": 14.0471,
-      "eval_samples_per_second": 6.407,
-      "eval_steps_per_second": 6.407,
-      "step": 24
-    },
-    {
-      "epoch": 0.029239766081871343,
-      "grad_norm": 15.018107414245605,
-      "learning_rate": 2.5e-06,
-      "loss": 3.3743,
       "step": 25
     },
     {
-      "epoch": 0.0304093567251462,
-      "grad_norm": 8.211061477661133,
-      "learning_rate": 2.6e-06,
-      "loss": 2.9239,
       "step": 26
     },
     {
-      "epoch": 0.0304093567251462,
-      "eval_loss": 3.3289644718170166,
-      "eval_runtime": 14.0324,
-      "eval_samples_per_second": 6.414,
-      "eval_steps_per_second": 6.414,
       "step": 26
     },
     {
-      "epoch": 0.031578947368421054,
-      "grad_norm": 9.60824203491211,
-      "learning_rate": 2.7e-06,
-      "loss": 2.8382,
       "step": 27
     },
     {
-      "epoch": 0.03274853801169591,
-      "grad_norm": 16.03299903869629,
-      "learning_rate": 2.8000000000000003e-06,
-      "loss": 3.9005,
-      "step": 28
-    },
-    {
-      "epoch": 0.03274853801169591,
-      "eval_loss": 3.3265655040740967,
-      "eval_runtime": 13.9247,
-      "eval_samples_per_second": 6.463,
-      "eval_steps_per_second": 6.463,
       "step": 28
     },
     {
-      "epoch": 0.03391812865497076,
-      "grad_norm": 7.8519768714904785,
-      "learning_rate": 2.9e-06,
-      "loss": 2.8852,
       "step": 29
     },
     {
-      "epoch": 0.03508771929824561,
-      "grad_norm": 11.132136344909668,
-      "learning_rate": 3e-06,
-      "loss": 2.6383,
-      "step": 30
-    },
-    {
-      "epoch": 0.03508771929824561,
-      "eval_loss": 3.324815273284912,
-      "eval_runtime": 13.9716,
-      "eval_samples_per_second": 6.442,
-      "eval_steps_per_second": 6.442,
       "step": 30
     },
     {
-      "epoch": 0.03625730994152047,
-      "grad_norm": 10.680882453918457,
-      "learning_rate": 3.1e-06,
-      "loss": 3.8337,
       "step": 31
     },
     {
-      "epoch": 0.03742690058479532,
-      "grad_norm": 10.323698043823242,
-      "learning_rate": 3.2000000000000003e-06,
-      "loss": 3.2712,
-      "step": 32
-    },
-    {
-      "epoch": 0.03742690058479532,
-      "eval_loss": 3.3221709728240967,
-      "eval_runtime": 14.0736,
-      "eval_samples_per_second": 6.395,
-      "eval_steps_per_second": 6.395,
       "step": 32
     },
     {
-      "epoch": 0.03859649122807018,
-      "grad_norm": 11.598480224609375,
-      "learning_rate": 3.3e-06,
-      "loss": 3.2872,
       "step": 33
     },
     {
-      "epoch": 0.03976608187134503,
-      "grad_norm": 11.635000228881836,
-      "learning_rate": 3.4000000000000005e-06,
-      "loss": 3.2332,
-      "step": 34
-    },
-    {
-      "epoch": 0.03976608187134503,
-      "eval_loss": 3.32070255279541,
-      "eval_runtime": 14.048,
-      "eval_samples_per_second": 6.407,
-      "eval_steps_per_second": 6.407,
       "step": 34
     },
     {
-      "epoch": 0.04093567251461988,
-      "grad_norm": 9.629935264587402,
-      "learning_rate": 3.5000000000000004e-06,
-      "loss": 3.4841,
       "step": 35
     },
     {
-      "epoch": 0.042105263157894736,
-      "grad_norm": 9.597766876220703,
-      "learning_rate": 3.6e-06,
-      "loss": 3.2372,
       "step": 36
     },
     {
-      "epoch": 0.042105263157894736,
-      "eval_loss": 3.3169195652008057,
-      "eval_runtime": 14.0422,
-      "eval_samples_per_second": 6.409,
-      "eval_steps_per_second": 6.409,
-      "step": 36
-    },
-    {
-      "epoch": 0.04327485380116959,
-      "grad_norm": 17.730506896972656,
-      "learning_rate": 3.7e-06,
-      "loss": 4.7899,
       "step": 37
     },
     {
-      "epoch": 0.044444444444444446,
-      "grad_norm": 10.158425331115723,
-      "learning_rate": 3.8e-06,
-      "loss": 3.1066,
-      "step": 38
-    },
-    {
-      "epoch": 0.044444444444444446,
-      "eval_loss": 3.313861131668091,
-      "eval_runtime": 14.0748,
-      "eval_samples_per_second": 6.394,
-      "eval_steps_per_second": 6.394,
       "step": 38
     },
     {
-      "epoch": 0.0456140350877193,
-      "grad_norm": 71.36988067626953,
-      "learning_rate": 3.9e-06,
-      "loss": 3.6712,
       "step": 39
     },
     {
-      "epoch": 0.04678362573099415,
-      "grad_norm": 9.100869178771973,
-      "learning_rate": 4.000000000000001e-06,
-      "loss": 3.0616,
-      "step": 40
     },
     {
-      "epoch": 0.04678362573099415,
-      "eval_loss": 3.3106253147125244,
-      "eval_runtime": 14.0735,
-      "eval_samples_per_second": 6.395,
-      "eval_steps_per_second": 6.395,
       "step": 40
     },
     {
-      "epoch": 0.047953216374269005,
-      "grad_norm": 11.145156860351562,
-      "learning_rate": 4.1000000000000006e-06,
-      "loss": 3.4375,
       "step": 41
     },
     {
-      "epoch": 0.04912280701754386,
-      "grad_norm": 12.307095527648926,
-      "learning_rate": 4.2000000000000004e-06,
-      "loss": 2.689,
-      "step": 42
-    },
-    {
-      "epoch": 0.04912280701754386,
-      "eval_loss": 3.3057522773742676,
-      "eval_runtime": 13.9972,
-      "eval_samples_per_second": 6.43,
-      "eval_steps_per_second": 6.43,
       "step": 42
     },
     {
-      "epoch": 0.050292397660818715,
-      "grad_norm": 11.216985702514648,
-      "learning_rate": 4.2999999999999995e-06,
-      "loss": 2.7962,
       "step": 43
     },
     {
-      "epoch": 0.05146198830409357,
-      "grad_norm": 11.059319496154785,
-      "learning_rate": 4.4e-06,
-      "loss": 2.7182,
-      "step": 44
-    },
-    {
-      "epoch": 0.05146198830409357,
-      "eval_loss": 3.300640821456909,
-      "eval_runtime": 13.9132,
-      "eval_samples_per_second": 6.469,
-      "eval_steps_per_second": 6.469,
       "step": 44
     },
     {
-      "epoch": 0.05263157894736842,
-      "grad_norm": 10.133870124816895,
-      "learning_rate": 4.5e-06,
-      "loss": 2.9549,
       "step": 45
     },
     {
-      "epoch": 0.05380116959064327,
-      "grad_norm": 9.002756118774414,
-      "learning_rate": 4.6e-06,
-      "loss": 3.1854,
       "step": 46
     },
     {
-      "epoch": 0.05380116959064327,
-      "eval_loss": 3.294647455215454,
-      "eval_runtime": 13.9772,
-      "eval_samples_per_second": 6.439,
-      "eval_steps_per_second": 6.439,
-      "step": 46
-    },
-    {
-      "epoch": 0.05497076023391813,
-      "grad_norm": 11.244136810302734,
-      "learning_rate": 4.7e-06,
-      "loss": 3.8369,
       "step": 47
     },
     {
-      "epoch": 0.056140350877192984,
-      "grad_norm": 9.751367568969727,
-      "learning_rate": 4.800000000000001e-06,
-      "loss": 3.5293,
-      "step": 48
-    },
-    {
-      "epoch": 0.056140350877192984,
-      "eval_loss": 3.2886362075805664,
-      "eval_runtime": 13.9805,
-      "eval_samples_per_second": 6.438,
-      "eval_steps_per_second": 6.438,
       "step": 48
     },
     {
-      "epoch": 0.05730994152046784,
-      "grad_norm": 13.132854461669922,
-      "learning_rate": 4.9000000000000005e-06,
-      "loss": 3.4583,
       "step": 49
     },
     {
-      "epoch": 0.05847953216374269,
-      "grad_norm": 13.29298210144043,
-      "learning_rate": 5e-06,
-      "loss": 3.3806,
-      "step": 50
-    },
-    {
-      "epoch": 0.05847953216374269,
-      "eval_loss": 3.2816646099090576,
-      "eval_runtime": 14.0016,
-      "eval_samples_per_second": 6.428,
-      "eval_steps_per_second": 6.428,
       "step": 50
     }
   ],
@@ -571,7 +395,7 @@
   "max_steps": 50,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
-  "save_steps": 2,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
@@ -584,7 +408,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1068798207590400.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.4678362573099415,
+  "eval_steps": 13,
   "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.00935672514619883,
+      "grad_norm": 4.390414714813232,
+      "learning_rate": 2e-05,
+      "loss": 3.2142,
       "step": 1
     },
     {
+      "epoch": 0.00935672514619883,
       "eval_loss": 3.3358547687530518,
+      "eval_runtime": 13.9154,
+      "eval_samples_per_second": 6.468,
+      "eval_steps_per_second": 6.468,
       "step": 1
     },
     {
+      "epoch": 0.01871345029239766,
+      "grad_norm": 4.702328205108643,
+      "learning_rate": 4e-05,
+      "loss": 3.3766,
       "step": 2
     },
     {
+      "epoch": 0.028070175438596492,
+      "grad_norm": 3.9439697265625,
+      "learning_rate": 6e-05,
+      "loss": 3.3938,
       "step": 3
     },
     {
+      "epoch": 0.03742690058479532,
+      "grad_norm": 3.85864520072937,
+      "learning_rate": 8e-05,
+      "loss": 3.0785,
       "step": 4
     },
     {
+      "epoch": 0.04678362573099415,
+      "grad_norm": 4.246149063110352,
+      "learning_rate": 0.0001,
+      "loss": 3.3005,
       "step": 5
     },
     {
+      "epoch": 0.056140350877192984,
+      "grad_norm": 3.976107597351074,
+      "learning_rate": 0.00012,
+      "loss": 3.0138,
       "step": 6
     },
     {
+      "epoch": 0.06549707602339182,
+      "grad_norm": 4.311132907867432,
+      "learning_rate": 0.00014,
+      "loss": 3.0914,
       "step": 7
     },
     {
+      "epoch": 0.07485380116959064,
+      "grad_norm": 3.888803482055664,
+      "learning_rate": 0.00016,
+      "loss": 2.9978,
       "step": 8
     },
     {
+      "epoch": 0.08421052631578947,
+      "grad_norm": 3.422027826309204,
+      "learning_rate": 0.00018,
+      "loss": 2.9429,
       "step": 9
     },
     {
+      "epoch": 0.0935672514619883,
+      "grad_norm": 3.8653438091278076,
+      "learning_rate": 0.0002,
+      "loss": 2.7896,
       "step": 10
     },
     {
+      "epoch": 0.10292397660818714,
+      "grad_norm": 3.4567666053771973,
+      "learning_rate": 0.0001996917333733128,
+      "loss": 2.8054,
       "step": 11
     },
     {
+      "epoch": 0.11228070175438597,
+      "grad_norm": 3.503476619720459,
+      "learning_rate": 0.00019876883405951377,
+      "loss": 2.6823,
       "step": 12
     },
     {
+      "epoch": 0.1216374269005848,
+      "grad_norm": 3.275860548019409,
+      "learning_rate": 0.00019723699203976766,
+      "loss": 2.6355,
       "step": 13
     },
     {
+      "epoch": 0.1216374269005848,
+      "eval_loss": 2.705251932144165,
+      "eval_runtime": 14.0018,
+      "eval_samples_per_second": 6.428,
+      "eval_steps_per_second": 6.428,
+      "step": 13
     },
     {
+      "epoch": 0.13099415204678364,
+      "grad_norm": 3.013310432434082,
+      "learning_rate": 0.00019510565162951537,
+      "loss": 2.7933,
       "step": 14
     },
     {
+      "epoch": 0.14035087719298245,
+      "grad_norm": 2.840459108352661,
+      "learning_rate": 0.0001923879532511287,
+      "loss": 2.5431,
       "step": 15
     },
     {
+      "epoch": 0.1497076023391813,
+      "grad_norm": 2.7099273204803467,
+      "learning_rate": 0.0001891006524188368,
+      "loss": 2.7605,
       "step": 16
     },
     {
+      "epoch": 0.15906432748538013,
+      "grad_norm": 3.015941858291626,
+      "learning_rate": 0.00018526401643540922,
+      "loss": 2.7942,
       "step": 17
     },
     {
+      "epoch": 0.16842105263157894,
+      "grad_norm": 2.8122756481170654,
+      "learning_rate": 0.00018090169943749476,
+      "loss": 2.4924,
       "step": 18
     },
     {
+      "epoch": 0.17777777777777778,
+      "grad_norm": 3.007946729660034,
+      "learning_rate": 0.0001760405965600031,
+      "loss": 2.603,
       "step": 19
     },
     {
+      "epoch": 0.1871345029239766,
+      "grad_norm": 2.713869571685791,
+      "learning_rate": 0.00017071067811865476,
+      "loss": 2.6412,
       "step": 20
     },
     {
+      "epoch": 0.19649122807017544,
+      "grad_norm": 3.0754899978637695,
+      "learning_rate": 0.00016494480483301836,
+      "loss": 2.7249,
       "step": 21
     },
     {
+      "epoch": 0.20584795321637428,
+      "grad_norm": 2.7693493366241455,
+      "learning_rate": 0.00015877852522924732,
+      "loss": 2.4397,
       "step": 22
     },
     {
+      "epoch": 0.2152046783625731,
+      "grad_norm": 3.2417685985565186,
+      "learning_rate": 0.0001522498564715949,
+      "loss": 2.6893,
       "step": 23
     },
     {
+      "epoch": 0.22456140350877193,
+      "grad_norm": 2.7010700702667236,
+      "learning_rate": 0.00014539904997395468,
+      "loss": 2.5236,
       "step": 24
     },
     {
+      "epoch": 0.23391812865497075,
+      "grad_norm": 2.3874123096466064,
+      "learning_rate": 0.000138268343236509,
+      "loss": 2.6103,
       "step": 25
     },
     {
+      "epoch": 0.2432748538011696,
+      "grad_norm": 2.6382222175598145,
+      "learning_rate": 0.00013090169943749476,
+      "loss": 2.5479,
       "step": 26
     },
     {
+      "epoch": 0.2432748538011696,
+      "eval_loss": 2.524278163909912,
+      "eval_runtime": 14.0548,
+      "eval_samples_per_second": 6.404,
+      "eval_steps_per_second": 6.404,
       "step": 26
     },
     {
+      "epoch": 0.25263157894736843,
+      "grad_norm": 2.8567240238189697,
+      "learning_rate": 0.00012334453638559057,
+      "loss": 2.5996,
       "step": 27
     },
     {
+      "epoch": 0.26198830409356727,
+      "grad_norm": 2.801514148712158,
+      "learning_rate": 0.0001156434465040231,
+      "loss": 2.418,
       "step": 28
     },
     {
+      "epoch": 0.27134502923976606,
+      "grad_norm": 2.5751523971557617,
+      "learning_rate": 0.0001078459095727845,
+      "loss": 2.3009,
       "step": 29
     },
     {
+      "epoch": 0.2807017543859649,
+      "grad_norm": 2.7880630493164062,
+      "learning_rate": 0.0001,
+      "loss": 2.6674,
       "step": 30
     },
     {
+      "epoch": 0.29005847953216374,
+      "grad_norm": 2.797865152359009,
+      "learning_rate": 9.215409042721552e-05,
+      "loss": 2.2681,
       "step": 31
     },
     {
+      "epoch": 0.2994152046783626,
+      "grad_norm": 2.4833743572235107,
+      "learning_rate": 8.435655349597689e-05,
+      "loss": 2.3812,
       "step": 32
     },
     {
+      "epoch": 0.3087719298245614,
+      "grad_norm": 2.8263983726501465,
+      "learning_rate": 7.66554636144095e-05,
+      "loss": 2.3514,
       "step": 33
     },
     {
+      "epoch": 0.31812865497076026,
+      "grad_norm": 2.8448684215545654,
+      "learning_rate": 6.909830056250527e-05,
+      "loss": 2.4968,
       "step": 34
     },
     {
+      "epoch": 0.32748538011695905,
+      "grad_norm": 2.7989699840545654,
+      "learning_rate": 6.173165676349103e-05,
+      "loss": 2.3572,
       "step": 35
     },
     {
+      "epoch": 0.3368421052631579,
+      "grad_norm": 2.8134164810180664,
+      "learning_rate": 5.4600950026045326e-05,
+      "loss": 2.4871,
       "step": 36
     },
     {
+      "epoch": 0.34619883040935673,
+      "grad_norm": 2.7917492389678955,
+      "learning_rate": 4.7750143528405126e-05,
+      "loss": 2.5673,
       "step": 37
     },
     {
+      "epoch": 0.35555555555555557,
+      "grad_norm": 2.7606780529022217,
+      "learning_rate": 4.12214747707527e-05,
+      "loss": 2.4209,
       "step": 38
     },
     {
+      "epoch": 0.3649122807017544,
+      "grad_norm": 2.731044054031372,
+      "learning_rate": 3.5055195166981645e-05,
+      "loss": 2.3921,
       "step": 39
     },
     {
+      "epoch": 0.3649122807017544,
+      "eval_loss": 2.4570887088775635,
+      "eval_runtime": 13.8846,
+      "eval_samples_per_second": 6.482,
+      "eval_steps_per_second": 6.482,
+      "step": 39
     },
     {
+      "epoch": 0.3742690058479532,
+      "grad_norm": 2.5024521350860596,
+      "learning_rate": 2.9289321881345254e-05,
+      "loss": 2.4786,
       "step": 40
     },
     {
+      "epoch": 0.38362573099415204,
+      "grad_norm": 2.737299919128418,
+      "learning_rate": 2.3959403439996907e-05,
+      "loss": 2.5444,
       "step": 41
     },
     {
+      "epoch": 0.3929824561403509,
+      "grad_norm": 2.6610891819000244,
+      "learning_rate": 1.9098300562505266e-05,
+      "loss": 2.3979,
       "step": 42
     },
     {
+      "epoch": 0.4023391812865497,
+      "grad_norm": 2.5578110218048096,
+      "learning_rate": 1.4735983564590783e-05,
+      "loss": 2.5223,
       "step": 43
     },
     {
+      "epoch": 0.41169590643274856,
+      "grad_norm": 2.6688404083251953,
+      "learning_rate": 1.0899347581163221e-05,
+      "loss": 2.3434,
       "step": 44
     },
     {
+      "epoch": 0.42105263157894735,
+      "grad_norm": 2.8133082389831543,
+      "learning_rate": 7.612046748871327e-06,
+      "loss": 2.6974,
       "step": 45
     },
     {
+      "epoch": 0.4304093567251462,
+      "grad_norm": 3.1550958156585693,
+      "learning_rate": 4.8943483704846475e-06,
+      "loss": 2.8442,
       "step": 46
     },
     {
+      "epoch": 0.439766081871345,
+      "grad_norm": 2.393209218978882,
+      "learning_rate": 2.7630079602323442e-06,
+      "loss": 2.3097,
       "step": 47
     },
     {
+      "epoch": 0.44912280701754387,
+      "grad_norm": 2.543856382369995,
+      "learning_rate": 1.231165940486234e-06,
+      "loss": 2.3707,
       "step": 48
     },
     {
+      "epoch": 0.4584795321637427,
+      "grad_norm": 2.64045786857605,
+      "learning_rate": 3.0826662668720364e-07,
+      "loss": 2.6261,
       "step": 49
     },
     {
+      "epoch": 0.4678362573099415,
+      "grad_norm": 2.683619976043701,
+      "learning_rate": 0.0,
+      "loss": 2.5441,
       "step": 50
     }
   ],
   "max_steps": 50,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
+  "save_steps": 13,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
       "attributes": {}
     }
   },
+  "total_flos": 8696642257551360.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:98f0f0c46bb8a8aea130ec5fac61dac3c1395e8dd1d272da8feeb25551e173ef
 size 6776

 version https://git-lfs.github.com/spec/v1
+oid sha256:dcda8f02659f8934defef4e265587a384ef2bea0c9e7337b7be092c1ae1125f1
 size 6776