Training in progress, step 75, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +186 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d49def9cc32d2020c862170ab6e071e45970f68bf0828a71a1e5bfe1e68158b5
 size 83945296

 version https://git-lfs.github.com/spec/v1
+oid sha256:08c8dfa6409cf0e41673fd2e6bec4829a2714c3a27387af5dac2434dee5f2968
 size 83945296

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5ab8aa4f77d37479f722eeefec8be90ba2b06d4e3eaec252dd13d5116df31863
 size 43122580

 version https://git-lfs.github.com/spec/v1
+oid sha256:55451ad3736ea9fdea0a3c49d7be68efecd307dc38896a7014636dc55fa6869c
 size 43122580

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a94f17b84a2a153300a730dbbb93a1452695fbc57cc338b21412c031fc784729
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:1c1a4adb1b1ce84bf3c63fcc11644b695c4c5059b5073a8fbe3711b1a33b7ecf
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b8eccac390378b22aeb148c260b00bec01d948946d8363d5282899af673e0e86
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:beb167787cdd9594eed637547cf4a56f4a4d8ea359757a120c76bb5d91190782
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.4678362573099415,
   "eval_steps": 25,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -381,6 +381,189 @@
       "eval_samples_per_second": 6.446,
       "eval_steps_per_second": 6.446,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -400,7 +583,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8696642257551360.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.7017543859649122,
   "eval_steps": 25,
+  "global_step": 75,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 6.446,
       "eval_steps_per_second": 6.446,
       "step": 50
+    },
+    {
+      "epoch": 0.47719298245614034,
+      "grad_norm": 2.4833006858825684,
+      "learning_rate": 0.00011391731009600654,
+      "loss": 2.6256,
+      "step": 51
+    },
+    {
+      "epoch": 0.4865497076023392,
+      "grad_norm": 2.2681424617767334,
+      "learning_rate": 0.00011045284632676536,
+      "loss": 2.3367,
+      "step": 52
+    },
+    {
+      "epoch": 0.495906432748538,
+      "grad_norm": 2.4194841384887695,
+      "learning_rate": 0.00010697564737441252,
+      "loss": 2.3812,
+      "step": 53
+    },
+    {
+      "epoch": 0.5052631578947369,
+      "grad_norm": 2.4216341972351074,
+      "learning_rate": 0.00010348994967025012,
+      "loss": 2.6421,
+      "step": 54
+    },
+    {
+      "epoch": 0.5146198830409356,
+      "grad_norm": 2.5757429599761963,
+      "learning_rate": 0.0001,
+      "loss": 2.7692,
+      "step": 55
+    },
+    {
+      "epoch": 0.5239766081871345,
+      "grad_norm": 2.352524757385254,
+      "learning_rate": 9.651005032974994e-05,
+      "loss": 2.1221,
+      "step": 56
+    },
+    {
+      "epoch": 0.5333333333333333,
+      "grad_norm": 2.435523271560669,
+      "learning_rate": 9.302435262558747e-05,
+      "loss": 2.5788,
+      "step": 57
+    },
+    {
+      "epoch": 0.5426900584795321,
+      "grad_norm": 2.124344825744629,
+      "learning_rate": 8.954715367323468e-05,
+      "loss": 2.2217,
+      "step": 58
+    },
+    {
+      "epoch": 0.552046783625731,
+      "grad_norm": 2.3110225200653076,
+      "learning_rate": 8.608268990399349e-05,
+      "loss": 2.4934,
+      "step": 59
+    },
+    {
+      "epoch": 0.5614035087719298,
+      "grad_norm": 2.773723840713501,
+      "learning_rate": 8.263518223330697e-05,
+      "loss": 2.8535,
+      "step": 60
+    },
+    {
+      "epoch": 0.5707602339181287,
+      "grad_norm": 2.4425599575042725,
+      "learning_rate": 7.920883091822408e-05,
+      "loss": 2.6014,
+      "step": 61
+    },
+    {
+      "epoch": 0.5801169590643275,
+      "grad_norm": 2.4114837646484375,
+      "learning_rate": 7.580781044003324e-05,
+      "loss": 2.2151,
+      "step": 62
+    },
+    {
+      "epoch": 0.5894736842105263,
+      "grad_norm": 2.333024024963379,
+      "learning_rate": 7.243626441830009e-05,
+      "loss": 2.3344,
+      "step": 63
+    },
+    {
+      "epoch": 0.5988304093567252,
+      "grad_norm": 2.4764840602874756,
+      "learning_rate": 6.909830056250527e-05,
+      "loss": 2.5599,
+      "step": 64
+    },
+    {
+      "epoch": 0.6081871345029239,
+      "grad_norm": 2.4353721141815186,
+      "learning_rate": 6.579798566743314e-05,
+      "loss": 2.0338,
+      "step": 65
+    },
+    {
+      "epoch": 0.6175438596491228,
+      "grad_norm": 2.4556148052215576,
+      "learning_rate": 6.25393406584088e-05,
+      "loss": 2.0903,
+      "step": 66
+    },
+    {
+      "epoch": 0.6269005847953216,
+      "grad_norm": 2.566187858581543,
+      "learning_rate": 5.9326335692419995e-05,
+      "loss": 2.4776,
+      "step": 67
+    },
+    {
+      "epoch": 0.6362573099415205,
+      "grad_norm": 3.249467611312866,
+      "learning_rate": 5.616288532109225e-05,
+      "loss": 2.4283,
+      "step": 68
+    },
+    {
+      "epoch": 0.6456140350877193,
+      "grad_norm": 2.354640483856201,
+      "learning_rate": 5.305284372141095e-05,
+      "loss": 2.2281,
+      "step": 69
+    },
+    {
+      "epoch": 0.6549707602339181,
+      "grad_norm": 2.517160177230835,
+      "learning_rate": 5.000000000000002e-05,
+      "loss": 2.2233,
+      "step": 70
+    },
+    {
+      "epoch": 0.664327485380117,
+      "grad_norm": 2.740892171859741,
+      "learning_rate": 4.700807357667952e-05,
+      "loss": 2.4251,
+      "step": 71
+    },
+    {
+      "epoch": 0.6736842105263158,
+      "grad_norm": 2.4594883918762207,
+      "learning_rate": 4.4080709652925336e-05,
+      "loss": 2.5892,
+      "step": 72
+    },
+    {
+      "epoch": 0.6830409356725147,
+      "grad_norm": 2.5558207035064697,
+      "learning_rate": 4.12214747707527e-05,
+      "loss": 2.5979,
+      "step": 73
+    },
+    {
+      "epoch": 0.6923976608187135,
+      "grad_norm": 2.260289192199707,
+      "learning_rate": 3.843385246743417e-05,
+      "loss": 2.3547,
+      "step": 74
+    },
+    {
+      "epoch": 0.7017543859649122,
+      "grad_norm": 2.2581794261932373,
+      "learning_rate": 3.5721239031346066e-05,
+      "loss": 2.3779,
+      "step": 75
+    },
+    {
+      "epoch": 0.7017543859649122,
+      "eval_loss": 2.32470965385437,
+      "eval_runtime": 14.0307,
+      "eval_samples_per_second": 6.414,
+      "eval_steps_per_second": 6.414,
+      "step": 75
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.305621389377536e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null