Training in progress, step 75, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +202 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e09d646bba6d9041d398b0b058297681b24a0453d619065b40f5930ff4131a03
 size 50624

 version https://git-lfs.github.com/spec/v1
+oid sha256:06673d8935bbdea3be44732494ee63ebcbd7289b021381186dc05fb14661c542
 size 50624

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2b3533b2a958df3c2562afc2bece72acec9746762958d6e1383332746b572f87
 size 118090

 version https://git-lfs.github.com/spec/v1
+oid sha256:6227fe6670b0d842101e87b56491687c0b30ee60bb63293349608401e812824d
 size 118090

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f31dd9f29536312af5dc98dd2c0d0063677d337f66f041544e9f2f90dd802071
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:dabbf9aa6a48b77d50a7a00b16119f45a1456a85f84a0bfe2dc898f9708a9cd8
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a89ffc445067fef9d6d02bb3ff9e61d5e3209e6fa67c7259b3b364b90dbaa2cd
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f23e2214bcafb439ebc7528dcc283ef6218d509a276c0baff0743503ecbe3d92
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.01633186346562143,
   "eval_steps": 9,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -405,6 +405,205 @@
       "learning_rate": 5.868240888334653e-05,
       "loss": 10.3699,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -424,7 +623,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2981239455744.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.02449779519843214,
   "eval_steps": 9,
+  "global_step": 75,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 5.868240888334653e-05,
       "loss": 10.3699,
       "step": 50
+    },
+    {
+      "epoch": 0.016658500734933857,
+      "grad_norm": 0.04990113526582718,
+      "learning_rate": 5.695865504800327e-05,
+      "loss": 10.3714,
+      "step": 51
+    },
+    {
+      "epoch": 0.016985138004246284,
+      "grad_norm": 0.06637424975633621,
+      "learning_rate": 5.522642316338268e-05,
+      "loss": 10.3688,
+      "step": 52
+    },
+    {
+      "epoch": 0.017311775273558712,
+      "grad_norm": 0.0678475871682167,
+      "learning_rate": 5.348782368720626e-05,
+      "loss": 10.3674,
+      "step": 53
+    },
+    {
+      "epoch": 0.017638412542871143,
+      "grad_norm": 0.07442894577980042,
+      "learning_rate": 5.174497483512506e-05,
+      "loss": 10.3699,
+      "step": 54
+    },
+    {
+      "epoch": 0.017638412542871143,
+      "eval_loss": 10.370558738708496,
+      "eval_runtime": 21.5927,
+      "eval_samples_per_second": 119.392,
+      "eval_steps_per_second": 14.959,
+      "step": 54
+    },
+    {
+      "epoch": 0.01796504981218357,
+      "grad_norm": 0.07772573083639145,
+      "learning_rate": 5e-05,
+      "loss": 10.3699,
+      "step": 55
+    },
+    {
+      "epoch": 0.018291687081496,
+      "grad_norm": 0.060514897108078,
+      "learning_rate": 4.825502516487497e-05,
+      "loss": 10.3688,
+      "step": 56
+    },
+    {
+      "epoch": 0.018618324350808426,
+      "grad_norm": 0.06120225787162781,
+      "learning_rate": 4.6512176312793736e-05,
+      "loss": 10.372,
+      "step": 57
+    },
+    {
+      "epoch": 0.018944961620120857,
+      "grad_norm": 0.0648784339427948,
+      "learning_rate": 4.477357683661734e-05,
+      "loss": 10.3732,
+      "step": 58
+    },
+    {
+      "epoch": 0.019271598889433285,
+      "grad_norm": 0.07190015912055969,
+      "learning_rate": 4.3041344951996746e-05,
+      "loss": 10.371,
+      "step": 59
+    },
+    {
+      "epoch": 0.019598236158745713,
+      "grad_norm": 0.0784253478050232,
+      "learning_rate": 4.131759111665349e-05,
+      "loss": 10.3681,
+      "step": 60
+    },
+    {
+      "epoch": 0.01992487342805814,
+      "grad_norm": 0.07030834257602692,
+      "learning_rate": 3.960441545911204e-05,
+      "loss": 10.3693,
+      "step": 61
+    },
+    {
+      "epoch": 0.02025151069737057,
+      "grad_norm": 0.07749903947114944,
+      "learning_rate": 3.790390522001662e-05,
+      "loss": 10.3697,
+      "step": 62
+    },
+    {
+      "epoch": 0.020578147966683,
+      "grad_norm": 0.07404929399490356,
+      "learning_rate": 3.6218132209150045e-05,
+      "loss": 10.3712,
+      "step": 63
+    },
+    {
+      "epoch": 0.020578147966683,
+      "eval_loss": 10.369466781616211,
+      "eval_runtime": 22.1159,
+      "eval_samples_per_second": 116.568,
+      "eval_steps_per_second": 14.605,
+      "step": 63
+    },
+    {
+      "epoch": 0.020904785235995427,
+      "grad_norm": 0.0778629407286644,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 10.369,
+      "step": 64
+    },
+    {
+      "epoch": 0.021231422505307854,
+      "grad_norm": 0.07116811722517014,
+      "learning_rate": 3.289899283371657e-05,
+      "loss": 10.3683,
+      "step": 65
+    },
+    {
+      "epoch": 0.021558059774620286,
+      "grad_norm": 0.06465199589729309,
+      "learning_rate": 3.12696703292044e-05,
+      "loss": 10.374,
+      "step": 66
+    },
+    {
+      "epoch": 0.021884697043932713,
+      "grad_norm": 0.09270355850458145,
+      "learning_rate": 2.9663167846209998e-05,
+      "loss": 10.3685,
+      "step": 67
+    },
+    {
+      "epoch": 0.02221133431324514,
+      "grad_norm": 0.0799483060836792,
+      "learning_rate": 2.8081442660546125e-05,
+      "loss": 10.3678,
+      "step": 68
+    },
+    {
+      "epoch": 0.02253797158255757,
+      "grad_norm": 0.0683579221367836,
+      "learning_rate": 2.6526421860705473e-05,
+      "loss": 10.3726,
+      "step": 69
+    },
+    {
+      "epoch": 0.02286460885187,
+      "grad_norm": 0.07819787412881851,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 10.3682,
+      "step": 70
+    },
+    {
+      "epoch": 0.023191246121182427,
+      "grad_norm": 0.0755452960729599,
+      "learning_rate": 2.350403678833976e-05,
+      "loss": 10.3687,
+      "step": 71
+    },
+    {
+      "epoch": 0.023517883390494855,
+      "grad_norm": 0.09338651597499847,
+      "learning_rate": 2.2040354826462668e-05,
+      "loss": 10.3684,
+      "step": 72
+    },
+    {
+      "epoch": 0.023517883390494855,
+      "eval_loss": 10.368648529052734,
+      "eval_runtime": 22.1111,
+      "eval_samples_per_second": 116.593,
+      "eval_steps_per_second": 14.608,
+      "step": 72
+    },
+    {
+      "epoch": 0.023844520659807283,
+      "grad_norm": 0.07462280988693237,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 10.3738,
+      "step": 73
+    },
+    {
+      "epoch": 0.024171157929119714,
+      "grad_norm": 0.07140083611011505,
+      "learning_rate": 1.9216926233717085e-05,
+      "loss": 10.3677,
+      "step": 74
+    },
+    {
+      "epoch": 0.02449779519843214,
+      "grad_norm": 0.09304412454366684,
+      "learning_rate": 1.7860619515673033e-05,
+      "loss": 10.3687,
+      "step": 75
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 4498010406912.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null