Training in progress, step 75, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +202 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b5293ed72039fb0272f31d66cb705086e98cb6436b0bdb5d9923973bed34938a
 size 200068512

 version https://git-lfs.github.com/spec/v1
+oid sha256:5a60e68f65ff19a7e997a2b5bf40262286c8f7e70d955a10c368f51b9f7c2563
 size 200068512

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc00421c2766662ff7a0f2ee36c03b60e9c3cfc2fb84d3ffa69a67e69ce4ac3c
 size 400361770

 version https://git-lfs.github.com/spec/v1
+oid sha256:b25831648559f7afe0be12a452c6a91c7c2393d9e0c6bfac35160b92b2a4cd3b
 size 400361770

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:83bab428aee60a144e7fa438d458eef40c3326f2b73b20c2468c4cdfe2ee47ae
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:fb90bb4d2db4af51a5734fc97c9ce77184403bc5227c2cbf1c3e578e947ebdea
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a89ffc445067fef9d6d02bb3ff9e61d5e3209e6fa67c7259b3b364b90dbaa2cd
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f23e2214bcafb439ebc7528dcc283ef6218d509a276c0baff0743503ecbe3d92
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.09140767824497258,
   "eval_steps": 9,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -405,6 +405,205 @@
       "learning_rate": 5.868240888334653e-05,
       "loss": 0.685,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -424,7 +623,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.83447180771328e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.13711151736745886,
   "eval_steps": 9,
+  "global_step": 75,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 5.868240888334653e-05,
       "loss": 0.685,
       "step": 50
+    },
+    {
+      "epoch": 0.09323583180987204,
+      "grad_norm": 1.3918739557266235,
+      "learning_rate": 5.695865504800327e-05,
+      "loss": 0.6061,
+      "step": 51
+    },
+    {
+      "epoch": 0.09506398537477148,
+      "grad_norm": 1.3472814559936523,
+      "learning_rate": 5.522642316338268e-05,
+      "loss": 0.6214,
+      "step": 52
+    },
+    {
+      "epoch": 0.09689213893967093,
+      "grad_norm": 1.3871572017669678,
+      "learning_rate": 5.348782368720626e-05,
+      "loss": 0.6313,
+      "step": 53
+    },
+    {
+      "epoch": 0.09872029250457039,
+      "grad_norm": 1.3942546844482422,
+      "learning_rate": 5.174497483512506e-05,
+      "loss": 0.6416,
+      "step": 54
+    },
+    {
+      "epoch": 0.09872029250457039,
+      "eval_loss": 0.6498388648033142,
+      "eval_runtime": 65.8779,
+      "eval_samples_per_second": 6.998,
+      "eval_steps_per_second": 0.88,
+      "step": 54
+    },
+    {
+      "epoch": 0.10054844606946983,
+      "grad_norm": 1.36981201171875,
+      "learning_rate": 5e-05,
+      "loss": 0.6073,
+      "step": 55
+    },
+    {
+      "epoch": 0.10237659963436929,
+      "grad_norm": 1.2767627239227295,
+      "learning_rate": 4.825502516487497e-05,
+      "loss": 0.6272,
+      "step": 56
+    },
+    {
+      "epoch": 0.10420475319926874,
+      "grad_norm": 1.4287116527557373,
+      "learning_rate": 4.6512176312793736e-05,
+      "loss": 0.6646,
+      "step": 57
+    },
+    {
+      "epoch": 0.10603290676416818,
+      "grad_norm": 1.3621071577072144,
+      "learning_rate": 4.477357683661734e-05,
+      "loss": 0.7029,
+      "step": 58
+    },
+    {
+      "epoch": 0.10786106032906764,
+      "grad_norm": 1.4007452726364136,
+      "learning_rate": 4.3041344951996746e-05,
+      "loss": 0.6084,
+      "step": 59
+    },
+    {
+      "epoch": 0.10968921389396709,
+      "grad_norm": 1.3651444911956787,
+      "learning_rate": 4.131759111665349e-05,
+      "loss": 0.6416,
+      "step": 60
+    },
+    {
+      "epoch": 0.11151736745886655,
+      "grad_norm": 1.371893286705017,
+      "learning_rate": 3.960441545911204e-05,
+      "loss": 0.64,
+      "step": 61
+    },
+    {
+      "epoch": 0.113345521023766,
+      "grad_norm": 1.320582628250122,
+      "learning_rate": 3.790390522001662e-05,
+      "loss": 0.5838,
+      "step": 62
+    },
+    {
+      "epoch": 0.11517367458866545,
+      "grad_norm": 1.489526391029358,
+      "learning_rate": 3.6218132209150045e-05,
+      "loss": 0.743,
+      "step": 63
+    },
+    {
+      "epoch": 0.11517367458866545,
+      "eval_loss": 0.632634162902832,
+      "eval_runtime": 65.9467,
+      "eval_samples_per_second": 6.99,
+      "eval_steps_per_second": 0.879,
+      "step": 63
+    },
+    {
+      "epoch": 0.1170018281535649,
+      "grad_norm": 1.4206615686416626,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 0.6447,
+      "step": 64
+    },
+    {
+      "epoch": 0.11882998171846434,
+      "grad_norm": 1.3722271919250488,
+      "learning_rate": 3.289899283371657e-05,
+      "loss": 0.6066,
+      "step": 65
+    },
+    {
+      "epoch": 0.1206581352833638,
+      "grad_norm": 1.4413255453109741,
+      "learning_rate": 3.12696703292044e-05,
+      "loss": 0.567,
+      "step": 66
+    },
+    {
+      "epoch": 0.12248628884826325,
+      "grad_norm": 1.2582032680511475,
+      "learning_rate": 2.9663167846209998e-05,
+      "loss": 0.5628,
+      "step": 67
+    },
+    {
+      "epoch": 0.12431444241316271,
+      "grad_norm": 1.5137399435043335,
+      "learning_rate": 2.8081442660546125e-05,
+      "loss": 0.615,
+      "step": 68
+    },
+    {
+      "epoch": 0.12614259597806216,
+      "grad_norm": 1.4835834503173828,
+      "learning_rate": 2.6526421860705473e-05,
+      "loss": 0.6619,
+      "step": 69
+    },
+    {
+      "epoch": 0.12797074954296161,
+      "grad_norm": 1.2490266561508179,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 0.5641,
+      "step": 70
+    },
+    {
+      "epoch": 0.12979890310786105,
+      "grad_norm": 1.3015044927597046,
+      "learning_rate": 2.350403678833976e-05,
+      "loss": 0.5771,
+      "step": 71
+    },
+    {
+      "epoch": 0.1316270566727605,
+      "grad_norm": 1.284609317779541,
+      "learning_rate": 2.2040354826462668e-05,
+      "loss": 0.5642,
+      "step": 72
+    },
+    {
+      "epoch": 0.1316270566727605,
+      "eval_loss": 0.610695481300354,
+      "eval_runtime": 65.8956,
+      "eval_samples_per_second": 6.996,
+      "eval_steps_per_second": 0.88,
+      "step": 72
+    },
+    {
+      "epoch": 0.13345521023765997,
+      "grad_norm": 1.3459687232971191,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 0.6421,
+      "step": 73
+    },
+    {
+      "epoch": 0.13528336380255943,
+      "grad_norm": 1.2567322254180908,
+      "learning_rate": 1.9216926233717085e-05,
+      "loss": 0.5645,
+      "step": 74
+    },
+    {
+      "epoch": 0.13711151736745886,
+      "grad_norm": 1.2956007719039917,
+      "learning_rate": 1.7860619515673033e-05,
+      "loss": 0.5018,
+      "step": 75
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 5.75170771156992e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null