Training in progress, step 75, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +188 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:46be7a31595c201454556404cb2db625c070b2fb49b0830deff3ae5d0ac4e4fa
 size 167832240

 version https://git-lfs.github.com/spec/v1
+oid sha256:922da36b842124de3eb9e375f22e1b003d3718de1d1a238368b93ad59dff4975
 size 167832240

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3fb02ac8b29f945a86f4b84822b7853a006158a547a44b2dd5bf701944103325
 size 335922386

 version https://git-lfs.github.com/spec/v1
+oid sha256:9f70abbc6da3dee4d41b9020b8acca82df530748073512e535afa1a8faf1c792
 size 335922386

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6c8f2cd7bc52682dea58fb7482fcdc339d16e7a6adac224fb7d3f20f0b785e05
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:dd21880966cccdd2052ff078d28cfc1250e11736878bcfc1efab4d384ab0abf9
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9567f2f3182e832808fd621212e0dd5e8f1a88bd24ddda3ea0d289496073738c
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:67bdc1680e75e7cf9661cc84482edc217f841c56aca5f9a3979c1c72a436f392
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.380575567483902,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.0010057781957344947,
   "eval_steps": 25,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -381,6 +381,189 @@
       "eval_samples_per_second": 3.508,
       "eval_steps_per_second": 1.754,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -409,7 +592,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.455967199782502e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.35070064663887024,
+  "best_model_checkpoint": "miner_id_24/checkpoint-75",
+  "epoch": 0.001508667293601742,
   "eval_steps": 25,
+  "global_step": 75,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 3.508,
       "eval_steps_per_second": 1.754,
       "step": 50
+    },
+    {
+      "epoch": 0.0010258937596491846,
+      "grad_norm": 0.38414570689201355,
+      "learning_rate": 0.00010495837546732224,
+      "loss": 0.2282,
+      "step": 51
+    },
+    {
+      "epoch": 0.0010460093235638746,
+      "grad_norm": 0.3211899995803833,
+      "learning_rate": 0.00010165339447663587,
+      "loss": 0.1184,
+      "step": 52
+    },
+    {
+      "epoch": 0.0010661248874785643,
+      "grad_norm": 0.9627249836921692,
+      "learning_rate": 9.834660552336415e-05,
+      "loss": 0.4364,
+      "step": 53
+    },
+    {
+      "epoch": 0.0010862404513932542,
+      "grad_norm": 0.7375980615615845,
+      "learning_rate": 9.504162453267777e-05,
+      "loss": 0.3803,
+      "step": 54
+    },
+    {
+      "epoch": 0.0011063560153079441,
+      "grad_norm": 0.5468074083328247,
+      "learning_rate": 9.174206545276677e-05,
+      "loss": 0.2981,
+      "step": 55
+    },
+    {
+      "epoch": 0.001126471579222634,
+      "grad_norm": 0.7391518950462341,
+      "learning_rate": 8.845153630304139e-05,
+      "loss": 0.1971,
+      "step": 56
+    },
+    {
+      "epoch": 0.001146587143137324,
+      "grad_norm": 0.7402855157852173,
+      "learning_rate": 8.517363522881579e-05,
+      "loss": 0.369,
+      "step": 57
+    },
+    {
+      "epoch": 0.0011667027070520139,
+      "grad_norm": 0.6873307228088379,
+      "learning_rate": 8.191194656678904e-05,
+      "loss": 0.2407,
+      "step": 58
+    },
+    {
+      "epoch": 0.0011868182709667038,
+      "grad_norm": 0.8516045808792114,
+      "learning_rate": 7.867003692562534e-05,
+      "loss": 0.456,
+      "step": 59
+    },
+    {
+      "epoch": 0.0012069338348813937,
+      "grad_norm": 0.7615935802459717,
+      "learning_rate": 7.54514512859201e-05,
+      "loss": 0.3219,
+      "step": 60
+    },
+    {
+      "epoch": 0.0012270493987960834,
+      "grad_norm": 0.8060344457626343,
+      "learning_rate": 7.225970912381556e-05,
+      "loss": 0.3268,
+      "step": 61
+    },
+    {
+      "epoch": 0.0012471649627107733,
+      "grad_norm": 0.8558330535888672,
+      "learning_rate": 6.909830056250527e-05,
+      "loss": 0.3541,
+      "step": 62
+    },
+    {
+      "epoch": 0.0012672805266254633,
+      "grad_norm": 0.6157307028770447,
+      "learning_rate": 6.59706825558357e-05,
+      "loss": 0.2617,
+      "step": 63
+    },
+    {
+      "epoch": 0.0012873960905401532,
+      "grad_norm": 0.7628781795501709,
+      "learning_rate": 6.28802751081779e-05,
+      "loss": 0.2967,
+      "step": 64
+    },
+    {
+      "epoch": 0.001307511654454843,
+      "grad_norm": 0.7932960391044617,
+      "learning_rate": 5.983045753470308e-05,
+      "loss": 0.1853,
+      "step": 65
+    },
+    {
+      "epoch": 0.001327627218369533,
+      "grad_norm": 0.81103515625,
+      "learning_rate": 5.6824564766150726e-05,
+      "loss": 0.4439,
+      "step": 66
+    },
+    {
+      "epoch": 0.001347742782284223,
+      "grad_norm": 0.5632208585739136,
+      "learning_rate": 5.386588370213124e-05,
+      "loss": 0.1508,
+      "step": 67
+    },
+    {
+      "epoch": 0.0013678583461989129,
+      "grad_norm": 2.1608479022979736,
+      "learning_rate": 5.095764961694922e-05,
+      "loss": 0.7052,
+      "step": 68
+    },
+    {
+      "epoch": 0.0013879739101136026,
+      "grad_norm": 0.8930830955505371,
+      "learning_rate": 4.810304262187852e-05,
+      "loss": 0.3767,
+      "step": 69
+    },
+    {
+      "epoch": 0.0014080894740282925,
+      "grad_norm": 0.8396534323692322,
+      "learning_rate": 4.530518418775733e-05,
+      "loss": 0.2262,
+      "step": 70
+    },
+    {
+      "epoch": 0.0014282050379429824,
+      "grad_norm": 0.8134317398071289,
+      "learning_rate": 4.256713373170564e-05,
+      "loss": 0.3279,
+      "step": 71
+    },
+    {
+      "epoch": 0.0014483206018576723,
+      "grad_norm": 0.5932597517967224,
+      "learning_rate": 3.9891885271697496e-05,
+      "loss": 0.1684,
+      "step": 72
+    },
+    {
+      "epoch": 0.0014684361657723622,
+      "grad_norm": 0.533363401889801,
+      "learning_rate": 3.7282364152646297e-05,
+      "loss": 0.1556,
+      "step": 73
+    },
+    {
+      "epoch": 0.0014885517296870522,
+      "grad_norm": 1.1344701051712036,
+      "learning_rate": 3.4741423847583134e-05,
+      "loss": 0.4778,
+      "step": 74
+    },
+    {
+      "epoch": 0.001508667293601742,
+      "grad_norm": 0.5955411791801453,
+      "learning_rate": 3.227184283742591e-05,
+      "loss": 0.2269,
+      "step": 75
+    },
+    {
+      "epoch": 0.001508667293601742,
+      "eval_loss": 0.35070064663887024,
+      "eval_runtime": 5966.9045,
+      "eval_samples_per_second": 3.508,
+      "eval_steps_per_second": 1.754,
+      "step": 75
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.1165403617584742e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null