Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7ca28ba503fff5d6e734f7aeb998d10b0d04f540672b6b8cb5e172545512e433
 size 639691872

 version https://git-lfs.github.com/spec/v1
+oid sha256:3416232a71e0f1ac5088f623aa0f5cb5869921b7e8ed743d7bec891927e4248c
 size 639691872

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:64691833c1c168fc4b9b6b918189d0f045959caf6755467a6403f11d19f475e0
 size 1279641042

 version https://git-lfs.github.com/spec/v1
+oid sha256:e5052099c5578f73cd0bd9f010f1fc9522773495d8393bcb6f2382ab44a61725
 size 1279641042

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e5b582d4cd6e512fb336b5016835809826149734d70e2933eb49dd49fcc77a2e
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:4323934ec6ed8ab43bf673e9a6306aacbdaba32d6197e5ead6a9f50cded50b32
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d5335737b4b4d079cdec612fe6ee661ed4d29f9e0e55eb4eada44a9677240228
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:4e0244c146d76bf610ae39789eea36d0bff336b81d211db008e020e66921060c
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.5413779616355896,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.00546477949614733,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -373,6 +373,364 @@
       "eval_samples_per_second": 12.902,
       "eval_steps_per_second": 6.451,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -401,7 +759,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.686777211774566e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.487389475107193,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 0.01092955899229466,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 12.902,
       "eval_steps_per_second": 6.451,
       "step": 50
+    },
+    {
+      "epoch": 0.005574075086070277,
+      "grad_norm": 0.25189682841300964,
+      "learning_rate": 9.285836503510562e-05,
+      "loss": 0.8563,
+      "step": 51
+    },
+    {
+      "epoch": 0.005683370675993223,
+      "grad_norm": 0.21652118861675262,
+      "learning_rate": 9.24024048078213e-05,
+      "loss": 0.3482,
+      "step": 52
+    },
+    {
+      "epoch": 0.00579266626591617,
+      "grad_norm": 0.2325475662946701,
+      "learning_rate": 9.193352839727121e-05,
+      "loss": 0.3885,
+      "step": 53
+    },
+    {
+      "epoch": 0.005901961855839117,
+      "grad_norm": 0.20061779022216797,
+      "learning_rate": 9.145187862775209e-05,
+      "loss": 0.3972,
+      "step": 54
+    },
+    {
+      "epoch": 0.006011257445762063,
+      "grad_norm": 0.14447438716888428,
+      "learning_rate": 9.09576022144496e-05,
+      "loss": 0.4096,
+      "step": 55
+    },
+    {
+      "epoch": 0.00612055303568501,
+      "grad_norm": 0.12227091938257217,
+      "learning_rate": 9.045084971874738e-05,
+      "loss": 0.3501,
+      "step": 56
+    },
+    {
+      "epoch": 0.006229848625607957,
+      "grad_norm": 0.12859652936458588,
+      "learning_rate": 8.993177550236464e-05,
+      "loss": 0.5619,
+      "step": 57
+    },
+    {
+      "epoch": 0.006339144215530904,
+      "grad_norm": 0.12088293582201004,
+      "learning_rate": 8.940053768033609e-05,
+      "loss": 0.3909,
+      "step": 58
+    },
+    {
+      "epoch": 0.00644843980545385,
+      "grad_norm": 0.11673817783594131,
+      "learning_rate": 8.885729807284856e-05,
+      "loss": 0.3682,
+      "step": 59
+    },
+    {
+      "epoch": 0.006557735395376797,
+      "grad_norm": 0.11229289323091507,
+      "learning_rate": 8.83022221559489e-05,
+      "loss": 0.3972,
+      "step": 60
+    },
+    {
+      "epoch": 0.006667030985299743,
+      "grad_norm": 0.10862474143505096,
+      "learning_rate": 8.773547901113862e-05,
+      "loss": 0.403,
+      "step": 61
+    },
+    {
+      "epoch": 0.00677632657522269,
+      "grad_norm": 0.117657370865345,
+      "learning_rate": 8.715724127386972e-05,
+      "loss": 0.511,
+      "step": 62
+    },
+    {
+      "epoch": 0.006885622165145636,
+      "grad_norm": 0.12006518989801407,
+      "learning_rate": 8.656768508095853e-05,
+      "loss": 0.3802,
+      "step": 63
+    },
+    {
+      "epoch": 0.006994917755068583,
+      "grad_norm": 0.10380808264017105,
+      "learning_rate": 8.596699001693255e-05,
+      "loss": 0.3455,
+      "step": 64
+    },
+    {
+      "epoch": 0.00710421334499153,
+      "grad_norm": 0.1075916737318039,
+      "learning_rate": 8.535533905932738e-05,
+      "loss": 0.4197,
+      "step": 65
+    },
+    {
+      "epoch": 0.007213508934914476,
+      "grad_norm": 0.12685179710388184,
+      "learning_rate": 8.473291852294987e-05,
+      "loss": 0.368,
+      "step": 66
+    },
+    {
+      "epoch": 0.007322804524837423,
+      "grad_norm": 0.12550005316734314,
+      "learning_rate": 8.409991800312493e-05,
+      "loss": 0.5413,
+      "step": 67
+    },
+    {
+      "epoch": 0.007432100114760369,
+      "grad_norm": 0.12594176828861237,
+      "learning_rate": 8.345653031794292e-05,
+      "loss": 0.4589,
+      "step": 68
+    },
+    {
+      "epoch": 0.007541395704683316,
+      "grad_norm": 0.12614470720291138,
+      "learning_rate": 8.280295144952536e-05,
+      "loss": 0.4523,
+      "step": 69
+    },
+    {
+      "epoch": 0.007650691294606262,
+      "grad_norm": 0.11181683838367462,
+      "learning_rate": 8.213938048432697e-05,
+      "loss": 0.3537,
+      "step": 70
+    },
+    {
+      "epoch": 0.007759986884529209,
+      "grad_norm": 0.13527949154376984,
+      "learning_rate": 8.146601955249188e-05,
+      "loss": 0.4204,
+      "step": 71
+    },
+    {
+      "epoch": 0.007869282474452156,
+      "grad_norm": 0.13055859506130219,
+      "learning_rate": 8.07830737662829e-05,
+      "loss": 0.3639,
+      "step": 72
+    },
+    {
+      "epoch": 0.007978578064375103,
+      "grad_norm": 0.13407902419567108,
+      "learning_rate": 8.009075115760243e-05,
+      "loss": 0.3647,
+      "step": 73
+    },
+    {
+      "epoch": 0.008087873654298049,
+      "grad_norm": 0.13400597870349884,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 0.4119,
+      "step": 74
+    },
+    {
+      "epoch": 0.008197169244220997,
+      "grad_norm": 0.16241265833377838,
+      "learning_rate": 7.86788218175523e-05,
+      "loss": 0.5364,
+      "step": 75
+    },
+    {
+      "epoch": 0.008306464834143943,
+      "grad_norm": 0.13452617824077606,
+      "learning_rate": 7.795964517353735e-05,
+      "loss": 0.3586,
+      "step": 76
+    },
+    {
+      "epoch": 0.008415760424066889,
+      "grad_norm": 0.17259980738162994,
+      "learning_rate": 7.723195175075136e-05,
+      "loss": 0.4718,
+      "step": 77
+    },
+    {
+      "epoch": 0.008525056013989835,
+      "grad_norm": 0.1500622034072876,
+      "learning_rate": 7.649596321166024e-05,
+      "loss": 0.4104,
+      "step": 78
+    },
+    {
+      "epoch": 0.008634351603912783,
+      "grad_norm": 0.17057955265045166,
+      "learning_rate": 7.575190374550272e-05,
+      "loss": 0.5204,
+      "step": 79
+    },
+    {
+      "epoch": 0.008743647193835729,
+      "grad_norm": 0.15768682956695557,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 0.4258,
+      "step": 80
+    },
+    {
+      "epoch": 0.008852942783758675,
+      "grad_norm": 0.1671830117702484,
+      "learning_rate": 7.424048101231686e-05,
+      "loss": 0.3407,
+      "step": 81
+    },
+    {
+      "epoch": 0.008962238373681621,
+      "grad_norm": 0.17148494720458984,
+      "learning_rate": 7.347357813929454e-05,
+      "loss": 0.4753,
+      "step": 82
+    },
+    {
+      "epoch": 0.009071533963604569,
+      "grad_norm": 0.14277490973472595,
+      "learning_rate": 7.269952498697734e-05,
+      "loss": 0.3654,
+      "step": 83
+    },
+    {
+      "epoch": 0.009180829553527515,
+      "grad_norm": 0.17424607276916504,
+      "learning_rate": 7.191855733945387e-05,
+      "loss": 0.5099,
+      "step": 84
+    },
+    {
+      "epoch": 0.009290125143450461,
+      "grad_norm": 0.191071555018425,
+      "learning_rate": 7.113091308703498e-05,
+      "loss": 0.5481,
+      "step": 85
+    },
+    {
+      "epoch": 0.00939942073337341,
+      "grad_norm": 0.22640280425548553,
+      "learning_rate": 7.033683215379002e-05,
+      "loss": 0.5513,
+      "step": 86
+    },
+    {
+      "epoch": 0.009508716323296355,
+      "grad_norm": 0.16032098233699799,
+      "learning_rate": 6.953655642446368e-05,
+      "loss": 0.438,
+      "step": 87
+    },
+    {
+      "epoch": 0.009618011913219301,
+      "grad_norm": 0.20057062804698944,
+      "learning_rate": 6.873032967079561e-05,
+      "loss": 0.4187,
+      "step": 88
+    },
+    {
+      "epoch": 0.009727307503142248,
+      "grad_norm": 0.25190460681915283,
+      "learning_rate": 6.7918397477265e-05,
+      "loss": 0.686,
+      "step": 89
+    },
+    {
+      "epoch": 0.009836603093065195,
+      "grad_norm": 0.2412964105606079,
+      "learning_rate": 6.710100716628344e-05,
+      "loss": 0.6421,
+      "step": 90
+    },
+    {
+      "epoch": 0.009945898682988142,
+      "grad_norm": 0.2152530401945114,
+      "learning_rate": 6.627840772285784e-05,
+      "loss": 0.3452,
+      "step": 91
+    },
+    {
+      "epoch": 0.010055194272911088,
+      "grad_norm": 0.2889910936355591,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 0.6647,
+      "step": 92
+    },
+    {
+      "epoch": 0.010164489862834034,
+      "grad_norm": 0.25227007269859314,
+      "learning_rate": 6.461858523613684e-05,
+      "loss": 0.5819,
+      "step": 93
+    },
+    {
+      "epoch": 0.010273785452756982,
+      "grad_norm": 0.29229801893234253,
+      "learning_rate": 6.378186779084995e-05,
+      "loss": 0.6188,
+      "step": 94
+    },
+    {
+      "epoch": 0.010383081042679928,
+      "grad_norm": 0.3063337504863739,
+      "learning_rate": 6.294095225512603e-05,
+      "loss": 0.6259,
+      "step": 95
+    },
+    {
+      "epoch": 0.010492376632602874,
+      "grad_norm": 0.30890288949012756,
+      "learning_rate": 6.209609477998338e-05,
+      "loss": 0.6699,
+      "step": 96
+    },
+    {
+      "epoch": 0.010601672222525822,
+      "grad_norm": 0.3483825922012329,
+      "learning_rate": 6.124755271719325e-05,
+      "loss": 0.6592,
+      "step": 97
+    },
+    {
+      "epoch": 0.010710967812448768,
+      "grad_norm": 0.344511479139328,
+      "learning_rate": 6.0395584540887963e-05,
+      "loss": 0.5184,
+      "step": 98
+    },
+    {
+      "epoch": 0.010820263402371714,
+      "grad_norm": 0.5086371898651123,
+      "learning_rate": 5.9540449768827246e-05,
+      "loss": 0.7996,
+      "step": 99
+    },
+    {
+      "epoch": 0.01092955899229466,
+      "grad_norm": 0.6137983798980713,
+      "learning_rate": 5.868240888334653e-05,
+      "loss": 0.9048,
+      "step": 100
+    },
+    {
+      "epoch": 0.01092955899229466,
+      "eval_loss": 0.487389475107193,
+      "eval_runtime": 1194.2587,
+      "eval_samples_per_second": 12.903,
+      "eval_steps_per_second": 6.452,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.3373554423549133e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null