Training in progress, step 75, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +188 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9bc369638755a57eed0141fd6401f5bb4d975ea899b2158aea92e03707f6847f
 size 83115256

 version https://git-lfs.github.com/spec/v1
+oid sha256:6117b047293fd3cea2c17794f5409f821759e0127535c2a4550caf5d06937a14
 size 83115256

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b22ad760c79407e6459d8fbc93e2b7595309431feb186cda658171f159a63867
 size 166439638

 version https://git-lfs.github.com/spec/v1
+oid sha256:d21626f1947fa0daf05391763527f63a1ff741023005b3a8aaac78a61cfe6bd7
 size 166439638

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6c574d8e30f2e864e475983c48bb1a9c31a25076b753f0104a850af3cf991200
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:d8a8ab407dfd89381c2ae2ff96543437cf7ce6c83f2378c0f553cde7c133e6c8
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9567f2f3182e832808fd621212e0dd5e8f1a88bd24ddda3ea0d289496073738c
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:67bdc1680e75e7cf9661cc84482edc217f841c56aca5f9a3979c1c72a436f392
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.6729180812835693,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.07320644216691069,
   "eval_steps": 25,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -381,6 +381,189 @@
       "eval_samples_per_second": 3.716,
       "eval_steps_per_second": 1.858,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -409,7 +592,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.01059658104832e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.6299811005592346,
+  "best_model_checkpoint": "miner_id_24/checkpoint-75",
+  "epoch": 0.10980966325036604,
   "eval_steps": 25,
+  "global_step": 75,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 3.716,
       "eval_steps_per_second": 1.858,
       "step": 50
+    },
+    {
+      "epoch": 0.0746705710102489,
+      "grad_norm": 1.0011053085327148,
+      "learning_rate": 0.00010495837546732224,
+      "loss": 0.6524,
+      "step": 51
+    },
+    {
+      "epoch": 0.07613469985358712,
+      "grad_norm": 1.0353124141693115,
+      "learning_rate": 0.00010165339447663587,
+      "loss": 0.7559,
+      "step": 52
+    },
+    {
+      "epoch": 0.07759882869692533,
+      "grad_norm": 0.8761913776397705,
+      "learning_rate": 9.834660552336415e-05,
+      "loss": 0.7059,
+      "step": 53
+    },
+    {
+      "epoch": 0.07906295754026355,
+      "grad_norm": 0.8307029008865356,
+      "learning_rate": 9.504162453267777e-05,
+      "loss": 0.6997,
+      "step": 54
+    },
+    {
+      "epoch": 0.08052708638360176,
+      "grad_norm": 0.7661670446395874,
+      "learning_rate": 9.174206545276677e-05,
+      "loss": 0.7013,
+      "step": 55
+    },
+    {
+      "epoch": 0.08199121522693997,
+      "grad_norm": 0.7999428510665894,
+      "learning_rate": 8.845153630304139e-05,
+      "loss": 0.676,
+      "step": 56
+    },
+    {
+      "epoch": 0.08345534407027819,
+      "grad_norm": 0.7628665566444397,
+      "learning_rate": 8.517363522881579e-05,
+      "loss": 0.655,
+      "step": 57
+    },
+    {
+      "epoch": 0.0849194729136164,
+      "grad_norm": 0.7992427945137024,
+      "learning_rate": 8.191194656678904e-05,
+      "loss": 0.6059,
+      "step": 58
+    },
+    {
+      "epoch": 0.08638360175695461,
+      "grad_norm": 0.7833818197250366,
+      "learning_rate": 7.867003692562534e-05,
+      "loss": 0.7034,
+      "step": 59
+    },
+    {
+      "epoch": 0.08784773060029283,
+      "grad_norm": 0.7682210206985474,
+      "learning_rate": 7.54514512859201e-05,
+      "loss": 0.6838,
+      "step": 60
+    },
+    {
+      "epoch": 0.08931185944363104,
+      "grad_norm": 0.7837997078895569,
+      "learning_rate": 7.225970912381556e-05,
+      "loss": 0.7132,
+      "step": 61
+    },
+    {
+      "epoch": 0.09077598828696926,
+      "grad_norm": 0.7890181541442871,
+      "learning_rate": 6.909830056250527e-05,
+      "loss": 0.7043,
+      "step": 62
+    },
+    {
+      "epoch": 0.09224011713030747,
+      "grad_norm": 0.7309653759002686,
+      "learning_rate": 6.59706825558357e-05,
+      "loss": 0.6575,
+      "step": 63
+    },
+    {
+      "epoch": 0.09370424597364568,
+      "grad_norm": 0.73288893699646,
+      "learning_rate": 6.28802751081779e-05,
+      "loss": 0.6336,
+      "step": 64
+    },
+    {
+      "epoch": 0.0951683748169839,
+      "grad_norm": 0.768713116645813,
+      "learning_rate": 5.983045753470308e-05,
+      "loss": 0.656,
+      "step": 65
+    },
+    {
+      "epoch": 0.09663250366032211,
+      "grad_norm": 0.7750256061553955,
+      "learning_rate": 5.6824564766150726e-05,
+      "loss": 0.5982,
+      "step": 66
+    },
+    {
+      "epoch": 0.09809663250366032,
+      "grad_norm": 0.82322096824646,
+      "learning_rate": 5.386588370213124e-05,
+      "loss": 0.6943,
+      "step": 67
+    },
+    {
+      "epoch": 0.09956076134699854,
+      "grad_norm": 0.7596611380577087,
+      "learning_rate": 5.095764961694922e-05,
+      "loss": 0.6716,
+      "step": 68
+    },
+    {
+      "epoch": 0.10102489019033675,
+      "grad_norm": 0.7736366391181946,
+      "learning_rate": 4.810304262187852e-05,
+      "loss": 0.5755,
+      "step": 69
+    },
+    {
+      "epoch": 0.10248901903367497,
+      "grad_norm": 0.7916914820671082,
+      "learning_rate": 4.530518418775733e-05,
+      "loss": 0.6694,
+      "step": 70
+    },
+    {
+      "epoch": 0.10395314787701318,
+      "grad_norm": 0.8091153502464294,
+      "learning_rate": 4.256713373170564e-05,
+      "loss": 0.6588,
+      "step": 71
+    },
+    {
+      "epoch": 0.1054172767203514,
+      "grad_norm": 0.801612138748169,
+      "learning_rate": 3.9891885271697496e-05,
+      "loss": 0.6123,
+      "step": 72
+    },
+    {
+      "epoch": 0.10688140556368961,
+      "grad_norm": 0.7758727073669434,
+      "learning_rate": 3.7282364152646297e-05,
+      "loss": 0.594,
+      "step": 73
+    },
+    {
+      "epoch": 0.10834553440702782,
+      "grad_norm": 0.7896532416343689,
+      "learning_rate": 3.4741423847583134e-05,
+      "loss": 0.6035,
+      "step": 74
+    },
+    {
+      "epoch": 0.10980966325036604,
+      "grad_norm": 0.7845363020896912,
+      "learning_rate": 3.227184283742591e-05,
+      "loss": 0.6064,
+      "step": 75
+    },
+    {
+      "epoch": 0.10980966325036604,
+      "eval_loss": 0.6299811005592346,
+      "eval_runtime": 77.5045,
+      "eval_samples_per_second": 3.716,
+      "eval_steps_per_second": 1.858,
+      "step": 75
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 3.01589487157248e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null