Training in progress, step 75, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +188 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c157e8f5e3e6f95d48e7c7ce9122deddaa228b9c54aef00a8ae50da1920a4d0c
 size 119801528

 version https://git-lfs.github.com/spec/v1
+oid sha256:1e2de40690cf65edd413b5bcd47460a978cb416abffc3ffaeb5069c81f18f5fa
 size 119801528

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:70a6beb948934d3ce71d89ba60eba32f004a790a67bf7d79e259c7cecab8b525
 size 239892858

 version https://git-lfs.github.com/spec/v1
+oid sha256:c552068265d6055ce86f5a48964dfe867d5220018c21da3c25bbac18ea53ee2b
 size 239892858

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b65df88ff1fff7731988ac69f1d1f7d0fd1f75980540d2b0ce8c9b8e4bde8a94
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:d532d1753fde9d2c1cf00c0b37994359d3f5a91e73654280084ad095c7968c59
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9567f2f3182e832808fd621212e0dd5e8f1a88bd24ddda3ea0d289496073738c
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:67bdc1680e75e7cf9661cc84482edc217f841c56aca5f9a3979c1c72a436f392
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.665256142616272,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.0008658870796659408,
   "eval_steps": 25,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -381,6 +381,189 @@
       "eval_samples_per_second": 4.939,
       "eval_steps_per_second": 2.469,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -409,7 +592,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.75713949171712e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.6363804340362549,
+  "best_model_checkpoint": "miner_id_24/checkpoint-75",
+  "epoch": 0.001298830619498911,
   "eval_steps": 25,
+  "global_step": 75,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 4.939,
       "eval_steps_per_second": 2.469,
       "step": 50
+    },
+    {
+      "epoch": 0.0008832048212592596,
+      "grad_norm": 1.3105987310409546,
+      "learning_rate": 0.00010495837546732224,
+      "loss": 1.4402,
+      "step": 51
+    },
+    {
+      "epoch": 0.0009005225628525784,
+      "grad_norm": 1.4101057052612305,
+      "learning_rate": 0.00010165339447663587,
+      "loss": 1.4313,
+      "step": 52
+    },
+    {
+      "epoch": 0.0009178403044458972,
+      "grad_norm": 1.5237852334976196,
+      "learning_rate": 9.834660552336415e-05,
+      "loss": 1.7096,
+      "step": 53
+    },
+    {
+      "epoch": 0.000935158046039216,
+      "grad_norm": 1.6052296161651611,
+      "learning_rate": 9.504162453267777e-05,
+      "loss": 1.4336,
+      "step": 54
+    },
+    {
+      "epoch": 0.0009524757876325349,
+      "grad_norm": 1.7279136180877686,
+      "learning_rate": 9.174206545276677e-05,
+      "loss": 1.7388,
+      "step": 55
+    },
+    {
+      "epoch": 0.0009697935292258536,
+      "grad_norm": 1.3830236196517944,
+      "learning_rate": 8.845153630304139e-05,
+      "loss": 1.2797,
+      "step": 56
+    },
+    {
+      "epoch": 0.0009871112708191726,
+      "grad_norm": 2.031076669692993,
+      "learning_rate": 8.517363522881579e-05,
+      "loss": 1.9524,
+      "step": 57
+    },
+    {
+      "epoch": 0.0010044290124124912,
+      "grad_norm": 1.437910556793213,
+      "learning_rate": 8.191194656678904e-05,
+      "loss": 1.4775,
+      "step": 58
+    },
+    {
+      "epoch": 0.00102174675400581,
+      "grad_norm": 1.4608979225158691,
+      "learning_rate": 7.867003692562534e-05,
+      "loss": 1.4998,
+      "step": 59
+    },
+    {
+      "epoch": 0.001039064495599129,
+      "grad_norm": 1.6951931715011597,
+      "learning_rate": 7.54514512859201e-05,
+      "loss": 1.8601,
+      "step": 60
+    },
+    {
+      "epoch": 0.0010563822371924478,
+      "grad_norm": 1.654209852218628,
+      "learning_rate": 7.225970912381556e-05,
+      "loss": 1.8643,
+      "step": 61
+    },
+    {
+      "epoch": 0.0010736999787857666,
+      "grad_norm": 1.837178349494934,
+      "learning_rate": 6.909830056250527e-05,
+      "loss": 1.7543,
+      "step": 62
+    },
+    {
+      "epoch": 0.0010910177203790853,
+      "grad_norm": 1.8673418760299683,
+      "learning_rate": 6.59706825558357e-05,
+      "loss": 1.408,
+      "step": 63
+    },
+    {
+      "epoch": 0.0011083354619724041,
+      "grad_norm": 1.660733938217163,
+      "learning_rate": 6.28802751081779e-05,
+      "loss": 1.6586,
+      "step": 64
+    },
+    {
+      "epoch": 0.001125653203565723,
+      "grad_norm": 1.6716222763061523,
+      "learning_rate": 5.983045753470308e-05,
+      "loss": 1.7785,
+      "step": 65
+    },
+    {
+      "epoch": 0.0011429709451590418,
+      "grad_norm": 1.4793193340301514,
+      "learning_rate": 5.6824564766150726e-05,
+      "loss": 1.524,
+      "step": 66
+    },
+    {
+      "epoch": 0.0011602886867523607,
+      "grad_norm": 1.4535232782363892,
+      "learning_rate": 5.386588370213124e-05,
+      "loss": 1.3191,
+      "step": 67
+    },
+    {
+      "epoch": 0.0011776064283456793,
+      "grad_norm": 1.9624608755111694,
+      "learning_rate": 5.095764961694922e-05,
+      "loss": 1.5482,
+      "step": 68
+    },
+    {
+      "epoch": 0.0011949241699389982,
+      "grad_norm": 1.7577117681503296,
+      "learning_rate": 4.810304262187852e-05,
+      "loss": 1.5874,
+      "step": 69
+    },
+    {
+      "epoch": 0.001212241911532317,
+      "grad_norm": 1.5105639696121216,
+      "learning_rate": 4.530518418775733e-05,
+      "loss": 1.5703,
+      "step": 70
+    },
+    {
+      "epoch": 0.001229559653125636,
+      "grad_norm": 1.529349446296692,
+      "learning_rate": 4.256713373170564e-05,
+      "loss": 1.1905,
+      "step": 71
+    },
+    {
+      "epoch": 0.0012468773947189548,
+      "grad_norm": 1.8508775234222412,
+      "learning_rate": 3.9891885271697496e-05,
+      "loss": 1.8208,
+      "step": 72
+    },
+    {
+      "epoch": 0.0012641951363122736,
+      "grad_norm": 1.593199610710144,
+      "learning_rate": 3.7282364152646297e-05,
+      "loss": 1.3999,
+      "step": 73
+    },
+    {
+      "epoch": 0.0012815128779055922,
+      "grad_norm": 1.6738864183425903,
+      "learning_rate": 3.4741423847583134e-05,
+      "loss": 1.4956,
+      "step": 74
+    },
+    {
+      "epoch": 0.001298830619498911,
+      "grad_norm": 1.758865475654602,
+      "learning_rate": 3.227184283742591e-05,
+      "loss": 1.631,
+      "step": 75
+    },
+    {
+      "epoch": 0.001298830619498911,
+      "eval_loss": 1.6363804340362549,
+      "eval_runtime": 4921.7849,
+      "eval_samples_per_second": 4.94,
+      "eval_steps_per_second": 2.47,
+      "step": 75
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 4.13570923757568e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null