Training in progress, step 100, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +371 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d3aba87a16fa998a552c8b768c644de9d4e0fe4a5f504abcf81b8ed7de15f130
 size 1521616

 version https://git-lfs.github.com/spec/v1
+oid sha256:5939366f8e0c4bfe7979f5551b49b628228d8ab0e5bf7c4503e74b912e5c8bd7
 size 1521616

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:08b48bca0faa493633e224a1c9caa9e5317594d6feed0fcd550e847fb8b6af24
 size 3108666

 version https://git-lfs.github.com/spec/v1
+oid sha256:a3a92e30fa822d7cfa2f2461ed09366ad8c4f5720138cf1caee3a6c7173e724f
 size 3108666

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9298a73ccc76bbc3920b4f7e6e9a37f91a568faab038e3125c981e3c50631675
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:f4c4c3ec5df6eba4c05a06b4188110a85b051b2b13e1681cb16e463ef78abe17
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:48d491134409fdc628dfe027758d4ad26a55004194677ae851cf5852a1134fef
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:cbc53838d71d7ffbc88192ec7303d7e6bbca69387969f4dd64884419c5fd8735
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:37cc9c666ac1f34c1437039218f87639ea692b30fde543b8aabbdf7af6de7497
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:d38ca30957f1bae8c2f8be41072eb1e4564215c1b03164f3762535e35c2f63d5
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3eaf07b326c1c98a0991053eed2afb3a6ffd2ce0bf53983a39d5c68c262119ed
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:bfa6812679ba3104c6d0c851d5e9ffb6d9a1a191ceb230d4b225523e0da3d8aa
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:af8bec7b0e7e041be94e0aec289bc9cb45a2194eb6c5ff3bec5b9654ffb56253
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:4104d3ca8fe9069127dc26e97c51fd3e36819b64c5c1d64d2ff7604a3c21107e
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 2.095752477645874,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.9213936078318457,
   "eval_steps": 25,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -381,6 +381,372 @@
       "eval_samples_per_second": 254.354,
       "eval_steps_per_second": 66.132,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -409,7 +775,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 464208857661440.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.994510531425476,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 1.8465303771955082,
   "eval_steps": 25,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 254.354,
       "eval_steps_per_second": 66.132,
       "step": 50
+    },
+    {
+      "epoch": 0.9398214799884825,
+      "grad_norm": 3.3888142108917236,
+      "learning_rate": 8.295635440954695e-05,
+      "loss": 2.2467,
+      "step": 51
+    },
+    {
+      "epoch": 0.9582493521451195,
+      "grad_norm": 1.6675165891647339,
+      "learning_rate": 8.224519749672376e-05,
+      "loss": 2.1031,
+      "step": 52
+    },
+    {
+      "epoch": 0.9766772243017564,
+      "grad_norm": 1.0358479022979736,
+      "learning_rate": 8.152313181077242e-05,
+      "loss": 2.0694,
+      "step": 53
+    },
+    {
+      "epoch": 0.9951050964583933,
+      "grad_norm": 1.0793170928955078,
+      "learning_rate": 8.079044646138837e-05,
+      "loss": 2.0398,
+      "step": 54
+    },
+    {
+      "epoch": 1.0172761301468471,
+      "grad_norm": 5.010680675506592,
+      "learning_rate": 8.004743481030088e-05,
+      "loss": 4.036,
+      "step": 55
+    },
+    {
+      "epoch": 1.035704002303484,
+      "grad_norm": 3.263810873031616,
+      "learning_rate": 7.929439435381305e-05,
+      "loss": 2.2462,
+      "step": 56
+    },
+    {
+      "epoch": 1.054131874460121,
+      "grad_norm": 2.19437837600708,
+      "learning_rate": 7.853162660368662e-05,
+      "loss": 2.1076,
+      "step": 57
+    },
+    {
+      "epoch": 1.0725597466167578,
+      "grad_norm": 1.1197891235351562,
+      "learning_rate": 7.775943696641888e-05,
+      "loss": 2.0394,
+      "step": 58
+    },
+    {
+      "epoch": 1.0909876187733947,
+      "grad_norm": 1.35910964012146,
+      "learning_rate": 7.697813462096025e-05,
+      "loss": 2.0473,
+      "step": 59
+    },
+    {
+      "epoch": 1.1094154909300316,
+      "grad_norm": 1.9377872943878174,
+      "learning_rate": 7.618803239492121e-05,
+      "loss": 2.0849,
+      "step": 60
+    },
+    {
+      "epoch": 1.1278433630866687,
+      "grad_norm": 1.510143756866455,
+      "learning_rate": 7.538944663931862e-05,
+      "loss": 2.0566,
+      "step": 61
+    },
+    {
+      "epoch": 1.1462712352433055,
+      "grad_norm": 2.0934293270111084,
+      "learning_rate": 7.458269710191101e-05,
+      "loss": 1.9738,
+      "step": 62
+    },
+    {
+      "epoch": 1.1646991073999424,
+      "grad_norm": 0.8613946437835693,
+      "learning_rate": 7.376810679917411e-05,
+      "loss": 2.0698,
+      "step": 63
+    },
+    {
+      "epoch": 1.1831269795565793,
+      "grad_norm": 0.933632493019104,
+      "learning_rate": 7.294600188696732e-05,
+      "loss": 2.0709,
+      "step": 64
+    },
+    {
+      "epoch": 1.2015548517132162,
+      "grad_norm": 1.4427233934402466,
+      "learning_rate": 7.211671152994348e-05,
+      "loss": 1.9954,
+      "step": 65
+    },
+    {
+      "epoch": 1.219982723869853,
+      "grad_norm": 2.0800139904022217,
+      "learning_rate": 7.128056776975369e-05,
+      "loss": 1.9794,
+      "step": 66
+    },
+    {
+      "epoch": 1.23841059602649,
+      "grad_norm": 1.3812874555587769,
+      "learning_rate": 7.043790539210045e-05,
+      "loss": 2.0207,
+      "step": 67
+    },
+    {
+      "epoch": 1.256838468183127,
+      "grad_norm": 1.9489840269088745,
+      "learning_rate": 6.95890617926918e-05,
+      "loss": 2.0679,
+      "step": 68
+    },
+    {
+      "epoch": 1.275266340339764,
+      "grad_norm": 1.545703411102295,
+      "learning_rate": 6.873437684215077e-05,
+      "loss": 2.0753,
+      "step": 69
+    },
+    {
+      "epoch": 1.2936942124964008,
+      "grad_norm": 1.9554816484451294,
+      "learning_rate": 6.787419274993366e-05,
+      "loss": 2.0324,
+      "step": 70
+    },
+    {
+      "epoch": 1.3121220846530377,
+      "grad_norm": 2.3300676345825195,
+      "learning_rate": 6.700885392731187e-05,
+      "loss": 2.0034,
+      "step": 71
+    },
+    {
+      "epoch": 1.3305499568096746,
+      "grad_norm": 1.7361541986465454,
+      "learning_rate": 6.613870684947231e-05,
+      "loss": 2.0202,
+      "step": 72
+    },
+    {
+      "epoch": 1.3489778289663115,
+      "grad_norm": 1.2443159818649292,
+      "learning_rate": 6.526409991679134e-05,
+      "loss": 1.9933,
+      "step": 73
+    },
+    {
+      "epoch": 1.3674057011229483,
+      "grad_norm": 0.6612122654914856,
+      "learning_rate": 6.438538331533768e-05,
+      "loss": 1.9769,
+      "step": 74
+    },
+    {
+      "epoch": 1.3858335732795855,
+      "grad_norm": 0.6065022945404053,
+      "learning_rate": 6.350290887666078e-05,
+      "loss": 2.0084,
+      "step": 75
+    },
+    {
+      "epoch": 1.3858335732795855,
+      "eval_loss": 2.0034306049346924,
+      "eval_runtime": 0.1919,
+      "eval_samples_per_second": 260.533,
+      "eval_steps_per_second": 67.739,
+      "step": 75
+    },
+    {
+      "epoch": 1.4042614454362223,
+      "grad_norm": 0.7181031107902527,
+      "learning_rate": 6.261702993691994e-05,
+      "loss": 2.0097,
+      "step": 76
+    },
+    {
+      "epoch": 1.4226893175928592,
+      "grad_norm": 1.1980915069580078,
+      "learning_rate": 6.172810119541118e-05,
+      "loss": 2.0081,
+      "step": 77
+    },
+    {
+      "epoch": 1.441117189749496,
+      "grad_norm": 2.185781478881836,
+      "learning_rate": 6.083647857254837e-05,
+      "loss": 1.9817,
+      "step": 78
+    },
+    {
+      "epoch": 1.459545061906133,
+      "grad_norm": 0.7530511021614075,
+      "learning_rate": 5.9942519067355284e-05,
+      "loss": 1.9986,
+      "step": 79
+    },
+    {
+      "epoch": 1.4779729340627699,
+      "grad_norm": 1.7427482604980469,
+      "learning_rate": 5.904658061452585e-05,
+      "loss": 2.0496,
+      "step": 80
+    },
+    {
+      "epoch": 1.4964008062194067,
+      "grad_norm": 2.031916618347168,
+      "learning_rate": 5.814902194110988e-05,
+      "loss": 2.0361,
+      "step": 81
+    },
+    {
+      "epoch": 1.5148286783760438,
+      "grad_norm": 1.6156734228134155,
+      "learning_rate": 5.7250202422881336e-05,
+      "loss": 2.0416,
+      "step": 82
+    },
+    {
+      "epoch": 1.5332565505326807,
+      "grad_norm": 0.9678031206130981,
+      "learning_rate": 5.635048194044702e-05,
+      "loss": 2.0342,
+      "step": 83
+    },
+    {
+      "epoch": 1.5516844226893176,
+      "grad_norm": 0.4935534596443176,
+      "learning_rate": 5.5450220735153056e-05,
+      "loss": 1.9647,
+      "step": 84
+    },
+    {
+      "epoch": 1.5701122948459545,
+      "grad_norm": 1.1301989555358887,
+      "learning_rate": 5.4549779264846955e-05,
+      "loss": 1.9986,
+      "step": 85
+    },
+    {
+      "epoch": 1.5885401670025914,
+      "grad_norm": 2.0241589546203613,
+      "learning_rate": 5.3649518059552994e-05,
+      "loss": 2.0601,
+      "step": 86
+    },
+    {
+      "epoch": 1.6069680391592285,
+      "grad_norm": 1.204086184501648,
+      "learning_rate": 5.2749797577118675e-05,
+      "loss": 1.9727,
+      "step": 87
+    },
+    {
+      "epoch": 1.6253959113158651,
+      "grad_norm": 1.2840675115585327,
+      "learning_rate": 5.185097805889013e-05,
+      "loss": 2.0326,
+      "step": 88
+    },
+    {
+      "epoch": 1.6438237834725022,
+      "grad_norm": 1.003303050994873,
+      "learning_rate": 5.0953419385474155e-05,
+      "loss": 1.9445,
+      "step": 89
+    },
+    {
+      "epoch": 1.6622516556291391,
+      "grad_norm": 0.5838247537612915,
+      "learning_rate": 5.005748093264473e-05,
+      "loss": 1.9922,
+      "step": 90
+    },
+    {
+      "epoch": 1.680679527785776,
+      "grad_norm": 0.7593981623649597,
+      "learning_rate": 4.916352142745163e-05,
+      "loss": 1.966,
+      "step": 91
+    },
+    {
+      "epoch": 1.6991073999424129,
+      "grad_norm": 0.8177780508995056,
+      "learning_rate": 4.827189880458882e-05,
+      "loss": 1.9918,
+      "step": 92
+    },
+    {
+      "epoch": 1.7175352720990498,
+      "grad_norm": 0.8616487979888916,
+      "learning_rate": 4.7382970063080076e-05,
+      "loss": 2.0279,
+      "step": 93
+    },
+    {
+      "epoch": 1.7359631442556869,
+      "grad_norm": 1.1605690717697144,
+      "learning_rate": 4.649709112333923e-05,
+      "loss": 2.0104,
+      "step": 94
+    },
+    {
+      "epoch": 1.7543910164123235,
+      "grad_norm": 1.9952294826507568,
+      "learning_rate": 4.561461668466233e-05,
+      "loss": 1.9628,
+      "step": 95
+    },
+    {
+      "epoch": 1.7728188885689606,
+      "grad_norm": 1.4495019912719727,
+      "learning_rate": 4.473590008320868e-05,
+      "loss": 2.0058,
+      "step": 96
+    },
+    {
+      "epoch": 1.7912467607255975,
+      "grad_norm": 1.114969253540039,
+      "learning_rate": 4.386129315052768e-05,
+      "loss": 2.0131,
+      "step": 97
+    },
+    {
+      "epoch": 1.8096746328822344,
+      "grad_norm": 0.8008613586425781,
+      "learning_rate": 4.299114607268814e-05,
+      "loss": 1.9947,
+      "step": 98
+    },
+    {
+      "epoch": 1.8281025050388713,
+      "grad_norm": 0.7169589400291443,
+      "learning_rate": 4.2125807250066354e-05,
+      "loss": 1.9454,
+      "step": 99
+    },
+    {
+      "epoch": 1.8465303771955082,
+      "grad_norm": 1.009277582168579,
+      "learning_rate": 4.1265623157849235e-05,
+      "loss": 2.0115,
+      "step": 100
+    },
+    {
+      "epoch": 1.8465303771955082,
+      "eval_loss": 1.994510531425476,
+      "eval_runtime": 0.192,
+      "eval_samples_per_second": 260.351,
+      "eval_steps_per_second": 67.691,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 928417715322880.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null