Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3416232a71e0f1ac5088f623aa0f5cb5869921b7e8ed743d7bec891927e4248c
 size 639691872

 version https://git-lfs.github.com/spec/v1
+oid sha256:29aac5ed6c96fa321d25e64b04bc3b75a6f99a17b1c7010d95f54edf371a2cf7
 size 639691872

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e5052099c5578f73cd0bd9f010f1fc9522773495d8393bcb6f2382ab44a61725
 size 1279641042

 version https://git-lfs.github.com/spec/v1
+oid sha256:344f1b718a5aead0d799f0403b8f2f2efd6038ce5df0cdde371f72a52f31d2bd
 size 1279641042

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4323934ec6ed8ab43bf673e9a6306aacbdaba32d6197e5ead6a9f50cded50b32
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:7dffca4d4c399cbbae6f08637961606f3c1dea636b1c9ec553952c4be4d88006
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4e0244c146d76bf610ae39789eea36d0bff336b81d211db008e020e66921060c
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f4c9c807f0681c8b7e53ada9b6ec3dba530d303de7da0d0a0562a3d8d0bbba08
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.487389475107193,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.01092955899229466,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 12.903,
       "eval_steps_per_second": 6.452,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.3373554423549133e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.46980416774749756,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 0.016394338488441993,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 12.903,
       "eval_steps_per_second": 6.452,
       "step": 100
+    },
+    {
+      "epoch": 0.011038854582217608,
+      "grad_norm": 0.08348676562309265,
+      "learning_rate": 5.782172325201155e-05,
+      "loss": 1.0152,
+      "step": 101
+    },
+    {
+      "epoch": 0.011148150172140554,
+      "grad_norm": 0.09717176854610443,
+      "learning_rate": 5.695865504800327e-05,
+      "loss": 0.4026,
+      "step": 102
+    },
+    {
+      "epoch": 0.0112574457620635,
+      "grad_norm": 0.10635527223348618,
+      "learning_rate": 5.6093467170257374e-05,
+      "loss": 0.3539,
+      "step": 103
+    },
+    {
+      "epoch": 0.011366741351986447,
+      "grad_norm": 0.11456354707479477,
+      "learning_rate": 5.522642316338268e-05,
+      "loss": 0.4686,
+      "step": 104
+    },
+    {
+      "epoch": 0.011476036941909394,
+      "grad_norm": 0.1162208616733551,
+      "learning_rate": 5.435778713738292e-05,
+      "loss": 0.292,
+      "step": 105
+    },
+    {
+      "epoch": 0.01158533253183234,
+      "grad_norm": 0.126183420419693,
+      "learning_rate": 5.348782368720626e-05,
+      "loss": 0.56,
+      "step": 106
+    },
+    {
+      "epoch": 0.011694628121755287,
+      "grad_norm": 0.11952321231365204,
+      "learning_rate": 5.26167978121472e-05,
+      "loss": 0.3656,
+      "step": 107
+    },
+    {
+      "epoch": 0.011803923711678235,
+      "grad_norm": 0.12617449462413788,
+      "learning_rate": 5.174497483512506e-05,
+      "loss": 0.43,
+      "step": 108
+    },
+    {
+      "epoch": 0.01191321930160118,
+      "grad_norm": 0.12929527461528778,
+      "learning_rate": 5.0872620321864185e-05,
+      "loss": 0.4259,
+      "step": 109
+    },
+    {
+      "epoch": 0.012022514891524127,
+      "grad_norm": 0.11484142392873764,
+      "learning_rate": 5e-05,
+      "loss": 0.3938,
+      "step": 110
+    },
+    {
+      "epoch": 0.012131810481447073,
+      "grad_norm": 0.09470567852258682,
+      "learning_rate": 4.912737967813583e-05,
+      "loss": 0.2844,
+      "step": 111
+    },
+    {
+      "epoch": 0.01224110607137002,
+      "grad_norm": 0.10879397392272949,
+      "learning_rate": 4.825502516487497e-05,
+      "loss": 0.3645,
+      "step": 112
+    },
+    {
+      "epoch": 0.012350401661292967,
+      "grad_norm": 0.10353327542543411,
+      "learning_rate": 4.738320218785281e-05,
+      "loss": 0.4109,
+      "step": 113
+    },
+    {
+      "epoch": 0.012459697251215913,
+      "grad_norm": 0.10917459428310394,
+      "learning_rate": 4.6512176312793736e-05,
+      "loss": 0.3751,
+      "step": 114
+    },
+    {
+      "epoch": 0.01256899284113886,
+      "grad_norm": 0.11443409323692322,
+      "learning_rate": 4.564221286261709e-05,
+      "loss": 0.4385,
+      "step": 115
+    },
+    {
+      "epoch": 0.012678288431061807,
+      "grad_norm": 0.12315183877944946,
+      "learning_rate": 4.477357683661734e-05,
+      "loss": 0.4995,
+      "step": 116
+    },
+    {
+      "epoch": 0.012787584020984753,
+      "grad_norm": 0.1159660667181015,
+      "learning_rate": 4.390653282974264e-05,
+      "loss": 0.478,
+      "step": 117
+    },
+    {
+      "epoch": 0.0128968796109077,
+      "grad_norm": 0.11784326285123825,
+      "learning_rate": 4.3041344951996746e-05,
+      "loss": 0.421,
+      "step": 118
+    },
+    {
+      "epoch": 0.013006175200830647,
+      "grad_norm": 0.12483936548233032,
+      "learning_rate": 4.2178276747988446e-05,
+      "loss": 0.434,
+      "step": 119
+    },
+    {
+      "epoch": 0.013115470790753593,
+      "grad_norm": 0.13112543523311615,
+      "learning_rate": 4.131759111665349e-05,
+      "loss": 0.4981,
+      "step": 120
+    },
+    {
+      "epoch": 0.01322476638067654,
+      "grad_norm": 0.12915010750293732,
+      "learning_rate": 4.045955023117276e-05,
+      "loss": 0.5198,
+      "step": 121
+    },
+    {
+      "epoch": 0.013334061970599486,
+      "grad_norm": 0.12868228554725647,
+      "learning_rate": 3.960441545911204e-05,
+      "loss": 0.4058,
+      "step": 122
+    },
+    {
+      "epoch": 0.013443357560522434,
+      "grad_norm": 0.1531195491552353,
+      "learning_rate": 3.875244728280676e-05,
+      "loss": 0.4973,
+      "step": 123
+    },
+    {
+      "epoch": 0.01355265315044538,
+      "grad_norm": 0.1404736340045929,
+      "learning_rate": 3.790390522001662e-05,
+      "loss": 0.4539,
+      "step": 124
+    },
+    {
+      "epoch": 0.013661948740368326,
+      "grad_norm": 0.1469733566045761,
+      "learning_rate": 3.705904774487396e-05,
+      "loss": 0.4203,
+      "step": 125
+    },
+    {
+      "epoch": 0.013771244330291272,
+      "grad_norm": 0.14171703159809113,
+      "learning_rate": 3.6218132209150045e-05,
+      "loss": 0.4354,
+      "step": 126
+    },
+    {
+      "epoch": 0.01388053992021422,
+      "grad_norm": 0.15275560319423676,
+      "learning_rate": 3.5381414763863166e-05,
+      "loss": 0.5334,
+      "step": 127
+    },
+    {
+      "epoch": 0.013989835510137166,
+      "grad_norm": 0.16623587906360626,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 0.748,
+      "step": 128
+    },
+    {
+      "epoch": 0.014099131100060112,
+      "grad_norm": 0.15390785038471222,
+      "learning_rate": 3.372159227714218e-05,
+      "loss": 0.4446,
+      "step": 129
+    },
+    {
+      "epoch": 0.01420842668998306,
+      "grad_norm": 0.16154845058918,
+      "learning_rate": 3.289899283371657e-05,
+      "loss": 0.5223,
+      "step": 130
+    },
+    {
+      "epoch": 0.014317722279906006,
+      "grad_norm": 0.17848701775074005,
+      "learning_rate": 3.2081602522734986e-05,
+      "loss": 0.4334,
+      "step": 131
+    },
+    {
+      "epoch": 0.014427017869828952,
+      "grad_norm": 0.18458040058612823,
+      "learning_rate": 3.12696703292044e-05,
+      "loss": 0.5952,
+      "step": 132
+    },
+    {
+      "epoch": 0.014536313459751898,
+      "grad_norm": 0.16637226939201355,
+      "learning_rate": 3.046344357553632e-05,
+      "loss": 0.4745,
+      "step": 133
+    },
+    {
+      "epoch": 0.014645609049674846,
+      "grad_norm": 0.17600120604038239,
+      "learning_rate": 2.9663167846209998e-05,
+      "loss": 0.4086,
+      "step": 134
+    },
+    {
+      "epoch": 0.014754904639597792,
+      "grad_norm": 0.20289093255996704,
+      "learning_rate": 2.886908691296504e-05,
+      "loss": 0.4969,
+      "step": 135
+    },
+    {
+      "epoch": 0.014864200229520739,
+      "grad_norm": 0.1863214075565338,
+      "learning_rate": 2.8081442660546125e-05,
+      "loss": 0.4525,
+      "step": 136
+    },
+    {
+      "epoch": 0.014973495819443685,
+      "grad_norm": 0.19627094268798828,
+      "learning_rate": 2.7300475013022663e-05,
+      "loss": 0.6143,
+      "step": 137
+    },
+    {
+      "epoch": 0.015082791409366633,
+      "grad_norm": 0.1941378265619278,
+      "learning_rate": 2.6526421860705473e-05,
+      "loss": 0.3371,
+      "step": 138
+    },
+    {
+      "epoch": 0.015192086999289579,
+      "grad_norm": 0.2424362599849701,
+      "learning_rate": 2.575951898768315e-05,
+      "loss": 0.6709,
+      "step": 139
+    },
+    {
+      "epoch": 0.015301382589212525,
+      "grad_norm": 0.23324838280677795,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 0.6355,
+      "step": 140
+    },
+    {
+      "epoch": 0.015410678179135473,
+      "grad_norm": 0.23842982947826385,
+      "learning_rate": 2.4248096254497288e-05,
+      "loss": 0.5407,
+      "step": 141
+    },
+    {
+      "epoch": 0.015519973769058419,
+      "grad_norm": 0.2603646516799927,
+      "learning_rate": 2.350403678833976e-05,
+      "loss": 0.5855,
+      "step": 142
+    },
+    {
+      "epoch": 0.015629269358981367,
+      "grad_norm": 0.329253226518631,
+      "learning_rate": 2.2768048249248648e-05,
+      "loss": 0.6169,
+      "step": 143
+    },
+    {
+      "epoch": 0.015738564948904313,
+      "grad_norm": 0.2668045461177826,
+      "learning_rate": 2.2040354826462668e-05,
+      "loss": 0.52,
+      "step": 144
+    },
+    {
+      "epoch": 0.01584786053882726,
+      "grad_norm": 0.28101295232772827,
+      "learning_rate": 2.132117818244771e-05,
+      "loss": 0.5727,
+      "step": 145
+    },
+    {
+      "epoch": 0.015957156128750205,
+      "grad_norm": 0.28658443689346313,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 0.5835,
+      "step": 146
+    },
+    {
+      "epoch": 0.01606645171867315,
+      "grad_norm": 0.3398421108722687,
+      "learning_rate": 1.9909248842397584e-05,
+      "loss": 0.6378,
+      "step": 147
+    },
+    {
+      "epoch": 0.016175747308596097,
+      "grad_norm": 0.3835708200931549,
+      "learning_rate": 1.9216926233717085e-05,
+      "loss": 0.598,
+      "step": 148
+    },
+    {
+      "epoch": 0.016285042898519043,
+      "grad_norm": 0.7383447885513306,
+      "learning_rate": 1.8533980447508137e-05,
+      "loss": 0.8202,
+      "step": 149
+    },
+    {
+      "epoch": 0.016394338488441993,
+      "grad_norm": 0.6827495098114014,
+      "learning_rate": 1.7860619515673033e-05,
+      "loss": 0.8189,
+      "step": 150
+    },
+    {
+      "epoch": 0.016394338488441993,
+      "eval_loss": 0.46980416774749756,
+      "eval_runtime": 1194.1023,
+      "eval_samples_per_second": 12.905,
+      "eval_steps_per_second": 6.453,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.0093599183640986e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null