Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:00eaadf807d93761ef5e07139c8dddbb275e835a415337718c887545d74e7ba7
 size 671149168

 version https://git-lfs.github.com/spec/v1
+oid sha256:82645c9fe11ec7c0f62f872f36cf328e10bf47eb8ffaae8b79e8280971a05352
 size 671149168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:59c49c3f7d0592475f5a3b291ddc60e64ea767a49fdbecfaa24782fe4b88e25b
 size 1342555602

 version https://git-lfs.github.com/spec/v1
+oid sha256:ccf865d3895b08fe49e302c4c30226d962b97e15ab75c9b2cdf298096b64826d
 size 1342555602

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:49e687ee3597cc2458951fb9af2b7ff6d3ff128adb033f60830e063504287484
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:2454fca9dcb56b67560d9129d69cdaedcbff5c09ff4e39ece5be8576c03eb0f8
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4e0244c146d76bf610ae39789eea36d0bff336b81d211db008e020e66921060c
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f4c9c807f0681c8b7e53ada9b6ec3dba530d303de7da0d0a0562a3d8d0bbba08
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.2480071783065796,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.0307243259850987,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 12.355,
       "eval_steps_per_second": 6.177,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.434577118649385e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.0585381984710693,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 0.046086488977648055,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 12.355,
       "eval_steps_per_second": 6.177,
       "step": 100
+    },
+    {
+      "epoch": 0.031031569244949687,
+      "grad_norm": 10.580477714538574,
+      "learning_rate": 5.782172325201155e-05,
+      "loss": 5.5392,
+      "step": 101
+    },
+    {
+      "epoch": 0.031338812504800674,
+      "grad_norm": 9.869646072387695,
+      "learning_rate": 5.695865504800327e-05,
+      "loss": 5.5595,
+      "step": 102
+    },
+    {
+      "epoch": 0.03164605576465166,
+      "grad_norm": 9.99475383758545,
+      "learning_rate": 5.6093467170257374e-05,
+      "loss": 4.8398,
+      "step": 103
+    },
+    {
+      "epoch": 0.03195329902450265,
+      "grad_norm": 6.947811126708984,
+      "learning_rate": 5.522642316338268e-05,
+      "loss": 4.2438,
+      "step": 104
+    },
+    {
+      "epoch": 0.032260542284353634,
+      "grad_norm": 6.170292377471924,
+      "learning_rate": 5.435778713738292e-05,
+      "loss": 4.6814,
+      "step": 105
+    },
+    {
+      "epoch": 0.03256778554420462,
+      "grad_norm": 6.3110246658325195,
+      "learning_rate": 5.348782368720626e-05,
+      "loss": 4.4389,
+      "step": 106
+    },
+    {
+      "epoch": 0.032875028804055614,
+      "grad_norm": 6.087858200073242,
+      "learning_rate": 5.26167978121472e-05,
+      "loss": 4.1039,
+      "step": 107
+    },
+    {
+      "epoch": 0.0331822720639066,
+      "grad_norm": 6.2835211753845215,
+      "learning_rate": 5.174497483512506e-05,
+      "loss": 4.0166,
+      "step": 108
+    },
+    {
+      "epoch": 0.03348951532375759,
+      "grad_norm": 6.776898384094238,
+      "learning_rate": 5.0872620321864185e-05,
+      "loss": 4.2686,
+      "step": 109
+    },
+    {
+      "epoch": 0.033796758583608574,
+      "grad_norm": 6.588527202606201,
+      "learning_rate": 5e-05,
+      "loss": 3.7269,
+      "step": 110
+    },
+    {
+      "epoch": 0.03410400184345956,
+      "grad_norm": 7.68696403503418,
+      "learning_rate": 4.912737967813583e-05,
+      "loss": 3.9392,
+      "step": 111
+    },
+    {
+      "epoch": 0.03441124510331055,
+      "grad_norm": 5.877866744995117,
+      "learning_rate": 4.825502516487497e-05,
+      "loss": 3.5263,
+      "step": 112
+    },
+    {
+      "epoch": 0.034718488363161534,
+      "grad_norm": 7.236352920532227,
+      "learning_rate": 4.738320218785281e-05,
+      "loss": 3.7052,
+      "step": 113
+    },
+    {
+      "epoch": 0.03502573162301252,
+      "grad_norm": 6.501185894012451,
+      "learning_rate": 4.6512176312793736e-05,
+      "loss": 2.9949,
+      "step": 114
+    },
+    {
+      "epoch": 0.03533297488286351,
+      "grad_norm": 6.9282941818237305,
+      "learning_rate": 4.564221286261709e-05,
+      "loss": 3.5694,
+      "step": 115
+    },
+    {
+      "epoch": 0.035640218142714494,
+      "grad_norm": 7.355767250061035,
+      "learning_rate": 4.477357683661734e-05,
+      "loss": 3.9165,
+      "step": 116
+    },
+    {
+      "epoch": 0.03594746140256548,
+      "grad_norm": 7.192873954772949,
+      "learning_rate": 4.390653282974264e-05,
+      "loss": 3.1828,
+      "step": 117
+    },
+    {
+      "epoch": 0.03625470466241647,
+      "grad_norm": 6.482280254364014,
+      "learning_rate": 4.3041344951996746e-05,
+      "loss": 3.2275,
+      "step": 118
+    },
+    {
+      "epoch": 0.036561947922267454,
+      "grad_norm": 6.704769611358643,
+      "learning_rate": 4.2178276747988446e-05,
+      "loss": 3.1593,
+      "step": 119
+    },
+    {
+      "epoch": 0.03686919118211844,
+      "grad_norm": 6.919817924499512,
+      "learning_rate": 4.131759111665349e-05,
+      "loss": 3.0843,
+      "step": 120
+    },
+    {
+      "epoch": 0.03717643444196943,
+      "grad_norm": 7.4176506996154785,
+      "learning_rate": 4.045955023117276e-05,
+      "loss": 3.4191,
+      "step": 121
+    },
+    {
+      "epoch": 0.037483677701820414,
+      "grad_norm": 7.300436496734619,
+      "learning_rate": 3.960441545911204e-05,
+      "loss": 3.7824,
+      "step": 122
+    },
+    {
+      "epoch": 0.0377909209616714,
+      "grad_norm": 6.638614177703857,
+      "learning_rate": 3.875244728280676e-05,
+      "loss": 3.3756,
+      "step": 123
+    },
+    {
+      "epoch": 0.03809816422152239,
+      "grad_norm": 6.030972957611084,
+      "learning_rate": 3.790390522001662e-05,
+      "loss": 3.3504,
+      "step": 124
+    },
+    {
+      "epoch": 0.038405407481373374,
+      "grad_norm": 7.475324630737305,
+      "learning_rate": 3.705904774487396e-05,
+      "loss": 3.5805,
+      "step": 125
+    },
+    {
+      "epoch": 0.03871265074122437,
+      "grad_norm": 7.8704609870910645,
+      "learning_rate": 3.6218132209150045e-05,
+      "loss": 3.6184,
+      "step": 126
+    },
+    {
+      "epoch": 0.039019894001075354,
+      "grad_norm": 7.465869426727295,
+      "learning_rate": 3.5381414763863166e-05,
+      "loss": 4.1467,
+      "step": 127
+    },
+    {
+      "epoch": 0.03932713726092634,
+      "grad_norm": 7.257153511047363,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 4.2342,
+      "step": 128
+    },
+    {
+      "epoch": 0.03963438052077733,
+      "grad_norm": 7.452193260192871,
+      "learning_rate": 3.372159227714218e-05,
+      "loss": 4.3429,
+      "step": 129
+    },
+    {
+      "epoch": 0.039941623780628314,
+      "grad_norm": 7.880541801452637,
+      "learning_rate": 3.289899283371657e-05,
+      "loss": 4.3863,
+      "step": 130
+    },
+    {
+      "epoch": 0.0402488670404793,
+      "grad_norm": 8.45700740814209,
+      "learning_rate": 3.2081602522734986e-05,
+      "loss": 4.8662,
+      "step": 131
+    },
+    {
+      "epoch": 0.04055611030033029,
+      "grad_norm": 8.435225486755371,
+      "learning_rate": 3.12696703292044e-05,
+      "loss": 4.2266,
+      "step": 132
+    },
+    {
+      "epoch": 0.040863353560181274,
+      "grad_norm": 9.154268264770508,
+      "learning_rate": 3.046344357553632e-05,
+      "loss": 4.2599,
+      "step": 133
+    },
+    {
+      "epoch": 0.04117059682003226,
+      "grad_norm": 7.695627212524414,
+      "learning_rate": 2.9663167846209998e-05,
+      "loss": 4.0229,
+      "step": 134
+    },
+    {
+      "epoch": 0.04147784007988325,
+      "grad_norm": 9.314230918884277,
+      "learning_rate": 2.886908691296504e-05,
+      "loss": 4.8999,
+      "step": 135
+    },
+    {
+      "epoch": 0.041785083339734234,
+      "grad_norm": 9.278669357299805,
+      "learning_rate": 2.8081442660546125e-05,
+      "loss": 4.6078,
+      "step": 136
+    },
+    {
+      "epoch": 0.04209232659958522,
+      "grad_norm": 10.638617515563965,
+      "learning_rate": 2.7300475013022663e-05,
+      "loss": 4.6089,
+      "step": 137
+    },
+    {
+      "epoch": 0.04239956985943621,
+      "grad_norm": 8.870823860168457,
+      "learning_rate": 2.6526421860705473e-05,
+      "loss": 4.3292,
+      "step": 138
+    },
+    {
+      "epoch": 0.042706813119287194,
+      "grad_norm": 9.005095481872559,
+      "learning_rate": 2.575951898768315e-05,
+      "loss": 4.5548,
+      "step": 139
+    },
+    {
+      "epoch": 0.04301405637913818,
+      "grad_norm": 10.735925674438477,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 4.8442,
+      "step": 140
+    },
+    {
+      "epoch": 0.04332129963898917,
+      "grad_norm": 9.419788360595703,
+      "learning_rate": 2.4248096254497288e-05,
+      "loss": 4.926,
+      "step": 141
+    },
+    {
+      "epoch": 0.043628542898840154,
+      "grad_norm": 9.60610580444336,
+      "learning_rate": 2.350403678833976e-05,
+      "loss": 4.2713,
+      "step": 142
+    },
+    {
+      "epoch": 0.04393578615869114,
+      "grad_norm": 8.531740188598633,
+      "learning_rate": 2.2768048249248648e-05,
+      "loss": 4.0917,
+      "step": 143
+    },
+    {
+      "epoch": 0.04424302941854213,
+      "grad_norm": 9.785737037658691,
+      "learning_rate": 2.2040354826462668e-05,
+      "loss": 4.6779,
+      "step": 144
+    },
+    {
+      "epoch": 0.044550272678393114,
+      "grad_norm": 10.093374252319336,
+      "learning_rate": 2.132117818244771e-05,
+      "loss": 4.713,
+      "step": 145
+    },
+    {
+      "epoch": 0.04485751593824411,
+      "grad_norm": 11.576554298400879,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 5.0362,
+      "step": 146
+    },
+    {
+      "epoch": 0.045164759198095095,
+      "grad_norm": 12.363187789916992,
+      "learning_rate": 1.9909248842397584e-05,
+      "loss": 5.3881,
+      "step": 147
+    },
+    {
+      "epoch": 0.04547200245794608,
+      "grad_norm": 11.872509956359863,
+      "learning_rate": 1.9216926233717085e-05,
+      "loss": 4.8039,
+      "step": 148
+    },
+    {
+      "epoch": 0.04577924571779707,
+      "grad_norm": 13.223235130310059,
+      "learning_rate": 1.8533980447508137e-05,
+      "loss": 5.4591,
+      "step": 149
+    },
+    {
+      "epoch": 0.046086488977648055,
+      "grad_norm": 13.729710578918457,
+      "learning_rate": 1.7860619515673033e-05,
+      "loss": 5.6227,
+      "step": 150
+    },
+    {
+      "epoch": 0.046086488977648055,
+      "eval_loss": 1.0585381984710693,
+      "eval_runtime": 443.8526,
+      "eval_samples_per_second": 12.351,
+      "eval_steps_per_second": 6.175,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.150076928449577e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null