Training in progress, step 400, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +1525 -5
last-checkpoint/training_args.bin +1 -1

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b930ad9e77ff5a419d20977f27fae47f1696e39a0edadb6cc6df932eaed1d890
 size 1885008480

 version https://git-lfs.github.com/spec/v1
+oid sha256:ea4d45498252b7c143bb7dae8d110f1f236765b3da87dad80ebd35ce427e76f9
 size 1885008480

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ef9a415e2286014d7f87e0947d21bbb60c6eb178cd3a4e5865f5976a88157b40
-size 682197916

 version https://git-lfs.github.com/spec/v1
+oid sha256:9d1c27f46251e22235cc85d9a8ecea3ff02bb5bccb46fed604763144a0cd392d
+size 683358430

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:29cfe9bb791136c4d3aa6cd394299eaad9fa893b84f46bdae8a93457d5e7c3d9
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:fc66eb8712c93ab501c2b8b71043ec8788ab8459fd6df384c5039b4d3bd8f331
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c9fcfb362294a3a6492fb99ab4118f74cf0775f55fd447e13965b3fc76272700
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:25d3d3c15cb09b099096a6e7e480d07f7ac79ecb8ab6d787a4c48afde0462e6b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.8,
   "eval_steps": 5,
-  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1527,13 +1527,1533 @@
       "eval_samples_per_second": 4.321,
       "eval_steps_per_second": 0.553,
       "step": 200
     }
   ],
   "logging_steps": 1,
-  "max_steps": 250,
-  "num_train_epochs": 1,
   "save_steps": 200,
-  "total_flos": 4563123475120128.0,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.6,
   "eval_steps": 5,
+  "global_step": 400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 4.321,
       "eval_steps_per_second": 0.553,
       "step": 200
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.00016536082474226803,
+      "loss": 0.6259,
+      "step": 201
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.00016515463917525774,
+      "loss": 0.8477,
+      "step": 202
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.00016494845360824742,
+      "loss": 0.9355,
+      "step": 203
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 0.0001647422680412371,
+      "loss": 0.7632,
+      "step": 204
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 0.00016453608247422681,
+      "loss": 0.5125,
+      "step": 205
+    },
+    {
+      "epoch": 0.82,
+      "eval_loss": 0.5757731795310974,
+      "eval_runtime": 58.6641,
+      "eval_samples_per_second": 4.262,
+      "eval_steps_per_second": 0.545,
+      "step": 205
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 0.0001643298969072165,
+      "loss": 0.7234,
+      "step": 206
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 0.00016412371134020618,
+      "loss": 0.7542,
+      "step": 207
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 0.0001639175257731959,
+      "loss": 0.6394,
+      "step": 208
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.00016371134020618558,
+      "loss": 0.5565,
+      "step": 209
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.00016350515463917526,
+      "loss": 0.6834,
+      "step": 210
+    },
+    {
+      "epoch": 0.84,
+      "eval_loss": 0.5658813714981079,
+      "eval_runtime": 58.24,
+      "eval_samples_per_second": 4.293,
+      "eval_steps_per_second": 0.549,
+      "step": 210
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.00016329896907216494,
+      "loss": 0.662,
+      "step": 211
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 0.00016309278350515465,
+      "loss": 0.5459,
+      "step": 212
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 0.00016288659793814434,
+      "loss": 0.6164,
+      "step": 213
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 0.00016268041237113402,
+      "loss": 0.6335,
+      "step": 214
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 0.00016247422680412373,
+      "loss": 0.5906,
+      "step": 215
+    },
+    {
+      "epoch": 0.86,
+      "eval_loss": 0.5624733567237854,
+      "eval_runtime": 57.9447,
+      "eval_samples_per_second": 4.314,
+      "eval_steps_per_second": 0.552,
+      "step": 215
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 0.00016226804123711341,
+      "loss": 0.5621,
+      "step": 216
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 0.0001620618556701031,
+      "loss": 0.5567,
+      "step": 217
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 0.00016185567010309278,
+      "loss": 0.4252,
+      "step": 218
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 0.0001616494845360825,
+      "loss": 0.6901,
+      "step": 219
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 0.00016144329896907217,
+      "loss": 0.6321,
+      "step": 220
+    },
+    {
+      "epoch": 0.88,
+      "eval_loss": 0.5694482326507568,
+      "eval_runtime": 58.2135,
+      "eval_samples_per_second": 4.295,
+      "eval_steps_per_second": 0.55,
+      "step": 220
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 0.00016123711340206186,
+      "loss": 0.6163,
+      "step": 221
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 0.00016103092783505157,
+      "loss": 0.4961,
+      "step": 222
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 0.00016082474226804125,
+      "loss": 0.5632,
+      "step": 223
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.00016061855670103094,
+      "loss": 0.4749,
+      "step": 224
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.00016041237113402065,
+      "loss": 0.495,
+      "step": 225
+    },
+    {
+      "epoch": 0.9,
+      "eval_loss": 0.5669766664505005,
+      "eval_runtime": 57.9014,
+      "eval_samples_per_second": 4.318,
+      "eval_steps_per_second": 0.553,
+      "step": 225
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.00016020618556701033,
+      "loss": 0.4442,
+      "step": 226
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 0.00016,
+      "loss": 0.526,
+      "step": 227
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 0.0001597938144329897,
+      "loss": 0.5636,
+      "step": 228
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.0001595876288659794,
+      "loss": 0.511,
+      "step": 229
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.0001593814432989691,
+      "loss": 0.5395,
+      "step": 230
+    },
+    {
+      "epoch": 0.92,
+      "eval_loss": 0.5704668164253235,
+      "eval_runtime": 57.9046,
+      "eval_samples_per_second": 4.317,
+      "eval_steps_per_second": 0.553,
+      "step": 230
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.00015917525773195875,
+      "loss": 0.5187,
+      "step": 231
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 0.00015896907216494846,
+      "loss": 0.5611,
+      "step": 232
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 0.00015876288659793814,
+      "loss": 0.4718,
+      "step": 233
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 0.00015855670103092782,
+      "loss": 0.4049,
+      "step": 234
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 0.00015835051546391754,
+      "loss": 0.5668,
+      "step": 235
+    },
+    {
+      "epoch": 0.94,
+      "eval_loss": 0.5722946524620056,
+      "eval_runtime": 58.2566,
+      "eval_samples_per_second": 4.291,
+      "eval_steps_per_second": 0.549,
+      "step": 235
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 0.00015814432989690722,
+      "loss": 0.5245,
+      "step": 236
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 0.0001579381443298969,
+      "loss": 0.4994,
+      "step": 237
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 0.0001577319587628866,
+      "loss": 0.4223,
+      "step": 238
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.0001575257731958763,
+      "loss": 0.5222,
+      "step": 239
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.00015731958762886598,
+      "loss": 0.4199,
+      "step": 240
+    },
+    {
+      "epoch": 0.96,
+      "eval_loss": 0.5722372531890869,
+      "eval_runtime": 57.804,
+      "eval_samples_per_second": 4.325,
+      "eval_steps_per_second": 0.554,
+      "step": 240
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.00015711340206185566,
+      "loss": 0.4171,
+      "step": 241
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 0.00015690721649484537,
+      "loss": 0.3978,
+      "step": 242
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 0.00015690721649484537,
+      "loss": 0.5726,
+      "step": 243
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 0.00015670103092783506,
+      "loss": 0.3324,
+      "step": 244
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 0.00015649484536082474,
+      "loss": 0.4253,
+      "step": 245
+    },
+    {
+      "epoch": 0.98,
+      "eval_loss": 0.5949168801307678,
+      "eval_runtime": 58.1262,
+      "eval_samples_per_second": 4.301,
+      "eval_steps_per_second": 0.551,
+      "step": 245
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 0.00015628865979381445,
+      "loss": 0.3992,
+      "step": 246
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 0.00015608247422680413,
+      "loss": 0.4968,
+      "step": 247
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 0.00015587628865979382,
+      "loss": 0.388,
+      "step": 248
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.0001556701030927835,
+      "loss": 0.3071,
+      "step": 249
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.0001554639175257732,
+      "loss": 0.4561,
+      "step": 250
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 0.6334843039512634,
+      "eval_runtime": 58.0783,
+      "eval_samples_per_second": 4.305,
+      "eval_steps_per_second": 0.551,
+      "step": 250
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.0001552577319587629,
+      "loss": 0.8641,
+      "step": 251
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 0.00015505154639175258,
+      "loss": 0.5815,
+      "step": 252
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 0.0001548453608247423,
+      "loss": 0.6515,
+      "step": 253
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 0.00015463917525773197,
+      "loss": 0.6192,
+      "step": 254
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 0.00015443298969072166,
+      "loss": 0.4681,
+      "step": 255
+    },
+    {
+      "epoch": 1.02,
+      "eval_loss": 0.5661035776138306,
+      "eval_runtime": 58.219,
+      "eval_samples_per_second": 4.294,
+      "eval_steps_per_second": 0.55,
+      "step": 255
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 0.00015422680412371137,
+      "loss": 0.5288,
+      "step": 256
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 0.00015402061855670105,
+      "loss": 0.4924,
+      "step": 257
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 0.00015381443298969073,
+      "loss": 0.5358,
+      "step": 258
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 0.00015360824742268042,
+      "loss": 0.5082,
+      "step": 259
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 0.00015340206185567013,
+      "loss": 0.4527,
+      "step": 260
+    },
+    {
+      "epoch": 1.04,
+      "eval_loss": 0.5820726156234741,
+      "eval_runtime": 57.7612,
+      "eval_samples_per_second": 4.328,
+      "eval_steps_per_second": 0.554,
+      "step": 260
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 0.0001531958762886598,
+      "loss": 0.5516,
+      "step": 261
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 0.00015298969072164947,
+      "loss": 0.5131,
+      "step": 262
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 0.00015278350515463918,
+      "loss": 0.5988,
+      "step": 263
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 0.00015257731958762886,
+      "loss": 0.4569,
+      "step": 264
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 0.00015237113402061855,
+      "loss": 0.53,
+      "step": 265
+    },
+    {
+      "epoch": 1.06,
+      "eval_loss": 0.5718860030174255,
+      "eval_runtime": 58.2455,
+      "eval_samples_per_second": 4.292,
+      "eval_steps_per_second": 0.549,
+      "step": 265
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 0.00015216494845360826,
+      "loss": 0.506,
+      "step": 266
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 0.00015195876288659794,
+      "loss": 0.5774,
+      "step": 267
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 0.00015175257731958762,
+      "loss": 0.3699,
+      "step": 268
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 0.00015154639175257733,
+      "loss": 0.3874,
+      "step": 269
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 0.00015134020618556702,
+      "loss": 0.552,
+      "step": 270
+    },
+    {
+      "epoch": 1.08,
+      "eval_loss": 0.5731833577156067,
+      "eval_runtime": 58.0655,
+      "eval_samples_per_second": 4.305,
+      "eval_steps_per_second": 0.551,
+      "step": 270
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 0.0001511340206185567,
+      "loss": 0.4844,
+      "step": 271
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 0.00015092783505154638,
+      "loss": 0.4164,
+      "step": 272
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 0.0001507216494845361,
+      "loss": 0.4694,
+      "step": 273
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 0.00015051546391752578,
+      "loss": 0.4008,
+      "step": 274
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 0.00015030927835051546,
+      "loss": 0.4439,
+      "step": 275
+    },
+    {
+      "epoch": 1.1,
+      "eval_loss": 0.5790666341781616,
+      "eval_runtime": 57.8801,
+      "eval_samples_per_second": 4.319,
+      "eval_steps_per_second": 0.553,
+      "step": 275
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 0.00015010309278350517,
+      "loss": 0.4399,
+      "step": 276
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 0.00014989690721649486,
+      "loss": 0.4316,
+      "step": 277
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 0.00014969072164948454,
+      "loss": 0.4761,
+      "step": 278
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 0.00014948453608247422,
+      "loss": 0.44,
+      "step": 279
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 0.00014927835051546393,
+      "loss": 0.3519,
+      "step": 280
+    },
+    {
+      "epoch": 1.12,
+      "eval_loss": 0.5812113881111145,
+      "eval_runtime": 58.0042,
+      "eval_samples_per_second": 4.31,
+      "eval_steps_per_second": 0.552,
+      "step": 280
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 0.00014907216494845362,
+      "loss": 0.3776,
+      "step": 281
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 0.0001488659793814433,
+      "loss": 0.3389,
+      "step": 282
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 0.000148659793814433,
+      "loss": 0.3219,
+      "step": 283
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 0.0001484536082474227,
+      "loss": 0.4546,
+      "step": 284
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 0.00014824742268041238,
+      "loss": 0.4285,
+      "step": 285
+    },
+    {
+      "epoch": 1.14,
+      "eval_loss": 0.5796990990638733,
+      "eval_runtime": 57.8331,
+      "eval_samples_per_second": 4.323,
+      "eval_steps_per_second": 0.553,
+      "step": 285
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 0.0001480412371134021,
+      "loss": 0.3603,
+      "step": 286
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 0.00014783505154639177,
+      "loss": 0.3516,
+      "step": 287
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 0.00014762886597938146,
+      "loss": 0.3092,
+      "step": 288
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 0.00014742268041237114,
+      "loss": 0.3408,
+      "step": 289
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 0.00014721649484536085,
+      "loss": 0.2536,
+      "step": 290
+    },
+    {
+      "epoch": 1.16,
+      "eval_loss": 0.5906583070755005,
+      "eval_runtime": 58.0348,
+      "eval_samples_per_second": 4.308,
+      "eval_steps_per_second": 0.551,
+      "step": 290
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 0.00014701030927835053,
+      "loss": 0.3943,
+      "step": 291
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 0.0001468041237113402,
+      "loss": 0.3739,
+      "step": 292
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 0.0001465979381443299,
+      "loss": 0.405,
+      "step": 293
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 0.00014639175257731958,
+      "loss": 0.3548,
+      "step": 294
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 0.00014618556701030927,
+      "loss": 0.462,
+      "step": 295
+    },
+    {
+      "epoch": 1.18,
+      "eval_loss": 0.6061128973960876,
+      "eval_runtime": 57.9993,
+      "eval_samples_per_second": 4.31,
+      "eval_steps_per_second": 0.552,
+      "step": 295
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 0.00014597938144329898,
+      "loss": 0.3555,
+      "step": 296
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 0.00014577319587628866,
+      "loss": 0.414,
+      "step": 297
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 0.00014556701030927834,
+      "loss": 0.2916,
+      "step": 298
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 0.00014536082474226805,
+      "loss": 0.2507,
+      "step": 299
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 0.00014515463917525774,
+      "loss": 0.3295,
+      "step": 300
+    },
+    {
+      "epoch": 1.2,
+      "eval_loss": 0.6123625636100769,
+      "eval_runtime": 57.7714,
+      "eval_samples_per_second": 4.327,
+      "eval_steps_per_second": 0.554,
+      "step": 300
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 0.00014494845360824742,
+      "loss": 0.5293,
+      "step": 301
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 0.0001447422680412371,
+      "loss": 0.686,
+      "step": 302
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 0.00014453608247422682,
+      "loss": 0.4869,
+      "step": 303
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 0.0001443298969072165,
+      "loss": 0.5161,
+      "step": 304
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 0.00014412371134020618,
+      "loss": 0.4381,
+      "step": 305
+    },
+    {
+      "epoch": 1.22,
+      "eval_loss": 0.576439619064331,
+      "eval_runtime": 58.162,
+      "eval_samples_per_second": 4.298,
+      "eval_steps_per_second": 0.55,
+      "step": 305
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 0.0001439175257731959,
+      "loss": 0.5365,
+      "step": 306
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 0.00014371134020618558,
+      "loss": 0.4769,
+      "step": 307
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 0.00014350515463917526,
+      "loss": 0.555,
+      "step": 308
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 0.00014329896907216494,
+      "loss": 0.5363,
+      "step": 309
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 0.00014309278350515465,
+      "loss": 0.5696,
+      "step": 310
+    },
+    {
+      "epoch": 1.24,
+      "eval_loss": 0.5902033448219299,
+      "eval_runtime": 58.1218,
+      "eval_samples_per_second": 4.301,
+      "eval_steps_per_second": 0.551,
+      "step": 310
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 0.00014288659793814434,
+      "loss": 0.5701,
+      "step": 311
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 0.00014268041237113402,
+      "loss": 0.4742,
+      "step": 312
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 0.00014247422680412373,
+      "loss": 0.5453,
+      "step": 313
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 0.00014226804123711342,
+      "loss": 0.4795,
+      "step": 314
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 0.0001420618556701031,
+      "loss": 0.4853,
+      "step": 315
+    },
+    {
+      "epoch": 1.26,
+      "eval_loss": 0.575286865234375,
+      "eval_runtime": 57.7708,
+      "eval_samples_per_second": 4.327,
+      "eval_steps_per_second": 0.554,
+      "step": 315
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 0.0001418556701030928,
+      "loss": 0.4996,
+      "step": 316
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 0.0001416494845360825,
+      "loss": 0.3985,
+      "step": 317
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 0.00014144329896907218,
+      "loss": 0.4474,
+      "step": 318
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 0.00014123711340206186,
+      "loss": 0.5442,
+      "step": 319
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 0.00014103092783505157,
+      "loss": 0.5395,
+      "step": 320
+    },
+    {
+      "epoch": 1.28,
+      "eval_loss": 0.5742917656898499,
+      "eval_runtime": 57.9054,
+      "eval_samples_per_second": 4.317,
+      "eval_steps_per_second": 0.553,
+      "step": 320
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 0.00014082474226804125,
+      "loss": 0.4698,
+      "step": 321
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 0.0001406185567010309,
+      "loss": 0.5232,
+      "step": 322
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 0.00014041237113402062,
+      "loss": 0.41,
+      "step": 323
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 0.0001402061855670103,
+      "loss": 0.4899,
+      "step": 324
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 0.00014,
+      "loss": 0.4355,
+      "step": 325
+    },
+    {
+      "epoch": 1.3,
+      "eval_loss": 0.5757585763931274,
+      "eval_runtime": 58.18,
+      "eval_samples_per_second": 4.297,
+      "eval_steps_per_second": 0.55,
+      "step": 325
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 0.0001397938144329897,
+      "loss": 0.4128,
+      "step": 326
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 0.00013958762886597938,
+      "loss": 0.4048,
+      "step": 327
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 0.00013938144329896907,
+      "loss": 0.4656,
+      "step": 328
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 0.00013917525773195878,
+      "loss": 0.3682,
+      "step": 329
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 0.00013896907216494846,
+      "loss": 0.4943,
+      "step": 330
+    },
+    {
+      "epoch": 1.32,
+      "eval_loss": 0.5842174291610718,
+      "eval_runtime": 57.8497,
+      "eval_samples_per_second": 4.322,
+      "eval_steps_per_second": 0.553,
+      "step": 330
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 0.00013876288659793814,
+      "loss": 0.3817,
+      "step": 331
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 0.00013855670103092783,
+      "loss": 0.4528,
+      "step": 332
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 0.00013835051546391754,
+      "loss": 0.3355,
+      "step": 333
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 0.00013814432989690722,
+      "loss": 0.4085,
+      "step": 334
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 0.0001379381443298969,
+      "loss": 0.3934,
+      "step": 335
+    },
+    {
+      "epoch": 1.34,
+      "eval_loss": 0.5792785882949829,
+      "eval_runtime": 58.0391,
+      "eval_samples_per_second": 4.307,
+      "eval_steps_per_second": 0.551,
+      "step": 335
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 0.00013773195876288661,
+      "loss": 0.3289,
+      "step": 336
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 0.0001375257731958763,
+      "loss": 0.3551,
+      "step": 337
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 0.00013731958762886598,
+      "loss": 0.3062,
+      "step": 338
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 0.00013711340206185566,
+      "loss": 0.3588,
+      "step": 339
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 0.00013690721649484538,
+      "loss": 0.2947,
+      "step": 340
+    },
+    {
+      "epoch": 1.36,
+      "eval_loss": 0.5880213975906372,
+      "eval_runtime": 58.0627,
+      "eval_samples_per_second": 4.306,
+      "eval_steps_per_second": 0.551,
+      "step": 340
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 0.00013670103092783506,
+      "loss": 0.4527,
+      "step": 341
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 0.00013649484536082474,
+      "loss": 0.413,
+      "step": 342
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 0.00013628865979381445,
+      "loss": 0.3439,
+      "step": 343
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 0.00013608247422680414,
+      "loss": 0.3529,
+      "step": 344
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 0.00013587628865979382,
+      "loss": 0.3427,
+      "step": 345
+    },
+    {
+      "epoch": 1.38,
+      "eval_loss": 0.5902564525604248,
+      "eval_runtime": 58.0661,
+      "eval_samples_per_second": 4.305,
+      "eval_steps_per_second": 0.551,
+      "step": 345
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 0.00013567010309278353,
+      "loss": 0.3917,
+      "step": 346
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 0.00013546391752577321,
+      "loss": 0.2853,
+      "step": 347
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 0.0001352577319587629,
+      "loss": 0.2518,
+      "step": 348
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 0.00013505154639175258,
+      "loss": 0.3215,
+      "step": 349
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 0.0001348453608247423,
+      "loss": 0.2906,
+      "step": 350
+    },
+    {
+      "epoch": 1.4,
+      "eval_loss": 0.6013336181640625,
+      "eval_runtime": 58.0155,
+      "eval_samples_per_second": 4.309,
+      "eval_steps_per_second": 0.552,
+      "step": 350
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 0.00013463917525773197,
+      "loss": 0.6485,
+      "step": 351
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 0.00013443298969072166,
+      "loss": 0.6829,
+      "step": 352
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 0.00013422680412371134,
+      "loss": 0.5409,
+      "step": 353
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 0.00013402061855670103,
+      "loss": 0.7209,
+      "step": 354
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 0.0001338144329896907,
+      "loss": 0.5774,
+      "step": 355
+    },
+    {
+      "epoch": 1.42,
+      "eval_loss": 0.583857536315918,
+      "eval_runtime": 57.8931,
+      "eval_samples_per_second": 4.318,
+      "eval_steps_per_second": 0.553,
+      "step": 355
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 0.00013360824742268042,
+      "loss": 0.5123,
+      "step": 356
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 0.0001334020618556701,
+      "loss": 0.6287,
+      "step": 357
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 0.00013319587628865979,
+      "loss": 0.641,
+      "step": 358
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 0.0001329896907216495,
+      "loss": 0.5998,
+      "step": 359
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 0.00013278350515463918,
+      "loss": 0.4529,
+      "step": 360
+    },
+    {
+      "epoch": 1.44,
+      "eval_loss": 0.581903338432312,
+      "eval_runtime": 57.8521,
+      "eval_samples_per_second": 4.321,
+      "eval_steps_per_second": 0.553,
+      "step": 360
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 0.00013257731958762886,
+      "loss": 0.4551,
+      "step": 361
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 0.00013237113402061855,
+      "loss": 0.4757,
+      "step": 362
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 0.00013216494845360826,
+      "loss": 0.4402,
+      "step": 363
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 0.00013195876288659794,
+      "loss": 0.4174,
+      "step": 364
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 0.00013175257731958762,
+      "loss": 0.4431,
+      "step": 365
+    },
+    {
+      "epoch": 1.46,
+      "eval_loss": 0.5788648128509521,
+      "eval_runtime": 58.1681,
+      "eval_samples_per_second": 4.298,
+      "eval_steps_per_second": 0.55,
+      "step": 365
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 0.00013154639175257734,
+      "loss": 0.4286,
+      "step": 366
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 0.00013134020618556702,
+      "loss": 0.4597,
+      "step": 367
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 0.0001311340206185567,
+      "loss": 0.5148,
+      "step": 368
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 0.00013092783505154639,
+      "loss": 0.5256,
+      "step": 369
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 0.0001307216494845361,
+      "loss": 0.3836,
+      "step": 370
+    },
+    {
+      "epoch": 1.48,
+      "eval_loss": 0.5807417035102844,
+      "eval_runtime": 57.7395,
+      "eval_samples_per_second": 4.33,
+      "eval_steps_per_second": 0.554,
+      "step": 370
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 0.00013051546391752578,
+      "loss": 0.403,
+      "step": 371
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 0.00013030927835051546,
+      "loss": 0.4942,
+      "step": 372
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 0.00013010309278350517,
+      "loss": 0.411,
+      "step": 373
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 0.00012989690721649486,
+      "loss": 0.4153,
+      "step": 374
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 0.00012969072164948454,
+      "loss": 0.4054,
+      "step": 375
+    },
+    {
+      "epoch": 1.5,
+      "eval_loss": 0.5868126153945923,
+      "eval_runtime": 57.7457,
+      "eval_samples_per_second": 4.329,
+      "eval_steps_per_second": 0.554,
+      "step": 375
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 0.00012948453608247425,
+      "loss": 0.4248,
+      "step": 376
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 0.00012927835051546393,
+      "loss": 0.4231,
+      "step": 377
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 0.00012907216494845362,
+      "loss": 0.422,
+      "step": 378
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 0.0001288659793814433,
+      "loss": 0.3957,
+      "step": 379
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 0.000128659793814433,
+      "loss": 0.4463,
+      "step": 380
+    },
+    {
+      "epoch": 1.52,
+      "eval_loss": 0.5862159132957458,
+      "eval_runtime": 58.2762,
+      "eval_samples_per_second": 4.29,
+      "eval_steps_per_second": 0.549,
+      "step": 380
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 0.0001284536082474227,
+      "loss": 0.4907,
+      "step": 381
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 0.00012824742268041238,
+      "loss": 0.4444,
+      "step": 382
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 0.00012804123711340206,
+      "loss": 0.4767,
+      "step": 383
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 0.00012783505154639175,
+      "loss": 0.4122,
+      "step": 384
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 0.00012762886597938143,
+      "loss": 0.4023,
+      "step": 385
+    },
+    {
+      "epoch": 1.54,
+      "eval_loss": 0.582167387008667,
+      "eval_runtime": 58.0372,
+      "eval_samples_per_second": 4.308,
+      "eval_steps_per_second": 0.551,
+      "step": 385
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 0.00012742268041237114,
+      "loss": 0.4174,
+      "step": 386
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 0.00012721649484536082,
+      "loss": 0.3888,
+      "step": 387
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 0.0001270103092783505,
+      "loss": 0.2883,
+      "step": 388
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 0.00012680412371134022,
+      "loss": 0.4039,
+      "step": 389
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 0.0001265979381443299,
+      "loss": 0.3211,
+      "step": 390
+    },
+    {
+      "epoch": 1.56,
+      "eval_loss": 0.5785840749740601,
+      "eval_runtime": 58.0313,
+      "eval_samples_per_second": 4.308,
+      "eval_steps_per_second": 0.551,
+      "step": 390
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 0.00012639175257731958,
+      "loss": 0.3414,
+      "step": 391
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 0.00012618556701030927,
+      "loss": 0.3639,
+      "step": 392
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 0.00012597938144329898,
+      "loss": 0.3687,
+      "step": 393
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 0.00012577319587628866,
+      "loss": 0.2935,
+      "step": 394
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 0.00012556701030927835,
+      "loss": 0.4914,
+      "step": 395
+    },
+    {
+      "epoch": 1.58,
+      "eval_loss": 0.5804648399353027,
+      "eval_runtime": 57.7946,
+      "eval_samples_per_second": 4.326,
+      "eval_steps_per_second": 0.554,
+      "step": 395
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 0.00012536082474226806,
+      "loss": 0.302,
+      "step": 396
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 0.00012515463917525774,
+      "loss": 0.2966,
+      "step": 397
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 0.00012494845360824742,
+      "loss": 0.3726,
+      "step": 398
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 0.0001247422680412371,
+      "loss": 0.3031,
+      "step": 399
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 0.00012453608247422682,
+      "loss": 0.3497,
+      "step": 400
+    },
+    {
+      "epoch": 1.6,
+      "eval_loss": 0.5969975590705872,
+      "eval_runtime": 58.0419,
+      "eval_samples_per_second": 4.307,
+      "eval_steps_per_second": 0.551,
+      "step": 400
     }
   ],
   "logging_steps": 1,
+  "max_steps": 1000,
+  "num_train_epochs": 4,
   "save_steps": 200,
+  "total_flos": 9123743473139712.0,
   "trial_name": null,
   "trial_params": null
 }

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:685886b5abec9b3e0a3a073d5d0d86dfd0f63953e281951ca2dc75b3bafd78e1
 size 4664

 version https://git-lfs.github.com/spec/v1
+oid sha256:7e3449204de7ba86a1e89188686e405bb45465e9138957adaef9caeb8c0640b6
 size 4664