g4rg commited on Oct 6

Commit

61145c7

•

1 Parent(s): a5eadd1

Training in progress, step 326, checkpoint

Browse files

Files changed (28) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step326/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step326/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step326/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step326/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step326/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step326/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step326/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step326/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step326/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step326/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step326/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step326/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step326/zero_pp_rank_4_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step326/zero_pp_rank_5_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step326/zero_pp_rank_6_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step326/zero_pp_rank_7_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +438 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b6b7fbaf2d6a6e1654728bf2b64ff7a097f615d5247c146dd31d3eccfa8fc30f
 size 763470136

 version https://git-lfs.github.com/spec/v1
+oid sha256:aa8b2208e339d0966b30c53e09a99df61e2311b931ce1a0d629c8ac892f616a5
 size 763470136

last-checkpoint/global_step326/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:43b3137f947c6139cf829b67978cdba814ebd02eaee9fdcc3c0f167fd35fd35b
+size 289065424

last-checkpoint/global_step326/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d6db33c332d8581358d602504c1c91f0d3a883b074cf661ac66a15b03dd40abd
+size 289065424

last-checkpoint/global_step326/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cc2873da28d4036072b8fb47729fcb07fd661ca126c821a1edd1b5e0e0e30097
+size 289065424

last-checkpoint/global_step326/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d2310adddf2072beb2ec0a8d7336c7313d0522f5d558ddf1404c757f814fa692
+size 289065424

last-checkpoint/global_step326/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8c0a3de1b7fabd73a2f8e028bc47bd34d2cadec6c6a7e0f55c1ec00eaa8d5f09
+size 289065424

last-checkpoint/global_step326/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e65446abe8198c8cdae4ef4d6043c5b7cc00aaa255a4eb5fde655e3a2c814d26
+size 289065424

last-checkpoint/global_step326/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:99b1a452b0ea7e88f778e0e3e688314048124e3e186d2dbefa61af7e7fcb6d38
+size 289065424

last-checkpoint/global_step326/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:feac3121144190c7b1081674f7d997011edfb3697de551be384f00cdc0ba3d16
+size 289065424

last-checkpoint/global_step326/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:99cf2bb29fbbb9b7a3cdf4a3f999edea48aca7423658b0613e3cad205c425e76
+size 348711830

last-checkpoint/global_step326/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4ae71c4246c7a236ee1d9aafa93f4d8184b878bddd8411262e99f470ba6a22d6
+size 348711830

last-checkpoint/global_step326/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f353e9171125c04ba586a5e1399b5e436346795c2d781358b392ae0949ba32f3
+size 348711830

last-checkpoint/global_step326/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4b3bac07cff339e40e4d293b58834fa924ecd46e0a7004f2a7b23e4ae2dccd50
+size 348711830

last-checkpoint/global_step326/zero_pp_rank_4_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fdcdd82841eb104d9e8a4621cac38919d3eb554fb1fff0a673fde94a7dd6e2ed
+size 348711830

last-checkpoint/global_step326/zero_pp_rank_5_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:baf08c5cca6ee378c601258dcdcdc6750f8263163766efc8715e728d7374f16b
+size 348711830

last-checkpoint/global_step326/zero_pp_rank_6_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:04351dfca49e5d3ecaa0f61d4f3ff75c1018f5ac923af4f043a17b42b16aa183
+size 348711830

last-checkpoint/global_step326/zero_pp_rank_7_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7323dd294955fbd4f4d06dbac88975d8a0dfb8cf0c1a2c0e35064347930eed11
+size 348711830

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step264~~


1	+ global_step326

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:756188867614fe144ce7bb4100b8fdc4a53793718efdbfd597ab9a7af1127cb3
 size 15920

 version https://git-lfs.github.com/spec/v1
+oid sha256:c7773f084902535989bdb41582efe57404415ae441c0e941b91e35ed5bef8d6c
 size 15920

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9326dda8ccb88256fea16bdb08bf3d8ee2d7890d74941621ea0ae79baad53127
 size 15920

 version https://git-lfs.github.com/spec/v1
+oid sha256:fb6f1e872eaa090ac7fcbb7390762ebd32f4720fffac3f24df60938a27e68cd4
 size 15920

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc7ea8107c02800ceda5d3219d8139cc0c46423c770369f8d482750d2ee66b59
 size 15920

 version https://git-lfs.github.com/spec/v1
+oid sha256:168f0069d86758b09cb8707be4dc71abfea652954fd7c1fc7710c08989d444bb
 size 15920

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5100775819feb4598b355aaf5ae7a2d05f1e6c33d82585848692501430716b79
 size 15920

 version https://git-lfs.github.com/spec/v1
+oid sha256:c6f3f1877afae4463c0da7af29b5016c2a4b26f8ab03a4bb94b21beefb8705ac
 size 15920

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:375d7beb01cab64b2715fb3d805593967127e2433072776577d1a22535bc71f6
 size 15920

 version https://git-lfs.github.com/spec/v1
+oid sha256:0bc6bc1a489faad48156164ba681062284f4ce06e78099aed3eb21be38bdcae8
 size 15920

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:be4bc162636adeba1331e40da73f3fb1fde2fb44472545ff46bc3e2a6588d115
 size 15920

 version https://git-lfs.github.com/spec/v1
+oid sha256:3874e1aa39cf2ac616290be1045cac257b998568136e9a70f9a79d503a77c1be
 size 15920

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9e4ec9613f9c318e718457c34ba482fb1b487745cd80d6e26c4479f47030f964
 size 15920

 version https://git-lfs.github.com/spec/v1
+oid sha256:08d35009470b1536e71f50cca3e4f2587ed7caac64c4ff1c8286f89f2bdbd9d9
 size 15920

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e6c5785e3656da35a0034b82ee38c2b260ac87d57dc93498957445739f27c017
 size 15920

 version https://git-lfs.github.com/spec/v1
+oid sha256:b6aec33103c51dff2dd3527e0d1edfb46d84c375b17676323ddceb55412f0047
 size 15920

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:26eca587873b25805521ebb406b132a4ba3e54d5f099d35d9e497769da91dcd6
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2c1397d76155071779653df2de895577183fdb8d7655b1d6346b073c3c09830d
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.8098159509202454,
   "eval_steps": 66,
-  "global_step": 264,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1895,6 +1895,440 @@
       "eval_samples_per_second": 1.794,
       "eval_steps_per_second": 0.126,
       "step": 264
     }
   ],
   "logging_steps": 1,
@@ -1909,12 +2343,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 288286794842112.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.0,
   "eval_steps": 66,
+  "global_step": 326,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1.794,
       "eval_steps_per_second": 0.126,
       "step": 264
+    },
+    {
+      "epoch": 0.8128834355828221,
+      "grad_norm": 0.2830531876648041,
+      "learning_rate": 1.8540000807185192e-05,
+      "loss": 1.9384,
+      "step": 265
+    },
+    {
+      "epoch": 0.8159509202453987,
+      "grad_norm": 0.2670241830579454,
+      "learning_rate": 1.827113894397003e-05,
+      "loss": 1.8443,
+      "step": 266
+    },
+    {
+      "epoch": 0.8190184049079755,
+      "grad_norm": 0.5199599677205632,
+      "learning_rate": 1.800614841383898e-05,
+      "loss": 1.9262,
+      "step": 267
+    },
+    {
+      "epoch": 0.8220858895705522,
+      "grad_norm": 0.2979059774589199,
+      "learning_rate": 1.7745057147595694e-05,
+      "loss": 1.8408,
+      "step": 268
+    },
+    {
+      "epoch": 0.8251533742331288,
+      "grad_norm": 0.3369017601149041,
+      "learning_rate": 1.7487892665049627e-05,
+      "loss": 1.9671,
+      "step": 269
+    },
+    {
+      "epoch": 0.8282208588957055,
+      "grad_norm": 0.24208825522114308,
+      "learning_rate": 1.7234682072115305e-05,
+      "loss": 1.9101,
+      "step": 270
+    },
+    {
+      "epoch": 0.8312883435582822,
+      "grad_norm": 0.3809834134932596,
+      "learning_rate": 1.698545205795536e-05,
+      "loss": 1.8445,
+      "step": 271
+    },
+    {
+      "epoch": 0.8343558282208589,
+      "grad_norm": 0.27384739149228576,
+      "learning_rate": 1.674022889216737e-05,
+      "loss": 1.9337,
+      "step": 272
+    },
+    {
+      "epoch": 0.8374233128834356,
+      "grad_norm": 0.25542052798806203,
+      "learning_rate": 1.6499038422014962e-05,
+      "loss": 1.8697,
+      "step": 273
+    },
+    {
+      "epoch": 0.8404907975460123,
+      "grad_norm": 0.30649006891608727,
+      "learning_rate": 1.626190606970346e-05,
+      "loss": 1.8985,
+      "step": 274
+    },
+    {
+      "epoch": 0.843558282208589,
+      "grad_norm": 0.27648461915446576,
+      "learning_rate": 1.602885682970026e-05,
+      "loss": 1.8851,
+      "step": 275
+    },
+    {
+      "epoch": 0.8466257668711656,
+      "grad_norm": 1.1533982638871452,
+      "learning_rate": 1.57999152661004e-05,
+      "loss": 1.9318,
+      "step": 276
+    },
+    {
+      "epoch": 0.8496932515337423,
+      "grad_norm": 0.33969524913455146,
+      "learning_rate": 1.5575105510037396e-05,
+      "loss": 2.0149,
+      "step": 277
+    },
+    {
+      "epoch": 0.852760736196319,
+      "grad_norm": 0.5956725111127443,
+      "learning_rate": 1.53544512571397e-05,
+      "loss": 1.8834,
+      "step": 278
+    },
+    {
+      "epoch": 0.8558282208588958,
+      "grad_norm": 0.5892298656241596,
+      "learning_rate": 1.5137975765033205e-05,
+      "loss": 1.8972,
+      "step": 279
+    },
+    {
+      "epoch": 0.8588957055214724,
+      "grad_norm": 0.41593605055209165,
+      "learning_rate": 1.4925701850889772e-05,
+      "loss": 1.9427,
+      "step": 280
+    },
+    {
+      "epoch": 0.8619631901840491,
+      "grad_norm": 0.2630748817948859,
+      "learning_rate": 1.4717651889022202e-05,
+      "loss": 1.9469,
+      "step": 281
+    },
+    {
+      "epoch": 0.8650306748466258,
+      "grad_norm": 0.2232832403928089,
+      "learning_rate": 1.4513847808525969e-05,
+      "loss": 1.9662,
+      "step": 282
+    },
+    {
+      "epoch": 0.8680981595092024,
+      "grad_norm": 0.31719749827250515,
+      "learning_rate": 1.4314311090967786e-05,
+      "loss": 1.9091,
+      "step": 283
+    },
+    {
+      "epoch": 0.8711656441717791,
+      "grad_norm": 0.301123405840287,
+      "learning_rate": 1.4119062768121433e-05,
+      "loss": 1.8862,
+      "step": 284
+    },
+    {
+      "epoch": 0.8742331288343558,
+      "grad_norm": 0.6726088360165043,
+      "learning_rate": 1.3928123419750888e-05,
+      "loss": 1.8739,
+      "step": 285
+    },
+    {
+      "epoch": 0.8773006134969326,
+      "grad_norm": 0.4202167476604764,
+      "learning_rate": 1.3741513171441176e-05,
+      "loss": 1.9232,
+      "step": 286
+    },
+    {
+      "epoch": 0.8803680981595092,
+      "grad_norm": 0.304988395998919,
+      "learning_rate": 1.3559251692477087e-05,
+      "loss": 1.9318,
+      "step": 287
+    },
+    {
+      "epoch": 0.8834355828220859,
+      "grad_norm": 0.274507041819108,
+      "learning_rate": 1.3381358193769976e-05,
+      "loss": 1.8499,
+      "step": 288
+    },
+    {
+      "epoch": 0.8865030674846626,
+      "grad_norm": 0.47861538421593386,
+      "learning_rate": 1.320785142583284e-05,
+      "loss": 1.9518,
+      "step": 289
+    },
+    {
+      "epoch": 0.8895705521472392,
+      "grad_norm": 0.45942646770952145,
+      "learning_rate": 1.3038749676803994e-05,
+      "loss": 1.9109,
+      "step": 290
+    },
+    {
+      "epoch": 0.8926380368098159,
+      "grad_norm": 0.27087716251353355,
+      "learning_rate": 1.2874070770519428e-05,
+      "loss": 1.8813,
+      "step": 291
+    },
+    {
+      "epoch": 0.8957055214723927,
+      "grad_norm": 0.255203728473793,
+      "learning_rate": 1.2713832064634126e-05,
+      "loss": 1.873,
+      "step": 292
+    },
+    {
+      "epoch": 0.8987730061349694,
+      "grad_norm": 0.40071001023936836,
+      "learning_rate": 1.2558050448792515e-05,
+      "loss": 1.9324,
+      "step": 293
+    },
+    {
+      "epoch": 0.901840490797546,
+      "grad_norm": 0.33237213114045755,
+      "learning_rate": 1.2406742342848248e-05,
+      "loss": 1.96,
+      "step": 294
+    },
+    {
+      "epoch": 0.9049079754601227,
+      "grad_norm": 0.2921583930232282,
+      "learning_rate": 1.2259923695133503e-05,
+      "loss": 1.8696,
+      "step": 295
+    },
+    {
+      "epoch": 0.9079754601226994,
+      "grad_norm": 0.2753105203678559,
+      "learning_rate": 1.2117609980777959e-05,
+      "loss": 1.9038,
+      "step": 296
+    },
+    {
+      "epoch": 0.911042944785276,
+      "grad_norm": 0.497963211949326,
+      "learning_rate": 1.1979816200077707e-05,
+      "loss": 1.9388,
+      "step": 297
+    },
+    {
+      "epoch": 0.9141104294478528,
+      "grad_norm": 0.2474786285871462,
+      "learning_rate": 1.1846556876914151e-05,
+      "loss": 1.9544,
+      "step": 298
+    },
+    {
+      "epoch": 0.9171779141104295,
+      "grad_norm": 0.26791445026050176,
+      "learning_rate": 1.1717846057223144e-05,
+      "loss": 1.9231,
+      "step": 299
+    },
+    {
+      "epoch": 0.9202453987730062,
+      "grad_norm": 0.3923236183364779,
+      "learning_rate": 1.159369730751452e-05,
+      "loss": 1.8686,
+      "step": 300
+    },
+    {
+      "epoch": 0.9233128834355828,
+      "grad_norm": 0.36556731516768504,
+      "learning_rate": 1.1474123713442137e-05,
+      "loss": 1.9278,
+      "step": 301
+    },
+    {
+      "epoch": 0.9263803680981595,
+      "grad_norm": 0.24192425833135245,
+      "learning_rate": 1.1359137878424578e-05,
+      "loss": 1.8853,
+      "step": 302
+    },
+    {
+      "epoch": 0.9294478527607362,
+      "grad_norm": 0.31690600810620534,
+      "learning_rate": 1.1248751922316776e-05,
+      "loss": 1.9523,
+      "step": 303
+    },
+    {
+      "epoch": 0.9325153374233128,
+      "grad_norm": 0.27955140199036155,
+      "learning_rate": 1.1142977480132493e-05,
+      "loss": 1.8225,
+      "step": 304
+    },
+    {
+      "epoch": 0.9355828220858896,
+      "grad_norm": 0.2831264739725871,
+      "learning_rate": 1.104182570081797e-05,
+      "loss": 1.9258,
+      "step": 305
+    },
+    {
+      "epoch": 0.9386503067484663,
+      "grad_norm": 0.26580496177825247,
+      "learning_rate": 1.0945307246076797e-05,
+      "loss": 1.9327,
+      "step": 306
+    },
+    {
+      "epoch": 0.941717791411043,
+      "grad_norm": 0.30887069355917346,
+      "learning_rate": 1.0853432289246138e-05,
+      "loss": 1.9412,
+      "step": 307
+    },
+    {
+      "epoch": 0.9447852760736196,
+      "grad_norm": 0.44810137462917216,
+      "learning_rate": 1.076621051422442e-05,
+      "loss": 1.9057,
+      "step": 308
+    },
+    {
+      "epoch": 0.9478527607361963,
+      "grad_norm": 0.27583855429775517,
+      "learning_rate": 1.0683651114450641e-05,
+      "loss": 1.9357,
+      "step": 309
+    },
+    {
+      "epoch": 0.950920245398773,
+      "grad_norm": 0.26050390516719396,
+      "learning_rate": 1.0605762791935325e-05,
+      "loss": 1.8674,
+      "step": 310
+    },
+    {
+      "epoch": 0.9539877300613497,
+      "grad_norm": 0.26034125726942287,
+      "learning_rate": 1.0532553756343328e-05,
+      "loss": 1.8837,
+      "step": 311
+    },
+    {
+      "epoch": 0.9570552147239264,
+      "grad_norm": 0.380331760419281,
+      "learning_rate": 1.0464031724128512e-05,
+      "loss": 1.9202,
+      "step": 312
+    },
+    {
+      "epoch": 0.9601226993865031,
+      "grad_norm": 0.3024899052220286,
+      "learning_rate": 1.0400203917720394e-05,
+      "loss": 1.833,
+      "step": 313
+    },
+    {
+      "epoch": 0.9631901840490797,
+      "grad_norm": 0.26156906536760005,
+      "learning_rate": 1.0341077064762893e-05,
+      "loss": 1.8538,
+      "step": 314
+    },
+    {
+      "epoch": 0.9662576687116564,
+      "grad_norm": 0.5419644400783428,
+      "learning_rate": 1.0286657397405204e-05,
+      "loss": 1.8956,
+      "step": 315
+    },
+    {
+      "epoch": 0.9693251533742331,
+      "grad_norm": 0.2754473793756419,
+      "learning_rate": 1.0236950651644922e-05,
+      "loss": 1.8821,
+      "step": 316
+    },
+    {
+      "epoch": 0.9723926380368099,
+      "grad_norm": 0.32743295245170423,
+      "learning_rate": 1.019196206672345e-05,
+      "loss": 1.8669,
+      "step": 317
+    },
+    {
+      "epoch": 0.9754601226993865,
+      "grad_norm": 0.2983793501294546,
+      "learning_rate": 1.0151696384573753e-05,
+      "loss": 1.8806,
+      "step": 318
+    },
+    {
+      "epoch": 0.9785276073619632,
+      "grad_norm": 0.274678179585171,
+      "learning_rate": 1.011615784932056e-05,
+      "loss": 1.9428,
+      "step": 319
+    },
+    {
+      "epoch": 0.9815950920245399,
+      "grad_norm": 0.802831711997894,
+      "learning_rate": 1.0085350206833016e-05,
+      "loss": 1.8988,
+      "step": 320
+    },
+    {
+      "epoch": 0.9846625766871165,
+      "grad_norm": 0.36523952422202455,
+      "learning_rate": 1.0059276704329856e-05,
+      "loss": 1.8695,
+      "step": 321
+    },
+    {
+      "epoch": 0.9877300613496932,
+      "grad_norm": 0.2857793976397457,
+      "learning_rate": 1.003794009003713e-05,
+      "loss": 1.8923,
+      "step": 322
+    },
+    {
+      "epoch": 0.99079754601227,
+      "grad_norm": 0.306887686398712,
+      "learning_rate": 1.0021342612898534e-05,
+      "loss": 1.9541,
+      "step": 323
+    },
+    {
+      "epoch": 0.9938650306748467,
+      "grad_norm": 0.5124292513803443,
+      "learning_rate": 1.0009486022338391e-05,
+      "loss": 1.9622,
+      "step": 324
+    },
+    {
+      "epoch": 0.9969325153374233,
+      "grad_norm": 0.27281561169770374,
+      "learning_rate": 1.0002371568077212e-05,
+      "loss": 1.9336,
+      "step": 325
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 0.28851290398135704,
+      "learning_rate": 1e-05,
+      "loss": 1.8766,
+      "step": 326
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 355990511812608.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null