diff --git "a/trainer_state.json" "b/trainer_state.json"
--- "a/trainer_state.json"
+++ "b/trainer_state.json"
@@ -1,6867 +1,3441 @@
 {
-  "best_metric": 0.5368140339851379,
-  "best_model_checkpoint": "vit-base-kidney-stone-Jonathan_El-Beze_-w256_1k_v1-_SUR\\checkpoint-100",
-  "epoch": 30.0,
+  "best_metric": 0.49464890360832214,
+  "best_model_checkpoint": "vit-base-kidney-stone-Jonathan_El-Beze_-w256_1k_v1-_SUR\\checkpoint-900",
+  "epoch": 15.0,
   "eval_steps": 100,
-  "global_step": 4500,
+  "global_step": 2250,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.03333333333333333,
-      "grad_norm": 1.7208584547042847,
-      "learning_rate": 0.0001997777777777778,
-      "loss": 1.6296,
+      "grad_norm": 1.9359750747680664,
+      "learning_rate": 0.00019955555555555558,
+      "loss": 1.6179,
       "step": 5
     },
     {
       "epoch": 0.06666666666666667,
-      "grad_norm": 2.315169334411621,
-      "learning_rate": 0.00019955555555555558,
-      "loss": 1.3114,
+      "grad_norm": 2.416998863220215,
+      "learning_rate": 0.00019911111111111111,
+      "loss": 1.3252,
       "step": 10
     },
     {
       "epoch": 0.1,
-      "grad_norm": 3.4150373935699463,
-      "learning_rate": 0.00019933333333333334,
-      "loss": 0.9721,
+      "grad_norm": 2.262335777282715,
+      "learning_rate": 0.00019866666666666668,
+      "loss": 1.0276,
       "step": 15
     },
     {
       "epoch": 0.13333333333333333,
-      "grad_norm": 1.7336223125457764,
-      "learning_rate": 0.00019911111111111111,
-      "loss": 0.7966,
+      "grad_norm": 1.253843069076538,
+      "learning_rate": 0.00019822222222222225,
+      "loss": 0.852,
       "step": 20
     },
     {
       "epoch": 0.16666666666666666,
-      "grad_norm": 1.9338726997375488,
-      "learning_rate": 0.0001988888888888889,
-      "loss": 0.662,
+      "grad_norm": 1.2912774085998535,
+      "learning_rate": 0.00019777777777777778,
+      "loss": 0.7146,
       "step": 25
     },
     {
       "epoch": 0.2,
-      "grad_norm": 0.9051132202148438,
-      "learning_rate": 0.00019866666666666668,
-      "loss": 0.5017,
+      "grad_norm": 2.379365921020508,
+      "learning_rate": 0.00019733333333333335,
+      "loss": 0.5611,
       "step": 30
     },
     {
       "epoch": 0.23333333333333334,
-      "grad_norm": 1.0691001415252686,
-      "learning_rate": 0.00019844444444444445,
-      "loss": 0.5682,
+      "grad_norm": 1.8572273254394531,
+      "learning_rate": 0.0001968888888888889,
+      "loss": 0.5451,
       "step": 35
     },
     {
       "epoch": 0.26666666666666666,
-      "grad_norm": 2.574171781539917,
-      "learning_rate": 0.00019822222222222225,
-      "loss": 0.3614,
+      "grad_norm": 4.357377052307129,
+      "learning_rate": 0.00019644444444444445,
+      "loss": 0.4038,
       "step": 40
     },
     {
       "epoch": 0.3,
-      "grad_norm": 1.209128499031067,
-      "learning_rate": 0.00019800000000000002,
-      "loss": 0.3303,
+      "grad_norm": 1.8596205711364746,
+      "learning_rate": 0.000196,
+      "loss": 0.3582,
       "step": 45
     },
     {
       "epoch": 0.3333333333333333,
-      "grad_norm": 4.342720031738281,
-      "learning_rate": 0.00019777777777777778,
-      "loss": 0.4043,
+      "grad_norm": 2.971336603164673,
+      "learning_rate": 0.00019555555555555556,
+      "loss": 0.3285,
       "step": 50
     },
     {
       "epoch": 0.36666666666666664,
-      "grad_norm": 2.0208427906036377,
-      "learning_rate": 0.00019755555555555555,
-      "loss": 0.3131,
+      "grad_norm": 0.9801475405693054,
+      "learning_rate": 0.0001951111111111111,
+      "loss": 0.2135,
       "step": 55
     },
     {
       "epoch": 0.4,
-      "grad_norm": 8.355993270874023,
-      "learning_rate": 0.00019733333333333335,
-      "loss": 0.3469,
+      "grad_norm": 1.6225720643997192,
+      "learning_rate": 0.0001946666666666667,
+      "loss": 0.3307,
       "step": 60
     },
     {
       "epoch": 0.43333333333333335,
-      "grad_norm": 1.1810795068740845,
-      "learning_rate": 0.00019711111111111112,
-      "loss": 0.305,
+      "grad_norm": 2.2074458599090576,
+      "learning_rate": 0.00019422222222222223,
+      "loss": 0.2858,
       "step": 65
     },
     {
       "epoch": 0.4666666666666667,
-      "grad_norm": 3.1419830322265625,
-      "learning_rate": 0.0001968888888888889,
-      "loss": 0.3198,
+      "grad_norm": 1.4781601428985596,
+      "learning_rate": 0.0001937777777777778,
+      "loss": 0.3606,
       "step": 70
     },
     {
       "epoch": 0.5,
-      "grad_norm": 2.384755849838257,
-      "learning_rate": 0.00019666666666666666,
-      "loss": 0.224,
+      "grad_norm": 3.289635181427002,
+      "learning_rate": 0.00019333333333333333,
+      "loss": 0.2511,
       "step": 75
     },
     {
       "epoch": 0.5333333333333333,
-      "grad_norm": 1.3137331008911133,
-      "learning_rate": 0.00019644444444444445,
-      "loss": 0.2489,
+      "grad_norm": 4.858741760253906,
+      "learning_rate": 0.0001928888888888889,
+      "loss": 0.2632,
       "step": 80
     },
     {
       "epoch": 0.5666666666666667,
-      "grad_norm": 2.050759792327881,
-      "learning_rate": 0.00019622222222222225,
-      "loss": 0.2148,
+      "grad_norm": 1.7034265995025635,
+      "learning_rate": 0.00019244444444444444,
+      "loss": 0.2231,
       "step": 85
     },
     {
       "epoch": 0.6,
-      "grad_norm": 1.254548192024231,
-      "learning_rate": 0.000196,
-      "loss": 0.2703,
+      "grad_norm": 4.437705039978027,
+      "learning_rate": 0.000192,
+      "loss": 0.3466,
       "step": 90
     },
     {
       "epoch": 0.6333333333333333,
-      "grad_norm": 3.6018588542938232,
-      "learning_rate": 0.0001957777777777778,
-      "loss": 0.2079,
+      "grad_norm": 6.303200721740723,
+      "learning_rate": 0.00019155555555555554,
+      "loss": 0.2395,
       "step": 95
     },
     {
       "epoch": 0.6666666666666666,
-      "grad_norm": 1.94509756565094,
-      "learning_rate": 0.00019555555555555556,
-      "loss": 0.2324,
+      "grad_norm": 2.6075069904327393,
+      "learning_rate": 0.00019111111111111114,
+      "loss": 0.2895,
       "step": 100
     },
     {
       "epoch": 0.6666666666666666,
-      "eval_accuracy": 0.8016666666666666,
-      "eval_f1": 0.8071519788135743,
-      "eval_loss": 0.5368140339851379,
-      "eval_precision": 0.8374648240970316,
-      "eval_recall": 0.8016666666666666,
-      "eval_runtime": 9.0316,
-      "eval_samples_per_second": 132.867,
-      "eval_steps_per_second": 16.608,
+      "eval_accuracy": 0.795,
+      "eval_f1": 0.7996947544713288,
+      "eval_loss": 0.5586473345756531,
+      "eval_precision": 0.8451560772205625,
+      "eval_recall": 0.795,
+      "eval_runtime": 8.8719,
+      "eval_samples_per_second": 135.259,
+      "eval_steps_per_second": 16.907,
       "step": 100
     },
     {
       "epoch": 0.7,
-      "grad_norm": 2.434279441833496,
-      "learning_rate": 0.00019533333333333336,
-      "loss": 0.1144,
+      "grad_norm": 3.6888091564178467,
+      "learning_rate": 0.00019066666666666668,
+      "loss": 0.1436,
       "step": 105
     },
     {
       "epoch": 0.7333333333333333,
-      "grad_norm": 0.3456687927246094,
-      "learning_rate": 0.0001951111111111111,
-      "loss": 0.1208,
+      "grad_norm": 4.98173713684082,
+      "learning_rate": 0.00019022222222222224,
+      "loss": 0.1708,
       "step": 110
     },
     {
       "epoch": 0.7666666666666667,
-      "grad_norm": 2.137242078781128,
-      "learning_rate": 0.0001948888888888889,
-      "loss": 0.1633,
+      "grad_norm": 1.1131139993667603,
+      "learning_rate": 0.00018977777777777778,
+      "loss": 0.1165,
       "step": 115
     },
     {
       "epoch": 0.8,
-      "grad_norm": 5.15158224105835,
-      "learning_rate": 0.0001946666666666667,
-      "loss": 0.2268,
+      "grad_norm": 0.9476176500320435,
+      "learning_rate": 0.00018933333333333335,
+      "loss": 0.1079,
       "step": 120
     },
     {
       "epoch": 0.8333333333333334,
-      "grad_norm": 2.432072639465332,
-      "learning_rate": 0.00019444444444444446,
-      "loss": 0.1937,
+      "grad_norm": 2.2006094455718994,
+      "learning_rate": 0.00018888888888888888,
+      "loss": 0.2538,
       "step": 125
     },
     {
       "epoch": 0.8666666666666667,
-      "grad_norm": 1.797320008277893,
-      "learning_rate": 0.00019422222222222223,
-      "loss": 0.1713,
+      "grad_norm": 1.6902055740356445,
+      "learning_rate": 0.00018844444444444445,
+      "loss": 0.1403,
       "step": 130
     },
     {
       "epoch": 0.9,
-      "grad_norm": 0.9987688660621643,
-      "learning_rate": 0.000194,
-      "loss": 0.1026,
+      "grad_norm": 0.6082767248153687,
+      "learning_rate": 0.000188,
+      "loss": 0.1107,
       "step": 135
     },
     {
       "epoch": 0.9333333333333333,
-      "grad_norm": 2.0863168239593506,
-      "learning_rate": 0.0001937777777777778,
-      "loss": 0.1335,
+      "grad_norm": 2.802396535873413,
+      "learning_rate": 0.00018755555555555558,
+      "loss": 0.1053,
       "step": 140
     },
     {
       "epoch": 0.9666666666666667,
-      "grad_norm": 3.568018674850464,
-      "learning_rate": 0.00019355555555555557,
-      "loss": 0.1329,
+      "grad_norm": 1.6106021404266357,
+      "learning_rate": 0.00018711111111111112,
+      "loss": 0.1141,
       "step": 145
     },
     {
       "epoch": 1.0,
-      "grad_norm": 0.7393060922622681,
-      "learning_rate": 0.00019333333333333333,
-      "loss": 0.1731,
+      "grad_norm": 4.2351531982421875,
+      "learning_rate": 0.0001866666666666667,
+      "loss": 0.1143,
       "step": 150
     },
     {
       "epoch": 1.0333333333333334,
-      "grad_norm": 1.2568960189819336,
-      "learning_rate": 0.0001931111111111111,
-      "loss": 0.139,
+      "grad_norm": 0.24054476618766785,
+      "learning_rate": 0.00018622222222222223,
+      "loss": 0.2409,
       "step": 155
     },
     {
       "epoch": 1.0666666666666667,
-      "grad_norm": 0.41166234016418457,
-      "learning_rate": 0.0001928888888888889,
-      "loss": 0.0787,
+      "grad_norm": 1.5809690952301025,
+      "learning_rate": 0.0001857777777777778,
+      "loss": 0.1386,
       "step": 160
     },
     {
       "epoch": 1.1,
-      "grad_norm": 0.14760378003120422,
-      "learning_rate": 0.0001926666666666667,
-      "loss": 0.0571,
+      "grad_norm": 0.10826423764228821,
+      "learning_rate": 0.00018533333333333333,
+      "loss": 0.0521,
       "step": 165
     },
     {
       "epoch": 1.1333333333333333,
-      "grad_norm": 1.9736790657043457,
-      "learning_rate": 0.00019244444444444444,
-      "loss": 0.0759,
+      "grad_norm": 1.86326003074646,
+      "learning_rate": 0.0001848888888888889,
+      "loss": 0.0481,
       "step": 170
     },
     {
       "epoch": 1.1666666666666667,
-      "grad_norm": 4.314852714538574,
-      "learning_rate": 0.00019222222222222224,
-      "loss": 0.1196,
+      "grad_norm": 3.0488474369049072,
+      "learning_rate": 0.00018444444444444446,
+      "loss": 0.056,
       "step": 175
     },
     {
       "epoch": 1.2,
-      "grad_norm": 1.8330669403076172,
-      "learning_rate": 0.000192,
-      "loss": 0.1018,
+      "grad_norm": 0.10105108469724655,
+      "learning_rate": 0.00018400000000000003,
+      "loss": 0.1558,
       "step": 180
     },
     {
       "epoch": 1.2333333333333334,
-      "grad_norm": 2.6198558807373047,
-      "learning_rate": 0.0001917777777777778,
-      "loss": 0.078,
+      "grad_norm": 0.24924540519714355,
+      "learning_rate": 0.00018355555555555557,
+      "loss": 0.0826,
       "step": 185
     },
     {
       "epoch": 1.2666666666666666,
-      "grad_norm": 0.10600850731134415,
-      "learning_rate": 0.00019155555555555554,
-      "loss": 0.071,
+      "grad_norm": 2.0639898777008057,
+      "learning_rate": 0.00018311111111111113,
+      "loss": 0.0546,
       "step": 190
     },
     {
       "epoch": 1.3,
-      "grad_norm": 0.5397905707359314,
-      "learning_rate": 0.00019133333333333334,
-      "loss": 0.0865,
+      "grad_norm": 0.8337721228599548,
+      "learning_rate": 0.00018266666666666667,
+      "loss": 0.1011,
       "step": 195
     },
     {
       "epoch": 1.3333333333333333,
-      "grad_norm": 0.1504279226064682,
-      "learning_rate": 0.00019111111111111114,
-      "loss": 0.1099,
+      "grad_norm": 0.7904269695281982,
+      "learning_rate": 0.00018222222222222224,
+      "loss": 0.0848,
       "step": 200
     },
     {
       "epoch": 1.3333333333333333,
-      "eval_accuracy": 0.8391666666666666,
-      "eval_f1": 0.8368581603629509,
-      "eval_loss": 0.5943942070007324,
-      "eval_precision": 0.8642402624381883,
-      "eval_recall": 0.8391666666666666,
-      "eval_runtime": 7.9559,
-      "eval_samples_per_second": 150.832,
-      "eval_steps_per_second": 18.854,
+      "eval_accuracy": 0.7975,
+      "eval_f1": 0.7883104007779035,
+      "eval_loss": 0.8609285354614258,
+      "eval_precision": 0.8401351225495275,
+      "eval_recall": 0.7975,
+      "eval_runtime": 7.8068,
+      "eval_samples_per_second": 153.712,
+      "eval_steps_per_second": 19.214,
       "step": 200
     },
     {
       "epoch": 1.3666666666666667,
-      "grad_norm": 2.209899425506592,
-      "learning_rate": 0.0001908888888888889,
-      "loss": 0.0717,
+      "grad_norm": 4.185606002807617,
+      "learning_rate": 0.00018177777777777778,
+      "loss": 0.1318,
       "step": 205
     },
     {
       "epoch": 1.4,
-      "grad_norm": 1.3845807313919067,
-      "learning_rate": 0.00019066666666666668,
-      "loss": 0.0913,
+      "grad_norm": 0.13607652485370636,
+      "learning_rate": 0.00018133333333333334,
+      "loss": 0.0642,
       "step": 210
     },
     {
       "epoch": 1.4333333333333333,
-      "grad_norm": 0.37772297859191895,
-      "learning_rate": 0.00019044444444444444,
-      "loss": 0.1167,
+      "grad_norm": 6.603880882263184,
+      "learning_rate": 0.0001808888888888889,
+      "loss": 0.1901,
       "step": 215
     },
     {
       "epoch": 1.4666666666666668,
-      "grad_norm": 3.959009885787964,
-      "learning_rate": 0.00019022222222222224,
-      "loss": 0.1969,
+      "grad_norm": 5.1409525871276855,
+      "learning_rate": 0.00018044444444444447,
+      "loss": 0.1384,
       "step": 220
     },
     {
       "epoch": 1.5,
-      "grad_norm": 5.90406608581543,
-      "learning_rate": 0.00019,
-      "loss": 0.0965,
+      "grad_norm": 1.8783152103424072,
+      "learning_rate": 0.00018,
+      "loss": 0.1024,
       "step": 225
     },
     {
       "epoch": 1.5333333333333332,
-      "grad_norm": 0.10512935370206833,
-      "learning_rate": 0.00018977777777777778,
-      "loss": 0.0648,
+      "grad_norm": 0.5243577361106873,
+      "learning_rate": 0.00017955555555555558,
+      "loss": 0.0742,
       "step": 230
     },
     {
       "epoch": 1.5666666666666667,
-      "grad_norm": 0.27937325835227966,
-      "learning_rate": 0.00018955555555555558,
-      "loss": 0.0768,
+      "grad_norm": 0.725352942943573,
+      "learning_rate": 0.00017911111111111112,
+      "loss": 0.1699,
       "step": 235
     },
     {
       "epoch": 1.6,
-      "grad_norm": 0.12792474031448364,
-      "learning_rate": 0.00018933333333333335,
-      "loss": 0.0449,
+      "grad_norm": 0.17294980585575104,
+      "learning_rate": 0.00017866666666666668,
+      "loss": 0.0579,
       "step": 240
     },
     {
       "epoch": 1.6333333333333333,
-      "grad_norm": 0.3061734139919281,
-      "learning_rate": 0.00018911111111111112,
-      "loss": 0.0229,
+      "grad_norm": 0.17999285459518433,
+      "learning_rate": 0.00017822222222222222,
+      "loss": 0.0788,
       "step": 245
     },
     {
       "epoch": 1.6666666666666665,
-      "grad_norm": 0.1381208896636963,
-      "learning_rate": 0.00018888888888888888,
-      "loss": 0.0461,
+      "grad_norm": 0.06690425425767899,
+      "learning_rate": 0.00017777777777777779,
+      "loss": 0.0267,
       "step": 250
     },
     {
       "epoch": 1.7,
-      "grad_norm": 0.11468491703271866,
-      "learning_rate": 0.00018866666666666668,
-      "loss": 0.042,
+      "grad_norm": 1.6258951425552368,
+      "learning_rate": 0.00017733333333333335,
+      "loss": 0.0547,
       "step": 255
     },
     {
       "epoch": 1.7333333333333334,
-      "grad_norm": 0.09266623109579086,
-      "learning_rate": 0.00018844444444444445,
-      "loss": 0.0305,
+      "grad_norm": 0.12689420580863953,
+      "learning_rate": 0.0001768888888888889,
+      "loss": 0.0636,
       "step": 260
     },
     {
       "epoch": 1.7666666666666666,
-      "grad_norm": 0.15915675461292267,
-      "learning_rate": 0.00018822222222222222,
-      "loss": 0.0248,
+      "grad_norm": 0.12395231425762177,
+      "learning_rate": 0.00017644444444444446,
+      "loss": 0.0415,
       "step": 265
     },
     {
       "epoch": 1.8,
-      "grad_norm": 0.05656655132770538,
-      "learning_rate": 0.000188,
-      "loss": 0.0379,
+      "grad_norm": 0.4584154188632965,
+      "learning_rate": 0.00017600000000000002,
+      "loss": 0.0878,
       "step": 270
     },
     {
       "epoch": 1.8333333333333335,
-      "grad_norm": 0.042687103152275085,
-      "learning_rate": 0.00018777777777777779,
-      "loss": 0.0151,
+      "grad_norm": 0.24216791987419128,
+      "learning_rate": 0.00017555555555555556,
+      "loss": 0.059,
       "step": 275
     },
     {
       "epoch": 1.8666666666666667,
-      "grad_norm": 4.887723922729492,
-      "learning_rate": 0.00018755555555555558,
-      "loss": 0.023,
+      "grad_norm": 0.09964153915643692,
+      "learning_rate": 0.00017511111111111113,
+      "loss": 0.0249,
       "step": 280
     },
     {
       "epoch": 1.9,
-      "grad_norm": 0.04096298664808273,
-      "learning_rate": 0.00018733333333333335,
-      "loss": 0.0226,
+      "grad_norm": 3.9478225708007812,
+      "learning_rate": 0.00017466666666666667,
+      "loss": 0.0837,
       "step": 285
     },
     {
       "epoch": 1.9333333333333333,
-      "grad_norm": 0.04041541367769241,
-      "learning_rate": 0.00018711111111111112,
-      "loss": 0.1202,
+      "grad_norm": 3.044919967651367,
+      "learning_rate": 0.00017422222222222223,
+      "loss": 0.1101,
       "step": 290
     },
     {
       "epoch": 1.9666666666666668,
-      "grad_norm": 0.08381060510873795,
-      "learning_rate": 0.0001868888888888889,
-      "loss": 0.0182,
+      "grad_norm": 0.07022172212600708,
+      "learning_rate": 0.0001737777777777778,
+      "loss": 0.0214,
       "step": 295
     },
     {
       "epoch": 2.0,
-      "grad_norm": 0.042730558663606644,
-      "learning_rate": 0.0001866666666666667,
-      "loss": 0.0592,
+      "grad_norm": 0.46689483523368835,
+      "learning_rate": 0.00017333333333333334,
+      "loss": 0.0782,
       "step": 300
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.8733333333333333,
-      "eval_f1": 0.8720285562390825,
-      "eval_loss": 0.5456259250640869,
-      "eval_precision": 0.8819580944580946,
-      "eval_recall": 0.8733333333333333,
-      "eval_runtime": 7.8097,
-      "eval_samples_per_second": 153.655,
-      "eval_steps_per_second": 19.207,
+      "eval_accuracy": 0.81,
+      "eval_f1": 0.811641219111495,
+      "eval_loss": 0.7032307982444763,
+      "eval_precision": 0.8414370255563736,
+      "eval_recall": 0.81,
+      "eval_runtime": 7.6758,
+      "eval_samples_per_second": 156.335,
+      "eval_steps_per_second": 19.542,
       "step": 300
     },
     {
       "epoch": 2.033333333333333,
-      "grad_norm": 0.3836427628993988,
-      "learning_rate": 0.00018644444444444446,
-      "loss": 0.0142,
+      "grad_norm": 0.06635390222072601,
+      "learning_rate": 0.0001728888888888889,
+      "loss": 0.0827,
       "step": 305
     },
     {
       "epoch": 2.066666666666667,
-      "grad_norm": 0.03650200366973877,
-      "learning_rate": 0.00018622222222222223,
-      "loss": 0.0123,
+      "grad_norm": 0.039813630282878876,
+      "learning_rate": 0.00017244444444444444,
+      "loss": 0.016,
       "step": 310
     },
     {
       "epoch": 2.1,
-      "grad_norm": 0.1522926241159439,
-      "learning_rate": 0.00018600000000000002,
-      "loss": 0.0112,
+      "grad_norm": 0.04323111101984978,
+      "learning_rate": 0.000172,
+      "loss": 0.0134,
       "step": 315
     },
     {
       "epoch": 2.1333333333333333,
-      "grad_norm": 0.09728454053401947,
-      "learning_rate": 0.0001857777777777778,
-      "loss": 0.0103,
+      "grad_norm": 0.07796144485473633,
+      "learning_rate": 0.00017155555555555555,
+      "loss": 0.0526,
       "step": 320
     },
     {
       "epoch": 2.1666666666666665,
-      "grad_norm": 0.05746704712510109,
-      "learning_rate": 0.00018555555555555556,
-      "loss": 0.0564,
+      "grad_norm": 0.0874357745051384,
+      "learning_rate": 0.0001711111111111111,
+      "loss": 0.0727,
       "step": 325
     },
     {
       "epoch": 2.2,
-      "grad_norm": 0.6955235600471497,
-      "learning_rate": 0.00018533333333333333,
-      "loss": 0.0467,
+      "grad_norm": 0.27160799503326416,
+      "learning_rate": 0.00017066666666666668,
+      "loss": 0.0388,
       "step": 330
     },
     {
       "epoch": 2.2333333333333334,
-      "grad_norm": 0.2217785120010376,
-      "learning_rate": 0.00018511111111111113,
-      "loss": 0.0101,
+      "grad_norm": 0.036002498120069504,
+      "learning_rate": 0.00017022222222222224,
+      "loss": 0.0158,
       "step": 335
     },
     {
       "epoch": 2.2666666666666666,
-      "grad_norm": 0.03257649764418602,
-      "learning_rate": 0.0001848888888888889,
-      "loss": 0.0127,
+      "grad_norm": 0.10061996430158615,
+      "learning_rate": 0.00016977777777777778,
+      "loss": 0.0141,
       "step": 340
     },
     {
       "epoch": 2.3,
-      "grad_norm": 0.29595497250556946,
-      "learning_rate": 0.00018466666666666666,
-      "loss": 0.0091,
+      "grad_norm": 0.6788614392280579,
+      "learning_rate": 0.00016933333333333335,
+      "loss": 0.0235,
       "step": 345
     },
     {
       "epoch": 2.3333333333333335,
-      "grad_norm": 0.03456522151827812,
-      "learning_rate": 0.00018444444444444446,
-      "loss": 0.0081,
+      "grad_norm": 0.5076311230659485,
+      "learning_rate": 0.00016888888888888889,
+      "loss": 0.0187,
       "step": 350
     },
     {
       "epoch": 2.3666666666666667,
-      "grad_norm": 0.03285767510533333,
-      "learning_rate": 0.00018422222222222223,
-      "loss": 0.0256,
+      "grad_norm": 13.782525062561035,
+      "learning_rate": 0.00016844444444444445,
+      "loss": 0.1019,
       "step": 355
     },
     {
       "epoch": 2.4,
-      "grad_norm": 0.0819283053278923,
-      "learning_rate": 0.00018400000000000003,
-      "loss": 0.027,
+      "grad_norm": 3.2465286254882812,
+      "learning_rate": 0.000168,
+      "loss": 0.1185,
       "step": 360
     },
     {
       "epoch": 2.4333333333333336,
-      "grad_norm": 0.025241069495677948,
-      "learning_rate": 0.00018377777777777777,
-      "loss": 0.0075,
+      "grad_norm": 7.2066426277160645,
+      "learning_rate": 0.00016755555555555556,
+      "loss": 0.065,
       "step": 365
     },
     {
       "epoch": 2.466666666666667,
-      "grad_norm": 0.027251647785305977,
-      "learning_rate": 0.00018355555555555557,
-      "loss": 0.0176,
+      "grad_norm": 1.5731950998306274,
+      "learning_rate": 0.00016711111111111112,
+      "loss": 0.0582,
       "step": 370
     },
     {
       "epoch": 2.5,
-      "grad_norm": 0.024668868631124496,
-      "learning_rate": 0.00018333333333333334,
-      "loss": 0.0127,
+      "grad_norm": 1.2242693901062012,
+      "learning_rate": 0.0001666666666666667,
+      "loss": 0.0762,
       "step": 375
     },
     {
       "epoch": 2.533333333333333,
-      "grad_norm": 3.5712714195251465,
-      "learning_rate": 0.00018311111111111113,
-      "loss": 0.0869,
+      "grad_norm": 5.728166580200195,
+      "learning_rate": 0.00016622222222222223,
+      "loss": 0.0545,
       "step": 380
     },
     {
       "epoch": 2.5666666666666664,
-      "grad_norm": 0.45694124698638916,
-      "learning_rate": 0.00018288888888888887,
-      "loss": 0.1065,
+      "grad_norm": 0.03969084098935127,
+      "learning_rate": 0.0001657777777777778,
+      "loss": 0.0422,
       "step": 385
     },
     {
       "epoch": 2.6,
-      "grad_norm": 0.858367383480072,
-      "learning_rate": 0.00018266666666666667,
-      "loss": 0.127,
+      "grad_norm": 0.3245962858200073,
+      "learning_rate": 0.00016533333333333333,
+      "loss": 0.0442,
       "step": 390
     },
     {
       "epoch": 2.6333333333333333,
-      "grad_norm": 0.6124961972236633,
-      "learning_rate": 0.00018244444444444447,
-      "loss": 0.1115,
+      "grad_norm": 0.06750833988189697,
+      "learning_rate": 0.0001648888888888889,
+      "loss": 0.012,
       "step": 395
     },
     {
       "epoch": 2.6666666666666665,
-      "grad_norm": 5.806512355804443,
-      "learning_rate": 0.00018222222222222224,
-      "loss": 0.0881,
+      "grad_norm": 0.44574254751205444,
+      "learning_rate": 0.00016444444444444444,
+      "loss": 0.0158,
       "step": 400
     },
     {
       "epoch": 2.6666666666666665,
-      "eval_accuracy": 0.7341666666666666,
-      "eval_f1": 0.6879560566124245,
-      "eval_loss": 1.3716939687728882,
-      "eval_precision": 0.8269917953933964,
-      "eval_recall": 0.7341666666666666,
-      "eval_runtime": 7.8452,
-      "eval_samples_per_second": 152.96,
-      "eval_steps_per_second": 19.12,
+      "eval_accuracy": 0.8341666666666666,
+      "eval_f1": 0.8335820533421322,
+      "eval_loss": 0.7198197841644287,
+      "eval_precision": 0.856957513805411,
+      "eval_recall": 0.8341666666666666,
+      "eval_runtime": 7.75,
+      "eval_samples_per_second": 154.839,
+      "eval_steps_per_second": 19.355,
       "step": 400
     },
     {
       "epoch": 2.7,
-      "grad_norm": 0.046801090240478516,
-      "learning_rate": 0.000182,
-      "loss": 0.1981,
+      "grad_norm": 0.04209276661276817,
+      "learning_rate": 0.000164,
+      "loss": 0.0149,
       "step": 405
     },
     {
       "epoch": 2.7333333333333334,
-      "grad_norm": 0.07696904242038727,
-      "learning_rate": 0.00018177777777777778,
-      "loss": 0.0659,
+      "grad_norm": 0.029769854620099068,
+      "learning_rate": 0.00016355555555555557,
+      "loss": 0.0566,
       "step": 410
     },
     {
       "epoch": 2.7666666666666666,
-      "grad_norm": 0.041567906737327576,
-      "learning_rate": 0.00018155555555555557,
-      "loss": 0.0143,
+      "grad_norm": 0.029884740710258484,
+      "learning_rate": 0.00016311111111111113,
+      "loss": 0.0379,
       "step": 415
     },
     {
       "epoch": 2.8,
-      "grad_norm": 0.15810152888298035,
-      "learning_rate": 0.00018133333333333334,
-      "loss": 0.0262,
+      "grad_norm": 0.10657341778278351,
+      "learning_rate": 0.00016266666666666667,
+      "loss": 0.0109,
       "step": 420
     },
     {
       "epoch": 2.8333333333333335,
-      "grad_norm": 0.3390994668006897,
-      "learning_rate": 0.0001811111111111111,
-      "loss": 0.0815,
+      "grad_norm": 0.03039192408323288,
+      "learning_rate": 0.00016222222222222224,
+      "loss": 0.0316,
       "step": 425
     },
     {
       "epoch": 2.8666666666666667,
-      "grad_norm": 9.603019714355469,
-      "learning_rate": 0.0001808888888888889,
-      "loss": 0.038,
+      "grad_norm": 4.379290580749512,
+      "learning_rate": 0.00016177777777777778,
+      "loss": 0.106,
       "step": 430
     },
     {
       "epoch": 2.9,
-      "grad_norm": 0.6549290418624878,
-      "learning_rate": 0.00018066666666666668,
-      "loss": 0.0117,
+      "grad_norm": 1.4222966432571411,
+      "learning_rate": 0.00016133333333333334,
+      "loss": 0.0823,
       "step": 435
     },
     {
       "epoch": 2.9333333333333336,
-      "grad_norm": 0.025073649361729622,
-      "learning_rate": 0.00018044444444444447,
-      "loss": 0.022,
+      "grad_norm": 1.156616449356079,
+      "learning_rate": 0.00016088888888888888,
+      "loss": 0.0695,
       "step": 440
     },
     {
       "epoch": 2.966666666666667,
-      "grad_norm": 3.756648540496826,
-      "learning_rate": 0.00018022222222222221,
-      "loss": 0.0507,
+      "grad_norm": 0.08744677156209946,
+      "learning_rate": 0.00016044444444444445,
+      "loss": 0.0772,
       "step": 445
     },
     {
       "epoch": 3.0,
-      "grad_norm": 0.03134845569729805,
-      "learning_rate": 0.00018,
-      "loss": 0.0484,
+      "grad_norm": 0.03204324096441269,
+      "learning_rate": 0.00016,
+      "loss": 0.0094,
       "step": 450
     },
     {
       "epoch": 3.033333333333333,
-      "grad_norm": 7.3177385330200195,
-      "learning_rate": 0.00017977777777777778,
-      "loss": 0.0656,
+      "grad_norm": 0.14117483794689178,
+      "learning_rate": 0.00015955555555555558,
+      "loss": 0.0094,
       "step": 455
     },
     {
       "epoch": 3.066666666666667,
-      "grad_norm": 6.6893463134765625,
-      "learning_rate": 0.00017955555555555558,
-      "loss": 0.0596,
+      "grad_norm": 2.260402202606201,
+      "learning_rate": 0.00015911111111111112,
+      "loss": 0.0726,
       "step": 460
     },
     {
       "epoch": 3.1,
-      "grad_norm": 0.03423500061035156,
-      "learning_rate": 0.00017933333333333332,
-      "loss": 0.0065,
+      "grad_norm": 0.034795694053173065,
+      "learning_rate": 0.00015866666666666668,
+      "loss": 0.017,
       "step": 465
     },
     {
       "epoch": 3.1333333333333333,
-      "grad_norm": 2.159952163696289,
-      "learning_rate": 0.00017911111111111112,
-      "loss": 0.0081,
+      "grad_norm": 0.03096156008541584,
+      "learning_rate": 0.00015822222222222222,
+      "loss": 0.0367,
       "step": 470
     },
     {
       "epoch": 3.1666666666666665,
-      "grad_norm": 3.186702013015747,
-      "learning_rate": 0.0001788888888888889,
-      "loss": 0.0417,
+      "grad_norm": 3.155168056488037,
+      "learning_rate": 0.0001577777777777778,
+      "loss": 0.0245,
       "step": 475
     },
     {
       "epoch": 3.2,
-      "grad_norm": 2.66605806350708,
-      "learning_rate": 0.00017866666666666668,
-      "loss": 0.013,
+      "grad_norm": 2.9118266105651855,
+      "learning_rate": 0.00015733333333333333,
+      "loss": 0.0158,
       "step": 480
     },
     {
       "epoch": 3.2333333333333334,
-      "grad_norm": 3.6598596572875977,
-      "learning_rate": 0.00017844444444444445,
-      "loss": 0.018,
+      "grad_norm": 0.03510022908449173,
+      "learning_rate": 0.00015688888888888892,
+      "loss": 0.0061,
       "step": 485
     },
     {
       "epoch": 3.2666666666666666,
-      "grad_norm": 0.019321169704198837,
-      "learning_rate": 0.00017822222222222222,
-      "loss": 0.0051,
+      "grad_norm": 6.4864821434021,
+      "learning_rate": 0.00015644444444444446,
+      "loss": 0.0552,
       "step": 490
     },
     {
       "epoch": 3.3,
-      "grad_norm": 0.01711213029921055,
-      "learning_rate": 0.00017800000000000002,
-      "loss": 0.0167,
+      "grad_norm": 0.02120714820921421,
+      "learning_rate": 0.00015600000000000002,
+      "loss": 0.0058,
       "step": 495
     },
     {
       "epoch": 3.3333333333333335,
-      "grad_norm": 0.02650589495897293,
-      "learning_rate": 0.00017777777777777779,
-      "loss": 0.0922,
+      "grad_norm": 3.3761563301086426,
+      "learning_rate": 0.00015555555555555556,
+      "loss": 0.0327,
       "step": 500
     },
     {
       "epoch": 3.3333333333333335,
-      "eval_accuracy": 0.7666666666666667,
-      "eval_f1": 0.7667952747111794,
-      "eval_loss": 1.1644542217254639,
-      "eval_precision": 0.8160934696145964,
-      "eval_recall": 0.7666666666666667,
-      "eval_runtime": 7.917,
-      "eval_samples_per_second": 151.572,
-      "eval_steps_per_second": 18.947,
+      "eval_accuracy": 0.8458333333333333,
+      "eval_f1": 0.8448178718561403,
+      "eval_loss": 0.7624218463897705,
+      "eval_precision": 0.8484282409173457,
+      "eval_recall": 0.8458333333333333,
+      "eval_runtime": 7.6758,
+      "eval_samples_per_second": 156.336,
+      "eval_steps_per_second": 19.542,
       "step": 500
     },
     {
       "epoch": 3.3666666666666667,
-      "grad_norm": 5.958396911621094,
-      "learning_rate": 0.00017755555555555556,
-      "loss": 0.1202,
+      "grad_norm": 0.023067763075232506,
+      "learning_rate": 0.00015511111111111113,
+      "loss": 0.0076,
       "step": 505
     },
     {
       "epoch": 3.4,
-      "grad_norm": 0.03647783026099205,
-      "learning_rate": 0.00017733333333333335,
-      "loss": 0.1568,
+      "grad_norm": 0.24555887281894684,
+      "learning_rate": 0.00015466666666666667,
+      "loss": 0.0152,
       "step": 510
     },
     {
       "epoch": 3.4333333333333336,
-      "grad_norm": 2.0490691661834717,
-      "learning_rate": 0.00017711111111111112,
-      "loss": 0.0348,
+      "grad_norm": 0.0324004702270031,
+      "learning_rate": 0.00015422222222222223,
+      "loss": 0.0074,
       "step": 515
     },
     {
       "epoch": 3.466666666666667,
-      "grad_norm": 0.6681481003761292,
-      "learning_rate": 0.0001768888888888889,
-      "loss": 0.018,
+      "grad_norm": 0.19234609603881836,
+      "learning_rate": 0.00015377777777777777,
+      "loss": 0.0063,
       "step": 520
     },
     {
       "epoch": 3.5,
-      "grad_norm": 4.812828063964844,
-      "learning_rate": 0.00017666666666666666,
-      "loss": 0.0138,
+      "grad_norm": 0.020649263635277748,
+      "learning_rate": 0.00015333333333333334,
+      "loss": 0.0089,
       "step": 525
     },
     {
       "epoch": 3.533333333333333,
-      "grad_norm": 5.368053913116455,
-      "learning_rate": 0.00017644444444444446,
-      "loss": 0.0509,
+      "grad_norm": 0.05213822424411774,
+      "learning_rate": 0.0001528888888888889,
+      "loss": 0.0053,
       "step": 530
     },
     {
       "epoch": 3.5666666666666664,
-      "grad_norm": 4.011260509490967,
-      "learning_rate": 0.00017622222222222223,
-      "loss": 0.0584,
+      "grad_norm": 0.019163738936185837,
+      "learning_rate": 0.00015244444444444447,
+      "loss": 0.0052,
       "step": 535
     },
     {
       "epoch": 3.6,
-      "grad_norm": 0.03486407920718193,
-      "learning_rate": 0.00017600000000000002,
-      "loss": 0.0526,
+      "grad_norm": 0.09474197030067444,
+      "learning_rate": 0.000152,
+      "loss": 0.0199,
       "step": 540
     },
     {
       "epoch": 3.6333333333333333,
-      "grad_norm": 0.5663176774978638,
-      "learning_rate": 0.0001757777777777778,
-      "loss": 0.0057,
+      "grad_norm": 0.023067781701683998,
+      "learning_rate": 0.00015155555555555557,
+      "loss": 0.0075,
       "step": 545
     },
     {
       "epoch": 3.6666666666666665,
-      "grad_norm": 12.001660346984863,
-      "learning_rate": 0.00017555555555555556,
-      "loss": 0.1107,
+      "grad_norm": 0.036210689693689346,
+      "learning_rate": 0.0001511111111111111,
+      "loss": 0.0056,
       "step": 550
     },
     {
       "epoch": 3.7,
-      "grad_norm": 0.044813767075538635,
-      "learning_rate": 0.00017533333333333336,
-      "loss": 0.015,
+      "grad_norm": 0.01759987883269787,
+      "learning_rate": 0.00015066666666666668,
+      "loss": 0.005,
       "step": 555
     },
     {
       "epoch": 3.7333333333333334,
-      "grad_norm": 1.1995677947998047,
-      "learning_rate": 0.00017511111111111113,
-      "loss": 0.0785,
+      "grad_norm": 0.048842594027519226,
+      "learning_rate": 0.00015022222222222222,
+      "loss": 0.0045,
       "step": 560
     },
     {
       "epoch": 3.7666666666666666,
-      "grad_norm": 2.4275963306427,
-      "learning_rate": 0.0001748888888888889,
-      "loss": 0.1064,
+      "grad_norm": 0.016996921971440315,
+      "learning_rate": 0.00014977777777777778,
+      "loss": 0.0045,
       "step": 565
     },
     {
       "epoch": 3.8,
-      "grad_norm": 1.5593420267105103,
-      "learning_rate": 0.00017466666666666667,
-      "loss": 0.0357,
+      "grad_norm": 0.6005651354789734,
+      "learning_rate": 0.00014933333333333335,
+      "loss": 0.0112,
       "step": 570
     },
     {
       "epoch": 3.8333333333333335,
-      "grad_norm": 0.7760279178619385,
-      "learning_rate": 0.00017444444444444446,
-      "loss": 0.0095,
+      "grad_norm": 0.2864639163017273,
+      "learning_rate": 0.0001488888888888889,
+      "loss": 0.0326,
       "step": 575
     },
     {
       "epoch": 3.8666666666666667,
-      "grad_norm": 0.027867965400218964,
-      "learning_rate": 0.00017422222222222223,
-      "loss": 0.0111,
+      "grad_norm": 0.028333056718111038,
+      "learning_rate": 0.00014844444444444445,
+      "loss": 0.0301,
       "step": 580
     },
     {
       "epoch": 3.9,
-      "grad_norm": 0.08344069868326187,
-      "learning_rate": 0.000174,
-      "loss": 0.0127,
+      "grad_norm": 0.015640731900930405,
+      "learning_rate": 0.000148,
+      "loss": 0.0419,
       "step": 585
     },
     {
       "epoch": 3.9333333333333336,
-      "grad_norm": 0.01838390715420246,
-      "learning_rate": 0.0001737777777777778,
-      "loss": 0.0392,
+      "grad_norm": 0.015764426440000534,
+      "learning_rate": 0.00014755555555555556,
+      "loss": 0.0096,
       "step": 590
     },
     {
       "epoch": 3.966666666666667,
-      "grad_norm": 0.017390254884958267,
-      "learning_rate": 0.00017355555555555557,
+      "grad_norm": 0.01586846075952053,
+      "learning_rate": 0.00014711111111111112,
       "loss": 0.0045,
       "step": 595
     },
     {
       "epoch": 4.0,
-      "grad_norm": 0.02237175963819027,
-      "learning_rate": 0.00017333333333333334,
-      "loss": 0.0638,
+      "grad_norm": 0.014489141292870045,
+      "learning_rate": 0.00014666666666666666,
+      "loss": 0.0044,
       "step": 600
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.8283333333333334,
-      "eval_f1": 0.8269676033527453,
-      "eval_loss": 0.8596669435501099,
-      "eval_precision": 0.8389128953013719,
-      "eval_recall": 0.8283333333333334,
-      "eval_runtime": 7.8759,
-      "eval_samples_per_second": 152.363,
-      "eval_steps_per_second": 19.045,
+      "eval_accuracy": 0.8791666666666667,
+      "eval_f1": 0.8768760637793684,
+      "eval_loss": 0.617176353931427,
+      "eval_precision": 0.8925681911757526,
+      "eval_recall": 0.8791666666666667,
+      "eval_runtime": 7.7478,
+      "eval_samples_per_second": 154.883,
+      "eval_steps_per_second": 19.36,
       "step": 600
     },
     {
       "epoch": 4.033333333333333,
-      "grad_norm": 0.019417034462094307,
-      "learning_rate": 0.0001731111111111111,
-      "loss": 0.0049,
+      "grad_norm": 0.012540281750261784,
+      "learning_rate": 0.00014622222222222223,
+      "loss": 0.0053,
       "step": 605
     },
     {
       "epoch": 4.066666666666666,
-      "grad_norm": 0.01776639185845852,
-      "learning_rate": 0.0001728888888888889,
-      "loss": 0.0046,
+      "grad_norm": 0.019793013110756874,
+      "learning_rate": 0.0001457777777777778,
+      "loss": 0.0088,
       "step": 610
     },
     {
       "epoch": 4.1,
-      "grad_norm": 2.6777052879333496,
-      "learning_rate": 0.00017266666666666667,
-      "loss": 0.014,
+      "grad_norm": 0.3518993556499481,
+      "learning_rate": 0.00014533333333333333,
+      "loss": 0.009,
       "step": 615
     },
     {
       "epoch": 4.133333333333334,
-      "grad_norm": 0.06091040000319481,
-      "learning_rate": 0.00017244444444444444,
-      "loss": 0.0051,
+      "grad_norm": 0.03006441704928875,
+      "learning_rate": 0.0001448888888888889,
+      "loss": 0.0042,
       "step": 620
     },
     {
       "epoch": 4.166666666666667,
-      "grad_norm": 0.16615457832813263,
-      "learning_rate": 0.00017222222222222224,
-      "loss": 0.0131,
+      "grad_norm": 0.0133581617847085,
+      "learning_rate": 0.00014444444444444444,
+      "loss": 0.0132,
       "step": 625
     },
     {
       "epoch": 4.2,
-      "grad_norm": 4.456201553344727,
-      "learning_rate": 0.000172,
-      "loss": 0.0292,
+      "grad_norm": 0.01388661190867424,
+      "learning_rate": 0.000144,
+      "loss": 0.0399,
       "step": 630
     },
     {
       "epoch": 4.233333333333333,
-      "grad_norm": 0.22204749286174774,
-      "learning_rate": 0.0001717777777777778,
-      "loss": 0.0567,
+      "grad_norm": 0.016897162422537804,
+      "learning_rate": 0.00014355555555555554,
+      "loss": 0.0205,
       "step": 635
     },
     {
       "epoch": 4.266666666666667,
-      "grad_norm": 1.061065912246704,
-      "learning_rate": 0.00017155555555555555,
-      "loss": 0.0922,
+      "grad_norm": 0.015383469872176647,
+      "learning_rate": 0.0001431111111111111,
+      "loss": 0.0293,
       "step": 640
     },
     {
       "epoch": 4.3,
-      "grad_norm": 0.3043192923069,
-      "learning_rate": 0.00017133333333333334,
-      "loss": 0.0682,
+      "grad_norm": 0.18752814829349518,
+      "learning_rate": 0.00014266666666666667,
+      "loss": 0.0051,
       "step": 645
     },
     {
       "epoch": 4.333333333333333,
-      "grad_norm": 0.02231404557824135,
-      "learning_rate": 0.0001711111111111111,
-      "loss": 0.0889,
+      "grad_norm": 0.013087209314107895,
+      "learning_rate": 0.00014222222222222224,
+      "loss": 0.0052,
       "step": 650
     },
     {
       "epoch": 4.366666666666666,
-      "grad_norm": 4.000843048095703,
-      "learning_rate": 0.0001708888888888889,
-      "loss": 0.0364,
+      "grad_norm": 7.345510005950928,
+      "learning_rate": 0.00014177777777777778,
+      "loss": 0.0396,
       "step": 655
     },
     {
       "epoch": 4.4,
-      "grad_norm": 0.3187618851661682,
-      "learning_rate": 0.00017066666666666668,
-      "loss": 0.05,
+      "grad_norm": 0.01745128072798252,
+      "learning_rate": 0.00014133333333333334,
+      "loss": 0.0446,
       "step": 660
     },
     {
       "epoch": 4.433333333333334,
-      "grad_norm": 1.69314444065094,
-      "learning_rate": 0.00017044444444444445,
-      "loss": 0.0791,
+      "grad_norm": 0.023033631965517998,
+      "learning_rate": 0.00014088888888888888,
+      "loss": 0.0139,
       "step": 665
     },
     {
       "epoch": 4.466666666666667,
-      "grad_norm": 0.07860370725393295,
-      "learning_rate": 0.00017022222222222224,
-      "loss": 0.0116,
+      "grad_norm": 0.883780300617218,
+      "learning_rate": 0.00014044444444444445,
+      "loss": 0.0101,
       "step": 670
     },
     {
       "epoch": 4.5,
-      "grad_norm": 1.2985484600067139,
-      "learning_rate": 0.00017,
-      "loss": 0.0366,
+      "grad_norm": 0.07074714452028275,
+      "learning_rate": 0.00014,
+      "loss": 0.0039,
       "step": 675
     },
     {
       "epoch": 4.533333333333333,
-      "grad_norm": 2.6033730506896973,
-      "learning_rate": 0.00016977777777777778,
-      "loss": 0.0914,
+      "grad_norm": 0.012751113623380661,
+      "learning_rate": 0.00013955555555555558,
+      "loss": 0.0148,
       "step": 680
     },
     {
       "epoch": 4.566666666666666,
-      "grad_norm": 0.03449103236198425,
-      "learning_rate": 0.00016955555555555555,
-      "loss": 0.0966,
+      "grad_norm": 0.02566063404083252,
+      "learning_rate": 0.00013911111111111112,
+      "loss": 0.0086,
       "step": 685
     },
     {
       "epoch": 4.6,
-      "grad_norm": 8.799196243286133,
-      "learning_rate": 0.00016933333333333335,
-      "loss": 0.0412,
+      "grad_norm": 0.01256764866411686,
+      "learning_rate": 0.00013866666666666669,
+      "loss": 0.0042,
       "step": 690
     },
     {
       "epoch": 4.633333333333333,
-      "grad_norm": 4.106966018676758,
-      "learning_rate": 0.00016911111111111112,
-      "loss": 0.0181,
+      "grad_norm": 0.016712158918380737,
+      "learning_rate": 0.00013822222222222222,
+      "loss": 0.0033,
       "step": 695
     },
     {
       "epoch": 4.666666666666667,
-      "grad_norm": 0.016777725890278816,
-      "learning_rate": 0.00016888888888888889,
-      "loss": 0.0296,
+      "grad_norm": 0.014445093460381031,
+      "learning_rate": 0.0001377777777777778,
+      "loss": 0.0032,
       "step": 700
     },
     {
       "epoch": 4.666666666666667,
-      "eval_accuracy": 0.8325,
-      "eval_f1": 0.8306552956033915,
-      "eval_loss": 0.851315438747406,
-      "eval_precision": 0.8603104956989368,
-      "eval_recall": 0.8325,
-      "eval_runtime": 7.9773,
-      "eval_samples_per_second": 150.427,
-      "eval_steps_per_second": 18.803,
+      "eval_accuracy": 0.8516666666666667,
+      "eval_f1": 0.8495518085267277,
+      "eval_loss": 0.777227520942688,
+      "eval_precision": 0.8589096243220098,
+      "eval_recall": 0.8516666666666667,
+      "eval_runtime": 7.6715,
+      "eval_samples_per_second": 156.424,
+      "eval_steps_per_second": 19.553,
       "step": 700
     },
     {
       "epoch": 4.7,
-      "grad_norm": 0.013839561492204666,
-      "learning_rate": 0.00016866666666666668,
-      "loss": 0.0178,
+      "grad_norm": 0.012054095976054668,
+      "learning_rate": 0.00013733333333333333,
+      "loss": 0.0038,
       "step": 705
     },
     {
       "epoch": 4.733333333333333,
-      "grad_norm": 0.015372632071375847,
-      "learning_rate": 0.00016844444444444445,
-      "loss": 0.0035,
+      "grad_norm": 0.012178352102637291,
+      "learning_rate": 0.0001368888888888889,
+      "loss": 0.0032,
       "step": 710
     },
     {
       "epoch": 4.766666666666667,
-      "grad_norm": 0.010846931487321854,
-      "learning_rate": 0.00016822222222222225,
-      "loss": 0.0033,
+      "grad_norm": 0.010005182586610317,
+      "learning_rate": 0.00013644444444444443,
+      "loss": 0.0319,
       "step": 715
     },
     {
       "epoch": 4.8,
-      "grad_norm": 0.012667316012084484,
-      "learning_rate": 0.000168,
-      "loss": 0.0353,
+      "grad_norm": 0.010194342583417892,
+      "learning_rate": 0.00013600000000000003,
+      "loss": 0.0028,
       "step": 720
     },
     {
       "epoch": 4.833333333333333,
-      "grad_norm": 0.015456200577318668,
-      "learning_rate": 0.0001677777777777778,
-      "loss": 0.0826,
+      "grad_norm": 0.021056588739156723,
+      "learning_rate": 0.00013555555555555556,
+      "loss": 0.003,
       "step": 725
     },
     {
       "epoch": 4.866666666666667,
-      "grad_norm": 0.011674683541059494,
-      "learning_rate": 0.00016755555555555556,
-      "loss": 0.0048,
+      "grad_norm": 0.10812840610742569,
+      "learning_rate": 0.00013511111111111113,
+      "loss": 0.0032,
       "step": 730
     },
     {
       "epoch": 4.9,
-      "grad_norm": 0.01440636720508337,
-      "learning_rate": 0.00016733333333333335,
-      "loss": 0.0062,
+      "grad_norm": 0.01298112515360117,
+      "learning_rate": 0.00013466666666666667,
+      "loss": 0.003,
       "step": 735
     },
     {
       "epoch": 4.933333333333334,
-      "grad_norm": 0.05832609161734581,
-      "learning_rate": 0.00016711111111111112,
-      "loss": 0.0035,
+      "grad_norm": 0.01007118634879589,
+      "learning_rate": 0.00013422222222222224,
+      "loss": 0.0027,
       "step": 740
     },
     {
       "epoch": 4.966666666666667,
-      "grad_norm": 0.011923795565962791,
-      "learning_rate": 0.0001668888888888889,
-      "loss": 0.0512,
+      "grad_norm": 0.00997263565659523,
+      "learning_rate": 0.00013377777777777777,
+      "loss": 0.0027,
       "step": 745
     },
     {
       "epoch": 5.0,
-      "grad_norm": 0.01394265703856945,
-      "learning_rate": 0.0001666666666666667,
-      "loss": 0.0029,
+      "grad_norm": 0.011295751668512821,
+      "learning_rate": 0.00013333333333333334,
+      "loss": 0.0027,
       "step": 750
     },
     {
       "epoch": 5.033333333333333,
-      "grad_norm": 0.01174243912100792,
-      "learning_rate": 0.00016644444444444446,
-      "loss": 0.0032,
+      "grad_norm": 0.009342596866190434,
+      "learning_rate": 0.00013288888888888888,
+      "loss": 0.0026,
       "step": 755
     },
     {
       "epoch": 5.066666666666666,
-      "grad_norm": 0.018876491114497185,
-      "learning_rate": 0.00016622222222222223,
-      "loss": 0.0031,
+      "grad_norm": 0.010615039616823196,
+      "learning_rate": 0.00013244444444444447,
+      "loss": 0.0026,
       "step": 760
     },
     {
       "epoch": 5.1,
-      "grad_norm": 0.010265682823956013,
-      "learning_rate": 0.000166,
-      "loss": 0.0088,
+      "grad_norm": 0.009292490780353546,
+      "learning_rate": 0.000132,
+      "loss": 0.0025,
       "step": 765
     },
     {
       "epoch": 5.133333333333334,
-      "grad_norm": 0.00936273206025362,
-      "learning_rate": 0.0001657777777777778,
-      "loss": 0.0025,
+      "grad_norm": 0.009002518840134144,
+      "learning_rate": 0.00013155555555555558,
+      "loss": 0.0093,
       "step": 770
     },
     {
       "epoch": 5.166666666666667,
-      "grad_norm": 0.009722217917442322,
-      "learning_rate": 0.00016555555555555556,
-      "loss": 0.0297,
+      "grad_norm": 0.012068667449057102,
+      "learning_rate": 0.00013111111111111111,
+      "loss": 0.0025,
       "step": 775
     },
     {
       "epoch": 5.2,
-      "grad_norm": 0.6582895517349243,
-      "learning_rate": 0.00016533333333333333,
-      "loss": 0.004,
+      "grad_norm": 3.0771682262420654,
+      "learning_rate": 0.00013066666666666668,
+      "loss": 0.0449,
       "step": 780
     },
     {
       "epoch": 5.233333333333333,
-      "grad_norm": 0.018948694691061974,
-      "learning_rate": 0.00016511111111111113,
-      "loss": 0.0237,
+      "grad_norm": 7.8274664878845215,
+      "learning_rate": 0.00013022222222222222,
+      "loss": 0.0148,
       "step": 785
     },
     {
       "epoch": 5.266666666666667,
-      "grad_norm": 0.009359920397400856,
-      "learning_rate": 0.0001648888888888889,
-      "loss": 0.0028,
+      "grad_norm": 0.009096098132431507,
+      "learning_rate": 0.00012977777777777779,
+      "loss": 0.0552,
       "step": 790
     },
     {
       "epoch": 5.3,
-      "grad_norm": 0.03819280490279198,
-      "learning_rate": 0.00016471111111111112,
-      "loss": 0.085,
+      "grad_norm": 3.1960034370422363,
+      "learning_rate": 0.00012933333333333332,
+      "loss": 0.0266,
       "step": 795
     },
     {
       "epoch": 5.333333333333333,
-      "grad_norm": 0.008769623935222626,
-      "learning_rate": 0.0001644888888888889,
-      "loss": 0.0023,
+      "grad_norm": 0.009420165792107582,
+      "learning_rate": 0.00012888888888888892,
+      "loss": 0.0026,
       "step": 800
     },
     {
       "epoch": 5.333333333333333,
-      "eval_accuracy": 0.8258333333333333,
-      "eval_f1": 0.8252385167532614,
-      "eval_loss": 0.9016202688217163,
-      "eval_precision": 0.8276691460489028,
-      "eval_recall": 0.8258333333333333,
-      "eval_runtime": 7.9585,
-      "eval_samples_per_second": 150.782,
-      "eval_steps_per_second": 18.848,
+      "eval_accuracy": 0.8375,
+      "eval_f1": 0.8350701762715841,
+      "eval_loss": 0.8897176384925842,
+      "eval_precision": 0.8478222637600029,
+      "eval_recall": 0.8375,
+      "eval_runtime": 7.6961,
+      "eval_samples_per_second": 155.923,
+      "eval_steps_per_second": 19.49,
       "step": 800
     },
     {
       "epoch": 5.366666666666666,
-      "grad_norm": 0.013553244061768055,
-      "learning_rate": 0.00016426666666666668,
-      "loss": 0.0227,
+      "grad_norm": 0.01573585346341133,
+      "learning_rate": 0.00012844444444444446,
+      "loss": 0.0035,
       "step": 805
     },
     {
       "epoch": 5.4,
-      "grad_norm": 0.008108344860374928,
-      "learning_rate": 0.00016404444444444445,
-      "loss": 0.0049,
+      "grad_norm": 0.014908558689057827,
+      "learning_rate": 0.00012800000000000002,
+      "loss": 0.004,
       "step": 810
     },
     {
       "epoch": 5.433333333333334,
-      "grad_norm": 0.07519623637199402,
-      "learning_rate": 0.00016382222222222222,
-      "loss": 0.0025,
+      "grad_norm": 0.36597728729248047,
+      "learning_rate": 0.00012755555555555556,
+      "loss": 0.0111,
       "step": 815
     },
     {
       "epoch": 5.466666666666667,
-      "grad_norm": 0.010752180591225624,
-      "learning_rate": 0.0001636,
-      "loss": 0.0036,
+      "grad_norm": 5.850461483001709,
+      "learning_rate": 0.00012711111111111113,
+      "loss": 0.021,
       "step": 820
     },
     {
       "epoch": 5.5,
-      "grad_norm": 0.02380216121673584,
-      "learning_rate": 0.0001633777777777778,
-      "loss": 0.0038,
+      "grad_norm": 0.011307979933917522,
+      "learning_rate": 0.00012666666666666666,
+      "loss": 0.0027,
       "step": 825
     },
     {
       "epoch": 5.533333333333333,
-      "grad_norm": 2.58223295211792,
-      "learning_rate": 0.00016315555555555559,
-      "loss": 0.0329,
+      "grad_norm": 4.9326581954956055,
+      "learning_rate": 0.00012622222222222223,
+      "loss": 0.0121,
       "step": 830
     },
     {
       "epoch": 5.566666666666666,
-      "grad_norm": 0.008567465469241142,
-      "learning_rate": 0.00016293333333333333,
-      "loss": 0.0023,
+      "grad_norm": 0.010081916116178036,
+      "learning_rate": 0.0001257777777777778,
+      "loss": 0.0038,
       "step": 835
     },
     {
       "epoch": 5.6,
-      "grad_norm": 0.011150234378874302,
-      "learning_rate": 0.00016271111111111112,
-      "loss": 0.0027,
+      "grad_norm": 0.008793797343969345,
+      "learning_rate": 0.00012533333333333334,
+      "loss": 0.0107,
       "step": 840
     },
     {
       "epoch": 5.633333333333333,
-      "grad_norm": 0.007850906811654568,
-      "learning_rate": 0.0001624888888888889,
-      "loss": 0.002,
+      "grad_norm": 0.8058722019195557,
+      "learning_rate": 0.0001248888888888889,
+      "loss": 0.0814,
       "step": 845
     },
     {
       "epoch": 5.666666666666667,
-      "grad_norm": 0.008464174345135689,
-      "learning_rate": 0.0001622666666666667,
-      "loss": 0.0021,
+      "grad_norm": 6.115078449249268,
+      "learning_rate": 0.00012444444444444444,
+      "loss": 0.0059,
       "step": 850
     },
     {
       "epoch": 5.7,
-      "grad_norm": 0.030457813292741776,
-      "learning_rate": 0.00016204444444444443,
-      "loss": 0.0023,
+      "grad_norm": 0.012590233236551285,
+      "learning_rate": 0.000124,
+      "loss": 0.0042,
       "step": 855
     },
     {
       "epoch": 5.733333333333333,
-      "grad_norm": 0.006399280391633511,
-      "learning_rate": 0.00016182222222222223,
-      "loss": 0.002,
+      "grad_norm": 0.012737186625599861,
+      "learning_rate": 0.00012355555555555557,
+      "loss": 0.0219,
       "step": 860
     },
     {
       "epoch": 5.766666666666667,
-      "grad_norm": 0.014444428496062756,
-      "learning_rate": 0.00016160000000000002,
-      "loss": 0.0019,
+      "grad_norm": 0.03242069110274315,
+      "learning_rate": 0.0001231111111111111,
+      "loss": 0.0278,
       "step": 865
     },
     {
       "epoch": 5.8,
-      "grad_norm": 0.011648226529359818,
-      "learning_rate": 0.0001613777777777778,
-      "loss": 0.035,
+      "grad_norm": 0.017354173585772514,
+      "learning_rate": 0.00012266666666666668,
+      "loss": 0.0057,
       "step": 870
     },
     {
       "epoch": 5.833333333333333,
-      "grad_norm": 0.19019706547260284,
-      "learning_rate": 0.00016115555555555556,
-      "loss": 0.0021,
+      "grad_norm": 0.014413449913263321,
+      "learning_rate": 0.00012222222222222224,
+      "loss": 0.0032,
       "step": 875
     },
     {
       "epoch": 5.866666666666667,
-      "grad_norm": 0.015149089507758617,
-      "learning_rate": 0.00016093333333333333,
-      "loss": 0.0022,
+      "grad_norm": 0.012325948104262352,
+      "learning_rate": 0.0001217777777777778,
+      "loss": 0.0038,
       "step": 880
     },
     {
       "epoch": 5.9,
-      "grad_norm": 0.06066042184829712,
-      "learning_rate": 0.00016071111111111113,
-      "loss": 0.0148,
+      "grad_norm": 0.010426623746752739,
+      "learning_rate": 0.00012133333333333335,
+      "loss": 0.0024,
       "step": 885
     },
     {
       "epoch": 5.933333333333334,
-      "grad_norm": 0.00822924729436636,
-      "learning_rate": 0.0001604888888888889,
-      "loss": 0.0329,
+      "grad_norm": 0.010102801024913788,
+      "learning_rate": 0.0001208888888888889,
+      "loss": 0.0022,
       "step": 890
     },
     {
       "epoch": 5.966666666666667,
-      "grad_norm": 0.08668404072523117,
-      "learning_rate": 0.00016026666666666667,
-      "loss": 0.002,
+      "grad_norm": 0.009131083264946938,
+      "learning_rate": 0.00012044444444444445,
+      "loss": 0.022,
       "step": 895
     },
     {
       "epoch": 6.0,
-      "grad_norm": 0.008358371444046497,
-      "learning_rate": 0.00016004444444444444,
-      "loss": 0.0826,
+      "grad_norm": 0.008378170430660248,
+      "learning_rate": 0.00012,
+      "loss": 0.0033,
       "step": 900
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.825,
-      "eval_f1": 0.8217725506794431,
-      "eval_loss": 0.9256916046142578,
-      "eval_precision": 0.8302647635524736,
-      "eval_recall": 0.825,
-      "eval_runtime": 7.9868,
-      "eval_samples_per_second": 150.248,
-      "eval_steps_per_second": 18.781,
+      "eval_accuracy": 0.9075,
+      "eval_f1": 0.904614447173649,
+      "eval_loss": 0.49464890360832214,
+      "eval_precision": 0.9136222146251665,
+      "eval_recall": 0.9075,
+      "eval_runtime": 7.7354,
+      "eval_samples_per_second": 155.13,
+      "eval_steps_per_second": 19.391,
       "step": 900
     },
     {
       "epoch": 6.033333333333333,
-      "grad_norm": 0.06555764377117157,
-      "learning_rate": 0.00015982222222222223,
-      "loss": 0.003,
+      "grad_norm": 0.00805143266916275,
+      "learning_rate": 0.00011955555555555556,
+      "loss": 0.0022,
       "step": 905
     },
     {
       "epoch": 6.066666666666666,
-      "grad_norm": 0.010176130570471287,
-      "learning_rate": 0.0001596,
-      "loss": 0.025,
+      "grad_norm": 0.013455729931592941,
+      "learning_rate": 0.00011911111111111111,
+      "loss": 0.0022,
       "step": 910
     },
     {
       "epoch": 6.1,
-      "grad_norm": 0.009402208961546421,
-      "learning_rate": 0.00015937777777777777,
-      "loss": 0.0022,
+      "grad_norm": 0.007239766418933868,
+      "learning_rate": 0.00011866666666666669,
+      "loss": 0.0125,
       "step": 915
     },
     {
       "epoch": 6.133333333333334,
-      "grad_norm": 0.009895476512610912,
-      "learning_rate": 0.00015915555555555557,
-      "loss": 0.0291,
+      "grad_norm": 0.008403417654335499,
+      "learning_rate": 0.00011822222222222224,
+      "loss": 0.0726,
       "step": 920
     },
     {
       "epoch": 6.166666666666667,
-      "grad_norm": 0.00898162741214037,
-      "learning_rate": 0.00015893333333333334,
-      "loss": 0.0023,
+      "grad_norm": 9.682872772216797,
+      "learning_rate": 0.00011777777777777779,
+      "loss": 0.0211,
       "step": 925
     },
     {
       "epoch": 6.2,
-      "grad_norm": 0.008657393045723438,
-      "learning_rate": 0.00015871111111111114,
-      "loss": 0.0055,
+      "grad_norm": 2.7311182022094727,
+      "learning_rate": 0.00011733333333333334,
+      "loss": 0.0982,
       "step": 930
     },
     {
       "epoch": 6.233333333333333,
-      "grad_norm": 4.774776458740234,
-      "learning_rate": 0.00015848888888888888,
-      "loss": 0.0094,
+      "grad_norm": 4.947127819061279,
+      "learning_rate": 0.0001168888888888889,
+      "loss": 0.088,
       "step": 935
     },
     {
       "epoch": 6.266666666666667,
-      "grad_norm": 0.03181242197751999,
-      "learning_rate": 0.00015826666666666667,
-      "loss": 0.002,
+      "grad_norm": 0.009330512024462223,
+      "learning_rate": 0.00011644444444444445,
+      "loss": 0.0022,
       "step": 940
     },
     {
       "epoch": 6.3,
-      "grad_norm": 0.010425401851534843,
-      "learning_rate": 0.00015804444444444447,
-      "loss": 0.0193,
+      "grad_norm": 6.645519733428955,
+      "learning_rate": 0.000116,
+      "loss": 0.0142,
       "step": 945
     },
     {
       "epoch": 6.333333333333333,
-      "grad_norm": 0.00863628275692463,
-      "learning_rate": 0.00015782222222222224,
-      "loss": 0.0021,
+      "grad_norm": 0.009008236229419708,
+      "learning_rate": 0.00011555555555555555,
+      "loss": 0.0034,
       "step": 950
     },
     {
       "epoch": 6.366666666666666,
-      "grad_norm": 0.02589144930243492,
-      "learning_rate": 0.0001576,
+      "grad_norm": 0.00968620553612709,
+      "learning_rate": 0.00011511111111111112,
       "loss": 0.0025,
       "step": 955
     },
     {
       "epoch": 6.4,
-      "grad_norm": 0.00986549723893404,
-      "learning_rate": 0.00015737777777777778,
-      "loss": 0.0033,
+      "grad_norm": 0.022011801600456238,
+      "learning_rate": 0.00011466666666666667,
+      "loss": 0.0024,
       "step": 960
     },
     {
       "epoch": 6.433333333333334,
-      "grad_norm": 0.00706731341779232,
-      "learning_rate": 0.00015715555555555557,
-      "loss": 0.0021,
+      "grad_norm": 8.281715393066406,
+      "learning_rate": 0.00011422222222222224,
+      "loss": 0.051,
       "step": 965
     },
     {
       "epoch": 6.466666666666667,
-      "grad_norm": 0.024915220215916634,
-      "learning_rate": 0.00015693333333333334,
-      "loss": 0.0021,
+      "grad_norm": 0.579223096370697,
+      "learning_rate": 0.00011377777777777779,
+      "loss": 0.0026,
       "step": 970
     },
     {
       "epoch": 6.5,
-      "grad_norm": 0.00629127724096179,
-      "learning_rate": 0.0001567111111111111,
-      "loss": 0.0018,
+      "grad_norm": 0.006855517625808716,
+      "learning_rate": 0.00011333333333333334,
+      "loss": 0.0042,
       "step": 975
     },
     {
       "epoch": 6.533333333333333,
-      "grad_norm": 0.006032106000930071,
-      "learning_rate": 0.0001564888888888889,
-      "loss": 0.0016,
+      "grad_norm": 0.008189638145267963,
+      "learning_rate": 0.0001128888888888889,
+      "loss": 0.0019,
       "step": 980
     },
     {
       "epoch": 6.566666666666666,
-      "grad_norm": 0.00849649403244257,
-      "learning_rate": 0.00015626666666666668,
-      "loss": 0.0016,
+      "grad_norm": 0.00958770141005516,
+      "learning_rate": 0.00011244444444444445,
+      "loss": 0.023,
       "step": 985
     },
     {
       "epoch": 6.6,
-      "grad_norm": 0.006580525077879429,
-      "learning_rate": 0.00015604444444444445,
-      "loss": 0.0015,
+      "grad_norm": 0.007859606295824051,
+      "learning_rate": 0.00011200000000000001,
+      "loss": 0.002,
       "step": 990
     },
     {
       "epoch": 6.633333333333333,
-      "grad_norm": 0.0061286864802241325,
-      "learning_rate": 0.00015582222222222222,
-      "loss": 0.0015,
+      "grad_norm": 0.007590743247419596,
+      "learning_rate": 0.00011155555555555556,
+      "loss": 0.0019,
       "step": 995
     },
     {
       "epoch": 6.666666666666667,
-      "grad_norm": 0.006802410818636417,
-      "learning_rate": 0.00015560000000000001,
-      "loss": 0.0016,
+      "grad_norm": 0.009227822534739971,
+      "learning_rate": 0.00011111111111111112,
+      "loss": 0.0019,
       "step": 1000
     },
     {
       "epoch": 6.666666666666667,
-      "eval_accuracy": 0.83,
-      "eval_f1": 0.8275958429402862,
-      "eval_loss": 0.9261183738708496,
-      "eval_precision": 0.8345358955097472,
-      "eval_recall": 0.83,
-      "eval_runtime": 7.9044,
-      "eval_samples_per_second": 151.813,
-      "eval_steps_per_second": 18.977,
+      "eval_accuracy": 0.8725,
+      "eval_f1": 0.8715797189061929,
+      "eval_loss": 0.697052001953125,
+      "eval_precision": 0.8726720129610521,
+      "eval_recall": 0.8725,
+      "eval_runtime": 7.787,
+      "eval_samples_per_second": 154.104,
+      "eval_steps_per_second": 19.263,
       "step": 1000
     },
     {
       "epoch": 6.7,
-      "grad_norm": 0.01814758963882923,
-      "learning_rate": 0.00015537777777777778,
-      "loss": 0.0015,
+      "grad_norm": 3.6635098457336426,
+      "learning_rate": 0.00011066666666666667,
+      "loss": 0.0336,
       "step": 1005
     },
     {
       "epoch": 6.733333333333333,
-      "grad_norm": 0.004863199312239885,
-      "learning_rate": 0.00015515555555555555,
-      "loss": 0.0014,
+      "grad_norm": 0.006350657902657986,
+      "learning_rate": 0.00011022222222222222,
+      "loss": 0.0018,
       "step": 1010
     },
     {
       "epoch": 6.766666666666667,
-      "grad_norm": 0.005453528370708227,
-      "learning_rate": 0.00015493333333333332,
-      "loss": 0.0015,
+      "grad_norm": 0.009451886638998985,
+      "learning_rate": 0.00010977777777777777,
+      "loss": 0.0018,
       "step": 1015
     },
     {
       "epoch": 6.8,
-      "grad_norm": 0.004969759378582239,
-      "learning_rate": 0.00015471111111111112,
-      "loss": 0.0014,
+      "grad_norm": 0.013161370530724525,
+      "learning_rate": 0.00010933333333333333,
+      "loss": 0.0023,
       "step": 1020
     },
     {
       "epoch": 6.833333333333333,
-      "grad_norm": 0.005656726658344269,
-      "learning_rate": 0.00015448888888888892,
-      "loss": 0.0014,
+      "grad_norm": 0.011307346634566784,
+      "learning_rate": 0.00010888888888888889,
+      "loss": 0.0279,
       "step": 1025
     },
     {
       "epoch": 6.866666666666667,
-      "grad_norm": 0.005711427889764309,
-      "learning_rate": 0.00015426666666666666,
-      "loss": 0.0079,
+      "grad_norm": 0.04682878032326698,
+      "learning_rate": 0.00010844444444444446,
+      "loss": 0.0018,
       "step": 1030
     },
     {
       "epoch": 6.9,
-      "grad_norm": 0.004988481290638447,
-      "learning_rate": 0.00015404444444444445,
-      "loss": 0.0013,
+      "grad_norm": 0.008936051279306412,
+      "learning_rate": 0.00010800000000000001,
+      "loss": 0.0031,
       "step": 1035
     },
     {
       "epoch": 6.933333333333334,
-      "grad_norm": 0.005721434485167265,
-      "learning_rate": 0.00015382222222222222,
-      "loss": 0.0014,
+      "grad_norm": 0.006677222438156605,
+      "learning_rate": 0.00010755555555555556,
+      "loss": 0.0017,
       "step": 1040
     },
     {
       "epoch": 6.966666666666667,
-      "grad_norm": 0.005452418699860573,
-      "learning_rate": 0.00015360000000000002,
+      "grad_norm": 0.005792958661913872,
+      "learning_rate": 0.00010711111111111111,
       "loss": 0.0017,
       "step": 1045
     },
     {
       "epoch": 7.0,
-      "grad_norm": 0.009533890523016453,
-      "learning_rate": 0.00015337777777777776,
-      "loss": 0.0403,
+      "grad_norm": 0.007080113515257835,
+      "learning_rate": 0.00010666666666666667,
+      "loss": 0.0017,
       "step": 1050
     },
     {
       "epoch": 7.033333333333333,
-      "grad_norm": 0.005036620888859034,
-      "learning_rate": 0.00015315555555555556,
-      "loss": 0.0013,
+      "grad_norm": 2.009840965270996,
+      "learning_rate": 0.00010622222222222222,
+      "loss": 0.0044,
       "step": 1055
     },
     {
       "epoch": 7.066666666666666,
-      "grad_norm": 0.004470932297408581,
-      "learning_rate": 0.00015293333333333336,
-      "loss": 0.0247,
+      "grad_norm": 0.0056399935856461525,
+      "learning_rate": 0.00010577777777777777,
+      "loss": 0.0015,
       "step": 1060
     },
     {
       "epoch": 7.1,
-      "grad_norm": 0.015962479636073112,
-      "learning_rate": 0.00015271111111111112,
-      "loss": 0.0013,
+      "grad_norm": 0.006461955141276121,
+      "learning_rate": 0.00010533333333333332,
+      "loss": 0.0016,
       "step": 1065
     },
     {
       "epoch": 7.133333333333334,
-      "grad_norm": 0.006552346982061863,
-      "learning_rate": 0.0001524888888888889,
-      "loss": 0.0017,
+      "grad_norm": 0.0062762657180428505,
+      "learning_rate": 0.0001048888888888889,
+      "loss": 0.0197,
       "step": 1070
     },
     {
       "epoch": 7.166666666666667,
-      "grad_norm": 0.004865413531661034,
-      "learning_rate": 0.00015226666666666666,
-      "loss": 0.002,
+      "grad_norm": 0.006046535912901163,
+      "learning_rate": 0.00010444444444444445,
+      "loss": 0.0016,
       "step": 1075
     },
     {
       "epoch": 7.2,
-      "grad_norm": 0.0048524439334869385,
-      "learning_rate": 0.00015204444444444446,
-      "loss": 0.0012,
+      "grad_norm": 0.010254153981804848,
+      "learning_rate": 0.00010400000000000001,
+      "loss": 0.0016,
       "step": 1080
     },
     {
       "epoch": 7.233333333333333,
-      "grad_norm": 0.004466760437935591,
-      "learning_rate": 0.00015182222222222223,
-      "loss": 0.0012,
+      "grad_norm": 0.013028674758970737,
+      "learning_rate": 0.00010355555555555556,
+      "loss": 0.0015,
       "step": 1085
     },
     {
       "epoch": 7.266666666666667,
-      "grad_norm": 0.0052523985505104065,
-      "learning_rate": 0.0001516,
-      "loss": 0.0012,
+      "grad_norm": 0.005585168953984976,
+      "learning_rate": 0.00010311111111111111,
+      "loss": 0.0235,
       "step": 1090
     },
     {
       "epoch": 7.3,
-      "grad_norm": 0.00493254978209734,
-      "learning_rate": 0.0001513777777777778,
-      "loss": 0.0012,
+      "grad_norm": 0.0057495832443237305,
+      "learning_rate": 0.00010266666666666666,
+      "loss": 0.0016,
       "step": 1095
     },
     {
       "epoch": 7.333333333333333,
-      "grad_norm": 0.004704814869910479,
-      "learning_rate": 0.00015115555555555556,
-      "loss": 0.0034,
+      "grad_norm": 0.00636147428303957,
+      "learning_rate": 0.00010222222222222222,
+      "loss": 0.0016,
       "step": 1100
     },
     {
       "epoch": 7.333333333333333,
-      "eval_accuracy": 0.8225,
-      "eval_f1": 0.8198743450489343,
-      "eval_loss": 1.108202338218689,
-      "eval_precision": 0.8315048116167695,
-      "eval_recall": 0.8225,
-      "eval_runtime": 7.9454,
-      "eval_samples_per_second": 151.03,
-      "eval_steps_per_second": 18.879,
+      "eval_accuracy": 0.8691666666666666,
+      "eval_f1": 0.8684794499991896,
+      "eval_loss": 0.7355449199676514,
+      "eval_precision": 0.8711397873384658,
+      "eval_recall": 0.8691666666666666,
+      "eval_runtime": 7.7969,
+      "eval_samples_per_second": 153.908,
+      "eval_steps_per_second": 19.239,
       "step": 1100
     },
     {
       "epoch": 7.366666666666666,
-      "grad_norm": 0.026772132143378258,
-      "learning_rate": 0.00015093333333333336,
-      "loss": 0.0083,
+      "grad_norm": 0.00934270117431879,
+      "learning_rate": 0.00010177777777777777,
+      "loss": 0.0277,
       "step": 1105
     },
     {
       "epoch": 7.4,
-      "grad_norm": 0.004391206428408623,
-      "learning_rate": 0.0001507111111111111,
-      "loss": 0.0011,
+      "grad_norm": 0.008090957999229431,
+      "learning_rate": 0.00010133333333333335,
+      "loss": 0.0126,
       "step": 1110
     },
     {
       "epoch": 7.433333333333334,
-      "grad_norm": 0.0039611877873539925,
-      "learning_rate": 0.0001504888888888889,
-      "loss": 0.0011,
+      "grad_norm": 0.005400181747972965,
+      "learning_rate": 0.0001008888888888889,
+      "loss": 0.0015,
       "step": 1115
     },
     {
       "epoch": 7.466666666666667,
-      "grad_norm": 0.004093847703188658,
-      "learning_rate": 0.00015026666666666667,
-      "loss": 0.0011,
+      "grad_norm": 0.007043109275400639,
+      "learning_rate": 0.00010044444444444445,
+      "loss": 0.0015,
       "step": 1120
     },
     {
       "epoch": 7.5,
-      "grad_norm": 0.005833392962813377,
-      "learning_rate": 0.00015004444444444447,
-      "loss": 0.0012,
+      "grad_norm": 0.007100725546479225,
+      "learning_rate": 0.0001,
+      "loss": 0.0016,
       "step": 1125
     },
     {
       "epoch": 7.533333333333333,
-      "grad_norm": 0.004348380956798792,
-      "learning_rate": 0.0001498222222222222,
-      "loss": 0.003,
+      "grad_norm": 0.006124288775026798,
+      "learning_rate": 9.955555555555556e-05,
+      "loss": 0.0016,
       "step": 1130
     },
     {
       "epoch": 7.566666666666666,
-      "grad_norm": 0.004488006699830294,
-      "learning_rate": 0.0001496,
-      "loss": 0.0011,
+      "grad_norm": 0.006189672276377678,
+      "learning_rate": 9.911111111111112e-05,
+      "loss": 0.008,
       "step": 1135
     },
     {
       "epoch": 7.6,
-      "grad_norm": 0.003980441018939018,
-      "learning_rate": 0.0001493777777777778,
-      "loss": 0.0017,
+      "grad_norm": 0.00563843734562397,
+      "learning_rate": 9.866666666666668e-05,
+      "loss": 0.0015,
       "step": 1140
     },
     {
       "epoch": 7.633333333333333,
-      "grad_norm": 0.004325131420046091,
-      "learning_rate": 0.00014915555555555557,
-      "loss": 0.0011,
+      "grad_norm": 0.014080536551773548,
+      "learning_rate": 9.822222222222223e-05,
+      "loss": 0.0016,
       "step": 1145
     },
     {
       "epoch": 7.666666666666667,
-      "grad_norm": 0.004081904422491789,
-      "learning_rate": 0.00014893333333333334,
-      "loss": 0.0011,
+      "grad_norm": 0.005841184873133898,
+      "learning_rate": 9.777777777777778e-05,
+      "loss": 0.016,
       "step": 1150
     },
     {
       "epoch": 7.7,
-      "grad_norm": 0.0036262180656194687,
-      "learning_rate": 0.0001487111111111111,
-      "loss": 0.001,
+      "grad_norm": 0.005096752196550369,
+      "learning_rate": 9.733333333333335e-05,
+      "loss": 0.002,
       "step": 1155
     },
     {
       "epoch": 7.733333333333333,
-      "grad_norm": 19.878599166870117,
-      "learning_rate": 0.0001484888888888889,
-      "loss": 0.0195,
+      "grad_norm": 0.005026632454246283,
+      "learning_rate": 9.68888888888889e-05,
+      "loss": 0.0025,
       "step": 1160
     },
     {
       "epoch": 7.766666666666667,
-      "grad_norm": 0.003985458519309759,
-      "learning_rate": 0.00014826666666666667,
-      "loss": 0.001,
+      "grad_norm": 0.018300028517842293,
+      "learning_rate": 9.644444444444445e-05,
+      "loss": 0.0015,
       "step": 1165
     },
     {
       "epoch": 7.8,
-      "grad_norm": 0.004552652593702078,
-      "learning_rate": 0.00014804444444444444,
-      "loss": 0.001,
+      "grad_norm": 2.449920892715454,
+      "learning_rate": 9.6e-05,
+      "loss": 0.0442,
       "step": 1170
     },
     {
       "epoch": 7.833333333333333,
-      "grad_norm": 0.00739583233371377,
-      "learning_rate": 0.00014782222222222224,
-      "loss": 0.0011,
+      "grad_norm": 0.005512863863259554,
+      "learning_rate": 9.555555555555557e-05,
+      "loss": 0.0016,
       "step": 1175
     },
     {
       "epoch": 7.866666666666667,
-      "grad_norm": 0.0037395500112324953,
-      "learning_rate": 0.0001476,
-      "loss": 0.0021,
+      "grad_norm": 0.008775515481829643,
+      "learning_rate": 9.511111111111112e-05,
+      "loss": 0.0017,
       "step": 1180
     },
     {
       "epoch": 7.9,
-      "grad_norm": 0.0040153139270842075,
-      "learning_rate": 0.00014737777777777778,
-      "loss": 0.001,
+      "grad_norm": 0.00823537353426218,
+      "learning_rate": 9.466666666666667e-05,
+      "loss": 0.0014,
       "step": 1185
     },
     {
       "epoch": 7.933333333333334,
-      "grad_norm": 0.0047799646854400635,
-      "learning_rate": 0.00014715555555555555,
-      "loss": 0.001,
+      "grad_norm": 0.005680783186107874,
+      "learning_rate": 9.422222222222223e-05,
+      "loss": 0.0016,
       "step": 1190
     },
     {
       "epoch": 7.966666666666667,
-      "grad_norm": 0.003760283114388585,
-      "learning_rate": 0.00014693333333333335,
-      "loss": 0.001,
+      "grad_norm": 0.004886616487056017,
+      "learning_rate": 9.377777777777779e-05,
+      "loss": 0.0014,
       "step": 1195
     },
     {
       "epoch": 8.0,
-      "grad_norm": 0.00450550951063633,
-      "learning_rate": 0.00014671111111111111,
-      "loss": 0.001,
+      "grad_norm": 0.005599088966846466,
+      "learning_rate": 9.333333333333334e-05,
+      "loss": 0.0136,
       "step": 1200
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.8366666666666667,
-      "eval_f1": 0.8343195238934529,
-      "eval_loss": 1.0581740140914917,
-      "eval_precision": 0.8399037328595633,
-      "eval_recall": 0.8366666666666667,
-      "eval_runtime": 8.0512,
-      "eval_samples_per_second": 149.045,
-      "eval_steps_per_second": 18.631,
+      "eval_accuracy": 0.8675,
+      "eval_f1": 0.8612831762245361,
+      "eval_loss": 0.9004424214363098,
+      "eval_precision": 0.8899594162393726,
+      "eval_recall": 0.8675,
+      "eval_runtime": 8.2029,
+      "eval_samples_per_second": 146.29,
+      "eval_steps_per_second": 18.286,
       "step": 1200
     },
     {
       "epoch": 8.033333333333333,
-      "grad_norm": 0.005245027597993612,
-      "learning_rate": 0.0001464888888888889,
-      "loss": 0.001,
+      "grad_norm": 0.020854858681559563,
+      "learning_rate": 9.28888888888889e-05,
+      "loss": 0.0015,
       "step": 1205
     },
     {
       "epoch": 8.066666666666666,
-      "grad_norm": 0.0037353041116148233,
-      "learning_rate": 0.00014626666666666665,
-      "loss": 0.001,
+      "grad_norm": 0.006977157201617956,
+      "learning_rate": 9.244444444444445e-05,
+      "loss": 0.0014,
       "step": 1210
     },
     {
       "epoch": 8.1,
-      "grad_norm": 0.005007241386920214,
-      "learning_rate": 0.00014604444444444445,
-      "loss": 0.0009,
+      "grad_norm": 0.00779557041823864,
+      "learning_rate": 9.200000000000001e-05,
+      "loss": 0.0014,
       "step": 1215
     },
     {
       "epoch": 8.133333333333333,
-      "grad_norm": 0.003921703435480595,
-      "learning_rate": 0.00014582222222222225,
-      "loss": 0.001,
+      "grad_norm": 0.005887886509299278,
+      "learning_rate": 9.155555555555557e-05,
+      "loss": 0.0385,
       "step": 1220
     },
     {
       "epoch": 8.166666666666666,
-      "grad_norm": 0.003917222376912832,
-      "learning_rate": 0.00014560000000000002,
-      "loss": 0.001,
+      "grad_norm": 0.005461497697979212,
+      "learning_rate": 9.111111111111112e-05,
+      "loss": 0.0014,
       "step": 1225
     },
     {
       "epoch": 8.2,
-      "grad_norm": 0.0032125599682331085,
-      "learning_rate": 0.00014537777777777778,
-      "loss": 0.0009,
+      "grad_norm": 0.004963870160281658,
+      "learning_rate": 9.066666666666667e-05,
+      "loss": 0.0015,
       "step": 1230
     },
     {
       "epoch": 8.233333333333333,
-      "grad_norm": 0.0035545711871236563,
-      "learning_rate": 0.00014515555555555555,
-      "loss": 0.0009,
+      "grad_norm": 0.006015283986926079,
+      "learning_rate": 9.022222222222224e-05,
+      "loss": 0.0016,
       "step": 1235
     },
     {
       "epoch": 8.266666666666667,
-      "grad_norm": 0.003795257769525051,
-      "learning_rate": 0.00014493333333333335,
-      "loss": 0.0009,
+      "grad_norm": 0.011377650313079357,
+      "learning_rate": 8.977777777777779e-05,
+      "loss": 0.0022,
       "step": 1240
     },
     {
       "epoch": 8.3,
-      "grad_norm": 0.0035880764480680227,
-      "learning_rate": 0.00014471111111111112,
-      "loss": 0.0009,
+      "grad_norm": 0.006679036188870668,
+      "learning_rate": 8.933333333333334e-05,
+      "loss": 0.0014,
       "step": 1245
     },
     {
       "epoch": 8.333333333333334,
-      "grad_norm": 0.005574722308665514,
-      "learning_rate": 0.0001444888888888889,
-      "loss": 0.0009,
+      "grad_norm": 0.008043400943279266,
+      "learning_rate": 8.888888888888889e-05,
+      "loss": 0.0103,
       "step": 1250
     },
     {
       "epoch": 8.366666666666667,
-      "grad_norm": 0.003218415193259716,
-      "learning_rate": 0.00014426666666666669,
-      "loss": 0.0009,
+      "grad_norm": 0.010470683686435223,
+      "learning_rate": 8.844444444444445e-05,
+      "loss": 0.0014,
       "step": 1255
     },
     {
       "epoch": 8.4,
-      "grad_norm": 0.003668635617941618,
-      "learning_rate": 0.00014404444444444446,
-      "loss": 0.0009,
+      "grad_norm": 0.03802667185664177,
+      "learning_rate": 8.800000000000001e-05,
+      "loss": 0.0015,
       "step": 1260
     },
     {
       "epoch": 8.433333333333334,
-      "grad_norm": 0.004534270614385605,
-      "learning_rate": 0.00014382222222222222,
-      "loss": 0.0009,
+      "grad_norm": 0.005721381865441799,
+      "learning_rate": 8.755555555555556e-05,
+      "loss": 0.0457,
       "step": 1265
     },
     {
       "epoch": 8.466666666666667,
-      "grad_norm": 0.008046267554163933,
-      "learning_rate": 0.0001436,
-      "loss": 0.0009,
+      "grad_norm": 0.006967389490455389,
+      "learning_rate": 8.711111111111112e-05,
+      "loss": 0.0014,
       "step": 1270
     },
     {
       "epoch": 8.5,
-      "grad_norm": 0.004306700546294451,
-      "learning_rate": 0.0001433777777777778,
-      "loss": 0.0009,
+      "grad_norm": 0.005035760346800089,
+      "learning_rate": 8.666666666666667e-05,
+      "loss": 0.0013,
       "step": 1275
     },
     {
       "epoch": 8.533333333333333,
-      "grad_norm": 0.002993341302499175,
-      "learning_rate": 0.00014315555555555556,
-      "loss": 0.0008,
+      "grad_norm": 0.004982517100870609,
+      "learning_rate": 8.622222222222222e-05,
+      "loss": 0.0013,
       "step": 1280
     },
     {
       "epoch": 8.566666666666666,
-      "grad_norm": 0.007765995338559151,
-      "learning_rate": 0.00014293333333333333,
-      "loss": 0.0008,
+      "grad_norm": 0.005964560434222221,
+      "learning_rate": 8.577777777777777e-05,
+      "loss": 0.0013,
       "step": 1285
     },
     {
       "epoch": 8.6,
-      "grad_norm": 0.002929247450083494,
-      "learning_rate": 0.00014271111111111113,
-      "loss": 0.0008,
+      "grad_norm": 0.004523159936070442,
+      "learning_rate": 8.533333333333334e-05,
+      "loss": 0.0012,
       "step": 1290
     },
     {
       "epoch": 8.633333333333333,
-      "grad_norm": 0.0034461619798094034,
-      "learning_rate": 0.0001424888888888889,
-      "loss": 0.0009,
+      "grad_norm": 0.005507016088813543,
+      "learning_rate": 8.488888888888889e-05,
+      "loss": 0.0013,
       "step": 1295
     },
     {
       "epoch": 8.666666666666666,
-      "grad_norm": 0.0030610139947384596,
-      "learning_rate": 0.0001422666666666667,
-      "loss": 0.0008,
+      "grad_norm": 0.004766958765685558,
+      "learning_rate": 8.444444444444444e-05,
+      "loss": 0.0013,
       "step": 1300
     },
     {
       "epoch": 8.666666666666666,
-      "eval_accuracy": 0.8416666666666667,
-      "eval_f1": 0.8392758533260534,
-      "eval_loss": 1.0387274026870728,
-      "eval_precision": 0.8446442532326071,
-      "eval_recall": 0.8416666666666667,
-      "eval_runtime": 7.9734,
-      "eval_samples_per_second": 150.501,
-      "eval_steps_per_second": 18.813,
+      "eval_accuracy": 0.875,
+      "eval_f1": 0.8714567102479172,
+      "eval_loss": 0.7645782232284546,
+      "eval_precision": 0.883720019877876,
+      "eval_recall": 0.875,
+      "eval_runtime": 7.8517,
+      "eval_samples_per_second": 152.833,
+      "eval_steps_per_second": 19.104,
       "step": 1300
     },
     {
       "epoch": 8.7,
-      "grad_norm": 0.004035680554807186,
-      "learning_rate": 0.00014204444444444443,
-      "loss": 0.0008,
+      "grad_norm": 0.008234993554651737,
+      "learning_rate": 8.4e-05,
+      "loss": 0.0012,
       "step": 1305
     },
     {
       "epoch": 8.733333333333333,
-      "grad_norm": 0.0029723625630140305,
-      "learning_rate": 0.00014182222222222223,
-      "loss": 0.0008,
+      "grad_norm": 0.00484064593911171,
+      "learning_rate": 8.355555555555556e-05,
+      "loss": 0.0012,
       "step": 1310
     },
     {
       "epoch": 8.766666666666667,
-      "grad_norm": 0.00282120518386364,
-      "learning_rate": 0.0001416,
-      "loss": 0.0069,
+      "grad_norm": 0.004528046119958162,
+      "learning_rate": 8.311111111111111e-05,
+      "loss": 0.0012,
       "step": 1315
     },
     {
       "epoch": 8.8,
-      "grad_norm": 0.00412896741181612,
-      "learning_rate": 0.0001413777777777778,
-      "loss": 0.0008,
+      "grad_norm": 0.005345701240003109,
+      "learning_rate": 8.266666666666667e-05,
+      "loss": 0.0012,
       "step": 1320
     },
     {
       "epoch": 8.833333333333334,
-      "grad_norm": 9.05677604675293,
-      "learning_rate": 0.00014115555555555557,
-      "loss": 0.0064,
+      "grad_norm": 0.006082308944314718,
+      "learning_rate": 8.222222222222222e-05,
+      "loss": 0.0012,
       "step": 1325
     },
     {
       "epoch": 8.866666666666667,
-      "grad_norm": 0.003379584988579154,
-      "learning_rate": 0.00014093333333333333,
-      "loss": 0.0016,
+      "grad_norm": 0.004798177629709244,
+      "learning_rate": 8.177777777777778e-05,
+      "loss": 0.0012,
       "step": 1330
     },
     {
       "epoch": 8.9,
-      "grad_norm": 2.10893177986145,
-      "learning_rate": 0.00014071111111111113,
-      "loss": 0.0016,
+      "grad_norm": 0.0055374386720359325,
+      "learning_rate": 8.133333333333334e-05,
+      "loss": 0.0012,
       "step": 1335
     },
     {
       "epoch": 8.933333333333334,
-      "grad_norm": 0.003100164234638214,
-      "learning_rate": 0.0001404888888888889,
-      "loss": 0.0008,
+      "grad_norm": 0.004011641256511211,
+      "learning_rate": 8.088888888888889e-05,
+      "loss": 0.0011,
       "step": 1340
     },
     {
       "epoch": 8.966666666666667,
-      "grad_norm": 0.0031860037706792355,
-      "learning_rate": 0.00014026666666666667,
-      "loss": 0.0077,
+      "grad_norm": 0.14710482954978943,
+      "learning_rate": 8.044444444444444e-05,
+      "loss": 0.0013,
       "step": 1345
     },
     {
       "epoch": 9.0,
-      "grad_norm": 0.00359746185131371,
-      "learning_rate": 0.00014004444444444444,
-      "loss": 0.0049,
+      "grad_norm": 0.005434962920844555,
+      "learning_rate": 8e-05,
+      "loss": 0.0011,
       "step": 1350
     },
     {
       "epoch": 9.033333333333333,
-      "grad_norm": 0.006869759876281023,
-      "learning_rate": 0.00013982222222222224,
-      "loss": 0.0008,
+      "grad_norm": 0.004824881907552481,
+      "learning_rate": 7.955555555555556e-05,
+      "loss": 0.0011,
       "step": 1355
     },
     {
       "epoch": 9.066666666666666,
-      "grad_norm": 0.00739991944283247,
-      "learning_rate": 0.0001396,
-      "loss": 0.0642,
+      "grad_norm": 0.004165115766227245,
+      "learning_rate": 7.911111111111111e-05,
+      "loss": 0.0011,
       "step": 1360
     },
     {
       "epoch": 9.1,
-      "grad_norm": 0.004776425659656525,
-      "learning_rate": 0.00013937777777777777,
-      "loss": 0.0032,
+      "grad_norm": 0.00500259455293417,
+      "learning_rate": 7.866666666666666e-05,
+      "loss": 0.0011,
       "step": 1365
     },
     {
       "epoch": 9.133333333333333,
-      "grad_norm": 1.8323001861572266,
-      "learning_rate": 0.00013915555555555557,
-      "loss": 0.0481,
+      "grad_norm": 0.004787175916135311,
+      "learning_rate": 7.822222222222223e-05,
+      "loss": 0.0011,
       "step": 1370
     },
     {
       "epoch": 9.166666666666666,
-      "grad_norm": 0.0026926924474537373,
-      "learning_rate": 0.00013893333333333334,
-      "loss": 0.0008,
+      "grad_norm": 0.003821632359176874,
+      "learning_rate": 7.777777777777778e-05,
+      "loss": 0.0011,
       "step": 1375
     },
     {
       "epoch": 9.2,
-      "grad_norm": 0.003003367455676198,
-      "learning_rate": 0.00013871111111111114,
-      "loss": 0.0008,
+      "grad_norm": 0.004095276817679405,
+      "learning_rate": 7.733333333333333e-05,
+      "loss": 0.0011,
       "step": 1380
     },
     {
       "epoch": 9.233333333333333,
-      "grad_norm": 0.0033504138700664043,
-      "learning_rate": 0.00013848888888888888,
-      "loss": 0.0009,
+      "grad_norm": 0.004395100753754377,
+      "learning_rate": 7.688888888888889e-05,
+      "loss": 0.0011,
       "step": 1385
     },
     {
       "epoch": 9.266666666666667,
-      "grad_norm": 0.008986995555460453,
-      "learning_rate": 0.00013826666666666668,
-      "loss": 0.0542,
+      "grad_norm": 0.004819679539650679,
+      "learning_rate": 7.644444444444445e-05,
+      "loss": 0.0011,
       "step": 1390
     },
     {
       "epoch": 9.3,
-      "grad_norm": 0.003203814849257469,
-      "learning_rate": 0.00013804444444444444,
-      "loss": 0.0008,
+      "grad_norm": 0.0041588409803807735,
+      "learning_rate": 7.6e-05,
+      "loss": 0.0011,
       "step": 1395
     },
     {
       "epoch": 9.333333333333334,
-      "grad_norm": 0.004470728803426027,
-      "learning_rate": 0.00013782222222222224,
-      "loss": 0.001,
+      "grad_norm": 0.005976141896098852,
+      "learning_rate": 7.555555555555556e-05,
+      "loss": 0.0011,
       "step": 1400
     },
     {
       "epoch": 9.333333333333334,
-      "eval_accuracy": 0.8433333333333334,
-      "eval_f1": 0.8401871475277058,
-      "eval_loss": 0.952804684638977,
-      "eval_precision": 0.853039820913094,
-      "eval_recall": 0.8433333333333334,
-      "eval_runtime": 7.9733,
-      "eval_samples_per_second": 150.502,
-      "eval_steps_per_second": 18.813,
+      "eval_accuracy": 0.875,
+      "eval_f1": 0.8729200893360024,
+      "eval_loss": 0.783310055732727,
+      "eval_precision": 0.8786497885382714,
+      "eval_recall": 0.875,
+      "eval_runtime": 7.7317,
+      "eval_samples_per_second": 155.204,
+      "eval_steps_per_second": 19.401,
       "step": 1400
     },
     {
       "epoch": 9.366666666666667,
-      "grad_norm": 0.0062737795524299145,
-      "learning_rate": 0.00013759999999999998,
-      "loss": 0.0013,
+      "grad_norm": 0.004082676488906145,
+      "learning_rate": 7.511111111111111e-05,
+      "loss": 0.001,
       "step": 1405
     },
     {
       "epoch": 9.4,
-      "grad_norm": 0.00765831908211112,
-      "learning_rate": 0.00013737777777777778,
-      "loss": 0.0013,
+      "grad_norm": 0.004067440517246723,
+      "learning_rate": 7.466666666666667e-05,
+      "loss": 0.0011,
       "step": 1410
     },
     {
       "epoch": 9.433333333333334,
-      "grad_norm": 0.4445042312145233,
-      "learning_rate": 0.00013715555555555558,
-      "loss": 0.0017,
+      "grad_norm": 0.003930847160518169,
+      "learning_rate": 7.422222222222223e-05,
+      "loss": 0.001,
       "step": 1415
     },
     {
       "epoch": 9.466666666666667,
-      "grad_norm": 0.003492903197184205,
-      "learning_rate": 0.00013693333333333335,
-      "loss": 0.0009,
+      "grad_norm": 0.0043428437784314156,
+      "learning_rate": 7.377777777777778e-05,
+      "loss": 0.0011,
       "step": 1420
     },
     {
       "epoch": 9.5,
-      "grad_norm": 0.08516275137662888,
-      "learning_rate": 0.00013671111111111112,
-      "loss": 0.001,
+      "grad_norm": 0.0040993900038301945,
+      "learning_rate": 7.333333333333333e-05,
+      "loss": 0.0011,
       "step": 1425
     },
     {
       "epoch": 9.533333333333333,
-      "grad_norm": 0.0039756721816957,
-      "learning_rate": 0.00013648888888888888,
-      "loss": 0.0009,
+      "grad_norm": 0.0040678596124053,
+      "learning_rate": 7.28888888888889e-05,
+      "loss": 0.001,
       "step": 1430
     },
     {
       "epoch": 9.566666666666666,
-      "grad_norm": 0.004015395417809486,
-      "learning_rate": 0.00013626666666666668,
-      "loss": 0.0009,
+      "grad_norm": 0.0044206189922988415,
+      "learning_rate": 7.244444444444445e-05,
+      "loss": 0.001,
       "step": 1435
     },
     {
       "epoch": 9.6,
-      "grad_norm": 0.0038865474052727222,
-      "learning_rate": 0.00013604444444444445,
-      "loss": 0.012,
+      "grad_norm": 0.004022201523184776,
+      "learning_rate": 7.2e-05,
+      "loss": 0.001,
       "step": 1440
     },
     {
       "epoch": 9.633333333333333,
-      "grad_norm": 0.3675805926322937,
-      "learning_rate": 0.00013582222222222222,
-      "loss": 0.0189,
+      "grad_norm": 0.0038934999611228704,
+      "learning_rate": 7.155555555555555e-05,
+      "loss": 0.001,
       "step": 1445
     },
     {
       "epoch": 9.666666666666666,
-      "grad_norm": 0.0034215962514281273,
-      "learning_rate": 0.00013560000000000002,
-      "loss": 0.0394,
+      "grad_norm": 0.004252017475664616,
+      "learning_rate": 7.111111111111112e-05,
+      "loss": 0.0011,
       "step": 1450
     },
     {
       "epoch": 9.7,
-      "grad_norm": 0.00599896302446723,
-      "learning_rate": 0.00013537777777777779,
-      "loss": 0.031,
+      "grad_norm": 0.004141090903431177,
+      "learning_rate": 7.066666666666667e-05,
+      "loss": 0.001,
       "step": 1455
     },
     {
       "epoch": 9.733333333333333,
-      "grad_norm": 0.0037208639550954103,
-      "learning_rate": 0.00013515555555555556,
-      "loss": 0.0009,
+      "grad_norm": 0.004029363393783569,
+      "learning_rate": 7.022222222222222e-05,
+      "loss": 0.001,
       "step": 1460
     },
     {
       "epoch": 9.766666666666667,
-      "grad_norm": 13.184732437133789,
-      "learning_rate": 0.00013493333333333332,
-      "loss": 0.0224,
+      "grad_norm": 0.003818294033408165,
+      "learning_rate": 6.977777777777779e-05,
+      "loss": 0.001,
       "step": 1465
     },
     {
       "epoch": 9.8,
-      "grad_norm": 0.7009985446929932,
-      "learning_rate": 0.00013471111111111112,
-      "loss": 0.0034,
+      "grad_norm": 0.00408902857452631,
+      "learning_rate": 6.933333333333334e-05,
+      "loss": 0.001,
       "step": 1470
     },
     {
       "epoch": 9.833333333333334,
-      "grad_norm": 0.0037986484821885824,
-      "learning_rate": 0.0001344888888888889,
-      "loss": 0.0217,
+      "grad_norm": 0.003931113518774509,
+      "learning_rate": 6.88888888888889e-05,
+      "loss": 0.001,
       "step": 1475
     },
     {
       "epoch": 9.866666666666667,
-      "grad_norm": 0.004149803426116705,
-      "learning_rate": 0.0001342666666666667,
-      "loss": 0.0046,
+      "grad_norm": 0.004167790524661541,
+      "learning_rate": 6.844444444444445e-05,
+      "loss": 0.0009,
       "step": 1480
     },
     {
       "epoch": 9.9,
-      "grad_norm": 10.728241920471191,
-      "learning_rate": 0.00013404444444444446,
-      "loss": 0.0956,
+      "grad_norm": 0.004067119210958481,
+      "learning_rate": 6.800000000000001e-05,
+      "loss": 0.001,
       "step": 1485
     },
     {
       "epoch": 9.933333333333334,
-      "grad_norm": 0.0033866181038320065,
-      "learning_rate": 0.00013382222222222223,
-      "loss": 0.0008,
+      "grad_norm": 0.004031353630125523,
+      "learning_rate": 6.755555555555557e-05,
+      "loss": 0.001,
       "step": 1490
     },
     {
       "epoch": 9.966666666666667,
-      "grad_norm": 0.052472010254859924,
-      "learning_rate": 0.00013360000000000002,
-      "loss": 0.0431,
+      "grad_norm": 0.0036198000889271498,
+      "learning_rate": 6.711111111111112e-05,
+      "loss": 0.0009,
       "step": 1495
     },
     {
       "epoch": 10.0,
-      "grad_norm": 5.242526054382324,
-      "learning_rate": 0.0001333777777777778,
-      "loss": 0.0262,
+      "grad_norm": 0.003527268534526229,
+      "learning_rate": 6.666666666666667e-05,
+      "loss": 0.0009,
       "step": 1500
     },
     {
       "epoch": 10.0,
-      "eval_accuracy": 0.8533333333333334,
-      "eval_f1": 0.8524390363423641,
-      "eval_loss": 0.8878291845321655,
-      "eval_precision": 0.8615246278619596,
-      "eval_recall": 0.8533333333333334,
-      "eval_runtime": 7.8872,
-      "eval_samples_per_second": 152.146,
-      "eval_steps_per_second": 19.018,
+      "eval_accuracy": 0.8766666666666667,
+      "eval_f1": 0.8747314536108138,
+      "eval_loss": 0.796841561794281,
+      "eval_precision": 0.8800272956525502,
+      "eval_recall": 0.8766666666666667,
+      "eval_runtime": 7.6125,
+      "eval_samples_per_second": 157.636,
+      "eval_steps_per_second": 19.704,
       "step": 1500
     },
     {
       "epoch": 10.033333333333333,
-      "grad_norm": 0.0035599737893790007,
-      "learning_rate": 0.00013315555555555556,
-      "loss": 0.0009,
+      "grad_norm": 0.00367309944704175,
+      "learning_rate": 6.622222222222224e-05,
+      "loss": 0.001,
       "step": 1505
     },
     {
       "epoch": 10.066666666666666,
-      "grad_norm": 0.8671003580093384,
-      "learning_rate": 0.00013293333333333333,
-      "loss": 0.0025,
+      "grad_norm": 0.0034565224777907133,
+      "learning_rate": 6.577777777777779e-05,
+      "loss": 0.0009,
       "step": 1510
     },
     {
       "epoch": 10.1,
-      "grad_norm": 0.0036073531955480576,
-      "learning_rate": 0.00013271111111111113,
+      "grad_norm": 0.003840840421617031,
+      "learning_rate": 6.533333333333334e-05,
       "loss": 0.0009,
       "step": 1515
     },
     {
       "epoch": 10.133333333333333,
-      "grad_norm": 1.2625287771224976,
-      "learning_rate": 0.0001324888888888889,
-      "loss": 0.0053,
+      "grad_norm": 0.003424514550715685,
+      "learning_rate": 6.488888888888889e-05,
+      "loss": 0.0009,
       "step": 1520
     },
     {
       "epoch": 10.166666666666666,
-      "grad_norm": 0.0035825197119265795,
-      "learning_rate": 0.00013226666666666667,
+      "grad_norm": 0.004181622993201017,
+      "learning_rate": 6.444444444444446e-05,
       "loss": 0.0009,
       "step": 1525
     },
     {
       "epoch": 10.2,
-      "grad_norm": 4.411861896514893,
-      "learning_rate": 0.00013204444444444446,
-      "loss": 0.0598,
+      "grad_norm": 0.0035268214996904135,
+      "learning_rate": 6.400000000000001e-05,
+      "loss": 0.0009,
       "step": 1530
     },
     {
       "epoch": 10.233333333333333,
-      "grad_norm": 0.007685836870223284,
-      "learning_rate": 0.00013182222222222223,
-      "loss": 0.0022,
+      "grad_norm": 0.003380510490387678,
+      "learning_rate": 6.355555555555556e-05,
+      "loss": 0.0009,
       "step": 1535
     },
     {
       "epoch": 10.266666666666667,
-      "grad_norm": 0.004477541893720627,
-      "learning_rate": 0.0001316,
-      "loss": 0.0397,
+      "grad_norm": 0.004011547192931175,
+      "learning_rate": 6.311111111111112e-05,
+      "loss": 0.0009,
       "step": 1540
     },
     {
       "epoch": 10.3,
-      "grad_norm": 0.027370743453502655,
-      "learning_rate": 0.00013137777777777777,
-      "loss": 0.0408,
+      "grad_norm": 0.00363144651055336,
+      "learning_rate": 6.266666666666667e-05,
+      "loss": 0.0009,
       "step": 1545
     },
     {
       "epoch": 10.333333333333334,
-      "grad_norm": 0.004752095323055983,
-      "learning_rate": 0.00013115555555555557,
-      "loss": 0.0344,
+      "grad_norm": 0.00364690856076777,
+      "learning_rate": 6.222222222222222e-05,
+      "loss": 0.0009,
       "step": 1550
     },
     {
       "epoch": 10.366666666666667,
-      "grad_norm": 0.003220055252313614,
-      "learning_rate": 0.00013093333333333334,
-      "loss": 0.0486,
+      "grad_norm": 0.0034849499352276325,
+      "learning_rate": 6.177777777777779e-05,
+      "loss": 0.0009,
       "step": 1555
     },
     {
       "epoch": 10.4,
-      "grad_norm": 6.801137924194336,
-      "learning_rate": 0.0001307111111111111,
-      "loss": 0.0056,
+      "grad_norm": 0.0035291460808366537,
+      "learning_rate": 6.133333333333334e-05,
+      "loss": 0.0009,
       "step": 1560
     },
     {
       "epoch": 10.433333333333334,
-      "grad_norm": 0.006935578770935535,
-      "learning_rate": 0.0001304888888888889,
-      "loss": 0.0307,
+      "grad_norm": 0.004461485426872969,
+      "learning_rate": 6.08888888888889e-05,
+      "loss": 0.0009,
       "step": 1565
     },
     {
       "epoch": 10.466666666666667,
-      "grad_norm": 0.03765219822525978,
-      "learning_rate": 0.00013026666666666667,
-      "loss": 0.0332,
+      "grad_norm": 0.0032543542329221964,
+      "learning_rate": 6.044444444444445e-05,
+      "loss": 0.0009,
       "step": 1570
     },
     {
       "epoch": 10.5,
-      "grad_norm": 2.209925889968872,
-      "learning_rate": 0.00013004444444444447,
-      "loss": 0.0347,
+      "grad_norm": 0.0033993003889918327,
+      "learning_rate": 6e-05,
+      "loss": 0.0009,
       "step": 1575
     },
     {
       "epoch": 10.533333333333333,
-      "grad_norm": 0.021492403000593185,
-      "learning_rate": 0.0001298222222222222,
-      "loss": 0.0016,
+      "grad_norm": 0.0034861667081713676,
+      "learning_rate": 5.9555555555555554e-05,
+      "loss": 0.0009,
       "step": 1580
     },
     {
       "epoch": 10.566666666666666,
-      "grad_norm": 0.007099849637597799,
-      "learning_rate": 0.0001296,
-      "loss": 0.0023,
+      "grad_norm": 0.0031639200169593096,
+      "learning_rate": 5.911111111111112e-05,
+      "loss": 0.0009,
       "step": 1585
     },
     {
       "epoch": 10.6,
-      "grad_norm": 0.01035538874566555,
-      "learning_rate": 0.00012937777777777778,
-      "loss": 0.0027,
+      "grad_norm": 0.003308126935735345,
+      "learning_rate": 5.866666666666667e-05,
+      "loss": 0.0009,
       "step": 1590
     },
     {
       "epoch": 10.633333333333333,
-      "grad_norm": 0.04894666001200676,
-      "learning_rate": 0.00012915555555555557,
-      "loss": 0.037,
+      "grad_norm": 0.0034243811387568712,
+      "learning_rate": 5.8222222222222224e-05,
+      "loss": 0.0009,
       "step": 1595
     },
     {
       "epoch": 10.666666666666666,
-      "grad_norm": 0.007478413172066212,
-      "learning_rate": 0.00012893333333333334,
-      "loss": 0.001,
+      "grad_norm": 0.003839626908302307,
+      "learning_rate": 5.7777777777777776e-05,
+      "loss": 0.0009,
       "step": 1600
     },
     {
       "epoch": 10.666666666666666,
-      "eval_accuracy": 0.8316666666666667,
-      "eval_f1": 0.8309965091021129,
-      "eval_loss": 0.9026326537132263,
-      "eval_precision": 0.8482182523492193,
-      "eval_recall": 0.8316666666666667,
-      "eval_runtime": 7.9332,
-      "eval_samples_per_second": 151.262,
-      "eval_steps_per_second": 18.908,
+      "eval_accuracy": 0.8758333333333334,
+      "eval_f1": 0.8737771957714826,
+      "eval_loss": 0.8085426092147827,
+      "eval_precision": 0.8790248498297153,
+      "eval_recall": 0.8758333333333334,
+      "eval_runtime": 7.5837,
+      "eval_samples_per_second": 158.233,
+      "eval_steps_per_second": 19.779,
       "step": 1600
     },
     {
       "epoch": 10.7,
-      "grad_norm": 6.027993679046631,
-      "learning_rate": 0.0001287111111111111,
-      "loss": 0.0254,
+      "grad_norm": 0.003215189091861248,
+      "learning_rate": 5.7333333333333336e-05,
+      "loss": 0.0009,
       "step": 1605
     },
     {
       "epoch": 10.733333333333333,
-      "grad_norm": 0.0035206160973757505,
-      "learning_rate": 0.0001284888888888889,
-      "loss": 0.0012,
+      "grad_norm": 0.003678858047351241,
+      "learning_rate": 5.6888888888888895e-05,
+      "loss": 0.0009,
       "step": 1610
     },
     {
       "epoch": 10.766666666666667,
-      "grad_norm": 0.06300842016935349,
-      "learning_rate": 0.00012826666666666668,
-      "loss": 0.001,
+      "grad_norm": 0.0038577329833060503,
+      "learning_rate": 5.644444444444445e-05,
+      "loss": 0.0009,
       "step": 1615
     },
     {
       "epoch": 10.8,
-      "grad_norm": 0.0031334508676081896,
-      "learning_rate": 0.00012804444444444445,
-      "loss": 0.0014,
+      "grad_norm": 0.0034114550799131393,
+      "learning_rate": 5.6000000000000006e-05,
+      "loss": 0.0009,
       "step": 1620
     },
     {
       "epoch": 10.833333333333334,
-      "grad_norm": 0.013498328626155853,
-      "learning_rate": 0.00012782222222222222,
-      "loss": 0.002,
+      "grad_norm": 0.003764358116313815,
+      "learning_rate": 5.555555555555556e-05,
+      "loss": 0.0009,
       "step": 1625
     },
     {
       "epoch": 10.866666666666667,
-      "grad_norm": 0.04579751566052437,
-      "learning_rate": 0.0001276,
+      "grad_norm": 0.0032785392832010984,
+      "learning_rate": 5.511111111111111e-05,
       "loss": 0.0008,
       "step": 1630
     },
     {
       "epoch": 10.9,
-      "grad_norm": 0.0026082443073391914,
-      "learning_rate": 0.00012737777777777778,
-      "loss": 0.0007,
+      "grad_norm": 0.0031972250435501337,
+      "learning_rate": 5.466666666666666e-05,
+      "loss": 0.0009,
       "step": 1635
     },
     {
       "epoch": 10.933333333333334,
-      "grad_norm": 0.002897664438933134,
-      "learning_rate": 0.00012715555555555555,
-      "loss": 0.0007,
+      "grad_norm": 0.00348114687949419,
+      "learning_rate": 5.422222222222223e-05,
+      "loss": 0.0009,
       "step": 1640
     },
     {
       "epoch": 10.966666666666667,
-      "grad_norm": 0.0025454312562942505,
-      "learning_rate": 0.00012693333333333335,
-      "loss": 0.0008,
+      "grad_norm": 0.003187872702255845,
+      "learning_rate": 5.377777777777778e-05,
+      "loss": 0.0009,
       "step": 1645
     },
     {
       "epoch": 11.0,
-      "grad_norm": 0.006774136796593666,
-      "learning_rate": 0.00012671111111111112,
-      "loss": 0.0007,
+      "grad_norm": 0.003411698155105114,
+      "learning_rate": 5.333333333333333e-05,
+      "loss": 0.0008,
       "step": 1650
     },
     {
       "epoch": 11.033333333333333,
-      "grad_norm": 0.002655475400388241,
-      "learning_rate": 0.0001264888888888889,
-      "loss": 0.0006,
+      "grad_norm": 0.0033328530844300985,
+      "learning_rate": 5.2888888888888885e-05,
+      "loss": 0.0008,
       "step": 1655
     },
     {
       "epoch": 11.066666666666666,
-      "grad_norm": 0.0028948774561285973,
-      "learning_rate": 0.00012626666666666665,
-      "loss": 0.0007,
+      "grad_norm": 0.003470401046797633,
+      "learning_rate": 5.244444444444445e-05,
+      "loss": 0.0008,
       "step": 1660
     },
     {
       "epoch": 11.1,
-      "grad_norm": 0.0025184093974530697,
-      "learning_rate": 0.00012604444444444445,
-      "loss": 0.0007,
+      "grad_norm": 0.0032659885473549366,
+      "learning_rate": 5.2000000000000004e-05,
+      "loss": 0.0008,
       "step": 1665
     },
     {
       "epoch": 11.133333333333333,
-      "grad_norm": 0.002705099293962121,
-      "learning_rate": 0.00012582222222222222,
-      "loss": 0.0007,
+      "grad_norm": 0.0033511680085211992,
+      "learning_rate": 5.1555555555555556e-05,
+      "loss": 0.0008,
       "step": 1670
     },
     {
       "epoch": 11.166666666666666,
-      "grad_norm": 0.002469747792929411,
-      "learning_rate": 0.00012560000000000002,
-      "loss": 0.0006,
+      "grad_norm": 0.00303857633844018,
+      "learning_rate": 5.111111111111111e-05,
+      "loss": 0.0008,
       "step": 1675
     },
     {
       "epoch": 11.2,
-      "grad_norm": 0.003832346061244607,
-      "learning_rate": 0.0001253777777777778,
-      "loss": 0.0007,
+      "grad_norm": 0.003973283804953098,
+      "learning_rate": 5.0666666666666674e-05,
+      "loss": 0.0008,
       "step": 1680
     },
     {
       "epoch": 11.233333333333333,
-      "grad_norm": 0.002486497163772583,
-      "learning_rate": 0.00012515555555555556,
-      "loss": 0.0006,
+      "grad_norm": 0.003176705678924918,
+      "learning_rate": 5.0222222222222226e-05,
+      "loss": 0.0008,
       "step": 1685
     },
     {
       "epoch": 11.266666666666667,
-      "grad_norm": 0.002437813440337777,
-      "learning_rate": 0.00012493333333333335,
-      "loss": 0.0006,
+      "grad_norm": 0.0032490696758031845,
+      "learning_rate": 4.977777777777778e-05,
+      "loss": 0.0008,
       "step": 1690
     },
     {
       "epoch": 11.3,
-      "grad_norm": 0.0026881566736847162,
-      "learning_rate": 0.00012471111111111112,
-      "loss": 0.0006,
+      "grad_norm": 0.00368178216740489,
+      "learning_rate": 4.933333333333334e-05,
+      "loss": 0.0008,
       "step": 1695
     },
     {
       "epoch": 11.333333333333334,
-      "grad_norm": 0.0023811624851077795,
-      "learning_rate": 0.0001244888888888889,
-      "loss": 0.0006,
+      "grad_norm": 0.0035106376744806767,
+      "learning_rate": 4.888888888888889e-05,
+      "loss": 0.0008,
       "step": 1700
     },
     {
       "epoch": 11.333333333333334,
-      "eval_accuracy": 0.8558333333333333,
-      "eval_f1": 0.8501018287622119,
-      "eval_loss": 0.8519735932350159,
-      "eval_precision": 0.8664586757448554,
-      "eval_recall": 0.8558333333333333,
-      "eval_runtime": 7.9173,
-      "eval_samples_per_second": 151.567,
-      "eval_steps_per_second": 18.946,
+      "eval_accuracy": 0.8758333333333334,
+      "eval_f1": 0.8737771957714826,
+      "eval_loss": 0.8175358176231384,
+      "eval_precision": 0.8790248498297153,
+      "eval_recall": 0.8758333333333334,
+      "eval_runtime": 7.5381,
+      "eval_samples_per_second": 159.192,
+      "eval_steps_per_second": 19.899,
       "step": 1700
     },
     {
       "epoch": 11.366666666666667,
-      "grad_norm": 0.003554336028173566,
-      "learning_rate": 0.00012426666666666666,
-      "loss": 0.0006,
+      "grad_norm": 0.003947464283555746,
+      "learning_rate": 4.844444444444445e-05,
+      "loss": 0.0008,
       "step": 1705
     },
     {
       "epoch": 11.4,
-      "grad_norm": 0.002412047702819109,
-      "learning_rate": 0.00012404444444444446,
-      "loss": 0.0006,
+      "grad_norm": 0.003113075392320752,
+      "learning_rate": 4.8e-05,
+      "loss": 0.0008,
       "step": 1710
     },
     {
       "epoch": 11.433333333333334,
-      "grad_norm": 0.0025952262803912163,
-      "learning_rate": 0.00012382222222222223,
-      "loss": 0.0006,
+      "grad_norm": 0.003001824487000704,
+      "learning_rate": 4.755555555555556e-05,
+      "loss": 0.0008,
       "step": 1715
     },
     {
       "epoch": 11.466666666666667,
-      "grad_norm": 0.01876571774482727,
-      "learning_rate": 0.0001236,
-      "loss": 0.0006,
+      "grad_norm": 0.003452033270150423,
+      "learning_rate": 4.711111111111111e-05,
+      "loss": 0.0008,
       "step": 1720
     },
     {
       "epoch": 11.5,
-      "grad_norm": 0.002651629503816366,
-      "learning_rate": 0.0001233777777777778,
-      "loss": 0.0006,
+      "grad_norm": 0.0036192480474710464,
+      "learning_rate": 4.666666666666667e-05,
+      "loss": 0.0008,
       "step": 1725
     },
     {
       "epoch": 11.533333333333333,
-      "grad_norm": 0.0035275372210890055,
-      "learning_rate": 0.00012315555555555556,
-      "loss": 0.0006,
+      "grad_norm": 0.0037573580630123615,
+      "learning_rate": 4.6222222222222224e-05,
+      "loss": 0.0008,
       "step": 1730
     },
     {
       "epoch": 11.566666666666666,
-      "grad_norm": 0.002643986837938428,
-      "learning_rate": 0.00012293333333333336,
-      "loss": 0.0006,
+      "grad_norm": 0.003448236733675003,
+      "learning_rate": 4.577777777777778e-05,
+      "loss": 0.0008,
       "step": 1735
     },
     {
       "epoch": 11.6,
-      "grad_norm": 0.002460889518260956,
-      "learning_rate": 0.0001227111111111111,
-      "loss": 0.0006,
+      "grad_norm": 0.003540896577760577,
+      "learning_rate": 4.5333333333333335e-05,
+      "loss": 0.0008,
       "step": 1740
     },
     {
       "epoch": 11.633333333333333,
-      "grad_norm": 0.0023469976149499416,
-      "learning_rate": 0.0001224888888888889,
-      "loss": 0.0005,
+      "grad_norm": 0.003362980904057622,
+      "learning_rate": 4.4888888888888894e-05,
+      "loss": 0.0008,
       "step": 1745
     },
     {
       "epoch": 11.666666666666666,
-      "grad_norm": 0.0024086658377200365,
-      "learning_rate": 0.00012226666666666667,
-      "loss": 0.0006,
+      "grad_norm": 0.0032853398006409407,
+      "learning_rate": 4.4444444444444447e-05,
+      "loss": 0.0008,
       "step": 1750
     },
     {
       "epoch": 11.7,
-      "grad_norm": 0.0024395484942942858,
-      "learning_rate": 0.00012204444444444445,
-      "loss": 0.0006,
+      "grad_norm": 0.003439277410507202,
+      "learning_rate": 4.4000000000000006e-05,
+      "loss": 0.0008,
       "step": 1755
     },
     {
       "epoch": 11.733333333333333,
-      "grad_norm": 0.002321046544238925,
-      "learning_rate": 0.00012182222222222223,
-      "loss": 0.0006,
+      "grad_norm": 0.0033070144709199667,
+      "learning_rate": 4.355555555555556e-05,
+      "loss": 0.0008,
       "step": 1760
     },
     {
       "epoch": 11.766666666666667,
-      "grad_norm": 0.002310672076418996,
-      "learning_rate": 0.0001216,
-      "loss": 0.0005,
+      "grad_norm": 0.0030735114123672247,
+      "learning_rate": 4.311111111111111e-05,
+      "loss": 0.0008,
       "step": 1765
     },
     {
       "epoch": 11.8,
-      "grad_norm": 0.0020629591308534145,
-      "learning_rate": 0.00012137777777777778,
-      "loss": 0.0005,
+      "grad_norm": 0.003919747192412615,
+      "learning_rate": 4.266666666666667e-05,
+      "loss": 0.0008,
       "step": 1770
     },
     {
       "epoch": 11.833333333333334,
-      "grad_norm": 0.0032239488791674376,
-      "learning_rate": 0.00012115555555555555,
-      "loss": 0.0005,
+      "grad_norm": 0.0032140593975782394,
+      "learning_rate": 4.222222222222222e-05,
+      "loss": 0.0008,
       "step": 1775
     },
     {
       "epoch": 11.866666666666667,
-      "grad_norm": 0.0023936324287205935,
-      "learning_rate": 0.00012093333333333334,
-      "loss": 0.0005,
+      "grad_norm": 0.0031508824322372675,
+      "learning_rate": 4.177777777777778e-05,
+      "loss": 0.0008,
       "step": 1780
     },
     {
       "epoch": 11.9,
-      "grad_norm": 0.0020395575556904078,
-      "learning_rate": 0.0001207111111111111,
-      "loss": 0.0005,
+      "grad_norm": 0.0031941488850861788,
+      "learning_rate": 4.133333333333333e-05,
+      "loss": 0.0008,
       "step": 1785
     },
     {
       "epoch": 11.933333333333334,
-      "grad_norm": 0.0023159796837717295,
-      "learning_rate": 0.0001204888888888889,
-      "loss": 0.0005,
+      "grad_norm": 0.003321551252156496,
+      "learning_rate": 4.088888888888889e-05,
+      "loss": 0.0008,
       "step": 1790
     },
     {
       "epoch": 11.966666666666667,
-      "grad_norm": 5.754796028137207,
-      "learning_rate": 0.00012026666666666669,
-      "loss": 0.0097,
+      "grad_norm": 0.0029444897081702948,
+      "learning_rate": 4.0444444444444444e-05,
+      "loss": 0.0008,
       "step": 1795
     },
     {
       "epoch": 12.0,
-      "grad_norm": 7.423747539520264,
-      "learning_rate": 0.00012004444444444445,
-      "loss": 0.0454,
+      "grad_norm": 0.0030205228831619024,
+      "learning_rate": 4e-05,
+      "loss": 0.0008,
       "step": 1800
     },
     {
       "epoch": 12.0,
-      "eval_accuracy": 0.8333333333333334,
-      "eval_f1": 0.8308051577766301,
-      "eval_loss": 1.0214976072311401,
-      "eval_precision": 0.8555957378640983,
-      "eval_recall": 0.8333333333333334,
-      "eval_runtime": 7.8552,
-      "eval_samples_per_second": 152.765,
-      "eval_steps_per_second": 19.096,
+      "eval_accuracy": 0.8766666666666667,
+      "eval_f1": 0.8745572432849914,
+      "eval_loss": 0.8242161273956299,
+      "eval_precision": 0.8800763840018764,
+      "eval_recall": 0.8766666666666667,
+      "eval_runtime": 7.5896,
+      "eval_samples_per_second": 158.111,
+      "eval_steps_per_second": 19.764,
       "step": 1800
     },
     {
       "epoch": 12.033333333333333,
-      "grad_norm": 0.0019737316761165857,
-      "learning_rate": 0.00011982222222222224,
-      "loss": 0.0005,
+      "grad_norm": 0.0028767513576895,
+      "learning_rate": 3.9555555555555556e-05,
+      "loss": 0.0008,
       "step": 1805
     },
     {
       "epoch": 12.066666666666666,
-      "grad_norm": 0.002239396097138524,
-      "learning_rate": 0.00011960000000000001,
-      "loss": 0.0072,
+      "grad_norm": 0.0032115960493683815,
+      "learning_rate": 3.9111111111111115e-05,
+      "loss": 0.0008,
       "step": 1810
     },
     {
       "epoch": 12.1,
-      "grad_norm": 0.0022372803650796413,
-      "learning_rate": 0.00011937777777777779,
-      "loss": 0.0005,
+      "grad_norm": 0.003104663919657469,
+      "learning_rate": 3.866666666666667e-05,
+      "loss": 0.0008,
       "step": 1815
     },
     {
       "epoch": 12.133333333333333,
-      "grad_norm": 0.01663706637918949,
-      "learning_rate": 0.00011915555555555556,
-      "loss": 0.0007,
+      "grad_norm": 0.0028608052525669336,
+      "learning_rate": 3.8222222222222226e-05,
+      "loss": 0.0008,
       "step": 1820
     },
     {
       "epoch": 12.166666666666666,
-      "grad_norm": 0.0021830208133906126,
-      "learning_rate": 0.00011893333333333334,
-      "loss": 0.0033,
+      "grad_norm": 0.00299710757099092,
+      "learning_rate": 3.777777777777778e-05,
+      "loss": 0.0008,
       "step": 1825
     },
     {
       "epoch": 12.2,
-      "grad_norm": 0.0020015044137835503,
-      "learning_rate": 0.00011871111111111111,
-      "loss": 0.0006,
+      "grad_norm": 0.0028382609598338604,
+      "learning_rate": 3.733333333333334e-05,
+      "loss": 0.0008,
       "step": 1830
     },
     {
       "epoch": 12.233333333333333,
-      "grad_norm": 0.0019222969422116876,
-      "learning_rate": 0.0001184888888888889,
-      "loss": 0.0005,
+      "grad_norm": 0.0029125348664820194,
+      "learning_rate": 3.688888888888889e-05,
+      "loss": 0.0007,
       "step": 1835
     },
     {
       "epoch": 12.266666666666667,
-      "grad_norm": 7.572992324829102,
-      "learning_rate": 0.00011826666666666668,
-      "loss": 0.0106,
+      "grad_norm": 0.0030000798869878054,
+      "learning_rate": 3.644444444444445e-05,
+      "loss": 0.0008,
       "step": 1840
     },
     {
       "epoch": 12.3,
-      "grad_norm": 0.0019504709634929895,
-      "learning_rate": 0.00011804444444444445,
-      "loss": 0.0005,
+      "grad_norm": 0.0027698525227606297,
+      "learning_rate": 3.6e-05,
+      "loss": 0.0007,
       "step": 1845
     },
     {
       "epoch": 12.333333333333334,
-      "grad_norm": 0.0029421669896692038,
-      "learning_rate": 0.00011782222222222223,
-      "loss": 0.0133,
+      "grad_norm": 0.0033130201045423746,
+      "learning_rate": 3.555555555555556e-05,
+      "loss": 0.0007,
       "step": 1850
     },
     {
       "epoch": 12.366666666666667,
-      "grad_norm": 0.007627548649907112,
-      "learning_rate": 0.0001176,
-      "loss": 0.0006,
+      "grad_norm": 0.003502271370962262,
+      "learning_rate": 3.511111111111111e-05,
+      "loss": 0.0008,
       "step": 1855
     },
     {
       "epoch": 12.4,
-      "grad_norm": 0.0025462706107646227,
-      "learning_rate": 0.00011737777777777778,
-      "loss": 0.0005,
+      "grad_norm": 0.0028793399687856436,
+      "learning_rate": 3.466666666666667e-05,
+      "loss": 0.0007,
       "step": 1860
     },
     {
       "epoch": 12.433333333333334,
-      "grad_norm": 0.0021458121482282877,
-      "learning_rate": 0.00011715555555555555,
-      "loss": 0.0012,
+      "grad_norm": 0.0031159406062215567,
+      "learning_rate": 3.4222222222222224e-05,
+      "loss": 0.0007,
       "step": 1865
     },
     {
       "epoch": 12.466666666666667,
-      "grad_norm": 0.4670719504356384,
-      "learning_rate": 0.00011693333333333333,
-      "loss": 0.0023,
+      "grad_norm": 0.0028348283376544714,
+      "learning_rate": 3.377777777777778e-05,
+      "loss": 0.0007,
       "step": 1870
     },
     {
       "epoch": 12.5,
-      "grad_norm": 0.007795834913849831,
-      "learning_rate": 0.00011671111111111113,
-      "loss": 0.0517,
+      "grad_norm": 0.003008201951161027,
+      "learning_rate": 3.3333333333333335e-05,
+      "loss": 0.0007,
       "step": 1875
     },
     {
       "epoch": 12.533333333333333,
-      "grad_norm": 0.00614103814586997,
-      "learning_rate": 0.00011648888888888889,
+      "grad_norm": 0.0029034384060651064,
+      "learning_rate": 3.2888888888888894e-05,
       "loss": 0.0007,
       "step": 1880
     },
     {
       "epoch": 12.566666666666666,
-      "grad_norm": 0.024973373860120773,
-      "learning_rate": 0.00011626666666666668,
-      "loss": 0.0011,
+      "grad_norm": 0.0028746542520821095,
+      "learning_rate": 3.2444444444444446e-05,
+      "loss": 0.0007,
       "step": 1885
     },
     {
       "epoch": 12.6,
-      "grad_norm": 0.009679196402430534,
-      "learning_rate": 0.00011604444444444444,
-      "loss": 0.0014,
+      "grad_norm": 0.0028515621088445187,
+      "learning_rate": 3.2000000000000005e-05,
+      "loss": 0.0007,
       "step": 1890
     },
     {
       "epoch": 12.633333333333333,
-      "grad_norm": 0.01440503541380167,
-      "learning_rate": 0.00011582222222222224,
-      "loss": 0.001,
+      "grad_norm": 0.0030289627611637115,
+      "learning_rate": 3.155555555555556e-05,
+      "loss": 0.0007,
       "step": 1895
     },
     {
       "epoch": 12.666666666666666,
-      "grad_norm": 0.006676130928099155,
-      "learning_rate": 0.00011559999999999999,
-      "loss": 0.001,
+      "grad_norm": 0.003367166966199875,
+      "learning_rate": 3.111111111111111e-05,
+      "loss": 0.0007,
       "step": 1900
     },
     {
       "epoch": 12.666666666666666,
-      "eval_accuracy": 0.8441666666666666,
-      "eval_f1": 0.8417129710187414,
-      "eval_loss": 0.7866749167442322,
-      "eval_precision": 0.8444875557153696,
-      "eval_recall": 0.8441666666666666,
-      "eval_runtime": 7.9059,
-      "eval_samples_per_second": 151.786,
-      "eval_steps_per_second": 18.973,
+      "eval_accuracy": 0.8766666666666667,
+      "eval_f1": 0.8745572432849914,
+      "eval_loss": 0.8292433619499207,
+      "eval_precision": 0.8800763840018764,
+      "eval_recall": 0.8766666666666667,
+      "eval_runtime": 7.5769,
+      "eval_samples_per_second": 158.376,
+      "eval_steps_per_second": 19.797,
       "step": 1900
     },
     {
       "epoch": 12.7,
-      "grad_norm": 0.0035950823221355677,
-      "learning_rate": 0.00011537777777777779,
-      "loss": 0.0006,
+      "grad_norm": 0.002713582245633006,
+      "learning_rate": 3.066666666666667e-05,
+      "loss": 0.0007,
       "step": 1905
     },
     {
       "epoch": 12.733333333333333,
-      "grad_norm": 0.004024903289973736,
-      "learning_rate": 0.00011515555555555557,
-      "loss": 0.001,
+      "grad_norm": 0.0027700569480657578,
+      "learning_rate": 3.0222222222222225e-05,
+      "loss": 0.0008,
       "step": 1910
     },
     {
       "epoch": 12.766666666666667,
-      "grad_norm": 0.003058345289900899,
-      "learning_rate": 0.00011493333333333334,
-      "loss": 0.0006,
+      "grad_norm": 0.00297704990953207,
+      "learning_rate": 2.9777777777777777e-05,
+      "loss": 0.0007,
       "step": 1915
     },
     {
       "epoch": 12.8,
-      "grad_norm": 0.0029984479770064354,
-      "learning_rate": 0.00011471111111111112,
-      "loss": 0.0006,
+      "grad_norm": 0.0029857426416128874,
+      "learning_rate": 2.9333333333333336e-05,
+      "loss": 0.0007,
       "step": 1920
     },
     {
       "epoch": 12.833333333333334,
-      "grad_norm": 0.0030639898031949997,
-      "learning_rate": 0.00011448888888888889,
+      "grad_norm": 0.0027900596614927053,
+      "learning_rate": 2.8888888888888888e-05,
       "loss": 0.0007,
       "step": 1925
     },
     {
       "epoch": 12.866666666666667,
-      "grad_norm": 0.003368396544829011,
-      "learning_rate": 0.00011426666666666667,
-      "loss": 0.0006,
+      "grad_norm": 0.003048779908567667,
+      "learning_rate": 2.8444444444444447e-05,
+      "loss": 0.0007,
       "step": 1930
     },
     {
       "epoch": 12.9,
-      "grad_norm": 0.0025872639380395412,
-      "learning_rate": 0.00011404444444444444,
-      "loss": 0.0006,
+      "grad_norm": 0.0031202102545648813,
+      "learning_rate": 2.8000000000000003e-05,
+      "loss": 0.0007,
       "step": 1935
     },
     {
       "epoch": 12.933333333333334,
-      "grad_norm": 0.0025051292032003403,
-      "learning_rate": 0.00011382222222222223,
-      "loss": 0.0005,
+      "grad_norm": 0.00268272846005857,
+      "learning_rate": 2.7555555555555555e-05,
+      "loss": 0.0007,
       "step": 1940
     },
     {
       "epoch": 12.966666666666667,
-      "grad_norm": 0.002036045305430889,
-      "learning_rate": 0.0001136,
-      "loss": 0.0005,
+      "grad_norm": 0.0027973130345344543,
+      "learning_rate": 2.7111111111111114e-05,
+      "loss": 0.0007,
       "step": 1945
     },
     {
       "epoch": 13.0,
-      "grad_norm": 0.0021641154307872057,
-      "learning_rate": 0.00011337777777777778,
-      "loss": 0.0005,
+      "grad_norm": 0.00281904567964375,
+      "learning_rate": 2.6666666666666667e-05,
+      "loss": 0.0007,
       "step": 1950
     },
     {
       "epoch": 13.033333333333333,
-      "grad_norm": 0.0017776010790839791,
-      "learning_rate": 0.00011315555555555558,
-      "loss": 0.0005,
+      "grad_norm": 0.0025725821033120155,
+      "learning_rate": 2.6222222222222226e-05,
+      "loss": 0.0007,
       "step": 1955
     },
     {
       "epoch": 13.066666666666666,
-      "grad_norm": 0.002145707141608,
-      "learning_rate": 0.00011293333333333333,
-      "loss": 0.0005,
+      "grad_norm": 0.003007737686857581,
+      "learning_rate": 2.5777777777777778e-05,
+      "loss": 0.0007,
       "step": 1960
     },
     {
       "epoch": 13.1,
-      "grad_norm": 0.001899806084111333,
-      "learning_rate": 0.00011271111111111113,
-      "loss": 0.0005,
+      "grad_norm": 0.0026384794618934393,
+      "learning_rate": 2.5333333333333337e-05,
+      "loss": 0.0007,
       "step": 1965
     },
     {
       "epoch": 13.133333333333333,
-      "grad_norm": 0.002106861211359501,
-      "learning_rate": 0.00011248888888888888,
-      "loss": 0.0005,
+      "grad_norm": 0.002843267284333706,
+      "learning_rate": 2.488888888888889e-05,
+      "loss": 0.0007,
       "step": 1970
     },
     {
       "epoch": 13.166666666666666,
-      "grad_norm": 0.0021502806339412928,
-      "learning_rate": 0.00011226666666666668,
-      "loss": 0.0005,
+      "grad_norm": 0.0030427430756390095,
+      "learning_rate": 2.4444444444444445e-05,
+      "loss": 0.0007,
       "step": 1975
     },
     {
       "epoch": 13.2,
-      "grad_norm": 0.0017985878512263298,
-      "learning_rate": 0.00011204444444444444,
-      "loss": 0.0005,
+      "grad_norm": 0.0027206474915146828,
+      "learning_rate": 2.4e-05,
+      "loss": 0.0007,
       "step": 1980
     },
     {
       "epoch": 13.233333333333333,
-      "grad_norm": 0.0018234198214486241,
-      "learning_rate": 0.00011182222222222223,
-      "loss": 0.0004,
+      "grad_norm": 0.002785419812425971,
+      "learning_rate": 2.3555555555555556e-05,
+      "loss": 0.0007,
       "step": 1985
     },
     {
       "epoch": 13.266666666666667,
-      "grad_norm": 0.0021863416768610477,
-      "learning_rate": 0.00011160000000000002,
-      "loss": 0.0005,
+      "grad_norm": 0.0032070945017039776,
+      "learning_rate": 2.3111111111111112e-05,
+      "loss": 0.0007,
       "step": 1990
     },
     {
       "epoch": 13.3,
-      "grad_norm": 0.0018739488441497087,
-      "learning_rate": 0.00011137777777777779,
-      "loss": 0.0004,
+      "grad_norm": 0.0028967801481485367,
+      "learning_rate": 2.2666666666666668e-05,
+      "loss": 0.0007,
       "step": 1995
     },
     {
       "epoch": 13.333333333333334,
-      "grad_norm": 0.001990492455661297,
-      "learning_rate": 0.00011115555555555557,
-      "loss": 0.0005,
+      "grad_norm": 0.0029057366773486137,
+      "learning_rate": 2.2222222222222223e-05,
+      "loss": 0.0007,
       "step": 2000
     },
     {
       "epoch": 13.333333333333334,
-      "eval_accuracy": 0.8608333333333333,
-      "eval_f1": 0.8575142229320422,
-      "eval_loss": 0.8047850728034973,
-      "eval_precision": 0.8604968179504658,
-      "eval_recall": 0.8608333333333333,
-      "eval_runtime": 7.9102,
-      "eval_samples_per_second": 151.703,
-      "eval_steps_per_second": 18.963,
+      "eval_accuracy": 0.8775,
+      "eval_f1": 0.8753686440915808,
+      "eval_loss": 0.833524227142334,
+      "eval_precision": 0.8812033882769401,
+      "eval_recall": 0.8775,
+      "eval_runtime": 7.6167,
+      "eval_samples_per_second": 157.548,
+      "eval_steps_per_second": 19.694,
       "step": 2000
     },
     {
       "epoch": 13.366666666666667,
-      "grad_norm": 0.0020206847693771124,
-      "learning_rate": 0.00011093333333333334,
-      "loss": 0.0004,
+      "grad_norm": 0.0029184892773628235,
+      "learning_rate": 2.177777777777778e-05,
+      "loss": 0.0007,
       "step": 2005
     },
     {
       "epoch": 13.4,
-      "grad_norm": 0.0017739871982485056,
-      "learning_rate": 0.00011071111111111112,
-      "loss": 0.0005,
+      "grad_norm": 0.0028447185177356005,
+      "learning_rate": 2.1333333333333335e-05,
+      "loss": 0.0007,
       "step": 2010
     },
     {
       "epoch": 13.433333333333334,
-      "grad_norm": 0.0020320990588515997,
-      "learning_rate": 0.00011048888888888889,
-      "loss": 0.0004,
+      "grad_norm": 0.0029802394565194845,
+      "learning_rate": 2.088888888888889e-05,
+      "loss": 0.0007,
       "step": 2015
     },
     {
       "epoch": 13.466666666666667,
-      "grad_norm": 0.0019749696366488934,
-      "learning_rate": 0.00011026666666666667,
-      "loss": 0.0004,
+      "grad_norm": 0.0031117696780711412,
+      "learning_rate": 2.0444444444444446e-05,
+      "loss": 0.0007,
       "step": 2020
     },
     {
       "epoch": 13.5,
-      "grad_norm": 0.001873982255347073,
-      "learning_rate": 0.00011004444444444444,
-      "loss": 0.0004,
+      "grad_norm": 0.0029459148645401,
+      "learning_rate": 2e-05,
+      "loss": 0.0007,
       "step": 2025
     },
     {
       "epoch": 13.533333333333333,
-      "grad_norm": 0.0020132388453930616,
-      "learning_rate": 0.00010982222222222222,
-      "loss": 0.0005,
+      "grad_norm": 0.0029809309635311365,
+      "learning_rate": 1.9555555555555557e-05,
+      "loss": 0.0007,
       "step": 2030
     },
     {
       "epoch": 13.566666666666666,
-      "grad_norm": 0.001611536368727684,
-      "learning_rate": 0.00010960000000000001,
-      "loss": 0.0004,
+      "grad_norm": 0.002658411394804716,
+      "learning_rate": 1.9111111111111113e-05,
+      "loss": 0.0007,
       "step": 2035
     },
     {
       "epoch": 13.6,
-      "grad_norm": 0.0015985150821506977,
-      "learning_rate": 0.00010937777777777778,
-      "loss": 0.0004,
+      "grad_norm": 0.0025982193183153868,
+      "learning_rate": 1.866666666666667e-05,
+      "loss": 0.0007,
       "step": 2040
     },
     {
       "epoch": 13.633333333333333,
-      "grad_norm": 0.001899239025078714,
-      "learning_rate": 0.00010915555555555556,
-      "loss": 0.0004,
+      "grad_norm": 0.002730267820879817,
+      "learning_rate": 1.8222222222222224e-05,
+      "loss": 0.0007,
       "step": 2045
     },
     {
       "epoch": 13.666666666666666,
-      "grad_norm": 0.002003072528168559,
-      "learning_rate": 0.00010893333333333333,
-      "loss": 0.0004,
+      "grad_norm": 0.0032541982363909483,
+      "learning_rate": 1.777777777777778e-05,
+      "loss": 0.0007,
       "step": 2050
     },
     {
       "epoch": 13.7,
-      "grad_norm": 0.0018008454935625196,
-      "learning_rate": 0.00010871111111111113,
-      "loss": 0.0004,
+      "grad_norm": 0.0028649051673710346,
+      "learning_rate": 1.7333333333333336e-05,
+      "loss": 0.0007,
       "step": 2055
     },
     {
       "epoch": 13.733333333333333,
-      "grad_norm": 0.0016057421453297138,
-      "learning_rate": 0.00010848888888888888,
-      "loss": 0.0004,
+      "grad_norm": 0.0026380924973636866,
+      "learning_rate": 1.688888888888889e-05,
+      "loss": 0.0007,
       "step": 2060
     },
     {
       "epoch": 13.766666666666667,
-      "grad_norm": 0.0016536317998543382,
-      "learning_rate": 0.00010826666666666668,
-      "loss": 0.0004,
+      "grad_norm": 0.0027923444285988808,
+      "learning_rate": 1.6444444444444447e-05,
+      "loss": 0.0007,
       "step": 2065
     },
     {
       "epoch": 13.8,
-      "grad_norm": 0.001716426108032465,
-      "learning_rate": 0.00010804444444444446,
-      "loss": 0.0004,
+      "grad_norm": 0.002918871585279703,
+      "learning_rate": 1.6000000000000003e-05,
+      "loss": 0.0007,
       "step": 2070
     },
     {
       "epoch": 13.833333333333334,
-      "grad_norm": 0.0014774404698982835,
-      "learning_rate": 0.00010782222222222223,
-      "loss": 0.0004,
+      "grad_norm": 0.002514759311452508,
+      "learning_rate": 1.5555555555555555e-05,
+      "loss": 0.0007,
       "step": 2075
     },
     {
       "epoch": 13.866666666666667,
-      "grad_norm": 0.0018070790683850646,
-      "learning_rate": 0.00010760000000000001,
-      "loss": 0.0004,
+      "grad_norm": 0.002968903398141265,
+      "learning_rate": 1.5111111111111112e-05,
+      "loss": 0.0007,
       "step": 2080
     },
     {
       "epoch": 13.9,
-      "grad_norm": 0.001502367202192545,
-      "learning_rate": 0.00010737777777777778,
-      "loss": 0.0004,
+      "grad_norm": 0.0024972143582999706,
+      "learning_rate": 1.4666666666666668e-05,
+      "loss": 0.0007,
       "step": 2085
     },
     {
       "epoch": 13.933333333333334,
-      "grad_norm": 0.0015693887835368514,
-      "learning_rate": 0.00010715555555555557,
-      "loss": 0.0004,
+      "grad_norm": 0.0026495985221117735,
+      "learning_rate": 1.4222222222222224e-05,
+      "loss": 0.0007,
       "step": 2090
     },
     {
       "epoch": 13.966666666666667,
-      "grad_norm": 0.0018341299146413803,
-      "learning_rate": 0.00010693333333333333,
-      "loss": 0.0004,
+      "grad_norm": 0.003030564170330763,
+      "learning_rate": 1.3777777777777778e-05,
+      "loss": 0.0007,
       "step": 2095
     },
     {
       "epoch": 14.0,
-      "grad_norm": 0.0018475907854735851,
-      "learning_rate": 0.00010671111111111112,
-      "loss": 0.0004,
+      "grad_norm": 0.0033899080008268356,
+      "learning_rate": 1.3333333333333333e-05,
+      "loss": 0.0007,
       "step": 2100
     },
     {
       "epoch": 14.0,
-      "eval_accuracy": 0.8616666666666667,
-      "eval_f1": 0.858671916527821,
-      "eval_loss": 0.8119983673095703,
-      "eval_precision": 0.8619123213452891,
-      "eval_recall": 0.8616666666666667,
-      "eval_runtime": 7.9288,
-      "eval_samples_per_second": 151.347,
-      "eval_steps_per_second": 18.918,
+      "eval_accuracy": 0.8775,
+      "eval_f1": 0.8753686440915808,
+      "eval_loss": 0.836257815361023,
+      "eval_precision": 0.8812033882769401,
+      "eval_recall": 0.8775,
+      "eval_runtime": 7.5755,
+      "eval_samples_per_second": 158.406,
+      "eval_steps_per_second": 19.801,
       "step": 2100
     },
     {
       "epoch": 14.033333333333333,
-      "grad_norm": 0.0014578236732631922,
-      "learning_rate": 0.0001064888888888889,
-      "loss": 0.0004,
+      "grad_norm": 0.002527362434193492,
+      "learning_rate": 1.2888888888888889e-05,
+      "loss": 0.0007,
       "step": 2105
     },
     {
       "epoch": 14.066666666666666,
-      "grad_norm": 0.001578164054080844,
-      "learning_rate": 0.00010626666666666667,
-      "loss": 0.0004,
+      "grad_norm": 0.0027900757268071175,
+      "learning_rate": 1.2444444444444445e-05,
+      "loss": 0.0007,
       "step": 2110
     },
     {
       "epoch": 14.1,
-      "grad_norm": 0.0016108972486108541,
-      "learning_rate": 0.00010604444444444445,
-      "loss": 0.0004,
+      "grad_norm": 0.0027693230658769608,
+      "learning_rate": 1.2e-05,
+      "loss": 0.0007,
       "step": 2115
     },
     {
       "epoch": 14.133333333333333,
-      "grad_norm": 0.0014652644749730825,
-      "learning_rate": 0.00010582222222222222,
-      "loss": 0.0004,
+      "grad_norm": 0.00252745533362031,
+      "learning_rate": 1.1555555555555556e-05,
+      "loss": 0.0007,
       "step": 2120
     },
     {
       "epoch": 14.166666666666666,
-      "grad_norm": 0.0014425162225961685,
-      "learning_rate": 0.0001056,
-      "loss": 0.0004,
+      "grad_norm": 0.002723579527810216,
+      "learning_rate": 1.1111111111111112e-05,
+      "loss": 0.0007,
       "step": 2125
     },
     {
       "epoch": 14.2,
-      "grad_norm": 0.0015650968998670578,
-      "learning_rate": 0.00010537777777777777,
-      "loss": 0.0004,
+      "grad_norm": 0.0026474150363355875,
+      "learning_rate": 1.0666666666666667e-05,
+      "loss": 0.0007,
       "step": 2130
     },
     {
       "epoch": 14.233333333333333,
-      "grad_norm": 0.0014311234699562192,
-      "learning_rate": 0.00010515555555555556,
-      "loss": 0.0004,
+      "grad_norm": 0.002608769340440631,
+      "learning_rate": 1.0222222222222223e-05,
+      "loss": 0.0007,
       "step": 2135
     },
     {
       "epoch": 14.266666666666667,
-      "grad_norm": 0.0015936456620693207,
-      "learning_rate": 0.00010493333333333333,
-      "loss": 0.0004,
+      "grad_norm": 0.002754714572802186,
+      "learning_rate": 9.777777777777779e-06,
+      "loss": 0.0007,
       "step": 2140
     },
     {
       "epoch": 14.3,
-      "grad_norm": 0.0015697453636676073,
-      "learning_rate": 0.00010471111111111111,
-      "loss": 0.0004,
+      "grad_norm": 0.0028033293783664703,
+      "learning_rate": 9.333333333333334e-06,
+      "loss": 0.0007,
       "step": 2145
     },
     {
       "epoch": 14.333333333333334,
-      "grad_norm": 0.0014831118751317263,
-      "learning_rate": 0.0001044888888888889,
-      "loss": 0.0004,
+      "grad_norm": 0.002681401325389743,
+      "learning_rate": 8.88888888888889e-06,
+      "loss": 0.0007,
       "step": 2150
     },
     {
       "epoch": 14.366666666666667,
-      "grad_norm": 0.001536577707156539,
-      "learning_rate": 0.00010426666666666666,
-      "loss": 0.0004,
+      "grad_norm": 0.002728566061705351,
+      "learning_rate": 8.444444444444446e-06,
+      "loss": 0.0007,
       "step": 2155
     },
     {
       "epoch": 14.4,
-      "grad_norm": 0.0015027594054117799,
-      "learning_rate": 0.00010404444444444446,
-      "loss": 0.0004,
+      "grad_norm": 0.002718120813369751,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.0007,
       "step": 2160
     },
     {
       "epoch": 14.433333333333334,
-      "grad_norm": 0.0015389182372018695,
-      "learning_rate": 0.00010382222222222221,
-      "loss": 0.0004,
+      "grad_norm": 0.0027934338431805372,
+      "learning_rate": 7.555555555555556e-06,
+      "loss": 0.0007,
       "step": 2165
     },
     {
       "epoch": 14.466666666666667,
-      "grad_norm": 0.0013607657747343183,
-      "learning_rate": 0.00010360000000000001,
-      "loss": 0.0004,
+      "grad_norm": 0.0025224678684026003,
+      "learning_rate": 7.111111111111112e-06,
+      "loss": 0.0007,
       "step": 2170
     },
     {
       "epoch": 14.5,
-      "grad_norm": 0.0016989322612062097,
-      "learning_rate": 0.00010337777777777777,
-      "loss": 0.0004,
+      "grad_norm": 0.0030047371983528137,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 0.0007,
       "step": 2175
     },
     {
       "epoch": 14.533333333333333,
-      "grad_norm": 0.001604003831744194,
-      "learning_rate": 0.00010315555555555556,
-      "loss": 0.0004,
+      "grad_norm": 0.0030654657166451216,
+      "learning_rate": 6.222222222222222e-06,
+      "loss": 0.0007,
       "step": 2180
     },
     {
       "epoch": 14.566666666666666,
-      "grad_norm": 0.0013165045529603958,
-      "learning_rate": 0.00010293333333333335,
-      "loss": 0.0003,
+      "grad_norm": 0.0024761075619608164,
+      "learning_rate": 5.777777777777778e-06,
+      "loss": 0.0007,
       "step": 2185
     },
     {
       "epoch": 14.6,
-      "grad_norm": 0.00148976338095963,
-      "learning_rate": 0.00010271111111111112,
-      "loss": 0.0004,
+      "grad_norm": 0.002738608280196786,
+      "learning_rate": 5.333333333333334e-06,
+      "loss": 0.0007,
       "step": 2190
     },
     {
       "epoch": 14.633333333333333,
-      "grad_norm": 0.0018192626303061843,
-      "learning_rate": 0.0001024888888888889,
-      "loss": 0.0004,
+      "grad_norm": 0.0033268791157752275,
+      "learning_rate": 4.888888888888889e-06,
+      "loss": 0.0007,
       "step": 2195
     },
     {
       "epoch": 14.666666666666666,
-      "grad_norm": 0.0013503467198461294,
-      "learning_rate": 0.00010226666666666667,
-      "loss": 0.0004,
+      "grad_norm": 0.0025487372186034918,
+      "learning_rate": 4.444444444444445e-06,
+      "loss": 0.0007,
       "step": 2200
     },
     {
       "epoch": 14.666666666666666,
-      "eval_accuracy": 0.8625,
-      "eval_f1": 0.8595484446213426,
-      "eval_loss": 0.8207955956459045,
-      "eval_precision": 0.8630453738051779,
-      "eval_recall": 0.8625,
-      "eval_runtime": 7.9873,
-      "eval_samples_per_second": 150.239,
-      "eval_steps_per_second": 18.78,
+      "eval_accuracy": 0.8775,
+      "eval_f1": 0.8753686440915808,
+      "eval_loss": 0.8376461863517761,
+      "eval_precision": 0.8812033882769401,
+      "eval_recall": 0.8775,
+      "eval_runtime": 7.5962,
+      "eval_samples_per_second": 157.974,
+      "eval_steps_per_second": 19.747,
       "step": 2200
     },
     {
       "epoch": 14.7,
-      "grad_norm": 0.001430536969564855,
-      "learning_rate": 0.00010204444444444445,
-      "loss": 0.0004,
+      "grad_norm": 0.0026600814890116453,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.0007,
       "step": 2205
     },
     {
       "epoch": 14.733333333333333,
-      "grad_norm": 0.0013838792219758034,
-      "learning_rate": 0.00010182222222222222,
-      "loss": 0.0004,
+      "grad_norm": 0.0026270700618624687,
+      "learning_rate": 3.555555555555556e-06,
+      "loss": 0.0007,
       "step": 2210
     },
     {
       "epoch": 14.766666666666667,
-      "grad_norm": 0.0013385778293013573,
-      "learning_rate": 0.0001016,
-      "loss": 0.0003,
+      "grad_norm": 0.0025132119189947844,
+      "learning_rate": 3.111111111111111e-06,
+      "loss": 0.0007,
       "step": 2215
     },
     {
       "epoch": 14.8,
-      "grad_norm": 0.001410188153386116,
-      "learning_rate": 0.0001013777777777778,
-      "loss": 0.0004,
+      "grad_norm": 0.0026316579896956682,
+      "learning_rate": 2.666666666666667e-06,
+      "loss": 0.0007,
       "step": 2220
     },
     {
       "epoch": 14.833333333333334,
-      "grad_norm": 0.0015164789510890841,
-      "learning_rate": 0.00010115555555555556,
-      "loss": 0.0003,
+      "grad_norm": 0.0030408664606511593,
+      "learning_rate": 2.2222222222222225e-06,
+      "loss": 0.0007,
       "step": 2225
     },
     {
       "epoch": 14.866666666666667,
-      "grad_norm": 0.0015943381004035473,
-      "learning_rate": 0.00010093333333333335,
-      "loss": 0.0003,
+      "grad_norm": 0.003126599360257387,
+      "learning_rate": 1.777777777777778e-06,
+      "loss": 0.0007,
       "step": 2230
     },
     {
       "epoch": 14.9,
-      "grad_norm": 0.0015674736350774765,
-      "learning_rate": 0.00010071111111111111,
-      "loss": 0.0004,
+      "grad_norm": 0.0028712358325719833,
+      "learning_rate": 1.3333333333333334e-06,
+      "loss": 0.0007,
       "step": 2235
     },
     {
       "epoch": 14.933333333333334,
-      "grad_norm": 0.0013863847125321627,
-      "learning_rate": 0.0001004888888888889,
-      "loss": 0.0003,
+      "grad_norm": 0.002644283464178443,
+      "learning_rate": 8.88888888888889e-07,
+      "loss": 0.0007,
       "step": 2240
     },
     {
       "epoch": 14.966666666666667,
-      "grad_norm": 0.0014308391837403178,
-      "learning_rate": 0.00010026666666666666,
-      "loss": 0.0003,
+      "grad_norm": 0.0027659619227051735,
+      "learning_rate": 4.444444444444445e-07,
+      "loss": 0.0007,
       "step": 2245
     },
     {
       "epoch": 15.0,
-      "grad_norm": 0.0013531516306102276,
-      "learning_rate": 0.00010004444444444446,
-      "loss": 0.0003,
+      "grad_norm": 0.002593148499727249,
+      "learning_rate": 0.0,
+      "loss": 0.0007,
       "step": 2250
     },
     {
-      "epoch": 15.033333333333333,
-      "grad_norm": 0.0013406299985945225,
-      "learning_rate": 9.982222222222223e-05,
-      "loss": 0.0003,
-      "step": 2255
-    },
-    {
-      "epoch": 15.066666666666666,
-      "grad_norm": 0.0013683269498869777,
-      "learning_rate": 9.960000000000001e-05,
-      "loss": 0.0003,
-      "step": 2260
-    },
-    {
-      "epoch": 15.1,
-      "grad_norm": 0.0013268934562802315,
-      "learning_rate": 9.937777777777778e-05,
-      "loss": 0.0003,
-      "step": 2265
-    },
-    {
-      "epoch": 15.133333333333333,
-      "grad_norm": 0.0013896143063902855,
-      "learning_rate": 9.915555555555556e-05,
-      "loss": 0.0003,
-      "step": 2270
-    },
-    {
-      "epoch": 15.166666666666666,
-      "grad_norm": 0.0015487688360735774,
-      "learning_rate": 9.893333333333333e-05,
-      "loss": 0.0003,
-      "step": 2275
-    },
-    {
-      "epoch": 15.2,
-      "grad_norm": 0.0013064892264083028,
-      "learning_rate": 9.871111111111113e-05,
-      "loss": 0.0003,
-      "step": 2280
-    },
-    {
-      "epoch": 15.233333333333333,
-      "grad_norm": 0.0012920789886265993,
-      "learning_rate": 9.84888888888889e-05,
-      "loss": 0.0003,
-      "step": 2285
-    },
-    {
-      "epoch": 15.266666666666667,
-      "grad_norm": 0.0013027184177190065,
-      "learning_rate": 9.826666666666668e-05,
-      "loss": 0.0003,
-      "step": 2290
-    },
-    {
-      "epoch": 15.3,
-      "grad_norm": 0.0012784446589648724,
-      "learning_rate": 9.804444444444445e-05,
-      "loss": 0.0003,
-      "step": 2295
-    },
-    {
-      "epoch": 15.333333333333334,
-      "grad_norm": 0.0014977202517911792,
-      "learning_rate": 9.782222222222223e-05,
-      "loss": 0.0003,
-      "step": 2300
-    },
-    {
-      "epoch": 15.333333333333334,
-      "eval_accuracy": 0.8616666666666667,
-      "eval_f1": 0.8587381656857116,
-      "eval_loss": 0.8303151726722717,
-      "eval_precision": 0.862298520254415,
-      "eval_recall": 0.8616666666666667,
-      "eval_runtime": 8.1776,
-      "eval_samples_per_second": 146.742,
-      "eval_steps_per_second": 18.343,
-      "step": 2300
-    },
-    {
-      "epoch": 15.366666666666667,
-      "grad_norm": 0.0013516979524865746,
-      "learning_rate": 9.76e-05,
-      "loss": 0.0003,
-      "step": 2305
-    },
-    {
-      "epoch": 15.4,
-      "grad_norm": 0.0013222359120845795,
-      "learning_rate": 9.737777777777778e-05,
-      "loss": 0.0003,
-      "step": 2310
-    },
-    {
-      "epoch": 15.433333333333334,
-      "grad_norm": 0.00159635569434613,
-      "learning_rate": 9.715555555555555e-05,
-      "loss": 0.0003,
-      "step": 2315
-    },
-    {
-      "epoch": 15.466666666666667,
-      "grad_norm": 0.0013628490269184113,
-      "learning_rate": 9.693333333333335e-05,
-      "loss": 0.0003,
-      "step": 2320
-    },
-    {
-      "epoch": 15.5,
-      "grad_norm": 0.0012076239800080657,
-      "learning_rate": 9.671111111111112e-05,
-      "loss": 0.0003,
-      "step": 2325
-    },
-    {
-      "epoch": 15.533333333333333,
-      "grad_norm": 0.001445153378881514,
-      "learning_rate": 9.64888888888889e-05,
-      "loss": 0.0003,
-      "step": 2330
-    },
-    {
-      "epoch": 15.566666666666666,
-      "grad_norm": 0.0013349263463169336,
-      "learning_rate": 9.626666666666667e-05,
-      "loss": 0.0003,
-      "step": 2335
-    },
-    {
-      "epoch": 15.6,
-      "grad_norm": 0.0013036979362368584,
-      "learning_rate": 9.604444444444445e-05,
-      "loss": 0.0003,
-      "step": 2340
-    },
-    {
-      "epoch": 15.633333333333333,
-      "grad_norm": 0.0013482412323355675,
-      "learning_rate": 9.582222222222222e-05,
-      "loss": 0.0003,
-      "step": 2345
-    },
-    {
-      "epoch": 15.666666666666666,
-      "grad_norm": 0.001285687554627657,
-      "learning_rate": 9.56e-05,
-      "loss": 0.0003,
-      "step": 2350
-    },
-    {
-      "epoch": 15.7,
-      "grad_norm": 0.001215519499965012,
-      "learning_rate": 9.537777777777778e-05,
-      "loss": 0.0003,
-      "step": 2355
-    },
-    {
-      "epoch": 15.733333333333333,
-      "grad_norm": 0.00133226765319705,
-      "learning_rate": 9.515555555555556e-05,
-      "loss": 0.0003,
-      "step": 2360
-    },
-    {
-      "epoch": 15.766666666666667,
-      "grad_norm": 0.0011812637094408274,
-      "learning_rate": 9.493333333333334e-05,
-      "loss": 0.0003,
-      "step": 2365
-    },
-    {
-      "epoch": 15.8,
-      "grad_norm": 0.0011759515618905425,
-      "learning_rate": 9.471111111111111e-05,
-      "loss": 0.0003,
-      "step": 2370
-    },
-    {
-      "epoch": 15.833333333333334,
-      "grad_norm": 0.0013171056052669883,
-      "learning_rate": 9.44888888888889e-05,
-      "loss": 0.0003,
-      "step": 2375
-    },
-    {
-      "epoch": 15.866666666666667,
-      "grad_norm": 0.001408552867360413,
-      "learning_rate": 9.426666666666666e-05,
-      "loss": 0.0003,
-      "step": 2380
-    },
-    {
-      "epoch": 15.9,
-      "grad_norm": 0.0013496907195076346,
-      "learning_rate": 9.404444444444445e-05,
-      "loss": 0.0003,
-      "step": 2385
-    },
-    {
-      "epoch": 15.933333333333334,
-      "grad_norm": 0.0013458526227623224,
-      "learning_rate": 9.382222222222223e-05,
-      "loss": 0.0003,
-      "step": 2390
-    },
-    {
-      "epoch": 15.966666666666667,
-      "grad_norm": 0.0011418607318773866,
-      "learning_rate": 9.360000000000001e-05,
-      "loss": 0.0003,
-      "step": 2395
-    },
-    {
-      "epoch": 16.0,
-      "grad_norm": 0.0011196016566827893,
-      "learning_rate": 9.337777777777778e-05,
-      "loss": 0.0003,
-      "step": 2400
-    },
-    {
-      "epoch": 16.0,
-      "eval_accuracy": 0.8625,
-      "eval_f1": 0.8595637362935941,
-      "eval_loss": 0.8375459313392639,
-      "eval_precision": 0.8630657769823553,
-      "eval_recall": 0.8625,
-      "eval_runtime": 7.8343,
-      "eval_samples_per_second": 153.173,
-      "eval_steps_per_second": 19.147,
-      "step": 2400
-    },
-    {
-      "epoch": 16.033333333333335,
-      "grad_norm": 0.001260953489691019,
-      "learning_rate": 9.315555555555556e-05,
-      "loss": 0.0003,
-      "step": 2405
-    },
-    {
-      "epoch": 16.066666666666666,
-      "grad_norm": 0.001361685455776751,
-      "learning_rate": 9.293333333333333e-05,
-      "loss": 0.0003,
-      "step": 2410
-    },
-    {
-      "epoch": 16.1,
-      "grad_norm": 0.00115530367475003,
-      "learning_rate": 9.271111111111112e-05,
-      "loss": 0.0003,
-      "step": 2415
-    },
-    {
-      "epoch": 16.133333333333333,
-      "grad_norm": 0.0011989300837740302,
-      "learning_rate": 9.248888888888889e-05,
-      "loss": 0.0003,
-      "step": 2420
-    },
-    {
-      "epoch": 16.166666666666668,
-      "grad_norm": 0.001108896336518228,
-      "learning_rate": 9.226666666666667e-05,
-      "loss": 0.0003,
-      "step": 2425
-    },
-    {
-      "epoch": 16.2,
-      "grad_norm": 0.0012953138211742043,
-      "learning_rate": 9.204444444444444e-05,
-      "loss": 0.0003,
-      "step": 2430
-    },
-    {
-      "epoch": 16.233333333333334,
-      "grad_norm": 0.0012295806081965566,
-      "learning_rate": 9.182222222222223e-05,
-      "loss": 0.0003,
-      "step": 2435
-    },
-    {
-      "epoch": 16.266666666666666,
-      "grad_norm": 0.001139131491072476,
-      "learning_rate": 9.16e-05,
-      "loss": 0.0003,
-      "step": 2440
-    },
-    {
-      "epoch": 16.3,
-      "grad_norm": 0.0011582227889448404,
-      "learning_rate": 9.137777777777779e-05,
-      "loss": 0.0003,
-      "step": 2445
-    },
-    {
-      "epoch": 16.333333333333332,
-      "grad_norm": 0.0011293350253254175,
-      "learning_rate": 9.115555555555556e-05,
-      "loss": 0.0003,
-      "step": 2450
-    },
-    {
-      "epoch": 16.366666666666667,
-      "grad_norm": 0.0012646400136873126,
-      "learning_rate": 9.093333333333334e-05,
-      "loss": 0.0003,
-      "step": 2455
-    },
-    {
-      "epoch": 16.4,
-      "grad_norm": 0.0011603136081248522,
-      "learning_rate": 9.071111111111111e-05,
-      "loss": 0.0003,
-      "step": 2460
-    },
-    {
-      "epoch": 16.433333333333334,
-      "grad_norm": 0.0012541699688881636,
-      "learning_rate": 9.048888888888889e-05,
-      "loss": 0.0003,
-      "step": 2465
-    },
-    {
-      "epoch": 16.466666666666665,
-      "grad_norm": 0.001128224772401154,
-      "learning_rate": 9.026666666666666e-05,
-      "loss": 0.0003,
-      "step": 2470
-    },
-    {
-      "epoch": 16.5,
-      "grad_norm": 0.00110056612174958,
-      "learning_rate": 9.004444444444446e-05,
-      "loss": 0.0003,
-      "step": 2475
-    },
-    {
-      "epoch": 16.533333333333335,
-      "grad_norm": 0.0011303545907139778,
-      "learning_rate": 8.982222222222223e-05,
-      "loss": 0.0003,
-      "step": 2480
-    },
-    {
-      "epoch": 16.566666666666666,
-      "grad_norm": 0.0011401197407394648,
-      "learning_rate": 8.960000000000001e-05,
-      "loss": 0.0003,
-      "step": 2485
-    },
-    {
-      "epoch": 16.6,
-      "grad_norm": 0.0010978764621540904,
-      "learning_rate": 8.937777777777778e-05,
-      "loss": 0.0003,
-      "step": 2490
-    },
-    {
-      "epoch": 16.633333333333333,
-      "grad_norm": 0.001259364653378725,
-      "learning_rate": 8.915555555555556e-05,
-      "loss": 0.0003,
-      "step": 2495
-    },
-    {
-      "epoch": 16.666666666666668,
-      "grad_norm": 0.0010275428649038076,
-      "learning_rate": 8.893333333333333e-05,
-      "loss": 0.0003,
-      "step": 2500
-    },
-    {
-      "epoch": 16.666666666666668,
-      "eval_accuracy": 0.8625,
-      "eval_f1": 0.8595637362935941,
-      "eval_loss": 0.8439390063285828,
-      "eval_precision": 0.8630657769823553,
-      "eval_recall": 0.8625,
-      "eval_runtime": 7.8945,
-      "eval_samples_per_second": 152.004,
-      "eval_steps_per_second": 19.0,
-      "step": 2500
-    },
-    {
-      "epoch": 16.7,
-      "grad_norm": 0.0011707836529240012,
-      "learning_rate": 8.871111111111111e-05,
-      "loss": 0.0003,
-      "step": 2505
-    },
-    {
-      "epoch": 16.733333333333334,
-      "grad_norm": 0.0011262033367529511,
-      "learning_rate": 8.848888888888888e-05,
-      "loss": 0.0003,
-      "step": 2510
-    },
-    {
-      "epoch": 16.766666666666666,
-      "grad_norm": 0.0011401624651625752,
-      "learning_rate": 8.826666666666668e-05,
-      "loss": 0.0003,
-      "step": 2515
-    },
-    {
-      "epoch": 16.8,
-      "grad_norm": 0.0012540457537397742,
-      "learning_rate": 8.804444444444445e-05,
-      "loss": 0.0003,
-      "step": 2520
-    },
-    {
-      "epoch": 16.833333333333332,
-      "grad_norm": 0.0011835991172119975,
-      "learning_rate": 8.782222222222223e-05,
-      "loss": 0.0003,
-      "step": 2525
-    },
-    {
-      "epoch": 16.866666666666667,
-      "grad_norm": 0.0011482896516099572,
-      "learning_rate": 8.76e-05,
-      "loss": 0.0003,
-      "step": 2530
-    },
-    {
-      "epoch": 16.9,
-      "grad_norm": 0.0011490094475448132,
-      "learning_rate": 8.737777777777778e-05,
-      "loss": 0.0003,
-      "step": 2535
-    },
-    {
-      "epoch": 16.933333333333334,
-      "grad_norm": 0.001057293964549899,
-      "learning_rate": 8.715555555555555e-05,
-      "loss": 0.0003,
-      "step": 2540
-    },
-    {
-      "epoch": 16.966666666666665,
-      "grad_norm": 0.001065569231286645,
-      "learning_rate": 8.693333333333334e-05,
-      "loss": 0.0003,
-      "step": 2545
-    },
-    {
-      "epoch": 17.0,
-      "grad_norm": 0.0010954436147585511,
-      "learning_rate": 8.671111111111112e-05,
-      "loss": 0.0003,
-      "step": 2550
-    },
-    {
-      "epoch": 17.033333333333335,
-      "grad_norm": 0.001084050047211349,
-      "learning_rate": 8.64888888888889e-05,
-      "loss": 0.0003,
-      "step": 2555
-    },
-    {
-      "epoch": 17.066666666666666,
-      "grad_norm": 0.0011125549208372831,
-      "learning_rate": 8.626666666666667e-05,
-      "loss": 0.0003,
-      "step": 2560
-    },
-    {
-      "epoch": 17.1,
-      "grad_norm": 0.001121665583923459,
-      "learning_rate": 8.604444444444445e-05,
-      "loss": 0.0003,
-      "step": 2565
-    },
-    {
-      "epoch": 17.133333333333333,
-      "grad_norm": 0.0010623624548316002,
-      "learning_rate": 8.582222222222222e-05,
-      "loss": 0.0003,
-      "step": 2570
-    },
-    {
-      "epoch": 17.166666666666668,
-      "grad_norm": 0.0011434515472501516,
-      "learning_rate": 8.560000000000001e-05,
-      "loss": 0.0003,
-      "step": 2575
-    },
-    {
-      "epoch": 17.2,
-      "grad_norm": 0.0010651950724422932,
-      "learning_rate": 8.537777777777778e-05,
-      "loss": 0.0003,
-      "step": 2580
-    },
-    {
-      "epoch": 17.233333333333334,
-      "grad_norm": 0.0011851274175569415,
-      "learning_rate": 8.515555555555556e-05,
-      "loss": 0.0003,
-      "step": 2585
-    },
-    {
-      "epoch": 17.266666666666666,
-      "grad_norm": 0.0010491220746189356,
-      "learning_rate": 8.493333333333334e-05,
-      "loss": 0.0003,
-      "step": 2590
-    },
-    {
-      "epoch": 17.3,
-      "grad_norm": 0.0010015279985964298,
-      "learning_rate": 8.471111111111113e-05,
-      "loss": 0.0003,
-      "step": 2595
-    },
-    {
-      "epoch": 17.333333333333332,
-      "grad_norm": 0.0010980197694152594,
-      "learning_rate": 8.44888888888889e-05,
-      "loss": 0.0003,
-      "step": 2600
-    },
-    {
-      "epoch": 17.333333333333332,
-      "eval_accuracy": 0.8625,
-      "eval_f1": 0.8595357422116704,
-      "eval_loss": 0.8506022691726685,
-      "eval_precision": 0.8626895369808778,
-      "eval_recall": 0.8625,
-      "eval_runtime": 7.9558,
-      "eval_samples_per_second": 150.833,
-      "eval_steps_per_second": 18.854,
-      "step": 2600
-    },
-    {
-      "epoch": 17.366666666666667,
-      "grad_norm": 0.0011898076627403498,
-      "learning_rate": 8.426666666666668e-05,
-      "loss": 0.0003,
-      "step": 2605
-    },
-    {
-      "epoch": 17.4,
-      "grad_norm": 0.001032515661790967,
-      "learning_rate": 8.404444444444445e-05,
-      "loss": 0.0003,
-      "step": 2610
-    },
-    {
-      "epoch": 17.433333333333334,
-      "grad_norm": 0.0010280907154083252,
-      "learning_rate": 8.382222222222223e-05,
-      "loss": 0.0003,
-      "step": 2615
-    },
-    {
-      "epoch": 17.466666666666665,
-      "grad_norm": 0.0012916233390569687,
-      "learning_rate": 8.36e-05,
-      "loss": 0.0003,
-      "step": 2620
-    },
-    {
-      "epoch": 17.5,
-      "grad_norm": 0.001221377868205309,
-      "learning_rate": 8.337777777777778e-05,
-      "loss": 0.0003,
-      "step": 2625
-    },
-    {
-      "epoch": 17.533333333333335,
-      "grad_norm": 0.0010435410076752305,
-      "learning_rate": 8.315555555555557e-05,
-      "loss": 0.0003,
-      "step": 2630
-    },
-    {
-      "epoch": 17.566666666666666,
-      "grad_norm": 0.001028363243676722,
-      "learning_rate": 8.293333333333333e-05,
-      "loss": 0.0002,
-      "step": 2635
-    },
-    {
-      "epoch": 17.6,
-      "grad_norm": 0.00095149758271873,
-      "learning_rate": 8.271111111111112e-05,
-      "loss": 0.0003,
-      "step": 2640
-    },
-    {
-      "epoch": 17.633333333333333,
-      "grad_norm": 0.0010066466638818383,
-      "learning_rate": 8.248888888888889e-05,
-      "loss": 0.0003,
-      "step": 2645
-    },
-    {
-      "epoch": 17.666666666666668,
-      "grad_norm": 0.0010896141175180674,
-      "learning_rate": 8.226666666666667e-05,
-      "loss": 0.0003,
-      "step": 2650
-    },
-    {
-      "epoch": 17.7,
-      "grad_norm": 0.001096747349947691,
-      "learning_rate": 8.204444444444445e-05,
-      "loss": 0.0003,
-      "step": 2655
-    },
-    {
-      "epoch": 17.733333333333334,
-      "grad_norm": 0.0011521220440045,
-      "learning_rate": 8.182222222222222e-05,
-      "loss": 0.0002,
-      "step": 2660
-    },
-    {
-      "epoch": 17.766666666666666,
-      "grad_norm": 0.000984689686447382,
-      "learning_rate": 8.16e-05,
-      "loss": 0.0002,
-      "step": 2665
-    },
-    {
-      "epoch": 17.8,
-      "grad_norm": 0.0011150836944580078,
-      "learning_rate": 8.137777777777779e-05,
-      "loss": 0.0002,
-      "step": 2670
-    },
-    {
-      "epoch": 17.833333333333332,
-      "grad_norm": 0.00125226192176342,
-      "learning_rate": 8.115555555555556e-05,
-      "loss": 0.0002,
-      "step": 2675
-    },
-    {
-      "epoch": 17.866666666666667,
-      "grad_norm": 0.0010894419392570853,
-      "learning_rate": 8.093333333333334e-05,
-      "loss": 0.0003,
-      "step": 2680
-    },
-    {
-      "epoch": 17.9,
-      "grad_norm": 0.0011066760635003448,
-      "learning_rate": 8.071111111111111e-05,
-      "loss": 0.0002,
-      "step": 2685
-    },
-    {
-      "epoch": 17.933333333333334,
-      "grad_norm": 0.0009800712577998638,
-      "learning_rate": 8.048888888888889e-05,
-      "loss": 0.0002,
-      "step": 2690
-    },
-    {
-      "epoch": 17.966666666666665,
-      "grad_norm": 0.0009165397495962679,
-      "learning_rate": 8.026666666666666e-05,
-      "loss": 0.0002,
-      "step": 2695
-    },
-    {
-      "epoch": 18.0,
-      "grad_norm": 0.0011381577933207154,
-      "learning_rate": 8.004444444444444e-05,
-      "loss": 0.0002,
-      "step": 2700
-    },
-    {
-      "epoch": 18.0,
-      "eval_accuracy": 0.8633333333333333,
-      "eval_f1": 0.860477948685486,
-      "eval_loss": 0.8562703728675842,
-      "eval_precision": 0.8635195879576186,
-      "eval_recall": 0.8633333333333333,
-      "eval_runtime": 7.9587,
-      "eval_samples_per_second": 150.779,
-      "eval_steps_per_second": 18.847,
-      "step": 2700
-    },
-    {
-      "epoch": 18.033333333333335,
-      "grad_norm": 0.000996061135083437,
-      "learning_rate": 7.982222222222223e-05,
-      "loss": 0.0002,
-      "step": 2705
-    },
-    {
-      "epoch": 18.066666666666666,
-      "grad_norm": 0.0009423626470379531,
-      "learning_rate": 7.960000000000001e-05,
-      "loss": 0.0002,
-      "step": 2710
-    },
-    {
-      "epoch": 18.1,
-      "grad_norm": 0.0009808792965486646,
-      "learning_rate": 7.937777777777778e-05,
-      "loss": 0.0002,
-      "step": 2715
-    },
-    {
-      "epoch": 18.133333333333333,
-      "grad_norm": 0.0011566601460799575,
-      "learning_rate": 7.915555555555556e-05,
-      "loss": 0.0002,
-      "step": 2720
-    },
-    {
-      "epoch": 18.166666666666668,
-      "grad_norm": 0.001012039021588862,
-      "learning_rate": 7.893333333333333e-05,
-      "loss": 0.0002,
-      "step": 2725
-    },
-    {
-      "epoch": 18.2,
-      "grad_norm": 0.0010208896128460765,
-      "learning_rate": 7.871111111111111e-05,
-      "loss": 0.0003,
-      "step": 2730
-    },
-    {
-      "epoch": 18.233333333333334,
-      "grad_norm": 0.0009046883205883205,
-      "learning_rate": 7.848888888888888e-05,
-      "loss": 0.0002,
-      "step": 2735
-    },
-    {
-      "epoch": 18.266666666666666,
-      "grad_norm": 0.001025727717205882,
-      "learning_rate": 7.826666666666667e-05,
-      "loss": 0.0002,
-      "step": 2740
-    },
-    {
-      "epoch": 18.3,
-      "grad_norm": 0.0010592486942186952,
-      "learning_rate": 7.804444444444445e-05,
-      "loss": 0.0002,
-      "step": 2745
-    },
-    {
-      "epoch": 18.333333333333332,
-      "grad_norm": 0.0008968521724455059,
-      "learning_rate": 7.782222222222223e-05,
-      "loss": 0.0002,
-      "step": 2750
-    },
-    {
-      "epoch": 18.366666666666667,
-      "grad_norm": 0.0008849632577039301,
-      "learning_rate": 7.76e-05,
-      "loss": 0.0002,
-      "step": 2755
-    },
-    {
-      "epoch": 18.4,
-      "grad_norm": 0.0010558334179222584,
-      "learning_rate": 7.737777777777779e-05,
-      "loss": 0.0002,
-      "step": 2760
-    },
-    {
-      "epoch": 18.433333333333334,
-      "grad_norm": 0.000985563499853015,
-      "learning_rate": 7.715555555555555e-05,
-      "loss": 0.0002,
-      "step": 2765
-    },
-    {
-      "epoch": 18.466666666666665,
-      "grad_norm": 0.0009663936798460782,
-      "learning_rate": 7.693333333333334e-05,
-      "loss": 0.0002,
-      "step": 2770
-    },
-    {
-      "epoch": 18.5,
-      "grad_norm": 0.0010211037006229162,
-      "learning_rate": 7.671111111111111e-05,
-      "loss": 0.0002,
-      "step": 2775
-    },
-    {
-      "epoch": 18.533333333333335,
-      "grad_norm": 0.0010778945870697498,
-      "learning_rate": 7.648888888888889e-05,
-      "loss": 0.0002,
-      "step": 2780
-    },
-    {
-      "epoch": 18.566666666666666,
-      "grad_norm": 0.0008961930871009827,
-      "learning_rate": 7.626666666666667e-05,
-      "loss": 0.0002,
-      "step": 2785
-    },
-    {
-      "epoch": 18.6,
-      "grad_norm": 0.0008892322075553238,
-      "learning_rate": 7.604444444444446e-05,
-      "loss": 0.0002,
-      "step": 2790
-    },
-    {
-      "epoch": 18.633333333333333,
-      "grad_norm": 0.0009909243090078235,
-      "learning_rate": 7.582222222222223e-05,
-      "loss": 0.0002,
-      "step": 2795
-    },
-    {
-      "epoch": 18.666666666666668,
-      "grad_norm": 0.001149793271906674,
-      "learning_rate": 7.560000000000001e-05,
-      "loss": 0.0002,
-      "step": 2800
-    },
-    {
-      "epoch": 18.666666666666668,
-      "eval_accuracy": 0.8633333333333333,
-      "eval_f1": 0.8604980141988011,
-      "eval_loss": 0.8620908856391907,
-      "eval_precision": 0.863577472280856,
-      "eval_recall": 0.8633333333333333,
-      "eval_runtime": 7.9359,
-      "eval_samples_per_second": 151.212,
-      "eval_steps_per_second": 18.902,
-      "step": 2800
-    },
-    {
-      "epoch": 18.7,
-      "grad_norm": 0.0008886746363714337,
-      "learning_rate": 7.537777777777778e-05,
-      "loss": 0.0002,
-      "step": 2805
-    },
-    {
-      "epoch": 18.733333333333334,
-      "grad_norm": 0.0010380060411989689,
-      "learning_rate": 7.515555555555556e-05,
-      "loss": 0.0002,
-      "step": 2810
-    },
-    {
-      "epoch": 18.766666666666666,
-      "grad_norm": 0.0008743625367060304,
-      "learning_rate": 7.493333333333333e-05,
-      "loss": 0.0002,
-      "step": 2815
-    },
-    {
-      "epoch": 18.8,
-      "grad_norm": 0.0009594199946150184,
-      "learning_rate": 7.471111111111111e-05,
-      "loss": 0.0002,
-      "step": 2820
-    },
-    {
-      "epoch": 18.833333333333332,
-      "grad_norm": 0.001046293880790472,
-      "learning_rate": 7.44888888888889e-05,
-      "loss": 0.0002,
-      "step": 2825
-    },
-    {
-      "epoch": 18.866666666666667,
-      "grad_norm": 0.0009818226099014282,
-      "learning_rate": 7.426666666666668e-05,
-      "loss": 0.0002,
-      "step": 2830
-    },
-    {
-      "epoch": 18.9,
-      "grad_norm": 0.0009379011462442577,
-      "learning_rate": 7.404444444444445e-05,
-      "loss": 0.0002,
-      "step": 2835
-    },
-    {
-      "epoch": 18.933333333333334,
-      "grad_norm": 0.0009382064454257488,
-      "learning_rate": 7.382222222222223e-05,
-      "loss": 0.0002,
-      "step": 2840
-    },
-    {
-      "epoch": 18.966666666666665,
-      "grad_norm": 0.0009348876774311066,
-      "learning_rate": 7.36e-05,
-      "loss": 0.0002,
-      "step": 2845
-    },
-    {
-      "epoch": 19.0,
-      "grad_norm": 0.000978232710622251,
-      "learning_rate": 7.337777777777778e-05,
-      "loss": 0.0002,
-      "step": 2850
-    },
-    {
-      "epoch": 19.033333333333335,
-      "grad_norm": 0.0008789849234744906,
-      "learning_rate": 7.315555555555555e-05,
-      "loss": 0.0002,
-      "step": 2855
-    },
-    {
-      "epoch": 19.066666666666666,
-      "grad_norm": 0.00086677708895877,
-      "learning_rate": 7.293333333333334e-05,
-      "loss": 0.0002,
-      "step": 2860
-    },
-    {
-      "epoch": 19.1,
-      "grad_norm": 0.0008651084499433637,
-      "learning_rate": 7.271111111111112e-05,
-      "loss": 0.0002,
-      "step": 2865
-    },
-    {
-      "epoch": 19.133333333333333,
-      "grad_norm": 0.0008810753934085369,
-      "learning_rate": 7.24888888888889e-05,
-      "loss": 0.0002,
-      "step": 2870
-    },
-    {
-      "epoch": 19.166666666666668,
-      "grad_norm": 0.0009830835042521358,
-      "learning_rate": 7.226666666666667e-05,
-      "loss": 0.0002,
-      "step": 2875
-    },
-    {
-      "epoch": 19.2,
-      "grad_norm": 0.0009993386920541525,
-      "learning_rate": 7.204444444444445e-05,
-      "loss": 0.0002,
-      "step": 2880
-    },
-    {
-      "epoch": 19.233333333333334,
-      "grad_norm": 0.0009009952191263437,
-      "learning_rate": 7.182222222222222e-05,
-      "loss": 0.0002,
-      "step": 2885
-    },
-    {
-      "epoch": 19.266666666666666,
-      "grad_norm": 0.0008540042908862233,
-      "learning_rate": 7.16e-05,
-      "loss": 0.0002,
-      "step": 2890
-    },
-    {
-      "epoch": 19.3,
-      "grad_norm": 0.0007995357154868543,
-      "learning_rate": 7.137777777777778e-05,
-      "loss": 0.0002,
-      "step": 2895
-    },
-    {
-      "epoch": 19.333333333333332,
-      "grad_norm": 0.0008923677960410714,
-      "learning_rate": 7.115555555555556e-05,
-      "loss": 0.0002,
-      "step": 2900
-    },
-    {
-      "epoch": 19.333333333333332,
-      "eval_accuracy": 0.8633333333333333,
-      "eval_f1": 0.8604980141988011,
-      "eval_loss": 0.8663456439971924,
-      "eval_precision": 0.863577472280856,
-      "eval_recall": 0.8633333333333333,
-      "eval_runtime": 7.916,
-      "eval_samples_per_second": 151.592,
-      "eval_steps_per_second": 18.949,
-      "step": 2900
-    },
-    {
-      "epoch": 19.366666666666667,
-      "grad_norm": 0.0008749233093112707,
-      "learning_rate": 7.093333333333334e-05,
-      "loss": 0.0002,
-      "step": 2905
-    },
-    {
-      "epoch": 19.4,
-      "grad_norm": 0.0008065833244472742,
-      "learning_rate": 7.071111111111111e-05,
-      "loss": 0.0002,
-      "step": 2910
-    },
-    {
-      "epoch": 19.433333333333334,
-      "grad_norm": 0.0008410558220930398,
-      "learning_rate": 7.048888888888889e-05,
-      "loss": 0.0002,
-      "step": 2915
-    },
-    {
-      "epoch": 19.466666666666665,
-      "grad_norm": 0.0008868688601069152,
-      "learning_rate": 7.026666666666668e-05,
-      "loss": 0.0002,
-      "step": 2920
-    },
-    {
-      "epoch": 19.5,
-      "grad_norm": 0.0009061646996997297,
-      "learning_rate": 7.004444444444445e-05,
-      "loss": 0.0002,
-      "step": 2925
-    },
-    {
-      "epoch": 19.533333333333335,
-      "grad_norm": 0.0009935443522408605,
-      "learning_rate": 6.982222222222223e-05,
-      "loss": 0.0002,
-      "step": 2930
-    },
-    {
-      "epoch": 19.566666666666666,
-      "grad_norm": 0.0008212956599891186,
-      "learning_rate": 6.96e-05,
-      "loss": 0.0002,
-      "step": 2935
-    },
-    {
-      "epoch": 19.6,
-      "grad_norm": 0.0008984676096588373,
-      "learning_rate": 6.937777777777778e-05,
-      "loss": 0.0002,
-      "step": 2940
-    },
-    {
-      "epoch": 19.633333333333333,
-      "grad_norm": 0.0009310848545283079,
-      "learning_rate": 6.915555555555556e-05,
-      "loss": 0.0002,
-      "step": 2945
-    },
-    {
-      "epoch": 19.666666666666668,
-      "grad_norm": 0.0009124356438405812,
-      "learning_rate": 6.893333333333333e-05,
-      "loss": 0.0002,
-      "step": 2950
-    },
-    {
-      "epoch": 19.7,
-      "grad_norm": 0.0008933325880207121,
-      "learning_rate": 6.871111111111112e-05,
-      "loss": 0.0002,
-      "step": 2955
-    },
-    {
-      "epoch": 19.733333333333334,
-      "grad_norm": 0.0007954699103720486,
-      "learning_rate": 6.848888888888889e-05,
-      "loss": 0.0002,
-      "step": 2960
-    },
-    {
-      "epoch": 19.766666666666666,
-      "grad_norm": 0.0008987325127236545,
-      "learning_rate": 6.826666666666667e-05,
-      "loss": 0.0002,
-      "step": 2965
-    },
-    {
-      "epoch": 19.8,
-      "grad_norm": 0.0008154854294843972,
-      "learning_rate": 6.804444444444444e-05,
-      "loss": 0.0002,
-      "step": 2970
-    },
-    {
-      "epoch": 19.833333333333332,
-      "grad_norm": 0.0008684848435223103,
-      "learning_rate": 6.782222222222222e-05,
-      "loss": 0.0002,
-      "step": 2975
-    },
-    {
-      "epoch": 19.866666666666667,
-      "grad_norm": 0.0009166916133835912,
-      "learning_rate": 6.76e-05,
-      "loss": 0.0002,
-      "step": 2980
-    },
-    {
-      "epoch": 19.9,
-      "grad_norm": 0.000933626783080399,
-      "learning_rate": 6.737777777777779e-05,
-      "loss": 0.0002,
-      "step": 2985
-    },
-    {
-      "epoch": 19.933333333333334,
-      "grad_norm": 0.0007773354882374406,
-      "learning_rate": 6.715555555555556e-05,
-      "loss": 0.0002,
-      "step": 2990
-    },
-    {
-      "epoch": 19.966666666666665,
-      "grad_norm": 0.0008270398830063641,
-      "learning_rate": 6.693333333333334e-05,
-      "loss": 0.0002,
-      "step": 2995
-    },
-    {
-      "epoch": 20.0,
-      "grad_norm": 0.0009105781209655106,
-      "learning_rate": 6.671111111111111e-05,
-      "loss": 0.0002,
-      "step": 3000
-    },
-    {
-      "epoch": 20.0,
-      "eval_accuracy": 0.8625,
-      "eval_f1": 0.8596897807193199,
-      "eval_loss": 0.8713950514793396,
-      "eval_precision": 0.862500772675275,
-      "eval_recall": 0.8625,
-      "eval_runtime": 7.8989,
-      "eval_samples_per_second": 151.92,
-      "eval_steps_per_second": 18.99,
-      "step": 3000
-    },
-    {
-      "epoch": 20.033333333333335,
-      "grad_norm": 0.000984189915470779,
-      "learning_rate": 6.648888888888889e-05,
-      "loss": 0.0002,
-      "step": 3005
-    },
-    {
-      "epoch": 20.066666666666666,
-      "grad_norm": 0.0008808307466097176,
-      "learning_rate": 6.626666666666666e-05,
-      "loss": 0.0002,
-      "step": 3010
-    },
-    {
-      "epoch": 20.1,
-      "grad_norm": 0.0008451922913081944,
-      "learning_rate": 6.604444444444444e-05,
-      "loss": 0.0002,
-      "step": 3015
-    },
-    {
-      "epoch": 20.133333333333333,
-      "grad_norm": 0.0009597701136954129,
-      "learning_rate": 6.582222222222223e-05,
-      "loss": 0.0002,
-      "step": 3020
-    },
-    {
-      "epoch": 20.166666666666668,
-      "grad_norm": 0.0009660087525844574,
-      "learning_rate": 6.560000000000001e-05,
-      "loss": 0.0002,
-      "step": 3025
-    },
-    {
-      "epoch": 20.2,
-      "grad_norm": 0.000848349358420819,
-      "learning_rate": 6.537777777777778e-05,
-      "loss": 0.0002,
-      "step": 3030
-    },
-    {
-      "epoch": 20.233333333333334,
-      "grad_norm": 0.0007857161690481007,
-      "learning_rate": 6.515555555555556e-05,
-      "loss": 0.0002,
-      "step": 3035
-    },
-    {
-      "epoch": 20.266666666666666,
-      "grad_norm": 0.000950362125877291,
-      "learning_rate": 6.493333333333333e-05,
-      "loss": 0.0002,
-      "step": 3040
-    },
-    {
-      "epoch": 20.3,
-      "grad_norm": 0.0009196801111102104,
-      "learning_rate": 6.471111111111111e-05,
-      "loss": 0.0002,
-      "step": 3045
-    },
-    {
-      "epoch": 20.333333333333332,
-      "grad_norm": 0.0009003925370052457,
-      "learning_rate": 6.448888888888888e-05,
-      "loss": 0.0002,
-      "step": 3050
-    },
-    {
-      "epoch": 20.366666666666667,
-      "grad_norm": 0.0008277931483462453,
-      "learning_rate": 6.426666666666668e-05,
-      "loss": 0.0002,
-      "step": 3055
-    },
-    {
-      "epoch": 20.4,
-      "grad_norm": 0.0008040508255362511,
-      "learning_rate": 6.404444444444445e-05,
-      "loss": 0.0002,
-      "step": 3060
-    },
-    {
-      "epoch": 20.433333333333334,
-      "grad_norm": 0.0007814280106686056,
-      "learning_rate": 6.382222222222223e-05,
-      "loss": 0.0002,
-      "step": 3065
-    },
-    {
-      "epoch": 20.466666666666665,
-      "grad_norm": 0.0009234723984263837,
-      "learning_rate": 6.36e-05,
-      "loss": 0.0002,
-      "step": 3070
-    },
-    {
-      "epoch": 20.5,
-      "grad_norm": 0.0008993928786367178,
-      "learning_rate": 6.337777777777778e-05,
-      "loss": 0.0002,
-      "step": 3075
-    },
-    {
-      "epoch": 20.533333333333335,
-      "grad_norm": 0.000876908132340759,
-      "learning_rate": 6.315555555555555e-05,
-      "loss": 0.0002,
-      "step": 3080
-    },
-    {
-      "epoch": 20.566666666666666,
-      "grad_norm": 0.000809943419881165,
-      "learning_rate": 6.293333333333334e-05,
-      "loss": 0.0002,
-      "step": 3085
-    },
-    {
-      "epoch": 20.6,
-      "grad_norm": 0.0008519270922988653,
-      "learning_rate": 6.27111111111111e-05,
-      "loss": 0.0002,
-      "step": 3090
-    },
-    {
-      "epoch": 20.633333333333333,
-      "grad_norm": 0.0008937672828324139,
-      "learning_rate": 6.24888888888889e-05,
-      "loss": 0.0002,
-      "step": 3095
-    },
-    {
-      "epoch": 20.666666666666668,
-      "grad_norm": 0.0009987751254811883,
-      "learning_rate": 6.226666666666667e-05,
-      "loss": 0.0002,
-      "step": 3100
-    },
-    {
-      "epoch": 20.666666666666668,
-      "eval_accuracy": 0.8625,
-      "eval_f1": 0.8596897807193199,
-      "eval_loss": 0.8760701417922974,
-      "eval_precision": 0.862500772675275,
-      "eval_recall": 0.8625,
-      "eval_runtime": 7.901,
-      "eval_samples_per_second": 151.88,
-      "eval_steps_per_second": 18.985,
-      "step": 3100
-    },
-    {
-      "epoch": 20.7,
-      "grad_norm": 0.0008791263098828495,
-      "learning_rate": 6.204444444444445e-05,
-      "loss": 0.0002,
-      "step": 3105
-    },
-    {
-      "epoch": 20.733333333333334,
-      "grad_norm": 0.0007920433999970555,
-      "learning_rate": 6.182222222222222e-05,
-      "loss": 0.0002,
-      "step": 3110
-    },
-    {
-      "epoch": 20.766666666666666,
-      "grad_norm": 0.0007527954294346273,
-      "learning_rate": 6.16e-05,
-      "loss": 0.0002,
-      "step": 3115
-    },
-    {
-      "epoch": 20.8,
-      "grad_norm": 0.0009355798829346895,
-      "learning_rate": 6.137777777777778e-05,
-      "loss": 0.0002,
-      "step": 3120
-    },
-    {
-      "epoch": 20.833333333333332,
-      "grad_norm": 0.0008071784395724535,
-      "learning_rate": 6.115555555555556e-05,
-      "loss": 0.0002,
-      "step": 3125
-    },
-    {
-      "epoch": 20.866666666666667,
-      "grad_norm": 0.0008125259773805737,
-      "learning_rate": 6.093333333333333e-05,
-      "loss": 0.0002,
-      "step": 3130
-    },
-    {
-      "epoch": 20.9,
-      "grad_norm": 0.0007680061389692128,
-      "learning_rate": 6.071111111111112e-05,
-      "loss": 0.0002,
-      "step": 3135
-    },
-    {
-      "epoch": 20.933333333333334,
-      "grad_norm": 0.0007739868597127497,
-      "learning_rate": 6.0488888888888894e-05,
-      "loss": 0.0002,
-      "step": 3140
-    },
-    {
-      "epoch": 20.966666666666665,
-      "grad_norm": 0.0007353003602474928,
-      "learning_rate": 6.026666666666667e-05,
-      "loss": 0.0002,
-      "step": 3145
-    },
-    {
-      "epoch": 21.0,
-      "grad_norm": 0.0007767602219246328,
-      "learning_rate": 6.0044444444444446e-05,
-      "loss": 0.0002,
-      "step": 3150
-    },
-    {
-      "epoch": 21.033333333333335,
-      "grad_norm": 0.000820947578176856,
-      "learning_rate": 5.982222222222222e-05,
-      "loss": 0.0002,
-      "step": 3155
-    },
-    {
-      "epoch": 21.066666666666666,
-      "grad_norm": 0.0008728387765586376,
-      "learning_rate": 5.96e-05,
-      "loss": 0.0002,
-      "step": 3160
-    },
-    {
-      "epoch": 21.1,
-      "grad_norm": 0.0008009742014110088,
-      "learning_rate": 5.9377777777777775e-05,
-      "loss": 0.0002,
-      "step": 3165
-    },
-    {
-      "epoch": 21.133333333333333,
-      "grad_norm": 0.0008082141284830868,
-      "learning_rate": 5.915555555555555e-05,
-      "loss": 0.0002,
-      "step": 3170
-    },
-    {
-      "epoch": 21.166666666666668,
-      "grad_norm": 0.0007510983268730342,
-      "learning_rate": 5.893333333333334e-05,
-      "loss": 0.0002,
-      "step": 3175
-    },
-    {
-      "epoch": 21.2,
-      "grad_norm": 0.0007994400802999735,
-      "learning_rate": 5.871111111111112e-05,
-      "loss": 0.0002,
-      "step": 3180
-    },
-    {
-      "epoch": 21.233333333333334,
-      "grad_norm": 0.0007970727165229619,
-      "learning_rate": 5.848888888888889e-05,
-      "loss": 0.0002,
-      "step": 3185
-    },
-    {
-      "epoch": 21.266666666666666,
-      "grad_norm": 0.00077852449612692,
-      "learning_rate": 5.826666666666667e-05,
-      "loss": 0.0002,
-      "step": 3190
-    },
-    {
-      "epoch": 21.3,
-      "grad_norm": 0.0007356248679570854,
-      "learning_rate": 5.8044444444444445e-05,
-      "loss": 0.0002,
-      "step": 3195
-    },
-    {
-      "epoch": 21.333333333333332,
-      "grad_norm": 0.0006932831602171063,
-      "learning_rate": 5.782222222222222e-05,
-      "loss": 0.0002,
-      "step": 3200
-    },
-    {
-      "epoch": 21.333333333333332,
-      "eval_accuracy": 0.8625,
-      "eval_f1": 0.8596897807193199,
-      "eval_loss": 0.8801725506782532,
-      "eval_precision": 0.862500772675275,
-      "eval_recall": 0.8625,
-      "eval_runtime": 7.8163,
-      "eval_samples_per_second": 153.526,
-      "eval_steps_per_second": 19.191,
-      "step": 3200
-    },
-    {
-      "epoch": 21.366666666666667,
-      "grad_norm": 0.0008273008861579001,
-      "learning_rate": 5.76e-05,
-      "loss": 0.0002,
-      "step": 3205
-    },
-    {
-      "epoch": 21.4,
-      "grad_norm": 0.0007540901424363256,
-      "learning_rate": 5.737777777777779e-05,
-      "loss": 0.0002,
-      "step": 3210
-    },
-    {
-      "epoch": 21.433333333333334,
-      "grad_norm": 0.0007189205498434603,
-      "learning_rate": 5.715555555555556e-05,
-      "loss": 0.0002,
-      "step": 3215
-    },
-    {
-      "epoch": 21.466666666666665,
-      "grad_norm": 0.0007282146252691746,
-      "learning_rate": 5.693333333333334e-05,
-      "loss": 0.0002,
-      "step": 3220
-    },
-    {
-      "epoch": 21.5,
-      "grad_norm": 0.0008850519661791623,
-      "learning_rate": 5.6711111111111116e-05,
-      "loss": 0.0002,
-      "step": 3225
-    },
-    {
-      "epoch": 21.533333333333335,
-      "grad_norm": 0.0007877376046963036,
-      "learning_rate": 5.648888888888889e-05,
-      "loss": 0.0002,
-      "step": 3230
-    },
-    {
-      "epoch": 21.566666666666666,
-      "grad_norm": 0.0007972219027578831,
-      "learning_rate": 5.626666666666667e-05,
-      "loss": 0.0002,
-      "step": 3235
-    },
-    {
-      "epoch": 21.6,
-      "grad_norm": 0.0007598233642056584,
-      "learning_rate": 5.6044444444444444e-05,
-      "loss": 0.0002,
-      "step": 3240
-    },
-    {
-      "epoch": 21.633333333333333,
-      "grad_norm": 0.0008666218491271138,
-      "learning_rate": 5.582222222222222e-05,
-      "loss": 0.0002,
-      "step": 3245
-    },
-    {
-      "epoch": 21.666666666666668,
-      "grad_norm": 0.0007320933509618044,
-      "learning_rate": 5.560000000000001e-05,
-      "loss": 0.0002,
-      "step": 3250
-    },
-    {
-      "epoch": 21.7,
-      "grad_norm": 0.0008494326029904187,
-      "learning_rate": 5.5377777777777786e-05,
-      "loss": 0.0002,
-      "step": 3255
-    },
-    {
-      "epoch": 21.733333333333334,
-      "grad_norm": 0.0007553123869001865,
-      "learning_rate": 5.515555555555556e-05,
-      "loss": 0.0002,
-      "step": 3260
-    },
-    {
-      "epoch": 21.766666666666666,
-      "grad_norm": 0.00078456976916641,
-      "learning_rate": 5.493333333333334e-05,
-      "loss": 0.0002,
-      "step": 3265
-    },
-    {
-      "epoch": 21.8,
-      "grad_norm": 0.0007390431128442287,
-      "learning_rate": 5.4711111111111114e-05,
-      "loss": 0.0002,
-      "step": 3270
-    },
-    {
-      "epoch": 21.833333333333332,
-      "grad_norm": 0.0007920018979348242,
-      "learning_rate": 5.448888888888889e-05,
-      "loss": 0.0002,
-      "step": 3275
-    },
-    {
-      "epoch": 21.866666666666667,
-      "grad_norm": 0.0006946244393475354,
-      "learning_rate": 5.4266666666666667e-05,
-      "loss": 0.0002,
-      "step": 3280
-    },
-    {
-      "epoch": 21.9,
-      "grad_norm": 0.0006692199385724962,
-      "learning_rate": 5.404444444444444e-05,
-      "loss": 0.0002,
-      "step": 3285
-    },
-    {
-      "epoch": 21.933333333333334,
-      "grad_norm": 0.0007892646826803684,
-      "learning_rate": 5.382222222222223e-05,
-      "loss": 0.0002,
-      "step": 3290
-    },
-    {
-      "epoch": 21.966666666666665,
-      "grad_norm": 0.0007507664267905056,
-      "learning_rate": 5.360000000000001e-05,
-      "loss": 0.0002,
-      "step": 3295
-    },
-    {
-      "epoch": 22.0,
-      "grad_norm": 0.0007241126149892807,
-      "learning_rate": 5.3377777777777785e-05,
-      "loss": 0.0002,
-      "step": 3300
-    },
-    {
-      "epoch": 22.0,
-      "eval_accuracy": 0.8633333333333333,
-      "eval_f1": 0.8605021617992343,
-      "eval_loss": 0.884079098701477,
-      "eval_precision": 0.8632804903722695,
-      "eval_recall": 0.8633333333333333,
-      "eval_runtime": 7.8284,
-      "eval_samples_per_second": 153.288,
-      "eval_steps_per_second": 19.161,
-      "step": 3300
-    },
-    {
-      "epoch": 22.033333333333335,
-      "grad_norm": 0.0007651003543287516,
-      "learning_rate": 5.315555555555556e-05,
-      "loss": 0.0002,
-      "step": 3305
-    },
-    {
-      "epoch": 22.066666666666666,
-      "grad_norm": 0.000749147788155824,
-      "learning_rate": 5.293333333333334e-05,
-      "loss": 0.0002,
-      "step": 3310
-    },
-    {
-      "epoch": 22.1,
-      "grad_norm": 0.000796561420429498,
-      "learning_rate": 5.271111111111111e-05,
-      "loss": 0.0002,
-      "step": 3315
-    },
-    {
-      "epoch": 22.133333333333333,
-      "grad_norm": 0.0008733553695492446,
-      "learning_rate": 5.248888888888889e-05,
-      "loss": 0.0002,
-      "step": 3320
-    },
-    {
-      "epoch": 22.166666666666668,
-      "grad_norm": 0.0007207304006442428,
-      "learning_rate": 5.2266666666666665e-05,
-      "loss": 0.0002,
-      "step": 3325
-    },
-    {
-      "epoch": 22.2,
-      "grad_norm": 0.0008161132573150098,
-      "learning_rate": 5.204444444444445e-05,
-      "loss": 0.0002,
-      "step": 3330
-    },
-    {
-      "epoch": 22.233333333333334,
-      "grad_norm": 0.0006905693444423378,
-      "learning_rate": 5.1822222222222224e-05,
-      "loss": 0.0002,
-      "step": 3335
-    },
-    {
-      "epoch": 22.266666666666666,
-      "grad_norm": 0.0009119806345552206,
-      "learning_rate": 5.16e-05,
-      "loss": 0.0002,
-      "step": 3340
-    },
-    {
-      "epoch": 22.3,
-      "grad_norm": 0.0007030894048511982,
-      "learning_rate": 5.1377777777777784e-05,
-      "loss": 0.0002,
-      "step": 3345
-    },
-    {
-      "epoch": 22.333333333333332,
-      "grad_norm": 0.0007569286972284317,
-      "learning_rate": 5.115555555555556e-05,
-      "loss": 0.0002,
-      "step": 3350
-    },
-    {
-      "epoch": 22.366666666666667,
-      "grad_norm": 0.0006789417820982635,
-      "learning_rate": 5.0933333333333336e-05,
-      "loss": 0.0002,
-      "step": 3355
-    },
-    {
-      "epoch": 22.4,
-      "grad_norm": 0.0007269697962328792,
-      "learning_rate": 5.071111111111111e-05,
-      "loss": 0.0002,
-      "step": 3360
-    },
-    {
-      "epoch": 22.433333333333334,
-      "grad_norm": 0.000758487032726407,
-      "learning_rate": 5.0488888888888895e-05,
-      "loss": 0.0002,
-      "step": 3365
-    },
-    {
-      "epoch": 22.466666666666665,
-      "grad_norm": 0.0007246753084473312,
-      "learning_rate": 5.026666666666667e-05,
-      "loss": 0.0002,
-      "step": 3370
-    },
-    {
-      "epoch": 22.5,
-      "grad_norm": 0.0007974980399012566,
-      "learning_rate": 5.004444444444445e-05,
-      "loss": 0.0002,
-      "step": 3375
-    },
-    {
-      "epoch": 22.533333333333335,
-      "grad_norm": 0.000730965519323945,
-      "learning_rate": 4.982222222222222e-05,
-      "loss": 0.0002,
-      "step": 3380
-    },
-    {
-      "epoch": 22.566666666666666,
-      "grad_norm": 0.0006799163529649377,
-      "learning_rate": 4.96e-05,
-      "loss": 0.0002,
-      "step": 3385
-    },
-    {
-      "epoch": 22.6,
-      "grad_norm": 0.0007214499055407941,
-      "learning_rate": 4.9377777777777776e-05,
-      "loss": 0.0002,
-      "step": 3390
-    },
-    {
-      "epoch": 22.633333333333333,
-      "grad_norm": 0.0007151850149966776,
-      "learning_rate": 4.915555555555556e-05,
-      "loss": 0.0002,
-      "step": 3395
-    },
-    {
-      "epoch": 22.666666666666668,
-      "grad_norm": 0.0006496990681625903,
-      "learning_rate": 4.8933333333333335e-05,
-      "loss": 0.0002,
-      "step": 3400
-    },
-    {
-      "epoch": 22.666666666666668,
-      "eval_accuracy": 0.8633333333333333,
-      "eval_f1": 0.8605021617992343,
-      "eval_loss": 0.8878868818283081,
-      "eval_precision": 0.8632804903722695,
-      "eval_recall": 0.8633333333333333,
-      "eval_runtime": 7.9554,
-      "eval_samples_per_second": 150.841,
-      "eval_steps_per_second": 18.855,
-      "step": 3400
-    },
-    {
-      "epoch": 22.7,
-      "grad_norm": 0.0007013113936409354,
-      "learning_rate": 4.871111111111111e-05,
-      "loss": 0.0002,
-      "step": 3405
-    },
-    {
-      "epoch": 22.733333333333334,
-      "grad_norm": 0.0006587319658137858,
-      "learning_rate": 4.848888888888889e-05,
-      "loss": 0.0002,
-      "step": 3410
-    },
-    {
-      "epoch": 22.766666666666666,
-      "grad_norm": 0.0007366626523435116,
-      "learning_rate": 4.826666666666667e-05,
-      "loss": 0.0002,
-      "step": 3415
-    },
-    {
-      "epoch": 22.8,
-      "grad_norm": 0.0007071791915223002,
-      "learning_rate": 4.8044444444444446e-05,
-      "loss": 0.0002,
-      "step": 3420
-    },
-    {
-      "epoch": 22.833333333333332,
-      "grad_norm": 0.0007102707168087363,
-      "learning_rate": 4.782222222222222e-05,
-      "loss": 0.0002,
-      "step": 3425
-    },
-    {
-      "epoch": 22.866666666666667,
-      "grad_norm": 0.0007753521203994751,
-      "learning_rate": 4.76e-05,
-      "loss": 0.0002,
-      "step": 3430
-    },
-    {
-      "epoch": 22.9,
-      "grad_norm": 0.0007595521165058017,
-      "learning_rate": 4.737777777777778e-05,
-      "loss": 0.0002,
-      "step": 3435
-    },
-    {
-      "epoch": 22.933333333333334,
-      "grad_norm": 0.0006514331907965243,
-      "learning_rate": 4.715555555555556e-05,
-      "loss": 0.0002,
-      "step": 3440
-    },
-    {
-      "epoch": 22.966666666666665,
-      "grad_norm": 0.0007081793737597764,
-      "learning_rate": 4.6933333333333333e-05,
-      "loss": 0.0002,
-      "step": 3445
-    },
-    {
-      "epoch": 23.0,
-      "grad_norm": 0.0007191445911303163,
-      "learning_rate": 4.671111111111111e-05,
-      "loss": 0.0002,
-      "step": 3450
-    },
-    {
-      "epoch": 23.033333333333335,
-      "grad_norm": 0.0007946040132082999,
-      "learning_rate": 4.648888888888889e-05,
-      "loss": 0.0002,
-      "step": 3455
-    },
-    {
-      "epoch": 23.066666666666666,
-      "grad_norm": 0.0006842566072009504,
-      "learning_rate": 4.626666666666667e-05,
-      "loss": 0.0002,
-      "step": 3460
-    },
-    {
-      "epoch": 23.1,
-      "grad_norm": 0.0006394055089913309,
-      "learning_rate": 4.6044444444444445e-05,
-      "loss": 0.0002,
-      "step": 3465
-    },
-    {
-      "epoch": 23.133333333333333,
-      "grad_norm": 0.0006845356547273695,
-      "learning_rate": 4.582222222222222e-05,
-      "loss": 0.0002,
-      "step": 3470
-    },
-    {
-      "epoch": 23.166666666666668,
-      "grad_norm": 0.0007393827545456588,
-      "learning_rate": 4.5600000000000004e-05,
-      "loss": 0.0002,
-      "step": 3475
-    },
-    {
-      "epoch": 23.2,
-      "grad_norm": 0.0006571225239895284,
-      "learning_rate": 4.537777777777778e-05,
-      "loss": 0.0002,
-      "step": 3480
-    },
-    {
-      "epoch": 23.233333333333334,
-      "grad_norm": 0.0006875869585201144,
-      "learning_rate": 4.5155555555555556e-05,
-      "loss": 0.0002,
-      "step": 3485
-    },
-    {
-      "epoch": 23.266666666666666,
-      "grad_norm": 0.000653399561997503,
-      "learning_rate": 4.493333333333333e-05,
-      "loss": 0.0002,
-      "step": 3490
-    },
-    {
-      "epoch": 23.3,
-      "grad_norm": 0.0007159598171710968,
-      "learning_rate": 4.4711111111111115e-05,
-      "loss": 0.0002,
-      "step": 3495
-    },
-    {
-      "epoch": 23.333333333333332,
-      "grad_norm": 0.0007123721879906952,
-      "learning_rate": 4.448888888888889e-05,
-      "loss": 0.0002,
-      "step": 3500
-    },
-    {
-      "epoch": 23.333333333333332,
-      "eval_accuracy": 0.8633333333333333,
-      "eval_f1": 0.8605021617992343,
-      "eval_loss": 0.891568124294281,
-      "eval_precision": 0.8632804903722695,
-      "eval_recall": 0.8633333333333333,
-      "eval_runtime": 7.8629,
-      "eval_samples_per_second": 152.616,
-      "eval_steps_per_second": 19.077,
-      "step": 3500
-    },
-    {
-      "epoch": 23.366666666666667,
-      "grad_norm": 0.0007095324690453708,
-      "learning_rate": 4.426666666666667e-05,
-      "loss": 0.0002,
-      "step": 3505
-    },
-    {
-      "epoch": 23.4,
-      "grad_norm": 0.0007700832793489099,
-      "learning_rate": 4.404444444444445e-05,
-      "loss": 0.0002,
-      "step": 3510
-    },
-    {
-      "epoch": 23.433333333333334,
-      "grad_norm": 0.0006974077550694346,
-      "learning_rate": 4.3822222222222227e-05,
-      "loss": 0.0002,
-      "step": 3515
-    },
-    {
-      "epoch": 23.466666666666665,
-      "grad_norm": 0.0007333626854233444,
-      "learning_rate": 4.36e-05,
-      "loss": 0.0002,
-      "step": 3520
-    },
-    {
-      "epoch": 23.5,
-      "grad_norm": 0.0006428014603443444,
-      "learning_rate": 4.337777777777778e-05,
-      "loss": 0.0002,
-      "step": 3525
-    },
-    {
-      "epoch": 23.533333333333335,
-      "grad_norm": 0.0007976766792126,
-      "learning_rate": 4.315555555555556e-05,
-      "loss": 0.0002,
-      "step": 3530
-    },
-    {
-      "epoch": 23.566666666666666,
-      "grad_norm": 0.0007544758263975382,
-      "learning_rate": 4.293333333333334e-05,
-      "loss": 0.0002,
-      "step": 3535
-    },
-    {
-      "epoch": 23.6,
-      "grad_norm": 0.00066350371344015,
-      "learning_rate": 4.2711111111111114e-05,
-      "loss": 0.0002,
-      "step": 3540
-    },
-    {
-      "epoch": 23.633333333333333,
-      "grad_norm": 0.0007261767750605941,
-      "learning_rate": 4.248888888888889e-05,
-      "loss": 0.0002,
-      "step": 3545
-    },
-    {
-      "epoch": 23.666666666666668,
-      "grad_norm": 0.00069211091613397,
-      "learning_rate": 4.226666666666667e-05,
-      "loss": 0.0002,
-      "step": 3550
-    },
-    {
-      "epoch": 23.7,
-      "grad_norm": 0.000668493565171957,
-      "learning_rate": 4.204444444444445e-05,
-      "loss": 0.0002,
-      "step": 3555
-    },
-    {
-      "epoch": 23.733333333333334,
-      "grad_norm": 0.000680987723171711,
-      "learning_rate": 4.1822222222222225e-05,
-      "loss": 0.0002,
-      "step": 3560
-    },
-    {
-      "epoch": 23.766666666666666,
-      "grad_norm": 0.0006583565264008939,
-      "learning_rate": 4.16e-05,
-      "loss": 0.0002,
-      "step": 3565
-    },
-    {
-      "epoch": 23.8,
-      "grad_norm": 0.0006131433765403926,
-      "learning_rate": 4.1377777777777784e-05,
-      "loss": 0.0002,
-      "step": 3570
-    },
-    {
-      "epoch": 23.833333333333332,
-      "grad_norm": 0.0006589437834918499,
-      "learning_rate": 4.115555555555556e-05,
-      "loss": 0.0002,
-      "step": 3575
-    },
-    {
-      "epoch": 23.866666666666667,
-      "grad_norm": 0.0006510618259198964,
-      "learning_rate": 4.093333333333334e-05,
-      "loss": 0.0002,
-      "step": 3580
-    },
-    {
-      "epoch": 23.9,
-      "grad_norm": 0.0007487374823540449,
-      "learning_rate": 4.071111111111111e-05,
-      "loss": 0.0002,
-      "step": 3585
-    },
-    {
-      "epoch": 23.933333333333334,
-      "grad_norm": 0.0006950495881028473,
-      "learning_rate": 4.0488888888888896e-05,
-      "loss": 0.0002,
-      "step": 3590
-    },
-    {
-      "epoch": 23.966666666666665,
-      "grad_norm": 0.0006072468240745366,
-      "learning_rate": 4.026666666666667e-05,
-      "loss": 0.0002,
-      "step": 3595
-    },
-    {
-      "epoch": 24.0,
-      "grad_norm": 0.0006155178416520357,
-      "learning_rate": 4.004444444444445e-05,
-      "loss": 0.0002,
-      "step": 3600
-    },
-    {
-      "epoch": 24.0,
-      "eval_accuracy": 0.8633333333333333,
-      "eval_f1": 0.8605021617992343,
-      "eval_loss": 0.8944242596626282,
-      "eval_precision": 0.8632804903722695,
-      "eval_recall": 0.8633333333333333,
-      "eval_runtime": 7.8926,
-      "eval_samples_per_second": 152.041,
-      "eval_steps_per_second": 19.005,
-      "step": 3600
-    },
-    {
-      "epoch": 24.033333333333335,
-      "grad_norm": 0.0007126863347366452,
-      "learning_rate": 3.9822222222222224e-05,
-      "loss": 0.0002,
-      "step": 3605
-    },
-    {
-      "epoch": 24.066666666666666,
-      "grad_norm": 0.0006532373372465372,
-      "learning_rate": 3.960000000000001e-05,
-      "loss": 0.0002,
-      "step": 3610
-    },
-    {
-      "epoch": 24.1,
-      "grad_norm": 0.000744893099181354,
-      "learning_rate": 3.937777777777778e-05,
-      "loss": 0.0002,
-      "step": 3615
-    },
-    {
-      "epoch": 24.133333333333333,
-      "grad_norm": 0.0006589913973584771,
-      "learning_rate": 3.915555555555556e-05,
-      "loss": 0.0002,
-      "step": 3620
-    },
-    {
-      "epoch": 24.166666666666668,
-      "grad_norm": 0.0007009358378127217,
-      "learning_rate": 3.8933333333333336e-05,
-      "loss": 0.0002,
-      "step": 3625
-    },
-    {
-      "epoch": 24.2,
-      "grad_norm": 0.0006654213066212833,
-      "learning_rate": 3.871111111111111e-05,
-      "loss": 0.0002,
-      "step": 3630
-    },
-    {
-      "epoch": 24.233333333333334,
-      "grad_norm": 0.0006739359814673662,
-      "learning_rate": 3.848888888888889e-05,
-      "loss": 0.0002,
-      "step": 3635
-    },
-    {
-      "epoch": 24.266666666666666,
-      "grad_norm": 0.0008093852084130049,
-      "learning_rate": 3.8266666666666664e-05,
-      "loss": 0.0002,
-      "step": 3640
-    },
-    {
-      "epoch": 24.3,
-      "grad_norm": 0.0006594982696697116,
-      "learning_rate": 3.804444444444445e-05,
-      "loss": 0.0002,
-      "step": 3645
-    },
-    {
-      "epoch": 24.333333333333332,
-      "grad_norm": 0.0006488760700449347,
-      "learning_rate": 3.782222222222222e-05,
-      "loss": 0.0002,
-      "step": 3650
-    },
-    {
-      "epoch": 24.366666666666667,
-      "grad_norm": 0.0006130426190793514,
-      "learning_rate": 3.76e-05,
-      "loss": 0.0002,
-      "step": 3655
-    },
-    {
-      "epoch": 24.4,
-      "grad_norm": 0.0006977301090955734,
-      "learning_rate": 3.7377777777777775e-05,
-      "loss": 0.0002,
-      "step": 3660
-    },
-    {
-      "epoch": 24.433333333333334,
-      "grad_norm": 0.0006227208650670946,
-      "learning_rate": 3.715555555555555e-05,
-      "loss": 0.0002,
-      "step": 3665
-    },
-    {
-      "epoch": 24.466666666666665,
-      "grad_norm": 0.0007059330819174647,
-      "learning_rate": 3.6933333333333334e-05,
-      "loss": 0.0002,
-      "step": 3670
-    },
-    {
-      "epoch": 24.5,
-      "grad_norm": 0.0006503947079181671,
-      "learning_rate": 3.671111111111111e-05,
-      "loss": 0.0002,
-      "step": 3675
-    },
-    {
-      "epoch": 24.533333333333335,
-      "grad_norm": 0.0006189235718920827,
-      "learning_rate": 3.648888888888889e-05,
-      "loss": 0.0002,
-      "step": 3680
-    },
-    {
-      "epoch": 24.566666666666666,
-      "grad_norm": 0.0006241785595193505,
-      "learning_rate": 3.626666666666667e-05,
-      "loss": 0.0002,
-      "step": 3685
-    },
-    {
-      "epoch": 24.6,
-      "grad_norm": 0.0006143326754681766,
-      "learning_rate": 3.6044444444444446e-05,
-      "loss": 0.0002,
-      "step": 3690
-    },
-    {
-      "epoch": 24.633333333333333,
-      "grad_norm": 0.000663065817207098,
-      "learning_rate": 3.582222222222222e-05,
-      "loss": 0.0002,
-      "step": 3695
-    },
-    {
-      "epoch": 24.666666666666668,
-      "grad_norm": 0.0006006426992826164,
-      "learning_rate": 3.56e-05,
-      "loss": 0.0002,
-      "step": 3700
-    },
-    {
-      "epoch": 24.666666666666668,
-      "eval_accuracy": 0.8633333333333333,
-      "eval_f1": 0.8605021617992343,
-      "eval_loss": 0.8973260521888733,
-      "eval_precision": 0.8632804903722695,
-      "eval_recall": 0.8633333333333333,
-      "eval_runtime": 7.9334,
-      "eval_samples_per_second": 151.26,
-      "eval_steps_per_second": 18.907,
-      "step": 3700
-    },
-    {
-      "epoch": 24.7,
-      "grad_norm": 0.0005956903914920986,
-      "learning_rate": 3.537777777777778e-05,
-      "loss": 0.0002,
-      "step": 3705
-    },
-    {
-      "epoch": 24.733333333333334,
-      "grad_norm": 0.0006067783106118441,
-      "learning_rate": 3.515555555555556e-05,
-      "loss": 0.0002,
-      "step": 3710
-    },
-    {
-      "epoch": 24.766666666666666,
-      "grad_norm": 0.0006620762287639081,
-      "learning_rate": 3.493333333333333e-05,
-      "loss": 0.0002,
-      "step": 3715
-    },
-    {
-      "epoch": 24.8,
-      "grad_norm": 0.0007022201316431165,
-      "learning_rate": 3.471111111111111e-05,
-      "loss": 0.0002,
-      "step": 3720
-    },
-    {
-      "epoch": 24.833333333333332,
-      "grad_norm": 0.0006121351034380496,
-      "learning_rate": 3.448888888888889e-05,
-      "loss": 0.0002,
-      "step": 3725
-    },
-    {
-      "epoch": 24.866666666666667,
-      "grad_norm": 0.0006323431734926999,
-      "learning_rate": 3.426666666666667e-05,
-      "loss": 0.0002,
-      "step": 3730
-    },
-    {
-      "epoch": 24.9,
-      "grad_norm": 0.0005976050160825253,
-      "learning_rate": 3.4044444444444445e-05,
-      "loss": 0.0002,
-      "step": 3735
-    },
-    {
-      "epoch": 24.933333333333334,
-      "grad_norm": 0.0007663246942684054,
-      "learning_rate": 3.382222222222222e-05,
-      "loss": 0.0002,
-      "step": 3740
-    },
-    {
-      "epoch": 24.966666666666665,
-      "grad_norm": 0.0006977331358939409,
-      "learning_rate": 3.3600000000000004e-05,
-      "loss": 0.0002,
-      "step": 3745
-    },
-    {
-      "epoch": 25.0,
-      "grad_norm": 0.0006171787390485406,
-      "learning_rate": 3.337777777777778e-05,
-      "loss": 0.0002,
-      "step": 3750
-    },
-    {
-      "epoch": 25.033333333333335,
-      "grad_norm": 0.0006884089671075344,
-      "learning_rate": 3.3155555555555556e-05,
-      "loss": 0.0002,
-      "step": 3755
-    },
-    {
-      "epoch": 25.066666666666666,
-      "grad_norm": 0.000630708527751267,
-      "learning_rate": 3.293333333333333e-05,
-      "loss": 0.0002,
-      "step": 3760
-    },
-    {
-      "epoch": 25.1,
-      "grad_norm": 0.0006394999800249934,
-      "learning_rate": 3.2711111111111115e-05,
-      "loss": 0.0002,
-      "step": 3765
-    },
-    {
-      "epoch": 25.133333333333333,
-      "grad_norm": 0.0006307310541160405,
-      "learning_rate": 3.248888888888889e-05,
-      "loss": 0.0002,
-      "step": 3770
-    },
-    {
-      "epoch": 25.166666666666668,
-      "grad_norm": 0.0006023230962455273,
-      "learning_rate": 3.226666666666667e-05,
-      "loss": 0.0002,
-      "step": 3775
-    },
-    {
-      "epoch": 25.2,
-      "grad_norm": 0.0006921821623109281,
-      "learning_rate": 3.204444444444444e-05,
-      "loss": 0.0002,
-      "step": 3780
-    },
-    {
-      "epoch": 25.233333333333334,
-      "grad_norm": 0.0006198607734404504,
-      "learning_rate": 3.1822222222222226e-05,
-      "loss": 0.0001,
-      "step": 3785
-    },
-    {
-      "epoch": 25.266666666666666,
-      "grad_norm": 0.0006035257829353213,
-      "learning_rate": 3.16e-05,
-      "loss": 0.0002,
-      "step": 3790
-    },
-    {
-      "epoch": 25.3,
-      "grad_norm": 0.0007181849214248359,
-      "learning_rate": 3.137777777777778e-05,
-      "loss": 0.0002,
-      "step": 3795
-    },
-    {
-      "epoch": 25.333333333333332,
-      "grad_norm": 0.0005976383108645678,
-      "learning_rate": 3.1155555555555555e-05,
-      "loss": 0.0002,
-      "step": 3800
-    },
-    {
-      "epoch": 25.333333333333332,
-      "eval_accuracy": 0.8633333333333333,
-      "eval_f1": 0.8605021617992343,
-      "eval_loss": 0.8999597430229187,
-      "eval_precision": 0.8632804903722695,
-      "eval_recall": 0.8633333333333333,
-      "eval_runtime": 7.8213,
-      "eval_samples_per_second": 153.428,
-      "eval_steps_per_second": 19.178,
-      "step": 3800
-    },
-    {
-      "epoch": 25.366666666666667,
-      "grad_norm": 0.0006684275576844811,
-      "learning_rate": 3.093333333333334e-05,
-      "loss": 0.0002,
-      "step": 3805
-    },
-    {
-      "epoch": 25.4,
-      "grad_norm": 0.0006418860866688192,
-      "learning_rate": 3.0711111111111114e-05,
-      "loss": 0.0001,
-      "step": 3810
-    },
-    {
-      "epoch": 25.433333333333334,
-      "grad_norm": 0.0006222600350156426,
-      "learning_rate": 3.048888888888889e-05,
-      "loss": 0.0002,
-      "step": 3815
-    },
-    {
-      "epoch": 25.466666666666665,
-      "grad_norm": 0.0006069372175261378,
-      "learning_rate": 3.0266666666666666e-05,
-      "loss": 0.0001,
-      "step": 3820
-    },
-    {
-      "epoch": 25.5,
-      "grad_norm": 0.0006484674522653222,
-      "learning_rate": 3.004444444444445e-05,
-      "loss": 0.0002,
-      "step": 3825
-    },
-    {
-      "epoch": 25.533333333333335,
-      "grad_norm": 0.0006855017854832113,
-      "learning_rate": 2.9822222222222225e-05,
-      "loss": 0.0001,
-      "step": 3830
-    },
-    {
-      "epoch": 25.566666666666666,
-      "grad_norm": 0.0006666798144578934,
-      "learning_rate": 2.96e-05,
-      "loss": 0.0002,
-      "step": 3835
-    },
-    {
-      "epoch": 25.6,
-      "grad_norm": 0.0006047927308827639,
-      "learning_rate": 2.937777777777778e-05,
-      "loss": 0.0001,
-      "step": 3840
-    },
-    {
-      "epoch": 25.633333333333333,
-      "grad_norm": 0.0005890351603738964,
-      "learning_rate": 2.9155555555555557e-05,
-      "loss": 0.0002,
-      "step": 3845
-    },
-    {
-      "epoch": 25.666666666666668,
-      "grad_norm": 0.0006178083713166416,
-      "learning_rate": 2.8933333333333333e-05,
-      "loss": 0.0001,
-      "step": 3850
-    },
-    {
-      "epoch": 25.7,
-      "grad_norm": 0.0006583417998626828,
-      "learning_rate": 2.8711111111111113e-05,
-      "loss": 0.0001,
-      "step": 3855
-    },
-    {
-      "epoch": 25.733333333333334,
-      "grad_norm": 0.0006156592280603945,
-      "learning_rate": 2.8488888888888892e-05,
-      "loss": 0.0001,
-      "step": 3860
-    },
-    {
-      "epoch": 25.766666666666666,
-      "grad_norm": 0.0007018270553089678,
-      "learning_rate": 2.8266666666666668e-05,
-      "loss": 0.0001,
-      "step": 3865
-    },
-    {
-      "epoch": 25.8,
-      "grad_norm": 0.0005858687800355256,
-      "learning_rate": 2.8044444444444444e-05,
-      "loss": 0.0001,
-      "step": 3870
-    },
-    {
-      "epoch": 25.833333333333332,
-      "grad_norm": 0.0006725151324644685,
-      "learning_rate": 2.782222222222222e-05,
-      "loss": 0.0001,
-      "step": 3875
-    },
-    {
-      "epoch": 25.866666666666667,
-      "grad_norm": 0.0006183598306961358,
-      "learning_rate": 2.7600000000000003e-05,
-      "loss": 0.0002,
-      "step": 3880
-    },
-    {
-      "epoch": 25.9,
-      "grad_norm": 0.0005915936781093478,
-      "learning_rate": 2.737777777777778e-05,
-      "loss": 0.0001,
-      "step": 3885
-    },
-    {
-      "epoch": 25.933333333333334,
-      "grad_norm": 0.000612512172665447,
-      "learning_rate": 2.7155555555555556e-05,
-      "loss": 0.0001,
-      "step": 3890
-    },
-    {
-      "epoch": 25.966666666666665,
-      "grad_norm": 0.0005854107439517975,
-      "learning_rate": 2.6933333333333332e-05,
-      "loss": 0.0001,
-      "step": 3895
-    },
-    {
-      "epoch": 26.0,
-      "grad_norm": 0.0006119285244494677,
-      "learning_rate": 2.6711111111111115e-05,
-      "loss": 0.0001,
-      "step": 3900
-    },
-    {
-      "epoch": 26.0,
-      "eval_accuracy": 0.8633333333333333,
-      "eval_f1": 0.8605021617992343,
-      "eval_loss": 0.9023354053497314,
-      "eval_precision": 0.8632804903722695,
-      "eval_recall": 0.8633333333333333,
-      "eval_runtime": 7.8643,
-      "eval_samples_per_second": 152.588,
-      "eval_steps_per_second": 19.074,
-      "step": 3900
-    },
-    {
-      "epoch": 26.033333333333335,
-      "grad_norm": 0.0006005606846883893,
-      "learning_rate": 2.648888888888889e-05,
-      "loss": 0.0001,
-      "step": 3905
-    },
-    {
-      "epoch": 26.066666666666666,
-      "grad_norm": 0.0006631436990574002,
-      "learning_rate": 2.6266666666666667e-05,
-      "loss": 0.0002,
-      "step": 3910
-    },
-    {
-      "epoch": 26.1,
-      "grad_norm": 0.0005597827839665115,
-      "learning_rate": 2.6044444444444443e-05,
-      "loss": 0.0001,
-      "step": 3915
-    },
-    {
-      "epoch": 26.133333333333333,
-      "grad_norm": 0.0006076500285416842,
-      "learning_rate": 2.5822222222222226e-05,
-      "loss": 0.0001,
-      "step": 3920
-    },
-    {
-      "epoch": 26.166666666666668,
-      "grad_norm": 0.0006311857723630965,
-      "learning_rate": 2.5600000000000002e-05,
-      "loss": 0.0001,
-      "step": 3925
-    },
-    {
-      "epoch": 26.2,
-      "grad_norm": 0.0005909130559302866,
-      "learning_rate": 2.537777777777778e-05,
-      "loss": 0.0001,
-      "step": 3930
-    },
-    {
-      "epoch": 26.233333333333334,
-      "grad_norm": 0.0006105731590650976,
-      "learning_rate": 2.5155555555555555e-05,
-      "loss": 0.0001,
-      "step": 3935
-    },
-    {
-      "epoch": 26.266666666666666,
-      "grad_norm": 0.0005873890477232635,
-      "learning_rate": 2.4933333333333334e-05,
-      "loss": 0.0001,
-      "step": 3940
-    },
-    {
-      "epoch": 26.3,
-      "grad_norm": 0.0005405120900832117,
-      "learning_rate": 2.4711111111111114e-05,
-      "loss": 0.0001,
-      "step": 3945
-    },
-    {
-      "epoch": 26.333333333333332,
-      "grad_norm": 0.0006054295809008181,
-      "learning_rate": 2.448888888888889e-05,
-      "loss": 0.0001,
-      "step": 3950
-    },
-    {
-      "epoch": 26.366666666666667,
-      "grad_norm": 0.0006081322790123522,
-      "learning_rate": 2.426666666666667e-05,
-      "loss": 0.0001,
-      "step": 3955
-    },
-    {
-      "epoch": 26.4,
-      "grad_norm": 0.0006977207376621664,
-      "learning_rate": 2.4044444444444445e-05,
-      "loss": 0.0001,
-      "step": 3960
-    },
-    {
-      "epoch": 26.433333333333334,
-      "grad_norm": 0.0006441541481763124,
-      "learning_rate": 2.3822222222222225e-05,
-      "loss": 0.0001,
-      "step": 3965
-    },
-    {
-      "epoch": 26.466666666666665,
-      "grad_norm": 0.0006098180310800672,
-      "learning_rate": 2.36e-05,
-      "loss": 0.0001,
-      "step": 3970
-    },
-    {
-      "epoch": 26.5,
-      "grad_norm": 0.0005784666864201427,
-      "learning_rate": 2.337777777777778e-05,
-      "loss": 0.0001,
-      "step": 3975
-    },
-    {
-      "epoch": 26.533333333333335,
-      "grad_norm": 0.0006206436664797366,
-      "learning_rate": 2.3155555555555557e-05,
-      "loss": 0.0001,
-      "step": 3980
-    },
-    {
-      "epoch": 26.566666666666666,
-      "grad_norm": 0.0006746792932972312,
-      "learning_rate": 2.2933333333333333e-05,
-      "loss": 0.0001,
-      "step": 3985
-    },
-    {
-      "epoch": 26.6,
-      "grad_norm": 0.0005611791857518256,
-      "learning_rate": 2.2711111111111112e-05,
-      "loss": 0.0001,
-      "step": 3990
-    },
-    {
-      "epoch": 26.633333333333333,
-      "grad_norm": 0.0005436721839942038,
-      "learning_rate": 2.248888888888889e-05,
-      "loss": 0.0001,
-      "step": 3995
-    },
-    {
-      "epoch": 26.666666666666668,
-      "grad_norm": 0.0005808582645840943,
-      "learning_rate": 2.2266666666666668e-05,
-      "loss": 0.0001,
-      "step": 4000
-    },
-    {
-      "epoch": 26.666666666666668,
-      "eval_accuracy": 0.8633333333333333,
-      "eval_f1": 0.8605021617992343,
-      "eval_loss": 0.9042079448699951,
-      "eval_precision": 0.8632804903722695,
-      "eval_recall": 0.8633333333333333,
-      "eval_runtime": 7.834,
-      "eval_samples_per_second": 153.179,
-      "eval_steps_per_second": 19.147,
-      "step": 4000
-    },
-    {
-      "epoch": 26.7,
-      "grad_norm": 0.0006307329167611897,
-      "learning_rate": 2.2044444444444444e-05,
-      "loss": 0.0001,
-      "step": 4005
-    },
-    {
-      "epoch": 26.733333333333334,
-      "grad_norm": 0.0006659611244685948,
-      "learning_rate": 2.1822222222222224e-05,
-      "loss": 0.0001,
-      "step": 4010
-    },
-    {
-      "epoch": 26.766666666666666,
-      "grad_norm": 0.0005617436254397035,
-      "learning_rate": 2.16e-05,
-      "loss": 0.0001,
-      "step": 4015
-    },
-    {
-      "epoch": 26.8,
-      "grad_norm": 0.0006252391613088548,
-      "learning_rate": 2.137777777777778e-05,
-      "loss": 0.0001,
-      "step": 4020
-    },
-    {
-      "epoch": 26.833333333333332,
-      "grad_norm": 0.0006216434412635863,
-      "learning_rate": 2.1155555555555556e-05,
-      "loss": 0.0001,
-      "step": 4025
-    },
-    {
-      "epoch": 26.866666666666667,
-      "grad_norm": 0.0006344984285533428,
-      "learning_rate": 2.0933333333333335e-05,
-      "loss": 0.0001,
-      "step": 4030
-    },
-    {
-      "epoch": 26.9,
-      "grad_norm": 0.0005765259265899658,
-      "learning_rate": 2.071111111111111e-05,
-      "loss": 0.0001,
-      "step": 4035
-    },
-    {
-      "epoch": 26.933333333333334,
-      "grad_norm": 0.0006013559177517891,
-      "learning_rate": 2.048888888888889e-05,
-      "loss": 0.0001,
-      "step": 4040
-    },
-    {
-      "epoch": 26.966666666666665,
-      "grad_norm": 0.0005878254887647927,
-      "learning_rate": 2.0266666666666667e-05,
-      "loss": 0.0001,
-      "step": 4045
-    },
-    {
-      "epoch": 27.0,
-      "grad_norm": 0.0006638579070568085,
-      "learning_rate": 2.0044444444444446e-05,
-      "loss": 0.0001,
-      "step": 4050
-    },
-    {
-      "epoch": 27.033333333333335,
-      "grad_norm": 0.0005665569915436208,
-      "learning_rate": 1.9822222222222223e-05,
-      "loss": 0.0001,
-      "step": 4055
-    },
-    {
-      "epoch": 27.066666666666666,
-      "grad_norm": 0.0005756223690696061,
-      "learning_rate": 1.9600000000000002e-05,
-      "loss": 0.0001,
-      "step": 4060
-    },
-    {
-      "epoch": 27.1,
-      "grad_norm": 0.000651739479508251,
-      "learning_rate": 1.9377777777777778e-05,
-      "loss": 0.0001,
-      "step": 4065
-    },
-    {
-      "epoch": 27.133333333333333,
-      "grad_norm": 0.0006534755229949951,
-      "learning_rate": 1.9155555555555558e-05,
-      "loss": 0.0001,
-      "step": 4070
-    },
-    {
-      "epoch": 27.166666666666668,
-      "grad_norm": 0.0005888182786293328,
-      "learning_rate": 1.8933333333333334e-05,
-      "loss": 0.0001,
-      "step": 4075
-    },
-    {
-      "epoch": 27.2,
-      "grad_norm": 0.0005738766631111503,
-      "learning_rate": 1.8711111111111113e-05,
-      "loss": 0.0001,
-      "step": 4080
-    },
-    {
-      "epoch": 27.233333333333334,
-      "grad_norm": 0.0005750305717810988,
-      "learning_rate": 1.848888888888889e-05,
-      "loss": 0.0001,
-      "step": 4085
-    },
-    {
-      "epoch": 27.266666666666666,
-      "grad_norm": 0.0005267930682748556,
-      "learning_rate": 1.826666666666667e-05,
-      "loss": 0.0001,
-      "step": 4090
-    },
-    {
-      "epoch": 27.3,
-      "grad_norm": 0.0005589875509031117,
-      "learning_rate": 1.8044444444444445e-05,
-      "loss": 0.0001,
-      "step": 4095
-    },
-    {
-      "epoch": 27.333333333333332,
-      "grad_norm": 0.0005850264569744468,
-      "learning_rate": 1.7822222222222225e-05,
-      "loss": 0.0001,
-      "step": 4100
-    },
-    {
-      "epoch": 27.333333333333332,
-      "eval_accuracy": 0.8633333333333333,
-      "eval_f1": 0.8605021617992343,
-      "eval_loss": 0.9060449004173279,
-      "eval_precision": 0.8632804903722695,
-      "eval_recall": 0.8633333333333333,
-      "eval_runtime": 7.9156,
-      "eval_samples_per_second": 151.599,
-      "eval_steps_per_second": 18.95,
-      "step": 4100
-    },
-    {
-      "epoch": 27.366666666666667,
-      "grad_norm": 0.0006328452145680785,
-      "learning_rate": 1.76e-05,
-      "loss": 0.0001,
-      "step": 4105
-    },
-    {
-      "epoch": 27.4,
-      "grad_norm": 0.0006553809507749975,
-      "learning_rate": 1.737777777777778e-05,
-      "loss": 0.0001,
-      "step": 4110
-    },
-    {
-      "epoch": 27.433333333333334,
-      "grad_norm": 0.0005636191926896572,
-      "learning_rate": 1.7155555555555557e-05,
-      "loss": 0.0001,
-      "step": 4115
-    },
-    {
-      "epoch": 27.466666666666665,
-      "grad_norm": 0.0006337189115583897,
-      "learning_rate": 1.6933333333333333e-05,
-      "loss": 0.0001,
-      "step": 4120
-    },
-    {
-      "epoch": 27.5,
-      "grad_norm": 0.0005904599674977362,
-      "learning_rate": 1.6711111111111112e-05,
-      "loss": 0.0001,
-      "step": 4125
-    },
-    {
-      "epoch": 27.533333333333335,
-      "grad_norm": 0.0005527642788365483,
-      "learning_rate": 1.648888888888889e-05,
-      "loss": 0.0001,
-      "step": 4130
-    },
-    {
-      "epoch": 27.566666666666666,
-      "grad_norm": 0.0005446110153570771,
-      "learning_rate": 1.6266666666666665e-05,
-      "loss": 0.0001,
-      "step": 4135
-    },
-    {
-      "epoch": 27.6,
-      "grad_norm": 0.0005654716514982283,
-      "learning_rate": 1.6044444444444444e-05,
-      "loss": 0.0001,
-      "step": 4140
-    },
-    {
-      "epoch": 27.633333333333333,
-      "grad_norm": 0.0005464385030791163,
-      "learning_rate": 1.582222222222222e-05,
-      "loss": 0.0001,
-      "step": 4145
-    },
-    {
-      "epoch": 27.666666666666668,
-      "grad_norm": 0.000681799603626132,
-      "learning_rate": 1.56e-05,
-      "loss": 0.0001,
-      "step": 4150
-    },
-    {
-      "epoch": 27.7,
-      "grad_norm": 0.0006190164131112397,
-      "learning_rate": 1.537777777777778e-05,
-      "loss": 0.0001,
-      "step": 4155
-    },
-    {
-      "epoch": 27.733333333333334,
-      "grad_norm": 0.0005908625898882747,
-      "learning_rate": 1.5155555555555555e-05,
-      "loss": 0.0001,
-      "step": 4160
-    },
-    {
-      "epoch": 27.766666666666666,
-      "grad_norm": 0.0006196309113875031,
-      "learning_rate": 1.4933333333333335e-05,
-      "loss": 0.0001,
-      "step": 4165
-    },
-    {
-      "epoch": 27.8,
-      "grad_norm": 0.0007036320748738945,
-      "learning_rate": 1.4711111111111111e-05,
-      "loss": 0.0001,
-      "step": 4170
-    },
-    {
-      "epoch": 27.833333333333332,
-      "grad_norm": 0.0005452426266856492,
-      "learning_rate": 1.448888888888889e-05,
-      "loss": 0.0001,
-      "step": 4175
-    },
-    {
-      "epoch": 27.866666666666667,
-      "grad_norm": 0.0005307687097229064,
-      "learning_rate": 1.4266666666666667e-05,
-      "loss": 0.0001,
-      "step": 4180
-    },
-    {
-      "epoch": 27.9,
-      "grad_norm": 0.0005684642237611115,
-      "learning_rate": 1.4044444444444446e-05,
-      "loss": 0.0001,
-      "step": 4185
-    },
-    {
-      "epoch": 27.933333333333334,
-      "grad_norm": 0.0005942394491285086,
-      "learning_rate": 1.3822222222222222e-05,
-      "loss": 0.0001,
-      "step": 4190
-    },
-    {
-      "epoch": 27.966666666666665,
-      "grad_norm": 0.0006570374825969338,
-      "learning_rate": 1.3600000000000002e-05,
-      "loss": 0.0001,
-      "step": 4195
-    },
-    {
-      "epoch": 28.0,
-      "grad_norm": 0.000580131309106946,
-      "learning_rate": 1.3377777777777778e-05,
-      "loss": 0.0001,
-      "step": 4200
-    },
-    {
-      "epoch": 28.0,
-      "eval_accuracy": 0.8633333333333333,
-      "eval_f1": 0.8605021617992343,
-      "eval_loss": 0.9074180126190186,
-      "eval_precision": 0.8632804903722695,
-      "eval_recall": 0.8633333333333333,
-      "eval_runtime": 7.9679,
-      "eval_samples_per_second": 150.604,
-      "eval_steps_per_second": 18.825,
-      "step": 4200
-    },
-    {
-      "epoch": 28.033333333333335,
-      "grad_norm": 0.0007359784212894738,
-      "learning_rate": 1.3155555555555558e-05,
-      "loss": 0.0001,
-      "step": 4205
-    },
-    {
-      "epoch": 28.066666666666666,
-      "grad_norm": 0.0005893973284401,
-      "learning_rate": 1.2933333333333334e-05,
-      "loss": 0.0001,
-      "step": 4210
-    },
-    {
-      "epoch": 28.1,
-      "grad_norm": 0.0005571352085098624,
-      "learning_rate": 1.2711111111111113e-05,
-      "loss": 0.0001,
-      "step": 4215
-    },
-    {
-      "epoch": 28.133333333333333,
-      "grad_norm": 0.0006346289883367717,
-      "learning_rate": 1.248888888888889e-05,
-      "loss": 0.0001,
-      "step": 4220
-    },
-    {
-      "epoch": 28.166666666666668,
-      "grad_norm": 0.0006128503591753542,
-      "learning_rate": 1.2266666666666667e-05,
-      "loss": 0.0001,
-      "step": 4225
-    },
-    {
-      "epoch": 28.2,
-      "grad_norm": 0.0006426849868148565,
-      "learning_rate": 1.2044444444444445e-05,
-      "loss": 0.0001,
-      "step": 4230
-    },
-    {
-      "epoch": 28.233333333333334,
-      "grad_norm": 0.0005927455495111644,
-      "learning_rate": 1.1822222222222223e-05,
-      "loss": 0.0001,
-      "step": 4235
-    },
-    {
-      "epoch": 28.266666666666666,
-      "grad_norm": 0.0005549676716327667,
-      "learning_rate": 1.16e-05,
-      "loss": 0.0001,
-      "step": 4240
-    },
-    {
-      "epoch": 28.3,
-      "grad_norm": 0.0005637076683342457,
-      "learning_rate": 1.1377777777777779e-05,
-      "loss": 0.0001,
-      "step": 4245
-    },
-    {
-      "epoch": 28.333333333333332,
-      "grad_norm": 0.0005490906187333167,
-      "learning_rate": 1.1155555555555556e-05,
-      "loss": 0.0001,
-      "step": 4250
-    },
-    {
-      "epoch": 28.366666666666667,
-      "grad_norm": 0.0005748500116169453,
-      "learning_rate": 1.0933333333333334e-05,
-      "loss": 0.0001,
-      "step": 4255
-    },
-    {
-      "epoch": 28.4,
-      "grad_norm": 0.0005706730880774558,
-      "learning_rate": 1.0711111111111112e-05,
-      "loss": 0.0001,
-      "step": 4260
-    },
-    {
-      "epoch": 28.433333333333334,
-      "grad_norm": 0.0005561003927141428,
-      "learning_rate": 1.048888888888889e-05,
-      "loss": 0.0001,
-      "step": 4265
-    },
-    {
-      "epoch": 28.466666666666665,
-      "grad_norm": 0.0005550324567593634,
-      "learning_rate": 1.0266666666666668e-05,
-      "loss": 0.0001,
-      "step": 4270
-    },
-    {
-      "epoch": 28.5,
-      "grad_norm": 0.0006557056913152337,
-      "learning_rate": 1.0044444444444446e-05,
-      "loss": 0.0001,
-      "step": 4275
-    },
-    {
-      "epoch": 28.533333333333335,
-      "grad_norm": 0.0005575631512328982,
-      "learning_rate": 9.822222222222223e-06,
-      "loss": 0.0001,
-      "step": 4280
-    },
-    {
-      "epoch": 28.566666666666666,
-      "grad_norm": 0.0005523256259039044,
-      "learning_rate": 9.600000000000001e-06,
-      "loss": 0.0001,
-      "step": 4285
-    },
-    {
-      "epoch": 28.6,
-      "grad_norm": 0.0005699703469872475,
-      "learning_rate": 9.377777777777779e-06,
-      "loss": 0.0001,
-      "step": 4290
-    },
-    {
-      "epoch": 28.633333333333333,
-      "grad_norm": 0.0005492911441251636,
-      "learning_rate": 9.155555555555557e-06,
-      "loss": 0.0001,
-      "step": 4295
-    },
-    {
-      "epoch": 28.666666666666668,
-      "grad_norm": 0.0005434001795947552,
-      "learning_rate": 8.933333333333333e-06,
-      "loss": 0.0001,
-      "step": 4300
-    },
-    {
-      "epoch": 28.666666666666668,
-      "eval_accuracy": 0.8633333333333333,
-      "eval_f1": 0.8605021617992343,
-      "eval_loss": 0.9084760546684265,
-      "eval_precision": 0.8632804903722695,
-      "eval_recall": 0.8633333333333333,
-      "eval_runtime": 7.9776,
-      "eval_samples_per_second": 150.421,
-      "eval_steps_per_second": 18.803,
-      "step": 4300
-    },
-    {
-      "epoch": 28.7,
-      "grad_norm": 0.0006115837604738772,
-      "learning_rate": 8.711111111111111e-06,
-      "loss": 0.0001,
-      "step": 4305
-    },
-    {
-      "epoch": 28.733333333333334,
-      "grad_norm": 0.0006133668357506394,
-      "learning_rate": 8.488888888888889e-06,
-      "loss": 0.0001,
-      "step": 4310
-    },
-    {
-      "epoch": 28.766666666666666,
-      "grad_norm": 0.000638399098534137,
-      "learning_rate": 8.266666666666667e-06,
-      "loss": 0.0001,
-      "step": 4315
-    },
-    {
-      "epoch": 28.8,
-      "grad_norm": 0.0005904845311306417,
-      "learning_rate": 8.044444444444444e-06,
-      "loss": 0.0001,
-      "step": 4320
-    },
-    {
-      "epoch": 28.833333333333332,
-      "grad_norm": 0.0005576728726737201,
-      "learning_rate": 7.822222222222222e-06,
-      "loss": 0.0001,
-      "step": 4325
-    },
-    {
-      "epoch": 28.866666666666667,
-      "grad_norm": 0.0006629147101193666,
-      "learning_rate": 7.6e-06,
-      "loss": 0.0001,
-      "step": 4330
-    },
-    {
-      "epoch": 28.9,
-      "grad_norm": 0.0005160101572982967,
-      "learning_rate": 7.377777777777778e-06,
-      "loss": 0.0001,
-      "step": 4335
-    },
-    {
-      "epoch": 28.933333333333334,
-      "grad_norm": 0.0005642162868753076,
-      "learning_rate": 7.155555555555556e-06,
-      "loss": 0.0001,
-      "step": 4340
-    },
-    {
-      "epoch": 28.966666666666665,
-      "grad_norm": 0.0005391507293097675,
-      "learning_rate": 6.933333333333334e-06,
-      "loss": 0.0001,
-      "step": 4345
-    },
-    {
-      "epoch": 29.0,
-      "grad_norm": 0.0005618631257675588,
-      "learning_rate": 6.711111111111111e-06,
-      "loss": 0.0001,
-      "step": 4350
-    },
-    {
-      "epoch": 29.033333333333335,
-      "grad_norm": 0.0006005455506965518,
-      "learning_rate": 6.488888888888888e-06,
-      "loss": 0.0001,
-      "step": 4355
-    },
-    {
-      "epoch": 29.066666666666666,
-      "grad_norm": 0.0006074474658817053,
-      "learning_rate": 6.266666666666666e-06,
-      "loss": 0.0001,
-      "step": 4360
-    },
-    {
-      "epoch": 29.1,
-      "grad_norm": 0.0005550173809751868,
-      "learning_rate": 6.044444444444445e-06,
-      "loss": 0.0001,
-      "step": 4365
-    },
-    {
-      "epoch": 29.133333333333333,
-      "grad_norm": 0.0006107062799856067,
-      "learning_rate": 5.822222222222223e-06,
-      "loss": 0.0001,
-      "step": 4370
-    },
-    {
-      "epoch": 29.166666666666668,
-      "grad_norm": 0.000552743615116924,
-      "learning_rate": 5.600000000000001e-06,
-      "loss": 0.0001,
-      "step": 4375
-    },
-    {
-      "epoch": 29.2,
-      "grad_norm": 0.0005396022461354733,
-      "learning_rate": 5.3777777777777784e-06,
-      "loss": 0.0001,
-      "step": 4380
-    },
-    {
-      "epoch": 29.233333333333334,
-      "grad_norm": 0.0005668587400577962,
-      "learning_rate": 5.155555555555555e-06,
-      "loss": 0.0001,
-      "step": 4385
-    },
-    {
-      "epoch": 29.266666666666666,
-      "grad_norm": 0.0006624856614507735,
-      "learning_rate": 4.933333333333333e-06,
-      "loss": 0.0001,
-      "step": 4390
-    },
-    {
-      "epoch": 29.3,
-      "grad_norm": 0.0006284189294092357,
-      "learning_rate": 4.711111111111111e-06,
-      "loss": 0.0001,
-      "step": 4395
-    },
-    {
-      "epoch": 29.333333333333332,
-      "grad_norm": 0.000611928931903094,
-      "learning_rate": 4.488888888888889e-06,
-      "loss": 0.0001,
-      "step": 4400
-    },
-    {
-      "epoch": 29.333333333333332,
-      "eval_accuracy": 0.8633333333333333,
-      "eval_f1": 0.8605021617992343,
-      "eval_loss": 0.9091123342514038,
-      "eval_precision": 0.8632804903722695,
-      "eval_recall": 0.8633333333333333,
-      "eval_runtime": 7.9413,
-      "eval_samples_per_second": 151.11,
-      "eval_steps_per_second": 18.889,
-      "step": 4400
-    },
-    {
-      "epoch": 29.366666666666667,
-      "grad_norm": 0.0006126256776042283,
-      "learning_rate": 4.266666666666667e-06,
-      "loss": 0.0001,
-      "step": 4405
-    },
-    {
-      "epoch": 29.4,
-      "grad_norm": 0.0005744004738517106,
-      "learning_rate": 4.044444444444445e-06,
-      "loss": 0.0001,
-      "step": 4410
-    },
-    {
-      "epoch": 29.433333333333334,
-      "grad_norm": 0.000547837873455137,
-      "learning_rate": 3.8222222222222224e-06,
-      "loss": 0.0001,
-      "step": 4415
-    },
-    {
-      "epoch": 29.466666666666665,
-      "grad_norm": 0.000609434733632952,
-      "learning_rate": 3.6e-06,
-      "loss": 0.0001,
-      "step": 4420
-    },
-    {
-      "epoch": 29.5,
-      "grad_norm": 0.0005913516506552696,
-      "learning_rate": 3.3777777777777777e-06,
-      "loss": 0.0001,
-      "step": 4425
-    },
-    {
-      "epoch": 29.533333333333335,
-      "grad_norm": 0.0005573354428634048,
-      "learning_rate": 3.155555555555556e-06,
-      "loss": 0.0001,
-      "step": 4430
-    },
-    {
-      "epoch": 29.566666666666666,
-      "grad_norm": 0.0005525725428014994,
-      "learning_rate": 2.9333333333333333e-06,
-      "loss": 0.0001,
-      "step": 4435
-    },
-    {
-      "epoch": 29.6,
-      "grad_norm": 0.0006254903855733573,
-      "learning_rate": 2.711111111111111e-06,
-      "loss": 0.0001,
-      "step": 4440
-    },
-    {
-      "epoch": 29.633333333333333,
-      "grad_norm": 0.0006096638971939683,
-      "learning_rate": 2.488888888888889e-06,
-      "loss": 0.0001,
-      "step": 4445
-    },
-    {
-      "epoch": 29.666666666666668,
-      "grad_norm": 0.000580392312258482,
-      "learning_rate": 2.266666666666667e-06,
-      "loss": 0.0001,
-      "step": 4450
-    },
-    {
-      "epoch": 29.7,
-      "grad_norm": 0.0005696416483260691,
-      "learning_rate": 2.0444444444444447e-06,
-      "loss": 0.0001,
-      "step": 4455
-    },
-    {
-      "epoch": 29.733333333333334,
-      "grad_norm": 0.0006397234974429011,
-      "learning_rate": 1.8222222222222223e-06,
-      "loss": 0.0001,
-      "step": 4460
-    },
-    {
-      "epoch": 29.766666666666666,
-      "grad_norm": 0.0006035005208104849,
-      "learning_rate": 1.6000000000000001e-06,
-      "loss": 0.0001,
-      "step": 4465
-    },
-    {
-      "epoch": 29.8,
-      "grad_norm": 0.0006013059755787253,
-      "learning_rate": 1.3777777777777778e-06,
-      "loss": 0.0001,
-      "step": 4470
-    },
-    {
-      "epoch": 29.833333333333332,
-      "grad_norm": 0.000762494804803282,
-      "learning_rate": 1.1555555555555556e-06,
-      "loss": 0.0001,
-      "step": 4475
-    },
-    {
-      "epoch": 29.866666666666667,
-      "grad_norm": 0.0005435398197732866,
-      "learning_rate": 9.333333333333334e-07,
-      "loss": 0.0001,
-      "step": 4480
-    },
-    {
-      "epoch": 29.9,
-      "grad_norm": 0.0006225515971891582,
-      "learning_rate": 7.111111111111112e-07,
-      "loss": 0.0001,
-      "step": 4485
-    },
-    {
-      "epoch": 29.933333333333334,
-      "grad_norm": 0.0005317104514688253,
-      "learning_rate": 4.888888888888889e-07,
-      "loss": 0.0001,
-      "step": 4490
-    },
-    {
-      "epoch": 29.966666666666665,
-      "grad_norm": 0.0006185764796100557,
-      "learning_rate": 2.6666666666666667e-07,
-      "loss": 0.0001,
-      "step": 4495
-    },
-    {
-      "epoch": 30.0,
-      "grad_norm": 0.0005406280979514122,
-      "learning_rate": 4.444444444444445e-08,
-      "loss": 0.0001,
-      "step": 4500
-    },
-    {
-      "epoch": 30.0,
-      "eval_accuracy": 0.8633333333333333,
-      "eval_f1": 0.8605021617992343,
-      "eval_loss": 0.9093770384788513,
-      "eval_precision": 0.8632804903722695,
-      "eval_recall": 0.8633333333333333,
-      "eval_runtime": 8.139,
-      "eval_samples_per_second": 147.438,
-      "eval_steps_per_second": 18.43,
-      "step": 4500
-    },
-    {
-      "epoch": 30.0,
-      "step": 4500,
-      "total_flos": 1.115924655734784e+19,
-      "train_loss": 0.02178489219976796,
-      "train_runtime": 1698.0764,
-      "train_samples_per_second": 84.802,
-      "train_steps_per_second": 2.65
+      "epoch": 15.0,
+      "step": 2250,
+      "total_flos": 5.57962327867392e+18,
+      "train_loss": 0.040586712151765826,
+      "train_runtime": 790.5824,
+      "train_samples_per_second": 91.072,
+      "train_steps_per_second": 2.846
     }
   ],
   "logging_steps": 5,
-  "max_steps": 4500,
+  "max_steps": 2250,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 30,
+  "num_train_epochs": 15,
   "save_steps": 100,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -6875,7 +3449,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.115924655734784e+19,
+  "total_flos": 5.57962327867392e+18,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null