diff --git "a/trainer_state.json" "b/trainer_state.json" --- "a/trainer_state.json" +++ "b/trainer_state.json" @@ -1,6867 +1,3441 @@ { - "best_metric": 0.5368140339851379, - "best_model_checkpoint": "vit-base-kidney-stone-Jonathan_El-Beze_-w256_1k_v1-_SUR\\checkpoint-100", - "epoch": 30.0, + "best_metric": 0.49464890360832214, + "best_model_checkpoint": "vit-base-kidney-stone-Jonathan_El-Beze_-w256_1k_v1-_SUR\\checkpoint-900", + "epoch": 15.0, "eval_steps": 100, - "global_step": 4500, + "global_step": 2250, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.03333333333333333, - "grad_norm": 1.7208584547042847, - "learning_rate": 0.0001997777777777778, - "loss": 1.6296, + "grad_norm": 1.9359750747680664, + "learning_rate": 0.00019955555555555558, + "loss": 1.6179, "step": 5 }, { "epoch": 0.06666666666666667, - "grad_norm": 2.315169334411621, - "learning_rate": 0.00019955555555555558, - "loss": 1.3114, + "grad_norm": 2.416998863220215, + "learning_rate": 0.00019911111111111111, + "loss": 1.3252, "step": 10 }, { "epoch": 0.1, - "grad_norm": 3.4150373935699463, - "learning_rate": 0.00019933333333333334, - "loss": 0.9721, + "grad_norm": 2.262335777282715, + "learning_rate": 0.00019866666666666668, + "loss": 1.0276, "step": 15 }, { "epoch": 0.13333333333333333, - "grad_norm": 1.7336223125457764, - "learning_rate": 0.00019911111111111111, - "loss": 0.7966, + "grad_norm": 1.253843069076538, + "learning_rate": 0.00019822222222222225, + "loss": 0.852, "step": 20 }, { "epoch": 0.16666666666666666, - "grad_norm": 1.9338726997375488, - "learning_rate": 0.0001988888888888889, - "loss": 0.662, + "grad_norm": 1.2912774085998535, + "learning_rate": 0.00019777777777777778, + "loss": 0.7146, "step": 25 }, { "epoch": 0.2, - "grad_norm": 0.9051132202148438, - "learning_rate": 0.00019866666666666668, - "loss": 0.5017, + "grad_norm": 2.379365921020508, + "learning_rate": 0.00019733333333333335, + "loss": 0.5611, "step": 30 }, { "epoch": 0.23333333333333334, - "grad_norm": 1.0691001415252686, - "learning_rate": 0.00019844444444444445, - "loss": 0.5682, + "grad_norm": 1.8572273254394531, + "learning_rate": 0.0001968888888888889, + "loss": 0.5451, "step": 35 }, { "epoch": 0.26666666666666666, - "grad_norm": 2.574171781539917, - "learning_rate": 0.00019822222222222225, - "loss": 0.3614, + "grad_norm": 4.357377052307129, + "learning_rate": 0.00019644444444444445, + "loss": 0.4038, "step": 40 }, { "epoch": 0.3, - "grad_norm": 1.209128499031067, - "learning_rate": 0.00019800000000000002, - "loss": 0.3303, + "grad_norm": 1.8596205711364746, + "learning_rate": 0.000196, + "loss": 0.3582, "step": 45 }, { "epoch": 0.3333333333333333, - "grad_norm": 4.342720031738281, - "learning_rate": 0.00019777777777777778, - "loss": 0.4043, + "grad_norm": 2.971336603164673, + "learning_rate": 0.00019555555555555556, + "loss": 0.3285, "step": 50 }, { "epoch": 0.36666666666666664, - "grad_norm": 2.0208427906036377, - "learning_rate": 0.00019755555555555555, - "loss": 0.3131, + "grad_norm": 0.9801475405693054, + "learning_rate": 0.0001951111111111111, + "loss": 0.2135, "step": 55 }, { "epoch": 0.4, - "grad_norm": 8.355993270874023, - "learning_rate": 0.00019733333333333335, - "loss": 0.3469, + "grad_norm": 1.6225720643997192, + "learning_rate": 0.0001946666666666667, + "loss": 0.3307, "step": 60 }, { "epoch": 0.43333333333333335, - "grad_norm": 1.1810795068740845, - "learning_rate": 0.00019711111111111112, - "loss": 0.305, + "grad_norm": 2.2074458599090576, + "learning_rate": 0.00019422222222222223, + "loss": 0.2858, "step": 65 }, { "epoch": 0.4666666666666667, - "grad_norm": 3.1419830322265625, - "learning_rate": 0.0001968888888888889, - "loss": 0.3198, + "grad_norm": 1.4781601428985596, + "learning_rate": 0.0001937777777777778, + "loss": 0.3606, "step": 70 }, { "epoch": 0.5, - "grad_norm": 2.384755849838257, - "learning_rate": 0.00019666666666666666, - "loss": 0.224, + "grad_norm": 3.289635181427002, + "learning_rate": 0.00019333333333333333, + "loss": 0.2511, "step": 75 }, { "epoch": 0.5333333333333333, - "grad_norm": 1.3137331008911133, - "learning_rate": 0.00019644444444444445, - "loss": 0.2489, + "grad_norm": 4.858741760253906, + "learning_rate": 0.0001928888888888889, + "loss": 0.2632, "step": 80 }, { "epoch": 0.5666666666666667, - "grad_norm": 2.050759792327881, - "learning_rate": 0.00019622222222222225, - "loss": 0.2148, + "grad_norm": 1.7034265995025635, + "learning_rate": 0.00019244444444444444, + "loss": 0.2231, "step": 85 }, { "epoch": 0.6, - "grad_norm": 1.254548192024231, - "learning_rate": 0.000196, - "loss": 0.2703, + "grad_norm": 4.437705039978027, + "learning_rate": 0.000192, + "loss": 0.3466, "step": 90 }, { "epoch": 0.6333333333333333, - "grad_norm": 3.6018588542938232, - "learning_rate": 0.0001957777777777778, - "loss": 0.2079, + "grad_norm": 6.303200721740723, + "learning_rate": 0.00019155555555555554, + "loss": 0.2395, "step": 95 }, { "epoch": 0.6666666666666666, - "grad_norm": 1.94509756565094, - "learning_rate": 0.00019555555555555556, - "loss": 0.2324, + "grad_norm": 2.6075069904327393, + "learning_rate": 0.00019111111111111114, + "loss": 0.2895, "step": 100 }, { "epoch": 0.6666666666666666, - "eval_accuracy": 0.8016666666666666, - "eval_f1": 0.8071519788135743, - "eval_loss": 0.5368140339851379, - "eval_precision": 0.8374648240970316, - "eval_recall": 0.8016666666666666, - "eval_runtime": 9.0316, - "eval_samples_per_second": 132.867, - "eval_steps_per_second": 16.608, + "eval_accuracy": 0.795, + "eval_f1": 0.7996947544713288, + "eval_loss": 0.5586473345756531, + "eval_precision": 0.8451560772205625, + "eval_recall": 0.795, + "eval_runtime": 8.8719, + "eval_samples_per_second": 135.259, + "eval_steps_per_second": 16.907, "step": 100 }, { "epoch": 0.7, - "grad_norm": 2.434279441833496, - "learning_rate": 0.00019533333333333336, - "loss": 0.1144, + "grad_norm": 3.6888091564178467, + "learning_rate": 0.00019066666666666668, + "loss": 0.1436, "step": 105 }, { "epoch": 0.7333333333333333, - "grad_norm": 0.3456687927246094, - "learning_rate": 0.0001951111111111111, - "loss": 0.1208, + "grad_norm": 4.98173713684082, + "learning_rate": 0.00019022222222222224, + "loss": 0.1708, "step": 110 }, { "epoch": 0.7666666666666667, - "grad_norm": 2.137242078781128, - "learning_rate": 0.0001948888888888889, - "loss": 0.1633, + "grad_norm": 1.1131139993667603, + "learning_rate": 0.00018977777777777778, + "loss": 0.1165, "step": 115 }, { "epoch": 0.8, - "grad_norm": 5.15158224105835, - "learning_rate": 0.0001946666666666667, - "loss": 0.2268, + "grad_norm": 0.9476176500320435, + "learning_rate": 0.00018933333333333335, + "loss": 0.1079, "step": 120 }, { "epoch": 0.8333333333333334, - "grad_norm": 2.432072639465332, - "learning_rate": 0.00019444444444444446, - "loss": 0.1937, + "grad_norm": 2.2006094455718994, + "learning_rate": 0.00018888888888888888, + "loss": 0.2538, "step": 125 }, { "epoch": 0.8666666666666667, - "grad_norm": 1.797320008277893, - "learning_rate": 0.00019422222222222223, - "loss": 0.1713, + "grad_norm": 1.6902055740356445, + "learning_rate": 0.00018844444444444445, + "loss": 0.1403, "step": 130 }, { "epoch": 0.9, - "grad_norm": 0.9987688660621643, - "learning_rate": 0.000194, - "loss": 0.1026, + "grad_norm": 0.6082767248153687, + "learning_rate": 0.000188, + "loss": 0.1107, "step": 135 }, { "epoch": 0.9333333333333333, - "grad_norm": 2.0863168239593506, - "learning_rate": 0.0001937777777777778, - "loss": 0.1335, + "grad_norm": 2.802396535873413, + "learning_rate": 0.00018755555555555558, + "loss": 0.1053, "step": 140 }, { "epoch": 0.9666666666666667, - "grad_norm": 3.568018674850464, - "learning_rate": 0.00019355555555555557, - "loss": 0.1329, + "grad_norm": 1.6106021404266357, + "learning_rate": 0.00018711111111111112, + "loss": 0.1141, "step": 145 }, { "epoch": 1.0, - "grad_norm": 0.7393060922622681, - "learning_rate": 0.00019333333333333333, - "loss": 0.1731, + "grad_norm": 4.2351531982421875, + "learning_rate": 0.0001866666666666667, + "loss": 0.1143, "step": 150 }, { "epoch": 1.0333333333333334, - "grad_norm": 1.2568960189819336, - "learning_rate": 0.0001931111111111111, - "loss": 0.139, + "grad_norm": 0.24054476618766785, + "learning_rate": 0.00018622222222222223, + "loss": 0.2409, "step": 155 }, { "epoch": 1.0666666666666667, - "grad_norm": 0.41166234016418457, - "learning_rate": 0.0001928888888888889, - "loss": 0.0787, + "grad_norm": 1.5809690952301025, + "learning_rate": 0.0001857777777777778, + "loss": 0.1386, "step": 160 }, { "epoch": 1.1, - "grad_norm": 0.14760378003120422, - "learning_rate": 0.0001926666666666667, - "loss": 0.0571, + "grad_norm": 0.10826423764228821, + "learning_rate": 0.00018533333333333333, + "loss": 0.0521, "step": 165 }, { "epoch": 1.1333333333333333, - "grad_norm": 1.9736790657043457, - "learning_rate": 0.00019244444444444444, - "loss": 0.0759, + "grad_norm": 1.86326003074646, + "learning_rate": 0.0001848888888888889, + "loss": 0.0481, "step": 170 }, { "epoch": 1.1666666666666667, - "grad_norm": 4.314852714538574, - "learning_rate": 0.00019222222222222224, - "loss": 0.1196, + "grad_norm": 3.0488474369049072, + "learning_rate": 0.00018444444444444446, + "loss": 0.056, "step": 175 }, { "epoch": 1.2, - "grad_norm": 1.8330669403076172, - "learning_rate": 0.000192, - "loss": 0.1018, + "grad_norm": 0.10105108469724655, + "learning_rate": 0.00018400000000000003, + "loss": 0.1558, "step": 180 }, { "epoch": 1.2333333333333334, - "grad_norm": 2.6198558807373047, - "learning_rate": 0.0001917777777777778, - "loss": 0.078, + "grad_norm": 0.24924540519714355, + "learning_rate": 0.00018355555555555557, + "loss": 0.0826, "step": 185 }, { "epoch": 1.2666666666666666, - "grad_norm": 0.10600850731134415, - "learning_rate": 0.00019155555555555554, - "loss": 0.071, + "grad_norm": 2.0639898777008057, + "learning_rate": 0.00018311111111111113, + "loss": 0.0546, "step": 190 }, { "epoch": 1.3, - "grad_norm": 0.5397905707359314, - "learning_rate": 0.00019133333333333334, - "loss": 0.0865, + "grad_norm": 0.8337721228599548, + "learning_rate": 0.00018266666666666667, + "loss": 0.1011, "step": 195 }, { "epoch": 1.3333333333333333, - "grad_norm": 0.1504279226064682, - "learning_rate": 0.00019111111111111114, - "loss": 0.1099, + "grad_norm": 0.7904269695281982, + "learning_rate": 0.00018222222222222224, + "loss": 0.0848, "step": 200 }, { "epoch": 1.3333333333333333, - "eval_accuracy": 0.8391666666666666, - "eval_f1": 0.8368581603629509, - "eval_loss": 0.5943942070007324, - "eval_precision": 0.8642402624381883, - "eval_recall": 0.8391666666666666, - "eval_runtime": 7.9559, - "eval_samples_per_second": 150.832, - "eval_steps_per_second": 18.854, + "eval_accuracy": 0.7975, + "eval_f1": 0.7883104007779035, + "eval_loss": 0.8609285354614258, + "eval_precision": 0.8401351225495275, + "eval_recall": 0.7975, + "eval_runtime": 7.8068, + "eval_samples_per_second": 153.712, + "eval_steps_per_second": 19.214, "step": 200 }, { "epoch": 1.3666666666666667, - "grad_norm": 2.209899425506592, - "learning_rate": 0.0001908888888888889, - "loss": 0.0717, + "grad_norm": 4.185606002807617, + "learning_rate": 0.00018177777777777778, + "loss": 0.1318, "step": 205 }, { "epoch": 1.4, - "grad_norm": 1.3845807313919067, - "learning_rate": 0.00019066666666666668, - "loss": 0.0913, + "grad_norm": 0.13607652485370636, + "learning_rate": 0.00018133333333333334, + "loss": 0.0642, "step": 210 }, { "epoch": 1.4333333333333333, - "grad_norm": 0.37772297859191895, - "learning_rate": 0.00019044444444444444, - "loss": 0.1167, + "grad_norm": 6.603880882263184, + "learning_rate": 0.0001808888888888889, + "loss": 0.1901, "step": 215 }, { "epoch": 1.4666666666666668, - "grad_norm": 3.959009885787964, - "learning_rate": 0.00019022222222222224, - "loss": 0.1969, + "grad_norm": 5.1409525871276855, + "learning_rate": 0.00018044444444444447, + "loss": 0.1384, "step": 220 }, { "epoch": 1.5, - "grad_norm": 5.90406608581543, - "learning_rate": 0.00019, - "loss": 0.0965, + "grad_norm": 1.8783152103424072, + "learning_rate": 0.00018, + "loss": 0.1024, "step": 225 }, { "epoch": 1.5333333333333332, - "grad_norm": 0.10512935370206833, - "learning_rate": 0.00018977777777777778, - "loss": 0.0648, + "grad_norm": 0.5243577361106873, + "learning_rate": 0.00017955555555555558, + "loss": 0.0742, "step": 230 }, { "epoch": 1.5666666666666667, - "grad_norm": 0.27937325835227966, - "learning_rate": 0.00018955555555555558, - "loss": 0.0768, + "grad_norm": 0.725352942943573, + "learning_rate": 0.00017911111111111112, + "loss": 0.1699, "step": 235 }, { "epoch": 1.6, - "grad_norm": 0.12792474031448364, - "learning_rate": 0.00018933333333333335, - "loss": 0.0449, + "grad_norm": 0.17294980585575104, + "learning_rate": 0.00017866666666666668, + "loss": 0.0579, "step": 240 }, { "epoch": 1.6333333333333333, - "grad_norm": 0.3061734139919281, - "learning_rate": 0.00018911111111111112, - "loss": 0.0229, + "grad_norm": 0.17999285459518433, + "learning_rate": 0.00017822222222222222, + "loss": 0.0788, "step": 245 }, { "epoch": 1.6666666666666665, - "grad_norm": 0.1381208896636963, - "learning_rate": 0.00018888888888888888, - "loss": 0.0461, + "grad_norm": 0.06690425425767899, + "learning_rate": 0.00017777777777777779, + "loss": 0.0267, "step": 250 }, { "epoch": 1.7, - "grad_norm": 0.11468491703271866, - "learning_rate": 0.00018866666666666668, - "loss": 0.042, + "grad_norm": 1.6258951425552368, + "learning_rate": 0.00017733333333333335, + "loss": 0.0547, "step": 255 }, { "epoch": 1.7333333333333334, - "grad_norm": 0.09266623109579086, - "learning_rate": 0.00018844444444444445, - "loss": 0.0305, + "grad_norm": 0.12689420580863953, + "learning_rate": 0.0001768888888888889, + "loss": 0.0636, "step": 260 }, { "epoch": 1.7666666666666666, - "grad_norm": 0.15915675461292267, - "learning_rate": 0.00018822222222222222, - "loss": 0.0248, + "grad_norm": 0.12395231425762177, + "learning_rate": 0.00017644444444444446, + "loss": 0.0415, "step": 265 }, { "epoch": 1.8, - "grad_norm": 0.05656655132770538, - "learning_rate": 0.000188, - "loss": 0.0379, + "grad_norm": 0.4584154188632965, + "learning_rate": 0.00017600000000000002, + "loss": 0.0878, "step": 270 }, { "epoch": 1.8333333333333335, - "grad_norm": 0.042687103152275085, - "learning_rate": 0.00018777777777777779, - "loss": 0.0151, + "grad_norm": 0.24216791987419128, + "learning_rate": 0.00017555555555555556, + "loss": 0.059, "step": 275 }, { "epoch": 1.8666666666666667, - "grad_norm": 4.887723922729492, - "learning_rate": 0.00018755555555555558, - "loss": 0.023, + "grad_norm": 0.09964153915643692, + "learning_rate": 0.00017511111111111113, + "loss": 0.0249, "step": 280 }, { "epoch": 1.9, - "grad_norm": 0.04096298664808273, - "learning_rate": 0.00018733333333333335, - "loss": 0.0226, + "grad_norm": 3.9478225708007812, + "learning_rate": 0.00017466666666666667, + "loss": 0.0837, "step": 285 }, { "epoch": 1.9333333333333333, - "grad_norm": 0.04041541367769241, - "learning_rate": 0.00018711111111111112, - "loss": 0.1202, + "grad_norm": 3.044919967651367, + "learning_rate": 0.00017422222222222223, + "loss": 0.1101, "step": 290 }, { "epoch": 1.9666666666666668, - "grad_norm": 0.08381060510873795, - "learning_rate": 0.0001868888888888889, - "loss": 0.0182, + "grad_norm": 0.07022172212600708, + "learning_rate": 0.0001737777777777778, + "loss": 0.0214, "step": 295 }, { "epoch": 2.0, - "grad_norm": 0.042730558663606644, - "learning_rate": 0.0001866666666666667, - "loss": 0.0592, + "grad_norm": 0.46689483523368835, + "learning_rate": 0.00017333333333333334, + "loss": 0.0782, "step": 300 }, { "epoch": 2.0, - "eval_accuracy": 0.8733333333333333, - "eval_f1": 0.8720285562390825, - "eval_loss": 0.5456259250640869, - "eval_precision": 0.8819580944580946, - "eval_recall": 0.8733333333333333, - "eval_runtime": 7.8097, - "eval_samples_per_second": 153.655, - "eval_steps_per_second": 19.207, + "eval_accuracy": 0.81, + "eval_f1": 0.811641219111495, + "eval_loss": 0.7032307982444763, + "eval_precision": 0.8414370255563736, + "eval_recall": 0.81, + "eval_runtime": 7.6758, + "eval_samples_per_second": 156.335, + "eval_steps_per_second": 19.542, "step": 300 }, { "epoch": 2.033333333333333, - "grad_norm": 0.3836427628993988, - "learning_rate": 0.00018644444444444446, - "loss": 0.0142, + "grad_norm": 0.06635390222072601, + "learning_rate": 0.0001728888888888889, + "loss": 0.0827, "step": 305 }, { "epoch": 2.066666666666667, - "grad_norm": 0.03650200366973877, - "learning_rate": 0.00018622222222222223, - "loss": 0.0123, + "grad_norm": 0.039813630282878876, + "learning_rate": 0.00017244444444444444, + "loss": 0.016, "step": 310 }, { "epoch": 2.1, - "grad_norm": 0.1522926241159439, - "learning_rate": 0.00018600000000000002, - "loss": 0.0112, + "grad_norm": 0.04323111101984978, + "learning_rate": 0.000172, + "loss": 0.0134, "step": 315 }, { "epoch": 2.1333333333333333, - "grad_norm": 0.09728454053401947, - "learning_rate": 0.0001857777777777778, - "loss": 0.0103, + "grad_norm": 0.07796144485473633, + "learning_rate": 0.00017155555555555555, + "loss": 0.0526, "step": 320 }, { "epoch": 2.1666666666666665, - "grad_norm": 0.05746704712510109, - "learning_rate": 0.00018555555555555556, - "loss": 0.0564, + "grad_norm": 0.0874357745051384, + "learning_rate": 0.0001711111111111111, + "loss": 0.0727, "step": 325 }, { "epoch": 2.2, - "grad_norm": 0.6955235600471497, - "learning_rate": 0.00018533333333333333, - "loss": 0.0467, + "grad_norm": 0.27160799503326416, + "learning_rate": 0.00017066666666666668, + "loss": 0.0388, "step": 330 }, { "epoch": 2.2333333333333334, - "grad_norm": 0.2217785120010376, - "learning_rate": 0.00018511111111111113, - "loss": 0.0101, + "grad_norm": 0.036002498120069504, + "learning_rate": 0.00017022222222222224, + "loss": 0.0158, "step": 335 }, { "epoch": 2.2666666666666666, - "grad_norm": 0.03257649764418602, - "learning_rate": 0.0001848888888888889, - "loss": 0.0127, + "grad_norm": 0.10061996430158615, + "learning_rate": 0.00016977777777777778, + "loss": 0.0141, "step": 340 }, { "epoch": 2.3, - "grad_norm": 0.29595497250556946, - "learning_rate": 0.00018466666666666666, - "loss": 0.0091, + "grad_norm": 0.6788614392280579, + "learning_rate": 0.00016933333333333335, + "loss": 0.0235, "step": 345 }, { "epoch": 2.3333333333333335, - "grad_norm": 0.03456522151827812, - "learning_rate": 0.00018444444444444446, - "loss": 0.0081, + "grad_norm": 0.5076311230659485, + "learning_rate": 0.00016888888888888889, + "loss": 0.0187, "step": 350 }, { "epoch": 2.3666666666666667, - "grad_norm": 0.03285767510533333, - "learning_rate": 0.00018422222222222223, - "loss": 0.0256, + "grad_norm": 13.782525062561035, + "learning_rate": 0.00016844444444444445, + "loss": 0.1019, "step": 355 }, { "epoch": 2.4, - "grad_norm": 0.0819283053278923, - "learning_rate": 0.00018400000000000003, - "loss": 0.027, + "grad_norm": 3.2465286254882812, + "learning_rate": 0.000168, + "loss": 0.1185, "step": 360 }, { "epoch": 2.4333333333333336, - "grad_norm": 0.025241069495677948, - "learning_rate": 0.00018377777777777777, - "loss": 0.0075, + "grad_norm": 7.2066426277160645, + "learning_rate": 0.00016755555555555556, + "loss": 0.065, "step": 365 }, { "epoch": 2.466666666666667, - "grad_norm": 0.027251647785305977, - "learning_rate": 0.00018355555555555557, - "loss": 0.0176, + "grad_norm": 1.5731950998306274, + "learning_rate": 0.00016711111111111112, + "loss": 0.0582, "step": 370 }, { "epoch": 2.5, - "grad_norm": 0.024668868631124496, - "learning_rate": 0.00018333333333333334, - "loss": 0.0127, + "grad_norm": 1.2242693901062012, + "learning_rate": 0.0001666666666666667, + "loss": 0.0762, "step": 375 }, { "epoch": 2.533333333333333, - "grad_norm": 3.5712714195251465, - "learning_rate": 0.00018311111111111113, - "loss": 0.0869, + "grad_norm": 5.728166580200195, + "learning_rate": 0.00016622222222222223, + "loss": 0.0545, "step": 380 }, { "epoch": 2.5666666666666664, - "grad_norm": 0.45694124698638916, - "learning_rate": 0.00018288888888888887, - "loss": 0.1065, + "grad_norm": 0.03969084098935127, + "learning_rate": 0.0001657777777777778, + "loss": 0.0422, "step": 385 }, { "epoch": 2.6, - "grad_norm": 0.858367383480072, - "learning_rate": 0.00018266666666666667, - "loss": 0.127, + "grad_norm": 0.3245962858200073, + "learning_rate": 0.00016533333333333333, + "loss": 0.0442, "step": 390 }, { "epoch": 2.6333333333333333, - "grad_norm": 0.6124961972236633, - "learning_rate": 0.00018244444444444447, - "loss": 0.1115, + "grad_norm": 0.06750833988189697, + "learning_rate": 0.0001648888888888889, + "loss": 0.012, "step": 395 }, { "epoch": 2.6666666666666665, - "grad_norm": 5.806512355804443, - "learning_rate": 0.00018222222222222224, - "loss": 0.0881, + "grad_norm": 0.44574254751205444, + "learning_rate": 0.00016444444444444444, + "loss": 0.0158, "step": 400 }, { "epoch": 2.6666666666666665, - "eval_accuracy": 0.7341666666666666, - "eval_f1": 0.6879560566124245, - "eval_loss": 1.3716939687728882, - "eval_precision": 0.8269917953933964, - "eval_recall": 0.7341666666666666, - "eval_runtime": 7.8452, - "eval_samples_per_second": 152.96, - "eval_steps_per_second": 19.12, + "eval_accuracy": 0.8341666666666666, + "eval_f1": 0.8335820533421322, + "eval_loss": 0.7198197841644287, + "eval_precision": 0.856957513805411, + "eval_recall": 0.8341666666666666, + "eval_runtime": 7.75, + "eval_samples_per_second": 154.839, + "eval_steps_per_second": 19.355, "step": 400 }, { "epoch": 2.7, - "grad_norm": 0.046801090240478516, - "learning_rate": 0.000182, - "loss": 0.1981, + "grad_norm": 0.04209276661276817, + "learning_rate": 0.000164, + "loss": 0.0149, "step": 405 }, { "epoch": 2.7333333333333334, - "grad_norm": 0.07696904242038727, - "learning_rate": 0.00018177777777777778, - "loss": 0.0659, + "grad_norm": 0.029769854620099068, + "learning_rate": 0.00016355555555555557, + "loss": 0.0566, "step": 410 }, { "epoch": 2.7666666666666666, - "grad_norm": 0.041567906737327576, - "learning_rate": 0.00018155555555555557, - "loss": 0.0143, + "grad_norm": 0.029884740710258484, + "learning_rate": 0.00016311111111111113, + "loss": 0.0379, "step": 415 }, { "epoch": 2.8, - "grad_norm": 0.15810152888298035, - "learning_rate": 0.00018133333333333334, - "loss": 0.0262, + "grad_norm": 0.10657341778278351, + "learning_rate": 0.00016266666666666667, + "loss": 0.0109, "step": 420 }, { "epoch": 2.8333333333333335, - "grad_norm": 0.3390994668006897, - "learning_rate": 0.0001811111111111111, - "loss": 0.0815, + "grad_norm": 0.03039192408323288, + "learning_rate": 0.00016222222222222224, + "loss": 0.0316, "step": 425 }, { "epoch": 2.8666666666666667, - "grad_norm": 9.603019714355469, - "learning_rate": 0.0001808888888888889, - "loss": 0.038, + "grad_norm": 4.379290580749512, + "learning_rate": 0.00016177777777777778, + "loss": 0.106, "step": 430 }, { "epoch": 2.9, - "grad_norm": 0.6549290418624878, - "learning_rate": 0.00018066666666666668, - "loss": 0.0117, + "grad_norm": 1.4222966432571411, + "learning_rate": 0.00016133333333333334, + "loss": 0.0823, "step": 435 }, { "epoch": 2.9333333333333336, - "grad_norm": 0.025073649361729622, - "learning_rate": 0.00018044444444444447, - "loss": 0.022, + "grad_norm": 1.156616449356079, + "learning_rate": 0.00016088888888888888, + "loss": 0.0695, "step": 440 }, { "epoch": 2.966666666666667, - "grad_norm": 3.756648540496826, - "learning_rate": 0.00018022222222222221, - "loss": 0.0507, + "grad_norm": 0.08744677156209946, + "learning_rate": 0.00016044444444444445, + "loss": 0.0772, "step": 445 }, { "epoch": 3.0, - "grad_norm": 0.03134845569729805, - "learning_rate": 0.00018, - "loss": 0.0484, + "grad_norm": 0.03204324096441269, + "learning_rate": 0.00016, + "loss": 0.0094, "step": 450 }, { "epoch": 3.033333333333333, - "grad_norm": 7.3177385330200195, - "learning_rate": 0.00017977777777777778, - "loss": 0.0656, + "grad_norm": 0.14117483794689178, + "learning_rate": 0.00015955555555555558, + "loss": 0.0094, "step": 455 }, { "epoch": 3.066666666666667, - "grad_norm": 6.6893463134765625, - "learning_rate": 0.00017955555555555558, - "loss": 0.0596, + "grad_norm": 2.260402202606201, + "learning_rate": 0.00015911111111111112, + "loss": 0.0726, "step": 460 }, { "epoch": 3.1, - "grad_norm": 0.03423500061035156, - "learning_rate": 0.00017933333333333332, - "loss": 0.0065, + "grad_norm": 0.034795694053173065, + "learning_rate": 0.00015866666666666668, + "loss": 0.017, "step": 465 }, { "epoch": 3.1333333333333333, - "grad_norm": 2.159952163696289, - "learning_rate": 0.00017911111111111112, - "loss": 0.0081, + "grad_norm": 0.03096156008541584, + "learning_rate": 0.00015822222222222222, + "loss": 0.0367, "step": 470 }, { "epoch": 3.1666666666666665, - "grad_norm": 3.186702013015747, - "learning_rate": 0.0001788888888888889, - "loss": 0.0417, + "grad_norm": 3.155168056488037, + "learning_rate": 0.0001577777777777778, + "loss": 0.0245, "step": 475 }, { "epoch": 3.2, - "grad_norm": 2.66605806350708, - "learning_rate": 0.00017866666666666668, - "loss": 0.013, + "grad_norm": 2.9118266105651855, + "learning_rate": 0.00015733333333333333, + "loss": 0.0158, "step": 480 }, { "epoch": 3.2333333333333334, - "grad_norm": 3.6598596572875977, - "learning_rate": 0.00017844444444444445, - "loss": 0.018, + "grad_norm": 0.03510022908449173, + "learning_rate": 0.00015688888888888892, + "loss": 0.0061, "step": 485 }, { "epoch": 3.2666666666666666, - "grad_norm": 0.019321169704198837, - "learning_rate": 0.00017822222222222222, - "loss": 0.0051, + "grad_norm": 6.4864821434021, + "learning_rate": 0.00015644444444444446, + "loss": 0.0552, "step": 490 }, { "epoch": 3.3, - "grad_norm": 0.01711213029921055, - "learning_rate": 0.00017800000000000002, - "loss": 0.0167, + "grad_norm": 0.02120714820921421, + "learning_rate": 0.00015600000000000002, + "loss": 0.0058, "step": 495 }, { "epoch": 3.3333333333333335, - "grad_norm": 0.02650589495897293, - "learning_rate": 0.00017777777777777779, - "loss": 0.0922, + "grad_norm": 3.3761563301086426, + "learning_rate": 0.00015555555555555556, + "loss": 0.0327, "step": 500 }, { "epoch": 3.3333333333333335, - "eval_accuracy": 0.7666666666666667, - "eval_f1": 0.7667952747111794, - "eval_loss": 1.1644542217254639, - "eval_precision": 0.8160934696145964, - "eval_recall": 0.7666666666666667, - "eval_runtime": 7.917, - "eval_samples_per_second": 151.572, - "eval_steps_per_second": 18.947, + "eval_accuracy": 0.8458333333333333, + "eval_f1": 0.8448178718561403, + "eval_loss": 0.7624218463897705, + "eval_precision": 0.8484282409173457, + "eval_recall": 0.8458333333333333, + "eval_runtime": 7.6758, + "eval_samples_per_second": 156.336, + "eval_steps_per_second": 19.542, "step": 500 }, { "epoch": 3.3666666666666667, - "grad_norm": 5.958396911621094, - "learning_rate": 0.00017755555555555556, - "loss": 0.1202, + "grad_norm": 0.023067763075232506, + "learning_rate": 0.00015511111111111113, + "loss": 0.0076, "step": 505 }, { "epoch": 3.4, - "grad_norm": 0.03647783026099205, - "learning_rate": 0.00017733333333333335, - "loss": 0.1568, + "grad_norm": 0.24555887281894684, + "learning_rate": 0.00015466666666666667, + "loss": 0.0152, "step": 510 }, { "epoch": 3.4333333333333336, - "grad_norm": 2.0490691661834717, - "learning_rate": 0.00017711111111111112, - "loss": 0.0348, + "grad_norm": 0.0324004702270031, + "learning_rate": 0.00015422222222222223, + "loss": 0.0074, "step": 515 }, { "epoch": 3.466666666666667, - "grad_norm": 0.6681481003761292, - "learning_rate": 0.0001768888888888889, - "loss": 0.018, + "grad_norm": 0.19234609603881836, + "learning_rate": 0.00015377777777777777, + "loss": 0.0063, "step": 520 }, { "epoch": 3.5, - "grad_norm": 4.812828063964844, - "learning_rate": 0.00017666666666666666, - "loss": 0.0138, + "grad_norm": 0.020649263635277748, + "learning_rate": 0.00015333333333333334, + "loss": 0.0089, "step": 525 }, { "epoch": 3.533333333333333, - "grad_norm": 5.368053913116455, - "learning_rate": 0.00017644444444444446, - "loss": 0.0509, + "grad_norm": 0.05213822424411774, + "learning_rate": 0.0001528888888888889, + "loss": 0.0053, "step": 530 }, { "epoch": 3.5666666666666664, - "grad_norm": 4.011260509490967, - "learning_rate": 0.00017622222222222223, - "loss": 0.0584, + "grad_norm": 0.019163738936185837, + "learning_rate": 0.00015244444444444447, + "loss": 0.0052, "step": 535 }, { "epoch": 3.6, - "grad_norm": 0.03486407920718193, - "learning_rate": 0.00017600000000000002, - "loss": 0.0526, + "grad_norm": 0.09474197030067444, + "learning_rate": 0.000152, + "loss": 0.0199, "step": 540 }, { "epoch": 3.6333333333333333, - "grad_norm": 0.5663176774978638, - "learning_rate": 0.0001757777777777778, - "loss": 0.0057, + "grad_norm": 0.023067781701683998, + "learning_rate": 0.00015155555555555557, + "loss": 0.0075, "step": 545 }, { "epoch": 3.6666666666666665, - "grad_norm": 12.001660346984863, - "learning_rate": 0.00017555555555555556, - "loss": 0.1107, + "grad_norm": 0.036210689693689346, + "learning_rate": 0.0001511111111111111, + "loss": 0.0056, "step": 550 }, { "epoch": 3.7, - "grad_norm": 0.044813767075538635, - "learning_rate": 0.00017533333333333336, - "loss": 0.015, + "grad_norm": 0.01759987883269787, + "learning_rate": 0.00015066666666666668, + "loss": 0.005, "step": 555 }, { "epoch": 3.7333333333333334, - "grad_norm": 1.1995677947998047, - "learning_rate": 0.00017511111111111113, - "loss": 0.0785, + "grad_norm": 0.048842594027519226, + "learning_rate": 0.00015022222222222222, + "loss": 0.0045, "step": 560 }, { "epoch": 3.7666666666666666, - "grad_norm": 2.4275963306427, - "learning_rate": 0.0001748888888888889, - "loss": 0.1064, + "grad_norm": 0.016996921971440315, + "learning_rate": 0.00014977777777777778, + "loss": 0.0045, "step": 565 }, { "epoch": 3.8, - "grad_norm": 1.5593420267105103, - "learning_rate": 0.00017466666666666667, - "loss": 0.0357, + "grad_norm": 0.6005651354789734, + "learning_rate": 0.00014933333333333335, + "loss": 0.0112, "step": 570 }, { "epoch": 3.8333333333333335, - "grad_norm": 0.7760279178619385, - "learning_rate": 0.00017444444444444446, - "loss": 0.0095, + "grad_norm": 0.2864639163017273, + "learning_rate": 0.0001488888888888889, + "loss": 0.0326, "step": 575 }, { "epoch": 3.8666666666666667, - "grad_norm": 0.027867965400218964, - "learning_rate": 0.00017422222222222223, - "loss": 0.0111, + "grad_norm": 0.028333056718111038, + "learning_rate": 0.00014844444444444445, + "loss": 0.0301, "step": 580 }, { "epoch": 3.9, - "grad_norm": 0.08344069868326187, - "learning_rate": 0.000174, - "loss": 0.0127, + "grad_norm": 0.015640731900930405, + "learning_rate": 0.000148, + "loss": 0.0419, "step": 585 }, { "epoch": 3.9333333333333336, - "grad_norm": 0.01838390715420246, - "learning_rate": 0.0001737777777777778, - "loss": 0.0392, + "grad_norm": 0.015764426440000534, + "learning_rate": 0.00014755555555555556, + "loss": 0.0096, "step": 590 }, { "epoch": 3.966666666666667, - "grad_norm": 0.017390254884958267, - "learning_rate": 0.00017355555555555557, + "grad_norm": 0.01586846075952053, + "learning_rate": 0.00014711111111111112, "loss": 0.0045, "step": 595 }, { "epoch": 4.0, - "grad_norm": 0.02237175963819027, - "learning_rate": 0.00017333333333333334, - "loss": 0.0638, + "grad_norm": 0.014489141292870045, + "learning_rate": 0.00014666666666666666, + "loss": 0.0044, "step": 600 }, { "epoch": 4.0, - "eval_accuracy": 0.8283333333333334, - "eval_f1": 0.8269676033527453, - "eval_loss": 0.8596669435501099, - "eval_precision": 0.8389128953013719, - "eval_recall": 0.8283333333333334, - "eval_runtime": 7.8759, - "eval_samples_per_second": 152.363, - "eval_steps_per_second": 19.045, + "eval_accuracy": 0.8791666666666667, + "eval_f1": 0.8768760637793684, + "eval_loss": 0.617176353931427, + "eval_precision": 0.8925681911757526, + "eval_recall": 0.8791666666666667, + "eval_runtime": 7.7478, + "eval_samples_per_second": 154.883, + "eval_steps_per_second": 19.36, "step": 600 }, { "epoch": 4.033333333333333, - "grad_norm": 0.019417034462094307, - "learning_rate": 0.0001731111111111111, - "loss": 0.0049, + "grad_norm": 0.012540281750261784, + "learning_rate": 0.00014622222222222223, + "loss": 0.0053, "step": 605 }, { "epoch": 4.066666666666666, - "grad_norm": 0.01776639185845852, - "learning_rate": 0.0001728888888888889, - "loss": 0.0046, + "grad_norm": 0.019793013110756874, + "learning_rate": 0.0001457777777777778, + "loss": 0.0088, "step": 610 }, { "epoch": 4.1, - "grad_norm": 2.6777052879333496, - "learning_rate": 0.00017266666666666667, - "loss": 0.014, + "grad_norm": 0.3518993556499481, + "learning_rate": 0.00014533333333333333, + "loss": 0.009, "step": 615 }, { "epoch": 4.133333333333334, - "grad_norm": 0.06091040000319481, - "learning_rate": 0.00017244444444444444, - "loss": 0.0051, + "grad_norm": 0.03006441704928875, + "learning_rate": 0.0001448888888888889, + "loss": 0.0042, "step": 620 }, { "epoch": 4.166666666666667, - "grad_norm": 0.16615457832813263, - "learning_rate": 0.00017222222222222224, - "loss": 0.0131, + "grad_norm": 0.0133581617847085, + "learning_rate": 0.00014444444444444444, + "loss": 0.0132, "step": 625 }, { "epoch": 4.2, - "grad_norm": 4.456201553344727, - "learning_rate": 0.000172, - "loss": 0.0292, + "grad_norm": 0.01388661190867424, + "learning_rate": 0.000144, + "loss": 0.0399, "step": 630 }, { "epoch": 4.233333333333333, - "grad_norm": 0.22204749286174774, - "learning_rate": 0.0001717777777777778, - "loss": 0.0567, + "grad_norm": 0.016897162422537804, + "learning_rate": 0.00014355555555555554, + "loss": 0.0205, "step": 635 }, { "epoch": 4.266666666666667, - "grad_norm": 1.061065912246704, - "learning_rate": 0.00017155555555555555, - "loss": 0.0922, + "grad_norm": 0.015383469872176647, + "learning_rate": 0.0001431111111111111, + "loss": 0.0293, "step": 640 }, { "epoch": 4.3, - "grad_norm": 0.3043192923069, - "learning_rate": 0.00017133333333333334, - "loss": 0.0682, + "grad_norm": 0.18752814829349518, + "learning_rate": 0.00014266666666666667, + "loss": 0.0051, "step": 645 }, { "epoch": 4.333333333333333, - "grad_norm": 0.02231404557824135, - "learning_rate": 0.0001711111111111111, - "loss": 0.0889, + "grad_norm": 0.013087209314107895, + "learning_rate": 0.00014222222222222224, + "loss": 0.0052, "step": 650 }, { "epoch": 4.366666666666666, - "grad_norm": 4.000843048095703, - "learning_rate": 0.0001708888888888889, - "loss": 0.0364, + "grad_norm": 7.345510005950928, + "learning_rate": 0.00014177777777777778, + "loss": 0.0396, "step": 655 }, { "epoch": 4.4, - "grad_norm": 0.3187618851661682, - "learning_rate": 0.00017066666666666668, - "loss": 0.05, + "grad_norm": 0.01745128072798252, + "learning_rate": 0.00014133333333333334, + "loss": 0.0446, "step": 660 }, { "epoch": 4.433333333333334, - "grad_norm": 1.69314444065094, - "learning_rate": 0.00017044444444444445, - "loss": 0.0791, + "grad_norm": 0.023033631965517998, + "learning_rate": 0.00014088888888888888, + "loss": 0.0139, "step": 665 }, { "epoch": 4.466666666666667, - "grad_norm": 0.07860370725393295, - "learning_rate": 0.00017022222222222224, - "loss": 0.0116, + "grad_norm": 0.883780300617218, + "learning_rate": 0.00014044444444444445, + "loss": 0.0101, "step": 670 }, { "epoch": 4.5, - "grad_norm": 1.2985484600067139, - "learning_rate": 0.00017, - "loss": 0.0366, + "grad_norm": 0.07074714452028275, + "learning_rate": 0.00014, + "loss": 0.0039, "step": 675 }, { "epoch": 4.533333333333333, - "grad_norm": 2.6033730506896973, - "learning_rate": 0.00016977777777777778, - "loss": 0.0914, + "grad_norm": 0.012751113623380661, + "learning_rate": 0.00013955555555555558, + "loss": 0.0148, "step": 680 }, { "epoch": 4.566666666666666, - "grad_norm": 0.03449103236198425, - "learning_rate": 0.00016955555555555555, - "loss": 0.0966, + "grad_norm": 0.02566063404083252, + "learning_rate": 0.00013911111111111112, + "loss": 0.0086, "step": 685 }, { "epoch": 4.6, - "grad_norm": 8.799196243286133, - "learning_rate": 0.00016933333333333335, - "loss": 0.0412, + "grad_norm": 0.01256764866411686, + "learning_rate": 0.00013866666666666669, + "loss": 0.0042, "step": 690 }, { "epoch": 4.633333333333333, - "grad_norm": 4.106966018676758, - "learning_rate": 0.00016911111111111112, - "loss": 0.0181, + "grad_norm": 0.016712158918380737, + "learning_rate": 0.00013822222222222222, + "loss": 0.0033, "step": 695 }, { "epoch": 4.666666666666667, - "grad_norm": 0.016777725890278816, - "learning_rate": 0.00016888888888888889, - "loss": 0.0296, + "grad_norm": 0.014445093460381031, + "learning_rate": 0.0001377777777777778, + "loss": 0.0032, "step": 700 }, { "epoch": 4.666666666666667, - "eval_accuracy": 0.8325, - "eval_f1": 0.8306552956033915, - "eval_loss": 0.851315438747406, - "eval_precision": 0.8603104956989368, - "eval_recall": 0.8325, - "eval_runtime": 7.9773, - "eval_samples_per_second": 150.427, - "eval_steps_per_second": 18.803, + "eval_accuracy": 0.8516666666666667, + "eval_f1": 0.8495518085267277, + "eval_loss": 0.777227520942688, + "eval_precision": 0.8589096243220098, + "eval_recall": 0.8516666666666667, + "eval_runtime": 7.6715, + "eval_samples_per_second": 156.424, + "eval_steps_per_second": 19.553, "step": 700 }, { "epoch": 4.7, - "grad_norm": 0.013839561492204666, - "learning_rate": 0.00016866666666666668, - "loss": 0.0178, + "grad_norm": 0.012054095976054668, + "learning_rate": 0.00013733333333333333, + "loss": 0.0038, "step": 705 }, { "epoch": 4.733333333333333, - "grad_norm": 0.015372632071375847, - "learning_rate": 0.00016844444444444445, - "loss": 0.0035, + "grad_norm": 0.012178352102637291, + "learning_rate": 0.0001368888888888889, + "loss": 0.0032, "step": 710 }, { "epoch": 4.766666666666667, - "grad_norm": 0.010846931487321854, - "learning_rate": 0.00016822222222222225, - "loss": 0.0033, + "grad_norm": 0.010005182586610317, + "learning_rate": 0.00013644444444444443, + "loss": 0.0319, "step": 715 }, { "epoch": 4.8, - "grad_norm": 0.012667316012084484, - "learning_rate": 0.000168, - "loss": 0.0353, + "grad_norm": 0.010194342583417892, + "learning_rate": 0.00013600000000000003, + "loss": 0.0028, "step": 720 }, { "epoch": 4.833333333333333, - "grad_norm": 0.015456200577318668, - "learning_rate": 0.0001677777777777778, - "loss": 0.0826, + "grad_norm": 0.021056588739156723, + "learning_rate": 0.00013555555555555556, + "loss": 0.003, "step": 725 }, { "epoch": 4.866666666666667, - "grad_norm": 0.011674683541059494, - "learning_rate": 0.00016755555555555556, - "loss": 0.0048, + "grad_norm": 0.10812840610742569, + "learning_rate": 0.00013511111111111113, + "loss": 0.0032, "step": 730 }, { "epoch": 4.9, - "grad_norm": 0.01440636720508337, - "learning_rate": 0.00016733333333333335, - "loss": 0.0062, + "grad_norm": 0.01298112515360117, + "learning_rate": 0.00013466666666666667, + "loss": 0.003, "step": 735 }, { "epoch": 4.933333333333334, - "grad_norm": 0.05832609161734581, - "learning_rate": 0.00016711111111111112, - "loss": 0.0035, + "grad_norm": 0.01007118634879589, + "learning_rate": 0.00013422222222222224, + "loss": 0.0027, "step": 740 }, { "epoch": 4.966666666666667, - "grad_norm": 0.011923795565962791, - "learning_rate": 0.0001668888888888889, - "loss": 0.0512, + "grad_norm": 0.00997263565659523, + "learning_rate": 0.00013377777777777777, + "loss": 0.0027, "step": 745 }, { "epoch": 5.0, - "grad_norm": 0.01394265703856945, - "learning_rate": 0.0001666666666666667, - "loss": 0.0029, + "grad_norm": 0.011295751668512821, + "learning_rate": 0.00013333333333333334, + "loss": 0.0027, "step": 750 }, { "epoch": 5.033333333333333, - "grad_norm": 0.01174243912100792, - "learning_rate": 0.00016644444444444446, - "loss": 0.0032, + "grad_norm": 0.009342596866190434, + "learning_rate": 0.00013288888888888888, + "loss": 0.0026, "step": 755 }, { "epoch": 5.066666666666666, - "grad_norm": 0.018876491114497185, - "learning_rate": 0.00016622222222222223, - "loss": 0.0031, + "grad_norm": 0.010615039616823196, + "learning_rate": 0.00013244444444444447, + "loss": 0.0026, "step": 760 }, { "epoch": 5.1, - "grad_norm": 0.010265682823956013, - "learning_rate": 0.000166, - "loss": 0.0088, + "grad_norm": 0.009292490780353546, + "learning_rate": 0.000132, + "loss": 0.0025, "step": 765 }, { "epoch": 5.133333333333334, - "grad_norm": 0.00936273206025362, - "learning_rate": 0.0001657777777777778, - "loss": 0.0025, + "grad_norm": 0.009002518840134144, + "learning_rate": 0.00013155555555555558, + "loss": 0.0093, "step": 770 }, { "epoch": 5.166666666666667, - "grad_norm": 0.009722217917442322, - "learning_rate": 0.00016555555555555556, - "loss": 0.0297, + "grad_norm": 0.012068667449057102, + "learning_rate": 0.00013111111111111111, + "loss": 0.0025, "step": 775 }, { "epoch": 5.2, - "grad_norm": 0.6582895517349243, - "learning_rate": 0.00016533333333333333, - "loss": 0.004, + "grad_norm": 3.0771682262420654, + "learning_rate": 0.00013066666666666668, + "loss": 0.0449, "step": 780 }, { "epoch": 5.233333333333333, - "grad_norm": 0.018948694691061974, - "learning_rate": 0.00016511111111111113, - "loss": 0.0237, + "grad_norm": 7.8274664878845215, + "learning_rate": 0.00013022222222222222, + "loss": 0.0148, "step": 785 }, { "epoch": 5.266666666666667, - "grad_norm": 0.009359920397400856, - "learning_rate": 0.0001648888888888889, - "loss": 0.0028, + "grad_norm": 0.009096098132431507, + "learning_rate": 0.00012977777777777779, + "loss": 0.0552, "step": 790 }, { "epoch": 5.3, - "grad_norm": 0.03819280490279198, - "learning_rate": 0.00016471111111111112, - "loss": 0.085, + "grad_norm": 3.1960034370422363, + "learning_rate": 0.00012933333333333332, + "loss": 0.0266, "step": 795 }, { "epoch": 5.333333333333333, - "grad_norm": 0.008769623935222626, - "learning_rate": 0.0001644888888888889, - "loss": 0.0023, + "grad_norm": 0.009420165792107582, + "learning_rate": 0.00012888888888888892, + "loss": 0.0026, "step": 800 }, { "epoch": 5.333333333333333, - "eval_accuracy": 0.8258333333333333, - "eval_f1": 0.8252385167532614, - "eval_loss": 0.9016202688217163, - "eval_precision": 0.8276691460489028, - "eval_recall": 0.8258333333333333, - "eval_runtime": 7.9585, - "eval_samples_per_second": 150.782, - "eval_steps_per_second": 18.848, + "eval_accuracy": 0.8375, + "eval_f1": 0.8350701762715841, + "eval_loss": 0.8897176384925842, + "eval_precision": 0.8478222637600029, + "eval_recall": 0.8375, + "eval_runtime": 7.6961, + "eval_samples_per_second": 155.923, + "eval_steps_per_second": 19.49, "step": 800 }, { "epoch": 5.366666666666666, - "grad_norm": 0.013553244061768055, - "learning_rate": 0.00016426666666666668, - "loss": 0.0227, + "grad_norm": 0.01573585346341133, + "learning_rate": 0.00012844444444444446, + "loss": 0.0035, "step": 805 }, { "epoch": 5.4, - "grad_norm": 0.008108344860374928, - "learning_rate": 0.00016404444444444445, - "loss": 0.0049, + "grad_norm": 0.014908558689057827, + "learning_rate": 0.00012800000000000002, + "loss": 0.004, "step": 810 }, { "epoch": 5.433333333333334, - "grad_norm": 0.07519623637199402, - "learning_rate": 0.00016382222222222222, - "loss": 0.0025, + "grad_norm": 0.36597728729248047, + "learning_rate": 0.00012755555555555556, + "loss": 0.0111, "step": 815 }, { "epoch": 5.466666666666667, - "grad_norm": 0.010752180591225624, - "learning_rate": 0.0001636, - "loss": 0.0036, + "grad_norm": 5.850461483001709, + "learning_rate": 0.00012711111111111113, + "loss": 0.021, "step": 820 }, { "epoch": 5.5, - "grad_norm": 0.02380216121673584, - "learning_rate": 0.0001633777777777778, - "loss": 0.0038, + "grad_norm": 0.011307979933917522, + "learning_rate": 0.00012666666666666666, + "loss": 0.0027, "step": 825 }, { "epoch": 5.533333333333333, - "grad_norm": 2.58223295211792, - "learning_rate": 0.00016315555555555559, - "loss": 0.0329, + "grad_norm": 4.9326581954956055, + "learning_rate": 0.00012622222222222223, + "loss": 0.0121, "step": 830 }, { "epoch": 5.566666666666666, - "grad_norm": 0.008567465469241142, - "learning_rate": 0.00016293333333333333, - "loss": 0.0023, + "grad_norm": 0.010081916116178036, + "learning_rate": 0.0001257777777777778, + "loss": 0.0038, "step": 835 }, { "epoch": 5.6, - "grad_norm": 0.011150234378874302, - "learning_rate": 0.00016271111111111112, - "loss": 0.0027, + "grad_norm": 0.008793797343969345, + "learning_rate": 0.00012533333333333334, + "loss": 0.0107, "step": 840 }, { "epoch": 5.633333333333333, - "grad_norm": 0.007850906811654568, - "learning_rate": 0.0001624888888888889, - "loss": 0.002, + "grad_norm": 0.8058722019195557, + "learning_rate": 0.0001248888888888889, + "loss": 0.0814, "step": 845 }, { "epoch": 5.666666666666667, - "grad_norm": 0.008464174345135689, - "learning_rate": 0.0001622666666666667, - "loss": 0.0021, + "grad_norm": 6.115078449249268, + "learning_rate": 0.00012444444444444444, + "loss": 0.0059, "step": 850 }, { "epoch": 5.7, - "grad_norm": 0.030457813292741776, - "learning_rate": 0.00016204444444444443, - "loss": 0.0023, + "grad_norm": 0.012590233236551285, + "learning_rate": 0.000124, + "loss": 0.0042, "step": 855 }, { "epoch": 5.733333333333333, - "grad_norm": 0.006399280391633511, - "learning_rate": 0.00016182222222222223, - "loss": 0.002, + "grad_norm": 0.012737186625599861, + "learning_rate": 0.00012355555555555557, + "loss": 0.0219, "step": 860 }, { "epoch": 5.766666666666667, - "grad_norm": 0.014444428496062756, - "learning_rate": 0.00016160000000000002, - "loss": 0.0019, + "grad_norm": 0.03242069110274315, + "learning_rate": 0.0001231111111111111, + "loss": 0.0278, "step": 865 }, { "epoch": 5.8, - "grad_norm": 0.011648226529359818, - "learning_rate": 0.0001613777777777778, - "loss": 0.035, + "grad_norm": 0.017354173585772514, + "learning_rate": 0.00012266666666666668, + "loss": 0.0057, "step": 870 }, { "epoch": 5.833333333333333, - "grad_norm": 0.19019706547260284, - "learning_rate": 0.00016115555555555556, - "loss": 0.0021, + "grad_norm": 0.014413449913263321, + "learning_rate": 0.00012222222222222224, + "loss": 0.0032, "step": 875 }, { "epoch": 5.866666666666667, - "grad_norm": 0.015149089507758617, - "learning_rate": 0.00016093333333333333, - "loss": 0.0022, + "grad_norm": 0.012325948104262352, + "learning_rate": 0.0001217777777777778, + "loss": 0.0038, "step": 880 }, { "epoch": 5.9, - "grad_norm": 0.06066042184829712, - "learning_rate": 0.00016071111111111113, - "loss": 0.0148, + "grad_norm": 0.010426623746752739, + "learning_rate": 0.00012133333333333335, + "loss": 0.0024, "step": 885 }, { "epoch": 5.933333333333334, - "grad_norm": 0.00822924729436636, - "learning_rate": 0.0001604888888888889, - "loss": 0.0329, + "grad_norm": 0.010102801024913788, + "learning_rate": 0.0001208888888888889, + "loss": 0.0022, "step": 890 }, { "epoch": 5.966666666666667, - "grad_norm": 0.08668404072523117, - "learning_rate": 0.00016026666666666667, - "loss": 0.002, + "grad_norm": 0.009131083264946938, + "learning_rate": 0.00012044444444444445, + "loss": 0.022, "step": 895 }, { "epoch": 6.0, - "grad_norm": 0.008358371444046497, - "learning_rate": 0.00016004444444444444, - "loss": 0.0826, + "grad_norm": 0.008378170430660248, + "learning_rate": 0.00012, + "loss": 0.0033, "step": 900 }, { "epoch": 6.0, - "eval_accuracy": 0.825, - "eval_f1": 0.8217725506794431, - "eval_loss": 0.9256916046142578, - "eval_precision": 0.8302647635524736, - "eval_recall": 0.825, - "eval_runtime": 7.9868, - "eval_samples_per_second": 150.248, - "eval_steps_per_second": 18.781, + "eval_accuracy": 0.9075, + "eval_f1": 0.904614447173649, + "eval_loss": 0.49464890360832214, + "eval_precision": 0.9136222146251665, + "eval_recall": 0.9075, + "eval_runtime": 7.7354, + "eval_samples_per_second": 155.13, + "eval_steps_per_second": 19.391, "step": 900 }, { "epoch": 6.033333333333333, - "grad_norm": 0.06555764377117157, - "learning_rate": 0.00015982222222222223, - "loss": 0.003, + "grad_norm": 0.00805143266916275, + "learning_rate": 0.00011955555555555556, + "loss": 0.0022, "step": 905 }, { "epoch": 6.066666666666666, - "grad_norm": 0.010176130570471287, - "learning_rate": 0.0001596, - "loss": 0.025, + "grad_norm": 0.013455729931592941, + "learning_rate": 0.00011911111111111111, + "loss": 0.0022, "step": 910 }, { "epoch": 6.1, - "grad_norm": 0.009402208961546421, - "learning_rate": 0.00015937777777777777, - "loss": 0.0022, + "grad_norm": 0.007239766418933868, + "learning_rate": 0.00011866666666666669, + "loss": 0.0125, "step": 915 }, { "epoch": 6.133333333333334, - "grad_norm": 0.009895476512610912, - "learning_rate": 0.00015915555555555557, - "loss": 0.0291, + "grad_norm": 0.008403417654335499, + "learning_rate": 0.00011822222222222224, + "loss": 0.0726, "step": 920 }, { "epoch": 6.166666666666667, - "grad_norm": 0.00898162741214037, - "learning_rate": 0.00015893333333333334, - "loss": 0.0023, + "grad_norm": 9.682872772216797, + "learning_rate": 0.00011777777777777779, + "loss": 0.0211, "step": 925 }, { "epoch": 6.2, - "grad_norm": 0.008657393045723438, - "learning_rate": 0.00015871111111111114, - "loss": 0.0055, + "grad_norm": 2.7311182022094727, + "learning_rate": 0.00011733333333333334, + "loss": 0.0982, "step": 930 }, { "epoch": 6.233333333333333, - "grad_norm": 4.774776458740234, - "learning_rate": 0.00015848888888888888, - "loss": 0.0094, + "grad_norm": 4.947127819061279, + "learning_rate": 0.0001168888888888889, + "loss": 0.088, "step": 935 }, { "epoch": 6.266666666666667, - "grad_norm": 0.03181242197751999, - "learning_rate": 0.00015826666666666667, - "loss": 0.002, + "grad_norm": 0.009330512024462223, + "learning_rate": 0.00011644444444444445, + "loss": 0.0022, "step": 940 }, { "epoch": 6.3, - "grad_norm": 0.010425401851534843, - "learning_rate": 0.00015804444444444447, - "loss": 0.0193, + "grad_norm": 6.645519733428955, + "learning_rate": 0.000116, + "loss": 0.0142, "step": 945 }, { "epoch": 6.333333333333333, - "grad_norm": 0.00863628275692463, - "learning_rate": 0.00015782222222222224, - "loss": 0.0021, + "grad_norm": 0.009008236229419708, + "learning_rate": 0.00011555555555555555, + "loss": 0.0034, "step": 950 }, { "epoch": 6.366666666666666, - "grad_norm": 0.02589144930243492, - "learning_rate": 0.0001576, + "grad_norm": 0.00968620553612709, + "learning_rate": 0.00011511111111111112, "loss": 0.0025, "step": 955 }, { "epoch": 6.4, - "grad_norm": 0.00986549723893404, - "learning_rate": 0.00015737777777777778, - "loss": 0.0033, + "grad_norm": 0.022011801600456238, + "learning_rate": 0.00011466666666666667, + "loss": 0.0024, "step": 960 }, { "epoch": 6.433333333333334, - "grad_norm": 0.00706731341779232, - "learning_rate": 0.00015715555555555557, - "loss": 0.0021, + "grad_norm": 8.281715393066406, + "learning_rate": 0.00011422222222222224, + "loss": 0.051, "step": 965 }, { "epoch": 6.466666666666667, - "grad_norm": 0.024915220215916634, - "learning_rate": 0.00015693333333333334, - "loss": 0.0021, + "grad_norm": 0.579223096370697, + "learning_rate": 0.00011377777777777779, + "loss": 0.0026, "step": 970 }, { "epoch": 6.5, - "grad_norm": 0.00629127724096179, - "learning_rate": 0.0001567111111111111, - "loss": 0.0018, + "grad_norm": 0.006855517625808716, + "learning_rate": 0.00011333333333333334, + "loss": 0.0042, "step": 975 }, { "epoch": 6.533333333333333, - "grad_norm": 0.006032106000930071, - "learning_rate": 0.0001564888888888889, - "loss": 0.0016, + "grad_norm": 0.008189638145267963, + "learning_rate": 0.0001128888888888889, + "loss": 0.0019, "step": 980 }, { "epoch": 6.566666666666666, - "grad_norm": 0.00849649403244257, - "learning_rate": 0.00015626666666666668, - "loss": 0.0016, + "grad_norm": 0.00958770141005516, + "learning_rate": 0.00011244444444444445, + "loss": 0.023, "step": 985 }, { "epoch": 6.6, - "grad_norm": 0.006580525077879429, - "learning_rate": 0.00015604444444444445, - "loss": 0.0015, + "grad_norm": 0.007859606295824051, + "learning_rate": 0.00011200000000000001, + "loss": 0.002, "step": 990 }, { "epoch": 6.633333333333333, - "grad_norm": 0.0061286864802241325, - "learning_rate": 0.00015582222222222222, - "loss": 0.0015, + "grad_norm": 0.007590743247419596, + "learning_rate": 0.00011155555555555556, + "loss": 0.0019, "step": 995 }, { "epoch": 6.666666666666667, - "grad_norm": 0.006802410818636417, - "learning_rate": 0.00015560000000000001, - "loss": 0.0016, + "grad_norm": 0.009227822534739971, + "learning_rate": 0.00011111111111111112, + "loss": 0.0019, "step": 1000 }, { "epoch": 6.666666666666667, - "eval_accuracy": 0.83, - "eval_f1": 0.8275958429402862, - "eval_loss": 0.9261183738708496, - "eval_precision": 0.8345358955097472, - "eval_recall": 0.83, - "eval_runtime": 7.9044, - "eval_samples_per_second": 151.813, - "eval_steps_per_second": 18.977, + "eval_accuracy": 0.8725, + "eval_f1": 0.8715797189061929, + "eval_loss": 0.697052001953125, + "eval_precision": 0.8726720129610521, + "eval_recall": 0.8725, + "eval_runtime": 7.787, + "eval_samples_per_second": 154.104, + "eval_steps_per_second": 19.263, "step": 1000 }, { "epoch": 6.7, - "grad_norm": 0.01814758963882923, - "learning_rate": 0.00015537777777777778, - "loss": 0.0015, + "grad_norm": 3.6635098457336426, + "learning_rate": 0.00011066666666666667, + "loss": 0.0336, "step": 1005 }, { "epoch": 6.733333333333333, - "grad_norm": 0.004863199312239885, - "learning_rate": 0.00015515555555555555, - "loss": 0.0014, + "grad_norm": 0.006350657902657986, + "learning_rate": 0.00011022222222222222, + "loss": 0.0018, "step": 1010 }, { "epoch": 6.766666666666667, - "grad_norm": 0.005453528370708227, - "learning_rate": 0.00015493333333333332, - "loss": 0.0015, + "grad_norm": 0.009451886638998985, + "learning_rate": 0.00010977777777777777, + "loss": 0.0018, "step": 1015 }, { "epoch": 6.8, - "grad_norm": 0.004969759378582239, - "learning_rate": 0.00015471111111111112, - "loss": 0.0014, + "grad_norm": 0.013161370530724525, + "learning_rate": 0.00010933333333333333, + "loss": 0.0023, "step": 1020 }, { "epoch": 6.833333333333333, - "grad_norm": 0.005656726658344269, - "learning_rate": 0.00015448888888888892, - "loss": 0.0014, + "grad_norm": 0.011307346634566784, + "learning_rate": 0.00010888888888888889, + "loss": 0.0279, "step": 1025 }, { "epoch": 6.866666666666667, - "grad_norm": 0.005711427889764309, - "learning_rate": 0.00015426666666666666, - "loss": 0.0079, + "grad_norm": 0.04682878032326698, + "learning_rate": 0.00010844444444444446, + "loss": 0.0018, "step": 1030 }, { "epoch": 6.9, - "grad_norm": 0.004988481290638447, - "learning_rate": 0.00015404444444444445, - "loss": 0.0013, + "grad_norm": 0.008936051279306412, + "learning_rate": 0.00010800000000000001, + "loss": 0.0031, "step": 1035 }, { "epoch": 6.933333333333334, - "grad_norm": 0.005721434485167265, - "learning_rate": 0.00015382222222222222, - "loss": 0.0014, + "grad_norm": 0.006677222438156605, + "learning_rate": 0.00010755555555555556, + "loss": 0.0017, "step": 1040 }, { "epoch": 6.966666666666667, - "grad_norm": 0.005452418699860573, - "learning_rate": 0.00015360000000000002, + "grad_norm": 0.005792958661913872, + "learning_rate": 0.00010711111111111111, "loss": 0.0017, "step": 1045 }, { "epoch": 7.0, - "grad_norm": 0.009533890523016453, - "learning_rate": 0.00015337777777777776, - "loss": 0.0403, + "grad_norm": 0.007080113515257835, + "learning_rate": 0.00010666666666666667, + "loss": 0.0017, "step": 1050 }, { "epoch": 7.033333333333333, - "grad_norm": 0.005036620888859034, - "learning_rate": 0.00015315555555555556, - "loss": 0.0013, + "grad_norm": 2.009840965270996, + "learning_rate": 0.00010622222222222222, + "loss": 0.0044, "step": 1055 }, { "epoch": 7.066666666666666, - "grad_norm": 0.004470932297408581, - "learning_rate": 0.00015293333333333336, - "loss": 0.0247, + "grad_norm": 0.0056399935856461525, + "learning_rate": 0.00010577777777777777, + "loss": 0.0015, "step": 1060 }, { "epoch": 7.1, - "grad_norm": 0.015962479636073112, - "learning_rate": 0.00015271111111111112, - "loss": 0.0013, + "grad_norm": 0.006461955141276121, + "learning_rate": 0.00010533333333333332, + "loss": 0.0016, "step": 1065 }, { "epoch": 7.133333333333334, - "grad_norm": 0.006552346982061863, - "learning_rate": 0.0001524888888888889, - "loss": 0.0017, + "grad_norm": 0.0062762657180428505, + "learning_rate": 0.0001048888888888889, + "loss": 0.0197, "step": 1070 }, { "epoch": 7.166666666666667, - "grad_norm": 0.004865413531661034, - "learning_rate": 0.00015226666666666666, - "loss": 0.002, + "grad_norm": 0.006046535912901163, + "learning_rate": 0.00010444444444444445, + "loss": 0.0016, "step": 1075 }, { "epoch": 7.2, - "grad_norm": 0.0048524439334869385, - "learning_rate": 0.00015204444444444446, - "loss": 0.0012, + "grad_norm": 0.010254153981804848, + "learning_rate": 0.00010400000000000001, + "loss": 0.0016, "step": 1080 }, { "epoch": 7.233333333333333, - "grad_norm": 0.004466760437935591, - "learning_rate": 0.00015182222222222223, - "loss": 0.0012, + "grad_norm": 0.013028674758970737, + "learning_rate": 0.00010355555555555556, + "loss": 0.0015, "step": 1085 }, { "epoch": 7.266666666666667, - "grad_norm": 0.0052523985505104065, - "learning_rate": 0.0001516, - "loss": 0.0012, + "grad_norm": 0.005585168953984976, + "learning_rate": 0.00010311111111111111, + "loss": 0.0235, "step": 1090 }, { "epoch": 7.3, - "grad_norm": 0.00493254978209734, - "learning_rate": 0.0001513777777777778, - "loss": 0.0012, + "grad_norm": 0.0057495832443237305, + "learning_rate": 0.00010266666666666666, + "loss": 0.0016, "step": 1095 }, { "epoch": 7.333333333333333, - "grad_norm": 0.004704814869910479, - "learning_rate": 0.00015115555555555556, - "loss": 0.0034, + "grad_norm": 0.00636147428303957, + "learning_rate": 0.00010222222222222222, + "loss": 0.0016, "step": 1100 }, { "epoch": 7.333333333333333, - "eval_accuracy": 0.8225, - "eval_f1": 0.8198743450489343, - "eval_loss": 1.108202338218689, - "eval_precision": 0.8315048116167695, - "eval_recall": 0.8225, - "eval_runtime": 7.9454, - "eval_samples_per_second": 151.03, - "eval_steps_per_second": 18.879, + "eval_accuracy": 0.8691666666666666, + "eval_f1": 0.8684794499991896, + "eval_loss": 0.7355449199676514, + "eval_precision": 0.8711397873384658, + "eval_recall": 0.8691666666666666, + "eval_runtime": 7.7969, + "eval_samples_per_second": 153.908, + "eval_steps_per_second": 19.239, "step": 1100 }, { "epoch": 7.366666666666666, - "grad_norm": 0.026772132143378258, - "learning_rate": 0.00015093333333333336, - "loss": 0.0083, + "grad_norm": 0.00934270117431879, + "learning_rate": 0.00010177777777777777, + "loss": 0.0277, "step": 1105 }, { "epoch": 7.4, - "grad_norm": 0.004391206428408623, - "learning_rate": 0.0001507111111111111, - "loss": 0.0011, + "grad_norm": 0.008090957999229431, + "learning_rate": 0.00010133333333333335, + "loss": 0.0126, "step": 1110 }, { "epoch": 7.433333333333334, - "grad_norm": 0.0039611877873539925, - "learning_rate": 0.0001504888888888889, - "loss": 0.0011, + "grad_norm": 0.005400181747972965, + "learning_rate": 0.0001008888888888889, + "loss": 0.0015, "step": 1115 }, { "epoch": 7.466666666666667, - "grad_norm": 0.004093847703188658, - "learning_rate": 0.00015026666666666667, - "loss": 0.0011, + "grad_norm": 0.007043109275400639, + "learning_rate": 0.00010044444444444445, + "loss": 0.0015, "step": 1120 }, { "epoch": 7.5, - "grad_norm": 0.005833392962813377, - "learning_rate": 0.00015004444444444447, - "loss": 0.0012, + "grad_norm": 0.007100725546479225, + "learning_rate": 0.0001, + "loss": 0.0016, "step": 1125 }, { "epoch": 7.533333333333333, - "grad_norm": 0.004348380956798792, - "learning_rate": 0.0001498222222222222, - "loss": 0.003, + "grad_norm": 0.006124288775026798, + "learning_rate": 9.955555555555556e-05, + "loss": 0.0016, "step": 1130 }, { "epoch": 7.566666666666666, - "grad_norm": 0.004488006699830294, - "learning_rate": 0.0001496, - "loss": 0.0011, + "grad_norm": 0.006189672276377678, + "learning_rate": 9.911111111111112e-05, + "loss": 0.008, "step": 1135 }, { "epoch": 7.6, - "grad_norm": 0.003980441018939018, - "learning_rate": 0.0001493777777777778, - "loss": 0.0017, + "grad_norm": 0.00563843734562397, + "learning_rate": 9.866666666666668e-05, + "loss": 0.0015, "step": 1140 }, { "epoch": 7.633333333333333, - "grad_norm": 0.004325131420046091, - "learning_rate": 0.00014915555555555557, - "loss": 0.0011, + "grad_norm": 0.014080536551773548, + "learning_rate": 9.822222222222223e-05, + "loss": 0.0016, "step": 1145 }, { "epoch": 7.666666666666667, - "grad_norm": 0.004081904422491789, - "learning_rate": 0.00014893333333333334, - "loss": 0.0011, + "grad_norm": 0.005841184873133898, + "learning_rate": 9.777777777777778e-05, + "loss": 0.016, "step": 1150 }, { "epoch": 7.7, - "grad_norm": 0.0036262180656194687, - "learning_rate": 0.0001487111111111111, - "loss": 0.001, + "grad_norm": 0.005096752196550369, + "learning_rate": 9.733333333333335e-05, + "loss": 0.002, "step": 1155 }, { "epoch": 7.733333333333333, - "grad_norm": 19.878599166870117, - "learning_rate": 0.0001484888888888889, - "loss": 0.0195, + "grad_norm": 0.005026632454246283, + "learning_rate": 9.68888888888889e-05, + "loss": 0.0025, "step": 1160 }, { "epoch": 7.766666666666667, - "grad_norm": 0.003985458519309759, - "learning_rate": 0.00014826666666666667, - "loss": 0.001, + "grad_norm": 0.018300028517842293, + "learning_rate": 9.644444444444445e-05, + "loss": 0.0015, "step": 1165 }, { "epoch": 7.8, - "grad_norm": 0.004552652593702078, - "learning_rate": 0.00014804444444444444, - "loss": 0.001, + "grad_norm": 2.449920892715454, + "learning_rate": 9.6e-05, + "loss": 0.0442, "step": 1170 }, { "epoch": 7.833333333333333, - "grad_norm": 0.00739583233371377, - "learning_rate": 0.00014782222222222224, - "loss": 0.0011, + "grad_norm": 0.005512863863259554, + "learning_rate": 9.555555555555557e-05, + "loss": 0.0016, "step": 1175 }, { "epoch": 7.866666666666667, - "grad_norm": 0.0037395500112324953, - "learning_rate": 0.0001476, - "loss": 0.0021, + "grad_norm": 0.008775515481829643, + "learning_rate": 9.511111111111112e-05, + "loss": 0.0017, "step": 1180 }, { "epoch": 7.9, - "grad_norm": 0.0040153139270842075, - "learning_rate": 0.00014737777777777778, - "loss": 0.001, + "grad_norm": 0.00823537353426218, + "learning_rate": 9.466666666666667e-05, + "loss": 0.0014, "step": 1185 }, { "epoch": 7.933333333333334, - "grad_norm": 0.0047799646854400635, - "learning_rate": 0.00014715555555555555, - "loss": 0.001, + "grad_norm": 0.005680783186107874, + "learning_rate": 9.422222222222223e-05, + "loss": 0.0016, "step": 1190 }, { "epoch": 7.966666666666667, - "grad_norm": 0.003760283114388585, - "learning_rate": 0.00014693333333333335, - "loss": 0.001, + "grad_norm": 0.004886616487056017, + "learning_rate": 9.377777777777779e-05, + "loss": 0.0014, "step": 1195 }, { "epoch": 8.0, - "grad_norm": 0.00450550951063633, - "learning_rate": 0.00014671111111111111, - "loss": 0.001, + "grad_norm": 0.005599088966846466, + "learning_rate": 9.333333333333334e-05, + "loss": 0.0136, "step": 1200 }, { "epoch": 8.0, - "eval_accuracy": 0.8366666666666667, - "eval_f1": 0.8343195238934529, - "eval_loss": 1.0581740140914917, - "eval_precision": 0.8399037328595633, - "eval_recall": 0.8366666666666667, - "eval_runtime": 8.0512, - "eval_samples_per_second": 149.045, - "eval_steps_per_second": 18.631, + "eval_accuracy": 0.8675, + "eval_f1": 0.8612831762245361, + "eval_loss": 0.9004424214363098, + "eval_precision": 0.8899594162393726, + "eval_recall": 0.8675, + "eval_runtime": 8.2029, + "eval_samples_per_second": 146.29, + "eval_steps_per_second": 18.286, "step": 1200 }, { "epoch": 8.033333333333333, - "grad_norm": 0.005245027597993612, - "learning_rate": 0.0001464888888888889, - "loss": 0.001, + "grad_norm": 0.020854858681559563, + "learning_rate": 9.28888888888889e-05, + "loss": 0.0015, "step": 1205 }, { "epoch": 8.066666666666666, - "grad_norm": 0.0037353041116148233, - "learning_rate": 0.00014626666666666665, - "loss": 0.001, + "grad_norm": 0.006977157201617956, + "learning_rate": 9.244444444444445e-05, + "loss": 0.0014, "step": 1210 }, { "epoch": 8.1, - "grad_norm": 0.005007241386920214, - "learning_rate": 0.00014604444444444445, - "loss": 0.0009, + "grad_norm": 0.00779557041823864, + "learning_rate": 9.200000000000001e-05, + "loss": 0.0014, "step": 1215 }, { "epoch": 8.133333333333333, - "grad_norm": 0.003921703435480595, - "learning_rate": 0.00014582222222222225, - "loss": 0.001, + "grad_norm": 0.005887886509299278, + "learning_rate": 9.155555555555557e-05, + "loss": 0.0385, "step": 1220 }, { "epoch": 8.166666666666666, - "grad_norm": 0.003917222376912832, - "learning_rate": 0.00014560000000000002, - "loss": 0.001, + "grad_norm": 0.005461497697979212, + "learning_rate": 9.111111111111112e-05, + "loss": 0.0014, "step": 1225 }, { "epoch": 8.2, - "grad_norm": 0.0032125599682331085, - "learning_rate": 0.00014537777777777778, - "loss": 0.0009, + "grad_norm": 0.004963870160281658, + "learning_rate": 9.066666666666667e-05, + "loss": 0.0015, "step": 1230 }, { "epoch": 8.233333333333333, - "grad_norm": 0.0035545711871236563, - "learning_rate": 0.00014515555555555555, - "loss": 0.0009, + "grad_norm": 0.006015283986926079, + "learning_rate": 9.022222222222224e-05, + "loss": 0.0016, "step": 1235 }, { "epoch": 8.266666666666667, - "grad_norm": 0.003795257769525051, - "learning_rate": 0.00014493333333333335, - "loss": 0.0009, + "grad_norm": 0.011377650313079357, + "learning_rate": 8.977777777777779e-05, + "loss": 0.0022, "step": 1240 }, { "epoch": 8.3, - "grad_norm": 0.0035880764480680227, - "learning_rate": 0.00014471111111111112, - "loss": 0.0009, + "grad_norm": 0.006679036188870668, + "learning_rate": 8.933333333333334e-05, + "loss": 0.0014, "step": 1245 }, { "epoch": 8.333333333333334, - "grad_norm": 0.005574722308665514, - "learning_rate": 0.0001444888888888889, - "loss": 0.0009, + "grad_norm": 0.008043400943279266, + "learning_rate": 8.888888888888889e-05, + "loss": 0.0103, "step": 1250 }, { "epoch": 8.366666666666667, - "grad_norm": 0.003218415193259716, - "learning_rate": 0.00014426666666666669, - "loss": 0.0009, + "grad_norm": 0.010470683686435223, + "learning_rate": 8.844444444444445e-05, + "loss": 0.0014, "step": 1255 }, { "epoch": 8.4, - "grad_norm": 0.003668635617941618, - "learning_rate": 0.00014404444444444446, - "loss": 0.0009, + "grad_norm": 0.03802667185664177, + "learning_rate": 8.800000000000001e-05, + "loss": 0.0015, "step": 1260 }, { "epoch": 8.433333333333334, - "grad_norm": 0.004534270614385605, - "learning_rate": 0.00014382222222222222, - "loss": 0.0009, + "grad_norm": 0.005721381865441799, + "learning_rate": 8.755555555555556e-05, + "loss": 0.0457, "step": 1265 }, { "epoch": 8.466666666666667, - "grad_norm": 0.008046267554163933, - "learning_rate": 0.0001436, - "loss": 0.0009, + "grad_norm": 0.006967389490455389, + "learning_rate": 8.711111111111112e-05, + "loss": 0.0014, "step": 1270 }, { "epoch": 8.5, - "grad_norm": 0.004306700546294451, - "learning_rate": 0.0001433777777777778, - "loss": 0.0009, + "grad_norm": 0.005035760346800089, + "learning_rate": 8.666666666666667e-05, + "loss": 0.0013, "step": 1275 }, { "epoch": 8.533333333333333, - "grad_norm": 0.002993341302499175, - "learning_rate": 0.00014315555555555556, - "loss": 0.0008, + "grad_norm": 0.004982517100870609, + "learning_rate": 8.622222222222222e-05, + "loss": 0.0013, "step": 1280 }, { "epoch": 8.566666666666666, - "grad_norm": 0.007765995338559151, - "learning_rate": 0.00014293333333333333, - "loss": 0.0008, + "grad_norm": 0.005964560434222221, + "learning_rate": 8.577777777777777e-05, + "loss": 0.0013, "step": 1285 }, { "epoch": 8.6, - "grad_norm": 0.002929247450083494, - "learning_rate": 0.00014271111111111113, - "loss": 0.0008, + "grad_norm": 0.004523159936070442, + "learning_rate": 8.533333333333334e-05, + "loss": 0.0012, "step": 1290 }, { "epoch": 8.633333333333333, - "grad_norm": 0.0034461619798094034, - "learning_rate": 0.0001424888888888889, - "loss": 0.0009, + "grad_norm": 0.005507016088813543, + "learning_rate": 8.488888888888889e-05, + "loss": 0.0013, "step": 1295 }, { "epoch": 8.666666666666666, - "grad_norm": 0.0030610139947384596, - "learning_rate": 0.0001422666666666667, - "loss": 0.0008, + "grad_norm": 0.004766958765685558, + "learning_rate": 8.444444444444444e-05, + "loss": 0.0013, "step": 1300 }, { "epoch": 8.666666666666666, - "eval_accuracy": 0.8416666666666667, - "eval_f1": 0.8392758533260534, - "eval_loss": 1.0387274026870728, - "eval_precision": 0.8446442532326071, - "eval_recall": 0.8416666666666667, - "eval_runtime": 7.9734, - "eval_samples_per_second": 150.501, - "eval_steps_per_second": 18.813, + "eval_accuracy": 0.875, + "eval_f1": 0.8714567102479172, + "eval_loss": 0.7645782232284546, + "eval_precision": 0.883720019877876, + "eval_recall": 0.875, + "eval_runtime": 7.8517, + "eval_samples_per_second": 152.833, + "eval_steps_per_second": 19.104, "step": 1300 }, { "epoch": 8.7, - "grad_norm": 0.004035680554807186, - "learning_rate": 0.00014204444444444443, - "loss": 0.0008, + "grad_norm": 0.008234993554651737, + "learning_rate": 8.4e-05, + "loss": 0.0012, "step": 1305 }, { "epoch": 8.733333333333333, - "grad_norm": 0.0029723625630140305, - "learning_rate": 0.00014182222222222223, - "loss": 0.0008, + "grad_norm": 0.00484064593911171, + "learning_rate": 8.355555555555556e-05, + "loss": 0.0012, "step": 1310 }, { "epoch": 8.766666666666667, - "grad_norm": 0.00282120518386364, - "learning_rate": 0.0001416, - "loss": 0.0069, + "grad_norm": 0.004528046119958162, + "learning_rate": 8.311111111111111e-05, + "loss": 0.0012, "step": 1315 }, { "epoch": 8.8, - "grad_norm": 0.00412896741181612, - "learning_rate": 0.0001413777777777778, - "loss": 0.0008, + "grad_norm": 0.005345701240003109, + "learning_rate": 8.266666666666667e-05, + "loss": 0.0012, "step": 1320 }, { "epoch": 8.833333333333334, - "grad_norm": 9.05677604675293, - "learning_rate": 0.00014115555555555557, - "loss": 0.0064, + "grad_norm": 0.006082308944314718, + "learning_rate": 8.222222222222222e-05, + "loss": 0.0012, "step": 1325 }, { "epoch": 8.866666666666667, - "grad_norm": 0.003379584988579154, - "learning_rate": 0.00014093333333333333, - "loss": 0.0016, + "grad_norm": 0.004798177629709244, + "learning_rate": 8.177777777777778e-05, + "loss": 0.0012, "step": 1330 }, { "epoch": 8.9, - "grad_norm": 2.10893177986145, - "learning_rate": 0.00014071111111111113, - "loss": 0.0016, + "grad_norm": 0.0055374386720359325, + "learning_rate": 8.133333333333334e-05, + "loss": 0.0012, "step": 1335 }, { "epoch": 8.933333333333334, - "grad_norm": 0.003100164234638214, - "learning_rate": 0.0001404888888888889, - "loss": 0.0008, + "grad_norm": 0.004011641256511211, + "learning_rate": 8.088888888888889e-05, + "loss": 0.0011, "step": 1340 }, { "epoch": 8.966666666666667, - "grad_norm": 0.0031860037706792355, - "learning_rate": 0.00014026666666666667, - "loss": 0.0077, + "grad_norm": 0.14710482954978943, + "learning_rate": 8.044444444444444e-05, + "loss": 0.0013, "step": 1345 }, { "epoch": 9.0, - "grad_norm": 0.00359746185131371, - "learning_rate": 0.00014004444444444444, - "loss": 0.0049, + "grad_norm": 0.005434962920844555, + "learning_rate": 8e-05, + "loss": 0.0011, "step": 1350 }, { "epoch": 9.033333333333333, - "grad_norm": 0.006869759876281023, - "learning_rate": 0.00013982222222222224, - "loss": 0.0008, + "grad_norm": 0.004824881907552481, + "learning_rate": 7.955555555555556e-05, + "loss": 0.0011, "step": 1355 }, { "epoch": 9.066666666666666, - "grad_norm": 0.00739991944283247, - "learning_rate": 0.0001396, - "loss": 0.0642, + "grad_norm": 0.004165115766227245, + "learning_rate": 7.911111111111111e-05, + "loss": 0.0011, "step": 1360 }, { "epoch": 9.1, - "grad_norm": 0.004776425659656525, - "learning_rate": 0.00013937777777777777, - "loss": 0.0032, + "grad_norm": 0.00500259455293417, + "learning_rate": 7.866666666666666e-05, + "loss": 0.0011, "step": 1365 }, { "epoch": 9.133333333333333, - "grad_norm": 1.8323001861572266, - "learning_rate": 0.00013915555555555557, - "loss": 0.0481, + "grad_norm": 0.004787175916135311, + "learning_rate": 7.822222222222223e-05, + "loss": 0.0011, "step": 1370 }, { "epoch": 9.166666666666666, - "grad_norm": 0.0026926924474537373, - "learning_rate": 0.00013893333333333334, - "loss": 0.0008, + "grad_norm": 0.003821632359176874, + "learning_rate": 7.777777777777778e-05, + "loss": 0.0011, "step": 1375 }, { "epoch": 9.2, - "grad_norm": 0.003003367455676198, - "learning_rate": 0.00013871111111111114, - "loss": 0.0008, + "grad_norm": 0.004095276817679405, + "learning_rate": 7.733333333333333e-05, + "loss": 0.0011, "step": 1380 }, { "epoch": 9.233333333333333, - "grad_norm": 0.0033504138700664043, - "learning_rate": 0.00013848888888888888, - "loss": 0.0009, + "grad_norm": 0.004395100753754377, + "learning_rate": 7.688888888888889e-05, + "loss": 0.0011, "step": 1385 }, { "epoch": 9.266666666666667, - "grad_norm": 0.008986995555460453, - "learning_rate": 0.00013826666666666668, - "loss": 0.0542, + "grad_norm": 0.004819679539650679, + "learning_rate": 7.644444444444445e-05, + "loss": 0.0011, "step": 1390 }, { "epoch": 9.3, - "grad_norm": 0.003203814849257469, - "learning_rate": 0.00013804444444444444, - "loss": 0.0008, + "grad_norm": 0.0041588409803807735, + "learning_rate": 7.6e-05, + "loss": 0.0011, "step": 1395 }, { "epoch": 9.333333333333334, - "grad_norm": 0.004470728803426027, - "learning_rate": 0.00013782222222222224, - "loss": 0.001, + "grad_norm": 0.005976141896098852, + "learning_rate": 7.555555555555556e-05, + "loss": 0.0011, "step": 1400 }, { "epoch": 9.333333333333334, - "eval_accuracy": 0.8433333333333334, - "eval_f1": 0.8401871475277058, - "eval_loss": 0.952804684638977, - "eval_precision": 0.853039820913094, - "eval_recall": 0.8433333333333334, - "eval_runtime": 7.9733, - "eval_samples_per_second": 150.502, - "eval_steps_per_second": 18.813, + "eval_accuracy": 0.875, + "eval_f1": 0.8729200893360024, + "eval_loss": 0.783310055732727, + "eval_precision": 0.8786497885382714, + "eval_recall": 0.875, + "eval_runtime": 7.7317, + "eval_samples_per_second": 155.204, + "eval_steps_per_second": 19.401, "step": 1400 }, { "epoch": 9.366666666666667, - "grad_norm": 0.0062737795524299145, - "learning_rate": 0.00013759999999999998, - "loss": 0.0013, + "grad_norm": 0.004082676488906145, + "learning_rate": 7.511111111111111e-05, + "loss": 0.001, "step": 1405 }, { "epoch": 9.4, - "grad_norm": 0.00765831908211112, - "learning_rate": 0.00013737777777777778, - "loss": 0.0013, + "grad_norm": 0.004067440517246723, + "learning_rate": 7.466666666666667e-05, + "loss": 0.0011, "step": 1410 }, { "epoch": 9.433333333333334, - "grad_norm": 0.4445042312145233, - "learning_rate": 0.00013715555555555558, - "loss": 0.0017, + "grad_norm": 0.003930847160518169, + "learning_rate": 7.422222222222223e-05, + "loss": 0.001, "step": 1415 }, { "epoch": 9.466666666666667, - "grad_norm": 0.003492903197184205, - "learning_rate": 0.00013693333333333335, - "loss": 0.0009, + "grad_norm": 0.0043428437784314156, + "learning_rate": 7.377777777777778e-05, + "loss": 0.0011, "step": 1420 }, { "epoch": 9.5, - "grad_norm": 0.08516275137662888, - "learning_rate": 0.00013671111111111112, - "loss": 0.001, + "grad_norm": 0.0040993900038301945, + "learning_rate": 7.333333333333333e-05, + "loss": 0.0011, "step": 1425 }, { "epoch": 9.533333333333333, - "grad_norm": 0.0039756721816957, - "learning_rate": 0.00013648888888888888, - "loss": 0.0009, + "grad_norm": 0.0040678596124053, + "learning_rate": 7.28888888888889e-05, + "loss": 0.001, "step": 1430 }, { "epoch": 9.566666666666666, - "grad_norm": 0.004015395417809486, - "learning_rate": 0.00013626666666666668, - "loss": 0.0009, + "grad_norm": 0.0044206189922988415, + "learning_rate": 7.244444444444445e-05, + "loss": 0.001, "step": 1435 }, { "epoch": 9.6, - "grad_norm": 0.0038865474052727222, - "learning_rate": 0.00013604444444444445, - "loss": 0.012, + "grad_norm": 0.004022201523184776, + "learning_rate": 7.2e-05, + "loss": 0.001, "step": 1440 }, { "epoch": 9.633333333333333, - "grad_norm": 0.3675805926322937, - "learning_rate": 0.00013582222222222222, - "loss": 0.0189, + "grad_norm": 0.0038934999611228704, + "learning_rate": 7.155555555555555e-05, + "loss": 0.001, "step": 1445 }, { "epoch": 9.666666666666666, - "grad_norm": 0.0034215962514281273, - "learning_rate": 0.00013560000000000002, - "loss": 0.0394, + "grad_norm": 0.004252017475664616, + "learning_rate": 7.111111111111112e-05, + "loss": 0.0011, "step": 1450 }, { "epoch": 9.7, - "grad_norm": 0.00599896302446723, - "learning_rate": 0.00013537777777777779, - "loss": 0.031, + "grad_norm": 0.004141090903431177, + "learning_rate": 7.066666666666667e-05, + "loss": 0.001, "step": 1455 }, { "epoch": 9.733333333333333, - "grad_norm": 0.0037208639550954103, - "learning_rate": 0.00013515555555555556, - "loss": 0.0009, + "grad_norm": 0.004029363393783569, + "learning_rate": 7.022222222222222e-05, + "loss": 0.001, "step": 1460 }, { "epoch": 9.766666666666667, - "grad_norm": 13.184732437133789, - "learning_rate": 0.00013493333333333332, - "loss": 0.0224, + "grad_norm": 0.003818294033408165, + "learning_rate": 6.977777777777779e-05, + "loss": 0.001, "step": 1465 }, { "epoch": 9.8, - "grad_norm": 0.7009985446929932, - "learning_rate": 0.00013471111111111112, - "loss": 0.0034, + "grad_norm": 0.00408902857452631, + "learning_rate": 6.933333333333334e-05, + "loss": 0.001, "step": 1470 }, { "epoch": 9.833333333333334, - "grad_norm": 0.0037986484821885824, - "learning_rate": 0.0001344888888888889, - "loss": 0.0217, + "grad_norm": 0.003931113518774509, + "learning_rate": 6.88888888888889e-05, + "loss": 0.001, "step": 1475 }, { "epoch": 9.866666666666667, - "grad_norm": 0.004149803426116705, - "learning_rate": 0.0001342666666666667, - "loss": 0.0046, + "grad_norm": 0.004167790524661541, + "learning_rate": 6.844444444444445e-05, + "loss": 0.0009, "step": 1480 }, { "epoch": 9.9, - "grad_norm": 10.728241920471191, - "learning_rate": 0.00013404444444444446, - "loss": 0.0956, + "grad_norm": 0.004067119210958481, + "learning_rate": 6.800000000000001e-05, + "loss": 0.001, "step": 1485 }, { "epoch": 9.933333333333334, - "grad_norm": 0.0033866181038320065, - "learning_rate": 0.00013382222222222223, - "loss": 0.0008, + "grad_norm": 0.004031353630125523, + "learning_rate": 6.755555555555557e-05, + "loss": 0.001, "step": 1490 }, { "epoch": 9.966666666666667, - "grad_norm": 0.052472010254859924, - "learning_rate": 0.00013360000000000002, - "loss": 0.0431, + "grad_norm": 0.0036198000889271498, + "learning_rate": 6.711111111111112e-05, + "loss": 0.0009, "step": 1495 }, { "epoch": 10.0, - "grad_norm": 5.242526054382324, - "learning_rate": 0.0001333777777777778, - "loss": 0.0262, + "grad_norm": 0.003527268534526229, + "learning_rate": 6.666666666666667e-05, + "loss": 0.0009, "step": 1500 }, { "epoch": 10.0, - "eval_accuracy": 0.8533333333333334, - "eval_f1": 0.8524390363423641, - "eval_loss": 0.8878291845321655, - "eval_precision": 0.8615246278619596, - "eval_recall": 0.8533333333333334, - "eval_runtime": 7.8872, - "eval_samples_per_second": 152.146, - "eval_steps_per_second": 19.018, + "eval_accuracy": 0.8766666666666667, + "eval_f1": 0.8747314536108138, + "eval_loss": 0.796841561794281, + "eval_precision": 0.8800272956525502, + "eval_recall": 0.8766666666666667, + "eval_runtime": 7.6125, + "eval_samples_per_second": 157.636, + "eval_steps_per_second": 19.704, "step": 1500 }, { "epoch": 10.033333333333333, - "grad_norm": 0.0035599737893790007, - "learning_rate": 0.00013315555555555556, - "loss": 0.0009, + "grad_norm": 0.00367309944704175, + "learning_rate": 6.622222222222224e-05, + "loss": 0.001, "step": 1505 }, { "epoch": 10.066666666666666, - "grad_norm": 0.8671003580093384, - "learning_rate": 0.00013293333333333333, - "loss": 0.0025, + "grad_norm": 0.0034565224777907133, + "learning_rate": 6.577777777777779e-05, + "loss": 0.0009, "step": 1510 }, { "epoch": 10.1, - "grad_norm": 0.0036073531955480576, - "learning_rate": 0.00013271111111111113, + "grad_norm": 0.003840840421617031, + "learning_rate": 6.533333333333334e-05, "loss": 0.0009, "step": 1515 }, { "epoch": 10.133333333333333, - "grad_norm": 1.2625287771224976, - "learning_rate": 0.0001324888888888889, - "loss": 0.0053, + "grad_norm": 0.003424514550715685, + "learning_rate": 6.488888888888889e-05, + "loss": 0.0009, "step": 1520 }, { "epoch": 10.166666666666666, - "grad_norm": 0.0035825197119265795, - "learning_rate": 0.00013226666666666667, + "grad_norm": 0.004181622993201017, + "learning_rate": 6.444444444444446e-05, "loss": 0.0009, "step": 1525 }, { "epoch": 10.2, - "grad_norm": 4.411861896514893, - "learning_rate": 0.00013204444444444446, - "loss": 0.0598, + "grad_norm": 0.0035268214996904135, + "learning_rate": 6.400000000000001e-05, + "loss": 0.0009, "step": 1530 }, { "epoch": 10.233333333333333, - "grad_norm": 0.007685836870223284, - "learning_rate": 0.00013182222222222223, - "loss": 0.0022, + "grad_norm": 0.003380510490387678, + "learning_rate": 6.355555555555556e-05, + "loss": 0.0009, "step": 1535 }, { "epoch": 10.266666666666667, - "grad_norm": 0.004477541893720627, - "learning_rate": 0.0001316, - "loss": 0.0397, + "grad_norm": 0.004011547192931175, + "learning_rate": 6.311111111111112e-05, + "loss": 0.0009, "step": 1540 }, { "epoch": 10.3, - "grad_norm": 0.027370743453502655, - "learning_rate": 0.00013137777777777777, - "loss": 0.0408, + "grad_norm": 0.00363144651055336, + "learning_rate": 6.266666666666667e-05, + "loss": 0.0009, "step": 1545 }, { "epoch": 10.333333333333334, - "grad_norm": 0.004752095323055983, - "learning_rate": 0.00013115555555555557, - "loss": 0.0344, + "grad_norm": 0.00364690856076777, + "learning_rate": 6.222222222222222e-05, + "loss": 0.0009, "step": 1550 }, { "epoch": 10.366666666666667, - "grad_norm": 0.003220055252313614, - "learning_rate": 0.00013093333333333334, - "loss": 0.0486, + "grad_norm": 0.0034849499352276325, + "learning_rate": 6.177777777777779e-05, + "loss": 0.0009, "step": 1555 }, { "epoch": 10.4, - "grad_norm": 6.801137924194336, - "learning_rate": 0.0001307111111111111, - "loss": 0.0056, + "grad_norm": 0.0035291460808366537, + "learning_rate": 6.133333333333334e-05, + "loss": 0.0009, "step": 1560 }, { "epoch": 10.433333333333334, - "grad_norm": 0.006935578770935535, - "learning_rate": 0.0001304888888888889, - "loss": 0.0307, + "grad_norm": 0.004461485426872969, + "learning_rate": 6.08888888888889e-05, + "loss": 0.0009, "step": 1565 }, { "epoch": 10.466666666666667, - "grad_norm": 0.03765219822525978, - "learning_rate": 0.00013026666666666667, - "loss": 0.0332, + "grad_norm": 0.0032543542329221964, + "learning_rate": 6.044444444444445e-05, + "loss": 0.0009, "step": 1570 }, { "epoch": 10.5, - "grad_norm": 2.209925889968872, - "learning_rate": 0.00013004444444444447, - "loss": 0.0347, + "grad_norm": 0.0033993003889918327, + "learning_rate": 6e-05, + "loss": 0.0009, "step": 1575 }, { "epoch": 10.533333333333333, - "grad_norm": 0.021492403000593185, - "learning_rate": 0.0001298222222222222, - "loss": 0.0016, + "grad_norm": 0.0034861667081713676, + "learning_rate": 5.9555555555555554e-05, + "loss": 0.0009, "step": 1580 }, { "epoch": 10.566666666666666, - "grad_norm": 0.007099849637597799, - "learning_rate": 0.0001296, - "loss": 0.0023, + "grad_norm": 0.0031639200169593096, + "learning_rate": 5.911111111111112e-05, + "loss": 0.0009, "step": 1585 }, { "epoch": 10.6, - "grad_norm": 0.01035538874566555, - "learning_rate": 0.00012937777777777778, - "loss": 0.0027, + "grad_norm": 0.003308126935735345, + "learning_rate": 5.866666666666667e-05, + "loss": 0.0009, "step": 1590 }, { "epoch": 10.633333333333333, - "grad_norm": 0.04894666001200676, - "learning_rate": 0.00012915555555555557, - "loss": 0.037, + "grad_norm": 0.0034243811387568712, + "learning_rate": 5.8222222222222224e-05, + "loss": 0.0009, "step": 1595 }, { "epoch": 10.666666666666666, - "grad_norm": 0.007478413172066212, - "learning_rate": 0.00012893333333333334, - "loss": 0.001, + "grad_norm": 0.003839626908302307, + "learning_rate": 5.7777777777777776e-05, + "loss": 0.0009, "step": 1600 }, { "epoch": 10.666666666666666, - "eval_accuracy": 0.8316666666666667, - "eval_f1": 0.8309965091021129, - "eval_loss": 0.9026326537132263, - "eval_precision": 0.8482182523492193, - "eval_recall": 0.8316666666666667, - "eval_runtime": 7.9332, - "eval_samples_per_second": 151.262, - "eval_steps_per_second": 18.908, + "eval_accuracy": 0.8758333333333334, + "eval_f1": 0.8737771957714826, + "eval_loss": 0.8085426092147827, + "eval_precision": 0.8790248498297153, + "eval_recall": 0.8758333333333334, + "eval_runtime": 7.5837, + "eval_samples_per_second": 158.233, + "eval_steps_per_second": 19.779, "step": 1600 }, { "epoch": 10.7, - "grad_norm": 6.027993679046631, - "learning_rate": 0.0001287111111111111, - "loss": 0.0254, + "grad_norm": 0.003215189091861248, + "learning_rate": 5.7333333333333336e-05, + "loss": 0.0009, "step": 1605 }, { "epoch": 10.733333333333333, - "grad_norm": 0.0035206160973757505, - "learning_rate": 0.0001284888888888889, - "loss": 0.0012, + "grad_norm": 0.003678858047351241, + "learning_rate": 5.6888888888888895e-05, + "loss": 0.0009, "step": 1610 }, { "epoch": 10.766666666666667, - "grad_norm": 0.06300842016935349, - "learning_rate": 0.00012826666666666668, - "loss": 0.001, + "grad_norm": 0.0038577329833060503, + "learning_rate": 5.644444444444445e-05, + "loss": 0.0009, "step": 1615 }, { "epoch": 10.8, - "grad_norm": 0.0031334508676081896, - "learning_rate": 0.00012804444444444445, - "loss": 0.0014, + "grad_norm": 0.0034114550799131393, + "learning_rate": 5.6000000000000006e-05, + "loss": 0.0009, "step": 1620 }, { "epoch": 10.833333333333334, - "grad_norm": 0.013498328626155853, - "learning_rate": 0.00012782222222222222, - "loss": 0.002, + "grad_norm": 0.003764358116313815, + "learning_rate": 5.555555555555556e-05, + "loss": 0.0009, "step": 1625 }, { "epoch": 10.866666666666667, - "grad_norm": 0.04579751566052437, - "learning_rate": 0.0001276, + "grad_norm": 0.0032785392832010984, + "learning_rate": 5.511111111111111e-05, "loss": 0.0008, "step": 1630 }, { "epoch": 10.9, - "grad_norm": 0.0026082443073391914, - "learning_rate": 0.00012737777777777778, - "loss": 0.0007, + "grad_norm": 0.0031972250435501337, + "learning_rate": 5.466666666666666e-05, + "loss": 0.0009, "step": 1635 }, { "epoch": 10.933333333333334, - "grad_norm": 0.002897664438933134, - "learning_rate": 0.00012715555555555555, - "loss": 0.0007, + "grad_norm": 0.00348114687949419, + "learning_rate": 5.422222222222223e-05, + "loss": 0.0009, "step": 1640 }, { "epoch": 10.966666666666667, - "grad_norm": 0.0025454312562942505, - "learning_rate": 0.00012693333333333335, - "loss": 0.0008, + "grad_norm": 0.003187872702255845, + "learning_rate": 5.377777777777778e-05, + "loss": 0.0009, "step": 1645 }, { "epoch": 11.0, - "grad_norm": 0.006774136796593666, - "learning_rate": 0.00012671111111111112, - "loss": 0.0007, + "grad_norm": 0.003411698155105114, + "learning_rate": 5.333333333333333e-05, + "loss": 0.0008, "step": 1650 }, { "epoch": 11.033333333333333, - "grad_norm": 0.002655475400388241, - "learning_rate": 0.0001264888888888889, - "loss": 0.0006, + "grad_norm": 0.0033328530844300985, + "learning_rate": 5.2888888888888885e-05, + "loss": 0.0008, "step": 1655 }, { "epoch": 11.066666666666666, - "grad_norm": 0.0028948774561285973, - "learning_rate": 0.00012626666666666665, - "loss": 0.0007, + "grad_norm": 0.003470401046797633, + "learning_rate": 5.244444444444445e-05, + "loss": 0.0008, "step": 1660 }, { "epoch": 11.1, - "grad_norm": 0.0025184093974530697, - "learning_rate": 0.00012604444444444445, - "loss": 0.0007, + "grad_norm": 0.0032659885473549366, + "learning_rate": 5.2000000000000004e-05, + "loss": 0.0008, "step": 1665 }, { "epoch": 11.133333333333333, - "grad_norm": 0.002705099293962121, - "learning_rate": 0.00012582222222222222, - "loss": 0.0007, + "grad_norm": 0.0033511680085211992, + "learning_rate": 5.1555555555555556e-05, + "loss": 0.0008, "step": 1670 }, { "epoch": 11.166666666666666, - "grad_norm": 0.002469747792929411, - "learning_rate": 0.00012560000000000002, - "loss": 0.0006, + "grad_norm": 0.00303857633844018, + "learning_rate": 5.111111111111111e-05, + "loss": 0.0008, "step": 1675 }, { "epoch": 11.2, - "grad_norm": 0.003832346061244607, - "learning_rate": 0.0001253777777777778, - "loss": 0.0007, + "grad_norm": 0.003973283804953098, + "learning_rate": 5.0666666666666674e-05, + "loss": 0.0008, "step": 1680 }, { "epoch": 11.233333333333333, - "grad_norm": 0.002486497163772583, - "learning_rate": 0.00012515555555555556, - "loss": 0.0006, + "grad_norm": 0.003176705678924918, + "learning_rate": 5.0222222222222226e-05, + "loss": 0.0008, "step": 1685 }, { "epoch": 11.266666666666667, - "grad_norm": 0.002437813440337777, - "learning_rate": 0.00012493333333333335, - "loss": 0.0006, + "grad_norm": 0.0032490696758031845, + "learning_rate": 4.977777777777778e-05, + "loss": 0.0008, "step": 1690 }, { "epoch": 11.3, - "grad_norm": 0.0026881566736847162, - "learning_rate": 0.00012471111111111112, - "loss": 0.0006, + "grad_norm": 0.00368178216740489, + "learning_rate": 4.933333333333334e-05, + "loss": 0.0008, "step": 1695 }, { "epoch": 11.333333333333334, - "grad_norm": 0.0023811624851077795, - "learning_rate": 0.0001244888888888889, - "loss": 0.0006, + "grad_norm": 0.0035106376744806767, + "learning_rate": 4.888888888888889e-05, + "loss": 0.0008, "step": 1700 }, { "epoch": 11.333333333333334, - "eval_accuracy": 0.8558333333333333, - "eval_f1": 0.8501018287622119, - "eval_loss": 0.8519735932350159, - "eval_precision": 0.8664586757448554, - "eval_recall": 0.8558333333333333, - "eval_runtime": 7.9173, - "eval_samples_per_second": 151.567, - "eval_steps_per_second": 18.946, + "eval_accuracy": 0.8758333333333334, + "eval_f1": 0.8737771957714826, + "eval_loss": 0.8175358176231384, + "eval_precision": 0.8790248498297153, + "eval_recall": 0.8758333333333334, + "eval_runtime": 7.5381, + "eval_samples_per_second": 159.192, + "eval_steps_per_second": 19.899, "step": 1700 }, { "epoch": 11.366666666666667, - "grad_norm": 0.003554336028173566, - "learning_rate": 0.00012426666666666666, - "loss": 0.0006, + "grad_norm": 0.003947464283555746, + "learning_rate": 4.844444444444445e-05, + "loss": 0.0008, "step": 1705 }, { "epoch": 11.4, - "grad_norm": 0.002412047702819109, - "learning_rate": 0.00012404444444444446, - "loss": 0.0006, + "grad_norm": 0.003113075392320752, + "learning_rate": 4.8e-05, + "loss": 0.0008, "step": 1710 }, { "epoch": 11.433333333333334, - "grad_norm": 0.0025952262803912163, - "learning_rate": 0.00012382222222222223, - "loss": 0.0006, + "grad_norm": 0.003001824487000704, + "learning_rate": 4.755555555555556e-05, + "loss": 0.0008, "step": 1715 }, { "epoch": 11.466666666666667, - "grad_norm": 0.01876571774482727, - "learning_rate": 0.0001236, - "loss": 0.0006, + "grad_norm": 0.003452033270150423, + "learning_rate": 4.711111111111111e-05, + "loss": 0.0008, "step": 1720 }, { "epoch": 11.5, - "grad_norm": 0.002651629503816366, - "learning_rate": 0.0001233777777777778, - "loss": 0.0006, + "grad_norm": 0.0036192480474710464, + "learning_rate": 4.666666666666667e-05, + "loss": 0.0008, "step": 1725 }, { "epoch": 11.533333333333333, - "grad_norm": 0.0035275372210890055, - "learning_rate": 0.00012315555555555556, - "loss": 0.0006, + "grad_norm": 0.0037573580630123615, + "learning_rate": 4.6222222222222224e-05, + "loss": 0.0008, "step": 1730 }, { "epoch": 11.566666666666666, - "grad_norm": 0.002643986837938428, - "learning_rate": 0.00012293333333333336, - "loss": 0.0006, + "grad_norm": 0.003448236733675003, + "learning_rate": 4.577777777777778e-05, + "loss": 0.0008, "step": 1735 }, { "epoch": 11.6, - "grad_norm": 0.002460889518260956, - "learning_rate": 0.0001227111111111111, - "loss": 0.0006, + "grad_norm": 0.003540896577760577, + "learning_rate": 4.5333333333333335e-05, + "loss": 0.0008, "step": 1740 }, { "epoch": 11.633333333333333, - "grad_norm": 0.0023469976149499416, - "learning_rate": 0.0001224888888888889, - "loss": 0.0005, + "grad_norm": 0.003362980904057622, + "learning_rate": 4.4888888888888894e-05, + "loss": 0.0008, "step": 1745 }, { "epoch": 11.666666666666666, - "grad_norm": 0.0024086658377200365, - "learning_rate": 0.00012226666666666667, - "loss": 0.0006, + "grad_norm": 0.0032853398006409407, + "learning_rate": 4.4444444444444447e-05, + "loss": 0.0008, "step": 1750 }, { "epoch": 11.7, - "grad_norm": 0.0024395484942942858, - "learning_rate": 0.00012204444444444445, - "loss": 0.0006, + "grad_norm": 0.003439277410507202, + "learning_rate": 4.4000000000000006e-05, + "loss": 0.0008, "step": 1755 }, { "epoch": 11.733333333333333, - "grad_norm": 0.002321046544238925, - "learning_rate": 0.00012182222222222223, - "loss": 0.0006, + "grad_norm": 0.0033070144709199667, + "learning_rate": 4.355555555555556e-05, + "loss": 0.0008, "step": 1760 }, { "epoch": 11.766666666666667, - "grad_norm": 0.002310672076418996, - "learning_rate": 0.0001216, - "loss": 0.0005, + "grad_norm": 0.0030735114123672247, + "learning_rate": 4.311111111111111e-05, + "loss": 0.0008, "step": 1765 }, { "epoch": 11.8, - "grad_norm": 0.0020629591308534145, - "learning_rate": 0.00012137777777777778, - "loss": 0.0005, + "grad_norm": 0.003919747192412615, + "learning_rate": 4.266666666666667e-05, + "loss": 0.0008, "step": 1770 }, { "epoch": 11.833333333333334, - "grad_norm": 0.0032239488791674376, - "learning_rate": 0.00012115555555555555, - "loss": 0.0005, + "grad_norm": 0.0032140593975782394, + "learning_rate": 4.222222222222222e-05, + "loss": 0.0008, "step": 1775 }, { "epoch": 11.866666666666667, - "grad_norm": 0.0023936324287205935, - "learning_rate": 0.00012093333333333334, - "loss": 0.0005, + "grad_norm": 0.0031508824322372675, + "learning_rate": 4.177777777777778e-05, + "loss": 0.0008, "step": 1780 }, { "epoch": 11.9, - "grad_norm": 0.0020395575556904078, - "learning_rate": 0.0001207111111111111, - "loss": 0.0005, + "grad_norm": 0.0031941488850861788, + "learning_rate": 4.133333333333333e-05, + "loss": 0.0008, "step": 1785 }, { "epoch": 11.933333333333334, - "grad_norm": 0.0023159796837717295, - "learning_rate": 0.0001204888888888889, - "loss": 0.0005, + "grad_norm": 0.003321551252156496, + "learning_rate": 4.088888888888889e-05, + "loss": 0.0008, "step": 1790 }, { "epoch": 11.966666666666667, - "grad_norm": 5.754796028137207, - "learning_rate": 0.00012026666666666669, - "loss": 0.0097, + "grad_norm": 0.0029444897081702948, + "learning_rate": 4.0444444444444444e-05, + "loss": 0.0008, "step": 1795 }, { "epoch": 12.0, - "grad_norm": 7.423747539520264, - "learning_rate": 0.00012004444444444445, - "loss": 0.0454, + "grad_norm": 0.0030205228831619024, + "learning_rate": 4e-05, + "loss": 0.0008, "step": 1800 }, { "epoch": 12.0, - "eval_accuracy": 0.8333333333333334, - "eval_f1": 0.8308051577766301, - "eval_loss": 1.0214976072311401, - "eval_precision": 0.8555957378640983, - "eval_recall": 0.8333333333333334, - "eval_runtime": 7.8552, - "eval_samples_per_second": 152.765, - "eval_steps_per_second": 19.096, + "eval_accuracy": 0.8766666666666667, + "eval_f1": 0.8745572432849914, + "eval_loss": 0.8242161273956299, + "eval_precision": 0.8800763840018764, + "eval_recall": 0.8766666666666667, + "eval_runtime": 7.5896, + "eval_samples_per_second": 158.111, + "eval_steps_per_second": 19.764, "step": 1800 }, { "epoch": 12.033333333333333, - "grad_norm": 0.0019737316761165857, - "learning_rate": 0.00011982222222222224, - "loss": 0.0005, + "grad_norm": 0.0028767513576895, + "learning_rate": 3.9555555555555556e-05, + "loss": 0.0008, "step": 1805 }, { "epoch": 12.066666666666666, - "grad_norm": 0.002239396097138524, - "learning_rate": 0.00011960000000000001, - "loss": 0.0072, + "grad_norm": 0.0032115960493683815, + "learning_rate": 3.9111111111111115e-05, + "loss": 0.0008, "step": 1810 }, { "epoch": 12.1, - "grad_norm": 0.0022372803650796413, - "learning_rate": 0.00011937777777777779, - "loss": 0.0005, + "grad_norm": 0.003104663919657469, + "learning_rate": 3.866666666666667e-05, + "loss": 0.0008, "step": 1815 }, { "epoch": 12.133333333333333, - "grad_norm": 0.01663706637918949, - "learning_rate": 0.00011915555555555556, - "loss": 0.0007, + "grad_norm": 0.0028608052525669336, + "learning_rate": 3.8222222222222226e-05, + "loss": 0.0008, "step": 1820 }, { "epoch": 12.166666666666666, - "grad_norm": 0.0021830208133906126, - "learning_rate": 0.00011893333333333334, - "loss": 0.0033, + "grad_norm": 0.00299710757099092, + "learning_rate": 3.777777777777778e-05, + "loss": 0.0008, "step": 1825 }, { "epoch": 12.2, - "grad_norm": 0.0020015044137835503, - "learning_rate": 0.00011871111111111111, - "loss": 0.0006, + "grad_norm": 0.0028382609598338604, + "learning_rate": 3.733333333333334e-05, + "loss": 0.0008, "step": 1830 }, { "epoch": 12.233333333333333, - "grad_norm": 0.0019222969422116876, - "learning_rate": 0.0001184888888888889, - "loss": 0.0005, + "grad_norm": 0.0029125348664820194, + "learning_rate": 3.688888888888889e-05, + "loss": 0.0007, "step": 1835 }, { "epoch": 12.266666666666667, - "grad_norm": 7.572992324829102, - "learning_rate": 0.00011826666666666668, - "loss": 0.0106, + "grad_norm": 0.0030000798869878054, + "learning_rate": 3.644444444444445e-05, + "loss": 0.0008, "step": 1840 }, { "epoch": 12.3, - "grad_norm": 0.0019504709634929895, - "learning_rate": 0.00011804444444444445, - "loss": 0.0005, + "grad_norm": 0.0027698525227606297, + "learning_rate": 3.6e-05, + "loss": 0.0007, "step": 1845 }, { "epoch": 12.333333333333334, - "grad_norm": 0.0029421669896692038, - "learning_rate": 0.00011782222222222223, - "loss": 0.0133, + "grad_norm": 0.0033130201045423746, + "learning_rate": 3.555555555555556e-05, + "loss": 0.0007, "step": 1850 }, { "epoch": 12.366666666666667, - "grad_norm": 0.007627548649907112, - "learning_rate": 0.0001176, - "loss": 0.0006, + "grad_norm": 0.003502271370962262, + "learning_rate": 3.511111111111111e-05, + "loss": 0.0008, "step": 1855 }, { "epoch": 12.4, - "grad_norm": 0.0025462706107646227, - "learning_rate": 0.00011737777777777778, - "loss": 0.0005, + "grad_norm": 0.0028793399687856436, + "learning_rate": 3.466666666666667e-05, + "loss": 0.0007, "step": 1860 }, { "epoch": 12.433333333333334, - "grad_norm": 0.0021458121482282877, - "learning_rate": 0.00011715555555555555, - "loss": 0.0012, + "grad_norm": 0.0031159406062215567, + "learning_rate": 3.4222222222222224e-05, + "loss": 0.0007, "step": 1865 }, { "epoch": 12.466666666666667, - "grad_norm": 0.4670719504356384, - "learning_rate": 0.00011693333333333333, - "loss": 0.0023, + "grad_norm": 0.0028348283376544714, + "learning_rate": 3.377777777777778e-05, + "loss": 0.0007, "step": 1870 }, { "epoch": 12.5, - "grad_norm": 0.007795834913849831, - "learning_rate": 0.00011671111111111113, - "loss": 0.0517, + "grad_norm": 0.003008201951161027, + "learning_rate": 3.3333333333333335e-05, + "loss": 0.0007, "step": 1875 }, { "epoch": 12.533333333333333, - "grad_norm": 0.00614103814586997, - "learning_rate": 0.00011648888888888889, + "grad_norm": 0.0029034384060651064, + "learning_rate": 3.2888888888888894e-05, "loss": 0.0007, "step": 1880 }, { "epoch": 12.566666666666666, - "grad_norm": 0.024973373860120773, - "learning_rate": 0.00011626666666666668, - "loss": 0.0011, + "grad_norm": 0.0028746542520821095, + "learning_rate": 3.2444444444444446e-05, + "loss": 0.0007, "step": 1885 }, { "epoch": 12.6, - "grad_norm": 0.009679196402430534, - "learning_rate": 0.00011604444444444444, - "loss": 0.0014, + "grad_norm": 0.0028515621088445187, + "learning_rate": 3.2000000000000005e-05, + "loss": 0.0007, "step": 1890 }, { "epoch": 12.633333333333333, - "grad_norm": 0.01440503541380167, - "learning_rate": 0.00011582222222222224, - "loss": 0.001, + "grad_norm": 0.0030289627611637115, + "learning_rate": 3.155555555555556e-05, + "loss": 0.0007, "step": 1895 }, { "epoch": 12.666666666666666, - "grad_norm": 0.006676130928099155, - "learning_rate": 0.00011559999999999999, - "loss": 0.001, + "grad_norm": 0.003367166966199875, + "learning_rate": 3.111111111111111e-05, + "loss": 0.0007, "step": 1900 }, { "epoch": 12.666666666666666, - "eval_accuracy": 0.8441666666666666, - "eval_f1": 0.8417129710187414, - "eval_loss": 0.7866749167442322, - "eval_precision": 0.8444875557153696, - "eval_recall": 0.8441666666666666, - "eval_runtime": 7.9059, - "eval_samples_per_second": 151.786, - "eval_steps_per_second": 18.973, + "eval_accuracy": 0.8766666666666667, + "eval_f1": 0.8745572432849914, + "eval_loss": 0.8292433619499207, + "eval_precision": 0.8800763840018764, + "eval_recall": 0.8766666666666667, + "eval_runtime": 7.5769, + "eval_samples_per_second": 158.376, + "eval_steps_per_second": 19.797, "step": 1900 }, { "epoch": 12.7, - "grad_norm": 0.0035950823221355677, - "learning_rate": 0.00011537777777777779, - "loss": 0.0006, + "grad_norm": 0.002713582245633006, + "learning_rate": 3.066666666666667e-05, + "loss": 0.0007, "step": 1905 }, { "epoch": 12.733333333333333, - "grad_norm": 0.004024903289973736, - "learning_rate": 0.00011515555555555557, - "loss": 0.001, + "grad_norm": 0.0027700569480657578, + "learning_rate": 3.0222222222222225e-05, + "loss": 0.0008, "step": 1910 }, { "epoch": 12.766666666666667, - "grad_norm": 0.003058345289900899, - "learning_rate": 0.00011493333333333334, - "loss": 0.0006, + "grad_norm": 0.00297704990953207, + "learning_rate": 2.9777777777777777e-05, + "loss": 0.0007, "step": 1915 }, { "epoch": 12.8, - "grad_norm": 0.0029984479770064354, - "learning_rate": 0.00011471111111111112, - "loss": 0.0006, + "grad_norm": 0.0029857426416128874, + "learning_rate": 2.9333333333333336e-05, + "loss": 0.0007, "step": 1920 }, { "epoch": 12.833333333333334, - "grad_norm": 0.0030639898031949997, - "learning_rate": 0.00011448888888888889, + "grad_norm": 0.0027900596614927053, + "learning_rate": 2.8888888888888888e-05, "loss": 0.0007, "step": 1925 }, { "epoch": 12.866666666666667, - "grad_norm": 0.003368396544829011, - "learning_rate": 0.00011426666666666667, - "loss": 0.0006, + "grad_norm": 0.003048779908567667, + "learning_rate": 2.8444444444444447e-05, + "loss": 0.0007, "step": 1930 }, { "epoch": 12.9, - "grad_norm": 0.0025872639380395412, - "learning_rate": 0.00011404444444444444, - "loss": 0.0006, + "grad_norm": 0.0031202102545648813, + "learning_rate": 2.8000000000000003e-05, + "loss": 0.0007, "step": 1935 }, { "epoch": 12.933333333333334, - "grad_norm": 0.0025051292032003403, - "learning_rate": 0.00011382222222222223, - "loss": 0.0005, + "grad_norm": 0.00268272846005857, + "learning_rate": 2.7555555555555555e-05, + "loss": 0.0007, "step": 1940 }, { "epoch": 12.966666666666667, - "grad_norm": 0.002036045305430889, - "learning_rate": 0.0001136, - "loss": 0.0005, + "grad_norm": 0.0027973130345344543, + "learning_rate": 2.7111111111111114e-05, + "loss": 0.0007, "step": 1945 }, { "epoch": 13.0, - "grad_norm": 0.0021641154307872057, - "learning_rate": 0.00011337777777777778, - "loss": 0.0005, + "grad_norm": 0.00281904567964375, + "learning_rate": 2.6666666666666667e-05, + "loss": 0.0007, "step": 1950 }, { "epoch": 13.033333333333333, - "grad_norm": 0.0017776010790839791, - "learning_rate": 0.00011315555555555558, - "loss": 0.0005, + "grad_norm": 0.0025725821033120155, + "learning_rate": 2.6222222222222226e-05, + "loss": 0.0007, "step": 1955 }, { "epoch": 13.066666666666666, - "grad_norm": 0.002145707141608, - "learning_rate": 0.00011293333333333333, - "loss": 0.0005, + "grad_norm": 0.003007737686857581, + "learning_rate": 2.5777777777777778e-05, + "loss": 0.0007, "step": 1960 }, { "epoch": 13.1, - "grad_norm": 0.001899806084111333, - "learning_rate": 0.00011271111111111113, - "loss": 0.0005, + "grad_norm": 0.0026384794618934393, + "learning_rate": 2.5333333333333337e-05, + "loss": 0.0007, "step": 1965 }, { "epoch": 13.133333333333333, - "grad_norm": 0.002106861211359501, - "learning_rate": 0.00011248888888888888, - "loss": 0.0005, + "grad_norm": 0.002843267284333706, + "learning_rate": 2.488888888888889e-05, + "loss": 0.0007, "step": 1970 }, { "epoch": 13.166666666666666, - "grad_norm": 0.0021502806339412928, - "learning_rate": 0.00011226666666666668, - "loss": 0.0005, + "grad_norm": 0.0030427430756390095, + "learning_rate": 2.4444444444444445e-05, + "loss": 0.0007, "step": 1975 }, { "epoch": 13.2, - "grad_norm": 0.0017985878512263298, - "learning_rate": 0.00011204444444444444, - "loss": 0.0005, + "grad_norm": 0.0027206474915146828, + "learning_rate": 2.4e-05, + "loss": 0.0007, "step": 1980 }, { "epoch": 13.233333333333333, - "grad_norm": 0.0018234198214486241, - "learning_rate": 0.00011182222222222223, - "loss": 0.0004, + "grad_norm": 0.002785419812425971, + "learning_rate": 2.3555555555555556e-05, + "loss": 0.0007, "step": 1985 }, { "epoch": 13.266666666666667, - "grad_norm": 0.0021863416768610477, - "learning_rate": 0.00011160000000000002, - "loss": 0.0005, + "grad_norm": 0.0032070945017039776, + "learning_rate": 2.3111111111111112e-05, + "loss": 0.0007, "step": 1990 }, { "epoch": 13.3, - "grad_norm": 0.0018739488441497087, - "learning_rate": 0.00011137777777777779, - "loss": 0.0004, + "grad_norm": 0.0028967801481485367, + "learning_rate": 2.2666666666666668e-05, + "loss": 0.0007, "step": 1995 }, { "epoch": 13.333333333333334, - "grad_norm": 0.001990492455661297, - "learning_rate": 0.00011115555555555557, - "loss": 0.0005, + "grad_norm": 0.0029057366773486137, + "learning_rate": 2.2222222222222223e-05, + "loss": 0.0007, "step": 2000 }, { "epoch": 13.333333333333334, - "eval_accuracy": 0.8608333333333333, - "eval_f1": 0.8575142229320422, - "eval_loss": 0.8047850728034973, - "eval_precision": 0.8604968179504658, - "eval_recall": 0.8608333333333333, - "eval_runtime": 7.9102, - "eval_samples_per_second": 151.703, - "eval_steps_per_second": 18.963, + "eval_accuracy": 0.8775, + "eval_f1": 0.8753686440915808, + "eval_loss": 0.833524227142334, + "eval_precision": 0.8812033882769401, + "eval_recall": 0.8775, + "eval_runtime": 7.6167, + "eval_samples_per_second": 157.548, + "eval_steps_per_second": 19.694, "step": 2000 }, { "epoch": 13.366666666666667, - "grad_norm": 0.0020206847693771124, - "learning_rate": 0.00011093333333333334, - "loss": 0.0004, + "grad_norm": 0.0029184892773628235, + "learning_rate": 2.177777777777778e-05, + "loss": 0.0007, "step": 2005 }, { "epoch": 13.4, - "grad_norm": 0.0017739871982485056, - "learning_rate": 0.00011071111111111112, - "loss": 0.0005, + "grad_norm": 0.0028447185177356005, + "learning_rate": 2.1333333333333335e-05, + "loss": 0.0007, "step": 2010 }, { "epoch": 13.433333333333334, - "grad_norm": 0.0020320990588515997, - "learning_rate": 0.00011048888888888889, - "loss": 0.0004, + "grad_norm": 0.0029802394565194845, + "learning_rate": 2.088888888888889e-05, + "loss": 0.0007, "step": 2015 }, { "epoch": 13.466666666666667, - "grad_norm": 0.0019749696366488934, - "learning_rate": 0.00011026666666666667, - "loss": 0.0004, + "grad_norm": 0.0031117696780711412, + "learning_rate": 2.0444444444444446e-05, + "loss": 0.0007, "step": 2020 }, { "epoch": 13.5, - "grad_norm": 0.001873982255347073, - "learning_rate": 0.00011004444444444444, - "loss": 0.0004, + "grad_norm": 0.0029459148645401, + "learning_rate": 2e-05, + "loss": 0.0007, "step": 2025 }, { "epoch": 13.533333333333333, - "grad_norm": 0.0020132388453930616, - "learning_rate": 0.00010982222222222222, - "loss": 0.0005, + "grad_norm": 0.0029809309635311365, + "learning_rate": 1.9555555555555557e-05, + "loss": 0.0007, "step": 2030 }, { "epoch": 13.566666666666666, - "grad_norm": 0.001611536368727684, - "learning_rate": 0.00010960000000000001, - "loss": 0.0004, + "grad_norm": 0.002658411394804716, + "learning_rate": 1.9111111111111113e-05, + "loss": 0.0007, "step": 2035 }, { "epoch": 13.6, - "grad_norm": 0.0015985150821506977, - "learning_rate": 0.00010937777777777778, - "loss": 0.0004, + "grad_norm": 0.0025982193183153868, + "learning_rate": 1.866666666666667e-05, + "loss": 0.0007, "step": 2040 }, { "epoch": 13.633333333333333, - "grad_norm": 0.001899239025078714, - "learning_rate": 0.00010915555555555556, - "loss": 0.0004, + "grad_norm": 0.002730267820879817, + "learning_rate": 1.8222222222222224e-05, + "loss": 0.0007, "step": 2045 }, { "epoch": 13.666666666666666, - "grad_norm": 0.002003072528168559, - "learning_rate": 0.00010893333333333333, - "loss": 0.0004, + "grad_norm": 0.0032541982363909483, + "learning_rate": 1.777777777777778e-05, + "loss": 0.0007, "step": 2050 }, { "epoch": 13.7, - "grad_norm": 0.0018008454935625196, - "learning_rate": 0.00010871111111111113, - "loss": 0.0004, + "grad_norm": 0.0028649051673710346, + "learning_rate": 1.7333333333333336e-05, + "loss": 0.0007, "step": 2055 }, { "epoch": 13.733333333333333, - "grad_norm": 0.0016057421453297138, - "learning_rate": 0.00010848888888888888, - "loss": 0.0004, + "grad_norm": 0.0026380924973636866, + "learning_rate": 1.688888888888889e-05, + "loss": 0.0007, "step": 2060 }, { "epoch": 13.766666666666667, - "grad_norm": 0.0016536317998543382, - "learning_rate": 0.00010826666666666668, - "loss": 0.0004, + "grad_norm": 0.0027923444285988808, + "learning_rate": 1.6444444444444447e-05, + "loss": 0.0007, "step": 2065 }, { "epoch": 13.8, - "grad_norm": 0.001716426108032465, - "learning_rate": 0.00010804444444444446, - "loss": 0.0004, + "grad_norm": 0.002918871585279703, + "learning_rate": 1.6000000000000003e-05, + "loss": 0.0007, "step": 2070 }, { "epoch": 13.833333333333334, - "grad_norm": 0.0014774404698982835, - "learning_rate": 0.00010782222222222223, - "loss": 0.0004, + "grad_norm": 0.002514759311452508, + "learning_rate": 1.5555555555555555e-05, + "loss": 0.0007, "step": 2075 }, { "epoch": 13.866666666666667, - "grad_norm": 0.0018070790683850646, - "learning_rate": 0.00010760000000000001, - "loss": 0.0004, + "grad_norm": 0.002968903398141265, + "learning_rate": 1.5111111111111112e-05, + "loss": 0.0007, "step": 2080 }, { "epoch": 13.9, - "grad_norm": 0.001502367202192545, - "learning_rate": 0.00010737777777777778, - "loss": 0.0004, + "grad_norm": 0.0024972143582999706, + "learning_rate": 1.4666666666666668e-05, + "loss": 0.0007, "step": 2085 }, { "epoch": 13.933333333333334, - "grad_norm": 0.0015693887835368514, - "learning_rate": 0.00010715555555555557, - "loss": 0.0004, + "grad_norm": 0.0026495985221117735, + "learning_rate": 1.4222222222222224e-05, + "loss": 0.0007, "step": 2090 }, { "epoch": 13.966666666666667, - "grad_norm": 0.0018341299146413803, - "learning_rate": 0.00010693333333333333, - "loss": 0.0004, + "grad_norm": 0.003030564170330763, + "learning_rate": 1.3777777777777778e-05, + "loss": 0.0007, "step": 2095 }, { "epoch": 14.0, - "grad_norm": 0.0018475907854735851, - "learning_rate": 0.00010671111111111112, - "loss": 0.0004, + "grad_norm": 0.0033899080008268356, + "learning_rate": 1.3333333333333333e-05, + "loss": 0.0007, "step": 2100 }, { "epoch": 14.0, - "eval_accuracy": 0.8616666666666667, - "eval_f1": 0.858671916527821, - "eval_loss": 0.8119983673095703, - "eval_precision": 0.8619123213452891, - "eval_recall": 0.8616666666666667, - "eval_runtime": 7.9288, - "eval_samples_per_second": 151.347, - "eval_steps_per_second": 18.918, + "eval_accuracy": 0.8775, + "eval_f1": 0.8753686440915808, + "eval_loss": 0.836257815361023, + "eval_precision": 0.8812033882769401, + "eval_recall": 0.8775, + "eval_runtime": 7.5755, + "eval_samples_per_second": 158.406, + "eval_steps_per_second": 19.801, "step": 2100 }, { "epoch": 14.033333333333333, - "grad_norm": 0.0014578236732631922, - "learning_rate": 0.0001064888888888889, - "loss": 0.0004, + "grad_norm": 0.002527362434193492, + "learning_rate": 1.2888888888888889e-05, + "loss": 0.0007, "step": 2105 }, { "epoch": 14.066666666666666, - "grad_norm": 0.001578164054080844, - "learning_rate": 0.00010626666666666667, - "loss": 0.0004, + "grad_norm": 0.0027900757268071175, + "learning_rate": 1.2444444444444445e-05, + "loss": 0.0007, "step": 2110 }, { "epoch": 14.1, - "grad_norm": 0.0016108972486108541, - "learning_rate": 0.00010604444444444445, - "loss": 0.0004, + "grad_norm": 0.0027693230658769608, + "learning_rate": 1.2e-05, + "loss": 0.0007, "step": 2115 }, { "epoch": 14.133333333333333, - "grad_norm": 0.0014652644749730825, - "learning_rate": 0.00010582222222222222, - "loss": 0.0004, + "grad_norm": 0.00252745533362031, + "learning_rate": 1.1555555555555556e-05, + "loss": 0.0007, "step": 2120 }, { "epoch": 14.166666666666666, - "grad_norm": 0.0014425162225961685, - "learning_rate": 0.0001056, - "loss": 0.0004, + "grad_norm": 0.002723579527810216, + "learning_rate": 1.1111111111111112e-05, + "loss": 0.0007, "step": 2125 }, { "epoch": 14.2, - "grad_norm": 0.0015650968998670578, - "learning_rate": 0.00010537777777777777, - "loss": 0.0004, + "grad_norm": 0.0026474150363355875, + "learning_rate": 1.0666666666666667e-05, + "loss": 0.0007, "step": 2130 }, { "epoch": 14.233333333333333, - "grad_norm": 0.0014311234699562192, - "learning_rate": 0.00010515555555555556, - "loss": 0.0004, + "grad_norm": 0.002608769340440631, + "learning_rate": 1.0222222222222223e-05, + "loss": 0.0007, "step": 2135 }, { "epoch": 14.266666666666667, - "grad_norm": 0.0015936456620693207, - "learning_rate": 0.00010493333333333333, - "loss": 0.0004, + "grad_norm": 0.002754714572802186, + "learning_rate": 9.777777777777779e-06, + "loss": 0.0007, "step": 2140 }, { "epoch": 14.3, - "grad_norm": 0.0015697453636676073, - "learning_rate": 0.00010471111111111111, - "loss": 0.0004, + "grad_norm": 0.0028033293783664703, + "learning_rate": 9.333333333333334e-06, + "loss": 0.0007, "step": 2145 }, { "epoch": 14.333333333333334, - "grad_norm": 0.0014831118751317263, - "learning_rate": 0.0001044888888888889, - "loss": 0.0004, + "grad_norm": 0.002681401325389743, + "learning_rate": 8.88888888888889e-06, + "loss": 0.0007, "step": 2150 }, { "epoch": 14.366666666666667, - "grad_norm": 0.001536577707156539, - "learning_rate": 0.00010426666666666666, - "loss": 0.0004, + "grad_norm": 0.002728566061705351, + "learning_rate": 8.444444444444446e-06, + "loss": 0.0007, "step": 2155 }, { "epoch": 14.4, - "grad_norm": 0.0015027594054117799, - "learning_rate": 0.00010404444444444446, - "loss": 0.0004, + "grad_norm": 0.002718120813369751, + "learning_rate": 8.000000000000001e-06, + "loss": 0.0007, "step": 2160 }, { "epoch": 14.433333333333334, - "grad_norm": 0.0015389182372018695, - "learning_rate": 0.00010382222222222221, - "loss": 0.0004, + "grad_norm": 0.0027934338431805372, + "learning_rate": 7.555555555555556e-06, + "loss": 0.0007, "step": 2165 }, { "epoch": 14.466666666666667, - "grad_norm": 0.0013607657747343183, - "learning_rate": 0.00010360000000000001, - "loss": 0.0004, + "grad_norm": 0.0025224678684026003, + "learning_rate": 7.111111111111112e-06, + "loss": 0.0007, "step": 2170 }, { "epoch": 14.5, - "grad_norm": 0.0016989322612062097, - "learning_rate": 0.00010337777777777777, - "loss": 0.0004, + "grad_norm": 0.0030047371983528137, + "learning_rate": 6.666666666666667e-06, + "loss": 0.0007, "step": 2175 }, { "epoch": 14.533333333333333, - "grad_norm": 0.001604003831744194, - "learning_rate": 0.00010315555555555556, - "loss": 0.0004, + "grad_norm": 0.0030654657166451216, + "learning_rate": 6.222222222222222e-06, + "loss": 0.0007, "step": 2180 }, { "epoch": 14.566666666666666, - "grad_norm": 0.0013165045529603958, - "learning_rate": 0.00010293333333333335, - "loss": 0.0003, + "grad_norm": 0.0024761075619608164, + "learning_rate": 5.777777777777778e-06, + "loss": 0.0007, "step": 2185 }, { "epoch": 14.6, - "grad_norm": 0.00148976338095963, - "learning_rate": 0.00010271111111111112, - "loss": 0.0004, + "grad_norm": 0.002738608280196786, + "learning_rate": 5.333333333333334e-06, + "loss": 0.0007, "step": 2190 }, { "epoch": 14.633333333333333, - "grad_norm": 0.0018192626303061843, - "learning_rate": 0.0001024888888888889, - "loss": 0.0004, + "grad_norm": 0.0033268791157752275, + "learning_rate": 4.888888888888889e-06, + "loss": 0.0007, "step": 2195 }, { "epoch": 14.666666666666666, - "grad_norm": 0.0013503467198461294, - "learning_rate": 0.00010226666666666667, - "loss": 0.0004, + "grad_norm": 0.0025487372186034918, + "learning_rate": 4.444444444444445e-06, + "loss": 0.0007, "step": 2200 }, { "epoch": 14.666666666666666, - "eval_accuracy": 0.8625, - "eval_f1": 0.8595484446213426, - "eval_loss": 0.8207955956459045, - "eval_precision": 0.8630453738051779, - "eval_recall": 0.8625, - "eval_runtime": 7.9873, - "eval_samples_per_second": 150.239, - "eval_steps_per_second": 18.78, + "eval_accuracy": 0.8775, + "eval_f1": 0.8753686440915808, + "eval_loss": 0.8376461863517761, + "eval_precision": 0.8812033882769401, + "eval_recall": 0.8775, + "eval_runtime": 7.5962, + "eval_samples_per_second": 157.974, + "eval_steps_per_second": 19.747, "step": 2200 }, { "epoch": 14.7, - "grad_norm": 0.001430536969564855, - "learning_rate": 0.00010204444444444445, - "loss": 0.0004, + "grad_norm": 0.0026600814890116453, + "learning_rate": 4.000000000000001e-06, + "loss": 0.0007, "step": 2205 }, { "epoch": 14.733333333333333, - "grad_norm": 0.0013838792219758034, - "learning_rate": 0.00010182222222222222, - "loss": 0.0004, + "grad_norm": 0.0026270700618624687, + "learning_rate": 3.555555555555556e-06, + "loss": 0.0007, "step": 2210 }, { "epoch": 14.766666666666667, - "grad_norm": 0.0013385778293013573, - "learning_rate": 0.0001016, - "loss": 0.0003, + "grad_norm": 0.0025132119189947844, + "learning_rate": 3.111111111111111e-06, + "loss": 0.0007, "step": 2215 }, { "epoch": 14.8, - "grad_norm": 0.001410188153386116, - "learning_rate": 0.0001013777777777778, - "loss": 0.0004, + "grad_norm": 0.0026316579896956682, + "learning_rate": 2.666666666666667e-06, + "loss": 0.0007, "step": 2220 }, { "epoch": 14.833333333333334, - "grad_norm": 0.0015164789510890841, - "learning_rate": 0.00010115555555555556, - "loss": 0.0003, + "grad_norm": 0.0030408664606511593, + "learning_rate": 2.2222222222222225e-06, + "loss": 0.0007, "step": 2225 }, { "epoch": 14.866666666666667, - "grad_norm": 0.0015943381004035473, - "learning_rate": 0.00010093333333333335, - "loss": 0.0003, + "grad_norm": 0.003126599360257387, + "learning_rate": 1.777777777777778e-06, + "loss": 0.0007, "step": 2230 }, { "epoch": 14.9, - "grad_norm": 0.0015674736350774765, - "learning_rate": 0.00010071111111111111, - "loss": 0.0004, + "grad_norm": 0.0028712358325719833, + "learning_rate": 1.3333333333333334e-06, + "loss": 0.0007, "step": 2235 }, { "epoch": 14.933333333333334, - "grad_norm": 0.0013863847125321627, - "learning_rate": 0.0001004888888888889, - "loss": 0.0003, + "grad_norm": 0.002644283464178443, + "learning_rate": 8.88888888888889e-07, + "loss": 0.0007, "step": 2240 }, { "epoch": 14.966666666666667, - "grad_norm": 0.0014308391837403178, - "learning_rate": 0.00010026666666666666, - "loss": 0.0003, + "grad_norm": 0.0027659619227051735, + "learning_rate": 4.444444444444445e-07, + "loss": 0.0007, "step": 2245 }, { "epoch": 15.0, - "grad_norm": 0.0013531516306102276, - "learning_rate": 0.00010004444444444446, - "loss": 0.0003, + "grad_norm": 0.002593148499727249, + "learning_rate": 0.0, + "loss": 0.0007, "step": 2250 }, { - "epoch": 15.033333333333333, - "grad_norm": 0.0013406299985945225, - "learning_rate": 9.982222222222223e-05, - "loss": 0.0003, - "step": 2255 - }, - { - "epoch": 15.066666666666666, - "grad_norm": 0.0013683269498869777, - "learning_rate": 9.960000000000001e-05, - "loss": 0.0003, - "step": 2260 - }, - { - "epoch": 15.1, - "grad_norm": 0.0013268934562802315, - "learning_rate": 9.937777777777778e-05, - "loss": 0.0003, - "step": 2265 - }, - { - "epoch": 15.133333333333333, - "grad_norm": 0.0013896143063902855, - "learning_rate": 9.915555555555556e-05, - "loss": 0.0003, - "step": 2270 - }, - { - "epoch": 15.166666666666666, - "grad_norm": 0.0015487688360735774, - "learning_rate": 9.893333333333333e-05, - "loss": 0.0003, - "step": 2275 - }, - { - "epoch": 15.2, - "grad_norm": 0.0013064892264083028, - "learning_rate": 9.871111111111113e-05, - "loss": 0.0003, - "step": 2280 - }, - { - "epoch": 15.233333333333333, - "grad_norm": 0.0012920789886265993, - "learning_rate": 9.84888888888889e-05, - "loss": 0.0003, - "step": 2285 - }, - { - "epoch": 15.266666666666667, - "grad_norm": 0.0013027184177190065, - "learning_rate": 9.826666666666668e-05, - "loss": 0.0003, - "step": 2290 - }, - { - "epoch": 15.3, - "grad_norm": 0.0012784446589648724, - "learning_rate": 9.804444444444445e-05, - "loss": 0.0003, - "step": 2295 - }, - { - "epoch": 15.333333333333334, - "grad_norm": 0.0014977202517911792, - "learning_rate": 9.782222222222223e-05, - "loss": 0.0003, - "step": 2300 - }, - { - "epoch": 15.333333333333334, - "eval_accuracy": 0.8616666666666667, - "eval_f1": 0.8587381656857116, - "eval_loss": 0.8303151726722717, - "eval_precision": 0.862298520254415, - "eval_recall": 0.8616666666666667, - "eval_runtime": 8.1776, - "eval_samples_per_second": 146.742, - "eval_steps_per_second": 18.343, - "step": 2300 - }, - { - "epoch": 15.366666666666667, - "grad_norm": 0.0013516979524865746, - "learning_rate": 9.76e-05, - "loss": 0.0003, - "step": 2305 - }, - { - "epoch": 15.4, - "grad_norm": 0.0013222359120845795, - "learning_rate": 9.737777777777778e-05, - "loss": 0.0003, - "step": 2310 - }, - { - "epoch": 15.433333333333334, - "grad_norm": 0.00159635569434613, - "learning_rate": 9.715555555555555e-05, - "loss": 0.0003, - "step": 2315 - }, - { - "epoch": 15.466666666666667, - "grad_norm": 0.0013628490269184113, - "learning_rate": 9.693333333333335e-05, - "loss": 0.0003, - "step": 2320 - }, - { - "epoch": 15.5, - "grad_norm": 0.0012076239800080657, - "learning_rate": 9.671111111111112e-05, - "loss": 0.0003, - "step": 2325 - }, - { - "epoch": 15.533333333333333, - "grad_norm": 0.001445153378881514, - "learning_rate": 9.64888888888889e-05, - "loss": 0.0003, - "step": 2330 - }, - { - "epoch": 15.566666666666666, - "grad_norm": 0.0013349263463169336, - "learning_rate": 9.626666666666667e-05, - "loss": 0.0003, - "step": 2335 - }, - { - "epoch": 15.6, - "grad_norm": 0.0013036979362368584, - "learning_rate": 9.604444444444445e-05, - "loss": 0.0003, - "step": 2340 - }, - { - "epoch": 15.633333333333333, - "grad_norm": 0.0013482412323355675, - "learning_rate": 9.582222222222222e-05, - "loss": 0.0003, - "step": 2345 - }, - { - "epoch": 15.666666666666666, - "grad_norm": 0.001285687554627657, - "learning_rate": 9.56e-05, - "loss": 0.0003, - "step": 2350 - }, - { - "epoch": 15.7, - "grad_norm": 0.001215519499965012, - "learning_rate": 9.537777777777778e-05, - "loss": 0.0003, - "step": 2355 - }, - { - "epoch": 15.733333333333333, - "grad_norm": 0.00133226765319705, - "learning_rate": 9.515555555555556e-05, - "loss": 0.0003, - "step": 2360 - }, - { - "epoch": 15.766666666666667, - "grad_norm": 0.0011812637094408274, - "learning_rate": 9.493333333333334e-05, - "loss": 0.0003, - "step": 2365 - }, - { - "epoch": 15.8, - "grad_norm": 0.0011759515618905425, - "learning_rate": 9.471111111111111e-05, - "loss": 0.0003, - "step": 2370 - }, - { - "epoch": 15.833333333333334, - "grad_norm": 0.0013171056052669883, - "learning_rate": 9.44888888888889e-05, - "loss": 0.0003, - "step": 2375 - }, - { - "epoch": 15.866666666666667, - "grad_norm": 0.001408552867360413, - "learning_rate": 9.426666666666666e-05, - "loss": 0.0003, - "step": 2380 - }, - { - "epoch": 15.9, - "grad_norm": 0.0013496907195076346, - "learning_rate": 9.404444444444445e-05, - "loss": 0.0003, - "step": 2385 - }, - { - "epoch": 15.933333333333334, - "grad_norm": 0.0013458526227623224, - "learning_rate": 9.382222222222223e-05, - "loss": 0.0003, - "step": 2390 - }, - { - "epoch": 15.966666666666667, - "grad_norm": 0.0011418607318773866, - "learning_rate": 9.360000000000001e-05, - "loss": 0.0003, - "step": 2395 - }, - { - "epoch": 16.0, - "grad_norm": 0.0011196016566827893, - "learning_rate": 9.337777777777778e-05, - "loss": 0.0003, - "step": 2400 - }, - { - "epoch": 16.0, - "eval_accuracy": 0.8625, - "eval_f1": 0.8595637362935941, - "eval_loss": 0.8375459313392639, - "eval_precision": 0.8630657769823553, - "eval_recall": 0.8625, - "eval_runtime": 7.8343, - "eval_samples_per_second": 153.173, - "eval_steps_per_second": 19.147, - "step": 2400 - }, - { - "epoch": 16.033333333333335, - "grad_norm": 0.001260953489691019, - "learning_rate": 9.315555555555556e-05, - "loss": 0.0003, - "step": 2405 - }, - { - "epoch": 16.066666666666666, - "grad_norm": 0.001361685455776751, - "learning_rate": 9.293333333333333e-05, - "loss": 0.0003, - "step": 2410 - }, - { - "epoch": 16.1, - "grad_norm": 0.00115530367475003, - "learning_rate": 9.271111111111112e-05, - "loss": 0.0003, - "step": 2415 - }, - { - "epoch": 16.133333333333333, - "grad_norm": 0.0011989300837740302, - "learning_rate": 9.248888888888889e-05, - "loss": 0.0003, - "step": 2420 - }, - { - "epoch": 16.166666666666668, - "grad_norm": 0.001108896336518228, - "learning_rate": 9.226666666666667e-05, - "loss": 0.0003, - "step": 2425 - }, - { - "epoch": 16.2, - "grad_norm": 0.0012953138211742043, - "learning_rate": 9.204444444444444e-05, - "loss": 0.0003, - "step": 2430 - }, - { - "epoch": 16.233333333333334, - "grad_norm": 0.0012295806081965566, - "learning_rate": 9.182222222222223e-05, - "loss": 0.0003, - "step": 2435 - }, - { - "epoch": 16.266666666666666, - "grad_norm": 0.001139131491072476, - "learning_rate": 9.16e-05, - "loss": 0.0003, - "step": 2440 - }, - { - "epoch": 16.3, - "grad_norm": 0.0011582227889448404, - "learning_rate": 9.137777777777779e-05, - "loss": 0.0003, - "step": 2445 - }, - { - "epoch": 16.333333333333332, - "grad_norm": 0.0011293350253254175, - "learning_rate": 9.115555555555556e-05, - "loss": 0.0003, - "step": 2450 - }, - { - "epoch": 16.366666666666667, - "grad_norm": 0.0012646400136873126, - "learning_rate": 9.093333333333334e-05, - "loss": 0.0003, - "step": 2455 - }, - { - "epoch": 16.4, - "grad_norm": 0.0011603136081248522, - "learning_rate": 9.071111111111111e-05, - "loss": 0.0003, - "step": 2460 - }, - { - "epoch": 16.433333333333334, - "grad_norm": 0.0012541699688881636, - "learning_rate": 9.048888888888889e-05, - "loss": 0.0003, - "step": 2465 - }, - { - "epoch": 16.466666666666665, - "grad_norm": 0.001128224772401154, - "learning_rate": 9.026666666666666e-05, - "loss": 0.0003, - "step": 2470 - }, - { - "epoch": 16.5, - "grad_norm": 0.00110056612174958, - "learning_rate": 9.004444444444446e-05, - "loss": 0.0003, - "step": 2475 - }, - { - "epoch": 16.533333333333335, - "grad_norm": 0.0011303545907139778, - "learning_rate": 8.982222222222223e-05, - "loss": 0.0003, - "step": 2480 - }, - { - "epoch": 16.566666666666666, - "grad_norm": 0.0011401197407394648, - "learning_rate": 8.960000000000001e-05, - "loss": 0.0003, - "step": 2485 - }, - { - "epoch": 16.6, - "grad_norm": 0.0010978764621540904, - "learning_rate": 8.937777777777778e-05, - "loss": 0.0003, - "step": 2490 - }, - { - "epoch": 16.633333333333333, - "grad_norm": 0.001259364653378725, - "learning_rate": 8.915555555555556e-05, - "loss": 0.0003, - "step": 2495 - }, - { - "epoch": 16.666666666666668, - "grad_norm": 0.0010275428649038076, - "learning_rate": 8.893333333333333e-05, - "loss": 0.0003, - "step": 2500 - }, - { - "epoch": 16.666666666666668, - "eval_accuracy": 0.8625, - "eval_f1": 0.8595637362935941, - "eval_loss": 0.8439390063285828, - "eval_precision": 0.8630657769823553, - "eval_recall": 0.8625, - "eval_runtime": 7.8945, - "eval_samples_per_second": 152.004, - "eval_steps_per_second": 19.0, - "step": 2500 - }, - { - "epoch": 16.7, - "grad_norm": 0.0011707836529240012, - "learning_rate": 8.871111111111111e-05, - "loss": 0.0003, - "step": 2505 - }, - { - "epoch": 16.733333333333334, - "grad_norm": 0.0011262033367529511, - "learning_rate": 8.848888888888888e-05, - "loss": 0.0003, - "step": 2510 - }, - { - "epoch": 16.766666666666666, - "grad_norm": 0.0011401624651625752, - "learning_rate": 8.826666666666668e-05, - "loss": 0.0003, - "step": 2515 - }, - { - "epoch": 16.8, - "grad_norm": 0.0012540457537397742, - "learning_rate": 8.804444444444445e-05, - "loss": 0.0003, - "step": 2520 - }, - { - "epoch": 16.833333333333332, - "grad_norm": 0.0011835991172119975, - "learning_rate": 8.782222222222223e-05, - "loss": 0.0003, - "step": 2525 - }, - { - "epoch": 16.866666666666667, - "grad_norm": 0.0011482896516099572, - "learning_rate": 8.76e-05, - "loss": 0.0003, - "step": 2530 - }, - { - "epoch": 16.9, - "grad_norm": 0.0011490094475448132, - "learning_rate": 8.737777777777778e-05, - "loss": 0.0003, - "step": 2535 - }, - { - "epoch": 16.933333333333334, - "grad_norm": 0.001057293964549899, - "learning_rate": 8.715555555555555e-05, - "loss": 0.0003, - "step": 2540 - }, - { - "epoch": 16.966666666666665, - "grad_norm": 0.001065569231286645, - "learning_rate": 8.693333333333334e-05, - "loss": 0.0003, - "step": 2545 - }, - { - "epoch": 17.0, - "grad_norm": 0.0010954436147585511, - "learning_rate": 8.671111111111112e-05, - "loss": 0.0003, - "step": 2550 - }, - { - "epoch": 17.033333333333335, - "grad_norm": 0.001084050047211349, - "learning_rate": 8.64888888888889e-05, - "loss": 0.0003, - "step": 2555 - }, - { - "epoch": 17.066666666666666, - "grad_norm": 0.0011125549208372831, - "learning_rate": 8.626666666666667e-05, - "loss": 0.0003, - "step": 2560 - }, - { - "epoch": 17.1, - "grad_norm": 0.001121665583923459, - "learning_rate": 8.604444444444445e-05, - "loss": 0.0003, - "step": 2565 - }, - { - "epoch": 17.133333333333333, - "grad_norm": 0.0010623624548316002, - "learning_rate": 8.582222222222222e-05, - "loss": 0.0003, - "step": 2570 - }, - { - "epoch": 17.166666666666668, - "grad_norm": 0.0011434515472501516, - "learning_rate": 8.560000000000001e-05, - "loss": 0.0003, - "step": 2575 - }, - { - "epoch": 17.2, - "grad_norm": 0.0010651950724422932, - "learning_rate": 8.537777777777778e-05, - "loss": 0.0003, - "step": 2580 - }, - { - "epoch": 17.233333333333334, - "grad_norm": 0.0011851274175569415, - "learning_rate": 8.515555555555556e-05, - "loss": 0.0003, - "step": 2585 - }, - { - "epoch": 17.266666666666666, - "grad_norm": 0.0010491220746189356, - "learning_rate": 8.493333333333334e-05, - "loss": 0.0003, - "step": 2590 - }, - { - "epoch": 17.3, - "grad_norm": 0.0010015279985964298, - "learning_rate": 8.471111111111113e-05, - "loss": 0.0003, - "step": 2595 - }, - { - "epoch": 17.333333333333332, - "grad_norm": 0.0010980197694152594, - "learning_rate": 8.44888888888889e-05, - "loss": 0.0003, - "step": 2600 - }, - { - "epoch": 17.333333333333332, - "eval_accuracy": 0.8625, - "eval_f1": 0.8595357422116704, - "eval_loss": 0.8506022691726685, - "eval_precision": 0.8626895369808778, - "eval_recall": 0.8625, - "eval_runtime": 7.9558, - "eval_samples_per_second": 150.833, - "eval_steps_per_second": 18.854, - "step": 2600 - }, - { - "epoch": 17.366666666666667, - "grad_norm": 0.0011898076627403498, - "learning_rate": 8.426666666666668e-05, - "loss": 0.0003, - "step": 2605 - }, - { - "epoch": 17.4, - "grad_norm": 0.001032515661790967, - "learning_rate": 8.404444444444445e-05, - "loss": 0.0003, - "step": 2610 - }, - { - "epoch": 17.433333333333334, - "grad_norm": 0.0010280907154083252, - "learning_rate": 8.382222222222223e-05, - "loss": 0.0003, - "step": 2615 - }, - { - "epoch": 17.466666666666665, - "grad_norm": 0.0012916233390569687, - "learning_rate": 8.36e-05, - "loss": 0.0003, - "step": 2620 - }, - { - "epoch": 17.5, - "grad_norm": 0.001221377868205309, - "learning_rate": 8.337777777777778e-05, - "loss": 0.0003, - "step": 2625 - }, - { - "epoch": 17.533333333333335, - "grad_norm": 0.0010435410076752305, - "learning_rate": 8.315555555555557e-05, - "loss": 0.0003, - "step": 2630 - }, - { - "epoch": 17.566666666666666, - "grad_norm": 0.001028363243676722, - "learning_rate": 8.293333333333333e-05, - "loss": 0.0002, - "step": 2635 - }, - { - "epoch": 17.6, - "grad_norm": 0.00095149758271873, - "learning_rate": 8.271111111111112e-05, - "loss": 0.0003, - "step": 2640 - }, - { - "epoch": 17.633333333333333, - "grad_norm": 0.0010066466638818383, - "learning_rate": 8.248888888888889e-05, - "loss": 0.0003, - "step": 2645 - }, - { - "epoch": 17.666666666666668, - "grad_norm": 0.0010896141175180674, - "learning_rate": 8.226666666666667e-05, - "loss": 0.0003, - "step": 2650 - }, - { - "epoch": 17.7, - "grad_norm": 0.001096747349947691, - "learning_rate": 8.204444444444445e-05, - "loss": 0.0003, - "step": 2655 - }, - { - "epoch": 17.733333333333334, - "grad_norm": 0.0011521220440045, - "learning_rate": 8.182222222222222e-05, - "loss": 0.0002, - "step": 2660 - }, - { - "epoch": 17.766666666666666, - "grad_norm": 0.000984689686447382, - "learning_rate": 8.16e-05, - "loss": 0.0002, - "step": 2665 - }, - { - "epoch": 17.8, - "grad_norm": 0.0011150836944580078, - "learning_rate": 8.137777777777779e-05, - "loss": 0.0002, - "step": 2670 - }, - { - "epoch": 17.833333333333332, - "grad_norm": 0.00125226192176342, - "learning_rate": 8.115555555555556e-05, - "loss": 0.0002, - "step": 2675 - }, - { - "epoch": 17.866666666666667, - "grad_norm": 0.0010894419392570853, - "learning_rate": 8.093333333333334e-05, - "loss": 0.0003, - "step": 2680 - }, - { - "epoch": 17.9, - "grad_norm": 0.0011066760635003448, - "learning_rate": 8.071111111111111e-05, - "loss": 0.0002, - "step": 2685 - }, - { - "epoch": 17.933333333333334, - "grad_norm": 0.0009800712577998638, - "learning_rate": 8.048888888888889e-05, - "loss": 0.0002, - "step": 2690 - }, - { - "epoch": 17.966666666666665, - "grad_norm": 0.0009165397495962679, - "learning_rate": 8.026666666666666e-05, - "loss": 0.0002, - "step": 2695 - }, - { - "epoch": 18.0, - "grad_norm": 0.0011381577933207154, - "learning_rate": 8.004444444444444e-05, - "loss": 0.0002, - "step": 2700 - }, - { - "epoch": 18.0, - "eval_accuracy": 0.8633333333333333, - "eval_f1": 0.860477948685486, - "eval_loss": 0.8562703728675842, - "eval_precision": 0.8635195879576186, - "eval_recall": 0.8633333333333333, - "eval_runtime": 7.9587, - "eval_samples_per_second": 150.779, - "eval_steps_per_second": 18.847, - "step": 2700 - }, - { - "epoch": 18.033333333333335, - "grad_norm": 0.000996061135083437, - "learning_rate": 7.982222222222223e-05, - "loss": 0.0002, - "step": 2705 - }, - { - "epoch": 18.066666666666666, - "grad_norm": 0.0009423626470379531, - "learning_rate": 7.960000000000001e-05, - "loss": 0.0002, - "step": 2710 - }, - { - "epoch": 18.1, - "grad_norm": 0.0009808792965486646, - "learning_rate": 7.937777777777778e-05, - "loss": 0.0002, - "step": 2715 - }, - { - "epoch": 18.133333333333333, - "grad_norm": 0.0011566601460799575, - "learning_rate": 7.915555555555556e-05, - "loss": 0.0002, - "step": 2720 - }, - { - "epoch": 18.166666666666668, - "grad_norm": 0.001012039021588862, - "learning_rate": 7.893333333333333e-05, - "loss": 0.0002, - "step": 2725 - }, - { - "epoch": 18.2, - "grad_norm": 0.0010208896128460765, - "learning_rate": 7.871111111111111e-05, - "loss": 0.0003, - "step": 2730 - }, - { - "epoch": 18.233333333333334, - "grad_norm": 0.0009046883205883205, - "learning_rate": 7.848888888888888e-05, - "loss": 0.0002, - "step": 2735 - }, - { - "epoch": 18.266666666666666, - "grad_norm": 0.001025727717205882, - "learning_rate": 7.826666666666667e-05, - "loss": 0.0002, - "step": 2740 - }, - { - "epoch": 18.3, - "grad_norm": 0.0010592486942186952, - "learning_rate": 7.804444444444445e-05, - "loss": 0.0002, - "step": 2745 - }, - { - "epoch": 18.333333333333332, - "grad_norm": 0.0008968521724455059, - "learning_rate": 7.782222222222223e-05, - "loss": 0.0002, - "step": 2750 - }, - { - "epoch": 18.366666666666667, - "grad_norm": 0.0008849632577039301, - "learning_rate": 7.76e-05, - "loss": 0.0002, - "step": 2755 - }, - { - "epoch": 18.4, - "grad_norm": 0.0010558334179222584, - "learning_rate": 7.737777777777779e-05, - "loss": 0.0002, - "step": 2760 - }, - { - "epoch": 18.433333333333334, - "grad_norm": 0.000985563499853015, - "learning_rate": 7.715555555555555e-05, - "loss": 0.0002, - "step": 2765 - }, - { - "epoch": 18.466666666666665, - "grad_norm": 0.0009663936798460782, - "learning_rate": 7.693333333333334e-05, - "loss": 0.0002, - "step": 2770 - }, - { - "epoch": 18.5, - "grad_norm": 0.0010211037006229162, - "learning_rate": 7.671111111111111e-05, - "loss": 0.0002, - "step": 2775 - }, - { - "epoch": 18.533333333333335, - "grad_norm": 0.0010778945870697498, - "learning_rate": 7.648888888888889e-05, - "loss": 0.0002, - "step": 2780 - }, - { - "epoch": 18.566666666666666, - "grad_norm": 0.0008961930871009827, - "learning_rate": 7.626666666666667e-05, - "loss": 0.0002, - "step": 2785 - }, - { - "epoch": 18.6, - "grad_norm": 0.0008892322075553238, - "learning_rate": 7.604444444444446e-05, - "loss": 0.0002, - "step": 2790 - }, - { - "epoch": 18.633333333333333, - "grad_norm": 0.0009909243090078235, - "learning_rate": 7.582222222222223e-05, - "loss": 0.0002, - "step": 2795 - }, - { - "epoch": 18.666666666666668, - "grad_norm": 0.001149793271906674, - "learning_rate": 7.560000000000001e-05, - "loss": 0.0002, - "step": 2800 - }, - { - "epoch": 18.666666666666668, - "eval_accuracy": 0.8633333333333333, - "eval_f1": 0.8604980141988011, - "eval_loss": 0.8620908856391907, - "eval_precision": 0.863577472280856, - "eval_recall": 0.8633333333333333, - "eval_runtime": 7.9359, - "eval_samples_per_second": 151.212, - "eval_steps_per_second": 18.902, - "step": 2800 - }, - { - "epoch": 18.7, - "grad_norm": 0.0008886746363714337, - "learning_rate": 7.537777777777778e-05, - "loss": 0.0002, - "step": 2805 - }, - { - "epoch": 18.733333333333334, - "grad_norm": 0.0010380060411989689, - "learning_rate": 7.515555555555556e-05, - "loss": 0.0002, - "step": 2810 - }, - { - "epoch": 18.766666666666666, - "grad_norm": 0.0008743625367060304, - "learning_rate": 7.493333333333333e-05, - "loss": 0.0002, - "step": 2815 - }, - { - "epoch": 18.8, - "grad_norm": 0.0009594199946150184, - "learning_rate": 7.471111111111111e-05, - "loss": 0.0002, - "step": 2820 - }, - { - "epoch": 18.833333333333332, - "grad_norm": 0.001046293880790472, - "learning_rate": 7.44888888888889e-05, - "loss": 0.0002, - "step": 2825 - }, - { - "epoch": 18.866666666666667, - "grad_norm": 0.0009818226099014282, - "learning_rate": 7.426666666666668e-05, - "loss": 0.0002, - "step": 2830 - }, - { - "epoch": 18.9, - "grad_norm": 0.0009379011462442577, - "learning_rate": 7.404444444444445e-05, - "loss": 0.0002, - "step": 2835 - }, - { - "epoch": 18.933333333333334, - "grad_norm": 0.0009382064454257488, - "learning_rate": 7.382222222222223e-05, - "loss": 0.0002, - "step": 2840 - }, - { - "epoch": 18.966666666666665, - "grad_norm": 0.0009348876774311066, - "learning_rate": 7.36e-05, - "loss": 0.0002, - "step": 2845 - }, - { - "epoch": 19.0, - "grad_norm": 0.000978232710622251, - "learning_rate": 7.337777777777778e-05, - "loss": 0.0002, - "step": 2850 - }, - { - "epoch": 19.033333333333335, - "grad_norm": 0.0008789849234744906, - "learning_rate": 7.315555555555555e-05, - "loss": 0.0002, - "step": 2855 - }, - { - "epoch": 19.066666666666666, - "grad_norm": 0.00086677708895877, - "learning_rate": 7.293333333333334e-05, - "loss": 0.0002, - "step": 2860 - }, - { - "epoch": 19.1, - "grad_norm": 0.0008651084499433637, - "learning_rate": 7.271111111111112e-05, - "loss": 0.0002, - "step": 2865 - }, - { - "epoch": 19.133333333333333, - "grad_norm": 0.0008810753934085369, - "learning_rate": 7.24888888888889e-05, - "loss": 0.0002, - "step": 2870 - }, - { - "epoch": 19.166666666666668, - "grad_norm": 0.0009830835042521358, - "learning_rate": 7.226666666666667e-05, - "loss": 0.0002, - "step": 2875 - }, - { - "epoch": 19.2, - "grad_norm": 0.0009993386920541525, - "learning_rate": 7.204444444444445e-05, - "loss": 0.0002, - "step": 2880 - }, - { - "epoch": 19.233333333333334, - "grad_norm": 0.0009009952191263437, - "learning_rate": 7.182222222222222e-05, - "loss": 0.0002, - "step": 2885 - }, - { - "epoch": 19.266666666666666, - "grad_norm": 0.0008540042908862233, - "learning_rate": 7.16e-05, - "loss": 0.0002, - "step": 2890 - }, - { - "epoch": 19.3, - "grad_norm": 0.0007995357154868543, - "learning_rate": 7.137777777777778e-05, - "loss": 0.0002, - "step": 2895 - }, - { - "epoch": 19.333333333333332, - "grad_norm": 0.0008923677960410714, - "learning_rate": 7.115555555555556e-05, - "loss": 0.0002, - "step": 2900 - }, - { - "epoch": 19.333333333333332, - "eval_accuracy": 0.8633333333333333, - "eval_f1": 0.8604980141988011, - "eval_loss": 0.8663456439971924, - "eval_precision": 0.863577472280856, - "eval_recall": 0.8633333333333333, - "eval_runtime": 7.916, - "eval_samples_per_second": 151.592, - "eval_steps_per_second": 18.949, - "step": 2900 - }, - { - "epoch": 19.366666666666667, - "grad_norm": 0.0008749233093112707, - "learning_rate": 7.093333333333334e-05, - "loss": 0.0002, - "step": 2905 - }, - { - "epoch": 19.4, - "grad_norm": 0.0008065833244472742, - "learning_rate": 7.071111111111111e-05, - "loss": 0.0002, - "step": 2910 - }, - { - "epoch": 19.433333333333334, - "grad_norm": 0.0008410558220930398, - "learning_rate": 7.048888888888889e-05, - "loss": 0.0002, - "step": 2915 - }, - { - "epoch": 19.466666666666665, - "grad_norm": 0.0008868688601069152, - "learning_rate": 7.026666666666668e-05, - "loss": 0.0002, - "step": 2920 - }, - { - "epoch": 19.5, - "grad_norm": 0.0009061646996997297, - "learning_rate": 7.004444444444445e-05, - "loss": 0.0002, - "step": 2925 - }, - { - "epoch": 19.533333333333335, - "grad_norm": 0.0009935443522408605, - "learning_rate": 6.982222222222223e-05, - "loss": 0.0002, - "step": 2930 - }, - { - "epoch": 19.566666666666666, - "grad_norm": 0.0008212956599891186, - "learning_rate": 6.96e-05, - "loss": 0.0002, - "step": 2935 - }, - { - "epoch": 19.6, - "grad_norm": 0.0008984676096588373, - "learning_rate": 6.937777777777778e-05, - "loss": 0.0002, - "step": 2940 - }, - { - "epoch": 19.633333333333333, - "grad_norm": 0.0009310848545283079, - "learning_rate": 6.915555555555556e-05, - "loss": 0.0002, - "step": 2945 - }, - { - "epoch": 19.666666666666668, - "grad_norm": 0.0009124356438405812, - "learning_rate": 6.893333333333333e-05, - "loss": 0.0002, - "step": 2950 - }, - { - "epoch": 19.7, - "grad_norm": 0.0008933325880207121, - "learning_rate": 6.871111111111112e-05, - "loss": 0.0002, - "step": 2955 - }, - { - "epoch": 19.733333333333334, - "grad_norm": 0.0007954699103720486, - "learning_rate": 6.848888888888889e-05, - "loss": 0.0002, - "step": 2960 - }, - { - "epoch": 19.766666666666666, - "grad_norm": 0.0008987325127236545, - "learning_rate": 6.826666666666667e-05, - "loss": 0.0002, - "step": 2965 - }, - { - "epoch": 19.8, - "grad_norm": 0.0008154854294843972, - "learning_rate": 6.804444444444444e-05, - "loss": 0.0002, - "step": 2970 - }, - { - "epoch": 19.833333333333332, - "grad_norm": 0.0008684848435223103, - "learning_rate": 6.782222222222222e-05, - "loss": 0.0002, - "step": 2975 - }, - { - "epoch": 19.866666666666667, - "grad_norm": 0.0009166916133835912, - "learning_rate": 6.76e-05, - "loss": 0.0002, - "step": 2980 - }, - { - "epoch": 19.9, - "grad_norm": 0.000933626783080399, - "learning_rate": 6.737777777777779e-05, - "loss": 0.0002, - "step": 2985 - }, - { - "epoch": 19.933333333333334, - "grad_norm": 0.0007773354882374406, - "learning_rate": 6.715555555555556e-05, - "loss": 0.0002, - "step": 2990 - }, - { - "epoch": 19.966666666666665, - "grad_norm": 0.0008270398830063641, - "learning_rate": 6.693333333333334e-05, - "loss": 0.0002, - "step": 2995 - }, - { - "epoch": 20.0, - "grad_norm": 0.0009105781209655106, - "learning_rate": 6.671111111111111e-05, - "loss": 0.0002, - "step": 3000 - }, - { - "epoch": 20.0, - "eval_accuracy": 0.8625, - "eval_f1": 0.8596897807193199, - "eval_loss": 0.8713950514793396, - "eval_precision": 0.862500772675275, - "eval_recall": 0.8625, - "eval_runtime": 7.8989, - "eval_samples_per_second": 151.92, - "eval_steps_per_second": 18.99, - "step": 3000 - }, - { - "epoch": 20.033333333333335, - "grad_norm": 0.000984189915470779, - "learning_rate": 6.648888888888889e-05, - "loss": 0.0002, - "step": 3005 - }, - { - "epoch": 20.066666666666666, - "grad_norm": 0.0008808307466097176, - "learning_rate": 6.626666666666666e-05, - "loss": 0.0002, - "step": 3010 - }, - { - "epoch": 20.1, - "grad_norm": 0.0008451922913081944, - "learning_rate": 6.604444444444444e-05, - "loss": 0.0002, - "step": 3015 - }, - { - "epoch": 20.133333333333333, - "grad_norm": 0.0009597701136954129, - "learning_rate": 6.582222222222223e-05, - "loss": 0.0002, - "step": 3020 - }, - { - "epoch": 20.166666666666668, - "grad_norm": 0.0009660087525844574, - "learning_rate": 6.560000000000001e-05, - "loss": 0.0002, - "step": 3025 - }, - { - "epoch": 20.2, - "grad_norm": 0.000848349358420819, - "learning_rate": 6.537777777777778e-05, - "loss": 0.0002, - "step": 3030 - }, - { - "epoch": 20.233333333333334, - "grad_norm": 0.0007857161690481007, - "learning_rate": 6.515555555555556e-05, - "loss": 0.0002, - "step": 3035 - }, - { - "epoch": 20.266666666666666, - "grad_norm": 0.000950362125877291, - "learning_rate": 6.493333333333333e-05, - "loss": 0.0002, - "step": 3040 - }, - { - "epoch": 20.3, - "grad_norm": 0.0009196801111102104, - "learning_rate": 6.471111111111111e-05, - "loss": 0.0002, - "step": 3045 - }, - { - "epoch": 20.333333333333332, - "grad_norm": 0.0009003925370052457, - "learning_rate": 6.448888888888888e-05, - "loss": 0.0002, - "step": 3050 - }, - { - "epoch": 20.366666666666667, - "grad_norm": 0.0008277931483462453, - "learning_rate": 6.426666666666668e-05, - "loss": 0.0002, - "step": 3055 - }, - { - "epoch": 20.4, - "grad_norm": 0.0008040508255362511, - "learning_rate": 6.404444444444445e-05, - "loss": 0.0002, - "step": 3060 - }, - { - "epoch": 20.433333333333334, - "grad_norm": 0.0007814280106686056, - "learning_rate": 6.382222222222223e-05, - "loss": 0.0002, - "step": 3065 - }, - { - "epoch": 20.466666666666665, - "grad_norm": 0.0009234723984263837, - "learning_rate": 6.36e-05, - "loss": 0.0002, - "step": 3070 - }, - { - "epoch": 20.5, - "grad_norm": 0.0008993928786367178, - "learning_rate": 6.337777777777778e-05, - "loss": 0.0002, - "step": 3075 - }, - { - "epoch": 20.533333333333335, - "grad_norm": 0.000876908132340759, - "learning_rate": 6.315555555555555e-05, - "loss": 0.0002, - "step": 3080 - }, - { - "epoch": 20.566666666666666, - "grad_norm": 0.000809943419881165, - "learning_rate": 6.293333333333334e-05, - "loss": 0.0002, - "step": 3085 - }, - { - "epoch": 20.6, - "grad_norm": 0.0008519270922988653, - "learning_rate": 6.27111111111111e-05, - "loss": 0.0002, - "step": 3090 - }, - { - "epoch": 20.633333333333333, - "grad_norm": 0.0008937672828324139, - "learning_rate": 6.24888888888889e-05, - "loss": 0.0002, - "step": 3095 - }, - { - "epoch": 20.666666666666668, - "grad_norm": 0.0009987751254811883, - "learning_rate": 6.226666666666667e-05, - "loss": 0.0002, - "step": 3100 - }, - { - "epoch": 20.666666666666668, - "eval_accuracy": 0.8625, - "eval_f1": 0.8596897807193199, - "eval_loss": 0.8760701417922974, - "eval_precision": 0.862500772675275, - "eval_recall": 0.8625, - "eval_runtime": 7.901, - "eval_samples_per_second": 151.88, - "eval_steps_per_second": 18.985, - "step": 3100 - }, - { - "epoch": 20.7, - "grad_norm": 0.0008791263098828495, - "learning_rate": 6.204444444444445e-05, - "loss": 0.0002, - "step": 3105 - }, - { - "epoch": 20.733333333333334, - "grad_norm": 0.0007920433999970555, - "learning_rate": 6.182222222222222e-05, - "loss": 0.0002, - "step": 3110 - }, - { - "epoch": 20.766666666666666, - "grad_norm": 0.0007527954294346273, - "learning_rate": 6.16e-05, - "loss": 0.0002, - "step": 3115 - }, - { - "epoch": 20.8, - "grad_norm": 0.0009355798829346895, - "learning_rate": 6.137777777777778e-05, - "loss": 0.0002, - "step": 3120 - }, - { - "epoch": 20.833333333333332, - "grad_norm": 0.0008071784395724535, - "learning_rate": 6.115555555555556e-05, - "loss": 0.0002, - "step": 3125 - }, - { - "epoch": 20.866666666666667, - "grad_norm": 0.0008125259773805737, - "learning_rate": 6.093333333333333e-05, - "loss": 0.0002, - "step": 3130 - }, - { - "epoch": 20.9, - "grad_norm": 0.0007680061389692128, - "learning_rate": 6.071111111111112e-05, - "loss": 0.0002, - "step": 3135 - }, - { - "epoch": 20.933333333333334, - "grad_norm": 0.0007739868597127497, - "learning_rate": 6.0488888888888894e-05, - "loss": 0.0002, - "step": 3140 - }, - { - "epoch": 20.966666666666665, - "grad_norm": 0.0007353003602474928, - "learning_rate": 6.026666666666667e-05, - "loss": 0.0002, - "step": 3145 - }, - { - "epoch": 21.0, - "grad_norm": 0.0007767602219246328, - "learning_rate": 6.0044444444444446e-05, - "loss": 0.0002, - "step": 3150 - }, - { - "epoch": 21.033333333333335, - "grad_norm": 0.000820947578176856, - "learning_rate": 5.982222222222222e-05, - "loss": 0.0002, - "step": 3155 - }, - { - "epoch": 21.066666666666666, - "grad_norm": 0.0008728387765586376, - "learning_rate": 5.96e-05, - "loss": 0.0002, - "step": 3160 - }, - { - "epoch": 21.1, - "grad_norm": 0.0008009742014110088, - "learning_rate": 5.9377777777777775e-05, - "loss": 0.0002, - "step": 3165 - }, - { - "epoch": 21.133333333333333, - "grad_norm": 0.0008082141284830868, - "learning_rate": 5.915555555555555e-05, - "loss": 0.0002, - "step": 3170 - }, - { - "epoch": 21.166666666666668, - "grad_norm": 0.0007510983268730342, - "learning_rate": 5.893333333333334e-05, - "loss": 0.0002, - "step": 3175 - }, - { - "epoch": 21.2, - "grad_norm": 0.0007994400802999735, - "learning_rate": 5.871111111111112e-05, - "loss": 0.0002, - "step": 3180 - }, - { - "epoch": 21.233333333333334, - "grad_norm": 0.0007970727165229619, - "learning_rate": 5.848888888888889e-05, - "loss": 0.0002, - "step": 3185 - }, - { - "epoch": 21.266666666666666, - "grad_norm": 0.00077852449612692, - "learning_rate": 5.826666666666667e-05, - "loss": 0.0002, - "step": 3190 - }, - { - "epoch": 21.3, - "grad_norm": 0.0007356248679570854, - "learning_rate": 5.8044444444444445e-05, - "loss": 0.0002, - "step": 3195 - }, - { - "epoch": 21.333333333333332, - "grad_norm": 0.0006932831602171063, - "learning_rate": 5.782222222222222e-05, - "loss": 0.0002, - "step": 3200 - }, - { - "epoch": 21.333333333333332, - "eval_accuracy": 0.8625, - "eval_f1": 0.8596897807193199, - "eval_loss": 0.8801725506782532, - "eval_precision": 0.862500772675275, - "eval_recall": 0.8625, - "eval_runtime": 7.8163, - "eval_samples_per_second": 153.526, - "eval_steps_per_second": 19.191, - "step": 3200 - }, - { - "epoch": 21.366666666666667, - "grad_norm": 0.0008273008861579001, - "learning_rate": 5.76e-05, - "loss": 0.0002, - "step": 3205 - }, - { - "epoch": 21.4, - "grad_norm": 0.0007540901424363256, - "learning_rate": 5.737777777777779e-05, - "loss": 0.0002, - "step": 3210 - }, - { - "epoch": 21.433333333333334, - "grad_norm": 0.0007189205498434603, - "learning_rate": 5.715555555555556e-05, - "loss": 0.0002, - "step": 3215 - }, - { - "epoch": 21.466666666666665, - "grad_norm": 0.0007282146252691746, - "learning_rate": 5.693333333333334e-05, - "loss": 0.0002, - "step": 3220 - }, - { - "epoch": 21.5, - "grad_norm": 0.0008850519661791623, - "learning_rate": 5.6711111111111116e-05, - "loss": 0.0002, - "step": 3225 - }, - { - "epoch": 21.533333333333335, - "grad_norm": 0.0007877376046963036, - "learning_rate": 5.648888888888889e-05, - "loss": 0.0002, - "step": 3230 - }, - { - "epoch": 21.566666666666666, - "grad_norm": 0.0007972219027578831, - "learning_rate": 5.626666666666667e-05, - "loss": 0.0002, - "step": 3235 - }, - { - "epoch": 21.6, - "grad_norm": 0.0007598233642056584, - "learning_rate": 5.6044444444444444e-05, - "loss": 0.0002, - "step": 3240 - }, - { - "epoch": 21.633333333333333, - "grad_norm": 0.0008666218491271138, - "learning_rate": 5.582222222222222e-05, - "loss": 0.0002, - "step": 3245 - }, - { - "epoch": 21.666666666666668, - "grad_norm": 0.0007320933509618044, - "learning_rate": 5.560000000000001e-05, - "loss": 0.0002, - "step": 3250 - }, - { - "epoch": 21.7, - "grad_norm": 0.0008494326029904187, - "learning_rate": 5.5377777777777786e-05, - "loss": 0.0002, - "step": 3255 - }, - { - "epoch": 21.733333333333334, - "grad_norm": 0.0007553123869001865, - "learning_rate": 5.515555555555556e-05, - "loss": 0.0002, - "step": 3260 - }, - { - "epoch": 21.766666666666666, - "grad_norm": 0.00078456976916641, - "learning_rate": 5.493333333333334e-05, - "loss": 0.0002, - "step": 3265 - }, - { - "epoch": 21.8, - "grad_norm": 0.0007390431128442287, - "learning_rate": 5.4711111111111114e-05, - "loss": 0.0002, - "step": 3270 - }, - { - "epoch": 21.833333333333332, - "grad_norm": 0.0007920018979348242, - "learning_rate": 5.448888888888889e-05, - "loss": 0.0002, - "step": 3275 - }, - { - "epoch": 21.866666666666667, - "grad_norm": 0.0006946244393475354, - "learning_rate": 5.4266666666666667e-05, - "loss": 0.0002, - "step": 3280 - }, - { - "epoch": 21.9, - "grad_norm": 0.0006692199385724962, - "learning_rate": 5.404444444444444e-05, - "loss": 0.0002, - "step": 3285 - }, - { - "epoch": 21.933333333333334, - "grad_norm": 0.0007892646826803684, - "learning_rate": 5.382222222222223e-05, - "loss": 0.0002, - "step": 3290 - }, - { - "epoch": 21.966666666666665, - "grad_norm": 0.0007507664267905056, - "learning_rate": 5.360000000000001e-05, - "loss": 0.0002, - "step": 3295 - }, - { - "epoch": 22.0, - "grad_norm": 0.0007241126149892807, - "learning_rate": 5.3377777777777785e-05, - "loss": 0.0002, - "step": 3300 - }, - { - "epoch": 22.0, - "eval_accuracy": 0.8633333333333333, - "eval_f1": 0.8605021617992343, - "eval_loss": 0.884079098701477, - "eval_precision": 0.8632804903722695, - "eval_recall": 0.8633333333333333, - "eval_runtime": 7.8284, - "eval_samples_per_second": 153.288, - "eval_steps_per_second": 19.161, - "step": 3300 - }, - { - "epoch": 22.033333333333335, - "grad_norm": 0.0007651003543287516, - "learning_rate": 5.315555555555556e-05, - "loss": 0.0002, - "step": 3305 - }, - { - "epoch": 22.066666666666666, - "grad_norm": 0.000749147788155824, - "learning_rate": 5.293333333333334e-05, - "loss": 0.0002, - "step": 3310 - }, - { - "epoch": 22.1, - "grad_norm": 0.000796561420429498, - "learning_rate": 5.271111111111111e-05, - "loss": 0.0002, - "step": 3315 - }, - { - "epoch": 22.133333333333333, - "grad_norm": 0.0008733553695492446, - "learning_rate": 5.248888888888889e-05, - "loss": 0.0002, - "step": 3320 - }, - { - "epoch": 22.166666666666668, - "grad_norm": 0.0007207304006442428, - "learning_rate": 5.2266666666666665e-05, - "loss": 0.0002, - "step": 3325 - }, - { - "epoch": 22.2, - "grad_norm": 0.0008161132573150098, - "learning_rate": 5.204444444444445e-05, - "loss": 0.0002, - "step": 3330 - }, - { - "epoch": 22.233333333333334, - "grad_norm": 0.0006905693444423378, - "learning_rate": 5.1822222222222224e-05, - "loss": 0.0002, - "step": 3335 - }, - { - "epoch": 22.266666666666666, - "grad_norm": 0.0009119806345552206, - "learning_rate": 5.16e-05, - "loss": 0.0002, - "step": 3340 - }, - { - "epoch": 22.3, - "grad_norm": 0.0007030894048511982, - "learning_rate": 5.1377777777777784e-05, - "loss": 0.0002, - "step": 3345 - }, - { - "epoch": 22.333333333333332, - "grad_norm": 0.0007569286972284317, - "learning_rate": 5.115555555555556e-05, - "loss": 0.0002, - "step": 3350 - }, - { - "epoch": 22.366666666666667, - "grad_norm": 0.0006789417820982635, - "learning_rate": 5.0933333333333336e-05, - "loss": 0.0002, - "step": 3355 - }, - { - "epoch": 22.4, - "grad_norm": 0.0007269697962328792, - "learning_rate": 5.071111111111111e-05, - "loss": 0.0002, - "step": 3360 - }, - { - "epoch": 22.433333333333334, - "grad_norm": 0.000758487032726407, - "learning_rate": 5.0488888888888895e-05, - "loss": 0.0002, - "step": 3365 - }, - { - "epoch": 22.466666666666665, - "grad_norm": 0.0007246753084473312, - "learning_rate": 5.026666666666667e-05, - "loss": 0.0002, - "step": 3370 - }, - { - "epoch": 22.5, - "grad_norm": 0.0007974980399012566, - "learning_rate": 5.004444444444445e-05, - "loss": 0.0002, - "step": 3375 - }, - { - "epoch": 22.533333333333335, - "grad_norm": 0.000730965519323945, - "learning_rate": 4.982222222222222e-05, - "loss": 0.0002, - "step": 3380 - }, - { - "epoch": 22.566666666666666, - "grad_norm": 0.0006799163529649377, - "learning_rate": 4.96e-05, - "loss": 0.0002, - "step": 3385 - }, - { - "epoch": 22.6, - "grad_norm": 0.0007214499055407941, - "learning_rate": 4.9377777777777776e-05, - "loss": 0.0002, - "step": 3390 - }, - { - "epoch": 22.633333333333333, - "grad_norm": 0.0007151850149966776, - "learning_rate": 4.915555555555556e-05, - "loss": 0.0002, - "step": 3395 - }, - { - "epoch": 22.666666666666668, - "grad_norm": 0.0006496990681625903, - "learning_rate": 4.8933333333333335e-05, - "loss": 0.0002, - "step": 3400 - }, - { - "epoch": 22.666666666666668, - "eval_accuracy": 0.8633333333333333, - "eval_f1": 0.8605021617992343, - "eval_loss": 0.8878868818283081, - "eval_precision": 0.8632804903722695, - "eval_recall": 0.8633333333333333, - "eval_runtime": 7.9554, - "eval_samples_per_second": 150.841, - "eval_steps_per_second": 18.855, - "step": 3400 - }, - { - "epoch": 22.7, - "grad_norm": 0.0007013113936409354, - "learning_rate": 4.871111111111111e-05, - "loss": 0.0002, - "step": 3405 - }, - { - "epoch": 22.733333333333334, - "grad_norm": 0.0006587319658137858, - "learning_rate": 4.848888888888889e-05, - "loss": 0.0002, - "step": 3410 - }, - { - "epoch": 22.766666666666666, - "grad_norm": 0.0007366626523435116, - "learning_rate": 4.826666666666667e-05, - "loss": 0.0002, - "step": 3415 - }, - { - "epoch": 22.8, - "grad_norm": 0.0007071791915223002, - "learning_rate": 4.8044444444444446e-05, - "loss": 0.0002, - "step": 3420 - }, - { - "epoch": 22.833333333333332, - "grad_norm": 0.0007102707168087363, - "learning_rate": 4.782222222222222e-05, - "loss": 0.0002, - "step": 3425 - }, - { - "epoch": 22.866666666666667, - "grad_norm": 0.0007753521203994751, - "learning_rate": 4.76e-05, - "loss": 0.0002, - "step": 3430 - }, - { - "epoch": 22.9, - "grad_norm": 0.0007595521165058017, - "learning_rate": 4.737777777777778e-05, - "loss": 0.0002, - "step": 3435 - }, - { - "epoch": 22.933333333333334, - "grad_norm": 0.0006514331907965243, - "learning_rate": 4.715555555555556e-05, - "loss": 0.0002, - "step": 3440 - }, - { - "epoch": 22.966666666666665, - "grad_norm": 0.0007081793737597764, - "learning_rate": 4.6933333333333333e-05, - "loss": 0.0002, - "step": 3445 - }, - { - "epoch": 23.0, - "grad_norm": 0.0007191445911303163, - "learning_rate": 4.671111111111111e-05, - "loss": 0.0002, - "step": 3450 - }, - { - "epoch": 23.033333333333335, - "grad_norm": 0.0007946040132082999, - "learning_rate": 4.648888888888889e-05, - "loss": 0.0002, - "step": 3455 - }, - { - "epoch": 23.066666666666666, - "grad_norm": 0.0006842566072009504, - "learning_rate": 4.626666666666667e-05, - "loss": 0.0002, - "step": 3460 - }, - { - "epoch": 23.1, - "grad_norm": 0.0006394055089913309, - "learning_rate": 4.6044444444444445e-05, - "loss": 0.0002, - "step": 3465 - }, - { - "epoch": 23.133333333333333, - "grad_norm": 0.0006845356547273695, - "learning_rate": 4.582222222222222e-05, - "loss": 0.0002, - "step": 3470 - }, - { - "epoch": 23.166666666666668, - "grad_norm": 0.0007393827545456588, - "learning_rate": 4.5600000000000004e-05, - "loss": 0.0002, - "step": 3475 - }, - { - "epoch": 23.2, - "grad_norm": 0.0006571225239895284, - "learning_rate": 4.537777777777778e-05, - "loss": 0.0002, - "step": 3480 - }, - { - "epoch": 23.233333333333334, - "grad_norm": 0.0006875869585201144, - "learning_rate": 4.5155555555555556e-05, - "loss": 0.0002, - "step": 3485 - }, - { - "epoch": 23.266666666666666, - "grad_norm": 0.000653399561997503, - "learning_rate": 4.493333333333333e-05, - "loss": 0.0002, - "step": 3490 - }, - { - "epoch": 23.3, - "grad_norm": 0.0007159598171710968, - "learning_rate": 4.4711111111111115e-05, - "loss": 0.0002, - "step": 3495 - }, - { - "epoch": 23.333333333333332, - "grad_norm": 0.0007123721879906952, - "learning_rate": 4.448888888888889e-05, - "loss": 0.0002, - "step": 3500 - }, - { - "epoch": 23.333333333333332, - "eval_accuracy": 0.8633333333333333, - "eval_f1": 0.8605021617992343, - "eval_loss": 0.891568124294281, - "eval_precision": 0.8632804903722695, - "eval_recall": 0.8633333333333333, - "eval_runtime": 7.8629, - "eval_samples_per_second": 152.616, - "eval_steps_per_second": 19.077, - "step": 3500 - }, - { - "epoch": 23.366666666666667, - "grad_norm": 0.0007095324690453708, - "learning_rate": 4.426666666666667e-05, - "loss": 0.0002, - "step": 3505 - }, - { - "epoch": 23.4, - "grad_norm": 0.0007700832793489099, - "learning_rate": 4.404444444444445e-05, - "loss": 0.0002, - "step": 3510 - }, - { - "epoch": 23.433333333333334, - "grad_norm": 0.0006974077550694346, - "learning_rate": 4.3822222222222227e-05, - "loss": 0.0002, - "step": 3515 - }, - { - "epoch": 23.466666666666665, - "grad_norm": 0.0007333626854233444, - "learning_rate": 4.36e-05, - "loss": 0.0002, - "step": 3520 - }, - { - "epoch": 23.5, - "grad_norm": 0.0006428014603443444, - "learning_rate": 4.337777777777778e-05, - "loss": 0.0002, - "step": 3525 - }, - { - "epoch": 23.533333333333335, - "grad_norm": 0.0007976766792126, - "learning_rate": 4.315555555555556e-05, - "loss": 0.0002, - "step": 3530 - }, - { - "epoch": 23.566666666666666, - "grad_norm": 0.0007544758263975382, - "learning_rate": 4.293333333333334e-05, - "loss": 0.0002, - "step": 3535 - }, - { - "epoch": 23.6, - "grad_norm": 0.00066350371344015, - "learning_rate": 4.2711111111111114e-05, - "loss": 0.0002, - "step": 3540 - }, - { - "epoch": 23.633333333333333, - "grad_norm": 0.0007261767750605941, - "learning_rate": 4.248888888888889e-05, - "loss": 0.0002, - "step": 3545 - }, - { - "epoch": 23.666666666666668, - "grad_norm": 0.00069211091613397, - "learning_rate": 4.226666666666667e-05, - "loss": 0.0002, - "step": 3550 - }, - { - "epoch": 23.7, - "grad_norm": 0.000668493565171957, - "learning_rate": 4.204444444444445e-05, - "loss": 0.0002, - "step": 3555 - }, - { - "epoch": 23.733333333333334, - "grad_norm": 0.000680987723171711, - "learning_rate": 4.1822222222222225e-05, - "loss": 0.0002, - "step": 3560 - }, - { - "epoch": 23.766666666666666, - "grad_norm": 0.0006583565264008939, - "learning_rate": 4.16e-05, - "loss": 0.0002, - "step": 3565 - }, - { - "epoch": 23.8, - "grad_norm": 0.0006131433765403926, - "learning_rate": 4.1377777777777784e-05, - "loss": 0.0002, - "step": 3570 - }, - { - "epoch": 23.833333333333332, - "grad_norm": 0.0006589437834918499, - "learning_rate": 4.115555555555556e-05, - "loss": 0.0002, - "step": 3575 - }, - { - "epoch": 23.866666666666667, - "grad_norm": 0.0006510618259198964, - "learning_rate": 4.093333333333334e-05, - "loss": 0.0002, - "step": 3580 - }, - { - "epoch": 23.9, - "grad_norm": 0.0007487374823540449, - "learning_rate": 4.071111111111111e-05, - "loss": 0.0002, - "step": 3585 - }, - { - "epoch": 23.933333333333334, - "grad_norm": 0.0006950495881028473, - "learning_rate": 4.0488888888888896e-05, - "loss": 0.0002, - "step": 3590 - }, - { - "epoch": 23.966666666666665, - "grad_norm": 0.0006072468240745366, - "learning_rate": 4.026666666666667e-05, - "loss": 0.0002, - "step": 3595 - }, - { - "epoch": 24.0, - "grad_norm": 0.0006155178416520357, - "learning_rate": 4.004444444444445e-05, - "loss": 0.0002, - "step": 3600 - }, - { - "epoch": 24.0, - "eval_accuracy": 0.8633333333333333, - "eval_f1": 0.8605021617992343, - "eval_loss": 0.8944242596626282, - "eval_precision": 0.8632804903722695, - "eval_recall": 0.8633333333333333, - "eval_runtime": 7.8926, - "eval_samples_per_second": 152.041, - "eval_steps_per_second": 19.005, - "step": 3600 - }, - { - "epoch": 24.033333333333335, - "grad_norm": 0.0007126863347366452, - "learning_rate": 3.9822222222222224e-05, - "loss": 0.0002, - "step": 3605 - }, - { - "epoch": 24.066666666666666, - "grad_norm": 0.0006532373372465372, - "learning_rate": 3.960000000000001e-05, - "loss": 0.0002, - "step": 3610 - }, - { - "epoch": 24.1, - "grad_norm": 0.000744893099181354, - "learning_rate": 3.937777777777778e-05, - "loss": 0.0002, - "step": 3615 - }, - { - "epoch": 24.133333333333333, - "grad_norm": 0.0006589913973584771, - "learning_rate": 3.915555555555556e-05, - "loss": 0.0002, - "step": 3620 - }, - { - "epoch": 24.166666666666668, - "grad_norm": 0.0007009358378127217, - "learning_rate": 3.8933333333333336e-05, - "loss": 0.0002, - "step": 3625 - }, - { - "epoch": 24.2, - "grad_norm": 0.0006654213066212833, - "learning_rate": 3.871111111111111e-05, - "loss": 0.0002, - "step": 3630 - }, - { - "epoch": 24.233333333333334, - "grad_norm": 0.0006739359814673662, - "learning_rate": 3.848888888888889e-05, - "loss": 0.0002, - "step": 3635 - }, - { - "epoch": 24.266666666666666, - "grad_norm": 0.0008093852084130049, - "learning_rate": 3.8266666666666664e-05, - "loss": 0.0002, - "step": 3640 - }, - { - "epoch": 24.3, - "grad_norm": 0.0006594982696697116, - "learning_rate": 3.804444444444445e-05, - "loss": 0.0002, - "step": 3645 - }, - { - "epoch": 24.333333333333332, - "grad_norm": 0.0006488760700449347, - "learning_rate": 3.782222222222222e-05, - "loss": 0.0002, - "step": 3650 - }, - { - "epoch": 24.366666666666667, - "grad_norm": 0.0006130426190793514, - "learning_rate": 3.76e-05, - "loss": 0.0002, - "step": 3655 - }, - { - "epoch": 24.4, - "grad_norm": 0.0006977301090955734, - "learning_rate": 3.7377777777777775e-05, - "loss": 0.0002, - "step": 3660 - }, - { - "epoch": 24.433333333333334, - "grad_norm": 0.0006227208650670946, - "learning_rate": 3.715555555555555e-05, - "loss": 0.0002, - "step": 3665 - }, - { - "epoch": 24.466666666666665, - "grad_norm": 0.0007059330819174647, - "learning_rate": 3.6933333333333334e-05, - "loss": 0.0002, - "step": 3670 - }, - { - "epoch": 24.5, - "grad_norm": 0.0006503947079181671, - "learning_rate": 3.671111111111111e-05, - "loss": 0.0002, - "step": 3675 - }, - { - "epoch": 24.533333333333335, - "grad_norm": 0.0006189235718920827, - "learning_rate": 3.648888888888889e-05, - "loss": 0.0002, - "step": 3680 - }, - { - "epoch": 24.566666666666666, - "grad_norm": 0.0006241785595193505, - "learning_rate": 3.626666666666667e-05, - "loss": 0.0002, - "step": 3685 - }, - { - "epoch": 24.6, - "grad_norm": 0.0006143326754681766, - "learning_rate": 3.6044444444444446e-05, - "loss": 0.0002, - "step": 3690 - }, - { - "epoch": 24.633333333333333, - "grad_norm": 0.000663065817207098, - "learning_rate": 3.582222222222222e-05, - "loss": 0.0002, - "step": 3695 - }, - { - "epoch": 24.666666666666668, - "grad_norm": 0.0006006426992826164, - "learning_rate": 3.56e-05, - "loss": 0.0002, - "step": 3700 - }, - { - "epoch": 24.666666666666668, - "eval_accuracy": 0.8633333333333333, - "eval_f1": 0.8605021617992343, - "eval_loss": 0.8973260521888733, - "eval_precision": 0.8632804903722695, - "eval_recall": 0.8633333333333333, - "eval_runtime": 7.9334, - "eval_samples_per_second": 151.26, - "eval_steps_per_second": 18.907, - "step": 3700 - }, - { - "epoch": 24.7, - "grad_norm": 0.0005956903914920986, - "learning_rate": 3.537777777777778e-05, - "loss": 0.0002, - "step": 3705 - }, - { - "epoch": 24.733333333333334, - "grad_norm": 0.0006067783106118441, - "learning_rate": 3.515555555555556e-05, - "loss": 0.0002, - "step": 3710 - }, - { - "epoch": 24.766666666666666, - "grad_norm": 0.0006620762287639081, - "learning_rate": 3.493333333333333e-05, - "loss": 0.0002, - "step": 3715 - }, - { - "epoch": 24.8, - "grad_norm": 0.0007022201316431165, - "learning_rate": 3.471111111111111e-05, - "loss": 0.0002, - "step": 3720 - }, - { - "epoch": 24.833333333333332, - "grad_norm": 0.0006121351034380496, - "learning_rate": 3.448888888888889e-05, - "loss": 0.0002, - "step": 3725 - }, - { - "epoch": 24.866666666666667, - "grad_norm": 0.0006323431734926999, - "learning_rate": 3.426666666666667e-05, - "loss": 0.0002, - "step": 3730 - }, - { - "epoch": 24.9, - "grad_norm": 0.0005976050160825253, - "learning_rate": 3.4044444444444445e-05, - "loss": 0.0002, - "step": 3735 - }, - { - "epoch": 24.933333333333334, - "grad_norm": 0.0007663246942684054, - "learning_rate": 3.382222222222222e-05, - "loss": 0.0002, - "step": 3740 - }, - { - "epoch": 24.966666666666665, - "grad_norm": 0.0006977331358939409, - "learning_rate": 3.3600000000000004e-05, - "loss": 0.0002, - "step": 3745 - }, - { - "epoch": 25.0, - "grad_norm": 0.0006171787390485406, - "learning_rate": 3.337777777777778e-05, - "loss": 0.0002, - "step": 3750 - }, - { - "epoch": 25.033333333333335, - "grad_norm": 0.0006884089671075344, - "learning_rate": 3.3155555555555556e-05, - "loss": 0.0002, - "step": 3755 - }, - { - "epoch": 25.066666666666666, - "grad_norm": 0.000630708527751267, - "learning_rate": 3.293333333333333e-05, - "loss": 0.0002, - "step": 3760 - }, - { - "epoch": 25.1, - "grad_norm": 0.0006394999800249934, - "learning_rate": 3.2711111111111115e-05, - "loss": 0.0002, - "step": 3765 - }, - { - "epoch": 25.133333333333333, - "grad_norm": 0.0006307310541160405, - "learning_rate": 3.248888888888889e-05, - "loss": 0.0002, - "step": 3770 - }, - { - "epoch": 25.166666666666668, - "grad_norm": 0.0006023230962455273, - "learning_rate": 3.226666666666667e-05, - "loss": 0.0002, - "step": 3775 - }, - { - "epoch": 25.2, - "grad_norm": 0.0006921821623109281, - "learning_rate": 3.204444444444444e-05, - "loss": 0.0002, - "step": 3780 - }, - { - "epoch": 25.233333333333334, - "grad_norm": 0.0006198607734404504, - "learning_rate": 3.1822222222222226e-05, - "loss": 0.0001, - "step": 3785 - }, - { - "epoch": 25.266666666666666, - "grad_norm": 0.0006035257829353213, - "learning_rate": 3.16e-05, - "loss": 0.0002, - "step": 3790 - }, - { - "epoch": 25.3, - "grad_norm": 0.0007181849214248359, - "learning_rate": 3.137777777777778e-05, - "loss": 0.0002, - "step": 3795 - }, - { - "epoch": 25.333333333333332, - "grad_norm": 0.0005976383108645678, - "learning_rate": 3.1155555555555555e-05, - "loss": 0.0002, - "step": 3800 - }, - { - "epoch": 25.333333333333332, - "eval_accuracy": 0.8633333333333333, - "eval_f1": 0.8605021617992343, - "eval_loss": 0.8999597430229187, - "eval_precision": 0.8632804903722695, - "eval_recall": 0.8633333333333333, - "eval_runtime": 7.8213, - "eval_samples_per_second": 153.428, - "eval_steps_per_second": 19.178, - "step": 3800 - }, - { - "epoch": 25.366666666666667, - "grad_norm": 0.0006684275576844811, - "learning_rate": 3.093333333333334e-05, - "loss": 0.0002, - "step": 3805 - }, - { - "epoch": 25.4, - "grad_norm": 0.0006418860866688192, - "learning_rate": 3.0711111111111114e-05, - "loss": 0.0001, - "step": 3810 - }, - { - "epoch": 25.433333333333334, - "grad_norm": 0.0006222600350156426, - "learning_rate": 3.048888888888889e-05, - "loss": 0.0002, - "step": 3815 - }, - { - "epoch": 25.466666666666665, - "grad_norm": 0.0006069372175261378, - "learning_rate": 3.0266666666666666e-05, - "loss": 0.0001, - "step": 3820 - }, - { - "epoch": 25.5, - "grad_norm": 0.0006484674522653222, - "learning_rate": 3.004444444444445e-05, - "loss": 0.0002, - "step": 3825 - }, - { - "epoch": 25.533333333333335, - "grad_norm": 0.0006855017854832113, - "learning_rate": 2.9822222222222225e-05, - "loss": 0.0001, - "step": 3830 - }, - { - "epoch": 25.566666666666666, - "grad_norm": 0.0006666798144578934, - "learning_rate": 2.96e-05, - "loss": 0.0002, - "step": 3835 - }, - { - "epoch": 25.6, - "grad_norm": 0.0006047927308827639, - "learning_rate": 2.937777777777778e-05, - "loss": 0.0001, - "step": 3840 - }, - { - "epoch": 25.633333333333333, - "grad_norm": 0.0005890351603738964, - "learning_rate": 2.9155555555555557e-05, - "loss": 0.0002, - "step": 3845 - }, - { - "epoch": 25.666666666666668, - "grad_norm": 0.0006178083713166416, - "learning_rate": 2.8933333333333333e-05, - "loss": 0.0001, - "step": 3850 - }, - { - "epoch": 25.7, - "grad_norm": 0.0006583417998626828, - "learning_rate": 2.8711111111111113e-05, - "loss": 0.0001, - "step": 3855 - }, - { - "epoch": 25.733333333333334, - "grad_norm": 0.0006156592280603945, - "learning_rate": 2.8488888888888892e-05, - "loss": 0.0001, - "step": 3860 - }, - { - "epoch": 25.766666666666666, - "grad_norm": 0.0007018270553089678, - "learning_rate": 2.8266666666666668e-05, - "loss": 0.0001, - "step": 3865 - }, - { - "epoch": 25.8, - "grad_norm": 0.0005858687800355256, - "learning_rate": 2.8044444444444444e-05, - "loss": 0.0001, - "step": 3870 - }, - { - "epoch": 25.833333333333332, - "grad_norm": 0.0006725151324644685, - "learning_rate": 2.782222222222222e-05, - "loss": 0.0001, - "step": 3875 - }, - { - "epoch": 25.866666666666667, - "grad_norm": 0.0006183598306961358, - "learning_rate": 2.7600000000000003e-05, - "loss": 0.0002, - "step": 3880 - }, - { - "epoch": 25.9, - "grad_norm": 0.0005915936781093478, - "learning_rate": 2.737777777777778e-05, - "loss": 0.0001, - "step": 3885 - }, - { - "epoch": 25.933333333333334, - "grad_norm": 0.000612512172665447, - "learning_rate": 2.7155555555555556e-05, - "loss": 0.0001, - "step": 3890 - }, - { - "epoch": 25.966666666666665, - "grad_norm": 0.0005854107439517975, - "learning_rate": 2.6933333333333332e-05, - "loss": 0.0001, - "step": 3895 - }, - { - "epoch": 26.0, - "grad_norm": 0.0006119285244494677, - "learning_rate": 2.6711111111111115e-05, - "loss": 0.0001, - "step": 3900 - }, - { - "epoch": 26.0, - "eval_accuracy": 0.8633333333333333, - "eval_f1": 0.8605021617992343, - "eval_loss": 0.9023354053497314, - "eval_precision": 0.8632804903722695, - "eval_recall": 0.8633333333333333, - "eval_runtime": 7.8643, - "eval_samples_per_second": 152.588, - "eval_steps_per_second": 19.074, - "step": 3900 - }, - { - "epoch": 26.033333333333335, - "grad_norm": 0.0006005606846883893, - "learning_rate": 2.648888888888889e-05, - "loss": 0.0001, - "step": 3905 - }, - { - "epoch": 26.066666666666666, - "grad_norm": 0.0006631436990574002, - "learning_rate": 2.6266666666666667e-05, - "loss": 0.0002, - "step": 3910 - }, - { - "epoch": 26.1, - "grad_norm": 0.0005597827839665115, - "learning_rate": 2.6044444444444443e-05, - "loss": 0.0001, - "step": 3915 - }, - { - "epoch": 26.133333333333333, - "grad_norm": 0.0006076500285416842, - "learning_rate": 2.5822222222222226e-05, - "loss": 0.0001, - "step": 3920 - }, - { - "epoch": 26.166666666666668, - "grad_norm": 0.0006311857723630965, - "learning_rate": 2.5600000000000002e-05, - "loss": 0.0001, - "step": 3925 - }, - { - "epoch": 26.2, - "grad_norm": 0.0005909130559302866, - "learning_rate": 2.537777777777778e-05, - "loss": 0.0001, - "step": 3930 - }, - { - "epoch": 26.233333333333334, - "grad_norm": 0.0006105731590650976, - "learning_rate": 2.5155555555555555e-05, - "loss": 0.0001, - "step": 3935 - }, - { - "epoch": 26.266666666666666, - "grad_norm": 0.0005873890477232635, - "learning_rate": 2.4933333333333334e-05, - "loss": 0.0001, - "step": 3940 - }, - { - "epoch": 26.3, - "grad_norm": 0.0005405120900832117, - "learning_rate": 2.4711111111111114e-05, - "loss": 0.0001, - "step": 3945 - }, - { - "epoch": 26.333333333333332, - "grad_norm": 0.0006054295809008181, - "learning_rate": 2.448888888888889e-05, - "loss": 0.0001, - "step": 3950 - }, - { - "epoch": 26.366666666666667, - "grad_norm": 0.0006081322790123522, - "learning_rate": 2.426666666666667e-05, - "loss": 0.0001, - "step": 3955 - }, - { - "epoch": 26.4, - "grad_norm": 0.0006977207376621664, - "learning_rate": 2.4044444444444445e-05, - "loss": 0.0001, - "step": 3960 - }, - { - "epoch": 26.433333333333334, - "grad_norm": 0.0006441541481763124, - "learning_rate": 2.3822222222222225e-05, - "loss": 0.0001, - "step": 3965 - }, - { - "epoch": 26.466666666666665, - "grad_norm": 0.0006098180310800672, - "learning_rate": 2.36e-05, - "loss": 0.0001, - "step": 3970 - }, - { - "epoch": 26.5, - "grad_norm": 0.0005784666864201427, - "learning_rate": 2.337777777777778e-05, - "loss": 0.0001, - "step": 3975 - }, - { - "epoch": 26.533333333333335, - "grad_norm": 0.0006206436664797366, - "learning_rate": 2.3155555555555557e-05, - "loss": 0.0001, - "step": 3980 - }, - { - "epoch": 26.566666666666666, - "grad_norm": 0.0006746792932972312, - "learning_rate": 2.2933333333333333e-05, - "loss": 0.0001, - "step": 3985 - }, - { - "epoch": 26.6, - "grad_norm": 0.0005611791857518256, - "learning_rate": 2.2711111111111112e-05, - "loss": 0.0001, - "step": 3990 - }, - { - "epoch": 26.633333333333333, - "grad_norm": 0.0005436721839942038, - "learning_rate": 2.248888888888889e-05, - "loss": 0.0001, - "step": 3995 - }, - { - "epoch": 26.666666666666668, - "grad_norm": 0.0005808582645840943, - "learning_rate": 2.2266666666666668e-05, - "loss": 0.0001, - "step": 4000 - }, - { - "epoch": 26.666666666666668, - "eval_accuracy": 0.8633333333333333, - "eval_f1": 0.8605021617992343, - "eval_loss": 0.9042079448699951, - "eval_precision": 0.8632804903722695, - "eval_recall": 0.8633333333333333, - "eval_runtime": 7.834, - "eval_samples_per_second": 153.179, - "eval_steps_per_second": 19.147, - "step": 4000 - }, - { - "epoch": 26.7, - "grad_norm": 0.0006307329167611897, - "learning_rate": 2.2044444444444444e-05, - "loss": 0.0001, - "step": 4005 - }, - { - "epoch": 26.733333333333334, - "grad_norm": 0.0006659611244685948, - "learning_rate": 2.1822222222222224e-05, - "loss": 0.0001, - "step": 4010 - }, - { - "epoch": 26.766666666666666, - "grad_norm": 0.0005617436254397035, - "learning_rate": 2.16e-05, - "loss": 0.0001, - "step": 4015 - }, - { - "epoch": 26.8, - "grad_norm": 0.0006252391613088548, - "learning_rate": 2.137777777777778e-05, - "loss": 0.0001, - "step": 4020 - }, - { - "epoch": 26.833333333333332, - "grad_norm": 0.0006216434412635863, - "learning_rate": 2.1155555555555556e-05, - "loss": 0.0001, - "step": 4025 - }, - { - "epoch": 26.866666666666667, - "grad_norm": 0.0006344984285533428, - "learning_rate": 2.0933333333333335e-05, - "loss": 0.0001, - "step": 4030 - }, - { - "epoch": 26.9, - "grad_norm": 0.0005765259265899658, - "learning_rate": 2.071111111111111e-05, - "loss": 0.0001, - "step": 4035 - }, - { - "epoch": 26.933333333333334, - "grad_norm": 0.0006013559177517891, - "learning_rate": 2.048888888888889e-05, - "loss": 0.0001, - "step": 4040 - }, - { - "epoch": 26.966666666666665, - "grad_norm": 0.0005878254887647927, - "learning_rate": 2.0266666666666667e-05, - "loss": 0.0001, - "step": 4045 - }, - { - "epoch": 27.0, - "grad_norm": 0.0006638579070568085, - "learning_rate": 2.0044444444444446e-05, - "loss": 0.0001, - "step": 4050 - }, - { - "epoch": 27.033333333333335, - "grad_norm": 0.0005665569915436208, - "learning_rate": 1.9822222222222223e-05, - "loss": 0.0001, - "step": 4055 - }, - { - "epoch": 27.066666666666666, - "grad_norm": 0.0005756223690696061, - "learning_rate": 1.9600000000000002e-05, - "loss": 0.0001, - "step": 4060 - }, - { - "epoch": 27.1, - "grad_norm": 0.000651739479508251, - "learning_rate": 1.9377777777777778e-05, - "loss": 0.0001, - "step": 4065 - }, - { - "epoch": 27.133333333333333, - "grad_norm": 0.0006534755229949951, - "learning_rate": 1.9155555555555558e-05, - "loss": 0.0001, - "step": 4070 - }, - { - "epoch": 27.166666666666668, - "grad_norm": 0.0005888182786293328, - "learning_rate": 1.8933333333333334e-05, - "loss": 0.0001, - "step": 4075 - }, - { - "epoch": 27.2, - "grad_norm": 0.0005738766631111503, - "learning_rate": 1.8711111111111113e-05, - "loss": 0.0001, - "step": 4080 - }, - { - "epoch": 27.233333333333334, - "grad_norm": 0.0005750305717810988, - "learning_rate": 1.848888888888889e-05, - "loss": 0.0001, - "step": 4085 - }, - { - "epoch": 27.266666666666666, - "grad_norm": 0.0005267930682748556, - "learning_rate": 1.826666666666667e-05, - "loss": 0.0001, - "step": 4090 - }, - { - "epoch": 27.3, - "grad_norm": 0.0005589875509031117, - "learning_rate": 1.8044444444444445e-05, - "loss": 0.0001, - "step": 4095 - }, - { - "epoch": 27.333333333333332, - "grad_norm": 0.0005850264569744468, - "learning_rate": 1.7822222222222225e-05, - "loss": 0.0001, - "step": 4100 - }, - { - "epoch": 27.333333333333332, - "eval_accuracy": 0.8633333333333333, - "eval_f1": 0.8605021617992343, - "eval_loss": 0.9060449004173279, - "eval_precision": 0.8632804903722695, - "eval_recall": 0.8633333333333333, - "eval_runtime": 7.9156, - "eval_samples_per_second": 151.599, - "eval_steps_per_second": 18.95, - "step": 4100 - }, - { - "epoch": 27.366666666666667, - "grad_norm": 0.0006328452145680785, - "learning_rate": 1.76e-05, - "loss": 0.0001, - "step": 4105 - }, - { - "epoch": 27.4, - "grad_norm": 0.0006553809507749975, - "learning_rate": 1.737777777777778e-05, - "loss": 0.0001, - "step": 4110 - }, - { - "epoch": 27.433333333333334, - "grad_norm": 0.0005636191926896572, - "learning_rate": 1.7155555555555557e-05, - "loss": 0.0001, - "step": 4115 - }, - { - "epoch": 27.466666666666665, - "grad_norm": 0.0006337189115583897, - "learning_rate": 1.6933333333333333e-05, - "loss": 0.0001, - "step": 4120 - }, - { - "epoch": 27.5, - "grad_norm": 0.0005904599674977362, - "learning_rate": 1.6711111111111112e-05, - "loss": 0.0001, - "step": 4125 - }, - { - "epoch": 27.533333333333335, - "grad_norm": 0.0005527642788365483, - "learning_rate": 1.648888888888889e-05, - "loss": 0.0001, - "step": 4130 - }, - { - "epoch": 27.566666666666666, - "grad_norm": 0.0005446110153570771, - "learning_rate": 1.6266666666666665e-05, - "loss": 0.0001, - "step": 4135 - }, - { - "epoch": 27.6, - "grad_norm": 0.0005654716514982283, - "learning_rate": 1.6044444444444444e-05, - "loss": 0.0001, - "step": 4140 - }, - { - "epoch": 27.633333333333333, - "grad_norm": 0.0005464385030791163, - "learning_rate": 1.582222222222222e-05, - "loss": 0.0001, - "step": 4145 - }, - { - "epoch": 27.666666666666668, - "grad_norm": 0.000681799603626132, - "learning_rate": 1.56e-05, - "loss": 0.0001, - "step": 4150 - }, - { - "epoch": 27.7, - "grad_norm": 0.0006190164131112397, - "learning_rate": 1.537777777777778e-05, - "loss": 0.0001, - "step": 4155 - }, - { - "epoch": 27.733333333333334, - "grad_norm": 0.0005908625898882747, - "learning_rate": 1.5155555555555555e-05, - "loss": 0.0001, - "step": 4160 - }, - { - "epoch": 27.766666666666666, - "grad_norm": 0.0006196309113875031, - "learning_rate": 1.4933333333333335e-05, - "loss": 0.0001, - "step": 4165 - }, - { - "epoch": 27.8, - "grad_norm": 0.0007036320748738945, - "learning_rate": 1.4711111111111111e-05, - "loss": 0.0001, - "step": 4170 - }, - { - "epoch": 27.833333333333332, - "grad_norm": 0.0005452426266856492, - "learning_rate": 1.448888888888889e-05, - "loss": 0.0001, - "step": 4175 - }, - { - "epoch": 27.866666666666667, - "grad_norm": 0.0005307687097229064, - "learning_rate": 1.4266666666666667e-05, - "loss": 0.0001, - "step": 4180 - }, - { - "epoch": 27.9, - "grad_norm": 0.0005684642237611115, - "learning_rate": 1.4044444444444446e-05, - "loss": 0.0001, - "step": 4185 - }, - { - "epoch": 27.933333333333334, - "grad_norm": 0.0005942394491285086, - "learning_rate": 1.3822222222222222e-05, - "loss": 0.0001, - "step": 4190 - }, - { - "epoch": 27.966666666666665, - "grad_norm": 0.0006570374825969338, - "learning_rate": 1.3600000000000002e-05, - "loss": 0.0001, - "step": 4195 - }, - { - "epoch": 28.0, - "grad_norm": 0.000580131309106946, - "learning_rate": 1.3377777777777778e-05, - "loss": 0.0001, - "step": 4200 - }, - { - "epoch": 28.0, - "eval_accuracy": 0.8633333333333333, - "eval_f1": 0.8605021617992343, - "eval_loss": 0.9074180126190186, - "eval_precision": 0.8632804903722695, - "eval_recall": 0.8633333333333333, - "eval_runtime": 7.9679, - "eval_samples_per_second": 150.604, - "eval_steps_per_second": 18.825, - "step": 4200 - }, - { - "epoch": 28.033333333333335, - "grad_norm": 0.0007359784212894738, - "learning_rate": 1.3155555555555558e-05, - "loss": 0.0001, - "step": 4205 - }, - { - "epoch": 28.066666666666666, - "grad_norm": 0.0005893973284401, - "learning_rate": 1.2933333333333334e-05, - "loss": 0.0001, - "step": 4210 - }, - { - "epoch": 28.1, - "grad_norm": 0.0005571352085098624, - "learning_rate": 1.2711111111111113e-05, - "loss": 0.0001, - "step": 4215 - }, - { - "epoch": 28.133333333333333, - "grad_norm": 0.0006346289883367717, - "learning_rate": 1.248888888888889e-05, - "loss": 0.0001, - "step": 4220 - }, - { - "epoch": 28.166666666666668, - "grad_norm": 0.0006128503591753542, - "learning_rate": 1.2266666666666667e-05, - "loss": 0.0001, - "step": 4225 - }, - { - "epoch": 28.2, - "grad_norm": 0.0006426849868148565, - "learning_rate": 1.2044444444444445e-05, - "loss": 0.0001, - "step": 4230 - }, - { - "epoch": 28.233333333333334, - "grad_norm": 0.0005927455495111644, - "learning_rate": 1.1822222222222223e-05, - "loss": 0.0001, - "step": 4235 - }, - { - "epoch": 28.266666666666666, - "grad_norm": 0.0005549676716327667, - "learning_rate": 1.16e-05, - "loss": 0.0001, - "step": 4240 - }, - { - "epoch": 28.3, - "grad_norm": 0.0005637076683342457, - "learning_rate": 1.1377777777777779e-05, - "loss": 0.0001, - "step": 4245 - }, - { - "epoch": 28.333333333333332, - "grad_norm": 0.0005490906187333167, - "learning_rate": 1.1155555555555556e-05, - "loss": 0.0001, - "step": 4250 - }, - { - "epoch": 28.366666666666667, - "grad_norm": 0.0005748500116169453, - "learning_rate": 1.0933333333333334e-05, - "loss": 0.0001, - "step": 4255 - }, - { - "epoch": 28.4, - "grad_norm": 0.0005706730880774558, - "learning_rate": 1.0711111111111112e-05, - "loss": 0.0001, - "step": 4260 - }, - { - "epoch": 28.433333333333334, - "grad_norm": 0.0005561003927141428, - "learning_rate": 1.048888888888889e-05, - "loss": 0.0001, - "step": 4265 - }, - { - "epoch": 28.466666666666665, - "grad_norm": 0.0005550324567593634, - "learning_rate": 1.0266666666666668e-05, - "loss": 0.0001, - "step": 4270 - }, - { - "epoch": 28.5, - "grad_norm": 0.0006557056913152337, - "learning_rate": 1.0044444444444446e-05, - "loss": 0.0001, - "step": 4275 - }, - { - "epoch": 28.533333333333335, - "grad_norm": 0.0005575631512328982, - "learning_rate": 9.822222222222223e-06, - "loss": 0.0001, - "step": 4280 - }, - { - "epoch": 28.566666666666666, - "grad_norm": 0.0005523256259039044, - "learning_rate": 9.600000000000001e-06, - "loss": 0.0001, - "step": 4285 - }, - { - "epoch": 28.6, - "grad_norm": 0.0005699703469872475, - "learning_rate": 9.377777777777779e-06, - "loss": 0.0001, - "step": 4290 - }, - { - "epoch": 28.633333333333333, - "grad_norm": 0.0005492911441251636, - "learning_rate": 9.155555555555557e-06, - "loss": 0.0001, - "step": 4295 - }, - { - "epoch": 28.666666666666668, - "grad_norm": 0.0005434001795947552, - "learning_rate": 8.933333333333333e-06, - "loss": 0.0001, - "step": 4300 - }, - { - "epoch": 28.666666666666668, - "eval_accuracy": 0.8633333333333333, - "eval_f1": 0.8605021617992343, - "eval_loss": 0.9084760546684265, - "eval_precision": 0.8632804903722695, - "eval_recall": 0.8633333333333333, - "eval_runtime": 7.9776, - "eval_samples_per_second": 150.421, - "eval_steps_per_second": 18.803, - "step": 4300 - }, - { - "epoch": 28.7, - "grad_norm": 0.0006115837604738772, - "learning_rate": 8.711111111111111e-06, - "loss": 0.0001, - "step": 4305 - }, - { - "epoch": 28.733333333333334, - "grad_norm": 0.0006133668357506394, - "learning_rate": 8.488888888888889e-06, - "loss": 0.0001, - "step": 4310 - }, - { - "epoch": 28.766666666666666, - "grad_norm": 0.000638399098534137, - "learning_rate": 8.266666666666667e-06, - "loss": 0.0001, - "step": 4315 - }, - { - "epoch": 28.8, - "grad_norm": 0.0005904845311306417, - "learning_rate": 8.044444444444444e-06, - "loss": 0.0001, - "step": 4320 - }, - { - "epoch": 28.833333333333332, - "grad_norm": 0.0005576728726737201, - "learning_rate": 7.822222222222222e-06, - "loss": 0.0001, - "step": 4325 - }, - { - "epoch": 28.866666666666667, - "grad_norm": 0.0006629147101193666, - "learning_rate": 7.6e-06, - "loss": 0.0001, - "step": 4330 - }, - { - "epoch": 28.9, - "grad_norm": 0.0005160101572982967, - "learning_rate": 7.377777777777778e-06, - "loss": 0.0001, - "step": 4335 - }, - { - "epoch": 28.933333333333334, - "grad_norm": 0.0005642162868753076, - "learning_rate": 7.155555555555556e-06, - "loss": 0.0001, - "step": 4340 - }, - { - "epoch": 28.966666666666665, - "grad_norm": 0.0005391507293097675, - "learning_rate": 6.933333333333334e-06, - "loss": 0.0001, - "step": 4345 - }, - { - "epoch": 29.0, - "grad_norm": 0.0005618631257675588, - "learning_rate": 6.711111111111111e-06, - "loss": 0.0001, - "step": 4350 - }, - { - "epoch": 29.033333333333335, - "grad_norm": 0.0006005455506965518, - "learning_rate": 6.488888888888888e-06, - "loss": 0.0001, - "step": 4355 - }, - { - "epoch": 29.066666666666666, - "grad_norm": 0.0006074474658817053, - "learning_rate": 6.266666666666666e-06, - "loss": 0.0001, - "step": 4360 - }, - { - "epoch": 29.1, - "grad_norm": 0.0005550173809751868, - "learning_rate": 6.044444444444445e-06, - "loss": 0.0001, - "step": 4365 - }, - { - "epoch": 29.133333333333333, - "grad_norm": 0.0006107062799856067, - "learning_rate": 5.822222222222223e-06, - "loss": 0.0001, - "step": 4370 - }, - { - "epoch": 29.166666666666668, - "grad_norm": 0.000552743615116924, - "learning_rate": 5.600000000000001e-06, - "loss": 0.0001, - "step": 4375 - }, - { - "epoch": 29.2, - "grad_norm": 0.0005396022461354733, - "learning_rate": 5.3777777777777784e-06, - "loss": 0.0001, - "step": 4380 - }, - { - "epoch": 29.233333333333334, - "grad_norm": 0.0005668587400577962, - "learning_rate": 5.155555555555555e-06, - "loss": 0.0001, - "step": 4385 - }, - { - "epoch": 29.266666666666666, - "grad_norm": 0.0006624856614507735, - "learning_rate": 4.933333333333333e-06, - "loss": 0.0001, - "step": 4390 - }, - { - "epoch": 29.3, - "grad_norm": 0.0006284189294092357, - "learning_rate": 4.711111111111111e-06, - "loss": 0.0001, - "step": 4395 - }, - { - "epoch": 29.333333333333332, - "grad_norm": 0.000611928931903094, - "learning_rate": 4.488888888888889e-06, - "loss": 0.0001, - "step": 4400 - }, - { - "epoch": 29.333333333333332, - "eval_accuracy": 0.8633333333333333, - "eval_f1": 0.8605021617992343, - "eval_loss": 0.9091123342514038, - "eval_precision": 0.8632804903722695, - "eval_recall": 0.8633333333333333, - "eval_runtime": 7.9413, - "eval_samples_per_second": 151.11, - "eval_steps_per_second": 18.889, - "step": 4400 - }, - { - "epoch": 29.366666666666667, - "grad_norm": 0.0006126256776042283, - "learning_rate": 4.266666666666667e-06, - "loss": 0.0001, - "step": 4405 - }, - { - "epoch": 29.4, - "grad_norm": 0.0005744004738517106, - "learning_rate": 4.044444444444445e-06, - "loss": 0.0001, - "step": 4410 - }, - { - "epoch": 29.433333333333334, - "grad_norm": 0.000547837873455137, - "learning_rate": 3.8222222222222224e-06, - "loss": 0.0001, - "step": 4415 - }, - { - "epoch": 29.466666666666665, - "grad_norm": 0.000609434733632952, - "learning_rate": 3.6e-06, - "loss": 0.0001, - "step": 4420 - }, - { - "epoch": 29.5, - "grad_norm": 0.0005913516506552696, - "learning_rate": 3.3777777777777777e-06, - "loss": 0.0001, - "step": 4425 - }, - { - "epoch": 29.533333333333335, - "grad_norm": 0.0005573354428634048, - "learning_rate": 3.155555555555556e-06, - "loss": 0.0001, - "step": 4430 - }, - { - "epoch": 29.566666666666666, - "grad_norm": 0.0005525725428014994, - "learning_rate": 2.9333333333333333e-06, - "loss": 0.0001, - "step": 4435 - }, - { - "epoch": 29.6, - "grad_norm": 0.0006254903855733573, - "learning_rate": 2.711111111111111e-06, - "loss": 0.0001, - "step": 4440 - }, - { - "epoch": 29.633333333333333, - "grad_norm": 0.0006096638971939683, - "learning_rate": 2.488888888888889e-06, - "loss": 0.0001, - "step": 4445 - }, - { - "epoch": 29.666666666666668, - "grad_norm": 0.000580392312258482, - "learning_rate": 2.266666666666667e-06, - "loss": 0.0001, - "step": 4450 - }, - { - "epoch": 29.7, - "grad_norm": 0.0005696416483260691, - "learning_rate": 2.0444444444444447e-06, - "loss": 0.0001, - "step": 4455 - }, - { - "epoch": 29.733333333333334, - "grad_norm": 0.0006397234974429011, - "learning_rate": 1.8222222222222223e-06, - "loss": 0.0001, - "step": 4460 - }, - { - "epoch": 29.766666666666666, - "grad_norm": 0.0006035005208104849, - "learning_rate": 1.6000000000000001e-06, - "loss": 0.0001, - "step": 4465 - }, - { - "epoch": 29.8, - "grad_norm": 0.0006013059755787253, - "learning_rate": 1.3777777777777778e-06, - "loss": 0.0001, - "step": 4470 - }, - { - "epoch": 29.833333333333332, - "grad_norm": 0.000762494804803282, - "learning_rate": 1.1555555555555556e-06, - "loss": 0.0001, - "step": 4475 - }, - { - "epoch": 29.866666666666667, - "grad_norm": 0.0005435398197732866, - "learning_rate": 9.333333333333334e-07, - "loss": 0.0001, - "step": 4480 - }, - { - "epoch": 29.9, - "grad_norm": 0.0006225515971891582, - "learning_rate": 7.111111111111112e-07, - "loss": 0.0001, - "step": 4485 - }, - { - "epoch": 29.933333333333334, - "grad_norm": 0.0005317104514688253, - "learning_rate": 4.888888888888889e-07, - "loss": 0.0001, - "step": 4490 - }, - { - "epoch": 29.966666666666665, - "grad_norm": 0.0006185764796100557, - "learning_rate": 2.6666666666666667e-07, - "loss": 0.0001, - "step": 4495 - }, - { - "epoch": 30.0, - "grad_norm": 0.0005406280979514122, - "learning_rate": 4.444444444444445e-08, - "loss": 0.0001, - "step": 4500 - }, - { - "epoch": 30.0, - "eval_accuracy": 0.8633333333333333, - "eval_f1": 0.8605021617992343, - "eval_loss": 0.9093770384788513, - "eval_precision": 0.8632804903722695, - "eval_recall": 0.8633333333333333, - "eval_runtime": 8.139, - "eval_samples_per_second": 147.438, - "eval_steps_per_second": 18.43, - "step": 4500 - }, - { - "epoch": 30.0, - "step": 4500, - "total_flos": 1.115924655734784e+19, - "train_loss": 0.02178489219976796, - "train_runtime": 1698.0764, - "train_samples_per_second": 84.802, - "train_steps_per_second": 2.65 + "epoch": 15.0, + "step": 2250, + "total_flos": 5.57962327867392e+18, + "train_loss": 0.040586712151765826, + "train_runtime": 790.5824, + "train_samples_per_second": 91.072, + "train_steps_per_second": 2.846 } ], "logging_steps": 5, - "max_steps": 4500, + "max_steps": 2250, "num_input_tokens_seen": 0, - "num_train_epochs": 30, + "num_train_epochs": 15, "save_steps": 100, "stateful_callbacks": { "TrainerControl": { @@ -6875,7 +3449,7 @@ "attributes": {} } }, - "total_flos": 1.115924655734784e+19, + "total_flos": 5.57962327867392e+18, "train_batch_size": 32, "trial_name": null, "trial_params": null