End of training

69f744d verified 2 months ago

75.8 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 98.96907216494846,
	"eval_steps": 500,
	"global_step": 2400,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.41237113402061853,
	"grad_norm": 5.916716575622559,
	"learning_rate": 2.0833333333333334e-06,
	"loss": 1.6297,
	"step": 10
	},
	{
	"epoch": 0.8247422680412371,
	"grad_norm": 5.051618576049805,
	"learning_rate": 4.166666666666667e-06,
	"loss": 1.613,
	"step": 20
	},
	{
	"epoch": 0.9896907216494846,
	"eval_accuracy": 0.2927536231884058,
	"eval_loss": 1.5833344459533691,
	"eval_precision": 0.3247879943590829,
	"eval_recall": 0.2927536231884058,
	"eval_runtime": 2.9495,
	"eval_samples_per_second": 116.97,
	"eval_steps_per_second": 3.729,
	"step": 24
	},
	{
	"epoch": 1.2371134020618557,
	"grad_norm": 4.8794169425964355,
	"learning_rate": 6.25e-06,
	"loss": 1.5792,
	"step": 30
	},
	{
	"epoch": 1.6494845360824741,
	"grad_norm": 6.336801052093506,
	"learning_rate": 8.333333333333334e-06,
	"loss": 1.5494,
	"step": 40
	},
	{
	"epoch": 1.9793814432989691,
	"eval_accuracy": 0.3681159420289855,
	"eval_loss": 1.4944071769714355,
	"eval_precision": 0.440954469667821,
	"eval_recall": 0.3681159420289855,
	"eval_runtime": 1.7863,
	"eval_samples_per_second": 193.135,
	"eval_steps_per_second": 6.158,
	"step": 48
	},
	{
	"epoch": 2.0618556701030926,
	"grad_norm": 8.574434280395508,
	"learning_rate": 1.0416666666666668e-05,
	"loss": 1.5014,
	"step": 50
	},
	{
	"epoch": 2.4742268041237114,
	"grad_norm": 6.564225673675537,
	"learning_rate": 1.25e-05,
	"loss": 1.4422,
	"step": 60
	},
	{
	"epoch": 2.88659793814433,
	"grad_norm": 5.804593086242676,
	"learning_rate": 1.4583333333333335e-05,
	"loss": 1.3989,
	"step": 70
	},
	{
	"epoch": 2.9690721649484537,
	"eval_accuracy": 0.5159420289855072,
	"eval_loss": 1.3423842191696167,
	"eval_precision": 0.52619860815513,
	"eval_recall": 0.5159420289855072,
	"eval_runtime": 1.8303,
	"eval_samples_per_second": 188.493,
	"eval_steps_per_second": 6.01,
	"step": 72
	},
	{
	"epoch": 3.2989690721649483,
	"grad_norm": 6.893215656280518,
	"learning_rate": 1.6666666666666667e-05,
	"loss": 1.2968,
	"step": 80
	},
	{
	"epoch": 3.711340206185567,
	"grad_norm": 12.37126350402832,
	"learning_rate": 1.8750000000000002e-05,
	"loss": 1.2238,
	"step": 90
	},
	{
	"epoch": 4.0,
	"eval_accuracy": 0.6260869565217392,
	"eval_loss": 1.1162269115447998,
	"eval_precision": 0.6665610702002287,
	"eval_recall": 0.6260869565217392,
	"eval_runtime": 1.8634,
	"eval_samples_per_second": 185.144,
	"eval_steps_per_second": 5.903,
	"step": 97
	},
	{
	"epoch": 4.123711340206185,
	"grad_norm": 6.501392841339111,
	"learning_rate": 2.0833333333333336e-05,
	"loss": 1.1194,
	"step": 100
	},
	{
	"epoch": 4.536082474226804,
	"grad_norm": 14.653229713439941,
	"learning_rate": 2.2916666666666667e-05,
	"loss": 1.0499,
	"step": 110
	},
	{
	"epoch": 4.948453608247423,
	"grad_norm": 15.2618408203125,
	"learning_rate": 2.5e-05,
	"loss": 0.9585,
	"step": 120
	},
	{
	"epoch": 4.989690721649485,
	"eval_accuracy": 0.6985507246376812,
	"eval_loss": 0.8966168761253357,
	"eval_precision": 0.7013922738306568,
	"eval_recall": 0.6985507246376812,
	"eval_runtime": 1.8339,
	"eval_samples_per_second": 188.12,
	"eval_steps_per_second": 5.998,
	"step": 121
	},
	{
	"epoch": 5.360824742268041,
	"grad_norm": 12.275806427001953,
	"learning_rate": 2.7083333333333332e-05,
	"loss": 0.8986,
	"step": 130
	},
	{
	"epoch": 5.77319587628866,
	"grad_norm": 15.373220443725586,
	"learning_rate": 2.916666666666667e-05,
	"loss": 0.8934,
	"step": 140
	},
	{
	"epoch": 5.979381443298969,
	"eval_accuracy": 0.7507246376811594,
	"eval_loss": 0.763816773891449,
	"eval_precision": 0.7489666881245252,
	"eval_recall": 0.7507246376811594,
	"eval_runtime": 1.9332,
	"eval_samples_per_second": 178.459,
	"eval_steps_per_second": 5.69,
	"step": 145
	},
	{
	"epoch": 6.185567010309279,
	"grad_norm": 15.394486427307129,
	"learning_rate": 3.125e-05,
	"loss": 0.8326,
	"step": 150
	},
	{
	"epoch": 6.597938144329897,
	"grad_norm": 14.27376937866211,
	"learning_rate": 3.3333333333333335e-05,
	"loss": 0.7589,
	"step": 160
	},
	{
	"epoch": 6.969072164948454,
	"eval_accuracy": 0.7652173913043478,
	"eval_loss": 0.6776081919670105,
	"eval_precision": 0.771906259033061,
	"eval_recall": 0.7652173913043478,
	"eval_runtime": 1.836,
	"eval_samples_per_second": 187.91,
	"eval_steps_per_second": 5.991,
	"step": 169
	},
	{
	"epoch": 7.010309278350515,
	"grad_norm": 21.43760871887207,
	"learning_rate": 3.541666666666667e-05,
	"loss": 0.7404,
	"step": 170
	},
	{
	"epoch": 7.422680412371134,
	"grad_norm": 15.207581520080566,
	"learning_rate": 3.7500000000000003e-05,
	"loss": 0.653,
	"step": 180
	},
	{
	"epoch": 7.835051546391752,
	"grad_norm": 25.153663635253906,
	"learning_rate": 3.958333333333333e-05,
	"loss": 0.6746,
	"step": 190
	},
	{
	"epoch": 8.0,
	"eval_accuracy": 0.7623188405797101,
	"eval_loss": 0.6126735210418701,
	"eval_precision": 0.7628428431334807,
	"eval_recall": 0.7623188405797101,
	"eval_runtime": 1.8501,
	"eval_samples_per_second": 186.474,
	"eval_steps_per_second": 5.946,
	"step": 194
	},
	{
	"epoch": 8.24742268041237,
	"grad_norm": 23.2750301361084,
	"learning_rate": 4.166666666666667e-05,
	"loss": 0.6516,
	"step": 200
	},
	{
	"epoch": 8.65979381443299,
	"grad_norm": 21.777841567993164,
	"learning_rate": 4.375e-05,
	"loss": 0.6048,
	"step": 210
	},
	{
	"epoch": 8.989690721649485,
	"eval_accuracy": 0.8202898550724638,
	"eval_loss": 0.5220813751220703,
	"eval_precision": 0.8216835971752063,
	"eval_recall": 0.8202898550724638,
	"eval_runtime": 1.8243,
	"eval_samples_per_second": 189.114,
	"eval_steps_per_second": 6.03,
	"step": 218
	},
	{
	"epoch": 9.072164948453608,
	"grad_norm": 15.630614280700684,
	"learning_rate": 4.5833333333333334e-05,
	"loss": 0.5723,
	"step": 220
	},
	{
	"epoch": 9.484536082474227,
	"grad_norm": 13.571239471435547,
	"learning_rate": 4.791666666666667e-05,
	"loss": 0.5436,
	"step": 230
	},
	{
	"epoch": 9.896907216494846,
	"grad_norm": 24.206087112426758,
	"learning_rate": 5e-05,
	"loss": 0.531,
	"step": 240
	},
	{
	"epoch": 9.97938144329897,
	"eval_accuracy": 0.8115942028985508,
	"eval_loss": 0.4930874705314636,
	"eval_precision": 0.8203605371226137,
	"eval_recall": 0.8115942028985508,
	"eval_runtime": 1.788,
	"eval_samples_per_second": 192.958,
	"eval_steps_per_second": 6.152,
	"step": 242
	},
	{
	"epoch": 10.309278350515465,
	"grad_norm": 17.16573715209961,
	"learning_rate": 4.976851851851852e-05,
	"loss": 0.5034,
	"step": 250
	},
	{
	"epoch": 10.721649484536082,
	"grad_norm": 19.933942794799805,
	"learning_rate": 4.9537037037037035e-05,
	"loss": 0.57,
	"step": 260
	},
	{
	"epoch": 10.969072164948454,
	"eval_accuracy": 0.8318840579710145,
	"eval_loss": 0.44795188307762146,
	"eval_precision": 0.8344579895060443,
	"eval_recall": 0.8318840579710145,
	"eval_runtime": 1.8183,
	"eval_samples_per_second": 189.733,
	"eval_steps_per_second": 6.049,
	"step": 266
	},
	{
	"epoch": 11.1340206185567,
	"grad_norm": 25.91600799560547,
	"learning_rate": 4.930555555555556e-05,
	"loss": 0.4791,
	"step": 270
	},
	{
	"epoch": 11.54639175257732,
	"grad_norm": 23.493484497070312,
	"learning_rate": 4.9074074074074075e-05,
	"loss": 0.4372,
	"step": 280
	},
	{
	"epoch": 11.958762886597938,
	"grad_norm": 14.273780822753906,
	"learning_rate": 4.8842592592592595e-05,
	"loss": 0.4624,
	"step": 290
	},
	{
	"epoch": 12.0,
	"eval_accuracy": 0.8463768115942029,
	"eval_loss": 0.42139920592308044,
	"eval_precision": 0.846014277166443,
	"eval_recall": 0.8463768115942029,
	"eval_runtime": 1.7884,
	"eval_samples_per_second": 192.914,
	"eval_steps_per_second": 6.151,
	"step": 291
	},
	{
	"epoch": 12.371134020618557,
	"grad_norm": 26.43771743774414,
	"learning_rate": 4.8611111111111115e-05,
	"loss": 0.4509,
	"step": 300
	},
	{
	"epoch": 12.783505154639176,
	"grad_norm": 29.501718521118164,
	"learning_rate": 4.837962962962963e-05,
	"loss": 0.417,
	"step": 310
	},
	{
	"epoch": 12.989690721649485,
	"eval_accuracy": 0.8492753623188406,
	"eval_loss": 0.44392213225364685,
	"eval_precision": 0.8485676738054103,
	"eval_recall": 0.8492753623188406,
	"eval_runtime": 1.762,
	"eval_samples_per_second": 195.797,
	"eval_steps_per_second": 6.243,
	"step": 315
	},
	{
	"epoch": 13.195876288659793,
	"grad_norm": 16.380001068115234,
	"learning_rate": 4.814814814814815e-05,
	"loss": 0.4042,
	"step": 320
	},
	{
	"epoch": 13.608247422680412,
	"grad_norm": 26.098731994628906,
	"learning_rate": 4.791666666666667e-05,
	"loss": 0.3814,
	"step": 330
	},
	{
	"epoch": 13.97938144329897,
	"eval_accuracy": 0.8463768115942029,
	"eval_loss": 0.41379421949386597,
	"eval_precision": 0.8477774513274812,
	"eval_recall": 0.8463768115942029,
	"eval_runtime": 1.7998,
	"eval_samples_per_second": 191.689,
	"eval_steps_per_second": 6.112,
	"step": 339
	},
	{
	"epoch": 14.02061855670103,
	"grad_norm": 13.136883735656738,
	"learning_rate": 4.768518518518519e-05,
	"loss": 0.4209,
	"step": 340
	},
	{
	"epoch": 14.43298969072165,
	"grad_norm": 18.104930877685547,
	"learning_rate": 4.745370370370371e-05,
	"loss": 0.3817,
	"step": 350
	},
	{
	"epoch": 14.845360824742269,
	"grad_norm": 27.79136848449707,
	"learning_rate": 4.722222222222222e-05,
	"loss": 0.3737,
	"step": 360
	},
	{
	"epoch": 14.969072164948454,
	"eval_accuracy": 0.8463768115942029,
	"eval_loss": 0.41388532519340515,
	"eval_precision": 0.8466409143288909,
	"eval_recall": 0.8463768115942029,
	"eval_runtime": 1.8854,
	"eval_samples_per_second": 182.983,
	"eval_steps_per_second": 5.834,
	"step": 363
	},
	{
	"epoch": 15.257731958762886,
	"grad_norm": 33.14027786254883,
	"learning_rate": 4.699074074074074e-05,
	"loss": 0.3782,
	"step": 370
	},
	{
	"epoch": 15.670103092783505,
	"grad_norm": 10.574623107910156,
	"learning_rate": 4.675925925925926e-05,
	"loss": 0.3971,
	"step": 380
	},
	{
	"epoch": 16.0,
	"eval_accuracy": 0.863768115942029,
	"eval_loss": 0.4119352400302887,
	"eval_precision": 0.8664915871553495,
	"eval_recall": 0.863768115942029,
	"eval_runtime": 1.8638,
	"eval_samples_per_second": 185.11,
	"eval_steps_per_second": 5.902,
	"step": 388
	},
	{
	"epoch": 16.082474226804123,
	"grad_norm": 14.796497344970703,
	"learning_rate": 4.652777777777778e-05,
	"loss": 0.3227,
	"step": 390
	},
	{
	"epoch": 16.49484536082474,
	"grad_norm": 13.750545501708984,
	"learning_rate": 4.62962962962963e-05,
	"loss": 0.306,
	"step": 400
	},
	{
	"epoch": 16.90721649484536,
	"grad_norm": 15.056818962097168,
	"learning_rate": 4.6064814814814814e-05,
	"loss": 0.343,
	"step": 410
	},
	{
	"epoch": 16.989690721649485,
	"eval_accuracy": 0.8608695652173913,
	"eval_loss": 0.4421471655368805,
	"eval_precision": 0.8659298079116737,
	"eval_recall": 0.8608695652173913,
	"eval_runtime": 1.7876,
	"eval_samples_per_second": 192.996,
	"eval_steps_per_second": 6.154,
	"step": 412
	},
	{
	"epoch": 17.31958762886598,
	"grad_norm": 19.41351318359375,
	"learning_rate": 4.5833333333333334e-05,
	"loss": 0.3383,
	"step": 420
	},
	{
	"epoch": 17.7319587628866,
	"grad_norm": 22.833810806274414,
	"learning_rate": 4.5601851851851854e-05,
	"loss": 0.3311,
	"step": 430
	},
	{
	"epoch": 17.97938144329897,
	"eval_accuracy": 0.8492753623188406,
	"eval_loss": 0.45808833837509155,
	"eval_precision": 0.8503668982654489,
	"eval_recall": 0.8492753623188406,
	"eval_runtime": 1.8173,
	"eval_samples_per_second": 189.846,
	"eval_steps_per_second": 6.053,
	"step": 436
	},
	{
	"epoch": 18.144329896907216,
	"grad_norm": 9.80312442779541,
	"learning_rate": 4.5370370370370374e-05,
	"loss": 0.301,
	"step": 440
	},
	{
	"epoch": 18.556701030927837,
	"grad_norm": 17.442903518676758,
	"learning_rate": 4.5138888888888894e-05,
	"loss": 0.2594,
	"step": 450
	},
	{
	"epoch": 18.969072164948454,
	"grad_norm": 25.01900863647461,
	"learning_rate": 4.490740740740741e-05,
	"loss": 0.2652,
	"step": 460
	},
	{
	"epoch": 18.969072164948454,
	"eval_accuracy": 0.8405797101449275,
	"eval_loss": 0.4563068747520447,
	"eval_precision": 0.8441116322796441,
	"eval_recall": 0.8405797101449275,
	"eval_runtime": 1.8121,
	"eval_samples_per_second": 190.387,
	"eval_steps_per_second": 6.07,
	"step": 460
	},
	{
	"epoch": 19.38144329896907,
	"grad_norm": 22.951929092407227,
	"learning_rate": 4.467592592592593e-05,
	"loss": 0.2726,
	"step": 470
	},
	{
	"epoch": 19.79381443298969,
	"grad_norm": 17.189971923828125,
	"learning_rate": 4.4444444444444447e-05,
	"loss": 0.3026,
	"step": 480
	},
	{
	"epoch": 20.0,
	"eval_accuracy": 0.8521739130434782,
	"eval_loss": 0.4535578489303589,
	"eval_precision": 0.8549145070160367,
	"eval_recall": 0.8521739130434782,
	"eval_runtime": 1.8156,
	"eval_samples_per_second": 190.019,
	"eval_steps_per_second": 6.059,
	"step": 485
	},
	{
	"epoch": 20.20618556701031,
	"grad_norm": 19.29929542541504,
	"learning_rate": 4.4212962962962966e-05,
	"loss": 0.2808,
	"step": 490
	},
	{
	"epoch": 20.61855670103093,
	"grad_norm": 23.201435089111328,
	"learning_rate": 4.3981481481481486e-05,
	"loss": 0.2562,
	"step": 500
	},
	{
	"epoch": 20.989690721649485,
	"eval_accuracy": 0.8463768115942029,
	"eval_loss": 0.44093257188796997,
	"eval_precision": 0.8493084398986088,
	"eval_recall": 0.8463768115942029,
	"eval_runtime": 1.9468,
	"eval_samples_per_second": 177.217,
	"eval_steps_per_second": 5.65,
	"step": 509
	},
	{
	"epoch": 21.030927835051546,
	"grad_norm": 12.947028160095215,
	"learning_rate": 4.375e-05,
	"loss": 0.2739,
	"step": 510
	},
	{
	"epoch": 21.443298969072163,
	"grad_norm": 21.544536590576172,
	"learning_rate": 4.351851851851852e-05,
	"loss": 0.2383,
	"step": 520
	},
	{
	"epoch": 21.855670103092784,
	"grad_norm": 12.224617958068848,
	"learning_rate": 4.328703703703704e-05,
	"loss": 0.2282,
	"step": 530
	},
	{
	"epoch": 21.97938144329897,
	"eval_accuracy": 0.8434782608695652,
	"eval_loss": 0.4388555884361267,
	"eval_precision": 0.8451190974708183,
	"eval_recall": 0.8434782608695652,
	"eval_runtime": 1.7718,
	"eval_samples_per_second": 194.721,
	"eval_steps_per_second": 6.208,
	"step": 533
	},
	{
	"epoch": 22.2680412371134,
	"grad_norm": 17.55919647216797,
	"learning_rate": 4.305555555555556e-05,
	"loss": 0.2505,
	"step": 540
	},
	{
	"epoch": 22.68041237113402,
	"grad_norm": 10.570196151733398,
	"learning_rate": 4.282407407407408e-05,
	"loss": 0.2374,
	"step": 550
	},
	{
	"epoch": 22.969072164948454,
	"eval_accuracy": 0.8579710144927536,
	"eval_loss": 0.4452122747898102,
	"eval_precision": 0.8589461524849866,
	"eval_recall": 0.8579710144927536,
	"eval_runtime": 1.8751,
	"eval_samples_per_second": 183.989,
	"eval_steps_per_second": 5.866,
	"step": 557
	},
	{
	"epoch": 23.09278350515464,
	"grad_norm": 25.781587600708008,
	"learning_rate": 4.259259259259259e-05,
	"loss": 0.2355,
	"step": 560
	},
	{
	"epoch": 23.50515463917526,
	"grad_norm": 22.854766845703125,
	"learning_rate": 4.236111111111111e-05,
	"loss": 0.2553,
	"step": 570
	},
	{
	"epoch": 23.917525773195877,
	"grad_norm": 15.405595779418945,
	"learning_rate": 4.212962962962963e-05,
	"loss": 0.216,
	"step": 580
	},
	{
	"epoch": 24.0,
	"eval_accuracy": 0.8579710144927536,
	"eval_loss": 0.4375264048576355,
	"eval_precision": 0.858123097800969,
	"eval_recall": 0.8579710144927536,
	"eval_runtime": 1.8051,
	"eval_samples_per_second": 191.128,
	"eval_steps_per_second": 6.094,
	"step": 582
	},
	{
	"epoch": 24.329896907216494,
	"grad_norm": 15.453635215759277,
	"learning_rate": 4.1898148148148145e-05,
	"loss": 0.2019,
	"step": 590
	},
	{
	"epoch": 24.742268041237114,
	"grad_norm": 12.363275527954102,
	"learning_rate": 4.166666666666667e-05,
	"loss": 0.2127,
	"step": 600
	},
	{
	"epoch": 24.989690721649485,
	"eval_accuracy": 0.8579710144927536,
	"eval_loss": 0.44218453764915466,
	"eval_precision": 0.8587798835624924,
	"eval_recall": 0.8579710144927536,
	"eval_runtime": 1.9062,
	"eval_samples_per_second": 180.991,
	"eval_steps_per_second": 5.771,
	"step": 606
	},
	{
	"epoch": 25.15463917525773,
	"grad_norm": 15.13847827911377,
	"learning_rate": 4.1435185185185185e-05,
	"loss": 0.2301,
	"step": 610
	},
	{
	"epoch": 25.567010309278352,
	"grad_norm": 20.761062622070312,
	"learning_rate": 4.1203703703703705e-05,
	"loss": 0.1807,
	"step": 620
	},
	{
	"epoch": 25.97938144329897,
	"grad_norm": 17.889150619506836,
	"learning_rate": 4.0972222222222225e-05,
	"loss": 0.2004,
	"step": 630
	},
	{
	"epoch": 25.97938144329897,
	"eval_accuracy": 0.8521739130434782,
	"eval_loss": 0.46348363161087036,
	"eval_precision": 0.8519325944084339,
	"eval_recall": 0.8521739130434782,
	"eval_runtime": 1.7728,
	"eval_samples_per_second": 194.609,
	"eval_steps_per_second": 6.205,
	"step": 630
	},
	{
	"epoch": 26.391752577319586,
	"grad_norm": 23.56374168395996,
	"learning_rate": 4.074074074074074e-05,
	"loss": 0.2427,
	"step": 640
	},
	{
	"epoch": 26.804123711340207,
	"grad_norm": 9.772664070129395,
	"learning_rate": 4.0509259259259265e-05,
	"loss": 0.2029,
	"step": 650
	},
	{
	"epoch": 26.969072164948454,
	"eval_accuracy": 0.8492753623188406,
	"eval_loss": 0.5214529037475586,
	"eval_precision": 0.8545500895204992,
	"eval_recall": 0.8492753623188406,
	"eval_runtime": 1.9291,
	"eval_samples_per_second": 178.841,
	"eval_steps_per_second": 5.702,
	"step": 654
	},
	{
	"epoch": 27.216494845360824,
	"grad_norm": 14.480449676513672,
	"learning_rate": 4.027777777777778e-05,
	"loss": 0.1903,
	"step": 660
	},
	{
	"epoch": 27.628865979381445,
	"grad_norm": 16.415973663330078,
	"learning_rate": 4.00462962962963e-05,
	"loss": 0.1794,
	"step": 670
	},
	{
	"epoch": 28.0,
	"eval_accuracy": 0.863768115942029,
	"eval_loss": 0.47563326358795166,
	"eval_precision": 0.8669166767891824,
	"eval_recall": 0.863768115942029,
	"eval_runtime": 1.7555,
	"eval_samples_per_second": 196.529,
	"eval_steps_per_second": 6.266,
	"step": 679
	},
	{
	"epoch": 28.04123711340206,
	"grad_norm": 8.689855575561523,
	"learning_rate": 3.981481481481482e-05,
	"loss": 0.1822,
	"step": 680
	},
	{
	"epoch": 28.45360824742268,
	"grad_norm": 12.505402565002441,
	"learning_rate": 3.958333333333333e-05,
	"loss": 0.1828,
	"step": 690
	},
	{
	"epoch": 28.8659793814433,
	"grad_norm": 15.491950988769531,
	"learning_rate": 3.935185185185186e-05,
	"loss": 0.1835,
	"step": 700
	},
	{
	"epoch": 28.989690721649485,
	"eval_accuracy": 0.8608695652173913,
	"eval_loss": 0.4727528393268585,
	"eval_precision": 0.8649801117780185,
	"eval_recall": 0.8608695652173913,
	"eval_runtime": 1.8858,
	"eval_samples_per_second": 182.95,
	"eval_steps_per_second": 5.833,
	"step": 703
	},
	{
	"epoch": 29.278350515463917,
	"grad_norm": 16.289226531982422,
	"learning_rate": 3.912037037037037e-05,
	"loss": 0.1907,
	"step": 710
	},
	{
	"epoch": 29.690721649484537,
	"grad_norm": 13.304434776306152,
	"learning_rate": 3.888888888888889e-05,
	"loss": 0.1781,
	"step": 720
	},
	{
	"epoch": 29.97938144329897,
	"eval_accuracy": 0.855072463768116,
	"eval_loss": 0.4636934697628021,
	"eval_precision": 0.8568131435327558,
	"eval_recall": 0.855072463768116,
	"eval_runtime": 1.8681,
	"eval_samples_per_second": 184.683,
	"eval_steps_per_second": 5.888,
	"step": 727
	},
	{
	"epoch": 30.103092783505154,
	"grad_norm": 6.991786003112793,
	"learning_rate": 3.865740740740741e-05,
	"loss": 0.1829,
	"step": 730
	},
	{
	"epoch": 30.51546391752577,
	"grad_norm": 10.514315605163574,
	"learning_rate": 3.8425925925925924e-05,
	"loss": 0.1627,
	"step": 740
	},
	{
	"epoch": 30.927835051546392,
	"grad_norm": 9.121224403381348,
	"learning_rate": 3.8194444444444444e-05,
	"loss": 0.1671,
	"step": 750
	},
	{
	"epoch": 30.969072164948454,
	"eval_accuracy": 0.8579710144927536,
	"eval_loss": 0.485573947429657,
	"eval_precision": 0.8599276434444294,
	"eval_recall": 0.8579710144927536,
	"eval_runtime": 1.9437,
	"eval_samples_per_second": 177.497,
	"eval_steps_per_second": 5.659,
	"step": 751
	},
	{
	"epoch": 31.34020618556701,
	"grad_norm": 13.762226104736328,
	"learning_rate": 3.7962962962962964e-05,
	"loss": 0.1721,
	"step": 760
	},
	{
	"epoch": 31.75257731958763,
	"grad_norm": 10.415836334228516,
	"learning_rate": 3.7731481481481484e-05,
	"loss": 0.1762,
	"step": 770
	},
	{
	"epoch": 32.0,
	"eval_accuracy": 0.8666666666666667,
	"eval_loss": 0.5007998943328857,
	"eval_precision": 0.8684023473901008,
	"eval_recall": 0.8666666666666667,
	"eval_runtime": 1.769,
	"eval_samples_per_second": 195.026,
	"eval_steps_per_second": 6.218,
	"step": 776
	},
	{
	"epoch": 32.16494845360825,
	"grad_norm": 10.8311767578125,
	"learning_rate": 3.7500000000000003e-05,
	"loss": 0.1707,
	"step": 780
	},
	{
	"epoch": 32.577319587628864,
	"grad_norm": 12.070932388305664,
	"learning_rate": 3.726851851851852e-05,
	"loss": 0.1673,
	"step": 790
	},
	{
	"epoch": 32.98969072164948,
	"grad_norm": 8.654770851135254,
	"learning_rate": 3.7037037037037037e-05,
	"loss": 0.1867,
	"step": 800
	},
	{
	"epoch": 32.98969072164948,
	"eval_accuracy": 0.8579710144927536,
	"eval_loss": 0.5058211088180542,
	"eval_precision": 0.8584843785997619,
	"eval_recall": 0.8579710144927536,
	"eval_runtime": 1.8394,
	"eval_samples_per_second": 187.561,
	"eval_steps_per_second": 5.98,
	"step": 800
	},
	{
	"epoch": 33.402061855670105,
	"grad_norm": 8.323944091796875,
	"learning_rate": 3.6805555555555556e-05,
	"loss": 0.1553,
	"step": 810
	},
	{
	"epoch": 33.81443298969072,
	"grad_norm": 14.134881973266602,
	"learning_rate": 3.6574074074074076e-05,
	"loss": 0.1409,
	"step": 820
	},
	{
	"epoch": 33.97938144329897,
	"eval_accuracy": 0.8405797101449275,
	"eval_loss": 0.5489646792411804,
	"eval_precision": 0.8408524440704116,
	"eval_recall": 0.8405797101449275,
	"eval_runtime": 1.7738,
	"eval_samples_per_second": 194.496,
	"eval_steps_per_second": 6.201,
	"step": 824
	},
	{
	"epoch": 34.22680412371134,
	"grad_norm": 17.74443244934082,
	"learning_rate": 3.6342592592592596e-05,
	"loss": 0.1498,
	"step": 830
	},
	{
	"epoch": 34.63917525773196,
	"grad_norm": 14.35798454284668,
	"learning_rate": 3.611111111111111e-05,
	"loss": 0.1315,
	"step": 840
	},
	{
	"epoch": 34.96907216494845,
	"eval_accuracy": 0.8347826086956521,
	"eval_loss": 0.528394877910614,
	"eval_precision": 0.8356368409524089,
	"eval_recall": 0.8347826086956521,
	"eval_runtime": 1.8034,
	"eval_samples_per_second": 191.304,
	"eval_steps_per_second": 6.1,
	"step": 848
	},
	{
	"epoch": 35.05154639175258,
	"grad_norm": 15.67455005645752,
	"learning_rate": 3.587962962962963e-05,
	"loss": 0.163,
	"step": 850
	},
	{
	"epoch": 35.4639175257732,
	"grad_norm": 6.1969828605651855,
	"learning_rate": 3.564814814814815e-05,
	"loss": 0.1406,
	"step": 860
	},
	{
	"epoch": 35.876288659793815,
	"grad_norm": 14.651385307312012,
	"learning_rate": 3.541666666666667e-05,
	"loss": 0.1315,
	"step": 870
	},
	{
	"epoch": 36.0,
	"eval_accuracy": 0.8463768115942029,
	"eval_loss": 0.5415348410606384,
	"eval_precision": 0.8487979974677805,
	"eval_recall": 0.8463768115942029,
	"eval_runtime": 1.7509,
	"eval_samples_per_second": 197.042,
	"eval_steps_per_second": 6.282,
	"step": 873
	},
	{
	"epoch": 36.28865979381443,
	"grad_norm": 15.739358901977539,
	"learning_rate": 3.518518518518519e-05,
	"loss": 0.1944,
	"step": 880
	},
	{
	"epoch": 36.70103092783505,
	"grad_norm": 16.889202117919922,
	"learning_rate": 3.49537037037037e-05,
	"loss": 0.1974,
	"step": 890
	},
	{
	"epoch": 36.98969072164948,
	"eval_accuracy": 0.8492753623188406,
	"eval_loss": 0.519416332244873,
	"eval_precision": 0.8536148561469765,
	"eval_recall": 0.8492753623188406,
	"eval_runtime": 1.7833,
	"eval_samples_per_second": 193.461,
	"eval_steps_per_second": 6.168,
	"step": 897
	},
	{
	"epoch": 37.11340206185567,
	"grad_norm": 10.011604309082031,
	"learning_rate": 3.472222222222222e-05,
	"loss": 0.1605,
	"step": 900
	},
	{
	"epoch": 37.52577319587629,
	"grad_norm": 18.694128036499023,
	"learning_rate": 3.449074074074074e-05,
	"loss": 0.1515,
	"step": 910
	},
	{
	"epoch": 37.93814432989691,
	"grad_norm": 9.140711784362793,
	"learning_rate": 3.425925925925926e-05,
	"loss": 0.1337,
	"step": 920
	},
	{
	"epoch": 37.97938144329897,
	"eval_accuracy": 0.8608695652173913,
	"eval_loss": 0.5088416337966919,
	"eval_precision": 0.8602982452483552,
	"eval_recall": 0.8608695652173913,
	"eval_runtime": 1.7456,
	"eval_samples_per_second": 197.634,
	"eval_steps_per_second": 6.301,
	"step": 921
	},
	{
	"epoch": 38.350515463917525,
	"grad_norm": 12.548330307006836,
	"learning_rate": 3.402777777777778e-05,
	"loss": 0.1439,
	"step": 930
	},
	{
	"epoch": 38.76288659793814,
	"grad_norm": 12.762455940246582,
	"learning_rate": 3.3796296296296295e-05,
	"loss": 0.173,
	"step": 940
	},
	{
	"epoch": 38.96907216494845,
	"eval_accuracy": 0.8666666666666667,
	"eval_loss": 0.4912014305591583,
	"eval_precision": 0.867978256170476,
	"eval_recall": 0.8666666666666667,
	"eval_runtime": 1.8067,
	"eval_samples_per_second": 190.96,
	"eval_steps_per_second": 6.089,
	"step": 945
	},
	{
	"epoch": 39.175257731958766,
	"grad_norm": 12.083857536315918,
	"learning_rate": 3.3564814814814815e-05,
	"loss": 0.1477,
	"step": 950
	},
	{
	"epoch": 39.58762886597938,
	"grad_norm": 17.14080238342285,
	"learning_rate": 3.3333333333333335e-05,
	"loss": 0.1285,
	"step": 960
	},
	{
	"epoch": 40.0,
	"grad_norm": 13.190485000610352,
	"learning_rate": 3.3101851851851855e-05,
	"loss": 0.1409,
	"step": 970
	},
	{
	"epoch": 40.0,
	"eval_accuracy": 0.8492753623188406,
	"eval_loss": 0.5222660899162292,
	"eval_precision": 0.8501727809182621,
	"eval_recall": 0.8492753623188406,
	"eval_runtime": 1.8482,
	"eval_samples_per_second": 186.669,
	"eval_steps_per_second": 5.952,
	"step": 970
	},
	{
	"epoch": 40.41237113402062,
	"grad_norm": 8.88687801361084,
	"learning_rate": 3.2870370370370375e-05,
	"loss": 0.151,
	"step": 980
	},
	{
	"epoch": 40.824742268041234,
	"grad_norm": 7.21800422668457,
	"learning_rate": 3.263888888888889e-05,
	"loss": 0.1379,
	"step": 990
	},
	{
	"epoch": 40.98969072164948,
	"eval_accuracy": 0.8492753623188406,
	"eval_loss": 0.5204349160194397,
	"eval_precision": 0.8486749182344644,
	"eval_recall": 0.8492753623188406,
	"eval_runtime": 1.8062,
	"eval_samples_per_second": 191.006,
	"eval_steps_per_second": 6.09,
	"step": 994
	},
	{
	"epoch": 41.23711340206186,
	"grad_norm": 10.057676315307617,
	"learning_rate": 3.240740740740741e-05,
	"loss": 0.1079,
	"step": 1000
	},
	{
	"epoch": 41.649484536082475,
	"grad_norm": 13.667500495910645,
	"learning_rate": 3.217592592592593e-05,
	"loss": 0.1437,
	"step": 1010
	},
	{
	"epoch": 41.97938144329897,
	"eval_accuracy": 0.8521739130434782,
	"eval_loss": 0.5860036611557007,
	"eval_precision": 0.8550665818648641,
	"eval_recall": 0.8521739130434782,
	"eval_runtime": 1.7468,
	"eval_samples_per_second": 197.503,
	"eval_steps_per_second": 6.297,
	"step": 1018
	},
	{
	"epoch": 42.06185567010309,
	"grad_norm": 6.985457420349121,
	"learning_rate": 3.194444444444444e-05,
	"loss": 0.1521,
	"step": 1020
	},
	{
	"epoch": 42.47422680412371,
	"grad_norm": 16.70668601989746,
	"learning_rate": 3.171296296296297e-05,
	"loss": 0.1393,
	"step": 1030
	},
	{
	"epoch": 42.88659793814433,
	"grad_norm": 6.907033920288086,
	"learning_rate": 3.148148148148148e-05,
	"loss": 0.1022,
	"step": 1040
	},
	{
	"epoch": 42.96907216494845,
	"eval_accuracy": 0.8463768115942029,
	"eval_loss": 0.5460776686668396,
	"eval_precision": 0.8491763964495722,
	"eval_recall": 0.8463768115942029,
	"eval_runtime": 1.7961,
	"eval_samples_per_second": 192.078,
	"eval_steps_per_second": 6.124,
	"step": 1042
	},
	{
	"epoch": 43.29896907216495,
	"grad_norm": 9.046392440795898,
	"learning_rate": 3.125e-05,
	"loss": 0.1385,
	"step": 1050
	},
	{
	"epoch": 43.71134020618557,
	"grad_norm": 10.188021659851074,
	"learning_rate": 3.101851851851852e-05,
	"loss": 0.1181,
	"step": 1060
	},
	{
	"epoch": 44.0,
	"eval_accuracy": 0.855072463768116,
	"eval_loss": 0.541079044342041,
	"eval_precision": 0.856643419178803,
	"eval_recall": 0.855072463768116,
	"eval_runtime": 1.7664,
	"eval_samples_per_second": 195.31,
	"eval_steps_per_second": 6.227,
	"step": 1067
	},
	{
	"epoch": 44.123711340206185,
	"grad_norm": 8.506319046020508,
	"learning_rate": 3.0787037037037034e-05,
	"loss": 0.1411,
	"step": 1070
	},
	{
	"epoch": 44.5360824742268,
	"grad_norm": 15.423176765441895,
	"learning_rate": 3.055555555555556e-05,
	"loss": 0.1346,
	"step": 1080
	},
	{
	"epoch": 44.94845360824742,
	"grad_norm": 6.524370193481445,
	"learning_rate": 3.0324074074074077e-05,
	"loss": 0.1212,
	"step": 1090
	},
	{
	"epoch": 44.98969072164948,
	"eval_accuracy": 0.8579710144927536,
	"eval_loss": 0.5293735861778259,
	"eval_precision": 0.8580282602145957,
	"eval_recall": 0.8579710144927536,
	"eval_runtime": 1.8173,
	"eval_samples_per_second": 189.843,
	"eval_steps_per_second": 6.053,
	"step": 1091
	},
	{
	"epoch": 45.36082474226804,
	"grad_norm": 12.142955780029297,
	"learning_rate": 3.0092592592592593e-05,
	"loss": 0.105,
	"step": 1100
	},
	{
	"epoch": 45.77319587628866,
	"grad_norm": 11.581314086914062,
	"learning_rate": 2.9861111111111113e-05,
	"loss": 0.1049,
	"step": 1110
	},
	{
	"epoch": 45.97938144329897,
	"eval_accuracy": 0.8492753623188406,
	"eval_loss": 0.566691517829895,
	"eval_precision": 0.8491712997027965,
	"eval_recall": 0.8492753623188406,
	"eval_runtime": 1.799,
	"eval_samples_per_second": 191.772,
	"eval_steps_per_second": 6.114,
	"step": 1115
	},
	{
	"epoch": 46.18556701030928,
	"grad_norm": 15.353252410888672,
	"learning_rate": 2.962962962962963e-05,
	"loss": 0.1335,
	"step": 1120
	},
	{
	"epoch": 46.597938144329895,
	"grad_norm": 11.990909576416016,
	"learning_rate": 2.9398148148148146e-05,
	"loss": 0.1132,
	"step": 1130
	},
	{
	"epoch": 46.96907216494845,
	"eval_accuracy": 0.8463768115942029,
	"eval_loss": 0.5908281207084656,
	"eval_precision": 0.8491182494977805,
	"eval_recall": 0.8463768115942029,
	"eval_runtime": 1.8291,
	"eval_samples_per_second": 188.615,
	"eval_steps_per_second": 6.014,
	"step": 1139
	},
	{
	"epoch": 47.01030927835052,
	"grad_norm": 7.466699600219727,
	"learning_rate": 2.916666666666667e-05,
	"loss": 0.1229,
	"step": 1140
	},
	{
	"epoch": 47.422680412371136,
	"grad_norm": 4.299150466918945,
	"learning_rate": 2.8935185185185186e-05,
	"loss": 0.1181,
	"step": 1150
	},
	{
	"epoch": 47.83505154639175,
	"grad_norm": 8.699248313903809,
	"learning_rate": 2.8703703703703706e-05,
	"loss": 0.1313,
	"step": 1160
	},
	{
	"epoch": 48.0,
	"eval_accuracy": 0.8521739130434782,
	"eval_loss": 0.5995594263076782,
	"eval_precision": 0.8581686976058893,
	"eval_recall": 0.8521739130434782,
	"eval_runtime": 1.7851,
	"eval_samples_per_second": 193.27,
	"eval_steps_per_second": 6.162,
	"step": 1164
	},
	{
	"epoch": 48.24742268041237,
	"grad_norm": 7.394286632537842,
	"learning_rate": 2.8472222222222223e-05,
	"loss": 0.1287,
	"step": 1170
	},
	{
	"epoch": 48.65979381443299,
	"grad_norm": 10.575745582580566,
	"learning_rate": 2.824074074074074e-05,
	"loss": 0.1312,
	"step": 1180
	},
	{
	"epoch": 48.98969072164948,
	"eval_accuracy": 0.8579710144927536,
	"eval_loss": 0.542959451675415,
	"eval_precision": 0.8607254186783246,
	"eval_recall": 0.8579710144927536,
	"eval_runtime": 1.7426,
	"eval_samples_per_second": 197.985,
	"eval_steps_per_second": 6.313,
	"step": 1188
	},
	{
	"epoch": 49.07216494845361,
	"grad_norm": 14.257989883422852,
	"learning_rate": 2.8009259259259263e-05,
	"loss": 0.1341,
	"step": 1190
	},
	{
	"epoch": 49.48453608247423,
	"grad_norm": 9.95071029663086,
	"learning_rate": 2.777777777777778e-05,
	"loss": 0.138,
	"step": 1200
	},
	{
	"epoch": 49.896907216494846,
	"grad_norm": 10.54672622680664,
	"learning_rate": 2.75462962962963e-05,
	"loss": 0.0996,
	"step": 1210
	},
	{
	"epoch": 49.97938144329897,
	"eval_accuracy": 0.8521739130434782,
	"eval_loss": 0.5776570439338684,
	"eval_precision": 0.8561151948364225,
	"eval_recall": 0.8521739130434782,
	"eval_runtime": 1.8283,
	"eval_samples_per_second": 188.7,
	"eval_steps_per_second": 6.017,
	"step": 1212
	},
	{
	"epoch": 50.30927835051546,
	"grad_norm": 9.269867897033691,
	"learning_rate": 2.7314814814814816e-05,
	"loss": 0.1183,
	"step": 1220
	},
	{
	"epoch": 50.72164948453608,
	"grad_norm": 3.963714361190796,
	"learning_rate": 2.7083333333333332e-05,
	"loss": 0.1389,
	"step": 1230
	},
	{
	"epoch": 50.96907216494845,
	"eval_accuracy": 0.8434782608695652,
	"eval_loss": 0.5757654905319214,
	"eval_precision": 0.8486477905744771,
	"eval_recall": 0.8434782608695652,
	"eval_runtime": 1.8064,
	"eval_samples_per_second": 190.984,
	"eval_steps_per_second": 6.089,
	"step": 1236
	},
	{
	"epoch": 51.134020618556704,
	"grad_norm": 24.62941551208496,
	"learning_rate": 2.6851851851851855e-05,
	"loss": 0.1188,
	"step": 1240
	},
	{
	"epoch": 51.54639175257732,
	"grad_norm": 14.212287902832031,
	"learning_rate": 2.6620370370370372e-05,
	"loss": 0.1257,
	"step": 1250
	},
	{
	"epoch": 51.95876288659794,
	"grad_norm": 10.230920791625977,
	"learning_rate": 2.6388888888888892e-05,
	"loss": 0.1079,
	"step": 1260
	},
	{
	"epoch": 52.0,
	"eval_accuracy": 0.8579710144927536,
	"eval_loss": 0.5540273785591125,
	"eval_precision": 0.8611434608590304,
	"eval_recall": 0.8579710144927536,
	"eval_runtime": 1.7965,
	"eval_samples_per_second": 192.043,
	"eval_steps_per_second": 6.123,
	"step": 1261
	},
	{
	"epoch": 52.371134020618555,
	"grad_norm": 12.681902885437012,
	"learning_rate": 2.615740740740741e-05,
	"loss": 0.0964,
	"step": 1270
	},
	{
	"epoch": 52.78350515463917,
	"grad_norm": 14.907917022705078,
	"learning_rate": 2.5925925925925925e-05,
	"loss": 0.0972,
	"step": 1280
	},
	{
	"epoch": 52.98969072164948,
	"eval_accuracy": 0.855072463768116,
	"eval_loss": 0.5599762797355652,
	"eval_precision": 0.8559313253403165,
	"eval_recall": 0.855072463768116,
	"eval_runtime": 1.8665,
	"eval_samples_per_second": 184.836,
	"eval_steps_per_second": 5.893,
	"step": 1285
	},
	{
	"epoch": 53.1958762886598,
	"grad_norm": 13.571532249450684,
	"learning_rate": 2.5694444444444445e-05,
	"loss": 0.1164,
	"step": 1290
	},
	{
	"epoch": 53.608247422680414,
	"grad_norm": 14.119112014770508,
	"learning_rate": 2.5462962962962965e-05,
	"loss": 0.0985,
	"step": 1300
	},
	{
	"epoch": 53.97938144329897,
	"eval_accuracy": 0.863768115942029,
	"eval_loss": 0.5391947627067566,
	"eval_precision": 0.865555829019492,
	"eval_recall": 0.863768115942029,
	"eval_runtime": 1.8914,
	"eval_samples_per_second": 182.408,
	"eval_steps_per_second": 5.816,
	"step": 1309
	},
	{
	"epoch": 54.02061855670103,
	"grad_norm": 11.18630599975586,
	"learning_rate": 2.5231481481481485e-05,
	"loss": 0.1139,
	"step": 1310
	},
	{
	"epoch": 54.43298969072165,
	"grad_norm": 14.511212348937988,
	"learning_rate": 2.5e-05,
	"loss": 0.1117,
	"step": 1320
	},
	{
	"epoch": 54.845360824742265,
	"grad_norm": 4.760071277618408,
	"learning_rate": 2.4768518518518518e-05,
	"loss": 0.1112,
	"step": 1330
	},
	{
	"epoch": 54.96907216494845,
	"eval_accuracy": 0.863768115942029,
	"eval_loss": 0.5410789847373962,
	"eval_precision": 0.8655836794521399,
	"eval_recall": 0.863768115942029,
	"eval_runtime": 1.8766,
	"eval_samples_per_second": 183.845,
	"eval_steps_per_second": 5.862,
	"step": 1333
	},
	{
	"epoch": 55.25773195876289,
	"grad_norm": 8.37569808959961,
	"learning_rate": 2.4537037037037038e-05,
	"loss": 0.1062,
	"step": 1340
	},
	{
	"epoch": 55.670103092783506,
	"grad_norm": 10.700220108032227,
	"learning_rate": 2.4305555555555558e-05,
	"loss": 0.1308,
	"step": 1350
	},
	{
	"epoch": 56.0,
	"eval_accuracy": 0.863768115942029,
	"eval_loss": 0.5445396900177002,
	"eval_precision": 0.8653666576853845,
	"eval_recall": 0.863768115942029,
	"eval_runtime": 1.8208,
	"eval_samples_per_second": 189.479,
	"eval_steps_per_second": 6.041,
	"step": 1358
	},
	{
	"epoch": 56.08247422680412,
	"grad_norm": 19.0463924407959,
	"learning_rate": 2.4074074074074074e-05,
	"loss": 0.1081,
	"step": 1360
	},
	{
	"epoch": 56.49484536082474,
	"grad_norm": 6.819794654846191,
	"learning_rate": 2.3842592592592594e-05,
	"loss": 0.1072,
	"step": 1370
	},
	{
	"epoch": 56.90721649484536,
	"grad_norm": 6.308873176574707,
	"learning_rate": 2.361111111111111e-05,
	"loss": 0.1005,
	"step": 1380
	},
	{
	"epoch": 56.98969072164948,
	"eval_accuracy": 0.855072463768116,
	"eval_loss": 0.5554308891296387,
	"eval_precision": 0.8551462662985753,
	"eval_recall": 0.855072463768116,
	"eval_runtime": 1.868,
	"eval_samples_per_second": 184.69,
	"eval_steps_per_second": 5.889,
	"step": 1382
	},
	{
	"epoch": 57.31958762886598,
	"grad_norm": 5.025654315948486,
	"learning_rate": 2.337962962962963e-05,
	"loss": 0.088,
	"step": 1390
	},
	{
	"epoch": 57.7319587628866,
	"grad_norm": 10.021939277648926,
	"learning_rate": 2.314814814814815e-05,
	"loss": 0.0871,
	"step": 1400
	},
	{
	"epoch": 57.97938144329897,
	"eval_accuracy": 0.8405797101449275,
	"eval_loss": 0.5966009497642517,
	"eval_precision": 0.8440749450064067,
	"eval_recall": 0.8405797101449275,
	"eval_runtime": 1.7974,
	"eval_samples_per_second": 191.939,
	"eval_steps_per_second": 6.12,
	"step": 1406
	},
	{
	"epoch": 58.144329896907216,
	"grad_norm": 16.077518463134766,
	"learning_rate": 2.2916666666666667e-05,
	"loss": 0.089,
	"step": 1410
	},
	{
	"epoch": 58.55670103092783,
	"grad_norm": 14.556241035461426,
	"learning_rate": 2.2685185185185187e-05,
	"loss": 0.1072,
	"step": 1420
	},
	{
	"epoch": 58.96907216494845,
	"grad_norm": 9.045204162597656,
	"learning_rate": 2.2453703703703703e-05,
	"loss": 0.1102,
	"step": 1430
	},
	{
	"epoch": 58.96907216494845,
	"eval_accuracy": 0.8521739130434782,
	"eval_loss": 0.5807223916053772,
	"eval_precision": 0.8543040805400182,
	"eval_recall": 0.8521739130434782,
	"eval_runtime": 1.8412,
	"eval_samples_per_second": 187.376,
	"eval_steps_per_second": 5.974,
	"step": 1430
	},
	{
	"epoch": 59.381443298969074,
	"grad_norm": 12.29312515258789,
	"learning_rate": 2.2222222222222223e-05,
	"loss": 0.1021,
	"step": 1440
	},
	{
	"epoch": 59.79381443298969,
	"grad_norm": 13.808602333068848,
	"learning_rate": 2.1990740740740743e-05,
	"loss": 0.1028,
	"step": 1450
	},
	{
	"epoch": 60.0,
	"eval_accuracy": 0.8434782608695652,
	"eval_loss": 0.5653913021087646,
	"eval_precision": 0.8490636359945823,
	"eval_recall": 0.8434782608695652,
	"eval_runtime": 1.8195,
	"eval_samples_per_second": 189.615,
	"eval_steps_per_second": 6.046,
	"step": 1455
	},
	{
	"epoch": 60.20618556701031,
	"grad_norm": 8.929511070251465,
	"learning_rate": 2.175925925925926e-05,
	"loss": 0.1103,
	"step": 1460
	},
	{
	"epoch": 60.618556701030926,
	"grad_norm": 14.425239562988281,
	"learning_rate": 2.152777777777778e-05,
	"loss": 0.107,
	"step": 1470
	},
	{
	"epoch": 60.98969072164948,
	"eval_accuracy": 0.8434782608695652,
	"eval_loss": 0.577854573726654,
	"eval_precision": 0.8460752319344831,
	"eval_recall": 0.8434782608695652,
	"eval_runtime": 1.8265,
	"eval_samples_per_second": 188.883,
	"eval_steps_per_second": 6.022,
	"step": 1479
	},
	{
	"epoch": 61.03092783505155,
	"grad_norm": 10.870781898498535,
	"learning_rate": 2.1296296296296296e-05,
	"loss": 0.0954,
	"step": 1480
	},
	{
	"epoch": 61.44329896907217,
	"grad_norm": 10.188617706298828,
	"learning_rate": 2.1064814814814816e-05,
	"loss": 0.0942,
	"step": 1490
	},
	{
	"epoch": 61.855670103092784,
	"grad_norm": 6.4580302238464355,
	"learning_rate": 2.0833333333333336e-05,
	"loss": 0.0848,
	"step": 1500
	},
	{
	"epoch": 61.97938144329897,
	"eval_accuracy": 0.855072463768116,
	"eval_loss": 0.5842954516410828,
	"eval_precision": 0.8569219850916401,
	"eval_recall": 0.855072463768116,
	"eval_runtime": 1.8368,
	"eval_samples_per_second": 187.828,
	"eval_steps_per_second": 5.989,
	"step": 1503
	},
	{
	"epoch": 62.2680412371134,
	"grad_norm": 13.236536979675293,
	"learning_rate": 2.0601851851851853e-05,
	"loss": 0.0993,
	"step": 1510
	},
	{
	"epoch": 62.68041237113402,
	"grad_norm": 11.377030372619629,
	"learning_rate": 2.037037037037037e-05,
	"loss": 0.0976,
	"step": 1520
	},
	{
	"epoch": 62.96907216494845,
	"eval_accuracy": 0.8434782608695652,
	"eval_loss": 0.6161760687828064,
	"eval_precision": 0.8454310204706964,
	"eval_recall": 0.8434782608695652,
	"eval_runtime": 1.7609,
	"eval_samples_per_second": 195.923,
	"eval_steps_per_second": 6.247,
	"step": 1527
	},
	{
	"epoch": 63.09278350515464,
	"grad_norm": 9.68355655670166,
	"learning_rate": 2.013888888888889e-05,
	"loss": 0.0788,
	"step": 1530
	},
	{
	"epoch": 63.50515463917526,
	"grad_norm": 6.282276153564453,
	"learning_rate": 1.990740740740741e-05,
	"loss": 0.103,
	"step": 1540
	},
	{
	"epoch": 63.91752577319588,
	"grad_norm": 4.893520832061768,
	"learning_rate": 1.967592592592593e-05,
	"loss": 0.0977,
	"step": 1550
	},
	{
	"epoch": 64.0,
	"eval_accuracy": 0.8463768115942029,
	"eval_loss": 0.5822046995162964,
	"eval_precision": 0.8468574730482583,
	"eval_recall": 0.8463768115942029,
	"eval_runtime": 1.8068,
	"eval_samples_per_second": 190.942,
	"eval_steps_per_second": 6.088,
	"step": 1552
	},
	{
	"epoch": 64.3298969072165,
	"grad_norm": 10.216239929199219,
	"learning_rate": 1.9444444444444445e-05,
	"loss": 0.1112,
	"step": 1560
	},
	{
	"epoch": 64.74226804123711,
	"grad_norm": 22.551631927490234,
	"learning_rate": 1.9212962962962962e-05,
	"loss": 0.1256,
	"step": 1570
	},
	{
	"epoch": 64.98969072164948,
	"eval_accuracy": 0.8492753623188406,
	"eval_loss": 0.575657308101654,
	"eval_precision": 0.851359361697526,
	"eval_recall": 0.8492753623188406,
	"eval_runtime": 1.8317,
	"eval_samples_per_second": 188.346,
	"eval_steps_per_second": 6.005,
	"step": 1576
	},
	{
	"epoch": 65.15463917525773,
	"grad_norm": 6.853829383850098,
	"learning_rate": 1.8981481481481482e-05,
	"loss": 0.096,
	"step": 1580
	},
	{
	"epoch": 65.56701030927834,
	"grad_norm": 14.361750602722168,
	"learning_rate": 1.8750000000000002e-05,
	"loss": 0.0942,
	"step": 1590
	},
	{
	"epoch": 65.97938144329896,
	"grad_norm": 9.966873168945312,
	"learning_rate": 1.8518518518518518e-05,
	"loss": 0.0883,
	"step": 1600
	},
	{
	"epoch": 65.97938144329896,
	"eval_accuracy": 0.8463768115942029,
	"eval_loss": 0.5716322660446167,
	"eval_precision": 0.8466640969128532,
	"eval_recall": 0.8463768115942029,
	"eval_runtime": 1.7836,
	"eval_samples_per_second": 193.433,
	"eval_steps_per_second": 6.167,
	"step": 1600
	},
	{
	"epoch": 66.3917525773196,
	"grad_norm": 9.780498504638672,
	"learning_rate": 1.8287037037037038e-05,
	"loss": 0.0791,
	"step": 1610
	},
	{
	"epoch": 66.80412371134021,
	"grad_norm": 10.076851844787598,
	"learning_rate": 1.8055555555555555e-05,
	"loss": 0.0808,
	"step": 1620
	},
	{
	"epoch": 66.96907216494846,
	"eval_accuracy": 0.855072463768116,
	"eval_loss": 0.5726441144943237,
	"eval_precision": 0.8562372477793413,
	"eval_recall": 0.855072463768116,
	"eval_runtime": 1.782,
	"eval_samples_per_second": 193.608,
	"eval_steps_per_second": 6.173,
	"step": 1624
	},
	{
	"epoch": 67.21649484536083,
	"grad_norm": 10.814988136291504,
	"learning_rate": 1.7824074074074075e-05,
	"loss": 0.0604,
	"step": 1630
	},
	{
	"epoch": 67.62886597938144,
	"grad_norm": 14.779629707336426,
	"learning_rate": 1.7592592592592595e-05,
	"loss": 0.1034,
	"step": 1640
	},
	{
	"epoch": 68.0,
	"eval_accuracy": 0.855072463768116,
	"eval_loss": 0.5412786602973938,
	"eval_precision": 0.8548742107305042,
	"eval_recall": 0.855072463768116,
	"eval_runtime": 1.8607,
	"eval_samples_per_second": 185.418,
	"eval_steps_per_second": 5.912,
	"step": 1649
	},
	{
	"epoch": 68.04123711340206,
	"grad_norm": 7.925902843475342,
	"learning_rate": 1.736111111111111e-05,
	"loss": 0.098,
	"step": 1650
	},
	{
	"epoch": 68.45360824742268,
	"grad_norm": 8.179915428161621,
	"learning_rate": 1.712962962962963e-05,
	"loss": 0.0871,
	"step": 1660
	},
	{
	"epoch": 68.8659793814433,
	"grad_norm": 8.375000953674316,
	"learning_rate": 1.6898148148148148e-05,
	"loss": 0.0845,
	"step": 1670
	},
	{
	"epoch": 68.98969072164948,
	"eval_accuracy": 0.8434782608695652,
	"eval_loss": 0.5826108455657959,
	"eval_precision": 0.8476663926581475,
	"eval_recall": 0.8434782608695652,
	"eval_runtime": 1.8967,
	"eval_samples_per_second": 181.896,
	"eval_steps_per_second": 5.8,
	"step": 1673
	},
	{
	"epoch": 69.27835051546391,
	"grad_norm": 8.613913536071777,
	"learning_rate": 1.6666666666666667e-05,
	"loss": 0.0911,
	"step": 1680
	},
	{
	"epoch": 69.69072164948453,
	"grad_norm": 9.535558700561523,
	"learning_rate": 1.6435185185185187e-05,
	"loss": 0.0916,
	"step": 1690
	},
	{
	"epoch": 69.97938144329896,
	"eval_accuracy": 0.8521739130434782,
	"eval_loss": 0.566058337688446,
	"eval_precision": 0.8522049189345976,
	"eval_recall": 0.8521739130434782,
	"eval_runtime": 1.7731,
	"eval_samples_per_second": 194.574,
	"eval_steps_per_second": 6.204,
	"step": 1697
	},
	{
	"epoch": 70.10309278350516,
	"grad_norm": 7.769627571105957,
	"learning_rate": 1.6203703703703704e-05,
	"loss": 0.1011,
	"step": 1700
	},
	{
	"epoch": 70.51546391752578,
	"grad_norm": 9.350245475769043,
	"learning_rate": 1.597222222222222e-05,
	"loss": 0.0896,
	"step": 1710
	},
	{
	"epoch": 70.9278350515464,
	"grad_norm": 11.536579132080078,
	"learning_rate": 1.574074074074074e-05,
	"loss": 0.0912,
	"step": 1720
	},
	{
	"epoch": 70.96907216494846,
	"eval_accuracy": 0.8492753623188406,
	"eval_loss": 0.5770707130432129,
	"eval_precision": 0.84979303172866,
	"eval_recall": 0.8492753623188406,
	"eval_runtime": 1.817,
	"eval_samples_per_second": 189.875,
	"eval_steps_per_second": 6.054,
	"step": 1721
	},
	{
	"epoch": 71.34020618556701,
	"grad_norm": 15.122323989868164,
	"learning_rate": 1.550925925925926e-05,
	"loss": 0.0995,
	"step": 1730
	},
	{
	"epoch": 71.75257731958763,
	"grad_norm": 12.938358306884766,
	"learning_rate": 1.527777777777778e-05,
	"loss": 0.0863,
	"step": 1740
	},
	{
	"epoch": 72.0,
	"eval_accuracy": 0.855072463768116,
	"eval_loss": 0.5769326686859131,
	"eval_precision": 0.8550354692908756,
	"eval_recall": 0.855072463768116,
	"eval_runtime": 1.8313,
	"eval_samples_per_second": 188.386,
	"eval_steps_per_second": 6.007,
	"step": 1746
	},
	{
	"epoch": 72.16494845360825,
	"grad_norm": 6.935812950134277,
	"learning_rate": 1.5046296296296297e-05,
	"loss": 0.0731,
	"step": 1750
	},
	{
	"epoch": 72.57731958762886,
	"grad_norm": 10.120232582092285,
	"learning_rate": 1.4814814814814815e-05,
	"loss": 0.1101,
	"step": 1760
	},
	{
	"epoch": 72.98969072164948,
	"grad_norm": 5.746927738189697,
	"learning_rate": 1.4583333333333335e-05,
	"loss": 0.083,
	"step": 1770
	},
	{
	"epoch": 72.98969072164948,
	"eval_accuracy": 0.8492753623188406,
	"eval_loss": 0.5860167145729065,
	"eval_precision": 0.8486187988428825,
	"eval_recall": 0.8492753623188406,
	"eval_runtime": 1.8602,
	"eval_samples_per_second": 185.466,
	"eval_steps_per_second": 5.913,
	"step": 1770
	},
	{
	"epoch": 73.4020618556701,
	"grad_norm": 14.205853462219238,
	"learning_rate": 1.4351851851851853e-05,
	"loss": 0.1003,
	"step": 1780
	},
	{
	"epoch": 73.81443298969072,
	"grad_norm": 6.671767711639404,
	"learning_rate": 1.412037037037037e-05,
	"loss": 0.0839,
	"step": 1790
	},
	{
	"epoch": 73.97938144329896,
	"eval_accuracy": 0.855072463768116,
	"eval_loss": 0.5647125244140625,
	"eval_precision": 0.8550673486786019,
	"eval_recall": 0.855072463768116,
	"eval_runtime": 1.843,
	"eval_samples_per_second": 187.195,
	"eval_steps_per_second": 5.969,
	"step": 1794
	},
	{
	"epoch": 74.22680412371135,
	"grad_norm": 6.19529914855957,
	"learning_rate": 1.388888888888889e-05,
	"loss": 0.0798,
	"step": 1800
	},
	{
	"epoch": 74.63917525773196,
	"grad_norm": 13.039739608764648,
	"learning_rate": 1.3657407407407408e-05,
	"loss": 0.0903,
	"step": 1810
	},
	{
	"epoch": 74.96907216494846,
	"eval_accuracy": 0.855072463768116,
	"eval_loss": 0.601210355758667,
	"eval_precision": 0.8534831427546733,
	"eval_recall": 0.855072463768116,
	"eval_runtime": 1.7476,
	"eval_samples_per_second": 197.417,
	"eval_steps_per_second": 6.294,
	"step": 1818
	},
	{
	"epoch": 75.05154639175258,
	"grad_norm": 6.386416435241699,
	"learning_rate": 1.3425925925925928e-05,
	"loss": 0.0872,
	"step": 1820
	},
	{
	"epoch": 75.4639175257732,
	"grad_norm": 7.484694957733154,
	"learning_rate": 1.3194444444444446e-05,
	"loss": 0.0751,
	"step": 1830
	},
	{
	"epoch": 75.87628865979381,
	"grad_norm": 10.781839370727539,
	"learning_rate": 1.2962962962962962e-05,
	"loss": 0.074,
	"step": 1840
	},
	{
	"epoch": 76.0,
	"eval_accuracy": 0.8463768115942029,
	"eval_loss": 0.6048101186752319,
	"eval_precision": 0.8461499789126601,
	"eval_recall": 0.8463768115942029,
	"eval_runtime": 1.7696,
	"eval_samples_per_second": 194.962,
	"eval_steps_per_second": 6.216,
	"step": 1843
	},
	{
	"epoch": 76.28865979381443,
	"grad_norm": 17.32390022277832,
	"learning_rate": 1.2731481481481482e-05,
	"loss": 0.0943,
	"step": 1850
	},
	{
	"epoch": 76.70103092783505,
	"grad_norm": 12.162288665771484,
	"learning_rate": 1.25e-05,
	"loss": 0.0907,
	"step": 1860
	},
	{
	"epoch": 76.98969072164948,
	"eval_accuracy": 0.8492753623188406,
	"eval_loss": 0.5806660056114197,
	"eval_precision": 0.8495330403324792,
	"eval_recall": 0.8492753623188406,
	"eval_runtime": 1.7482,
	"eval_samples_per_second": 197.35,
	"eval_steps_per_second": 6.292,
	"step": 1867
	},
	{
	"epoch": 77.11340206185567,
	"grad_norm": 6.960859298706055,
	"learning_rate": 1.2268518518518519e-05,
	"loss": 0.0748,
	"step": 1870
	},
	{
	"epoch": 77.52577319587628,
	"grad_norm": 14.269356727600098,
	"learning_rate": 1.2037037037037037e-05,
	"loss": 0.0781,
	"step": 1880
	},
	{
	"epoch": 77.9381443298969,
	"grad_norm": 6.466542720794678,
	"learning_rate": 1.1805555555555555e-05,
	"loss": 0.0613,
	"step": 1890
	},
	{
	"epoch": 77.97938144329896,
	"eval_accuracy": 0.8376811594202899,
	"eval_loss": 0.5774852633476257,
	"eval_precision": 0.8381818122940702,
	"eval_recall": 0.8376811594202899,
	"eval_runtime": 1.7656,
	"eval_samples_per_second": 195.404,
	"eval_steps_per_second": 6.23,
	"step": 1891
	},
	{
	"epoch": 78.35051546391753,
	"grad_norm": 16.949039459228516,
	"learning_rate": 1.1574074074074075e-05,
	"loss": 0.0783,
	"step": 1900
	},
	{
	"epoch": 78.76288659793815,
	"grad_norm": 5.50955057144165,
	"learning_rate": 1.1342592592592593e-05,
	"loss": 0.0964,
	"step": 1910
	},
	{
	"epoch": 78.96907216494846,
	"eval_accuracy": 0.8666666666666667,
	"eval_loss": 0.5758916735649109,
	"eval_precision": 0.8675733846947259,
	"eval_recall": 0.8666666666666667,
	"eval_runtime": 1.7818,
	"eval_samples_per_second": 193.62,
	"eval_steps_per_second": 6.173,
	"step": 1915
	},
	{
	"epoch": 79.17525773195877,
	"grad_norm": 7.778840065002441,
	"learning_rate": 1.1111111111111112e-05,
	"loss": 0.0775,
	"step": 1920
	},
	{
	"epoch": 79.58762886597938,
	"grad_norm": 10.63167667388916,
	"learning_rate": 1.087962962962963e-05,
	"loss": 0.0849,
	"step": 1930
	},
	{
	"epoch": 80.0,
	"grad_norm": 10.529654502868652,
	"learning_rate": 1.0648148148148148e-05,
	"loss": 0.0735,
	"step": 1940
	},
	{
	"epoch": 80.0,
	"eval_accuracy": 0.855072463768116,
	"eval_loss": 0.5961835384368896,
	"eval_precision": 0.8565539653910103,
	"eval_recall": 0.855072463768116,
	"eval_runtime": 1.7657,
	"eval_samples_per_second": 195.391,
	"eval_steps_per_second": 6.23,
	"step": 1940
	},
	{
	"epoch": 80.41237113402062,
	"grad_norm": 10.91960334777832,
	"learning_rate": 1.0416666666666668e-05,
	"loss": 0.0803,
	"step": 1950
	},
	{
	"epoch": 80.82474226804123,
	"grad_norm": 6.953213691711426,
	"learning_rate": 1.0185185185185185e-05,
	"loss": 0.0663,
	"step": 1960
	},
	{
	"epoch": 80.98969072164948,
	"eval_accuracy": 0.8434782608695652,
	"eval_loss": 0.5768997669219971,
	"eval_precision": 0.8441240738989768,
	"eval_recall": 0.8434782608695652,
	"eval_runtime": 1.8615,
	"eval_samples_per_second": 185.334,
	"eval_steps_per_second": 5.909,
	"step": 1964
	},
	{
	"epoch": 81.23711340206185,
	"grad_norm": 14.6912841796875,
	"learning_rate": 9.953703703703704e-06,
	"loss": 0.0756,
	"step": 1970
	},
	{
	"epoch": 81.64948453608247,
	"grad_norm": 11.421167373657227,
	"learning_rate": 9.722222222222223e-06,
	"loss": 0.0719,
	"step": 1980
	},
	{
	"epoch": 81.97938144329896,
	"eval_accuracy": 0.8492753623188406,
	"eval_loss": 0.5826414823532104,
	"eval_precision": 0.8506964547245877,
	"eval_recall": 0.8492753623188406,
	"eval_runtime": 1.8427,
	"eval_samples_per_second": 187.221,
	"eval_steps_per_second": 5.969,
	"step": 1988
	},
	{
	"epoch": 82.0618556701031,
	"grad_norm": 16.955421447753906,
	"learning_rate": 9.490740740740741e-06,
	"loss": 0.0756,
	"step": 1990
	},
	{
	"epoch": 82.47422680412372,
	"grad_norm": 13.900518417358398,
	"learning_rate": 9.259259259259259e-06,
	"loss": 0.0683,
	"step": 2000
	},
	{
	"epoch": 82.88659793814433,
	"grad_norm": 9.04283618927002,
	"learning_rate": 9.027777777777777e-06,
	"loss": 0.0718,
	"step": 2010
	},
	{
	"epoch": 82.96907216494846,
	"eval_accuracy": 0.8579710144927536,
	"eval_loss": 0.5879714488983154,
	"eval_precision": 0.8590052571684228,
	"eval_recall": 0.8579710144927536,
	"eval_runtime": 1.7802,
	"eval_samples_per_second": 193.802,
	"eval_steps_per_second": 6.179,
	"step": 2012
	},
	{
	"epoch": 83.29896907216495,
	"grad_norm": 8.817221641540527,
	"learning_rate": 8.796296296296297e-06,
	"loss": 0.0699,
	"step": 2020
	},
	{
	"epoch": 83.71134020618557,
	"grad_norm": 9.379308700561523,
	"learning_rate": 8.564814814814816e-06,
	"loss": 0.0925,
	"step": 2030
	},
	{
	"epoch": 84.0,
	"eval_accuracy": 0.8492753623188406,
	"eval_loss": 0.5986330509185791,
	"eval_precision": 0.8512692229678578,
	"eval_recall": 0.8492753623188406,
	"eval_runtime": 1.7681,
	"eval_samples_per_second": 195.129,
	"eval_steps_per_second": 6.221,
	"step": 2037
	},
	{
	"epoch": 84.12371134020619,
	"grad_norm": 8.215590476989746,
	"learning_rate": 8.333333333333334e-06,
	"loss": 0.0617,
	"step": 2040
	},
	{
	"epoch": 84.5360824742268,
	"grad_norm": 5.024844169616699,
	"learning_rate": 8.101851851851852e-06,
	"loss": 0.0729,
	"step": 2050
	},
	{
	"epoch": 84.94845360824742,
	"grad_norm": 9.782211303710938,
	"learning_rate": 7.87037037037037e-06,
	"loss": 0.0621,
	"step": 2060
	},
	{
	"epoch": 84.98969072164948,
	"eval_accuracy": 0.8492753623188406,
	"eval_loss": 0.5914923548698425,
	"eval_precision": 0.8496762597563219,
	"eval_recall": 0.8492753623188406,
	"eval_runtime": 1.7614,
	"eval_samples_per_second": 195.868,
	"eval_steps_per_second": 6.245,
	"step": 2061
	},
	{
	"epoch": 85.36082474226804,
	"grad_norm": 7.3921942710876465,
	"learning_rate": 7.63888888888889e-06,
	"loss": 0.0621,
	"step": 2070
	},
	{
	"epoch": 85.77319587628865,
	"grad_norm": 10.206525802612305,
	"learning_rate": 7.4074074074074075e-06,
	"loss": 0.059,
	"step": 2080
	},
	{
	"epoch": 85.97938144329896,
	"eval_accuracy": 0.8579710144927536,
	"eval_loss": 0.577899694442749,
	"eval_precision": 0.8577329472646936,
	"eval_recall": 0.8579710144927536,
	"eval_runtime": 1.8903,
	"eval_samples_per_second": 182.511,
	"eval_steps_per_second": 5.819,
	"step": 2085
	},
	{
	"epoch": 86.18556701030928,
	"grad_norm": 18.180044174194336,
	"learning_rate": 7.1759259259259266e-06,
	"loss": 0.0663,
	"step": 2090
	},
	{
	"epoch": 86.5979381443299,
	"grad_norm": 10.320213317871094,
	"learning_rate": 6.944444444444445e-06,
	"loss": 0.0806,
	"step": 2100
	},
	{
	"epoch": 86.96907216494846,
	"eval_accuracy": 0.8492753623188406,
	"eval_loss": 0.5928123593330383,
	"eval_precision": 0.850145540799145,
	"eval_recall": 0.8492753623188406,
	"eval_runtime": 1.8068,
	"eval_samples_per_second": 190.946,
	"eval_steps_per_second": 6.088,
	"step": 2109
	},
	{
	"epoch": 87.01030927835052,
	"grad_norm": 13.640397071838379,
	"learning_rate": 6.712962962962964e-06,
	"loss": 0.0581,
	"step": 2110
	},
	{
	"epoch": 87.42268041237114,
	"grad_norm": 9.787714004516602,
	"learning_rate": 6.481481481481481e-06,
	"loss": 0.0641,
	"step": 2120
	},
	{
	"epoch": 87.83505154639175,
	"grad_norm": 7.827996730804443,
	"learning_rate": 6.25e-06,
	"loss": 0.0617,
	"step": 2130
	},
	{
	"epoch": 88.0,
	"eval_accuracy": 0.8521739130434782,
	"eval_loss": 0.606200098991394,
	"eval_precision": 0.8519519771693684,
	"eval_recall": 0.8521739130434782,
	"eval_runtime": 1.7968,
	"eval_samples_per_second": 192.013,
	"eval_steps_per_second": 6.122,
	"step": 2134
	},
	{
	"epoch": 88.24742268041237,
	"grad_norm": 10.409219741821289,
	"learning_rate": 6.0185185185185185e-06,
	"loss": 0.0677,
	"step": 2140
	},
	{
	"epoch": 88.65979381443299,
	"grad_norm": 13.120059967041016,
	"learning_rate": 5.787037037037038e-06,
	"loss": 0.0651,
	"step": 2150
	},
	{
	"epoch": 88.98969072164948,
	"eval_accuracy": 0.8521739130434782,
	"eval_loss": 0.6067116260528564,
	"eval_precision": 0.8518690976003952,
	"eval_recall": 0.8521739130434782,
	"eval_runtime": 1.8144,
	"eval_samples_per_second": 190.144,
	"eval_steps_per_second": 6.063,
	"step": 2158
	},
	{
	"epoch": 89.0721649484536,
	"grad_norm": 8.974705696105957,
	"learning_rate": 5.555555555555556e-06,
	"loss": 0.0672,
	"step": 2160
	},
	{
	"epoch": 89.48453608247422,
	"grad_norm": 13.397907257080078,
	"learning_rate": 5.324074074074074e-06,
	"loss": 0.0727,
	"step": 2170
	},
	{
	"epoch": 89.89690721649484,
	"grad_norm": 4.159496784210205,
	"learning_rate": 5.092592592592592e-06,
	"loss": 0.0754,
	"step": 2180
	},
	{
	"epoch": 89.97938144329896,
	"eval_accuracy": 0.855072463768116,
	"eval_loss": 0.6107772588729858,
	"eval_precision": 0.8553431503660337,
	"eval_recall": 0.855072463768116,
	"eval_runtime": 1.7776,
	"eval_samples_per_second": 194.084,
	"eval_steps_per_second": 6.188,
	"step": 2182
	},
	{
	"epoch": 90.30927835051547,
	"grad_norm": 11.130279541015625,
	"learning_rate": 4.861111111111111e-06,
	"loss": 0.079,
	"step": 2190
	},
	{
	"epoch": 90.72164948453609,
	"grad_norm": 13.203577995300293,
	"learning_rate": 4.6296296296296296e-06,
	"loss": 0.0682,
	"step": 2200
	},
	{
	"epoch": 90.96907216494846,
	"eval_accuracy": 0.8492753623188406,
	"eval_loss": 0.618496298789978,
	"eval_precision": 0.8488872700953353,
	"eval_recall": 0.8492753623188406,
	"eval_runtime": 1.7798,
	"eval_samples_per_second": 193.847,
	"eval_steps_per_second": 6.181,
	"step": 2206
	},
	{
	"epoch": 91.1340206185567,
	"grad_norm": 10.04045581817627,
	"learning_rate": 4.398148148148149e-06,
	"loss": 0.0699,
	"step": 2210
	},
	{
	"epoch": 91.54639175257732,
	"grad_norm": 2.500128984451294,
	"learning_rate": 4.166666666666667e-06,
	"loss": 0.0664,
	"step": 2220
	},
	{
	"epoch": 91.95876288659794,
	"grad_norm": 9.432464599609375,
	"learning_rate": 3.935185185185185e-06,
	"loss": 0.0763,
	"step": 2230
	},
	{
	"epoch": 92.0,
	"eval_accuracy": 0.8579710144927536,
	"eval_loss": 0.6168191432952881,
	"eval_precision": 0.8575139456543875,
	"eval_recall": 0.8579710144927536,
	"eval_runtime": 1.8002,
	"eval_samples_per_second": 191.65,
	"eval_steps_per_second": 6.111,
	"step": 2231
	},
	{
	"epoch": 92.37113402061856,
	"grad_norm": 9.279271125793457,
	"learning_rate": 3.7037037037037037e-06,
	"loss": 0.0742,
	"step": 2240
	},
	{
	"epoch": 92.78350515463917,
	"grad_norm": 19.246337890625,
	"learning_rate": 3.4722222222222224e-06,
	"loss": 0.0703,
	"step": 2250
	},
	{
	"epoch": 92.98969072164948,
	"eval_accuracy": 0.8521739130434782,
	"eval_loss": 0.6258795261383057,
	"eval_precision": 0.8520768323971984,
	"eval_recall": 0.8521739130434782,
	"eval_runtime": 1.8416,
	"eval_samples_per_second": 187.341,
	"eval_steps_per_second": 5.973,
	"step": 2255
	},
	{
	"epoch": 93.19587628865979,
	"grad_norm": 5.38301420211792,
	"learning_rate": 3.2407407407407406e-06,
	"loss": 0.0559,
	"step": 2260
	},
	{
	"epoch": 93.6082474226804,
	"grad_norm": 7.105731964111328,
	"learning_rate": 3.0092592592592593e-06,
	"loss": 0.0861,
	"step": 2270
	},
	{
	"epoch": 93.97938144329896,
	"eval_accuracy": 0.855072463768116,
	"eval_loss": 0.6128158569335938,
	"eval_precision": 0.8553431503660337,
	"eval_recall": 0.855072463768116,
	"eval_runtime": 1.776,
	"eval_samples_per_second": 194.252,
	"eval_steps_per_second": 6.194,
	"step": 2279
	},
	{
	"epoch": 94.02061855670104,
	"grad_norm": 14.296255111694336,
	"learning_rate": 2.777777777777778e-06,
	"loss": 0.089,
	"step": 2280
	},
	{
	"epoch": 94.43298969072166,
	"grad_norm": 11.694154739379883,
	"learning_rate": 2.546296296296296e-06,
	"loss": 0.07,
	"step": 2290
	},
	{
	"epoch": 94.84536082474227,
	"grad_norm": 8.240065574645996,
	"learning_rate": 2.3148148148148148e-06,
	"loss": 0.0807,
	"step": 2300
	},
	{
	"epoch": 94.96907216494846,
	"eval_accuracy": 0.855072463768116,
	"eval_loss": 0.6139995455741882,
	"eval_precision": 0.8546533219302098,
	"eval_recall": 0.855072463768116,
	"eval_runtime": 1.763,
	"eval_samples_per_second": 195.691,
	"eval_steps_per_second": 6.239,
	"step": 2303
	},
	{
	"epoch": 95.25773195876289,
	"grad_norm": 6.740184307098389,
	"learning_rate": 2.0833333333333334e-06,
	"loss": 0.0814,
	"step": 2310
	},
	{
	"epoch": 95.6701030927835,
	"grad_norm": 9.714829444885254,
	"learning_rate": 1.8518518518518519e-06,
	"loss": 0.0621,
	"step": 2320
	},
	{
	"epoch": 96.0,
	"eval_accuracy": 0.8521739130434782,
	"eval_loss": 0.6132925748825073,
	"eval_precision": 0.8531657869027159,
	"eval_recall": 0.8521739130434782,
	"eval_runtime": 1.8081,
	"eval_samples_per_second": 190.808,
	"eval_steps_per_second": 6.084,
	"step": 2328
	},
	{
	"epoch": 96.08247422680412,
	"grad_norm": 11.212587356567383,
	"learning_rate": 1.6203703703703703e-06,
	"loss": 0.065,
	"step": 2330
	},
	{
	"epoch": 96.49484536082474,
	"grad_norm": 5.428162097930908,
	"learning_rate": 1.388888888888889e-06,
	"loss": 0.0621,
	"step": 2340
	},
	{
	"epoch": 96.90721649484536,
	"grad_norm": 15.444799423217773,
	"learning_rate": 1.1574074074074074e-06,
	"loss": 0.0831,
	"step": 2350
	},
	{
	"epoch": 96.98969072164948,
	"eval_accuracy": 0.8492753623188406,
	"eval_loss": 0.6100958585739136,
	"eval_precision": 0.8507158478342087,
	"eval_recall": 0.8492753623188406,
	"eval_runtime": 1.7991,
	"eval_samples_per_second": 191.765,
	"eval_steps_per_second": 6.114,
	"step": 2352
	},
	{
	"epoch": 97.31958762886597,
	"grad_norm": 12.789685249328613,
	"learning_rate": 9.259259259259259e-07,
	"loss": 0.0584,
	"step": 2360
	},
	{
	"epoch": 97.73195876288659,
	"grad_norm": 9.271283149719238,
	"learning_rate": 6.944444444444445e-07,
	"loss": 0.0625,
	"step": 2370
	},
	{
	"epoch": 97.97938144329896,
	"eval_accuracy": 0.8492753623188406,
	"eval_loss": 0.6096817851066589,
	"eval_precision": 0.8507158478342087,
	"eval_recall": 0.8492753623188406,
	"eval_runtime": 1.8191,
	"eval_samples_per_second": 189.651,
	"eval_steps_per_second": 6.047,
	"step": 2376
	},
	{
	"epoch": 98.14432989690722,
	"grad_norm": 10.486361503601074,
	"learning_rate": 4.6296296296296297e-07,
	"loss": 0.0563,
	"step": 2380
	},
	{
	"epoch": 98.55670103092784,
	"grad_norm": 4.260477066040039,
	"learning_rate": 2.3148148148148148e-07,
	"loss": 0.0648,
	"step": 2390
	},
	{
	"epoch": 98.96907216494846,
	"grad_norm": 8.932230949401855,
	"learning_rate": 0.0,
	"loss": 0.0571,
	"step": 2400
	},
	{
	"epoch": 98.96907216494846,
	"eval_accuracy": 0.8492753623188406,
	"eval_loss": 0.6083797812461853,
	"eval_precision": 0.8507158478342087,
	"eval_recall": 0.8492753623188406,
	"eval_runtime": 1.7521,
	"eval_samples_per_second": 196.912,
	"eval_steps_per_second": 6.278,
	"step": 2400
	},
	{
	"epoch": 98.96907216494846,
	"step": 2400,
	"total_flos": 7.732715563096474e+18,
	"train_loss": 0.2344164727628231,
	"train_runtime": 4723.8268,
	"train_samples_per_second": 65.709,
	"train_steps_per_second": 0.508
	}
	],
	"logging_steps": 10,
	"max_steps": 2400,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 100,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": false,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 7.732715563096474e+18,
	"train_batch_size": 32,
	"trial_name": null,
	"trial_params": null
	}