test-timm / trainer_state.json

End of training

bab8b6f verified about 1 month ago

129 kB

	{
	"best_metric": 0.4896911084651947,
	"best_model_checkpoint": "./beans_outputs/checkpoint-1495",
	"epoch": 200.0,
	"eval_steps": 500,
	"global_step": 4600,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.43478260869565216,
	"grad_norm": 3.492309093475342,
	"learning_rate": 1.9826086956521742e-05,
	"loss": 0.7305,
	"step": 10
	},
	{
	"epoch": 0.8695652173913043,
	"grad_norm": 4.003854751586914,
	"learning_rate": 1.965217391304348e-05,
	"loss": 0.6794,
	"step": 20
	},
	{
	"epoch": 1.0,
	"eval_accuracy": 0.6062992125984252,
	"eval_loss": 0.6559741497039795,
	"eval_runtime": 4.6669,
	"eval_samples_per_second": 54.425,
	"eval_steps_per_second": 0.857,
	"step": 23
	},
	{
	"epoch": 1.3043478260869565,
	"grad_norm": 4.675185680389404,
	"learning_rate": 1.947826086956522e-05,
	"loss": 0.6399,
	"step": 30
	},
	{
	"epoch": 1.7391304347826086,
	"grad_norm": 4.350035667419434,
	"learning_rate": 1.9304347826086957e-05,
	"loss": 0.6215,
	"step": 40
	},
	{
	"epoch": 2.0,
	"eval_accuracy": 0.7362204724409449,
	"eval_loss": 0.5833372473716736,
	"eval_runtime": 3.7107,
	"eval_samples_per_second": 68.451,
	"eval_steps_per_second": 1.078,
	"step": 46
	},
	{
	"epoch": 2.1739130434782608,
	"grad_norm": 3.180147886276245,
	"learning_rate": 1.9130434782608697e-05,
	"loss": 0.5964,
	"step": 50
	},
	{
	"epoch": 2.608695652173913,
	"grad_norm": 3.246190309524536,
	"learning_rate": 1.8956521739130434e-05,
	"loss": 0.5784,
	"step": 60
	},
	{
	"epoch": 3.0,
	"eval_accuracy": 0.7598425196850394,
	"eval_loss": 0.5489528179168701,
	"eval_runtime": 4.3517,
	"eval_samples_per_second": 58.367,
	"eval_steps_per_second": 0.919,
	"step": 69
	},
	{
	"epoch": 3.0434782608695654,
	"grad_norm": 2.3400914669036865,
	"learning_rate": 1.8782608695652175e-05,
	"loss": 0.5412,
	"step": 70
	},
	{
	"epoch": 3.4782608695652173,
	"grad_norm": 3.5264837741851807,
	"learning_rate": 1.8608695652173912e-05,
	"loss": 0.5659,
	"step": 80
	},
	{
	"epoch": 3.9130434782608696,
	"grad_norm": 4.993140697479248,
	"learning_rate": 1.8434782608695653e-05,
	"loss": 0.5347,
	"step": 90
	},
	{
	"epoch": 4.0,
	"eval_accuracy": 0.7637795275590551,
	"eval_loss": 0.5305963754653931,
	"eval_runtime": 3.9321,
	"eval_samples_per_second": 64.596,
	"eval_steps_per_second": 1.017,
	"step": 92
	},
	{
	"epoch": 4.3478260869565215,
	"grad_norm": 2.20806622505188,
	"learning_rate": 1.8260869565217393e-05,
	"loss": 0.5086,
	"step": 100
	},
	{
	"epoch": 4.782608695652174,
	"grad_norm": 4.256261825561523,
	"learning_rate": 1.808695652173913e-05,
	"loss": 0.5307,
	"step": 110
	},
	{
	"epoch": 5.0,
	"eval_accuracy": 0.7637795275590551,
	"eval_loss": 0.5235078930854797,
	"eval_runtime": 3.7141,
	"eval_samples_per_second": 68.389,
	"eval_steps_per_second": 1.077,
	"step": 115
	},
	{
	"epoch": 5.217391304347826,
	"grad_norm": 2.6543545722961426,
	"learning_rate": 1.791304347826087e-05,
	"loss": 0.5085,
	"step": 120
	},
	{
	"epoch": 5.6521739130434785,
	"grad_norm": 4.274487495422363,
	"learning_rate": 1.773913043478261e-05,
	"loss": 0.5391,
	"step": 130
	},
	{
	"epoch": 6.0,
	"eval_accuracy": 0.7677165354330708,
	"eval_loss": 0.5090441703796387,
	"eval_runtime": 4.3438,
	"eval_samples_per_second": 58.475,
	"eval_steps_per_second": 0.921,
	"step": 138
	},
	{
	"epoch": 6.086956521739131,
	"grad_norm": 3.147414445877075,
	"learning_rate": 1.756521739130435e-05,
	"loss": 0.4977,
	"step": 140
	},
	{
	"epoch": 6.521739130434782,
	"grad_norm": 4.254673004150391,
	"learning_rate": 1.739130434782609e-05,
	"loss": 0.5297,
	"step": 150
	},
	{
	"epoch": 6.956521739130435,
	"grad_norm": 2.083784818649292,
	"learning_rate": 1.721739130434783e-05,
	"loss": 0.48,
	"step": 160
	},
	{
	"epoch": 7.0,
	"eval_accuracy": 0.7716535433070866,
	"eval_loss": 0.5108471512794495,
	"eval_runtime": 4.1877,
	"eval_samples_per_second": 60.653,
	"eval_steps_per_second": 0.955,
	"step": 161
	},
	{
	"epoch": 7.391304347826087,
	"grad_norm": 4.193545818328857,
	"learning_rate": 1.7043478260869566e-05,
	"loss": 0.4826,
	"step": 170
	},
	{
	"epoch": 7.826086956521739,
	"grad_norm": 2.05076003074646,
	"learning_rate": 1.6869565217391307e-05,
	"loss": 0.473,
	"step": 180
	},
	{
	"epoch": 8.0,
	"eval_accuracy": 0.7755905511811023,
	"eval_loss": 0.5028324127197266,
	"eval_runtime": 3.7021,
	"eval_samples_per_second": 68.61,
	"eval_steps_per_second": 1.08,
	"step": 184
	},
	{
	"epoch": 8.26086956521739,
	"grad_norm": 3.007233142852783,
	"learning_rate": 1.6695652173913044e-05,
	"loss": 0.5255,
	"step": 190
	},
	{
	"epoch": 8.695652173913043,
	"grad_norm": 2.196945905685425,
	"learning_rate": 1.6521739130434785e-05,
	"loss": 0.5014,
	"step": 200
	},
	{
	"epoch": 9.0,
	"eval_accuracy": 0.7716535433070866,
	"eval_loss": 0.5054498314857483,
	"eval_runtime": 4.225,
	"eval_samples_per_second": 60.119,
	"eval_steps_per_second": 0.947,
	"step": 207
	},
	{
	"epoch": 9.130434782608695,
	"grad_norm": 2.184353828430176,
	"learning_rate": 1.6347826086956525e-05,
	"loss": 0.5044,
	"step": 210
	},
	{
	"epoch": 9.565217391304348,
	"grad_norm": 4.106619358062744,
	"learning_rate": 1.6173913043478262e-05,
	"loss": 0.4822,
	"step": 220
	},
	{
	"epoch": 10.0,
	"grad_norm": 4.000082969665527,
	"learning_rate": 1.6000000000000003e-05,
	"loss": 0.496,
	"step": 230
	},
	{
	"epoch": 10.0,
	"eval_accuracy": 0.7716535433070866,
	"eval_loss": 0.5039955973625183,
	"eval_runtime": 5.3498,
	"eval_samples_per_second": 47.478,
	"eval_steps_per_second": 0.748,
	"step": 230
	},
	{
	"epoch": 10.434782608695652,
	"grad_norm": 5.726933002471924,
	"learning_rate": 1.582608695652174e-05,
	"loss": 0.5101,
	"step": 240
	},
	{
	"epoch": 10.869565217391305,
	"grad_norm": 4.100568771362305,
	"learning_rate": 1.565217391304348e-05,
	"loss": 0.4688,
	"step": 250
	},
	{
	"epoch": 11.0,
	"eval_accuracy": 0.7677165354330708,
	"eval_loss": 0.4972316324710846,
	"eval_runtime": 3.7607,
	"eval_samples_per_second": 67.54,
	"eval_steps_per_second": 1.064,
	"step": 253
	},
	{
	"epoch": 11.304347826086957,
	"grad_norm": 2.6119587421417236,
	"learning_rate": 1.5478260869565217e-05,
	"loss": 0.485,
	"step": 260
	},
	{
	"epoch": 11.73913043478261,
	"grad_norm": 3.003861427307129,
	"learning_rate": 1.5304347826086958e-05,
	"loss": 0.4943,
	"step": 270
	},
	{
	"epoch": 12.0,
	"eval_accuracy": 0.7637795275590551,
	"eval_loss": 0.49771231412887573,
	"eval_runtime": 4.9203,
	"eval_samples_per_second": 51.622,
	"eval_steps_per_second": 0.813,
	"step": 276
	},
	{
	"epoch": 12.173913043478262,
	"grad_norm": 2.9490270614624023,
	"learning_rate": 1.5130434782608697e-05,
	"loss": 0.4505,
	"step": 280
	},
	{
	"epoch": 12.608695652173914,
	"grad_norm": 2.8131847381591797,
	"learning_rate": 1.4956521739130436e-05,
	"loss": 0.5012,
	"step": 290
	},
	{
	"epoch": 13.0,
	"eval_accuracy": 0.7716535433070866,
	"eval_loss": 0.5057242512702942,
	"eval_runtime": 3.7024,
	"eval_samples_per_second": 68.605,
	"eval_steps_per_second": 1.08,
	"step": 299
	},
	{
	"epoch": 13.043478260869565,
	"grad_norm": 17.65978240966797,
	"learning_rate": 1.4782608695652174e-05,
	"loss": 0.4768,
	"step": 300
	},
	{
	"epoch": 13.478260869565217,
	"grad_norm": 2.085587978363037,
	"learning_rate": 1.4608695652173915e-05,
	"loss": 0.4729,
	"step": 310
	},
	{
	"epoch": 13.91304347826087,
	"grad_norm": 4.59744119644165,
	"learning_rate": 1.4434782608695654e-05,
	"loss": 0.4639,
	"step": 320
	},
	{
	"epoch": 14.0,
	"eval_accuracy": 0.7716535433070866,
	"eval_loss": 0.5010089874267578,
	"eval_runtime": 3.7018,
	"eval_samples_per_second": 68.616,
	"eval_steps_per_second": 1.081,
	"step": 322
	},
	{
	"epoch": 14.347826086956522,
	"grad_norm": 2.4057395458221436,
	"learning_rate": 1.4260869565217392e-05,
	"loss": 0.4751,
	"step": 330
	},
	{
	"epoch": 14.782608695652174,
	"grad_norm": 3.549567222595215,
	"learning_rate": 1.4086956521739133e-05,
	"loss": 0.4709,
	"step": 340
	},
	{
	"epoch": 15.0,
	"eval_accuracy": 0.7795275590551181,
	"eval_loss": 0.4948899447917938,
	"eval_runtime": 4.9714,
	"eval_samples_per_second": 51.092,
	"eval_steps_per_second": 0.805,
	"step": 345
	},
	{
	"epoch": 15.217391304347826,
	"grad_norm": 6.705427646636963,
	"learning_rate": 1.391304347826087e-05,
	"loss": 0.4379,
	"step": 350
	},
	{
	"epoch": 15.652173913043478,
	"grad_norm": 2.444533348083496,
	"learning_rate": 1.373913043478261e-05,
	"loss": 0.4888,
	"step": 360
	},
	{
	"epoch": 16.0,
	"eval_accuracy": 0.7834645669291339,
	"eval_loss": 0.49550917744636536,
	"eval_runtime": 3.6768,
	"eval_samples_per_second": 69.081,
	"eval_steps_per_second": 1.088,
	"step": 368
	},
	{
	"epoch": 16.08695652173913,
	"grad_norm": 5.470461845397949,
	"learning_rate": 1.3565217391304348e-05,
	"loss": 0.4952,
	"step": 370
	},
	{
	"epoch": 16.52173913043478,
	"grad_norm": 2.0678608417510986,
	"learning_rate": 1.3391304347826088e-05,
	"loss": 0.4784,
	"step": 380
	},
	{
	"epoch": 16.956521739130434,
	"grad_norm": 6.63480806350708,
	"learning_rate": 1.3217391304347827e-05,
	"loss": 0.4594,
	"step": 390
	},
	{
	"epoch": 17.0,
	"eval_accuracy": 0.7716535433070866,
	"eval_loss": 0.49856194853782654,
	"eval_runtime": 3.7219,
	"eval_samples_per_second": 68.245,
	"eval_steps_per_second": 1.075,
	"step": 391
	},
	{
	"epoch": 17.391304347826086,
	"grad_norm": 4.448991298675537,
	"learning_rate": 1.3043478260869566e-05,
	"loss": 0.4607,
	"step": 400
	},
	{
	"epoch": 17.82608695652174,
	"grad_norm": 2.716780424118042,
	"learning_rate": 1.2869565217391305e-05,
	"loss": 0.4745,
	"step": 410
	},
	{
	"epoch": 18.0,
	"eval_accuracy": 0.7677165354330708,
	"eval_loss": 0.501070499420166,
	"eval_runtime": 4.5054,
	"eval_samples_per_second": 56.377,
	"eval_steps_per_second": 0.888,
	"step": 414
	},
	{
	"epoch": 18.26086956521739,
	"grad_norm": 2.406355857849121,
	"learning_rate": 1.2695652173913045e-05,
	"loss": 0.4639,
	"step": 420
	},
	{
	"epoch": 18.695652173913043,
	"grad_norm": 5.627669811248779,
	"learning_rate": 1.2521739130434784e-05,
	"loss": 0.4667,
	"step": 430
	},
	{
	"epoch": 19.0,
	"eval_accuracy": 0.7755905511811023,
	"eval_loss": 0.4928434491157532,
	"eval_runtime": 4.0475,
	"eval_samples_per_second": 62.756,
	"eval_steps_per_second": 0.988,
	"step": 437
	},
	{
	"epoch": 19.130434782608695,
	"grad_norm": 4.074652671813965,
	"learning_rate": 1.2347826086956523e-05,
	"loss": 0.4671,
	"step": 440
	},
	{
	"epoch": 19.565217391304348,
	"grad_norm": 5.88148832321167,
	"learning_rate": 1.2173913043478263e-05,
	"loss": 0.4442,
	"step": 450
	},
	{
	"epoch": 20.0,
	"grad_norm": 3.00347900390625,
	"learning_rate": 1.2e-05,
	"loss": 0.4551,
	"step": 460
	},
	{
	"epoch": 20.0,
	"eval_accuracy": 0.7795275590551181,
	"eval_loss": 0.5055357217788696,
	"eval_runtime": 3.6885,
	"eval_samples_per_second": 68.862,
	"eval_steps_per_second": 1.084,
	"step": 460
	},
	{
	"epoch": 20.434782608695652,
	"grad_norm": 10.164237976074219,
	"learning_rate": 1.182608695652174e-05,
	"loss": 0.4657,
	"step": 470
	},
	{
	"epoch": 20.869565217391305,
	"grad_norm": 2.1962711811065674,
	"learning_rate": 1.1652173913043478e-05,
	"loss": 0.4657,
	"step": 480
	},
	{
	"epoch": 21.0,
	"eval_accuracy": 0.7755905511811023,
	"eval_loss": 0.4928124248981476,
	"eval_runtime": 4.4478,
	"eval_samples_per_second": 57.107,
	"eval_steps_per_second": 0.899,
	"step": 483
	},
	{
	"epoch": 21.304347826086957,
	"grad_norm": 5.0302228927612305,
	"learning_rate": 1.1478260869565218e-05,
	"loss": 0.4564,
	"step": 490
	},
	{
	"epoch": 21.73913043478261,
	"grad_norm": 3.5275819301605225,
	"learning_rate": 1.1304347826086957e-05,
	"loss": 0.4818,
	"step": 500
	},
	{
	"epoch": 22.0,
	"eval_accuracy": 0.7755905511811023,
	"eval_loss": 0.5001721978187561,
	"eval_runtime": 4.0355,
	"eval_samples_per_second": 62.942,
	"eval_steps_per_second": 0.991,
	"step": 506
	},
	{
	"epoch": 22.17391304347826,
	"grad_norm": 6.920666694641113,
	"learning_rate": 1.1130434782608696e-05,
	"loss": 0.4608,
	"step": 510
	},
	{
	"epoch": 22.608695652173914,
	"grad_norm": 2.2840707302093506,
	"learning_rate": 1.0956521739130435e-05,
	"loss": 0.4633,
	"step": 520
	},
	{
	"epoch": 23.0,
	"eval_accuracy": 0.7834645669291339,
	"eval_loss": 0.49459317326545715,
	"eval_runtime": 3.7179,
	"eval_samples_per_second": 68.319,
	"eval_steps_per_second": 1.076,
	"step": 529
	},
	{
	"epoch": 23.043478260869566,
	"grad_norm": 6.509201526641846,
	"learning_rate": 1.0782608695652175e-05,
	"loss": 0.4694,
	"step": 530
	},
	{
	"epoch": 23.47826086956522,
	"grad_norm": 2.403275489807129,
	"learning_rate": 1.0608695652173914e-05,
	"loss": 0.4874,
	"step": 540
	},
	{
	"epoch": 23.91304347826087,
	"grad_norm": 2.1320598125457764,
	"learning_rate": 1.0434782608695653e-05,
	"loss": 0.4779,
	"step": 550
	},
	{
	"epoch": 24.0,
	"eval_accuracy": 0.7795275590551181,
	"eval_loss": 0.49417200684547424,
	"eval_runtime": 4.3215,
	"eval_samples_per_second": 58.776,
	"eval_steps_per_second": 0.926,
	"step": 552
	},
	{
	"epoch": 24.347826086956523,
	"grad_norm": 3.7421488761901855,
	"learning_rate": 1.0260869565217393e-05,
	"loss": 0.4579,
	"step": 560
	},
	{
	"epoch": 24.782608695652176,
	"grad_norm": 3.07060170173645,
	"learning_rate": 1.008695652173913e-05,
	"loss": 0.4718,
	"step": 570
	},
	{
	"epoch": 25.0,
	"eval_accuracy": 0.7834645669291339,
	"eval_loss": 0.49625155329704285,
	"eval_runtime": 5.5612,
	"eval_samples_per_second": 45.674,
	"eval_steps_per_second": 0.719,
	"step": 575
	},
	{
	"epoch": 25.217391304347824,
	"grad_norm": 4.446998596191406,
	"learning_rate": 9.913043478260871e-06,
	"loss": 0.443,
	"step": 580
	},
	{
	"epoch": 25.652173913043477,
	"grad_norm": 2.4786624908447266,
	"learning_rate": 9.73913043478261e-06,
	"loss": 0.4511,
	"step": 590
	},
	{
	"epoch": 26.0,
	"eval_accuracy": 0.7716535433070866,
	"eval_loss": 0.5011107325553894,
	"eval_runtime": 3.7637,
	"eval_samples_per_second": 67.487,
	"eval_steps_per_second": 1.063,
	"step": 598
	},
	{
	"epoch": 26.08695652173913,
	"grad_norm": 5.552999019622803,
	"learning_rate": 9.565217391304349e-06,
	"loss": 0.4631,
	"step": 600
	},
	{
	"epoch": 26.52173913043478,
	"grad_norm": 5.050811290740967,
	"learning_rate": 9.391304347826087e-06,
	"loss": 0.4564,
	"step": 610
	},
	{
	"epoch": 26.956521739130434,
	"grad_norm": 2.0711512565612793,
	"learning_rate": 9.217391304347826e-06,
	"loss": 0.4798,
	"step": 620
	},
	{
	"epoch": 27.0,
	"eval_accuracy": 0.7874015748031497,
	"eval_loss": 0.4903908967971802,
	"eval_runtime": 4.9056,
	"eval_samples_per_second": 51.777,
	"eval_steps_per_second": 0.815,
	"step": 621
	},
	{
	"epoch": 27.391304347826086,
	"grad_norm": 4.117509365081787,
	"learning_rate": 9.043478260869565e-06,
	"loss": 0.4411,
	"step": 630
	},
	{
	"epoch": 27.82608695652174,
	"grad_norm": 4.448685646057129,
	"learning_rate": 8.869565217391306e-06,
	"loss": 0.4868,
	"step": 640
	},
	{
	"epoch": 28.0,
	"eval_accuracy": 0.7834645669291339,
	"eval_loss": 0.4982087016105652,
	"eval_runtime": 3.7322,
	"eval_samples_per_second": 68.057,
	"eval_steps_per_second": 1.072,
	"step": 644
	},
	{
	"epoch": 28.26086956521739,
	"grad_norm": 3.0993807315826416,
	"learning_rate": 8.695652173913044e-06,
	"loss": 0.4414,
	"step": 650
	},
	{
	"epoch": 28.695652173913043,
	"grad_norm": 4.982347011566162,
	"learning_rate": 8.521739130434783e-06,
	"loss": 0.4653,
	"step": 660
	},
	{
	"epoch": 29.0,
	"eval_accuracy": 0.7874015748031497,
	"eval_loss": 0.498798668384552,
	"eval_runtime": 3.7347,
	"eval_samples_per_second": 68.012,
	"eval_steps_per_second": 1.071,
	"step": 667
	},
	{
	"epoch": 29.130434782608695,
	"grad_norm": 3.081833600997925,
	"learning_rate": 8.347826086956522e-06,
	"loss": 0.4503,
	"step": 670
	},
	{
	"epoch": 29.565217391304348,
	"grad_norm": 4.352429389953613,
	"learning_rate": 8.173913043478263e-06,
	"loss": 0.4674,
	"step": 680
	},
	{
	"epoch": 30.0,
	"grad_norm": 5.281393051147461,
	"learning_rate": 8.000000000000001e-06,
	"loss": 0.4613,
	"step": 690
	},
	{
	"epoch": 30.0,
	"eval_accuracy": 0.7795275590551181,
	"eval_loss": 0.49851593375205994,
	"eval_runtime": 4.8766,
	"eval_samples_per_second": 52.085,
	"eval_steps_per_second": 0.82,
	"step": 690
	},
	{
	"epoch": 30.434782608695652,
	"grad_norm": 2.2079997062683105,
	"learning_rate": 7.82608695652174e-06,
	"loss": 0.4574,
	"step": 700
	},
	{
	"epoch": 30.869565217391305,
	"grad_norm": 4.6935858726501465,
	"learning_rate": 7.652173913043479e-06,
	"loss": 0.4675,
	"step": 710
	},
	{
	"epoch": 31.0,
	"eval_accuracy": 0.7716535433070866,
	"eval_loss": 0.5060083270072937,
	"eval_runtime": 3.7305,
	"eval_samples_per_second": 68.087,
	"eval_steps_per_second": 1.072,
	"step": 713
	},
	{
	"epoch": 31.304347826086957,
	"grad_norm": 4.8790602684021,
	"learning_rate": 7.478260869565218e-06,
	"loss": 0.4802,
	"step": 720
	},
	{
	"epoch": 31.73913043478261,
	"grad_norm": 5.6365485191345215,
	"learning_rate": 7.304347826086957e-06,
	"loss": 0.4587,
	"step": 730
	},
	{
	"epoch": 32.0,
	"eval_accuracy": 0.7716535433070866,
	"eval_loss": 0.5059147477149963,
	"eval_runtime": 3.7699,
	"eval_samples_per_second": 67.376,
	"eval_steps_per_second": 1.061,
	"step": 736
	},
	{
	"epoch": 32.17391304347826,
	"grad_norm": 5.480165004730225,
	"learning_rate": 7.130434782608696e-06,
	"loss": 0.4541,
	"step": 740
	},
	{
	"epoch": 32.608695652173914,
	"grad_norm": 2.053098440170288,
	"learning_rate": 6.956521739130435e-06,
	"loss": 0.464,
	"step": 750
	},
	{
	"epoch": 33.0,
	"eval_accuracy": 0.7795275590551181,
	"eval_loss": 0.5041583180427551,
	"eval_runtime": 4.9981,
	"eval_samples_per_second": 50.82,
	"eval_steps_per_second": 0.8,
	"step": 759
	},
	{
	"epoch": 33.04347826086956,
	"grad_norm": 3.6429481506347656,
	"learning_rate": 6.782608695652174e-06,
	"loss": 0.454,
	"step": 760
	},
	{
	"epoch": 33.47826086956522,
	"grad_norm": 2.436143636703491,
	"learning_rate": 6.6086956521739135e-06,
	"loss": 0.4612,
	"step": 770
	},
	{
	"epoch": 33.91304347826087,
	"grad_norm": 2.5793776512145996,
	"learning_rate": 6.434782608695652e-06,
	"loss": 0.4374,
	"step": 780
	},
	{
	"epoch": 34.0,
	"eval_accuracy": 0.7677165354330708,
	"eval_loss": 0.5063456296920776,
	"eval_runtime": 3.7117,
	"eval_samples_per_second": 68.432,
	"eval_steps_per_second": 1.078,
	"step": 782
	},
	{
	"epoch": 34.34782608695652,
	"grad_norm": 3.71374773979187,
	"learning_rate": 6.260869565217392e-06,
	"loss": 0.4667,
	"step": 790
	},
	{
	"epoch": 34.78260869565217,
	"grad_norm": 4.282368183135986,
	"learning_rate": 6.086956521739132e-06,
	"loss": 0.4864,
	"step": 800
	},
	{
	"epoch": 35.0,
	"eval_accuracy": 0.7677165354330708,
	"eval_loss": 0.5039507150650024,
	"eval_runtime": 3.6837,
	"eval_samples_per_second": 68.952,
	"eval_steps_per_second": 1.086,
	"step": 805
	},
	{
	"epoch": 35.21739130434783,
	"grad_norm": 2.896638870239258,
	"learning_rate": 5.91304347826087e-06,
	"loss": 0.4922,
	"step": 810
	},
	{
	"epoch": 35.65217391304348,
	"grad_norm": 2.2342097759246826,
	"learning_rate": 5.739130434782609e-06,
	"loss": 0.4354,
	"step": 820
	},
	{
	"epoch": 36.0,
	"eval_accuracy": 0.7716535433070866,
	"eval_loss": 0.5108994841575623,
	"eval_runtime": 4.9899,
	"eval_samples_per_second": 50.902,
	"eval_steps_per_second": 0.802,
	"step": 828
	},
	{
	"epoch": 36.08695652173913,
	"grad_norm": 8.385408401489258,
	"learning_rate": 5.565217391304348e-06,
	"loss": 0.4585,
	"step": 830
	},
	{
	"epoch": 36.52173913043478,
	"grad_norm": 2.839411497116089,
	"learning_rate": 5.391304347826088e-06,
	"loss": 0.4497,
	"step": 840
	},
	{
	"epoch": 36.95652173913044,
	"grad_norm": 2.479076623916626,
	"learning_rate": 5.2173913043478265e-06,
	"loss": 0.4655,
	"step": 850
	},
	{
	"epoch": 37.0,
	"eval_accuracy": 0.7716535433070866,
	"eval_loss": 0.510716438293457,
	"eval_runtime": 3.6997,
	"eval_samples_per_second": 68.653,
	"eval_steps_per_second": 1.081,
	"step": 851
	},
	{
	"epoch": 37.391304347826086,
	"grad_norm": 2.271686553955078,
	"learning_rate": 5.043478260869565e-06,
	"loss": 0.4462,
	"step": 860
	},
	{
	"epoch": 37.82608695652174,
	"grad_norm": 3.4210402965545654,
	"learning_rate": 4.869565217391305e-06,
	"loss": 0.4691,
	"step": 870
	},
	{
	"epoch": 38.0,
	"eval_accuracy": 0.7677165354330708,
	"eval_loss": 0.5093376636505127,
	"eval_runtime": 3.7287,
	"eval_samples_per_second": 68.119,
	"eval_steps_per_second": 1.073,
	"step": 874
	},
	{
	"epoch": 38.26086956521739,
	"grad_norm": 5.694761276245117,
	"learning_rate": 4.695652173913044e-06,
	"loss": 0.4592,
	"step": 880
	},
	{
	"epoch": 38.69565217391305,
	"grad_norm": 2.2949883937835693,
	"learning_rate": 4.5217391304347826e-06,
	"loss": 0.4826,
	"step": 890
	},
	{
	"epoch": 39.0,
	"eval_accuracy": 0.7716535433070866,
	"eval_loss": 0.5044277906417847,
	"eval_runtime": 4.9781,
	"eval_samples_per_second": 51.024,
	"eval_steps_per_second": 0.804,
	"step": 897
	},
	{
	"epoch": 39.130434782608695,
	"grad_norm": 3.4144210815429688,
	"learning_rate": 4.347826086956522e-06,
	"loss": 0.4407,
	"step": 900
	},
	{
	"epoch": 39.56521739130435,
	"grad_norm": 2.22868013381958,
	"learning_rate": 4.173913043478261e-06,
	"loss": 0.4482,
	"step": 910
	},
	{
	"epoch": 40.0,
	"grad_norm": 3.2193689346313477,
	"learning_rate": 4.000000000000001e-06,
	"loss": 0.4577,
	"step": 920
	},
	{
	"epoch": 40.0,
	"eval_accuracy": 0.7795275590551181,
	"eval_loss": 0.4999626874923706,
	"eval_runtime": 3.6952,
	"eval_samples_per_second": 68.738,
	"eval_steps_per_second": 1.082,
	"step": 920
	},
	{
	"epoch": 40.43478260869565,
	"grad_norm": 4.500718593597412,
	"learning_rate": 3.8260869565217395e-06,
	"loss": 0.4585,
	"step": 930
	},
	{
	"epoch": 40.869565217391305,
	"grad_norm": 1.9281222820281982,
	"learning_rate": 3.6521739130434787e-06,
	"loss": 0.4636,
	"step": 940
	},
	{
	"epoch": 41.0,
	"eval_accuracy": 0.7716535433070866,
	"eval_loss": 0.4962589144706726,
	"eval_runtime": 3.6977,
	"eval_samples_per_second": 68.69,
	"eval_steps_per_second": 1.082,
	"step": 943
	},
	{
	"epoch": 41.30434782608695,
	"grad_norm": 2.193452835083008,
	"learning_rate": 3.4782608695652175e-06,
	"loss": 0.4306,
	"step": 950
	},
	{
	"epoch": 41.73913043478261,
	"grad_norm": 2.2370336055755615,
	"learning_rate": 3.3043478260869567e-06,
	"loss": 0.4361,
	"step": 960
	},
	{
	"epoch": 42.0,
	"eval_accuracy": 0.7716535433070866,
	"eval_loss": 0.4958040118217468,
	"eval_runtime": 4.9548,
	"eval_samples_per_second": 51.264,
	"eval_steps_per_second": 0.807,
	"step": 966
	},
	{
	"epoch": 42.17391304347826,
	"grad_norm": 3.6354355812072754,
	"learning_rate": 3.130434782608696e-06,
	"loss": 0.4514,
	"step": 970
	},
	{
	"epoch": 42.608695652173914,
	"grad_norm": 1.8955118656158447,
	"learning_rate": 2.956521739130435e-06,
	"loss": 0.4534,
	"step": 980
	},
	{
	"epoch": 43.0,
	"eval_accuracy": 0.7795275590551181,
	"eval_loss": 0.5007808208465576,
	"eval_runtime": 3.7121,
	"eval_samples_per_second": 68.424,
	"eval_steps_per_second": 1.078,
	"step": 989
	},
	{
	"epoch": 43.04347826086956,
	"grad_norm": 2.2034902572631836,
	"learning_rate": 2.782608695652174e-06,
	"loss": 0.4176,
	"step": 990
	},
	{
	"epoch": 43.47826086956522,
	"grad_norm": 4.387076377868652,
	"learning_rate": 2.6086956521739132e-06,
	"loss": 0.4748,
	"step": 1000
	},
	{
	"epoch": 43.91304347826087,
	"grad_norm": 5.444644927978516,
	"learning_rate": 2.4347826086956525e-06,
	"loss": 0.4559,
	"step": 1010
	},
	{
	"epoch": 44.0,
	"eval_accuracy": 0.7795275590551181,
	"eval_loss": 0.5025174021720886,
	"eval_runtime": 3.7093,
	"eval_samples_per_second": 68.476,
	"eval_steps_per_second": 1.078,
	"step": 1012
	},
	{
	"epoch": 44.34782608695652,
	"grad_norm": 2.2067017555236816,
	"learning_rate": 2.2608695652173913e-06,
	"loss": 0.4882,
	"step": 1020
	},
	{
	"epoch": 44.78260869565217,
	"grad_norm": 3.562736988067627,
	"learning_rate": 2.0869565217391305e-06,
	"loss": 0.4189,
	"step": 1030
	},
	{
	"epoch": 45.0,
	"eval_accuracy": 0.7755905511811023,
	"eval_loss": 0.5014046430587769,
	"eval_runtime": 4.9992,
	"eval_samples_per_second": 50.808,
	"eval_steps_per_second": 0.8,
	"step": 1035
	},
	{
	"epoch": 45.21739130434783,
	"grad_norm": 10.402663230895996,
	"learning_rate": 1.9130434782608697e-06,
	"loss": 0.4432,
	"step": 1040
	},
	{
	"epoch": 45.65217391304348,
	"grad_norm": 4.949878215789795,
	"learning_rate": 1.7391304347826088e-06,
	"loss": 0.4861,
	"step": 1050
	},
	{
	"epoch": 46.0,
	"eval_accuracy": 0.7677165354330708,
	"eval_loss": 0.5003762245178223,
	"eval_runtime": 3.7019,
	"eval_samples_per_second": 68.614,
	"eval_steps_per_second": 1.081,
	"step": 1058
	},
	{
	"epoch": 46.08695652173913,
	"grad_norm": 1.938593864440918,
	"learning_rate": 1.565217391304348e-06,
	"loss": 0.4326,
	"step": 1060
	},
	{
	"epoch": 46.52173913043478,
	"grad_norm": 3.236699342727661,
	"learning_rate": 1.391304347826087e-06,
	"loss": 0.4726,
	"step": 1070
	},
	{
	"epoch": 46.95652173913044,
	"grad_norm": 3.047184944152832,
	"learning_rate": 1.2173913043478262e-06,
	"loss": 0.4709,
	"step": 1080
	},
	{
	"epoch": 47.0,
	"eval_accuracy": 0.7795275590551181,
	"eval_loss": 0.5004997849464417,
	"eval_runtime": 3.7143,
	"eval_samples_per_second": 68.384,
	"eval_steps_per_second": 1.077,
	"step": 1081
	},
	{
	"epoch": 47.391304347826086,
	"grad_norm": 2.8639461994171143,
	"learning_rate": 1.0434782608695653e-06,
	"loss": 0.4649,
	"step": 1090
	},
	{
	"epoch": 47.82608695652174,
	"grad_norm": 3.7704715728759766,
	"learning_rate": 8.695652173913044e-07,
	"loss": 0.4726,
	"step": 1100
	},
	{
	"epoch": 48.0,
	"eval_accuracy": 0.7716535433070866,
	"eval_loss": 0.5007592439651489,
	"eval_runtime": 4.8498,
	"eval_samples_per_second": 52.373,
	"eval_steps_per_second": 0.825,
	"step": 1104
	},
	{
	"epoch": 48.26086956521739,
	"grad_norm": 4.941337585449219,
	"learning_rate": 6.956521739130435e-07,
	"loss": 0.4314,
	"step": 1110
	},
	{
	"epoch": 48.69565217391305,
	"grad_norm": 3.2265655994415283,
	"learning_rate": 5.217391304347826e-07,
	"loss": 0.4441,
	"step": 1120
	},
	{
	"epoch": 49.0,
	"eval_accuracy": 0.7755905511811023,
	"eval_loss": 0.4987953305244446,
	"eval_runtime": 3.6681,
	"eval_samples_per_second": 69.246,
	"eval_steps_per_second": 1.09,
	"step": 1127
	},
	{
	"epoch": 49.130434782608695,
	"grad_norm": 3.7678611278533936,
	"learning_rate": 3.4782608695652175e-07,
	"loss": 0.4571,
	"step": 1130
	},
	{
	"epoch": 49.56521739130435,
	"grad_norm": 3.657460927963257,
	"learning_rate": 1.7391304347826088e-07,
	"loss": 0.4558,
	"step": 1140
	},
	{
	"epoch": 50.0,
	"grad_norm": 3.096832513809204,
	"learning_rate": 0.0,
	"loss": 0.4579,
	"step": 1150
	},
	{
	"epoch": 50.0,
	"eval_accuracy": 0.7755905511811023,
	"eval_loss": 0.499985009431839,
	"eval_runtime": 3.8189,
	"eval_samples_per_second": 66.512,
	"eval_steps_per_second": 1.047,
	"step": 1150
	},
	{
	"epoch": 50.43478260869565,
	"grad_norm": 2.7469470500946045,
	"learning_rate": 1.4956521739130436e-05,
	"loss": 0.4877,
	"step": 1160
	},
	{
	"epoch": 50.869565217391305,
	"grad_norm": 2.5254504680633545,
	"learning_rate": 1.491304347826087e-05,
	"loss": 0.4366,
	"step": 1170
	},
	{
	"epoch": 51.0,
	"eval_accuracy": 0.7755905511811023,
	"eval_loss": 0.497986376285553,
	"eval_runtime": 3.9676,
	"eval_samples_per_second": 64.019,
	"eval_steps_per_second": 0.504,
	"step": 1173
	},
	{
	"epoch": 51.30434782608695,
	"grad_norm": 2.032457113265991,
	"learning_rate": 1.4869565217391306e-05,
	"loss": 0.4663,
	"step": 1180
	},
	{
	"epoch": 51.73913043478261,
	"grad_norm": 2.802882432937622,
	"learning_rate": 1.4826086956521741e-05,
	"loss": 0.4467,
	"step": 1190
	},
	{
	"epoch": 52.0,
	"eval_accuracy": 0.7795275590551181,
	"eval_loss": 0.49471431970596313,
	"eval_runtime": 4.8494,
	"eval_samples_per_second": 52.378,
	"eval_steps_per_second": 0.412,
	"step": 1196
	},
	{
	"epoch": 52.17391304347826,
	"grad_norm": 2.2359466552734375,
	"learning_rate": 1.4782608695652174e-05,
	"loss": 0.4424,
	"step": 1200
	},
	{
	"epoch": 52.608695652173914,
	"grad_norm": 3.219308376312256,
	"learning_rate": 1.473913043478261e-05,
	"loss": 0.4797,
	"step": 1210
	},
	{
	"epoch": 53.0,
	"eval_accuracy": 0.7755905511811023,
	"eval_loss": 0.4950390160083771,
	"eval_runtime": 3.8997,
	"eval_samples_per_second": 65.133,
	"eval_steps_per_second": 0.513,
	"step": 1219
	},
	{
	"epoch": 53.04347826086956,
	"grad_norm": 2.6939969062805176,
	"learning_rate": 1.4695652173913045e-05,
	"loss": 0.4256,
	"step": 1220
	},
	{
	"epoch": 53.47826086956522,
	"grad_norm": 2.6343085765838623,
	"learning_rate": 1.465217391304348e-05,
	"loss": 0.4192,
	"step": 1230
	},
	{
	"epoch": 53.91304347826087,
	"grad_norm": 10.655885696411133,
	"learning_rate": 1.4608695652173915e-05,
	"loss": 0.4544,
	"step": 1240
	},
	{
	"epoch": 54.0,
	"eval_accuracy": 0.7716535433070866,
	"eval_loss": 0.49978330731391907,
	"eval_runtime": 3.7833,
	"eval_samples_per_second": 67.137,
	"eval_steps_per_second": 0.529,
	"step": 1242
	},
	{
	"epoch": 54.34782608695652,
	"grad_norm": 4.838284969329834,
	"learning_rate": 1.456521739130435e-05,
	"loss": 0.4361,
	"step": 1250
	},
	{
	"epoch": 54.78260869565217,
	"grad_norm": 3.1171820163726807,
	"learning_rate": 1.4521739130434785e-05,
	"loss": 0.4466,
	"step": 1260
	},
	{
	"epoch": 55.0,
	"eval_accuracy": 0.7795275590551181,
	"eval_loss": 0.49803978204727173,
	"eval_runtime": 3.7735,
	"eval_samples_per_second": 67.311,
	"eval_steps_per_second": 0.53,
	"step": 1265
	},
	{
	"epoch": 55.21739130434783,
	"grad_norm": 2.5744450092315674,
	"learning_rate": 1.447826086956522e-05,
	"loss": 0.4511,
	"step": 1270
	},
	{
	"epoch": 55.65217391304348,
	"grad_norm": 7.211576461791992,
	"learning_rate": 1.4434782608695654e-05,
	"loss": 0.4599,
	"step": 1280
	},
	{
	"epoch": 56.0,
	"eval_accuracy": 0.7834645669291339,
	"eval_loss": 0.4962967336177826,
	"eval_runtime": 4.8613,
	"eval_samples_per_second": 52.249,
	"eval_steps_per_second": 0.411,
	"step": 1288
	},
	{
	"epoch": 56.08695652173913,
	"grad_norm": 1.932460069656372,
	"learning_rate": 1.4391304347826087e-05,
	"loss": 0.4168,
	"step": 1290
	},
	{
	"epoch": 56.52173913043478,
	"grad_norm": 5.841196537017822,
	"learning_rate": 1.4347826086956522e-05,
	"loss": 0.4622,
	"step": 1300
	},
	{
	"epoch": 56.95652173913044,
	"grad_norm": 1.948188066482544,
	"learning_rate": 1.4304347826086957e-05,
	"loss": 0.4458,
	"step": 1310
	},
	{
	"epoch": 57.0,
	"eval_accuracy": 0.7874015748031497,
	"eval_loss": 0.49557480216026306,
	"eval_runtime": 3.6949,
	"eval_samples_per_second": 68.744,
	"eval_steps_per_second": 0.541,
	"step": 1311
	},
	{
	"epoch": 57.391304347826086,
	"grad_norm": 4.304020881652832,
	"learning_rate": 1.4260869565217392e-05,
	"loss": 0.4378,
	"step": 1320
	},
	{
	"epoch": 57.82608695652174,
	"grad_norm": 2.710130453109741,
	"learning_rate": 1.4217391304347828e-05,
	"loss": 0.4296,
	"step": 1330
	},
	{
	"epoch": 58.0,
	"eval_accuracy": 0.7874015748031497,
	"eval_loss": 0.49939388036727905,
	"eval_runtime": 3.7356,
	"eval_samples_per_second": 67.995,
	"eval_steps_per_second": 0.535,
	"step": 1334
	},
	{
	"epoch": 58.26086956521739,
	"grad_norm": 3.730140209197998,
	"learning_rate": 1.4173913043478263e-05,
	"loss": 0.4664,
	"step": 1340
	},
	{
	"epoch": 58.69565217391305,
	"grad_norm": 9.71405029296875,
	"learning_rate": 1.4130434782608698e-05,
	"loss": 0.4415,
	"step": 1350
	},
	{
	"epoch": 59.0,
	"eval_accuracy": 0.7834645669291339,
	"eval_loss": 0.4997561573982239,
	"eval_runtime": 4.9859,
	"eval_samples_per_second": 50.943,
	"eval_steps_per_second": 0.401,
	"step": 1357
	},
	{
	"epoch": 59.130434782608695,
	"grad_norm": 2.7752935886383057,
	"learning_rate": 1.4086956521739133e-05,
	"loss": 0.4436,
	"step": 1360
	},
	{
	"epoch": 59.56521739130435,
	"grad_norm": 4.0491251945495605,
	"learning_rate": 1.4043478260869568e-05,
	"loss": 0.4442,
	"step": 1370
	},
	{
	"epoch": 60.0,
	"grad_norm": 3.6015145778656006,
	"learning_rate": 1.4e-05,
	"loss": 0.4036,
	"step": 1380
	},
	{
	"epoch": 60.0,
	"eval_accuracy": 0.7795275590551181,
	"eval_loss": 0.4996122717857361,
	"eval_runtime": 3.8039,
	"eval_samples_per_second": 66.774,
	"eval_steps_per_second": 0.526,
	"step": 1380
	},
	{
	"epoch": 60.43478260869565,
	"grad_norm": 2.5297908782958984,
	"learning_rate": 1.3956521739130435e-05,
	"loss": 0.4364,
	"step": 1390
	},
	{
	"epoch": 60.869565217391305,
	"grad_norm": 2.8682429790496826,
	"learning_rate": 1.391304347826087e-05,
	"loss": 0.4406,
	"step": 1400
	},
	{
	"epoch": 61.0,
	"eval_accuracy": 0.7913385826771654,
	"eval_loss": 0.5022182464599609,
	"eval_runtime": 3.7333,
	"eval_samples_per_second": 68.036,
	"eval_steps_per_second": 0.536,
	"step": 1403
	},
	{
	"epoch": 61.30434782608695,
	"grad_norm": 3.3014872074127197,
	"learning_rate": 1.3869565217391305e-05,
	"loss": 0.4346,
	"step": 1410
	},
	{
	"epoch": 61.73913043478261,
	"grad_norm": 3.4654860496520996,
	"learning_rate": 1.382608695652174e-05,
	"loss": 0.4235,
	"step": 1420
	},
	{
	"epoch": 62.0,
	"eval_accuracy": 0.7913385826771654,
	"eval_loss": 0.5018435120582581,
	"eval_runtime": 4.9797,
	"eval_samples_per_second": 51.007,
	"eval_steps_per_second": 0.402,
	"step": 1426
	},
	{
	"epoch": 62.17391304347826,
	"grad_norm": 6.609365940093994,
	"learning_rate": 1.3782608695652175e-05,
	"loss": 0.4884,
	"step": 1430
	},
	{
	"epoch": 62.608695652173914,
	"grad_norm": 3.425076484680176,
	"learning_rate": 1.373913043478261e-05,
	"loss": 0.4492,
	"step": 1440
	},
	{
	"epoch": 63.0,
	"eval_accuracy": 0.8031496062992126,
	"eval_loss": 0.4963783323764801,
	"eval_runtime": 3.7677,
	"eval_samples_per_second": 67.416,
	"eval_steps_per_second": 0.531,
	"step": 1449
	},
	{
	"epoch": 63.04347826086956,
	"grad_norm": 4.069096088409424,
	"learning_rate": 1.3695652173913046e-05,
	"loss": 0.4119,
	"step": 1450
	},
	{
	"epoch": 63.47826086956522,
	"grad_norm": 2.3584377765655518,
	"learning_rate": 1.3652173913043479e-05,
	"loss": 0.4356,
	"step": 1460
	},
	{
	"epoch": 63.91304347826087,
	"grad_norm": 12.776151657104492,
	"learning_rate": 1.3608695652173913e-05,
	"loss": 0.4065,
	"step": 1470
	},
	{
	"epoch": 64.0,
	"eval_accuracy": 0.7874015748031497,
	"eval_loss": 0.4952879250049591,
	"eval_runtime": 3.7751,
	"eval_samples_per_second": 67.284,
	"eval_steps_per_second": 0.53,
	"step": 1472
	},
	{
	"epoch": 64.34782608695652,
	"grad_norm": 2.501909017562866,
	"learning_rate": 1.3565217391304348e-05,
	"loss": 0.4356,
	"step": 1480
	},
	{
	"epoch": 64.78260869565217,
	"grad_norm": 2.650075674057007,
	"learning_rate": 1.3521739130434783e-05,
	"loss": 0.4474,
	"step": 1490
	},
	{
	"epoch": 65.0,
	"eval_accuracy": 0.7913385826771654,
	"eval_loss": 0.4896911084651947,
	"eval_runtime": 5.1494,
	"eval_samples_per_second": 49.326,
	"eval_steps_per_second": 0.388,
	"step": 1495
	},
	{
	"epoch": 65.21739130434783,
	"grad_norm": 4.465973854064941,
	"learning_rate": 1.3478260869565218e-05,
	"loss": 0.4246,
	"step": 1500
	},
	{
	"epoch": 65.65217391304348,
	"grad_norm": 2.057035207748413,
	"learning_rate": 1.3434782608695653e-05,
	"loss": 0.4605,
	"step": 1510
	},
	{
	"epoch": 66.0,
	"eval_accuracy": 0.7795275590551181,
	"eval_loss": 0.5039426684379578,
	"eval_runtime": 3.7424,
	"eval_samples_per_second": 67.871,
	"eval_steps_per_second": 0.534,
	"step": 1518
	},
	{
	"epoch": 66.08695652173913,
	"grad_norm": 3.064012050628662,
	"learning_rate": 1.3391304347826088e-05,
	"loss": 0.4157,
	"step": 1520
	},
	{
	"epoch": 66.52173913043478,
	"grad_norm": 3.7584011554718018,
	"learning_rate": 1.3347826086956523e-05,
	"loss": 0.4553,
	"step": 1530
	},
	{
	"epoch": 66.95652173913044,
	"grad_norm": 2.945054054260254,
	"learning_rate": 1.3304347826086958e-05,
	"loss": 0.436,
	"step": 1540
	},
	{
	"epoch": 67.0,
	"eval_accuracy": 0.7755905511811023,
	"eval_loss": 0.5024412274360657,
	"eval_runtime": 3.7621,
	"eval_samples_per_second": 67.516,
	"eval_steps_per_second": 0.532,
	"step": 1541
	},
	{
	"epoch": 67.3913043478261,
	"grad_norm": 3.1257166862487793,
	"learning_rate": 1.3260869565217392e-05,
	"loss": 0.4173,
	"step": 1550
	},
	{
	"epoch": 67.82608695652173,
	"grad_norm": 5.225259304046631,
	"learning_rate": 1.3217391304347827e-05,
	"loss": 0.4746,
	"step": 1560
	},
	{
	"epoch": 68.0,
	"eval_accuracy": 0.7874015748031497,
	"eval_loss": 0.5006521344184875,
	"eval_runtime": 5.0155,
	"eval_samples_per_second": 50.643,
	"eval_steps_per_second": 0.399,
	"step": 1564
	},
	{
	"epoch": 68.26086956521739,
	"grad_norm": 3.3438003063201904,
	"learning_rate": 1.3173913043478262e-05,
	"loss": 0.3957,
	"step": 1570
	},
	{
	"epoch": 68.69565217391305,
	"grad_norm": 2.6640641689300537,
	"learning_rate": 1.3130434782608697e-05,
	"loss": 0.4555,
	"step": 1580
	},
	{
	"epoch": 69.0,
	"eval_accuracy": 0.7874015748031497,
	"eval_loss": 0.5053796172142029,
	"eval_runtime": 3.7207,
	"eval_samples_per_second": 68.266,
	"eval_steps_per_second": 0.538,
	"step": 1587
	},
	{
	"epoch": 69.1304347826087,
	"grad_norm": 6.726771831512451,
	"learning_rate": 1.308695652173913e-05,
	"loss": 0.4322,
	"step": 1590
	},
	{
	"epoch": 69.56521739130434,
	"grad_norm": 3.231029748916626,
	"learning_rate": 1.3043478260869566e-05,
	"loss": 0.3949,
	"step": 1600
	},
	{
	"epoch": 70.0,
	"grad_norm": 6.560612201690674,
	"learning_rate": 1.3000000000000001e-05,
	"loss": 0.433,
	"step": 1610
	},
	{
	"epoch": 70.0,
	"eval_accuracy": 0.7874015748031497,
	"eval_loss": 0.49738696217536926,
	"eval_runtime": 3.716,
	"eval_samples_per_second": 68.353,
	"eval_steps_per_second": 0.538,
	"step": 1610
	},
	{
	"epoch": 70.43478260869566,
	"grad_norm": 2.6361474990844727,
	"learning_rate": 1.2956521739130436e-05,
	"loss": 0.4158,
	"step": 1620
	},
	{
	"epoch": 70.8695652173913,
	"grad_norm": 2.7182960510253906,
	"learning_rate": 1.2913043478260871e-05,
	"loss": 0.4503,
	"step": 1630
	},
	{
	"epoch": 71.0,
	"eval_accuracy": 0.7795275590551181,
	"eval_loss": 0.509588897228241,
	"eval_runtime": 5.0488,
	"eval_samples_per_second": 50.309,
	"eval_steps_per_second": 0.396,
	"step": 1633
	},
	{
	"epoch": 71.30434782608695,
	"grad_norm": 1.938330888748169,
	"learning_rate": 1.2869565217391305e-05,
	"loss": 0.4285,
	"step": 1640
	},
	{
	"epoch": 71.73913043478261,
	"grad_norm": 3.1797378063201904,
	"learning_rate": 1.282608695652174e-05,
	"loss": 0.4424,
	"step": 1650
	},
	{
	"epoch": 72.0,
	"eval_accuracy": 0.7755905511811023,
	"eval_loss": 0.5040333867073059,
	"eval_runtime": 3.7598,
	"eval_samples_per_second": 67.557,
	"eval_steps_per_second": 0.532,
	"step": 1656
	},
	{
	"epoch": 72.17391304347827,
	"grad_norm": 3.028841257095337,
	"learning_rate": 1.2782608695652175e-05,
	"loss": 0.4278,
	"step": 1660
	},
	{
	"epoch": 72.6086956521739,
	"grad_norm": 3.0137178897857666,
	"learning_rate": 1.273913043478261e-05,
	"loss": 0.4331,
	"step": 1670
	},
	{
	"epoch": 73.0,
	"eval_accuracy": 0.7913385826771654,
	"eval_loss": 0.505591869354248,
	"eval_runtime": 3.7202,
	"eval_samples_per_second": 68.277,
	"eval_steps_per_second": 0.538,
	"step": 1679
	},
	{
	"epoch": 73.04347826086956,
	"grad_norm": 3.519934892654419,
	"learning_rate": 1.2695652173913045e-05,
	"loss": 0.4523,
	"step": 1680
	},
	{
	"epoch": 73.47826086956522,
	"grad_norm": 2.6839394569396973,
	"learning_rate": 1.265217391304348e-05,
	"loss": 0.4143,
	"step": 1690
	},
	{
	"epoch": 73.91304347826087,
	"grad_norm": 4.223355770111084,
	"learning_rate": 1.2608695652173915e-05,
	"loss": 0.4263,
	"step": 1700
	},
	{
	"epoch": 74.0,
	"eval_accuracy": 0.7874015748031497,
	"eval_loss": 0.5025500059127808,
	"eval_runtime": 5.0354,
	"eval_samples_per_second": 50.442,
	"eval_steps_per_second": 0.397,
	"step": 1702
	},
	{
	"epoch": 74.34782608695652,
	"grad_norm": 2.633610248565674,
	"learning_rate": 1.2565217391304349e-05,
	"loss": 0.4451,
	"step": 1710
	},
	{
	"epoch": 74.78260869565217,
	"grad_norm": 4.227041721343994,
	"learning_rate": 1.2521739130434784e-05,
	"loss": 0.4305,
	"step": 1720
	},
	{
	"epoch": 75.0,
	"eval_accuracy": 0.7834645669291339,
	"eval_loss": 0.5032832026481628,
	"eval_runtime": 3.7074,
	"eval_samples_per_second": 68.512,
	"eval_steps_per_second": 0.539,
	"step": 1725
	},
	{
	"epoch": 75.21739130434783,
	"grad_norm": 3.885732412338257,
	"learning_rate": 1.2478260869565217e-05,
	"loss": 0.4177,
	"step": 1730
	},
	{
	"epoch": 75.65217391304348,
	"grad_norm": 6.669870853424072,
	"learning_rate": 1.2434782608695652e-05,
	"loss": 0.4271,
	"step": 1740
	},
	{
	"epoch": 76.0,
	"eval_accuracy": 0.7874015748031497,
	"eval_loss": 0.5014809966087341,
	"eval_runtime": 3.6911,
	"eval_samples_per_second": 68.814,
	"eval_steps_per_second": 0.542,
	"step": 1748
	},
	{
	"epoch": 76.08695652173913,
	"grad_norm": 1.820388913154602,
	"learning_rate": 1.2391304347826088e-05,
	"loss": 0.4457,
	"step": 1750
	},
	{
	"epoch": 76.52173913043478,
	"grad_norm": 2.142805337905884,
	"learning_rate": 1.2347826086956523e-05,
	"loss": 0.3962,
	"step": 1760
	},
	{
	"epoch": 76.95652173913044,
	"grad_norm": 3.5151073932647705,
	"learning_rate": 1.2304347826086958e-05,
	"loss": 0.4635,
	"step": 1770
	},
	{
	"epoch": 77.0,
	"eval_accuracy": 0.7913385826771654,
	"eval_loss": 0.49884113669395447,
	"eval_runtime": 4.3354,
	"eval_samples_per_second": 58.587,
	"eval_steps_per_second": 0.461,
	"step": 1771
	},
	{
	"epoch": 77.3913043478261,
	"grad_norm": 3.867955207824707,
	"learning_rate": 1.2260869565217393e-05,
	"loss": 0.4616,
	"step": 1780
	},
	{
	"epoch": 77.82608695652173,
	"grad_norm": 2.6050870418548584,
	"learning_rate": 1.2217391304347828e-05,
	"loss": 0.4212,
	"step": 1790
	},
	{
	"epoch": 78.0,
	"eval_accuracy": 0.7913385826771654,
	"eval_loss": 0.4993511438369751,
	"eval_runtime": 4.267,
	"eval_samples_per_second": 59.527,
	"eval_steps_per_second": 0.469,
	"step": 1794
	},
	{
	"epoch": 78.26086956521739,
	"grad_norm": 2.1961538791656494,
	"learning_rate": 1.2173913043478263e-05,
	"loss": 0.4191,
	"step": 1800
	},
	{
	"epoch": 78.69565217391305,
	"grad_norm": 6.02454948425293,
	"learning_rate": 1.2130434782608698e-05,
	"loss": 0.4154,
	"step": 1810
	},
	{
	"epoch": 79.0,
	"eval_accuracy": 0.7874015748031497,
	"eval_loss": 0.5044043660163879,
	"eval_runtime": 3.7036,
	"eval_samples_per_second": 68.581,
	"eval_steps_per_second": 0.54,
	"step": 1817
	},
	{
	"epoch": 79.1304347826087,
	"grad_norm": 2.1048858165740967,
	"learning_rate": 1.208695652173913e-05,
	"loss": 0.4196,
	"step": 1820
	},
	{
	"epoch": 79.56521739130434,
	"grad_norm": 2.8622193336486816,
	"learning_rate": 1.2043478260869565e-05,
	"loss": 0.4314,
	"step": 1830
	},
	{
	"epoch": 80.0,
	"grad_norm": 6.1558427810668945,
	"learning_rate": 1.2e-05,
	"loss": 0.4288,
	"step": 1840
	},
	{
	"epoch": 80.0,
	"eval_accuracy": 0.7913385826771654,
	"eval_loss": 0.5033003687858582,
	"eval_runtime": 3.7575,
	"eval_samples_per_second": 67.598,
	"eval_steps_per_second": 0.532,
	"step": 1840
	},
	{
	"epoch": 80.43478260869566,
	"grad_norm": 3.3254945278167725,
	"learning_rate": 1.1956521739130435e-05,
	"loss": 0.4297,
	"step": 1850
	},
	{
	"epoch": 80.8695652173913,
	"grad_norm": 2.2818620204925537,
	"learning_rate": 1.191304347826087e-05,
	"loss": 0.4211,
	"step": 1860
	},
	{
	"epoch": 81.0,
	"eval_accuracy": 0.7834645669291339,
	"eval_loss": 0.5050157904624939,
	"eval_runtime": 5.0113,
	"eval_samples_per_second": 50.685,
	"eval_steps_per_second": 0.399,
	"step": 1863
	},
	{
	"epoch": 81.30434782608695,
	"grad_norm": 4.174459934234619,
	"learning_rate": 1.1869565217391306e-05,
	"loss": 0.4229,
	"step": 1870
	},
	{
	"epoch": 81.73913043478261,
	"grad_norm": 2.87514066696167,
	"learning_rate": 1.182608695652174e-05,
	"loss": 0.4022,
	"step": 1880
	},
	{
	"epoch": 82.0,
	"eval_accuracy": 0.7834645669291339,
	"eval_loss": 0.5021248459815979,
	"eval_runtime": 3.7629,
	"eval_samples_per_second": 67.5,
	"eval_steps_per_second": 0.531,
	"step": 1886
	},
	{
	"epoch": 82.17391304347827,
	"grad_norm": 5.307149410247803,
	"learning_rate": 1.1782608695652176e-05,
	"loss": 0.4564,
	"step": 1890
	},
	{
	"epoch": 82.6086956521739,
	"grad_norm": 4.411511421203613,
	"learning_rate": 1.1739130434782611e-05,
	"loss": 0.4477,
	"step": 1900
	},
	{
	"epoch": 83.0,
	"eval_accuracy": 0.7755905511811023,
	"eval_loss": 0.509568452835083,
	"eval_runtime": 5.3605,
	"eval_samples_per_second": 47.384,
	"eval_steps_per_second": 0.373,
	"step": 1909
	},
	{
	"epoch": 83.04347826086956,
	"grad_norm": 2.478482246398926,
	"learning_rate": 1.1695652173913043e-05,
	"loss": 0.4118,
	"step": 1910
	},
	{
	"epoch": 83.47826086956522,
	"grad_norm": 2.000185012817383,
	"learning_rate": 1.1652173913043478e-05,
	"loss": 0.4486,
	"step": 1920
	},
	{
	"epoch": 83.91304347826087,
	"grad_norm": 4.231175422668457,
	"learning_rate": 1.1608695652173913e-05,
	"loss": 0.4091,
	"step": 1930
	},
	{
	"epoch": 84.0,
	"eval_accuracy": 0.7913385826771654,
	"eval_loss": 0.501672625541687,
	"eval_runtime": 4.6714,
	"eval_samples_per_second": 54.374,
	"eval_steps_per_second": 0.428,
	"step": 1932
	},
	{
	"epoch": 84.34782608695652,
	"grad_norm": 8.062799453735352,
	"learning_rate": 1.1565217391304348e-05,
	"loss": 0.4108,
	"step": 1940
	},
	{
	"epoch": 84.78260869565217,
	"grad_norm": 3.525912046432495,
	"learning_rate": 1.1521739130434783e-05,
	"loss": 0.4284,
	"step": 1950
	},
	{
	"epoch": 85.0,
	"eval_accuracy": 0.7795275590551181,
	"eval_loss": 0.5094006061553955,
	"eval_runtime": 3.7057,
	"eval_samples_per_second": 68.544,
	"eval_steps_per_second": 0.54,
	"step": 1955
	},
	{
	"epoch": 85.21739130434783,
	"grad_norm": 2.8294172286987305,
	"learning_rate": 1.1478260869565218e-05,
	"loss": 0.4341,
	"step": 1960
	},
	{
	"epoch": 85.65217391304348,
	"grad_norm": 2.6164603233337402,
	"learning_rate": 1.1434782608695654e-05,
	"loss": 0.4317,
	"step": 1970
	},
	{
	"epoch": 86.0,
	"eval_accuracy": 0.7874015748031497,
	"eval_loss": 0.5055702328681946,
	"eval_runtime": 3.78,
	"eval_samples_per_second": 67.195,
	"eval_steps_per_second": 0.529,
	"step": 1978
	},
	{
	"epoch": 86.08695652173913,
	"grad_norm": 5.29531717300415,
	"learning_rate": 1.1391304347826089e-05,
	"loss": 0.3842,
	"step": 1980
	},
	{
	"epoch": 86.52173913043478,
	"grad_norm": 3.8016159534454346,
	"learning_rate": 1.1347826086956524e-05,
	"loss": 0.4294,
	"step": 1990
	},
	{
	"epoch": 86.95652173913044,
	"grad_norm": 2.229055643081665,
	"learning_rate": 1.1304347826086957e-05,
	"loss": 0.4011,
	"step": 2000
	},
	{
	"epoch": 87.0,
	"eval_accuracy": 0.7952755905511811,
	"eval_loss": 0.4991566836833954,
	"eval_runtime": 4.9616,
	"eval_samples_per_second": 51.194,
	"eval_steps_per_second": 0.403,
	"step": 2001
	},
	{
	"epoch": 87.3913043478261,
	"grad_norm": 4.449975490570068,
	"learning_rate": 1.1260869565217392e-05,
	"loss": 0.4413,
	"step": 2010
	},
	{
	"epoch": 87.82608695652173,
	"grad_norm": 3.4843342304229736,
	"learning_rate": 1.1217391304347827e-05,
	"loss": 0.4043,
	"step": 2020
	},
	{
	"epoch": 88.0,
	"eval_accuracy": 0.7874015748031497,
	"eval_loss": 0.5106358528137207,
	"eval_runtime": 3.759,
	"eval_samples_per_second": 67.571,
	"eval_steps_per_second": 0.532,
	"step": 2024
	},
	{
	"epoch": 88.26086956521739,
	"grad_norm": 3.2311477661132812,
	"learning_rate": 1.1173913043478261e-05,
	"loss": 0.4127,
	"step": 2030
	},
	{
	"epoch": 88.69565217391305,
	"grad_norm": 3.511033058166504,
	"learning_rate": 1.1130434782608696e-05,
	"loss": 0.4233,
	"step": 2040
	},
	{
	"epoch": 89.0,
	"eval_accuracy": 0.7834645669291339,
	"eval_loss": 0.5082967877388,
	"eval_runtime": 3.7279,
	"eval_samples_per_second": 68.135,
	"eval_steps_per_second": 0.536,
	"step": 2047
	},
	{
	"epoch": 89.1304347826087,
	"grad_norm": 3.1737847328186035,
	"learning_rate": 1.1086956521739131e-05,
	"loss": 0.4449,
	"step": 2050
	},
	{
	"epoch": 89.56521739130434,
	"grad_norm": 3.3332552909851074,
	"learning_rate": 1.1043478260869566e-05,
	"loss": 0.4148,
	"step": 2060
	},
	{
	"epoch": 90.0,
	"grad_norm": 5.011209487915039,
	"learning_rate": 1.1000000000000001e-05,
	"loss": 0.4383,
	"step": 2070
	},
	{
	"epoch": 90.0,
	"eval_accuracy": 0.7913385826771654,
	"eval_loss": 0.5015798211097717,
	"eval_runtime": 5.0126,
	"eval_samples_per_second": 50.672,
	"eval_steps_per_second": 0.399,
	"step": 2070
	},
	{
	"epoch": 90.43478260869566,
	"grad_norm": 2.4368808269500732,
	"learning_rate": 1.0956521739130435e-05,
	"loss": 0.4133,
	"step": 2080
	},
	{
	"epoch": 90.8695652173913,
	"grad_norm": 5.885110378265381,
	"learning_rate": 1.091304347826087e-05,
	"loss": 0.4328,
	"step": 2090
	},
	{
	"epoch": 91.0,
	"eval_accuracy": 0.7874015748031497,
	"eval_loss": 0.5062097311019897,
	"eval_runtime": 3.7299,
	"eval_samples_per_second": 68.098,
	"eval_steps_per_second": 0.536,
	"step": 2093
	},
	{
	"epoch": 91.30434782608695,
	"grad_norm": 2.2072901725769043,
	"learning_rate": 1.0869565217391305e-05,
	"loss": 0.4137,
	"step": 2100
	},
	{
	"epoch": 91.73913043478261,
	"grad_norm": 1.9848076105117798,
	"learning_rate": 1.082608695652174e-05,
	"loss": 0.3978,
	"step": 2110
	},
	{
	"epoch": 92.0,
	"eval_accuracy": 0.7874015748031497,
	"eval_loss": 0.5026075839996338,
	"eval_runtime": 3.7759,
	"eval_samples_per_second": 67.268,
	"eval_steps_per_second": 0.53,
	"step": 2116
	},
	{
	"epoch": 92.17391304347827,
	"grad_norm": 3.738398313522339,
	"learning_rate": 1.0782608695652175e-05,
	"loss": 0.4459,
	"step": 2120
	},
	{
	"epoch": 92.6086956521739,
	"grad_norm": 3.0096168518066406,
	"learning_rate": 1.073913043478261e-05,
	"loss": 0.4052,
	"step": 2130
	},
	{
	"epoch": 93.0,
	"eval_accuracy": 0.7913385826771654,
	"eval_loss": 0.49642127752304077,
	"eval_runtime": 5.0236,
	"eval_samples_per_second": 50.562,
	"eval_steps_per_second": 0.398,
	"step": 2139
	},
	{
	"epoch": 93.04347826086956,
	"grad_norm": 3.7452170848846436,
	"learning_rate": 1.0695652173913046e-05,
	"loss": 0.4205,
	"step": 2140
	},
	{
	"epoch": 93.47826086956522,
	"grad_norm": 3.8985049724578857,
	"learning_rate": 1.0652173913043479e-05,
	"loss": 0.4171,
	"step": 2150
	},
	{
	"epoch": 93.91304347826087,
	"grad_norm": 2.283020496368408,
	"learning_rate": 1.0608695652173914e-05,
	"loss": 0.3938,
	"step": 2160
	},
	{
	"epoch": 94.0,
	"eval_accuracy": 0.7874015748031497,
	"eval_loss": 0.5036487579345703,
	"eval_runtime": 3.7298,
	"eval_samples_per_second": 68.101,
	"eval_steps_per_second": 0.536,
	"step": 2162
	},
	{
	"epoch": 94.34782608695652,
	"grad_norm": 7.054046630859375,
	"learning_rate": 1.0565217391304348e-05,
	"loss": 0.4336,
	"step": 2170
	},
	{
	"epoch": 94.78260869565217,
	"grad_norm": 3.131002902984619,
	"learning_rate": 1.0521739130434783e-05,
	"loss": 0.393,
	"step": 2180
	},
	{
	"epoch": 95.0,
	"eval_accuracy": 0.7834645669291339,
	"eval_loss": 0.5102458596229553,
	"eval_runtime": 3.6839,
	"eval_samples_per_second": 68.949,
	"eval_steps_per_second": 0.543,
	"step": 2185
	},
	{
	"epoch": 95.21739130434783,
	"grad_norm": 2.4622268676757812,
	"learning_rate": 1.0478260869565218e-05,
	"loss": 0.3997,
	"step": 2190
	},
	{
	"epoch": 95.65217391304348,
	"grad_norm": 3.815375566482544,
	"learning_rate": 1.0434782608695653e-05,
	"loss": 0.4294,
	"step": 2200
	},
	{
	"epoch": 96.0,
	"eval_accuracy": 0.7874015748031497,
	"eval_loss": 0.5002910494804382,
	"eval_runtime": 4.8997,
	"eval_samples_per_second": 51.84,
	"eval_steps_per_second": 0.408,
	"step": 2208
	},
	{
	"epoch": 96.08695652173913,
	"grad_norm": 8.787290573120117,
	"learning_rate": 1.0391304347826088e-05,
	"loss": 0.4155,
	"step": 2210
	},
	{
	"epoch": 96.52173913043478,
	"grad_norm": 2.8499906063079834,
	"learning_rate": 1.0347826086956523e-05,
	"loss": 0.4095,
	"step": 2220
	},
	{
	"epoch": 96.95652173913044,
	"grad_norm": 6.26355504989624,
	"learning_rate": 1.0304347826086958e-05,
	"loss": 0.4122,
	"step": 2230
	},
	{
	"epoch": 97.0,
	"eval_accuracy": 0.7913385826771654,
	"eval_loss": 0.5013226270675659,
	"eval_runtime": 3.7744,
	"eval_samples_per_second": 67.296,
	"eval_steps_per_second": 0.53,
	"step": 2231
	},
	{
	"epoch": 97.3913043478261,
	"grad_norm": 3.257772445678711,
	"learning_rate": 1.0260869565217393e-05,
	"loss": 0.3522,
	"step": 2240
	},
	{
	"epoch": 97.82608695652173,
	"grad_norm": 2.788611888885498,
	"learning_rate": 1.0217391304347829e-05,
	"loss": 0.4207,
	"step": 2250
	},
	{
	"epoch": 98.0,
	"eval_accuracy": 0.7874015748031497,
	"eval_loss": 0.507587730884552,
	"eval_runtime": 3.8534,
	"eval_samples_per_second": 65.915,
	"eval_steps_per_second": 0.519,
	"step": 2254
	},
	{
	"epoch": 98.26086956521739,
	"grad_norm": 2.974043846130371,
	"learning_rate": 1.017391304347826e-05,
	"loss": 0.4352,
	"step": 2260
	},
	{
	"epoch": 98.69565217391305,
	"grad_norm": 3.231869697570801,
	"learning_rate": 1.0130434782608695e-05,
	"loss": 0.4127,
	"step": 2270
	},
	{
	"epoch": 99.0,
	"eval_accuracy": 0.7834645669291339,
	"eval_loss": 0.503979504108429,
	"eval_runtime": 5.0998,
	"eval_samples_per_second": 49.806,
	"eval_steps_per_second": 0.392,
	"step": 2277
	},
	{
	"epoch": 99.1304347826087,
	"grad_norm": 2.597999095916748,
	"learning_rate": 1.008695652173913e-05,
	"loss": 0.3888,
	"step": 2280
	},
	{
	"epoch": 99.56521739130434,
	"grad_norm": 4.4219889640808105,
	"learning_rate": 1.0043478260869566e-05,
	"loss": 0.3921,
	"step": 2290
	},
	{
	"epoch": 100.0,
	"grad_norm": 4.641758441925049,
	"learning_rate": 1e-05,
	"loss": 0.441,
	"step": 2300
	},
	{
	"epoch": 100.0,
	"eval_accuracy": 0.7834645669291339,
	"eval_loss": 0.502194881439209,
	"eval_runtime": 3.7077,
	"eval_samples_per_second": 68.506,
	"eval_steps_per_second": 0.539,
	"step": 2300
	},
	{
	"epoch": 100.43478260869566,
	"grad_norm": 2.948529005050659,
	"learning_rate": 9.956521739130436e-06,
	"loss": 0.4324,
	"step": 2310
	},
	{
	"epoch": 100.8695652173913,
	"grad_norm": 2.4855594635009766,
	"learning_rate": 9.913043478260871e-06,
	"loss": 0.3938,
	"step": 2320
	},
	{
	"epoch": 101.0,
	"eval_accuracy": 0.7992125984251969,
	"eval_loss": 0.4974897503852844,
	"eval_runtime": 3.7364,
	"eval_samples_per_second": 67.98,
	"eval_steps_per_second": 0.535,
	"step": 2323
	},
	{
	"epoch": 101.30434782608695,
	"grad_norm": 4.753269195556641,
	"learning_rate": 9.869565217391304e-06,
	"loss": 0.3918,
	"step": 2330
	},
	{
	"epoch": 101.73913043478261,
	"grad_norm": 5.000470161437988,
	"learning_rate": 9.82608695652174e-06,
	"loss": 0.4109,
	"step": 2340
	},
	{
	"epoch": 102.0,
	"eval_accuracy": 0.7913385826771654,
	"eval_loss": 0.5018798112869263,
	"eval_runtime": 4.8425,
	"eval_samples_per_second": 52.452,
	"eval_steps_per_second": 0.413,
	"step": 2346
	},
	{
	"epoch": 102.17391304347827,
	"grad_norm": 2.8584697246551514,
	"learning_rate": 9.782608695652175e-06,
	"loss": 0.4199,
	"step": 2350
	},
	{
	"epoch": 102.6086956521739,
	"grad_norm": 2.773083448410034,
	"learning_rate": 9.73913043478261e-06,
	"loss": 0.4299,
	"step": 2360
	},
	{
	"epoch": 103.0,
	"eval_accuracy": 0.7874015748031497,
	"eval_loss": 0.5060404539108276,
	"eval_runtime": 3.7179,
	"eval_samples_per_second": 68.318,
	"eval_steps_per_second": 0.538,
	"step": 2369
	},
	{
	"epoch": 103.04347826086956,
	"grad_norm": 1.847158670425415,
	"learning_rate": 9.695652173913043e-06,
	"loss": 0.3834,
	"step": 2370
	},
	{
	"epoch": 103.47826086956522,
	"grad_norm": 4.114128112792969,
	"learning_rate": 9.652173913043478e-06,
	"loss": 0.4061,
	"step": 2380
	},
	{
	"epoch": 103.91304347826087,
	"grad_norm": 5.080406665802002,
	"learning_rate": 9.608695652173914e-06,
	"loss": 0.4148,
	"step": 2390
	},
	{
	"epoch": 104.0,
	"eval_accuracy": 0.7874015748031497,
	"eval_loss": 0.5038026571273804,
	"eval_runtime": 3.7535,
	"eval_samples_per_second": 67.671,
	"eval_steps_per_second": 0.533,
	"step": 2392
	},
	{
	"epoch": 104.34782608695652,
	"grad_norm": 3.291896104812622,
	"learning_rate": 9.565217391304349e-06,
	"loss": 0.4272,
	"step": 2400
	},
	{
	"epoch": 104.78260869565217,
	"grad_norm": 2.7959041595458984,
	"learning_rate": 9.521739130434784e-06,
	"loss": 0.4179,
	"step": 2410
	},
	{
	"epoch": 105.0,
	"eval_accuracy": 0.7834645669291339,
	"eval_loss": 0.5064316391944885,
	"eval_runtime": 4.8627,
	"eval_samples_per_second": 52.235,
	"eval_steps_per_second": 0.411,
	"step": 2415
	},
	{
	"epoch": 105.21739130434783,
	"grad_norm": 5.880518913269043,
	"learning_rate": 9.478260869565217e-06,
	"loss": 0.4155,
	"step": 2420
	},
	{
	"epoch": 105.65217391304348,
	"grad_norm": 2.2435200214385986,
	"learning_rate": 9.434782608695652e-06,
	"loss": 0.4352,
	"step": 2430
	},
	{
	"epoch": 106.0,
	"eval_accuracy": 0.7874015748031497,
	"eval_loss": 0.5059410929679871,
	"eval_runtime": 3.7149,
	"eval_samples_per_second": 68.373,
	"eval_steps_per_second": 0.538,
	"step": 2438
	},
	{
	"epoch": 106.08695652173913,
	"grad_norm": 3.1865811347961426,
	"learning_rate": 9.391304347826087e-06,
	"loss": 0.3997,
	"step": 2440
	},
	{
	"epoch": 106.52173913043478,
	"grad_norm": 4.0479936599731445,
	"learning_rate": 9.347826086956523e-06,
	"loss": 0.401,
	"step": 2450
	},
	{
	"epoch": 106.95652173913044,
	"grad_norm": 2.87663197517395,
	"learning_rate": 9.304347826086956e-06,
	"loss": 0.4027,
	"step": 2460
	},
	{
	"epoch": 107.0,
	"eval_accuracy": 0.7952755905511811,
	"eval_loss": 0.5025486350059509,
	"eval_runtime": 3.7614,
	"eval_samples_per_second": 67.528,
	"eval_steps_per_second": 0.532,
	"step": 2461
	},
	{
	"epoch": 107.3913043478261,
	"grad_norm": 2.630986452102661,
	"learning_rate": 9.260869565217391e-06,
	"loss": 0.3828,
	"step": 2470
	},
	{
	"epoch": 107.82608695652173,
	"grad_norm": 2.9700822830200195,
	"learning_rate": 9.217391304347826e-06,
	"loss": 0.4002,
	"step": 2480
	},
	{
	"epoch": 108.0,
	"eval_accuracy": 0.7874015748031497,
	"eval_loss": 0.5020495653152466,
	"eval_runtime": 4.6331,
	"eval_samples_per_second": 54.823,
	"eval_steps_per_second": 0.432,
	"step": 2484
	},
	{
	"epoch": 108.26086956521739,
	"grad_norm": 4.361221790313721,
	"learning_rate": 9.173913043478261e-06,
	"loss": 0.405,
	"step": 2490
	},
	{
	"epoch": 108.69565217391305,
	"grad_norm": 2.9328296184539795,
	"learning_rate": 9.130434782608697e-06,
	"loss": 0.3988,
	"step": 2500
	},
	{
	"epoch": 109.0,
	"eval_accuracy": 0.7874015748031497,
	"eval_loss": 0.5063354969024658,
	"eval_runtime": 3.8012,
	"eval_samples_per_second": 66.821,
	"eval_steps_per_second": 0.526,
	"step": 2507
	},
	{
	"epoch": 109.1304347826087,
	"grad_norm": 2.3236513137817383,
	"learning_rate": 9.086956521739132e-06,
	"loss": 0.3894,
	"step": 2510
	},
	{
	"epoch": 109.56521739130434,
	"grad_norm": 3.4379804134368896,
	"learning_rate": 9.043478260869565e-06,
	"loss": 0.4023,
	"step": 2520
	},
	{
	"epoch": 110.0,
	"grad_norm": 4.300137042999268,
	"learning_rate": 9e-06,
	"loss": 0.4095,
	"step": 2530
	},
	{
	"epoch": 110.0,
	"eval_accuracy": 0.7913385826771654,
	"eval_loss": 0.5034452676773071,
	"eval_runtime": 3.7021,
	"eval_samples_per_second": 68.61,
	"eval_steps_per_second": 0.54,
	"step": 2530
	},
	{
	"epoch": 110.43478260869566,
	"grad_norm": 2.190524101257324,
	"learning_rate": 8.956521739130435e-06,
	"loss": 0.4072,
	"step": 2540
	},
	{
	"epoch": 110.8695652173913,
	"grad_norm": 2.2291879653930664,
	"learning_rate": 8.91304347826087e-06,
	"loss": 0.4001,
	"step": 2550
	},
	{
	"epoch": 111.0,
	"eval_accuracy": 0.7874015748031497,
	"eval_loss": 0.505436360836029,
	"eval_runtime": 4.2919,
	"eval_samples_per_second": 59.182,
	"eval_steps_per_second": 0.466,
	"step": 2553
	},
	{
	"epoch": 111.30434782608695,
	"grad_norm": 3.1182541847229004,
	"learning_rate": 8.869565217391306e-06,
	"loss": 0.3904,
	"step": 2560
	},
	{
	"epoch": 111.73913043478261,
	"grad_norm": 3.8375625610351562,
	"learning_rate": 8.82608695652174e-06,
	"loss": 0.4201,
	"step": 2570
	},
	{
	"epoch": 112.0,
	"eval_accuracy": 0.7992125984251969,
	"eval_loss": 0.5076125860214233,
	"eval_runtime": 4.2691,
	"eval_samples_per_second": 59.497,
	"eval_steps_per_second": 0.468,
	"step": 2576
	},
	{
	"epoch": 112.17391304347827,
	"grad_norm": 2.4231808185577393,
	"learning_rate": 8.782608695652174e-06,
	"loss": 0.3925,
	"step": 2580
	},
	{
	"epoch": 112.6086956521739,
	"grad_norm": 4.854309558868408,
	"learning_rate": 8.73913043478261e-06,
	"loss": 0.4134,
	"step": 2590
	},
	{
	"epoch": 113.0,
	"eval_accuracy": 0.7952755905511811,
	"eval_loss": 0.5069688558578491,
	"eval_runtime": 3.7367,
	"eval_samples_per_second": 67.974,
	"eval_steps_per_second": 0.535,
	"step": 2599
	},
	{
	"epoch": 113.04347826086956,
	"grad_norm": 4.327704429626465,
	"learning_rate": 8.695652173913044e-06,
	"loss": 0.3959,
	"step": 2600
	},
	{
	"epoch": 113.47826086956522,
	"grad_norm": 2.8718910217285156,
	"learning_rate": 8.65217391304348e-06,
	"loss": 0.3806,
	"step": 2610
	},
	{
	"epoch": 113.91304347826087,
	"grad_norm": 5.400497913360596,
	"learning_rate": 8.608695652173915e-06,
	"loss": 0.3614,
	"step": 2620
	},
	{
	"epoch": 114.0,
	"eval_accuracy": 0.7834645669291339,
	"eval_loss": 0.5032684206962585,
	"eval_runtime": 4.4717,
	"eval_samples_per_second": 56.802,
	"eval_steps_per_second": 0.447,
	"step": 2622
	},
	{
	"epoch": 114.34782608695652,
	"grad_norm": 2.7276597023010254,
	"learning_rate": 8.56521739130435e-06,
	"loss": 0.3956,
	"step": 2630
	},
	{
	"epoch": 114.78260869565217,
	"grad_norm": 3.339860200881958,
	"learning_rate": 8.521739130434783e-06,
	"loss": 0.3928,
	"step": 2640
	},
	{
	"epoch": 115.0,
	"eval_accuracy": 0.7874015748031497,
	"eval_loss": 0.5042973160743713,
	"eval_runtime": 4.1216,
	"eval_samples_per_second": 61.627,
	"eval_steps_per_second": 0.485,
	"step": 2645
	},
	{
	"epoch": 115.21739130434783,
	"grad_norm": 2.435579538345337,
	"learning_rate": 8.478260869565218e-06,
	"loss": 0.4149,
	"step": 2650
	},
	{
	"epoch": 115.65217391304348,
	"grad_norm": 3.9001612663269043,
	"learning_rate": 8.434782608695653e-06,
	"loss": 0.435,
	"step": 2660
	},
	{
	"epoch": 116.0,
	"eval_accuracy": 0.7874015748031497,
	"eval_loss": 0.4998602271080017,
	"eval_runtime": 3.7703,
	"eval_samples_per_second": 67.369,
	"eval_steps_per_second": 0.53,
	"step": 2668
	},
	{
	"epoch": 116.08695652173913,
	"grad_norm": 4.031954288482666,
	"learning_rate": 8.391304347826089e-06,
	"loss": 0.3575,
	"step": 2670
	},
	{
	"epoch": 116.52173913043478,
	"grad_norm": 3.1172120571136475,
	"learning_rate": 8.347826086956522e-06,
	"loss": 0.4062,
	"step": 2680
	},
	{
	"epoch": 116.95652173913044,
	"grad_norm": 2.6061761379241943,
	"learning_rate": 8.304347826086957e-06,
	"loss": 0.4162,
	"step": 2690
	},
	{
	"epoch": 117.0,
	"eval_accuracy": 0.7874015748031497,
	"eval_loss": 0.5132189393043518,
	"eval_runtime": 4.4279,
	"eval_samples_per_second": 57.363,
	"eval_steps_per_second": 0.452,
	"step": 2691
	},
	{
	"epoch": 117.3913043478261,
	"grad_norm": 1.7457960844039917,
	"learning_rate": 8.260869565217392e-06,
	"loss": 0.3887,
	"step": 2700
	},
	{
	"epoch": 117.82608695652173,
	"grad_norm": 5.013397216796875,
	"learning_rate": 8.217391304347827e-06,
	"loss": 0.4078,
	"step": 2710
	},
	{
	"epoch": 118.0,
	"eval_accuracy": 0.7795275590551181,
	"eval_loss": 0.5088200569152832,
	"eval_runtime": 4.1897,
	"eval_samples_per_second": 60.625,
	"eval_steps_per_second": 0.477,
	"step": 2714
	},
	{
	"epoch": 118.26086956521739,
	"grad_norm": 3.4758872985839844,
	"learning_rate": 8.173913043478263e-06,
	"loss": 0.4251,
	"step": 2720
	},
	{
	"epoch": 118.69565217391305,
	"grad_norm": 1.8225319385528564,
	"learning_rate": 8.130434782608696e-06,
	"loss": 0.4025,
	"step": 2730
	},
	{
	"epoch": 119.0,
	"eval_accuracy": 0.7834645669291339,
	"eval_loss": 0.507527768611908,
	"eval_runtime": 3.721,
	"eval_samples_per_second": 68.261,
	"eval_steps_per_second": 0.537,
	"step": 2737
	},
	{
	"epoch": 119.1304347826087,
	"grad_norm": 4.636626720428467,
	"learning_rate": 8.086956521739131e-06,
	"loss": 0.4024,
	"step": 2740
	},
	{
	"epoch": 119.56521739130434,
	"grad_norm": 2.249758720397949,
	"learning_rate": 8.043478260869566e-06,
	"loss": 0.3917,
	"step": 2750
	},
	{
	"epoch": 120.0,
	"grad_norm": 6.408204555511475,
	"learning_rate": 8.000000000000001e-06,
	"loss": 0.4096,
	"step": 2760
	},
	{
	"epoch": 120.0,
	"eval_accuracy": 0.7834645669291339,
	"eval_loss": 0.502310574054718,
	"eval_runtime": 4.469,
	"eval_samples_per_second": 56.836,
	"eval_steps_per_second": 0.448,
	"step": 2760
	},
	{
	"epoch": 120.43478260869566,
	"grad_norm": 2.495302200317383,
	"learning_rate": 7.956521739130435e-06,
	"loss": 0.3791,
	"step": 2770
	},
	{
	"epoch": 120.8695652173913,
	"grad_norm": 2.840449571609497,
	"learning_rate": 7.91304347826087e-06,
	"loss": 0.3879,
	"step": 2780
	},
	{
	"epoch": 121.0,
	"eval_accuracy": 0.7834645669291339,
	"eval_loss": 0.5062641501426697,
	"eval_runtime": 3.9315,
	"eval_samples_per_second": 64.606,
	"eval_steps_per_second": 0.509,
	"step": 2783
	},
	{
	"epoch": 121.30434782608695,
	"grad_norm": 4.82555627822876,
	"learning_rate": 7.869565217391305e-06,
	"loss": 0.4232,
	"step": 2790
	},
	{
	"epoch": 121.73913043478261,
	"grad_norm": 3.220736503601074,
	"learning_rate": 7.82608695652174e-06,
	"loss": 0.4033,
	"step": 2800
	},
	{
	"epoch": 122.0,
	"eval_accuracy": 0.7874015748031497,
	"eval_loss": 0.5001329183578491,
	"eval_runtime": 3.7903,
	"eval_samples_per_second": 67.012,
	"eval_steps_per_second": 0.528,
	"step": 2806
	},
	{
	"epoch": 122.17391304347827,
	"grad_norm": 4.516547203063965,
	"learning_rate": 7.782608695652174e-06,
	"loss": 0.4144,
	"step": 2810
	},
	{
	"epoch": 122.6086956521739,
	"grad_norm": 2.559272289276123,
	"learning_rate": 7.739130434782609e-06,
	"loss": 0.3927,
	"step": 2820
	},
	{
	"epoch": 123.0,
	"eval_accuracy": 0.7795275590551181,
	"eval_loss": 0.5087068676948547,
	"eval_runtime": 4.404,
	"eval_samples_per_second": 57.675,
	"eval_steps_per_second": 0.454,
	"step": 2829
	},
	{
	"epoch": 123.04347826086956,
	"grad_norm": 3.344332695007324,
	"learning_rate": 7.695652173913044e-06,
	"loss": 0.4016,
	"step": 2830
	},
	{
	"epoch": 123.47826086956522,
	"grad_norm": 2.610856533050537,
	"learning_rate": 7.652173913043479e-06,
	"loss": 0.3925,
	"step": 2840
	},
	{
	"epoch": 123.91304347826087,
	"grad_norm": 3.501596689224243,
	"learning_rate": 7.608695652173914e-06,
	"loss": 0.3803,
	"step": 2850
	},
	{
	"epoch": 124.0,
	"eval_accuracy": 0.7913385826771654,
	"eval_loss": 0.5149940848350525,
	"eval_runtime": 4.2503,
	"eval_samples_per_second": 59.76,
	"eval_steps_per_second": 0.471,
	"step": 2852
	},
	{
	"epoch": 124.34782608695652,
	"grad_norm": 4.040353298187256,
	"learning_rate": 7.565217391304348e-06,
	"loss": 0.4101,
	"step": 2860
	},
	{
	"epoch": 124.78260869565217,
	"grad_norm": 3.1806752681732178,
	"learning_rate": 7.5217391304347835e-06,
	"loss": 0.4248,
	"step": 2870
	},
	{
	"epoch": 125.0,
	"eval_accuracy": 0.7834645669291339,
	"eval_loss": 0.515027642250061,
	"eval_runtime": 3.7006,
	"eval_samples_per_second": 68.638,
	"eval_steps_per_second": 0.54,
	"step": 2875
	},
	{
	"epoch": 125.21739130434783,
	"grad_norm": 2.976123332977295,
	"learning_rate": 7.478260869565218e-06,
	"loss": 0.3806,
	"step": 2880
	},
	{
	"epoch": 125.65217391304348,
	"grad_norm": 4.0399250984191895,
	"learning_rate": 7.434782608695653e-06,
	"loss": 0.3874,
	"step": 2890
	},
	{
	"epoch": 126.0,
	"eval_accuracy": 0.7874015748031497,
	"eval_loss": 0.5157892107963562,
	"eval_runtime": 3.8292,
	"eval_samples_per_second": 66.332,
	"eval_steps_per_second": 0.522,
	"step": 2898
	},
	{
	"epoch": 126.08695652173913,
	"grad_norm": 2.8186984062194824,
	"learning_rate": 7.391304347826087e-06,
	"loss": 0.4068,
	"step": 2900
	},
	{
	"epoch": 126.52173913043478,
	"grad_norm": 1.7811031341552734,
	"learning_rate": 7.347826086956522e-06,
	"loss": 0.4188,
	"step": 2910
	},
	{
	"epoch": 126.95652173913044,
	"grad_norm": 2.591479539871216,
	"learning_rate": 7.304347826086957e-06,
	"loss": 0.3646,
	"step": 2920
	},
	{
	"epoch": 127.0,
	"eval_accuracy": 0.8031496062992126,
	"eval_loss": 0.4979710578918457,
	"eval_runtime": 4.9476,
	"eval_samples_per_second": 51.338,
	"eval_steps_per_second": 0.404,
	"step": 2921
	},
	{
	"epoch": 127.3913043478261,
	"grad_norm": 3.097064733505249,
	"learning_rate": 7.2608695652173925e-06,
	"loss": 0.3809,
	"step": 2930
	},
	{
	"epoch": 127.82608695652173,
	"grad_norm": 4.5358805656433105,
	"learning_rate": 7.217391304347827e-06,
	"loss": 0.4115,
	"step": 2940
	},
	{
	"epoch": 128.0,
	"eval_accuracy": 0.7913385826771654,
	"eval_loss": 0.507692813873291,
	"eval_runtime": 3.7086,
	"eval_samples_per_second": 68.489,
	"eval_steps_per_second": 0.539,
	"step": 2944
	},
	{
	"epoch": 128.2608695652174,
	"grad_norm": 4.192093372344971,
	"learning_rate": 7.173913043478261e-06,
	"loss": 0.3931,
	"step": 2950
	},
	{
	"epoch": 128.69565217391303,
	"grad_norm": 2.4763779640197754,
	"learning_rate": 7.130434782608696e-06,
	"loss": 0.385,
	"step": 2960
	},
	{
	"epoch": 129.0,
	"eval_accuracy": 0.7913385826771654,
	"eval_loss": 0.5153175592422485,
	"eval_runtime": 3.726,
	"eval_samples_per_second": 68.17,
	"eval_steps_per_second": 0.537,
	"step": 2967
	},
	{
	"epoch": 129.1304347826087,
	"grad_norm": 2.906510353088379,
	"learning_rate": 7.086956521739131e-06,
	"loss": 0.4009,
	"step": 2970
	},
	{
	"epoch": 129.56521739130434,
	"grad_norm": 5.497567653656006,
	"learning_rate": 7.0434782608695665e-06,
	"loss": 0.4091,
	"step": 2980
	},
	{
	"epoch": 130.0,
	"grad_norm": 4.277368068695068,
	"learning_rate": 7e-06,
	"loss": 0.4064,
	"step": 2990
	},
	{
	"epoch": 130.0,
	"eval_accuracy": 0.7952755905511811,
	"eval_loss": 0.511443018913269,
	"eval_runtime": 5.0723,
	"eval_samples_per_second": 50.076,
	"eval_steps_per_second": 0.394,
	"step": 2990
	},
	{
	"epoch": 130.43478260869566,
	"grad_norm": 2.3368613719940186,
	"learning_rate": 6.956521739130435e-06,
	"loss": 0.3762,
	"step": 3000
	},
	{
	"epoch": 130.8695652173913,
	"grad_norm": 2.983280897140503,
	"learning_rate": 6.91304347826087e-06,
	"loss": 0.4168,
	"step": 3010
	},
	{
	"epoch": 131.0,
	"eval_accuracy": 0.7992125984251969,
	"eval_loss": 0.5056832432746887,
	"eval_runtime": 3.7472,
	"eval_samples_per_second": 67.785,
	"eval_steps_per_second": 0.534,
	"step": 3013
	},
	{
	"epoch": 131.30434782608697,
	"grad_norm": 5.6472978591918945,
	"learning_rate": 6.869565217391305e-06,
	"loss": 0.3454,
	"step": 3020
	},
	{
	"epoch": 131.7391304347826,
	"grad_norm": 2.710934638977051,
	"learning_rate": 6.8260869565217395e-06,
	"loss": 0.4319,
	"step": 3030
	},
	{
	"epoch": 132.0,
	"eval_accuracy": 0.7952755905511811,
	"eval_loss": 0.5041180849075317,
	"eval_runtime": 3.7165,
	"eval_samples_per_second": 68.344,
	"eval_steps_per_second": 0.538,
	"step": 3036
	},
	{
	"epoch": 132.17391304347825,
	"grad_norm": 2.8998305797576904,
	"learning_rate": 6.782608695652174e-06,
	"loss": 0.3769,
	"step": 3040
	},
	{
	"epoch": 132.6086956521739,
	"grad_norm": 3.503068208694458,
	"learning_rate": 6.739130434782609e-06,
	"loss": 0.4234,
	"step": 3050
	},
	{
	"epoch": 133.0,
	"eval_accuracy": 0.7992125984251969,
	"eval_loss": 0.5119389891624451,
	"eval_runtime": 4.8197,
	"eval_samples_per_second": 52.701,
	"eval_steps_per_second": 0.415,
	"step": 3059
	},
	{
	"epoch": 133.04347826086956,
	"grad_norm": 2.628817319869995,
	"learning_rate": 6.695652173913044e-06,
	"loss": 0.3984,
	"step": 3060
	},
	{
	"epoch": 133.47826086956522,
	"grad_norm": 3.1060750484466553,
	"learning_rate": 6.652173913043479e-06,
	"loss": 0.4147,
	"step": 3070
	},
	{
	"epoch": 133.91304347826087,
	"grad_norm": 6.7668328285217285,
	"learning_rate": 6.6086956521739135e-06,
	"loss": 0.3721,
	"step": 3080
	},
	{
	"epoch": 134.0,
	"eval_accuracy": 0.7874015748031497,
	"eval_loss": 0.51175457239151,
	"eval_runtime": 3.7909,
	"eval_samples_per_second": 67.003,
	"eval_steps_per_second": 0.528,
	"step": 3082
	},
	{
	"epoch": 134.34782608695653,
	"grad_norm": 6.763729572296143,
	"learning_rate": 6.565217391304349e-06,
	"loss": 0.386,
	"step": 3090
	},
	{
	"epoch": 134.7826086956522,
	"grad_norm": 4.876804828643799,
	"learning_rate": 6.521739130434783e-06,
	"loss": 0.3709,
	"step": 3100
	},
	{
	"epoch": 135.0,
	"eval_accuracy": 0.7913385826771654,
	"eval_loss": 0.5078221559524536,
	"eval_runtime": 3.7684,
	"eval_samples_per_second": 67.402,
	"eval_steps_per_second": 0.531,
	"step": 3105
	},
	{
	"epoch": 135.2173913043478,
	"grad_norm": 3.7445313930511475,
	"learning_rate": 6.478260869565218e-06,
	"loss": 0.3592,
	"step": 3110
	},
	{
	"epoch": 135.65217391304347,
	"grad_norm": 5.715231418609619,
	"learning_rate": 6.434782608695652e-06,
	"loss": 0.4149,
	"step": 3120
	},
	{
	"epoch": 136.0,
	"eval_accuracy": 0.7795275590551181,
	"eval_loss": 0.5163589715957642,
	"eval_runtime": 4.6746,
	"eval_samples_per_second": 54.336,
	"eval_steps_per_second": 0.428,
	"step": 3128
	},
	{
	"epoch": 136.08695652173913,
	"grad_norm": 3.3850629329681396,
	"learning_rate": 6.391304347826087e-06,
	"loss": 0.3681,
	"step": 3130
	},
	{
	"epoch": 136.52173913043478,
	"grad_norm": 5.502380847930908,
	"learning_rate": 6.3478260869565225e-06,
	"loss": 0.3629,
	"step": 3140
	},
	{
	"epoch": 136.95652173913044,
	"grad_norm": 4.158088684082031,
	"learning_rate": 6.304347826086958e-06,
	"loss": 0.416,
	"step": 3150
	},
	{
	"epoch": 137.0,
	"eval_accuracy": 0.7834645669291339,
	"eval_loss": 0.5123007297515869,
	"eval_runtime": 3.789,
	"eval_samples_per_second": 67.036,
	"eval_steps_per_second": 0.528,
	"step": 3151
	},
	{
	"epoch": 137.3913043478261,
	"grad_norm": 2.241478681564331,
	"learning_rate": 6.260869565217392e-06,
	"loss": 0.4089,
	"step": 3160
	},
	{
	"epoch": 137.82608695652175,
	"grad_norm": 4.336514472961426,
	"learning_rate": 6.217391304347826e-06,
	"loss": 0.406,
	"step": 3170
	},
	{
	"epoch": 138.0,
	"eval_accuracy": 0.7913385826771654,
	"eval_loss": 0.5115824937820435,
	"eval_runtime": 3.7195,
	"eval_samples_per_second": 68.288,
	"eval_steps_per_second": 0.538,
	"step": 3174
	},
	{
	"epoch": 138.2608695652174,
	"grad_norm": 2.154179334640503,
	"learning_rate": 6.173913043478261e-06,
	"loss": 0.4018,
	"step": 3180
	},
	{
	"epoch": 138.69565217391303,
	"grad_norm": 3.2215845584869385,
	"learning_rate": 6.1304347826086965e-06,
	"loss": 0.3613,
	"step": 3190
	},
	{
	"epoch": 139.0,
	"eval_accuracy": 0.7913385826771654,
	"eval_loss": 0.5169662237167358,
	"eval_runtime": 4.4593,
	"eval_samples_per_second": 56.959,
	"eval_steps_per_second": 0.448,
	"step": 3197
	},
	{
	"epoch": 139.1304347826087,
	"grad_norm": 2.800915241241455,
	"learning_rate": 6.086956521739132e-06,
	"loss": 0.3863,
	"step": 3200
	},
	{
	"epoch": 139.56521739130434,
	"grad_norm": 7.433578014373779,
	"learning_rate": 6.043478260869565e-06,
	"loss": 0.4278,
	"step": 3210
	},
	{
	"epoch": 140.0,
	"grad_norm": 3.887300968170166,
	"learning_rate": 6e-06,
	"loss": 0.3786,
	"step": 3220
	},
	{
	"epoch": 140.0,
	"eval_accuracy": 0.8031496062992126,
	"eval_loss": 0.5098868608474731,
	"eval_runtime": 4.1343,
	"eval_samples_per_second": 61.437,
	"eval_steps_per_second": 0.484,
	"step": 3220
	},
	{
	"epoch": 140.43478260869566,
	"grad_norm": 3.3379013538360596,
	"learning_rate": 5.956521739130435e-06,
	"loss": 0.405,
	"step": 3230
	},
	{
	"epoch": 140.8695652173913,
	"grad_norm": 3.2763419151306152,
	"learning_rate": 5.91304347826087e-06,
	"loss": 0.3976,
	"step": 3240
	},
	{
	"epoch": 141.0,
	"eval_accuracy": 0.7913385826771654,
	"eval_loss": 0.5111474394798279,
	"eval_runtime": 3.8029,
	"eval_samples_per_second": 66.792,
	"eval_steps_per_second": 0.526,
	"step": 3243
	},
	{
	"epoch": 141.30434782608697,
	"grad_norm": 3.1908023357391357,
	"learning_rate": 5.8695652173913055e-06,
	"loss": 0.3856,
	"step": 3250
	},
	{
	"epoch": 141.7391304347826,
	"grad_norm": 3.875778913497925,
	"learning_rate": 5.826086956521739e-06,
	"loss": 0.371,
	"step": 3260
	},
	{
	"epoch": 142.0,
	"eval_accuracy": 0.7952755905511811,
	"eval_loss": 0.5081124901771545,
	"eval_runtime": 4.5605,
	"eval_samples_per_second": 55.696,
	"eval_steps_per_second": 0.439,
	"step": 3266
	},
	{
	"epoch": 142.17391304347825,
	"grad_norm": 2.925506353378296,
	"learning_rate": 5.782608695652174e-06,
	"loss": 0.4169,
	"step": 3270
	},
	{
	"epoch": 142.6086956521739,
	"grad_norm": 9.266388893127441,
	"learning_rate": 5.739130434782609e-06,
	"loss": 0.4056,
	"step": 3280
	},
	{
	"epoch": 143.0,
	"eval_accuracy": 0.7913385826771654,
	"eval_loss": 0.5098369717597961,
	"eval_runtime": 3.9928,
	"eval_samples_per_second": 63.615,
	"eval_steps_per_second": 0.501,
	"step": 3289
	},
	{
	"epoch": 143.04347826086956,
	"grad_norm": 25.856365203857422,
	"learning_rate": 5.695652173913044e-06,
	"loss": 0.3757,
	"step": 3290
	},
	{
	"epoch": 143.47826086956522,
	"grad_norm": 2.937258720397949,
	"learning_rate": 5.652173913043479e-06,
	"loss": 0.3745,
	"step": 3300
	},
	{
	"epoch": 143.91304347826087,
	"grad_norm": 3.236806631088257,
	"learning_rate": 5.608695652173914e-06,
	"loss": 0.4214,
	"step": 3310
	},
	{
	"epoch": 144.0,
	"eval_accuracy": 0.7952755905511811,
	"eval_loss": 0.5085259675979614,
	"eval_runtime": 3.7621,
	"eval_samples_per_second": 67.516,
	"eval_steps_per_second": 0.532,
	"step": 3312
	},
	{
	"epoch": 144.34782608695653,
	"grad_norm": 3.6454241275787354,
	"learning_rate": 5.565217391304348e-06,
	"loss": 0.3659,
	"step": 3320
	},
	{
	"epoch": 144.7826086956522,
	"grad_norm": 3.4510464668273926,
	"learning_rate": 5.521739130434783e-06,
	"loss": 0.3832,
	"step": 3330
	},
	{
	"epoch": 145.0,
	"eval_accuracy": 0.7952755905511811,
	"eval_loss": 0.5084368586540222,
	"eval_runtime": 4.2307,
	"eval_samples_per_second": 60.037,
	"eval_steps_per_second": 0.473,
	"step": 3335
	},
	{
	"epoch": 145.2173913043478,
	"grad_norm": 2.4478542804718018,
	"learning_rate": 5.478260869565217e-06,
	"loss": 0.3522,
	"step": 3340
	},
	{
	"epoch": 145.65217391304347,
	"grad_norm": 4.097745895385742,
	"learning_rate": 5.4347826086956525e-06,
	"loss": 0.3762,
	"step": 3350
	},
	{
	"epoch": 146.0,
	"eval_accuracy": 0.7913385826771654,
	"eval_loss": 0.5060733556747437,
	"eval_runtime": 4.203,
	"eval_samples_per_second": 60.433,
	"eval_steps_per_second": 0.476,
	"step": 3358
	},
	{
	"epoch": 146.08695652173913,
	"grad_norm": 3.384960651397705,
	"learning_rate": 5.391304347826088e-06,
	"loss": 0.3761,
	"step": 3360
	},
	{
	"epoch": 146.52173913043478,
	"grad_norm": 2.909395217895508,
	"learning_rate": 5.347826086956523e-06,
	"loss": 0.3902,
	"step": 3370
	},
	{
	"epoch": 146.95652173913044,
	"grad_norm": 2.538163900375366,
	"learning_rate": 5.304347826086957e-06,
	"loss": 0.4118,
	"step": 3380
	},
	{
	"epoch": 147.0,
	"eval_accuracy": 0.7992125984251969,
	"eval_loss": 0.5111083984375,
	"eval_runtime": 3.8334,
	"eval_samples_per_second": 66.26,
	"eval_steps_per_second": 0.522,
	"step": 3381
	},
	{
	"epoch": 147.3913043478261,
	"grad_norm": 2.9644970893859863,
	"learning_rate": 5.260869565217391e-06,
	"loss": 0.3802,
	"step": 3390
	},
	{
	"epoch": 147.82608695652175,
	"grad_norm": 3.0972464084625244,
	"learning_rate": 5.2173913043478265e-06,
	"loss": 0.3866,
	"step": 3400
	},
	{
	"epoch": 148.0,
	"eval_accuracy": 0.8070866141732284,
	"eval_loss": 0.5092455148696899,
	"eval_runtime": 5.6174,
	"eval_samples_per_second": 45.216,
	"eval_steps_per_second": 0.356,
	"step": 3404
	},
	{
	"epoch": 148.2608695652174,
	"grad_norm": 1.625214695930481,
	"learning_rate": 5.173913043478262e-06,
	"loss": 0.3584,
	"step": 3410
	},
	{
	"epoch": 148.69565217391303,
	"grad_norm": 15.01403522491455,
	"learning_rate": 5.130434782608697e-06,
	"loss": 0.3869,
	"step": 3420
	},
	{
	"epoch": 149.0,
	"eval_accuracy": 0.7952755905511811,
	"eval_loss": 0.512187659740448,
	"eval_runtime": 3.8515,
	"eval_samples_per_second": 65.948,
	"eval_steps_per_second": 0.519,
	"step": 3427
	},
	{
	"epoch": 149.1304347826087,
	"grad_norm": 1.9776344299316406,
	"learning_rate": 5.08695652173913e-06,
	"loss": 0.3921,
	"step": 3430
	},
	{
	"epoch": 149.56521739130434,
	"grad_norm": 2.336129665374756,
	"learning_rate": 5.043478260869565e-06,
	"loss": 0.4048,
	"step": 3440
	},
	{
	"epoch": 150.0,
	"grad_norm": 3.6398816108703613,
	"learning_rate": 5e-06,
	"loss": 0.3734,
	"step": 3450
	},
	{
	"epoch": 150.0,
	"eval_accuracy": 0.7952755905511811,
	"eval_loss": 0.5116916298866272,
	"eval_runtime": 3.7475,
	"eval_samples_per_second": 67.779,
	"eval_steps_per_second": 0.534,
	"step": 3450
	},
	{
	"epoch": 150.43478260869566,
	"grad_norm": 2.299021005630493,
	"learning_rate": 4.9565217391304355e-06,
	"loss": 0.3734,
	"step": 3460
	},
	{
	"epoch": 150.8695652173913,
	"grad_norm": 3.107494831085205,
	"learning_rate": 4.91304347826087e-06,
	"loss": 0.4061,
	"step": 3470
	},
	{
	"epoch": 151.0,
	"eval_accuracy": 0.7913385826771654,
	"eval_loss": 0.5094764232635498,
	"eval_runtime": 4.4075,
	"eval_samples_per_second": 57.629,
	"eval_steps_per_second": 0.454,
	"step": 3473
	},
	{
	"epoch": 151.30434782608697,
	"grad_norm": 2.319066286087036,
	"learning_rate": 4.869565217391305e-06,
	"loss": 0.3681,
	"step": 3480
	},
	{
	"epoch": 151.7391304347826,
	"grad_norm": 2.7603538036346436,
	"learning_rate": 4.826086956521739e-06,
	"loss": 0.3705,
	"step": 3490
	},
	{
	"epoch": 152.0,
	"eval_accuracy": 0.7952755905511811,
	"eval_loss": 0.5171404480934143,
	"eval_runtime": 4.362,
	"eval_samples_per_second": 58.23,
	"eval_steps_per_second": 0.459,
	"step": 3496
	},
	{
	"epoch": 152.17391304347825,
	"grad_norm": 2.0375826358795166,
	"learning_rate": 4.782608695652174e-06,
	"loss": 0.3882,
	"step": 3500
	},
	{
	"epoch": 152.6086956521739,
	"grad_norm": 2.8498833179473877,
	"learning_rate": 4.739130434782609e-06,
	"loss": 0.3873,
	"step": 3510
	},
	{
	"epoch": 153.0,
	"eval_accuracy": 0.7952755905511811,
	"eval_loss": 0.5179200768470764,
	"eval_runtime": 3.7588,
	"eval_samples_per_second": 67.575,
	"eval_steps_per_second": 0.532,
	"step": 3519
	},
	{
	"epoch": 153.04347826086956,
	"grad_norm": 2.707977533340454,
	"learning_rate": 4.695652173913044e-06,
	"loss": 0.3979,
	"step": 3520
	},
	{
	"epoch": 153.47826086956522,
	"grad_norm": 3.5183486938476562,
	"learning_rate": 4.652173913043478e-06,
	"loss": 0.4025,
	"step": 3530
	},
	{
	"epoch": 153.91304347826087,
	"grad_norm": 2.90291166305542,
	"learning_rate": 4.608695652173913e-06,
	"loss": 0.3927,
	"step": 3540
	},
	{
	"epoch": 154.0,
	"eval_accuracy": 0.7992125984251969,
	"eval_loss": 0.5117496252059937,
	"eval_runtime": 3.7541,
	"eval_samples_per_second": 67.659,
	"eval_steps_per_second": 0.533,
	"step": 3542
	},
	{
	"epoch": 154.34782608695653,
	"grad_norm": 4.005958080291748,
	"learning_rate": 4.565217391304348e-06,
	"loss": 0.4011,
	"step": 3550
	},
	{
	"epoch": 154.7826086956522,
	"grad_norm": 2.469202995300293,
	"learning_rate": 4.5217391304347826e-06,
	"loss": 0.3807,
	"step": 3560
	},
	{
	"epoch": 155.0,
	"eval_accuracy": 0.7952755905511811,
	"eval_loss": 0.5133464932441711,
	"eval_runtime": 5.8154,
	"eval_samples_per_second": 43.677,
	"eval_steps_per_second": 0.344,
	"step": 3565
	},
	{
	"epoch": 155.2173913043478,
	"grad_norm": 3.2248237133026123,
	"learning_rate": 4.478260869565218e-06,
	"loss": 0.4498,
	"step": 3570
	},
	{
	"epoch": 155.65217391304347,
	"grad_norm": 3.463270425796509,
	"learning_rate": 4.434782608695653e-06,
	"loss": 0.3761,
	"step": 3580
	},
	{
	"epoch": 156.0,
	"eval_accuracy": 0.7913385826771654,
	"eval_loss": 0.5140319466590881,
	"eval_runtime": 3.7668,
	"eval_samples_per_second": 67.432,
	"eval_steps_per_second": 0.531,
	"step": 3588
	},
	{
	"epoch": 156.08695652173913,
	"grad_norm": 3.640611171722412,
	"learning_rate": 4.391304347826087e-06,
	"loss": 0.3609,
	"step": 3590
	},
	{
	"epoch": 156.52173913043478,
	"grad_norm": 4.198793888092041,
	"learning_rate": 4.347826086956522e-06,
	"loss": 0.3984,
	"step": 3600
	},
	{
	"epoch": 156.95652173913044,
	"grad_norm": 2.9035775661468506,
	"learning_rate": 4.304347826086957e-06,
	"loss": 0.3964,
	"step": 3610
	},
	{
	"epoch": 157.0,
	"eval_accuracy": 0.7952755905511811,
	"eval_loss": 0.5117691159248352,
	"eval_runtime": 3.7832,
	"eval_samples_per_second": 67.138,
	"eval_steps_per_second": 0.529,
	"step": 3611
	},
	{
	"epoch": 157.3913043478261,
	"grad_norm": 5.13762092590332,
	"learning_rate": 4.260869565217392e-06,
	"loss": 0.3818,
	"step": 3620
	},
	{
	"epoch": 157.82608695652175,
	"grad_norm": 8.948963165283203,
	"learning_rate": 4.217391304347827e-06,
	"loss": 0.39,
	"step": 3630
	},
	{
	"epoch": 158.0,
	"eval_accuracy": 0.8031496062992126,
	"eval_loss": 0.5122236609458923,
	"eval_runtime": 4.6309,
	"eval_samples_per_second": 54.849,
	"eval_steps_per_second": 0.432,
	"step": 3634
	},
	{
	"epoch": 158.2608695652174,
	"grad_norm": 2.4759654998779297,
	"learning_rate": 4.173913043478261e-06,
	"loss": 0.3784,
	"step": 3640
	},
	{
	"epoch": 158.69565217391303,
	"grad_norm": 2.407663106918335,
	"learning_rate": 4.130434782608696e-06,
	"loss": 0.3943,
	"step": 3650
	},
	{
	"epoch": 159.0,
	"eval_accuracy": 0.8031496062992126,
	"eval_loss": 0.5125917196273804,
	"eval_runtime": 3.7278,
	"eval_samples_per_second": 68.138,
	"eval_steps_per_second": 0.537,
	"step": 3657
	},
	{
	"epoch": 159.1304347826087,
	"grad_norm": 2.2464840412139893,
	"learning_rate": 4.086956521739131e-06,
	"loss": 0.3675,
	"step": 3660
	},
	{
	"epoch": 159.56521739130434,
	"grad_norm": 3.0186944007873535,
	"learning_rate": 4.0434782608695655e-06,
	"loss": 0.355,
	"step": 3670
	},
	{
	"epoch": 160.0,
	"grad_norm": 9.606362342834473,
	"learning_rate": 4.000000000000001e-06,
	"loss": 0.3417,
	"step": 3680
	},
	{
	"epoch": 160.0,
	"eval_accuracy": 0.7992125984251969,
	"eval_loss": 0.5096677541732788,
	"eval_runtime": 3.7505,
	"eval_samples_per_second": 67.724,
	"eval_steps_per_second": 0.533,
	"step": 3680
	},
	{
	"epoch": 160.43478260869566,
	"grad_norm": 3.155024766921997,
	"learning_rate": 3.956521739130435e-06,
	"loss": 0.3951,
	"step": 3690
	},
	{
	"epoch": 160.8695652173913,
	"grad_norm": 2.3195645809173584,
	"learning_rate": 3.91304347826087e-06,
	"loss": 0.3996,
	"step": 3700
	},
	{
	"epoch": 161.0,
	"eval_accuracy": 0.7913385826771654,
	"eval_loss": 0.5048008561134338,
	"eval_runtime": 4.9463,
	"eval_samples_per_second": 51.351,
	"eval_steps_per_second": 0.404,
	"step": 3703
	},
	{
	"epoch": 161.30434782608697,
	"grad_norm": 16.818618774414062,
	"learning_rate": 3.869565217391304e-06,
	"loss": 0.3613,
	"step": 3710
	},
	{
	"epoch": 161.7391304347826,
	"grad_norm": 5.290389060974121,
	"learning_rate": 3.8260869565217395e-06,
	"loss": 0.4,
	"step": 3720
	},
	{
	"epoch": 162.0,
	"eval_accuracy": 0.7952755905511811,
	"eval_loss": 0.5148473978042603,
	"eval_runtime": 3.7348,
	"eval_samples_per_second": 68.008,
	"eval_steps_per_second": 0.535,
	"step": 3726
	},
	{
	"epoch": 162.17391304347825,
	"grad_norm": 4.7519330978393555,
	"learning_rate": 3.782608695652174e-06,
	"loss": 0.3983,
	"step": 3730
	},
	{
	"epoch": 162.6086956521739,
	"grad_norm": 2.433164358139038,
	"learning_rate": 3.739130434782609e-06,
	"loss": 0.4051,
	"step": 3740
	},
	{
	"epoch": 163.0,
	"eval_accuracy": 0.7874015748031497,
	"eval_loss": 0.5150399804115295,
	"eval_runtime": 3.7013,
	"eval_samples_per_second": 68.625,
	"eval_steps_per_second": 0.54,
	"step": 3749
	},
	{
	"epoch": 163.04347826086956,
	"grad_norm": 2.870962381362915,
	"learning_rate": 3.6956521739130436e-06,
	"loss": 0.3903,
	"step": 3750
	},
	{
	"epoch": 163.47826086956522,
	"grad_norm": 3.3795669078826904,
	"learning_rate": 3.6521739130434787e-06,
	"loss": 0.3981,
	"step": 3760
	},
	{
	"epoch": 163.91304347826087,
	"grad_norm": 4.447073936462402,
	"learning_rate": 3.6086956521739134e-06,
	"loss": 0.3973,
	"step": 3770
	},
	{
	"epoch": 164.0,
	"eval_accuracy": 0.8031496062992126,
	"eval_loss": 0.5036624073982239,
	"eval_runtime": 4.8343,
	"eval_samples_per_second": 52.541,
	"eval_steps_per_second": 0.414,
	"step": 3772
	},
	{
	"epoch": 164.34782608695653,
	"grad_norm": 2.5403716564178467,
	"learning_rate": 3.565217391304348e-06,
	"loss": 0.3586,
	"step": 3780
	},
	{
	"epoch": 164.7826086956522,
	"grad_norm": 2.5216853618621826,
	"learning_rate": 3.5217391304347832e-06,
	"loss": 0.3963,
	"step": 3790
	},
	{
	"epoch": 165.0,
	"eval_accuracy": 0.7952755905511811,
	"eval_loss": 0.5048288702964783,
	"eval_runtime": 3.7404,
	"eval_samples_per_second": 67.907,
	"eval_steps_per_second": 0.535,
	"step": 3795
	},
	{
	"epoch": 165.2173913043478,
	"grad_norm": 3.382376194000244,
	"learning_rate": 3.4782608695652175e-06,
	"loss": 0.4012,
	"step": 3800
	},
	{
	"epoch": 165.65217391304347,
	"grad_norm": 3.0021872520446777,
	"learning_rate": 3.4347826086956526e-06,
	"loss": 0.3568,
	"step": 3810
	},
	{
	"epoch": 166.0,
	"eval_accuracy": 0.7913385826771654,
	"eval_loss": 0.5167564749717712,
	"eval_runtime": 3.6895,
	"eval_samples_per_second": 68.845,
	"eval_steps_per_second": 0.542,
	"step": 3818
	},
	{
	"epoch": 166.08695652173913,
	"grad_norm": 4.209798812866211,
	"learning_rate": 3.391304347826087e-06,
	"loss": 0.4217,
	"step": 3820
	},
	{
	"epoch": 166.52173913043478,
	"grad_norm": 2.3605332374572754,
	"learning_rate": 3.347826086956522e-06,
	"loss": 0.3897,
	"step": 3830
	},
	{
	"epoch": 166.95652173913044,
	"grad_norm": 7.9494733810424805,
	"learning_rate": 3.3043478260869567e-06,
	"loss": 0.3995,
	"step": 3840
	},
	{
	"epoch": 167.0,
	"eval_accuracy": 0.7913385826771654,
	"eval_loss": 0.5096150636672974,
	"eval_runtime": 4.9956,
	"eval_samples_per_second": 50.845,
	"eval_steps_per_second": 0.4,
	"step": 3841
	},
	{
	"epoch": 167.3913043478261,
	"grad_norm": 3.431043863296509,
	"learning_rate": 3.2608695652173914e-06,
	"loss": 0.3765,
	"step": 3850
	},
	{
	"epoch": 167.82608695652175,
	"grad_norm": 3.4384922981262207,
	"learning_rate": 3.217391304347826e-06,
	"loss": 0.3628,
	"step": 3860
	},
	{
	"epoch": 168.0,
	"eval_accuracy": 0.7952755905511811,
	"eval_loss": 0.5101594924926758,
	"eval_runtime": 3.7705,
	"eval_samples_per_second": 67.365,
	"eval_steps_per_second": 0.53,
	"step": 3864
	},
	{
	"epoch": 168.2608695652174,
	"grad_norm": 8.502880096435547,
	"learning_rate": 3.1739130434782613e-06,
	"loss": 0.3857,
	"step": 3870
	},
	{
	"epoch": 168.69565217391303,
	"grad_norm": 2.5634241104125977,
	"learning_rate": 3.130434782608696e-06,
	"loss": 0.3836,
	"step": 3880
	},
	{
	"epoch": 169.0,
	"eval_accuracy": 0.7952755905511811,
	"eval_loss": 0.5133307576179504,
	"eval_runtime": 3.7532,
	"eval_samples_per_second": 67.676,
	"eval_steps_per_second": 0.533,
	"step": 3887
	},
	{
	"epoch": 169.1304347826087,
	"grad_norm": 3.617677927017212,
	"learning_rate": 3.0869565217391307e-06,
	"loss": 0.4251,
	"step": 3890
	},
	{
	"epoch": 169.56521739130434,
	"grad_norm": 3.9091439247131348,
	"learning_rate": 3.043478260869566e-06,
	"loss": 0.3747,
	"step": 3900
	},
	{
	"epoch": 170.0,
	"grad_norm": 12.626005172729492,
	"learning_rate": 3e-06,
	"loss": 0.3646,
	"step": 3910
	},
	{
	"epoch": 170.0,
	"eval_accuracy": 0.8031496062992126,
	"eval_loss": 0.5099019408226013,
	"eval_runtime": 4.85,
	"eval_samples_per_second": 52.372,
	"eval_steps_per_second": 0.412,
	"step": 3910
	},
	{
	"epoch": 170.43478260869566,
	"grad_norm": 5.3712263107299805,
	"learning_rate": 2.956521739130435e-06,
	"loss": 0.3732,
	"step": 3920
	},
	{
	"epoch": 170.8695652173913,
	"grad_norm": 2.489645481109619,
	"learning_rate": 2.9130434782608695e-06,
	"loss": 0.3789,
	"step": 3930
	},
	{
	"epoch": 171.0,
	"eval_accuracy": 0.7874015748031497,
	"eval_loss": 0.5151440501213074,
	"eval_runtime": 3.7265,
	"eval_samples_per_second": 68.161,
	"eval_steps_per_second": 0.537,
	"step": 3933
	},
	{
	"epoch": 171.30434782608697,
	"grad_norm": 60.279747009277344,
	"learning_rate": 2.8695652173913046e-06,
	"loss": 0.3372,
	"step": 3940
	},
	{
	"epoch": 171.7391304347826,
	"grad_norm": 5.177385330200195,
	"learning_rate": 2.8260869565217393e-06,
	"loss": 0.3832,
	"step": 3950
	},
	{
	"epoch": 172.0,
	"eval_accuracy": 0.8031496062992126,
	"eval_loss": 0.5148643255233765,
	"eval_runtime": 3.7835,
	"eval_samples_per_second": 67.134,
	"eval_steps_per_second": 0.529,
	"step": 3956
	},
	{
	"epoch": 172.17391304347825,
	"grad_norm": 2.5841851234436035,
	"learning_rate": 2.782608695652174e-06,
	"loss": 0.405,
	"step": 3960
	},
	{
	"epoch": 172.6086956521739,
	"grad_norm": 2.6472222805023193,
	"learning_rate": 2.7391304347826087e-06,
	"loss": 0.3476,
	"step": 3970
	},
	{
	"epoch": 173.0,
	"eval_accuracy": 0.7834645669291339,
	"eval_loss": 0.5178123116493225,
	"eval_runtime": 5.0055,
	"eval_samples_per_second": 50.745,
	"eval_steps_per_second": 0.4,
	"step": 3979
	},
	{
	"epoch": 173.04347826086956,
	"grad_norm": 2.3995625972747803,
	"learning_rate": 2.695652173913044e-06,
	"loss": 0.4347,
	"step": 3980
	},
	{
	"epoch": 173.47826086956522,
	"grad_norm": 4.958439826965332,
	"learning_rate": 2.6521739130434785e-06,
	"loss": 0.3886,
	"step": 3990
	},
	{
	"epoch": 173.91304347826087,
	"grad_norm": 4.661713600158691,
	"learning_rate": 2.6086956521739132e-06,
	"loss": 0.3806,
	"step": 4000
	},
	{
	"epoch": 174.0,
	"eval_accuracy": 0.7992125984251969,
	"eval_loss": 0.5080812573432922,
	"eval_runtime": 3.6838,
	"eval_samples_per_second": 68.951,
	"eval_steps_per_second": 0.543,
	"step": 4002
	},
	{
	"epoch": 174.34782608695653,
	"grad_norm": 2.979862928390503,
	"learning_rate": 2.5652173913043484e-06,
	"loss": 0.3429,
	"step": 4010
	},
	{
	"epoch": 174.7826086956522,
	"grad_norm": 1.8571139574050903,
	"learning_rate": 2.5217391304347826e-06,
	"loss": 0.4053,
	"step": 4020
	},
	{
	"epoch": 175.0,
	"eval_accuracy": 0.7874015748031497,
	"eval_loss": 0.5099707245826721,
	"eval_runtime": 3.7194,
	"eval_samples_per_second": 68.291,
	"eval_steps_per_second": 0.538,
	"step": 4025
	},
	{
	"epoch": 175.2173913043478,
	"grad_norm": 2.364047050476074,
	"learning_rate": 2.4782608695652178e-06,
	"loss": 0.3774,
	"step": 4030
	},
	{
	"epoch": 175.65217391304347,
	"grad_norm": 4.220658779144287,
	"learning_rate": 2.4347826086956525e-06,
	"loss": 0.3986,
	"step": 4040
	},
	{
	"epoch": 176.0,
	"eval_accuracy": 0.7992125984251969,
	"eval_loss": 0.5189133286476135,
	"eval_runtime": 5.0478,
	"eval_samples_per_second": 50.319,
	"eval_steps_per_second": 0.396,
	"step": 4048
	},
	{
	"epoch": 176.08695652173913,
	"grad_norm": 2.9689295291900635,
	"learning_rate": 2.391304347826087e-06,
	"loss": 0.4225,
	"step": 4050
	},
	{
	"epoch": 176.52173913043478,
	"grad_norm": 3.78476881980896,
	"learning_rate": 2.347826086956522e-06,
	"loss": 0.3798,
	"step": 4060
	},
	{
	"epoch": 176.95652173913044,
	"grad_norm": 2.3258774280548096,
	"learning_rate": 2.3043478260869566e-06,
	"loss": 0.3827,
	"step": 4070
	},
	{
	"epoch": 177.0,
	"eval_accuracy": 0.7992125984251969,
	"eval_loss": 0.5128843784332275,
	"eval_runtime": 3.7539,
	"eval_samples_per_second": 67.663,
	"eval_steps_per_second": 0.533,
	"step": 4071
	},
	{
	"epoch": 177.3913043478261,
	"grad_norm": 2.329585313796997,
	"learning_rate": 2.2608695652173913e-06,
	"loss": 0.329,
	"step": 4080
	},
	{
	"epoch": 177.82608695652175,
	"grad_norm": 3.0889029502868652,
	"learning_rate": 2.2173913043478264e-06,
	"loss": 0.3892,
	"step": 4090
	},
	{
	"epoch": 178.0,
	"eval_accuracy": 0.7874015748031497,
	"eval_loss": 0.5099364519119263,
	"eval_runtime": 3.764,
	"eval_samples_per_second": 67.482,
	"eval_steps_per_second": 0.531,
	"step": 4094
	},
	{
	"epoch": 178.2608695652174,
	"grad_norm": 3.167226791381836,
	"learning_rate": 2.173913043478261e-06,
	"loss": 0.3801,
	"step": 4100
	},
	{
	"epoch": 178.69565217391303,
	"grad_norm": 2.857957601547241,
	"learning_rate": 2.130434782608696e-06,
	"loss": 0.3955,
	"step": 4110
	},
	{
	"epoch": 179.0,
	"eval_accuracy": 0.7992125984251969,
	"eval_loss": 0.5212357640266418,
	"eval_runtime": 4.8308,
	"eval_samples_per_second": 52.579,
	"eval_steps_per_second": 0.414,
	"step": 4117
	},
	{
	"epoch": 179.1304347826087,
	"grad_norm": 8.153979301452637,
	"learning_rate": 2.0869565217391305e-06,
	"loss": 0.4062,
	"step": 4120
	},
	{
	"epoch": 179.56521739130434,
	"grad_norm": 3.2647910118103027,
	"learning_rate": 2.0434782608695656e-06,
	"loss": 0.3603,
	"step": 4130
	},
	{
	"epoch": 180.0,
	"grad_norm": 4.87031364440918,
	"learning_rate": 2.0000000000000003e-06,
	"loss": 0.4077,
	"step": 4140
	},
	{
	"epoch": 180.0,
	"eval_accuracy": 0.7952755905511811,
	"eval_loss": 0.5101702213287354,
	"eval_runtime": 3.8052,
	"eval_samples_per_second": 66.75,
	"eval_steps_per_second": 0.526,
	"step": 4140
	},
	{
	"epoch": 180.43478260869566,
	"grad_norm": 3.3625569343566895,
	"learning_rate": 1.956521739130435e-06,
	"loss": 0.3881,
	"step": 4150
	},
	{
	"epoch": 180.8695652173913,
	"grad_norm": 3.717646360397339,
	"learning_rate": 1.9130434782608697e-06,
	"loss": 0.3579,
	"step": 4160
	},
	{
	"epoch": 181.0,
	"eval_accuracy": 0.7952755905511811,
	"eval_loss": 0.5099858641624451,
	"eval_runtime": 3.707,
	"eval_samples_per_second": 68.52,
	"eval_steps_per_second": 0.54,
	"step": 4163
	},
	{
	"epoch": 181.30434782608697,
	"grad_norm": 2.5178964138031006,
	"learning_rate": 1.8695652173913044e-06,
	"loss": 0.3828,
	"step": 4170
	},
	{
	"epoch": 181.7391304347826,
	"grad_norm": 3.244948625564575,
	"learning_rate": 1.8260869565217394e-06,
	"loss": 0.3666,
	"step": 4180
	},
	{
	"epoch": 182.0,
	"eval_accuracy": 0.7834645669291339,
	"eval_loss": 0.5247715711593628,
	"eval_runtime": 4.2228,
	"eval_samples_per_second": 60.149,
	"eval_steps_per_second": 0.474,
	"step": 4186
	},
	{
	"epoch": 182.17391304347825,
	"grad_norm": 3.418851613998413,
	"learning_rate": 1.782608695652174e-06,
	"loss": 0.4,
	"step": 4190
	},
	{
	"epoch": 182.6086956521739,
	"grad_norm": 2.247349262237549,
	"learning_rate": 1.7391304347826088e-06,
	"loss": 0.3746,
	"step": 4200
	},
	{
	"epoch": 183.0,
	"eval_accuracy": 0.7874015748031497,
	"eval_loss": 0.5220462083816528,
	"eval_runtime": 4.3605,
	"eval_samples_per_second": 58.25,
	"eval_steps_per_second": 0.459,
	"step": 4209
	},
	{
	"epoch": 183.04347826086956,
	"grad_norm": 5.591789245605469,
	"learning_rate": 1.6956521739130435e-06,
	"loss": 0.3971,
	"step": 4210
	},
	{
	"epoch": 183.47826086956522,
	"grad_norm": 2.8663575649261475,
	"learning_rate": 1.6521739130434784e-06,
	"loss": 0.3516,
	"step": 4220
	},
	{
	"epoch": 183.91304347826087,
	"grad_norm": 5.791408061981201,
	"learning_rate": 1.608695652173913e-06,
	"loss": 0.3867,
	"step": 4230
	},
	{
	"epoch": 184.0,
	"eval_accuracy": 0.7913385826771654,
	"eval_loss": 0.5172824859619141,
	"eval_runtime": 3.8331,
	"eval_samples_per_second": 66.265,
	"eval_steps_per_second": 0.522,
	"step": 4232
	},
	{
	"epoch": 184.34782608695653,
	"grad_norm": 3.3605191707611084,
	"learning_rate": 1.565217391304348e-06,
	"loss": 0.3911,
	"step": 4240
	},
	{
	"epoch": 184.7826086956522,
	"grad_norm": 3.4683103561401367,
	"learning_rate": 1.521739130434783e-06,
	"loss": 0.4024,
	"step": 4250
	},
	{
	"epoch": 185.0,
	"eval_accuracy": 0.7874015748031497,
	"eval_loss": 0.5248106122016907,
	"eval_runtime": 4.5705,
	"eval_samples_per_second": 55.574,
	"eval_steps_per_second": 0.438,
	"step": 4255
	},
	{
	"epoch": 185.2173913043478,
	"grad_norm": 4.495180130004883,
	"learning_rate": 1.4782608695652176e-06,
	"loss": 0.3931,
	"step": 4260
	},
	{
	"epoch": 185.65217391304347,
	"grad_norm": 4.51051139831543,
	"learning_rate": 1.4347826086956523e-06,
	"loss": 0.4014,
	"step": 4270
	},
	{
	"epoch": 186.0,
	"eval_accuracy": 0.7913385826771654,
	"eval_loss": 0.5084752440452576,
	"eval_runtime": 4.1594,
	"eval_samples_per_second": 61.066,
	"eval_steps_per_second": 0.481,
	"step": 4278
	},
	{
	"epoch": 186.08695652173913,
	"grad_norm": 6.847979545593262,
	"learning_rate": 1.391304347826087e-06,
	"loss": 0.3887,
	"step": 4280
	},
	{
	"epoch": 186.52173913043478,
	"grad_norm": 8.414494514465332,
	"learning_rate": 1.347826086956522e-06,
	"loss": 0.3876,
	"step": 4290
	},
	{
	"epoch": 186.95652173913044,
	"grad_norm": 2.0459609031677246,
	"learning_rate": 1.3043478260869566e-06,
	"loss": 0.3445,
	"step": 4300
	},
	{
	"epoch": 187.0,
	"eval_accuracy": 0.8031496062992126,
	"eval_loss": 0.5136986970901489,
	"eval_runtime": 3.7104,
	"eval_samples_per_second": 68.456,
	"eval_steps_per_second": 0.539,
	"step": 4301
	},
	{
	"epoch": 187.3913043478261,
	"grad_norm": 2.7707877159118652,
	"learning_rate": 1.2608695652173913e-06,
	"loss": 0.4067,
	"step": 4310
	},
	{
	"epoch": 187.82608695652175,
	"grad_norm": 2.2277884483337402,
	"learning_rate": 1.2173913043478262e-06,
	"loss": 0.382,
	"step": 4320
	},
	{
	"epoch": 188.0,
	"eval_accuracy": 0.7913385826771654,
	"eval_loss": 0.521314799785614,
	"eval_runtime": 4.1528,
	"eval_samples_per_second": 61.164,
	"eval_steps_per_second": 0.482,
	"step": 4324
	},
	{
	"epoch": 188.2608695652174,
	"grad_norm": 4.299314498901367,
	"learning_rate": 1.173913043478261e-06,
	"loss": 0.3717,
	"step": 4330
	},
	{
	"epoch": 188.69565217391303,
	"grad_norm": 2.479510545730591,
	"learning_rate": 1.1304347826086956e-06,
	"loss": 0.3673,
	"step": 4340
	},
	{
	"epoch": 189.0,
	"eval_accuracy": 0.7913385826771654,
	"eval_loss": 0.5241702795028687,
	"eval_runtime": 4.1853,
	"eval_samples_per_second": 60.689,
	"eval_steps_per_second": 0.478,
	"step": 4347
	},
	{
	"epoch": 189.1304347826087,
	"grad_norm": 3.9942944049835205,
	"learning_rate": 1.0869565217391306e-06,
	"loss": 0.4158,
	"step": 4350
	},
	{
	"epoch": 189.56521739130434,
	"grad_norm": 2.8651175498962402,
	"learning_rate": 1.0434782608695653e-06,
	"loss": 0.3919,
	"step": 4360
	},
	{
	"epoch": 190.0,
	"grad_norm": 3.1065168380737305,
	"learning_rate": 1.0000000000000002e-06,
	"loss": 0.3631,
	"step": 4370
	},
	{
	"epoch": 190.0,
	"eval_accuracy": 0.7913385826771654,
	"eval_loss": 0.5146118402481079,
	"eval_runtime": 3.7356,
	"eval_samples_per_second": 67.995,
	"eval_steps_per_second": 0.535,
	"step": 4370
	},
	{
	"epoch": 190.43478260869566,
	"grad_norm": 3.8796093463897705,
	"learning_rate": 9.565217391304349e-07,
	"loss": 0.3893,
	"step": 4380
	},
	{
	"epoch": 190.8695652173913,
	"grad_norm": 3.2894842624664307,
	"learning_rate": 9.130434782608697e-07,
	"loss": 0.393,
	"step": 4390
	},
	{
	"epoch": 191.0,
	"eval_accuracy": 0.7834645669291339,
	"eval_loss": 0.5097819566726685,
	"eval_runtime": 3.7404,
	"eval_samples_per_second": 67.908,
	"eval_steps_per_second": 0.535,
	"step": 4393
	},
	{
	"epoch": 191.30434782608697,
	"grad_norm": 2.4112348556518555,
	"learning_rate": 8.695652173913044e-07,
	"loss": 0.4037,
	"step": 4400
	},
	{
	"epoch": 191.7391304347826,
	"grad_norm": 2.4510791301727295,
	"learning_rate": 8.260869565217392e-07,
	"loss": 0.3806,
	"step": 4410
	},
	{
	"epoch": 192.0,
	"eval_accuracy": 0.7992125984251969,
	"eval_loss": 0.5133717656135559,
	"eval_runtime": 5.016,
	"eval_samples_per_second": 50.638,
	"eval_steps_per_second": 0.399,
	"step": 4416
	},
	{
	"epoch": 192.17391304347825,
	"grad_norm": 3.1017332077026367,
	"learning_rate": 7.82608695652174e-07,
	"loss": 0.3598,
	"step": 4420
	},
	{
	"epoch": 192.6086956521739,
	"grad_norm": 3.5164568424224854,
	"learning_rate": 7.391304347826088e-07,
	"loss": 0.3789,
	"step": 4430
	},
	{
	"epoch": 193.0,
	"eval_accuracy": 0.7992125984251969,
	"eval_loss": 0.5127285718917847,
	"eval_runtime": 3.736,
	"eval_samples_per_second": 67.988,
	"eval_steps_per_second": 0.535,
	"step": 4439
	},
	{
	"epoch": 193.04347826086956,
	"grad_norm": 86.44344329833984,
	"learning_rate": 6.956521739130435e-07,
	"loss": 0.3858,
	"step": 4440
	},
	{
	"epoch": 193.47826086956522,
	"grad_norm": 2.892185688018799,
	"learning_rate": 6.521739130434783e-07,
	"loss": 0.3894,
	"step": 4450
	},
	{
	"epoch": 193.91304347826087,
	"grad_norm": 2.0254733562469482,
	"learning_rate": 6.086956521739131e-07,
	"loss": 0.3717,
	"step": 4460
	},
	{
	"epoch": 194.0,
	"eval_accuracy": 0.7913385826771654,
	"eval_loss": 0.5183544158935547,
	"eval_runtime": 3.7197,
	"eval_samples_per_second": 68.285,
	"eval_steps_per_second": 0.538,
	"step": 4462
	},
	{
	"epoch": 194.34782608695653,
	"grad_norm": 4.124297618865967,
	"learning_rate": 5.652173913043478e-07,
	"loss": 0.4098,
	"step": 4470
	},
	{
	"epoch": 194.7826086956522,
	"grad_norm": 4.1497955322265625,
	"learning_rate": 5.217391304347826e-07,
	"loss": 0.361,
	"step": 4480
	},
	{
	"epoch": 195.0,
	"eval_accuracy": 0.7834645669291339,
	"eval_loss": 0.5185708999633789,
	"eval_runtime": 4.9741,
	"eval_samples_per_second": 51.064,
	"eval_steps_per_second": 0.402,
	"step": 4485
	},
	{
	"epoch": 195.2173913043478,
	"grad_norm": 11.268845558166504,
	"learning_rate": 4.782608695652174e-07,
	"loss": 0.3786,
	"step": 4490
	},
	{
	"epoch": 195.65217391304347,
	"grad_norm": 3.9937920570373535,
	"learning_rate": 4.347826086956522e-07,
	"loss": 0.3722,
	"step": 4500
	},
	{
	"epoch": 196.0,
	"eval_accuracy": 0.7952755905511811,
	"eval_loss": 0.5107359886169434,
	"eval_runtime": 3.7506,
	"eval_samples_per_second": 67.723,
	"eval_steps_per_second": 0.533,
	"step": 4508
	},
	{
	"epoch": 196.08695652173913,
	"grad_norm": 2.869596004486084,
	"learning_rate": 3.91304347826087e-07,
	"loss": 0.3985,
	"step": 4510
	},
	{
	"epoch": 196.52173913043478,
	"grad_norm": 6.21280574798584,
	"learning_rate": 3.4782608695652175e-07,
	"loss": 0.4019,
	"step": 4520
	},
	{
	"epoch": 196.95652173913044,
	"grad_norm": 2.2324206829071045,
	"learning_rate": 3.0434782608695656e-07,
	"loss": 0.3551,
	"step": 4530
	},
	{
	"epoch": 197.0,
	"eval_accuracy": 0.7952755905511811,
	"eval_loss": 0.5174936056137085,
	"eval_runtime": 3.6975,
	"eval_samples_per_second": 68.695,
	"eval_steps_per_second": 0.541,
	"step": 4531
	},
	{
	"epoch": 197.3913043478261,
	"grad_norm": 2.6415905952453613,
	"learning_rate": 2.608695652173913e-07,
	"loss": 0.3919,
	"step": 4540
	},
	{
	"epoch": 197.82608695652175,
	"grad_norm": 5.146513938903809,
	"learning_rate": 2.173913043478261e-07,
	"loss": 0.3649,
	"step": 4550
	},
	{
	"epoch": 198.0,
	"eval_accuracy": 0.7992125984251969,
	"eval_loss": 0.5135703682899475,
	"eval_runtime": 4.9875,
	"eval_samples_per_second": 50.928,
	"eval_steps_per_second": 0.401,
	"step": 4554
	},
	{
	"epoch": 198.2608695652174,
	"grad_norm": 3.1943461894989014,
	"learning_rate": 1.7391304347826088e-07,
	"loss": 0.3763,
	"step": 4560
	},
	{
	"epoch": 198.69565217391303,
	"grad_norm": 2.8955743312835693,
	"learning_rate": 1.3043478260869566e-07,
	"loss": 0.3749,
	"step": 4570
	},
	{
	"epoch": 199.0,
	"eval_accuracy": 0.7913385826771654,
	"eval_loss": 0.5192672610282898,
	"eval_runtime": 3.6944,
	"eval_samples_per_second": 68.753,
	"eval_steps_per_second": 0.541,
	"step": 4577
	},
	{
	"epoch": 199.1304347826087,
	"grad_norm": 12.166488647460938,
	"learning_rate": 8.695652173913044e-08,
	"loss": 0.3869,
	"step": 4580
	},
	{
	"epoch": 199.56521739130434,
	"grad_norm": 2.9687561988830566,
	"learning_rate": 4.347826086956522e-08,
	"loss": 0.3926,
	"step": 4590
	},
	{
	"epoch": 200.0,
	"grad_norm": 4.834624290466309,
	"learning_rate": 0.0,
	"loss": 0.3782,
	"step": 4600
	},
	{
	"epoch": 200.0,
	"eval_accuracy": 0.7992125984251969,
	"eval_loss": 0.5181651711463928,
	"eval_runtime": 3.7789,
	"eval_samples_per_second": 67.216,
	"eval_steps_per_second": 0.529,
	"step": 4600
	},
	{
	"epoch": 200.0,
	"step": 4600,
	"total_flos": 1.089869514338304e+18,
	"train_loss": 0.30267460563908455,
	"train_runtime": 4787.5341,
	"train_samples_per_second": 59.947,
	"train_steps_per_second": 0.961
	}
	],
	"logging_steps": 10,
	"max_steps": 4600,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 200,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1.089869514338304e+18,
	"train_batch_size": 64,
	"trial_name": null,
	"trial_params": null
	}