bertweet-2020-Q1-filtered / trainer_state.json

End of training

27d0002 12 months ago

81.5 kB

	{
	"best_metric": 2.671285629272461,
	"best_model_checkpoint": "./model_tweets_2020_Q2/checkpoint-32000",
	"epoch": 19.569471624266146,
	"eval_steps": 8000,
	"global_step": 2400000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.07,
	"eval_loss": 2.635031223297119,
	"eval_runtime": 126.0563,
	"eval_samples_per_second": 819.277,
	"eval_steps_per_second": 51.207,
	"step": 8000
	},
	{
	"epoch": 0.13,
	"learning_rate": 9.939131159843243e-06,
	"loss": 2.7848,
	"step": 16000
	},
	{
	"epoch": 0.13,
	"eval_loss": 2.6555588245391846,
	"eval_runtime": 126.7417,
	"eval_samples_per_second": 814.846,
	"eval_steps_per_second": 50.93,
	"step": 16000
	},
	{
	"epoch": 0.2,
	"eval_loss": 2.6695027351379395,
	"eval_runtime": 125.9524,
	"eval_samples_per_second": 819.953,
	"eval_steps_per_second": 51.25,
	"step": 24000
	},
	{
	"epoch": 0.26,
	"learning_rate": 9.872425581589261e-06,
	"loss": 2.7545,
	"step": 32000
	},
	{
	"epoch": 0.26,
	"eval_loss": 2.671285629272461,
	"eval_runtime": 126.9886,
	"eval_samples_per_second": 813.262,
	"eval_steps_per_second": 50.831,
	"step": 32000
	},
	{
	"epoch": 0.33,
	"eval_loss": 2.708911895751953,
	"eval_runtime": 126.0433,
	"eval_samples_per_second": 819.361,
	"eval_steps_per_second": 51.213,
	"step": 40000
	},
	{
	"epoch": 0.39,
	"learning_rate": 9.80572000333528e-06,
	"loss": 2.7717,
	"step": 48000
	},
	{
	"epoch": 0.39,
	"eval_loss": 2.7143805027008057,
	"eval_runtime": 126.2378,
	"eval_samples_per_second": 818.099,
	"eval_steps_per_second": 51.134,
	"step": 48000
	},
	{
	"epoch": 0.46,
	"eval_loss": 2.7240307331085205,
	"eval_runtime": 125.5002,
	"eval_samples_per_second": 822.907,
	"eval_steps_per_second": 51.434,
	"step": 56000
	},
	{
	"epoch": 0.52,
	"learning_rate": 9.739014425081299e-06,
	"loss": 2.8043,
	"step": 64000
	},
	{
	"epoch": 0.52,
	"eval_loss": 2.749925374984741,
	"eval_runtime": 126.3275,
	"eval_samples_per_second": 817.518,
	"eval_steps_per_second": 51.097,
	"step": 64000
	},
	{
	"epoch": 0.59,
	"eval_loss": 2.770448684692383,
	"eval_runtime": 115.1543,
	"eval_samples_per_second": 896.84,
	"eval_steps_per_second": 56.055,
	"step": 72000
	},
	{
	"epoch": 0.65,
	"learning_rate": 9.672308846827316e-06,
	"loss": 2.8401,
	"step": 80000
	},
	{
	"epoch": 0.65,
	"eval_loss": 2.782008409500122,
	"eval_runtime": 116.1441,
	"eval_samples_per_second": 889.197,
	"eval_steps_per_second": 55.578,
	"step": 80000
	},
	{
	"epoch": 0.72,
	"eval_loss": 2.8068478107452393,
	"eval_runtime": 116.2984,
	"eval_samples_per_second": 888.017,
	"eval_steps_per_second": 55.504,
	"step": 88000
	},
	{
	"epoch": 0.78,
	"learning_rate": 9.605603268573334e-06,
	"loss": 2.8723,
	"step": 96000
	},
	{
	"epoch": 0.78,
	"eval_loss": 2.8150370121002197,
	"eval_runtime": 116.0456,
	"eval_samples_per_second": 889.952,
	"eval_steps_per_second": 55.625,
	"step": 96000
	},
	{
	"epoch": 0.85,
	"eval_loss": 2.8410351276397705,
	"eval_runtime": 114.7666,
	"eval_samples_per_second": 899.87,
	"eval_steps_per_second": 56.245,
	"step": 104000
	},
	{
	"epoch": 0.91,
	"learning_rate": 9.538897690319354e-06,
	"loss": 2.9004,
	"step": 112000
	},
	{
	"epoch": 0.91,
	"eval_loss": 2.865703582763672,
	"eval_runtime": 115.4628,
	"eval_samples_per_second": 894.444,
	"eval_steps_per_second": 55.905,
	"step": 112000
	},
	{
	"epoch": 0.98,
	"eval_loss": 2.882617950439453,
	"eval_runtime": 116.5627,
	"eval_samples_per_second": 886.004,
	"eval_steps_per_second": 55.378,
	"step": 120000
	},
	{
	"epoch": 1.04,
	"learning_rate": 9.472192112065373e-06,
	"loss": 2.9396,
	"step": 128000
	},
	{
	"epoch": 1.04,
	"eval_loss": 2.9071033000946045,
	"eval_runtime": 116.4638,
	"eval_samples_per_second": 886.756,
	"eval_steps_per_second": 55.425,
	"step": 128000
	},
	{
	"epoch": 1.11,
	"eval_loss": 2.949030876159668,
	"eval_runtime": 115.1354,
	"eval_samples_per_second": 896.987,
	"eval_steps_per_second": 56.064,
	"step": 136000
	},
	{
	"epoch": 1.17,
	"learning_rate": 9.405486533811392e-06,
	"loss": 2.9801,
	"step": 144000
	},
	{
	"epoch": 1.17,
	"eval_loss": 2.951450824737549,
	"eval_runtime": 114.8755,
	"eval_samples_per_second": 899.017,
	"eval_steps_per_second": 56.191,
	"step": 144000
	},
	{
	"epoch": 1.24,
	"eval_loss": 2.9862585067749023,
	"eval_runtime": 116.1529,
	"eval_samples_per_second": 889.129,
	"eval_steps_per_second": 55.573,
	"step": 152000
	},
	{
	"epoch": 1.3,
	"learning_rate": 9.338780955557409e-06,
	"loss": 3.0173,
	"step": 160000
	},
	{
	"epoch": 1.3,
	"eval_loss": 2.991586685180664,
	"eval_runtime": 116.0798,
	"eval_samples_per_second": 889.69,
	"eval_steps_per_second": 55.608,
	"step": 160000
	},
	{
	"epoch": 1.37,
	"eval_loss": 3.0230655670166016,
	"eval_runtime": 115.2701,
	"eval_samples_per_second": 895.939,
	"eval_steps_per_second": 55.999,
	"step": 168000
	},
	{
	"epoch": 1.44,
	"learning_rate": 9.272075377303427e-06,
	"loss": 3.0674,
	"step": 176000
	},
	{
	"epoch": 1.44,
	"eval_loss": 3.0447049140930176,
	"eval_runtime": 115.1489,
	"eval_samples_per_second": 896.882,
	"eval_steps_per_second": 56.058,
	"step": 176000
	},
	{
	"epoch": 1.5,
	"eval_loss": 3.0638155937194824,
	"eval_runtime": 116.1134,
	"eval_samples_per_second": 889.432,
	"eval_steps_per_second": 55.592,
	"step": 184000
	},
	{
	"epoch": 1.57,
	"learning_rate": 9.205369799049446e-06,
	"loss": 3.1059,
	"step": 192000
	},
	{
	"epoch": 1.57,
	"eval_loss": 3.094524383544922,
	"eval_runtime": 114.9725,
	"eval_samples_per_second": 898.258,
	"eval_steps_per_second": 56.144,
	"step": 192000
	},
	{
	"epoch": 1.63,
	"eval_loss": 3.1008002758026123,
	"eval_runtime": 116.6453,
	"eval_samples_per_second": 885.377,
	"eval_steps_per_second": 55.339,
	"step": 200000
	},
	{
	"epoch": 1.7,
	"learning_rate": 9.138664220795464e-06,
	"loss": 3.1283,
	"step": 208000
	},
	{
	"epoch": 1.7,
	"eval_loss": 3.1256680488586426,
	"eval_runtime": 115.0624,
	"eval_samples_per_second": 897.556,
	"eval_steps_per_second": 56.1,
	"step": 208000
	},
	{
	"epoch": 1.76,
	"eval_loss": 3.1262004375457764,
	"eval_runtime": 114.9392,
	"eval_samples_per_second": 898.518,
	"eval_steps_per_second": 56.16,
	"step": 216000
	},
	{
	"epoch": 1.83,
	"learning_rate": 9.071958642541483e-06,
	"loss": 3.1684,
	"step": 224000
	},
	{
	"epoch": 1.83,
	"eval_loss": 3.152285099029541,
	"eval_runtime": 115.5854,
	"eval_samples_per_second": 893.495,
	"eval_steps_per_second": 55.846,
	"step": 224000
	},
	{
	"epoch": 1.89,
	"eval_loss": 3.1842401027679443,
	"eval_runtime": 114.9021,
	"eval_samples_per_second": 898.809,
	"eval_steps_per_second": 56.178,
	"step": 232000
	},
	{
	"epoch": 1.96,
	"learning_rate": 9.005253064287502e-06,
	"loss": 3.1966,
	"step": 240000
	},
	{
	"epoch": 1.96,
	"eval_loss": 3.1820068359375,
	"eval_runtime": 117.5401,
	"eval_samples_per_second": 878.637,
	"eval_steps_per_second": 54.917,
	"step": 240000
	},
	{
	"epoch": 2.02,
	"eval_loss": 3.197575569152832,
	"eval_runtime": 119.2185,
	"eval_samples_per_second": 866.266,
	"eval_steps_per_second": 54.144,
	"step": 248000
	},
	{
	"epoch": 2.09,
	"learning_rate": 8.93854748603352e-06,
	"loss": 3.2055,
	"step": 256000
	},
	{
	"epoch": 2.09,
	"eval_loss": 3.2012782096862793,
	"eval_runtime": 116.0617,
	"eval_samples_per_second": 889.829,
	"eval_steps_per_second": 55.617,
	"step": 256000
	},
	{
	"epoch": 2.15,
	"eval_loss": 3.219731092453003,
	"eval_runtime": 115.3459,
	"eval_samples_per_second": 895.351,
	"eval_steps_per_second": 55.962,
	"step": 264000
	},
	{
	"epoch": 2.22,
	"learning_rate": 8.871841907779539e-06,
	"loss": 3.2186,
	"step": 272000
	},
	{
	"epoch": 2.22,
	"eval_loss": 3.2258596420288086,
	"eval_runtime": 117.0782,
	"eval_samples_per_second": 882.102,
	"eval_steps_per_second": 55.134,
	"step": 272000
	},
	{
	"epoch": 2.28,
	"eval_loss": 3.2410128116607666,
	"eval_runtime": 115.7081,
	"eval_samples_per_second": 892.547,
	"eval_steps_per_second": 55.787,
	"step": 280000
	},
	{
	"epoch": 2.35,
	"learning_rate": 8.805136329525557e-06,
	"loss": 3.2518,
	"step": 288000
	},
	{
	"epoch": 2.35,
	"eval_loss": 3.2448806762695312,
	"eval_runtime": 116.2706,
	"eval_samples_per_second": 888.23,
	"eval_steps_per_second": 55.517,
	"step": 288000
	},
	{
	"epoch": 2.41,
	"eval_loss": 3.2685933113098145,
	"eval_runtime": 117.0296,
	"eval_samples_per_second": 882.469,
	"eval_steps_per_second": 55.157,
	"step": 296000
	},
	{
	"epoch": 2.48,
	"learning_rate": 8.738430751271576e-06,
	"loss": 3.2705,
	"step": 304000
	},
	{
	"epoch": 2.48,
	"eval_loss": 3.270232915878296,
	"eval_runtime": 115.7748,
	"eval_samples_per_second": 892.034,
	"eval_steps_per_second": 55.755,
	"step": 304000
	},
	{
	"epoch": 2.54,
	"eval_loss": 3.271563768386841,
	"eval_runtime": 114.7956,
	"eval_samples_per_second": 899.643,
	"eval_steps_per_second": 56.23,
	"step": 312000
	},
	{
	"epoch": 2.61,
	"learning_rate": 8.671725173017595e-06,
	"loss": 3.2677,
	"step": 320000
	},
	{
	"epoch": 2.61,
	"eval_loss": 3.2934534549713135,
	"eval_runtime": 116.4472,
	"eval_samples_per_second": 886.883,
	"eval_steps_per_second": 55.433,
	"step": 320000
	},
	{
	"epoch": 2.67,
	"eval_loss": 3.2941575050354004,
	"eval_runtime": 115.658,
	"eval_samples_per_second": 892.934,
	"eval_steps_per_second": 55.811,
	"step": 328000
	},
	{
	"epoch": 2.74,
	"learning_rate": 8.605019594763613e-06,
	"loss": 3.2955,
	"step": 336000
	},
	{
	"epoch": 2.74,
	"eval_loss": 3.304429054260254,
	"eval_runtime": 115.4488,
	"eval_samples_per_second": 894.552,
	"eval_steps_per_second": 55.912,
	"step": 336000
	},
	{
	"epoch": 2.8,
	"eval_loss": 3.3109662532806396,
	"eval_runtime": 114.8039,
	"eval_samples_per_second": 899.577,
	"eval_steps_per_second": 56.226,
	"step": 344000
	},
	{
	"epoch": 2.87,
	"learning_rate": 8.538314016509632e-06,
	"loss": 3.2966,
	"step": 352000
	},
	{
	"epoch": 2.87,
	"eval_loss": 3.3053431510925293,
	"eval_runtime": 115.0477,
	"eval_samples_per_second": 897.671,
	"eval_steps_per_second": 56.107,
	"step": 352000
	},
	{
	"epoch": 2.94,
	"eval_loss": 3.3276007175445557,
	"eval_runtime": 115.8876,
	"eval_samples_per_second": 891.165,
	"eval_steps_per_second": 55.701,
	"step": 360000
	},
	{
	"epoch": 3.0,
	"learning_rate": 8.471608438255649e-06,
	"loss": 3.311,
	"step": 368000
	},
	{
	"epoch": 3.0,
	"eval_loss": 3.3256120681762695,
	"eval_runtime": 117.3196,
	"eval_samples_per_second": 880.288,
	"eval_steps_per_second": 55.021,
	"step": 368000
	},
	{
	"epoch": 3.07,
	"eval_loss": 3.3292236328125,
	"eval_runtime": 117.5646,
	"eval_samples_per_second": 878.453,
	"eval_steps_per_second": 54.906,
	"step": 376000
	},
	{
	"epoch": 3.13,
	"learning_rate": 8.404902860001667e-06,
	"loss": 3.3217,
	"step": 384000
	},
	{
	"epoch": 3.13,
	"eval_loss": 3.333477258682251,
	"eval_runtime": 116.7284,
	"eval_samples_per_second": 884.746,
	"eval_steps_per_second": 55.299,
	"step": 384000
	},
	{
	"epoch": 3.2,
	"eval_loss": 3.316025972366333,
	"eval_runtime": 118.1544,
	"eval_samples_per_second": 874.068,
	"eval_steps_per_second": 54.632,
	"step": 392000
	},
	{
	"epoch": 3.26,
	"learning_rate": 8.338197281747686e-06,
	"loss": 3.3145,
	"step": 400000
	},
	{
	"epoch": 3.26,
	"eval_loss": 3.337838649749756,
	"eval_runtime": 116.066,
	"eval_samples_per_second": 889.796,
	"eval_steps_per_second": 55.615,
	"step": 400000
	},
	{
	"epoch": 3.33,
	"eval_loss": 3.3306798934936523,
	"eval_runtime": 117.4533,
	"eval_samples_per_second": 879.285,
	"eval_steps_per_second": 54.958,
	"step": 408000
	},
	{
	"epoch": 3.39,
	"learning_rate": 8.271491703493705e-06,
	"loss": 3.3246,
	"step": 416000
	},
	{
	"epoch": 3.39,
	"eval_loss": 3.342693567276001,
	"eval_runtime": 115.6289,
	"eval_samples_per_second": 893.159,
	"eval_steps_per_second": 55.825,
	"step": 416000
	},
	{
	"epoch": 3.46,
	"eval_loss": 3.3543155193328857,
	"eval_runtime": 115.7056,
	"eval_samples_per_second": 892.567,
	"eval_steps_per_second": 55.788,
	"step": 424000
	},
	{
	"epoch": 3.52,
	"learning_rate": 8.204786125239725e-06,
	"loss": 3.3131,
	"step": 432000
	},
	{
	"epoch": 3.52,
	"eval_loss": 3.340524196624756,
	"eval_runtime": 116.2105,
	"eval_samples_per_second": 888.689,
	"eval_steps_per_second": 55.546,
	"step": 432000
	},
	{
	"epoch": 3.59,
	"eval_loss": 3.336106777191162,
	"eval_runtime": 114.9141,
	"eval_samples_per_second": 898.714,
	"eval_steps_per_second": 56.172,
	"step": 440000
	},
	{
	"epoch": 3.65,
	"learning_rate": 8.138080546985743e-06,
	"loss": 3.3266,
	"step": 448000
	},
	{
	"epoch": 3.65,
	"eval_loss": 3.370443344116211,
	"eval_runtime": 115.193,
	"eval_samples_per_second": 896.539,
	"eval_steps_per_second": 56.036,
	"step": 448000
	},
	{
	"epoch": 3.72,
	"eval_loss": 3.354923963546753,
	"eval_runtime": 115.5245,
	"eval_samples_per_second": 893.967,
	"eval_steps_per_second": 55.876,
	"step": 456000
	},
	{
	"epoch": 3.78,
	"learning_rate": 8.07137496873176e-06,
	"loss": 3.3358,
	"step": 464000
	},
	{
	"epoch": 3.78,
	"eval_loss": 3.360276937484741,
	"eval_runtime": 116.1443,
	"eval_samples_per_second": 889.196,
	"eval_steps_per_second": 55.577,
	"step": 464000
	},
	{
	"epoch": 3.85,
	"eval_loss": 3.3641881942749023,
	"eval_runtime": 115.4508,
	"eval_samples_per_second": 894.537,
	"eval_steps_per_second": 55.911,
	"step": 472000
	},
	{
	"epoch": 3.91,
	"learning_rate": 8.004669390477779e-06,
	"loss": 3.3385,
	"step": 480000
	},
	{
	"epoch": 3.91,
	"eval_loss": 3.3572633266448975,
	"eval_runtime": 114.9449,
	"eval_samples_per_second": 898.474,
	"eval_steps_per_second": 56.157,
	"step": 480000
	},
	{
	"epoch": 3.98,
	"eval_loss": 3.3658275604248047,
	"eval_runtime": 115.0066,
	"eval_samples_per_second": 897.992,
	"eval_steps_per_second": 56.127,
	"step": 488000
	},
	{
	"epoch": 4.04,
	"learning_rate": 7.937963812223798e-06,
	"loss": 3.3375,
	"step": 496000
	},
	{
	"epoch": 4.04,
	"eval_loss": 3.345881700515747,
	"eval_runtime": 115.316,
	"eval_samples_per_second": 895.583,
	"eval_steps_per_second": 55.977,
	"step": 496000
	},
	{
	"epoch": 4.11,
	"eval_loss": 3.3702762126922607,
	"eval_runtime": 114.9631,
	"eval_samples_per_second": 898.331,
	"eval_steps_per_second": 56.148,
	"step": 504000
	},
	{
	"epoch": 4.17,
	"learning_rate": 7.871258233969816e-06,
	"loss": 3.3237,
	"step": 512000
	},
	{
	"epoch": 4.17,
	"eval_loss": 3.3564202785491943,
	"eval_runtime": 116.3254,
	"eval_samples_per_second": 887.811,
	"eval_steps_per_second": 55.491,
	"step": 512000
	},
	{
	"epoch": 4.24,
	"eval_loss": 3.3553359508514404,
	"eval_runtime": 115.6968,
	"eval_samples_per_second": 892.635,
	"eval_steps_per_second": 55.792,
	"step": 520000
	},
	{
	"epoch": 4.31,
	"learning_rate": 7.804552655715835e-06,
	"loss": 3.34,
	"step": 528000
	},
	{
	"epoch": 4.31,
	"eval_loss": 3.35756778717041,
	"eval_runtime": 114.9307,
	"eval_samples_per_second": 898.585,
	"eval_steps_per_second": 56.164,
	"step": 528000
	},
	{
	"epoch": 4.37,
	"eval_loss": 3.3548436164855957,
	"eval_runtime": 116.9698,
	"eval_samples_per_second": 882.92,
	"eval_steps_per_second": 55.185,
	"step": 536000
	},
	{
	"epoch": 4.44,
	"learning_rate": 7.737847077461853e-06,
	"loss": 3.3247,
	"step": 544000
	},
	{
	"epoch": 4.44,
	"eval_loss": 3.3525540828704834,
	"eval_runtime": 114.951,
	"eval_samples_per_second": 898.427,
	"eval_steps_per_second": 56.154,
	"step": 544000
	},
	{
	"epoch": 4.5,
	"eval_loss": 3.367372512817383,
	"eval_runtime": 116.891,
	"eval_samples_per_second": 883.515,
	"eval_steps_per_second": 55.222,
	"step": 552000
	},
	{
	"epoch": 4.57,
	"learning_rate": 7.671141499207872e-06,
	"loss": 3.318,
	"step": 560000
	},
	{
	"epoch": 4.57,
	"eval_loss": 3.3607981204986572,
	"eval_runtime": 115.5047,
	"eval_samples_per_second": 894.12,
	"eval_steps_per_second": 55.885,
	"step": 560000
	},
	{
	"epoch": 4.63,
	"eval_loss": 3.3527328968048096,
	"eval_runtime": 116.278,
	"eval_samples_per_second": 888.173,
	"eval_steps_per_second": 55.514,
	"step": 568000
	},
	{
	"epoch": 4.7,
	"learning_rate": 7.604435920953891e-06,
	"loss": 3.3318,
	"step": 576000
	},
	{
	"epoch": 4.7,
	"eval_loss": 3.3600049018859863,
	"eval_runtime": 115.0864,
	"eval_samples_per_second": 897.369,
	"eval_steps_per_second": 56.088,
	"step": 576000
	},
	{
	"epoch": 4.76,
	"eval_loss": 3.366177797317505,
	"eval_runtime": 116.1802,
	"eval_samples_per_second": 888.921,
	"eval_steps_per_second": 55.56,
	"step": 584000
	},
	{
	"epoch": 4.83,
	"learning_rate": 7.537730342699909e-06,
	"loss": 3.3211,
	"step": 592000
	},
	{
	"epoch": 4.83,
	"eval_loss": 3.36027193069458,
	"eval_runtime": 115.5036,
	"eval_samples_per_second": 894.128,
	"eval_steps_per_second": 55.886,
	"step": 592000
	},
	{
	"epoch": 4.89,
	"eval_loss": 3.364029884338379,
	"eval_runtime": 114.9019,
	"eval_samples_per_second": 898.81,
	"eval_steps_per_second": 56.178,
	"step": 600000
	},
	{
	"epoch": 4.96,
	"learning_rate": 7.471024764445928e-06,
	"loss": 3.3344,
	"step": 608000
	},
	{
	"epoch": 4.96,
	"eval_loss": 3.376020669937134,
	"eval_runtime": 115.5882,
	"eval_samples_per_second": 893.473,
	"eval_steps_per_second": 55.845,
	"step": 608000
	},
	{
	"epoch": 5.02,
	"eval_loss": 3.3876428604125977,
	"eval_runtime": 115.0301,
	"eval_samples_per_second": 897.809,
	"eval_steps_per_second": 56.116,
	"step": 616000
	},
	{
	"epoch": 5.09,
	"learning_rate": 7.4043191861919465e-06,
	"loss": 3.331,
	"step": 624000
	},
	{
	"epoch": 5.09,
	"eval_loss": 3.351862668991089,
	"eval_runtime": 115.49,
	"eval_samples_per_second": 894.233,
	"eval_steps_per_second": 55.892,
	"step": 624000
	},
	{
	"epoch": 5.15,
	"eval_loss": 3.373405933380127,
	"eval_runtime": 115.9525,
	"eval_samples_per_second": 890.666,
	"eval_steps_per_second": 55.669,
	"step": 632000
	},
	{
	"epoch": 5.22,
	"learning_rate": 7.337613607937964e-06,
	"loss": 3.3293,
	"step": 640000
	},
	{
	"epoch": 5.22,
	"eval_loss": 3.373460531234741,
	"eval_runtime": 115.1854,
	"eval_samples_per_second": 896.598,
	"eval_steps_per_second": 56.04,
	"step": 640000
	},
	{
	"epoch": 5.28,
	"eval_loss": 3.3703157901763916,
	"eval_runtime": 115.0036,
	"eval_samples_per_second": 898.016,
	"eval_steps_per_second": 56.129,
	"step": 648000
	},
	{
	"epoch": 5.35,
	"learning_rate": 7.270908029683983e-06,
	"loss": 3.3317,
	"step": 656000
	},
	{
	"epoch": 5.35,
	"eval_loss": 3.382647752761841,
	"eval_runtime": 115.8086,
	"eval_samples_per_second": 891.773,
	"eval_steps_per_second": 55.739,
	"step": 656000
	},
	{
	"epoch": 5.41,
	"eval_loss": 3.3825886249542236,
	"eval_runtime": 115.3628,
	"eval_samples_per_second": 895.219,
	"eval_steps_per_second": 55.954,
	"step": 664000
	},
	{
	"epoch": 5.48,
	"learning_rate": 7.2042024514300015e-06,
	"loss": 3.3291,
	"step": 672000
	},
	{
	"epoch": 5.48,
	"eval_loss": 3.391868829727173,
	"eval_runtime": 115.4028,
	"eval_samples_per_second": 894.909,
	"eval_steps_per_second": 55.935,
	"step": 672000
	},
	{
	"epoch": 5.54,
	"eval_loss": 3.378626585006714,
	"eval_runtime": 115.4498,
	"eval_samples_per_second": 894.545,
	"eval_steps_per_second": 55.912,
	"step": 680000
	},
	{
	"epoch": 5.61,
	"learning_rate": 7.13749687317602e-06,
	"loss": 3.3423,
	"step": 688000
	},
	{
	"epoch": 5.61,
	"eval_loss": 3.377542734146118,
	"eval_runtime": 115.2629,
	"eval_samples_per_second": 895.995,
	"eval_steps_per_second": 56.002,
	"step": 688000
	},
	{
	"epoch": 5.68,
	"eval_loss": 3.373429298400879,
	"eval_runtime": 115.5205,
	"eval_samples_per_second": 893.997,
	"eval_steps_per_second": 55.878,
	"step": 696000
	},
	{
	"epoch": 5.74,
	"learning_rate": 7.070791294922038e-06,
	"loss": 3.3364,
	"step": 704000
	},
	{
	"epoch": 5.74,
	"eval_loss": 3.372532367706299,
	"eval_runtime": 115.5543,
	"eval_samples_per_second": 893.735,
	"eval_steps_per_second": 55.861,
	"step": 704000
	},
	{
	"epoch": 5.81,
	"eval_loss": 3.3855302333831787,
	"eval_runtime": 115.9379,
	"eval_samples_per_second": 890.778,
	"eval_steps_per_second": 55.676,
	"step": 712000
	},
	{
	"epoch": 5.87,
	"learning_rate": 7.0040857166680564e-06,
	"loss": 3.347,
	"step": 720000
	},
	{
	"epoch": 5.87,
	"eval_loss": 3.3774046897888184,
	"eval_runtime": 114.6511,
	"eval_samples_per_second": 900.776,
	"eval_steps_per_second": 56.301,
	"step": 720000
	},
	{
	"epoch": 5.94,
	"eval_loss": 3.3717195987701416,
	"eval_runtime": 115.9173,
	"eval_samples_per_second": 890.937,
	"eval_steps_per_second": 55.686,
	"step": 728000
	},
	{
	"epoch": 6.0,
	"learning_rate": 6.937380138414076e-06,
	"loss": 3.3311,
	"step": 736000
	},
	{
	"epoch": 6.0,
	"eval_loss": 3.392944097518921,
	"eval_runtime": 115.7013,
	"eval_samples_per_second": 892.6,
	"eval_steps_per_second": 55.79,
	"step": 736000
	},
	{
	"epoch": 6.07,
	"eval_loss": 3.389941930770874,
	"eval_runtime": 117.4363,
	"eval_samples_per_second": 879.413,
	"eval_steps_per_second": 54.966,
	"step": 744000
	},
	{
	"epoch": 6.13,
	"learning_rate": 6.8706745601600945e-06,
	"loss": 3.3445,
	"step": 752000
	},
	{
	"epoch": 6.13,
	"eval_loss": 3.3985016345977783,
	"eval_runtime": 115.5779,
	"eval_samples_per_second": 893.553,
	"eval_steps_per_second": 55.85,
	"step": 752000
	},
	{
	"epoch": 6.2,
	"eval_loss": 3.3865506649017334,
	"eval_runtime": 114.8487,
	"eval_samples_per_second": 899.227,
	"eval_steps_per_second": 56.204,
	"step": 760000
	},
	{
	"epoch": 6.26,
	"learning_rate": 6.803968981906113e-06,
	"loss": 3.345,
	"step": 768000
	},
	{
	"epoch": 6.26,
	"eval_loss": 3.3942770957946777,
	"eval_runtime": 115.533,
	"eval_samples_per_second": 893.901,
	"eval_steps_per_second": 55.871,
	"step": 768000
	},
	{
	"epoch": 6.33,
	"eval_loss": 3.373379945755005,
	"eval_runtime": 115.2598,
	"eval_samples_per_second": 896.019,
	"eval_steps_per_second": 56.004,
	"step": 776000
	},
	{
	"epoch": 6.39,
	"learning_rate": 6.737263403652131e-06,
	"loss": 3.3427,
	"step": 784000
	},
	{
	"epoch": 6.39,
	"eval_loss": 3.383202314376831,
	"eval_runtime": 114.9199,
	"eval_samples_per_second": 898.669,
	"eval_steps_per_second": 56.17,
	"step": 784000
	},
	{
	"epoch": 6.46,
	"eval_loss": 3.3966336250305176,
	"eval_runtime": 115.6206,
	"eval_samples_per_second": 893.223,
	"eval_steps_per_second": 55.829,
	"step": 792000
	},
	{
	"epoch": 6.52,
	"learning_rate": 6.6705578253981495e-06,
	"loss": 3.3406,
	"step": 800000
	},
	{
	"epoch": 6.52,
	"eval_loss": 3.3891854286193848,
	"eval_runtime": 115.5059,
	"eval_samples_per_second": 894.11,
	"eval_steps_per_second": 55.885,
	"step": 800000
	},
	{
	"epoch": 6.59,
	"eval_loss": 3.390401601791382,
	"eval_runtime": 116.1612,
	"eval_samples_per_second": 889.066,
	"eval_steps_per_second": 55.569,
	"step": 808000
	},
	{
	"epoch": 6.65,
	"learning_rate": 6.603852247144168e-06,
	"loss": 3.3406,
	"step": 816000
	},
	{
	"epoch": 6.65,
	"eval_loss": 3.386686086654663,
	"eval_runtime": 115.3671,
	"eval_samples_per_second": 895.186,
	"eval_steps_per_second": 55.952,
	"step": 816000
	},
	{
	"epoch": 6.72,
	"eval_loss": 3.390192747116089,
	"eval_runtime": 114.8586,
	"eval_samples_per_second": 899.149,
	"eval_steps_per_second": 56.2,
	"step": 824000
	},
	{
	"epoch": 6.78,
	"learning_rate": 6.537146668890187e-06,
	"loss": 3.3354,
	"step": 832000
	},
	{
	"epoch": 6.78,
	"eval_loss": 3.371840000152588,
	"eval_runtime": 115.0229,
	"eval_samples_per_second": 897.865,
	"eval_steps_per_second": 56.119,
	"step": 832000
	},
	{
	"epoch": 6.85,
	"eval_loss": 3.383141279220581,
	"eval_runtime": 115.453,
	"eval_samples_per_second": 894.52,
	"eval_steps_per_second": 55.91,
	"step": 840000
	},
	{
	"epoch": 6.91,
	"learning_rate": 6.4704410906362044e-06,
	"loss": 3.3521,
	"step": 848000
	},
	{
	"epoch": 6.91,
	"eval_loss": 3.3909192085266113,
	"eval_runtime": 115.5241,
	"eval_samples_per_second": 893.97,
	"eval_steps_per_second": 55.876,
	"step": 848000
	},
	{
	"epoch": 6.98,
	"eval_loss": 3.3798959255218506,
	"eval_runtime": 115.2184,
	"eval_samples_per_second": 896.342,
	"eval_steps_per_second": 56.024,
	"step": 856000
	},
	{
	"epoch": 7.05,
	"learning_rate": 6.403735512382223e-06,
	"loss": 3.3538,
	"step": 864000
	},
	{
	"epoch": 7.05,
	"eval_loss": 3.3828136920928955,
	"eval_runtime": 115.3784,
	"eval_samples_per_second": 895.098,
	"eval_steps_per_second": 55.946,
	"step": 864000
	},
	{
	"epoch": 7.11,
	"eval_loss": 3.378514051437378,
	"eval_runtime": 115.0377,
	"eval_samples_per_second": 897.749,
	"eval_steps_per_second": 56.112,
	"step": 872000
	},
	{
	"epoch": 7.18,
	"learning_rate": 6.337029934128242e-06,
	"loss": 3.3363,
	"step": 880000
	},
	{
	"epoch": 7.18,
	"eval_loss": 3.3993334770202637,
	"eval_runtime": 115.5145,
	"eval_samples_per_second": 894.043,
	"eval_steps_per_second": 55.88,
	"step": 880000
	},
	{
	"epoch": 7.24,
	"eval_loss": 3.3849687576293945,
	"eval_runtime": 114.7628,
	"eval_samples_per_second": 899.9,
	"eval_steps_per_second": 56.246,
	"step": 888000
	},
	{
	"epoch": 7.31,
	"learning_rate": 6.270324355874261e-06,
	"loss": 3.3341,
	"step": 896000
	},
	{
	"epoch": 7.31,
	"eval_loss": 3.3932485580444336,
	"eval_runtime": 115.0217,
	"eval_samples_per_second": 897.874,
	"eval_steps_per_second": 56.12,
	"step": 896000
	},
	{
	"epoch": 7.37,
	"eval_loss": 3.398083209991455,
	"eval_runtime": 115.1782,
	"eval_samples_per_second": 896.654,
	"eval_steps_per_second": 56.044,
	"step": 904000
	},
	{
	"epoch": 7.44,
	"learning_rate": 6.20361877762028e-06,
	"loss": 3.3458,
	"step": 912000
	},
	{
	"epoch": 7.44,
	"eval_loss": 3.393594741821289,
	"eval_runtime": 116.8302,
	"eval_samples_per_second": 883.975,
	"eval_steps_per_second": 55.251,
	"step": 912000
	},
	{
	"epoch": 7.5,
	"eval_loss": 3.4032301902770996,
	"eval_runtime": 115.4692,
	"eval_samples_per_second": 894.394,
	"eval_steps_per_second": 55.902,
	"step": 920000
	},
	{
	"epoch": 7.57,
	"learning_rate": 6.1369131993662975e-06,
	"loss": 3.3327,
	"step": 928000
	},
	{
	"epoch": 7.57,
	"eval_loss": 3.385192394256592,
	"eval_runtime": 115.7558,
	"eval_samples_per_second": 892.18,
	"eval_steps_per_second": 55.764,
	"step": 928000
	},
	{
	"epoch": 7.63,
	"eval_loss": 3.38653826713562,
	"eval_runtime": 116.1964,
	"eval_samples_per_second": 888.797,
	"eval_steps_per_second": 55.553,
	"step": 936000
	},
	{
	"epoch": 7.7,
	"learning_rate": 6.070207621112316e-06,
	"loss": 3.3507,
	"step": 944000
	},
	{
	"epoch": 7.7,
	"eval_loss": 3.390004873275757,
	"eval_runtime": 115.6497,
	"eval_samples_per_second": 892.999,
	"eval_steps_per_second": 55.815,
	"step": 944000
	},
	{
	"epoch": 7.76,
	"eval_loss": 3.3772072792053223,
	"eval_runtime": 115.4517,
	"eval_samples_per_second": 894.53,
	"eval_steps_per_second": 55.911,
	"step": 952000
	},
	{
	"epoch": 7.83,
	"learning_rate": 6.003502042858335e-06,
	"loss": 3.3493,
	"step": 960000
	},
	{
	"epoch": 7.83,
	"eval_loss": 3.388688802719116,
	"eval_runtime": 115.7986,
	"eval_samples_per_second": 891.85,
	"eval_steps_per_second": 55.743,
	"step": 960000
	},
	{
	"epoch": 7.89,
	"eval_loss": 3.395124912261963,
	"eval_runtime": 115.4739,
	"eval_samples_per_second": 894.358,
	"eval_steps_per_second": 55.9,
	"step": 968000
	},
	{
	"epoch": 7.96,
	"learning_rate": 5.936796464604353e-06,
	"loss": 3.3412,
	"step": 976000
	},
	{
	"epoch": 7.96,
	"eval_loss": 3.3833136558532715,
	"eval_runtime": 114.7504,
	"eval_samples_per_second": 899.997,
	"eval_steps_per_second": 56.253,
	"step": 976000
	},
	{
	"epoch": 8.02,
	"eval_loss": 3.381627321243286,
	"eval_runtime": 115.0253,
	"eval_samples_per_second": 897.846,
	"eval_steps_per_second": 56.118,
	"step": 984000
	},
	{
	"epoch": 8.09,
	"learning_rate": 5.870090886350371e-06,
	"loss": 3.3232,
	"step": 992000
	},
	{
	"epoch": 8.09,
	"eval_loss": 3.37522292137146,
	"eval_runtime": 114.2933,
	"eval_samples_per_second": 903.597,
	"eval_steps_per_second": 56.478,
	"step": 992000
	},
	{
	"epoch": 8.15,
	"eval_loss": 3.384525775909424,
	"eval_runtime": 115.119,
	"eval_samples_per_second": 897.115,
	"eval_steps_per_second": 56.072,
	"step": 1000000
	},
	{
	"epoch": 8.22,
	"learning_rate": 5.80338530809639e-06,
	"loss": 3.333,
	"step": 1008000
	},
	{
	"epoch": 8.22,
	"eval_loss": 3.3906686305999756,
	"eval_runtime": 115.1127,
	"eval_samples_per_second": 897.164,
	"eval_steps_per_second": 56.075,
	"step": 1008000
	},
	{
	"epoch": 8.28,
	"eval_loss": 3.3822684288024902,
	"eval_runtime": 114.8049,
	"eval_samples_per_second": 899.569,
	"eval_steps_per_second": 56.226,
	"step": 1016000
	},
	{
	"epoch": 8.35,
	"learning_rate": 5.736679729842408e-06,
	"loss": 3.3449,
	"step": 1024000
	},
	{
	"epoch": 8.35,
	"eval_loss": 3.3724589347839355,
	"eval_runtime": 114.8265,
	"eval_samples_per_second": 899.4,
	"eval_steps_per_second": 56.215,
	"step": 1024000
	},
	{
	"epoch": 8.41,
	"eval_loss": 3.37973952293396,
	"eval_runtime": 115.0872,
	"eval_samples_per_second": 897.363,
	"eval_steps_per_second": 56.088,
	"step": 1032000
	},
	{
	"epoch": 8.48,
	"learning_rate": 5.669974151588427e-06,
	"loss": 3.3336,
	"step": 1040000
	},
	{
	"epoch": 8.48,
	"eval_loss": 3.38781476020813,
	"eval_runtime": 116.3835,
	"eval_samples_per_second": 887.368,
	"eval_steps_per_second": 55.463,
	"step": 1040000
	},
	{
	"epoch": 8.55,
	"eval_loss": 3.384516716003418,
	"eval_runtime": 115.2938,
	"eval_samples_per_second": 895.755,
	"eval_steps_per_second": 55.987,
	"step": 1048000
	},
	{
	"epoch": 8.61,
	"learning_rate": 5.603268573334446e-06,
	"loss": 3.3307,
	"step": 1056000
	},
	{
	"epoch": 8.61,
	"eval_loss": 3.390652894973755,
	"eval_runtime": 116.7145,
	"eval_samples_per_second": 884.851,
	"eval_steps_per_second": 55.306,
	"step": 1056000
	},
	{
	"epoch": 8.68,
	"eval_loss": 3.3857922554016113,
	"eval_runtime": 115.6915,
	"eval_samples_per_second": 892.676,
	"eval_steps_per_second": 55.795,
	"step": 1064000
	},
	{
	"epoch": 8.74,
	"learning_rate": 5.536562995080464e-06,
	"loss": 3.3267,
	"step": 1072000
	},
	{
	"epoch": 8.74,
	"eval_loss": 3.3951947689056396,
	"eval_runtime": 115.1111,
	"eval_samples_per_second": 897.177,
	"eval_steps_per_second": 56.076,
	"step": 1072000
	},
	{
	"epoch": 8.81,
	"eval_loss": 3.391402006149292,
	"eval_runtime": 114.8898,
	"eval_samples_per_second": 898.905,
	"eval_steps_per_second": 56.184,
	"step": 1080000
	},
	{
	"epoch": 8.87,
	"learning_rate": 5.469857416826483e-06,
	"loss": 3.335,
	"step": 1088000
	},
	{
	"epoch": 8.87,
	"eval_loss": 3.3904380798339844,
	"eval_runtime": 116.7468,
	"eval_samples_per_second": 884.607,
	"eval_steps_per_second": 55.291,
	"step": 1088000
	},
	{
	"epoch": 8.94,
	"eval_loss": 3.3894879817962646,
	"eval_runtime": 115.0778,
	"eval_samples_per_second": 897.437,
	"eval_steps_per_second": 56.092,
	"step": 1096000
	},
	{
	"epoch": 9.0,
	"learning_rate": 5.403151838572501e-06,
	"loss": 3.3411,
	"step": 1104000
	},
	{
	"epoch": 9.0,
	"eval_loss": 3.395911455154419,
	"eval_runtime": 116.3802,
	"eval_samples_per_second": 887.393,
	"eval_steps_per_second": 55.465,
	"step": 1104000
	},
	{
	"epoch": 9.07,
	"eval_loss": 3.391462802886963,
	"eval_runtime": 115.5689,
	"eval_samples_per_second": 893.623,
	"eval_steps_per_second": 55.854,
	"step": 1112000
	},
	{
	"epoch": 9.13,
	"learning_rate": 5.33644626031852e-06,
	"loss": 3.3324,
	"step": 1120000
	},
	{
	"epoch": 9.13,
	"eval_loss": 3.4030401706695557,
	"eval_runtime": 115.7261,
	"eval_samples_per_second": 892.409,
	"eval_steps_per_second": 55.778,
	"step": 1120000
	},
	{
	"epoch": 9.2,
	"eval_loss": 3.4083750247955322,
	"eval_runtime": 118.5809,
	"eval_samples_per_second": 870.924,
	"eval_steps_per_second": 54.435,
	"step": 1128000
	},
	{
	"epoch": 9.26,
	"learning_rate": 5.269740682064538e-06,
	"loss": 3.3297,
	"step": 1136000
	},
	{
	"epoch": 9.26,
	"eval_loss": 3.402348518371582,
	"eval_runtime": 115.6049,
	"eval_samples_per_second": 893.344,
	"eval_steps_per_second": 55.837,
	"step": 1136000
	},
	{
	"epoch": 9.33,
	"eval_loss": 3.3967323303222656,
	"eval_runtime": 115.5344,
	"eval_samples_per_second": 893.889,
	"eval_steps_per_second": 55.871,
	"step": 1144000
	},
	{
	"epoch": 9.39,
	"learning_rate": 5.203035103810556e-06,
	"loss": 3.3492,
	"step": 1152000
	},
	{
	"epoch": 9.39,
	"eval_loss": 3.393101215362549,
	"eval_runtime": 115.5769,
	"eval_samples_per_second": 893.561,
	"eval_steps_per_second": 55.85,
	"step": 1152000
	},
	{
	"epoch": 9.46,
	"eval_loss": 3.4064693450927734,
	"eval_runtime": 114.7523,
	"eval_samples_per_second": 899.982,
	"eval_steps_per_second": 56.252,
	"step": 1160000
	},
	{
	"epoch": 9.52,
	"learning_rate": 5.136329525556575e-06,
	"loss": 3.3317,
	"step": 1168000
	},
	{
	"epoch": 9.52,
	"eval_loss": 3.3905270099639893,
	"eval_runtime": 115.5534,
	"eval_samples_per_second": 893.743,
	"eval_steps_per_second": 55.862,
	"step": 1168000
	},
	{
	"epoch": 9.59,
	"eval_loss": 3.402090072631836,
	"eval_runtime": 114.6435,
	"eval_samples_per_second": 900.836,
	"eval_steps_per_second": 56.305,
	"step": 1176000
	},
	{
	"epoch": 9.65,
	"learning_rate": 5.0696239473025935e-06,
	"loss": 3.3447,
	"step": 1184000
	},
	{
	"epoch": 9.65,
	"eval_loss": 3.400120735168457,
	"eval_runtime": 116.0858,
	"eval_samples_per_second": 889.643,
	"eval_steps_per_second": 55.605,
	"step": 1184000
	},
	{
	"epoch": 9.72,
	"eval_loss": 3.3942949771881104,
	"eval_runtime": 114.8922,
	"eval_samples_per_second": 898.886,
	"eval_steps_per_second": 56.183,
	"step": 1192000
	},
	{
	"epoch": 9.78,
	"learning_rate": 5.002918369048611e-06,
	"loss": 3.3377,
	"step": 1200000
	},
	{
	"epoch": 9.78,
	"eval_loss": 3.3970954418182373,
	"eval_runtime": 114.8942,
	"eval_samples_per_second": 898.871,
	"eval_steps_per_second": 56.182,
	"step": 1200000
	},
	{
	"epoch": 9.85,
	"eval_loss": 3.3946433067321777,
	"eval_runtime": 114.9828,
	"eval_samples_per_second": 898.178,
	"eval_steps_per_second": 56.139,
	"step": 1208000
	},
	{
	"epoch": 9.92,
	"learning_rate": 4.936212790794631e-06,
	"loss": 3.3486,
	"step": 1216000
	},
	{
	"epoch": 9.92,
	"eval_loss": 3.392373561859131,
	"eval_runtime": 115.6846,
	"eval_samples_per_second": 892.729,
	"eval_steps_per_second": 55.798,
	"step": 1216000
	},
	{
	"epoch": 9.98,
	"eval_loss": 3.398346424102783,
	"eval_runtime": 115.4236,
	"eval_samples_per_second": 894.747,
	"eval_steps_per_second": 55.924,
	"step": 1224000
	},
	{
	"epoch": 10.05,
	"learning_rate": 4.869507212540649e-06,
	"loss": 3.3471,
	"step": 1232000
	},
	{
	"epoch": 10.05,
	"eval_loss": 3.414100408554077,
	"eval_runtime": 115.0455,
	"eval_samples_per_second": 897.689,
	"eval_steps_per_second": 56.108,
	"step": 1232000
	},
	{
	"epoch": 10.11,
	"eval_loss": 3.4220006465911865,
	"eval_runtime": 115.4764,
	"eval_samples_per_second": 894.339,
	"eval_steps_per_second": 55.899,
	"step": 1240000
	},
	{
	"epoch": 10.18,
	"learning_rate": 4.802801634286667e-06,
	"loss": 3.3457,
	"step": 1248000
	},
	{
	"epoch": 10.18,
	"eval_loss": 3.4085357189178467,
	"eval_runtime": 115.0154,
	"eval_samples_per_second": 897.923,
	"eval_steps_per_second": 56.123,
	"step": 1248000
	},
	{
	"epoch": 10.24,
	"eval_loss": 3.424273729324341,
	"eval_runtime": 114.96,
	"eval_samples_per_second": 898.356,
	"eval_steps_per_second": 56.15,
	"step": 1256000
	},
	{
	"epoch": 10.31,
	"learning_rate": 4.7360960560326865e-06,
	"loss": 3.3278,
	"step": 1264000
	},
	{
	"epoch": 10.31,
	"eval_loss": 3.4058358669281006,
	"eval_runtime": 115.4303,
	"eval_samples_per_second": 894.696,
	"eval_steps_per_second": 55.921,
	"step": 1264000
	},
	{
	"epoch": 10.37,
	"eval_loss": 3.403254985809326,
	"eval_runtime": 114.783,
	"eval_samples_per_second": 899.741,
	"eval_steps_per_second": 56.237,
	"step": 1272000
	},
	{
	"epoch": 10.44,
	"learning_rate": 4.669390477778704e-06,
	"loss": 3.325,
	"step": 1280000
	},
	{
	"epoch": 10.44,
	"eval_loss": 3.3866589069366455,
	"eval_runtime": 115.6771,
	"eval_samples_per_second": 892.787,
	"eval_steps_per_second": 55.802,
	"step": 1280000
	},
	{
	"epoch": 10.5,
	"eval_loss": 3.3878674507141113,
	"eval_runtime": 114.7924,
	"eval_samples_per_second": 899.667,
	"eval_steps_per_second": 56.232,
	"step": 1288000
	},
	{
	"epoch": 10.57,
	"learning_rate": 4.602684899524723e-06,
	"loss": 3.3248,
	"step": 1296000
	},
	{
	"epoch": 10.57,
	"eval_loss": 3.380067825317383,
	"eval_runtime": 115.2061,
	"eval_samples_per_second": 896.437,
	"eval_steps_per_second": 56.03,
	"step": 1296000
	},
	{
	"epoch": 10.63,
	"eval_loss": 3.4026682376861572,
	"eval_runtime": 117.5473,
	"eval_samples_per_second": 878.583,
	"eval_steps_per_second": 54.914,
	"step": 1304000
	},
	{
	"epoch": 10.7,
	"learning_rate": 4.5359793212707415e-06,
	"loss": 3.3217,
	"step": 1312000
	},
	{
	"epoch": 10.7,
	"eval_loss": 3.3781392574310303,
	"eval_runtime": 116.9837,
	"eval_samples_per_second": 882.816,
	"eval_steps_per_second": 55.179,
	"step": 1312000
	},
	{
	"epoch": 10.76,
	"eval_loss": 3.38712477684021,
	"eval_runtime": 116.1554,
	"eval_samples_per_second": 889.111,
	"eval_steps_per_second": 55.572,
	"step": 1320000
	},
	{
	"epoch": 10.83,
	"learning_rate": 4.46927374301676e-06,
	"loss": 3.3227,
	"step": 1328000
	},
	{
	"epoch": 10.83,
	"eval_loss": 3.386099338531494,
	"eval_runtime": 116.8959,
	"eval_samples_per_second": 883.478,
	"eval_steps_per_second": 55.22,
	"step": 1328000
	},
	{
	"epoch": 10.89,
	"eval_loss": 3.378852605819702,
	"eval_runtime": 116.5746,
	"eval_samples_per_second": 885.913,
	"eval_steps_per_second": 55.372,
	"step": 1336000
	},
	{
	"epoch": 10.96,
	"learning_rate": 4.402568164762779e-06,
	"loss": 3.3259,
	"step": 1344000
	},
	{
	"epoch": 10.96,
	"eval_loss": 3.386458158493042,
	"eval_runtime": 116.5428,
	"eval_samples_per_second": 886.155,
	"eval_steps_per_second": 55.387,
	"step": 1344000
	},
	{
	"epoch": 11.02,
	"eval_loss": 3.386268377304077,
	"eval_runtime": 115.7105,
	"eval_samples_per_second": 892.529,
	"eval_steps_per_second": 55.786,
	"step": 1352000
	},
	{
	"epoch": 11.09,
	"learning_rate": 4.335862586508797e-06,
	"loss": 3.3094,
	"step": 1360000
	},
	{
	"epoch": 11.09,
	"eval_loss": 3.3826916217803955,
	"eval_runtime": 118.0068,
	"eval_samples_per_second": 875.161,
	"eval_steps_per_second": 54.7,
	"step": 1360000
	},
	{
	"epoch": 11.15,
	"eval_loss": 3.3880295753479004,
	"eval_runtime": 115.413,
	"eval_samples_per_second": 894.83,
	"eval_steps_per_second": 55.93,
	"step": 1368000
	},
	{
	"epoch": 11.22,
	"learning_rate": 4.269157008254816e-06,
	"loss": 3.3128,
	"step": 1376000
	},
	{
	"epoch": 11.22,
	"eval_loss": 3.365227460861206,
	"eval_runtime": 116.1062,
	"eval_samples_per_second": 889.487,
	"eval_steps_per_second": 55.596,
	"step": 1376000
	},
	{
	"epoch": 11.29,
	"eval_loss": 3.381347179412842,
	"eval_runtime": 119.0899,
	"eval_samples_per_second": 867.202,
	"eval_steps_per_second": 54.203,
	"step": 1384000
	},
	{
	"epoch": 11.35,
	"learning_rate": 4.202451430000834e-06,
	"loss": 3.3088,
	"step": 1392000
	},
	{
	"epoch": 11.35,
	"eval_loss": 3.385295867919922,
	"eval_runtime": 115.9391,
	"eval_samples_per_second": 890.769,
	"eval_steps_per_second": 55.676,
	"step": 1392000
	},
	{
	"epoch": 11.42,
	"eval_loss": 3.3708653450012207,
	"eval_runtime": 116.9766,
	"eval_samples_per_second": 882.869,
	"eval_steps_per_second": 55.182,
	"step": 1400000
	},
	{
	"epoch": 11.48,
	"learning_rate": 4.135745851746852e-06,
	"loss": 3.3067,
	"step": 1408000
	},
	{
	"epoch": 11.48,
	"eval_loss": 3.3830504417419434,
	"eval_runtime": 115.9272,
	"eval_samples_per_second": 890.861,
	"eval_steps_per_second": 55.682,
	"step": 1408000
	},
	{
	"epoch": 11.55,
	"eval_loss": 3.370314598083496,
	"eval_runtime": 117.2105,
	"eval_samples_per_second": 881.107,
	"eval_steps_per_second": 55.072,
	"step": 1416000
	},
	{
	"epoch": 11.61,
	"learning_rate": 4.069040273492872e-06,
	"loss": 3.311,
	"step": 1424000
	},
	{
	"epoch": 11.61,
	"eval_loss": 3.369617223739624,
	"eval_runtime": 116.4339,
	"eval_samples_per_second": 886.984,
	"eval_steps_per_second": 55.439,
	"step": 1424000
	},
	{
	"epoch": 11.68,
	"eval_loss": 3.3768646717071533,
	"eval_runtime": 118.1326,
	"eval_samples_per_second": 874.23,
	"eval_steps_per_second": 54.642,
	"step": 1432000
	},
	{
	"epoch": 11.74,
	"learning_rate": 4.0023346952388895e-06,
	"loss": 3.3048,
	"step": 1440000
	},
	{
	"epoch": 11.74,
	"eval_loss": 3.373983860015869,
	"eval_runtime": 118.2179,
	"eval_samples_per_second": 873.598,
	"eval_steps_per_second": 54.603,
	"step": 1440000
	},
	{
	"epoch": 11.81,
	"eval_loss": 3.3731493949890137,
	"eval_runtime": 116.9055,
	"eval_samples_per_second": 883.406,
	"eval_steps_per_second": 55.216,
	"step": 1448000
	},
	{
	"epoch": 11.87,
	"learning_rate": 3.935629116984908e-06,
	"loss": 3.3055,
	"step": 1456000
	},
	{
	"epoch": 11.87,
	"eval_loss": 3.365483283996582,
	"eval_runtime": 117.1876,
	"eval_samples_per_second": 881.279,
	"eval_steps_per_second": 55.083,
	"step": 1456000
	},
	{
	"epoch": 11.94,
	"eval_loss": 3.3697094917297363,
	"eval_runtime": 117.1788,
	"eval_samples_per_second": 881.346,
	"eval_steps_per_second": 55.087,
	"step": 1464000
	},
	{
	"epoch": 12.0,
	"learning_rate": 3.868923538730927e-06,
	"loss": 3.3105,
	"step": 1472000
	},
	{
	"epoch": 12.0,
	"eval_loss": 3.3741800785064697,
	"eval_runtime": 116.7081,
	"eval_samples_per_second": 884.9,
	"eval_steps_per_second": 55.309,
	"step": 1472000
	},
	{
	"epoch": 12.07,
	"eval_loss": 3.3614203929901123,
	"eval_runtime": 118.1522,
	"eval_samples_per_second": 874.084,
	"eval_steps_per_second": 54.633,
	"step": 1480000
	},
	{
	"epoch": 12.13,
	"learning_rate": 3.8022179604769453e-06,
	"loss": 3.2977,
	"step": 1488000
	},
	{
	"epoch": 12.13,
	"eval_loss": 3.370495319366455,
	"eval_runtime": 117.0737,
	"eval_samples_per_second": 882.137,
	"eval_steps_per_second": 55.136,
	"step": 1488000
	},
	{
	"epoch": 12.2,
	"eval_loss": 3.3746001720428467,
	"eval_runtime": 117.4262,
	"eval_samples_per_second": 879.489,
	"eval_steps_per_second": 54.971,
	"step": 1496000
	},
	{
	"epoch": 12.26,
	"learning_rate": 3.735512382222964e-06,
	"loss": 3.2999,
	"step": 1504000
	},
	{
	"epoch": 12.26,
	"eval_loss": 3.3690757751464844,
	"eval_runtime": 114.9601,
	"eval_samples_per_second": 898.355,
	"eval_steps_per_second": 56.15,
	"step": 1504000
	},
	{
	"epoch": 12.33,
	"eval_loss": 3.374530792236328,
	"eval_runtime": 115.3595,
	"eval_samples_per_second": 895.245,
	"eval_steps_per_second": 55.955,
	"step": 1512000
	},
	{
	"epoch": 12.39,
	"learning_rate": 3.668806803968982e-06,
	"loss": 3.2983,
	"step": 1520000
	},
	{
	"epoch": 12.39,
	"eval_loss": 3.3717198371887207,
	"eval_runtime": 114.9666,
	"eval_samples_per_second": 898.304,
	"eval_steps_per_second": 56.147,
	"step": 1520000
	},
	{
	"epoch": 12.46,
	"eval_loss": 3.368246555328369,
	"eval_runtime": 115.591,
	"eval_samples_per_second": 893.452,
	"eval_steps_per_second": 55.843,
	"step": 1528000
	},
	{
	"epoch": 12.52,
	"learning_rate": 3.6021012257150007e-06,
	"loss": 3.2957,
	"step": 1536000
	},
	{
	"epoch": 12.52,
	"eval_loss": 3.369278907775879,
	"eval_runtime": 116.1156,
	"eval_samples_per_second": 889.416,
	"eval_steps_per_second": 55.591,
	"step": 1536000
	},
	{
	"epoch": 12.59,
	"eval_loss": 3.376443386077881,
	"eval_runtime": 114.7209,
	"eval_samples_per_second": 900.228,
	"eval_steps_per_second": 56.267,
	"step": 1544000
	},
	{
	"epoch": 12.65,
	"learning_rate": 3.535395647461019e-06,
	"loss": 3.293,
	"step": 1552000
	},
	{
	"epoch": 12.65,
	"eval_loss": 3.3690662384033203,
	"eval_runtime": 114.9457,
	"eval_samples_per_second": 898.468,
	"eval_steps_per_second": 56.157,
	"step": 1552000
	},
	{
	"epoch": 12.72,
	"eval_loss": 3.380187511444092,
	"eval_runtime": 115.2975,
	"eval_samples_per_second": 895.726,
	"eval_steps_per_second": 55.986,
	"step": 1560000
	},
	{
	"epoch": 12.79,
	"learning_rate": 3.468690069207038e-06,
	"loss": 3.2919,
	"step": 1568000
	},
	{
	"epoch": 12.79,
	"eval_loss": 3.3626480102539062,
	"eval_runtime": 115.0018,
	"eval_samples_per_second": 898.03,
	"eval_steps_per_second": 56.13,
	"step": 1568000
	},
	{
	"epoch": 12.85,
	"eval_loss": 3.3604438304901123,
	"eval_runtime": 116.2394,
	"eval_samples_per_second": 888.468,
	"eval_steps_per_second": 55.532,
	"step": 1576000
	},
	{
	"epoch": 12.92,
	"learning_rate": 3.4019844909530565e-06,
	"loss": 3.3023,
	"step": 1584000
	},
	{
	"epoch": 12.92,
	"eval_loss": 3.374943971633911,
	"eval_runtime": 115.4828,
	"eval_samples_per_second": 894.289,
	"eval_steps_per_second": 55.896,
	"step": 1584000
	},
	{
	"epoch": 12.98,
	"eval_loss": 3.368828773498535,
	"eval_runtime": 114.8626,
	"eval_samples_per_second": 899.118,
	"eval_steps_per_second": 56.198,
	"step": 1592000
	},
	{
	"epoch": 13.05,
	"learning_rate": 3.3352789126990747e-06,
	"loss": 3.2988,
	"step": 1600000
	},
	{
	"epoch": 13.05,
	"eval_loss": 3.3666255474090576,
	"eval_runtime": 115.7226,
	"eval_samples_per_second": 892.436,
	"eval_steps_per_second": 55.78,
	"step": 1600000
	},
	{
	"epoch": 13.11,
	"eval_loss": 3.369481325149536,
	"eval_runtime": 116.2492,
	"eval_samples_per_second": 888.393,
	"eval_steps_per_second": 55.527,
	"step": 1608000
	},
	{
	"epoch": 13.18,
	"learning_rate": 3.2685733344450933e-06,
	"loss": 3.2924,
	"step": 1616000
	},
	{
	"epoch": 13.18,
	"eval_loss": 3.364980697631836,
	"eval_runtime": 114.892,
	"eval_samples_per_second": 898.887,
	"eval_steps_per_second": 56.183,
	"step": 1616000
	},
	{
	"epoch": 13.24,
	"eval_loss": 3.3651351928710938,
	"eval_runtime": 114.7414,
	"eval_samples_per_second": 900.068,
	"eval_steps_per_second": 56.257,
	"step": 1624000
	},
	{
	"epoch": 13.31,
	"learning_rate": 3.2018677561911115e-06,
	"loss": 3.2958,
	"step": 1632000
	},
	{
	"epoch": 13.31,
	"eval_loss": 3.369225263595581,
	"eval_runtime": 115.9526,
	"eval_samples_per_second": 890.666,
	"eval_steps_per_second": 55.669,
	"step": 1632000
	},
	{
	"epoch": 13.37,
	"eval_loss": 3.3855459690093994,
	"eval_runtime": 114.8307,
	"eval_samples_per_second": 899.367,
	"eval_steps_per_second": 56.213,
	"step": 1640000
	},
	{
	"epoch": 13.44,
	"learning_rate": 3.1351621779371306e-06,
	"loss": 3.2918,
	"step": 1648000
	},
	{
	"epoch": 13.44,
	"eval_loss": 3.3706300258636475,
	"eval_runtime": 115.344,
	"eval_samples_per_second": 895.365,
	"eval_steps_per_second": 55.963,
	"step": 1648000
	},
	{
	"epoch": 13.5,
	"eval_loss": 3.3680288791656494,
	"eval_runtime": 114.7321,
	"eval_samples_per_second": 900.14,
	"eval_steps_per_second": 56.261,
	"step": 1656000
	},
	{
	"epoch": 13.57,
	"learning_rate": 3.0684565996831487e-06,
	"loss": 3.2948,
	"step": 1664000
	},
	{
	"epoch": 13.57,
	"eval_loss": 3.353415012359619,
	"eval_runtime": 116.4266,
	"eval_samples_per_second": 887.039,
	"eval_steps_per_second": 55.443,
	"step": 1664000
	},
	{
	"epoch": 13.63,
	"eval_loss": 3.369929790496826,
	"eval_runtime": 114.8306,
	"eval_samples_per_second": 899.369,
	"eval_steps_per_second": 56.213,
	"step": 1672000
	},
	{
	"epoch": 13.7,
	"learning_rate": 3.0017510214291673e-06,
	"loss": 3.2996,
	"step": 1680000
	},
	{
	"epoch": 13.7,
	"eval_loss": 3.3732664585113525,
	"eval_runtime": 115.7005,
	"eval_samples_per_second": 892.607,
	"eval_steps_per_second": 55.791,
	"step": 1680000
	},
	{
	"epoch": 13.76,
	"eval_loss": 3.3764214515686035,
	"eval_runtime": 115.4981,
	"eval_samples_per_second": 894.171,
	"eval_steps_per_second": 55.888,
	"step": 1688000
	},
	{
	"epoch": 13.83,
	"learning_rate": 2.9350454431751855e-06,
	"loss": 3.2999,
	"step": 1696000
	},
	{
	"epoch": 13.83,
	"eval_loss": 3.3792943954467773,
	"eval_runtime": 116.0913,
	"eval_samples_per_second": 889.602,
	"eval_steps_per_second": 55.603,
	"step": 1696000
	},
	{
	"epoch": 13.89,
	"eval_loss": 3.368272304534912,
	"eval_runtime": 116.0753,
	"eval_samples_per_second": 889.724,
	"eval_steps_per_second": 55.61,
	"step": 1704000
	},
	{
	"epoch": 13.96,
	"learning_rate": 2.868339864921204e-06,
	"loss": 3.291,
	"step": 1712000
	},
	{
	"epoch": 13.96,
	"eval_loss": 3.3653597831726074,
	"eval_runtime": 115.5031,
	"eval_samples_per_second": 894.132,
	"eval_steps_per_second": 55.886,
	"step": 1712000
	},
	{
	"epoch": 14.02,
	"eval_loss": 3.372131109237671,
	"eval_runtime": 115.6199,
	"eval_samples_per_second": 893.228,
	"eval_steps_per_second": 55.829,
	"step": 1720000
	},
	{
	"epoch": 14.09,
	"learning_rate": 2.801634286667223e-06,
	"loss": 3.2952,
	"step": 1728000
	},
	{
	"epoch": 14.09,
	"eval_loss": 3.367438316345215,
	"eval_runtime": 115.0009,
	"eval_samples_per_second": 898.037,
	"eval_steps_per_second": 56.13,
	"step": 1728000
	},
	{
	"epoch": 14.16,
	"eval_loss": 3.3762009143829346,
	"eval_runtime": 115.4616,
	"eval_samples_per_second": 894.453,
	"eval_steps_per_second": 55.906,
	"step": 1736000
	},
	{
	"epoch": 14.22,
	"learning_rate": 2.7349287084132413e-06,
	"loss": 3.2866,
	"step": 1744000
	},
	{
	"epoch": 14.22,
	"eval_loss": 3.3699355125427246,
	"eval_runtime": 114.9346,
	"eval_samples_per_second": 898.554,
	"eval_steps_per_second": 56.162,
	"step": 1744000
	},
	{
	"epoch": 14.29,
	"eval_loss": 3.3690149784088135,
	"eval_runtime": 115.9293,
	"eval_samples_per_second": 890.845,
	"eval_steps_per_second": 55.681,
	"step": 1752000
	},
	{
	"epoch": 14.35,
	"learning_rate": 2.66822313015926e-06,
	"loss": 3.2825,
	"step": 1760000
	},
	{
	"epoch": 14.35,
	"eval_loss": 3.365321636199951,
	"eval_runtime": 114.9037,
	"eval_samples_per_second": 898.796,
	"eval_steps_per_second": 56.177,
	"step": 1760000
	},
	{
	"epoch": 14.42,
	"eval_loss": 3.368727207183838,
	"eval_runtime": 115.3436,
	"eval_samples_per_second": 895.369,
	"eval_steps_per_second": 55.963,
	"step": 1768000
	},
	{
	"epoch": 14.48,
	"learning_rate": 2.601517551905278e-06,
	"loss": 3.2825,
	"step": 1776000
	},
	{
	"epoch": 14.48,
	"eval_loss": 3.3617701530456543,
	"eval_runtime": 115.7714,
	"eval_samples_per_second": 892.06,
	"eval_steps_per_second": 55.756,
	"step": 1776000
	},
	{
	"epoch": 14.55,
	"eval_loss": 3.3609282970428467,
	"eval_runtime": 114.879,
	"eval_samples_per_second": 898.989,
	"eval_steps_per_second": 56.19,
	"step": 1784000
	},
	{
	"epoch": 14.61,
	"learning_rate": 2.5348119736512967e-06,
	"loss": 3.2744,
	"step": 1792000
	},
	{
	"epoch": 14.61,
	"eval_loss": 3.3552184104919434,
	"eval_runtime": 114.6789,
	"eval_samples_per_second": 900.558,
	"eval_steps_per_second": 56.288,
	"step": 1792000
	},
	{
	"epoch": 14.68,
	"eval_loss": 3.3549087047576904,
	"eval_runtime": 116.3921,
	"eval_samples_per_second": 887.303,
	"eval_steps_per_second": 55.459,
	"step": 1800000
	},
	{
	"epoch": 14.74,
	"learning_rate": 2.4681063953973154e-06,
	"loss": 3.2811,
	"step": 1808000
	},
	{
	"epoch": 14.74,
	"eval_loss": 3.3504152297973633,
	"eval_runtime": 115.0014,
	"eval_samples_per_second": 898.032,
	"eval_steps_per_second": 56.13,
	"step": 1808000
	},
	{
	"epoch": 14.81,
	"eval_loss": 3.3574647903442383,
	"eval_runtime": 115.1236,
	"eval_samples_per_second": 897.079,
	"eval_steps_per_second": 56.07,
	"step": 1816000
	},
	{
	"epoch": 14.87,
	"learning_rate": 2.4014008171433335e-06,
	"loss": 3.2672,
	"step": 1824000
	},
	{
	"epoch": 14.87,
	"eval_loss": 3.3587796688079834,
	"eval_runtime": 116.6416,
	"eval_samples_per_second": 885.404,
	"eval_steps_per_second": 55.34,
	"step": 1824000
	},
	{
	"epoch": 14.94,
	"eval_loss": 3.3559627532958984,
	"eval_runtime": 116.2457,
	"eval_samples_per_second": 888.42,
	"eval_steps_per_second": 55.529,
	"step": 1832000
	},
	{
	"epoch": 15.0,
	"learning_rate": 2.334695238889352e-06,
	"loss": 3.2919,
	"step": 1840000
	},
	{
	"epoch": 15.0,
	"eval_loss": 3.359805107116699,
	"eval_runtime": 115.5497,
	"eval_samples_per_second": 893.771,
	"eval_steps_per_second": 55.863,
	"step": 1840000
	},
	{
	"epoch": 15.07,
	"eval_loss": 3.344524383544922,
	"eval_runtime": 115.5133,
	"eval_samples_per_second": 894.053,
	"eval_steps_per_second": 55.881,
	"step": 1848000
	},
	{
	"epoch": 15.13,
	"learning_rate": 2.2679896606353707e-06,
	"loss": 3.2724,
	"step": 1856000
	},
	{
	"epoch": 15.13,
	"eval_loss": 3.3516576290130615,
	"eval_runtime": 115.2664,
	"eval_samples_per_second": 895.968,
	"eval_steps_per_second": 56.001,
	"step": 1856000
	},
	{
	"epoch": 15.2,
	"eval_loss": 3.359280824661255,
	"eval_runtime": 116.0103,
	"eval_samples_per_second": 890.223,
	"eval_steps_per_second": 55.642,
	"step": 1864000
	},
	{
	"epoch": 15.26,
	"learning_rate": 2.2012840823813894e-06,
	"loss": 3.277,
	"step": 1872000
	},
	{
	"epoch": 15.26,
	"eval_loss": 3.3597874641418457,
	"eval_runtime": 114.9804,
	"eval_samples_per_second": 898.197,
	"eval_steps_per_second": 56.14,
	"step": 1872000
	},
	{
	"epoch": 15.33,
	"eval_loss": 3.345801591873169,
	"eval_runtime": 116.1901,
	"eval_samples_per_second": 888.845,
	"eval_steps_per_second": 55.555,
	"step": 1880000
	},
	{
	"epoch": 15.39,
	"learning_rate": 2.134578504127408e-06,
	"loss": 3.2842,
	"step": 1888000
	},
	{
	"epoch": 15.39,
	"eval_loss": 3.3583106994628906,
	"eval_runtime": 114.8266,
	"eval_samples_per_second": 899.399,
	"eval_steps_per_second": 56.215,
	"step": 1888000
	},
	{
	"epoch": 15.46,
	"eval_loss": 3.3447749614715576,
	"eval_runtime": 114.9801,
	"eval_samples_per_second": 898.199,
	"eval_steps_per_second": 56.14,
	"step": 1896000
	},
	{
	"epoch": 15.53,
	"learning_rate": 2.067872925873426e-06,
	"loss": 3.2758,
	"step": 1904000
	},
	{
	"epoch": 15.53,
	"eval_loss": 3.3593051433563232,
	"eval_runtime": 114.9092,
	"eval_samples_per_second": 898.753,
	"eval_steps_per_second": 56.175,
	"step": 1904000
	},
	{
	"epoch": 15.59,
	"eval_loss": 3.3551743030548096,
	"eval_runtime": 115.5179,
	"eval_samples_per_second": 894.017,
	"eval_steps_per_second": 55.879,
	"step": 1912000
	},
	{
	"epoch": 15.66,
	"learning_rate": 2.0011673476194448e-06,
	"loss": 3.2684,
	"step": 1920000
	},
	{
	"epoch": 15.66,
	"eval_loss": 3.371454954147339,
	"eval_runtime": 114.8944,
	"eval_samples_per_second": 898.869,
	"eval_steps_per_second": 56.182,
	"step": 1920000
	},
	{
	"epoch": 15.72,
	"eval_loss": 3.3543806076049805,
	"eval_runtime": 115.4862,
	"eval_samples_per_second": 894.263,
	"eval_steps_per_second": 55.894,
	"step": 1928000
	},
	{
	"epoch": 15.79,
	"learning_rate": 1.9344617693654634e-06,
	"loss": 3.2924,
	"step": 1936000
	},
	{
	"epoch": 15.79,
	"eval_loss": 3.3514981269836426,
	"eval_runtime": 115.0356,
	"eval_samples_per_second": 897.766,
	"eval_steps_per_second": 56.113,
	"step": 1936000
	},
	{
	"epoch": 15.85,
	"eval_loss": 3.36460018157959,
	"eval_runtime": 115.4242,
	"eval_samples_per_second": 894.743,
	"eval_steps_per_second": 55.924,
	"step": 1944000
	},
	{
	"epoch": 15.92,
	"learning_rate": 1.867756191111482e-06,
	"loss": 3.2673,
	"step": 1952000
	},
	{
	"epoch": 15.92,
	"eval_loss": 3.353806495666504,
	"eval_runtime": 115.3905,
	"eval_samples_per_second": 895.004,
	"eval_steps_per_second": 55.94,
	"step": 1952000
	},
	{
	"epoch": 15.98,
	"eval_loss": 3.3436896800994873,
	"eval_runtime": 114.7945,
	"eval_samples_per_second": 899.651,
	"eval_steps_per_second": 56.231,
	"step": 1960000
	},
	{
	"epoch": 16.05,
	"learning_rate": 1.8010506128575004e-06,
	"loss": 3.2833,
	"step": 1968000
	},
	{
	"epoch": 16.05,
	"eval_loss": 3.3442821502685547,
	"eval_runtime": 116.1629,
	"eval_samples_per_second": 889.053,
	"eval_steps_per_second": 55.569,
	"step": 1968000
	},
	{
	"epoch": 16.11,
	"eval_loss": 3.361924886703491,
	"eval_runtime": 116.4426,
	"eval_samples_per_second": 886.917,
	"eval_steps_per_second": 55.435,
	"step": 1976000
	},
	{
	"epoch": 16.18,
	"learning_rate": 1.734345034603519e-06,
	"loss": 3.2636,
	"step": 1984000
	},
	{
	"epoch": 16.18,
	"eval_loss": 3.3510515689849854,
	"eval_runtime": 115.8529,
	"eval_samples_per_second": 891.432,
	"eval_steps_per_second": 55.717,
	"step": 1984000
	},
	{
	"epoch": 16.24,
	"eval_loss": 3.3447539806365967,
	"eval_runtime": 114.926,
	"eval_samples_per_second": 898.622,
	"eval_steps_per_second": 56.167,
	"step": 1992000
	},
	{
	"epoch": 16.31,
	"learning_rate": 1.6676394563495374e-06,
	"loss": 3.2753,
	"step": 2000000
	},
	{
	"epoch": 16.31,
	"eval_loss": 3.355980396270752,
	"eval_runtime": 115.4649,
	"eval_samples_per_second": 894.427,
	"eval_steps_per_second": 55.904,
	"step": 2000000
	},
	{
	"epoch": 16.37,
	"eval_loss": 3.3524882793426514,
	"eval_runtime": 118.2786,
	"eval_samples_per_second": 873.151,
	"eval_steps_per_second": 54.575,
	"step": 2008000
	},
	{
	"epoch": 16.44,
	"learning_rate": 1.6009338780955558e-06,
	"loss": 3.2701,
	"step": 2016000
	},
	{
	"epoch": 16.44,
	"eval_loss": 3.355792760848999,
	"eval_runtime": 115.0046,
	"eval_samples_per_second": 898.008,
	"eval_steps_per_second": 56.128,
	"step": 2016000
	},
	{
	"epoch": 16.5,
	"eval_loss": 3.3558590412139893,
	"eval_runtime": 115.5093,
	"eval_samples_per_second": 894.084,
	"eval_steps_per_second": 55.883,
	"step": 2024000
	},
	{
	"epoch": 16.57,
	"learning_rate": 1.5342282998415744e-06,
	"loss": 3.2761,
	"step": 2032000
	},
	{
	"epoch": 16.57,
	"eval_loss": 3.3439648151397705,
	"eval_runtime": 114.8803,
	"eval_samples_per_second": 898.979,
	"eval_steps_per_second": 56.189,
	"step": 2032000
	},
	{
	"epoch": 16.63,
	"eval_loss": 3.3505825996398926,
	"eval_runtime": 115.5177,
	"eval_samples_per_second": 894.019,
	"eval_steps_per_second": 55.879,
	"step": 2040000
	},
	{
	"epoch": 16.7,
	"learning_rate": 1.4675227215875928e-06,
	"loss": 3.2677,
	"step": 2048000
	},
	{
	"epoch": 16.7,
	"eval_loss": 3.3473587036132812,
	"eval_runtime": 115.2604,
	"eval_samples_per_second": 896.014,
	"eval_steps_per_second": 56.004,
	"step": 2048000
	},
	{
	"epoch": 16.76,
	"eval_loss": 3.3614845275878906,
	"eval_runtime": 114.7851,
	"eval_samples_per_second": 899.724,
	"eval_steps_per_second": 56.236,
	"step": 2056000
	},
	{
	"epoch": 16.83,
	"learning_rate": 1.4008171433336116e-06,
	"loss": 3.2614,
	"step": 2064000
	},
	{
	"epoch": 16.83,
	"eval_loss": 3.350660562515259,
	"eval_runtime": 116.1258,
	"eval_samples_per_second": 889.337,
	"eval_steps_per_second": 55.586,
	"step": 2064000
	},
	{
	"epoch": 16.89,
	"eval_loss": 3.34436297416687,
	"eval_runtime": 114.7641,
	"eval_samples_per_second": 899.89,
	"eval_steps_per_second": 56.246,
	"step": 2072000
	},
	{
	"epoch": 16.96,
	"learning_rate": 1.33411156507963e-06,
	"loss": 3.2608,
	"step": 2080000
	},
	{
	"epoch": 16.96,
	"eval_loss": 3.352665901184082,
	"eval_runtime": 114.9595,
	"eval_samples_per_second": 898.36,
	"eval_steps_per_second": 56.15,
	"step": 2080000
	},
	{
	"epoch": 17.03,
	"eval_loss": 3.3398256301879883,
	"eval_runtime": 114.8716,
	"eval_samples_per_second": 899.047,
	"eval_steps_per_second": 56.193,
	"step": 2088000
	},
	{
	"epoch": 17.09,
	"learning_rate": 1.2674059868256484e-06,
	"loss": 3.2643,
	"step": 2096000
	},
	{
	"epoch": 17.09,
	"eval_loss": 3.3497581481933594,
	"eval_runtime": 115.3741,
	"eval_samples_per_second": 895.132,
	"eval_steps_per_second": 55.948,
	"step": 2096000
	},
	{
	"epoch": 17.16,
	"eval_loss": 3.3348639011383057,
	"eval_runtime": 114.8223,
	"eval_samples_per_second": 899.434,
	"eval_steps_per_second": 56.217,
	"step": 2104000
	},
	{
	"epoch": 17.22,
	"learning_rate": 1.2007004085716668e-06,
	"loss": 3.2721,
	"step": 2112000
	},
	{
	"epoch": 17.22,
	"eval_loss": 3.356008291244507,
	"eval_runtime": 115.5116,
	"eval_samples_per_second": 894.066,
	"eval_steps_per_second": 55.882,
	"step": 2112000
	},
	{
	"epoch": 17.29,
	"eval_loss": 3.3421435356140137,
	"eval_runtime": 115.5912,
	"eval_samples_per_second": 893.45,
	"eval_steps_per_second": 55.843,
	"step": 2120000
	},
	{
	"epoch": 17.35,
	"learning_rate": 1.1339948303176854e-06,
	"loss": 3.266,
	"step": 2128000
	},
	{
	"epoch": 17.35,
	"eval_loss": 3.342872142791748,
	"eval_runtime": 115.0319,
	"eval_samples_per_second": 897.794,
	"eval_steps_per_second": 56.115,
	"step": 2128000
	},
	{
	"epoch": 17.42,
	"eval_loss": 3.337078809738159,
	"eval_runtime": 114.7057,
	"eval_samples_per_second": 900.347,
	"eval_steps_per_second": 56.274,
	"step": 2136000
	},
	{
	"epoch": 17.48,
	"learning_rate": 1.067289252063704e-06,
	"loss": 3.2551,
	"step": 2144000
	},
	{
	"epoch": 17.48,
	"eval_loss": 3.340388774871826,
	"eval_runtime": 115.5719,
	"eval_samples_per_second": 893.599,
	"eval_steps_per_second": 55.853,
	"step": 2144000
	},
	{
	"epoch": 17.55,
	"eval_loss": 3.349374771118164,
	"eval_runtime": 116.2218,
	"eval_samples_per_second": 888.603,
	"eval_steps_per_second": 55.54,
	"step": 2152000
	},
	{
	"epoch": 17.61,
	"learning_rate": 1.0005836738097224e-06,
	"loss": 3.26,
	"step": 2160000
	},
	{
	"epoch": 17.61,
	"eval_loss": 3.3389031887054443,
	"eval_runtime": 115.0165,
	"eval_samples_per_second": 897.915,
	"eval_steps_per_second": 56.122,
	"step": 2160000
	},
	{
	"epoch": 17.68,
	"eval_loss": 3.345613718032837,
	"eval_runtime": 114.2481,
	"eval_samples_per_second": 903.954,
	"eval_steps_per_second": 56.5,
	"step": 2168000
	},
	{
	"epoch": 17.74,
	"learning_rate": 9.33878095555741e-07,
	"loss": 3.2528,
	"step": 2176000
	},
	{
	"epoch": 17.74,
	"eval_loss": 3.3248987197875977,
	"eval_runtime": 115.0558,
	"eval_samples_per_second": 897.608,
	"eval_steps_per_second": 56.103,
	"step": 2176000
	},
	{
	"epoch": 17.81,
	"eval_loss": 3.3452157974243164,
	"eval_runtime": 116.2164,
	"eval_samples_per_second": 888.644,
	"eval_steps_per_second": 55.543,
	"step": 2184000
	},
	{
	"epoch": 17.87,
	"learning_rate": 8.671725173017595e-07,
	"loss": 3.2602,
	"step": 2192000
	},
	{
	"epoch": 17.87,
	"eval_loss": 3.33760929107666,
	"eval_runtime": 116.1157,
	"eval_samples_per_second": 889.414,
	"eval_steps_per_second": 55.591,
	"step": 2192000
	},
	{
	"epoch": 17.94,
	"eval_loss": 3.351128101348877,
	"eval_runtime": 114.6575,
	"eval_samples_per_second": 900.726,
	"eval_steps_per_second": 56.298,
	"step": 2200000
	},
	{
	"epoch": 18.0,
	"learning_rate": 8.004669390477779e-07,
	"loss": 3.2492,
	"step": 2208000
	},
	{
	"epoch": 18.0,
	"eval_loss": 3.347473621368408,
	"eval_runtime": 115.2092,
	"eval_samples_per_second": 896.413,
	"eval_steps_per_second": 56.029,
	"step": 2208000
	},
	{
	"epoch": 18.07,
	"eval_loss": 3.349674940109253,
	"eval_runtime": 115.6497,
	"eval_samples_per_second": 892.998,
	"eval_steps_per_second": 55.815,
	"step": 2216000
	},
	{
	"epoch": 18.13,
	"learning_rate": 7.337613607937964e-07,
	"loss": 3.2469,
	"step": 2224000
	},
	{
	"epoch": 18.13,
	"eval_loss": 3.3378491401672363,
	"eval_runtime": 114.9296,
	"eval_samples_per_second": 898.594,
	"eval_steps_per_second": 56.165,
	"step": 2224000
	},
	{
	"epoch": 18.2,
	"eval_loss": 3.332571029663086,
	"eval_runtime": 115.4244,
	"eval_samples_per_second": 894.742,
	"eval_steps_per_second": 55.924,
	"step": 2232000
	},
	{
	"epoch": 18.26,
	"learning_rate": 6.67055782539815e-07,
	"loss": 3.2589,
	"step": 2240000
	},
	{
	"epoch": 18.26,
	"eval_loss": 3.3277342319488525,
	"eval_runtime": 114.9762,
	"eval_samples_per_second": 898.229,
	"eval_steps_per_second": 56.142,
	"step": 2240000
	},
	{
	"epoch": 18.33,
	"eval_loss": 3.3456978797912598,
	"eval_runtime": 116.0675,
	"eval_samples_per_second": 889.784,
	"eval_steps_per_second": 55.614,
	"step": 2248000
	},
	{
	"epoch": 18.4,
	"learning_rate": 6.003502042858334e-07,
	"loss": 3.2548,
	"step": 2256000
	},
	{
	"epoch": 18.4,
	"eval_loss": 3.334270715713501,
	"eval_runtime": 115.7666,
	"eval_samples_per_second": 892.097,
	"eval_steps_per_second": 55.759,
	"step": 2256000
	},
	{
	"epoch": 18.46,
	"eval_loss": 3.3362197875976562,
	"eval_runtime": 115.5031,
	"eval_samples_per_second": 894.132,
	"eval_steps_per_second": 55.886,
	"step": 2264000
	},
	{
	"epoch": 18.53,
	"learning_rate": 5.33644626031852e-07,
	"loss": 3.2589,
	"step": 2272000
	},
	{
	"epoch": 18.53,
	"eval_loss": 3.343080997467041,
	"eval_runtime": 115.3187,
	"eval_samples_per_second": 895.561,
	"eval_steps_per_second": 55.975,
	"step": 2272000
	},
	{
	"epoch": 18.59,
	"eval_loss": 3.3428003787994385,
	"eval_runtime": 115.3186,
	"eval_samples_per_second": 895.563,
	"eval_steps_per_second": 55.975,
	"step": 2280000
	},
	{
	"epoch": 18.66,
	"learning_rate": 4.669390477778705e-07,
	"loss": 3.2674,
	"step": 2288000
	},
	{
	"epoch": 18.66,
	"eval_loss": 3.3400795459747314,
	"eval_runtime": 114.7905,
	"eval_samples_per_second": 899.682,
	"eval_steps_per_second": 56.233,
	"step": 2288000
	},
	{
	"epoch": 18.72,
	"eval_loss": 3.337498903274536,
	"eval_runtime": 114.9489,
	"eval_samples_per_second": 898.443,
	"eval_steps_per_second": 56.155,
	"step": 2296000
	},
	{
	"epoch": 18.79,
	"learning_rate": 4.0023346952388894e-07,
	"loss": 3.2561,
	"step": 2304000
	},
	{
	"epoch": 18.79,
	"eval_loss": 3.3333868980407715,
	"eval_runtime": 114.8393,
	"eval_samples_per_second": 899.3,
	"eval_steps_per_second": 56.209,
	"step": 2304000
	},
	{
	"epoch": 18.85,
	"eval_loss": 3.3320717811584473,
	"eval_runtime": 115.0159,
	"eval_samples_per_second": 897.919,
	"eval_steps_per_second": 56.123,
	"step": 2312000
	},
	{
	"epoch": 18.92,
	"learning_rate": 3.335278912699075e-07,
	"loss": 3.2452,
	"step": 2320000
	},
	{
	"epoch": 18.92,
	"eval_loss": 3.3445632457733154,
	"eval_runtime": 114.9617,
	"eval_samples_per_second": 898.342,
	"eval_steps_per_second": 56.149,
	"step": 2320000
	},
	{
	"epoch": 18.98,
	"eval_loss": 3.3525032997131348,
	"eval_runtime": 116.2145,
	"eval_samples_per_second": 888.659,
	"eval_steps_per_second": 55.544,
	"step": 2328000
	},
	{
	"epoch": 19.05,
	"learning_rate": 2.66822313015926e-07,
	"loss": 3.259,
	"step": 2336000
	},
	{
	"epoch": 19.05,
	"eval_loss": 3.331772804260254,
	"eval_runtime": 115.4929,
	"eval_samples_per_second": 894.211,
	"eval_steps_per_second": 55.891,
	"step": 2336000
	},
	{
	"epoch": 19.11,
	"eval_loss": 3.3451852798461914,
	"eval_runtime": 115.1546,
	"eval_samples_per_second": 896.838,
	"eval_steps_per_second": 56.055,
	"step": 2344000
	},
	{
	"epoch": 19.18,
	"learning_rate": 2.0011673476194447e-07,
	"loss": 3.2494,
	"step": 2352000
	},
	{
	"epoch": 19.18,
	"eval_loss": 3.335479497909546,
	"eval_runtime": 114.4583,
	"eval_samples_per_second": 902.293,
	"eval_steps_per_second": 56.396,
	"step": 2352000
	},
	{
	"epoch": 19.24,
	"eval_loss": 3.3322434425354004,
	"eval_runtime": 116.1476,
	"eval_samples_per_second": 889.17,
	"eval_steps_per_second": 55.576,
	"step": 2360000
	},
	{
	"epoch": 19.31,
	"learning_rate": 1.33411156507963e-07,
	"loss": 3.2558,
	"step": 2368000
	},
	{
	"epoch": 19.31,
	"eval_loss": 3.325453281402588,
	"eval_runtime": 114.8662,
	"eval_samples_per_second": 899.089,
	"eval_steps_per_second": 56.196,
	"step": 2368000
	},
	{
	"epoch": 19.37,
	"eval_loss": 3.3329989910125732,
	"eval_runtime": 117.9929,
	"eval_samples_per_second": 875.265,
	"eval_steps_per_second": 54.707,
	"step": 2376000
	},
	{
	"epoch": 19.44,
	"learning_rate": 6.67055782539815e-08,
	"loss": 3.2436,
	"step": 2384000
	},
	{
	"epoch": 19.44,
	"eval_loss": 3.3357789516448975,
	"eval_runtime": 117.7235,
	"eval_samples_per_second": 877.268,
	"eval_steps_per_second": 54.832,
	"step": 2384000
	},
	{
	"epoch": 19.5,
	"eval_loss": 3.3287487030029297,
	"eval_runtime": 115.6745,
	"eval_samples_per_second": 892.807,
	"eval_steps_per_second": 55.803,
	"step": 2392000
	},
	{
	"epoch": 19.57,
	"learning_rate": 0.0,
	"loss": 3.2545,
	"step": 2400000
	},
	{
	"epoch": 19.57,
	"eval_loss": 3.3321266174316406,
	"eval_runtime": 115.8716,
	"eval_samples_per_second": 891.289,
	"eval_steps_per_second": 55.708,
	"step": 2400000
	},
	{
	"epoch": 19.57,
	"step": 2400000,
	"total_flos": 6.9600759359113e+17,
	"train_loss": 3.268406458333333,
	"train_runtime": 194422.9949,
	"train_samples_per_second": 197.508,
	"train_steps_per_second": 12.344
	}
	],
	"logging_steps": 16000,
	"max_steps": 2400000,
	"num_train_epochs": 20,
	"save_steps": 32000,
	"total_flos": 6.9600759359113e+17,
	"trial_name": null,
	"trial_params": null
	}