2020-Q2-75p-filtered-random / trainer_state.json

End of training

d08961f verified about 1 year ago

81.1 kB

	{
	"best_metric": 1.9274845123291016,
	"best_model_checkpoint": "./model_tweets_2020_Q2_75/checkpoint-2368000",
	"epoch": 20.210526315789473,
	"eval_steps": 8000,
	"global_step": 2400000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.07,
	"eval_loss": 2.2326369285583496,
	"eval_runtime": 109.1141,
	"eval_samples_per_second": 916.472,
	"eval_steps_per_second": 57.279,
	"step": 8000
	},
	{
	"epoch": 0.13,
	"learning_rate": 4.0726666666666665e-07,
	"loss": 2.407,
	"step": 16000
	},
	{
	"epoch": 0.13,
	"eval_loss": 2.1531760692596436,
	"eval_runtime": 109.5721,
	"eval_samples_per_second": 912.641,
	"eval_steps_per_second": 57.04,
	"step": 16000
	},
	{
	"epoch": 0.2,
	"eval_loss": 2.1194541454315186,
	"eval_runtime": 109.8202,
	"eval_samples_per_second": 910.579,
	"eval_steps_per_second": 56.911,
	"step": 24000
	},
	{
	"epoch": 0.27,
	"learning_rate": 4.0453333333333336e-07,
	"loss": 2.23,
	"step": 32000
	},
	{
	"epoch": 0.27,
	"eval_loss": 2.0944020748138428,
	"eval_runtime": 109.9526,
	"eval_samples_per_second": 909.483,
	"eval_steps_per_second": 56.843,
	"step": 32000
	},
	{
	"epoch": 0.34,
	"eval_loss": 2.0625503063201904,
	"eval_runtime": 109.6461,
	"eval_samples_per_second": 912.025,
	"eval_steps_per_second": 57.002,
	"step": 40000
	},
	{
	"epoch": 0.4,
	"learning_rate": 4.018e-07,
	"loss": 2.1798,
	"step": 48000
	},
	{
	"epoch": 0.4,
	"eval_loss": 2.0516622066497803,
	"eval_runtime": 110.2889,
	"eval_samples_per_second": 906.71,
	"eval_steps_per_second": 56.669,
	"step": 48000
	},
	{
	"epoch": 0.47,
	"eval_loss": 2.0354814529418945,
	"eval_runtime": 109.7487,
	"eval_samples_per_second": 911.173,
	"eval_steps_per_second": 56.948,
	"step": 56000
	},
	{
	"epoch": 0.54,
	"learning_rate": 3.9906666666666667e-07,
	"loss": 2.1621,
	"step": 64000
	},
	{
	"epoch": 0.54,
	"eval_loss": 2.0469346046447754,
	"eval_runtime": 109.2938,
	"eval_samples_per_second": 914.965,
	"eval_steps_per_second": 57.185,
	"step": 64000
	},
	{
	"epoch": 0.61,
	"eval_loss": 2.0306453704833984,
	"eval_runtime": 109.5416,
	"eval_samples_per_second": 912.895,
	"eval_steps_per_second": 57.056,
	"step": 72000
	},
	{
	"epoch": 0.67,
	"learning_rate": 3.963333333333333e-07,
	"loss": 2.1419,
	"step": 80000
	},
	{
	"epoch": 0.67,
	"eval_loss": 2.018167018890381,
	"eval_runtime": 109.7315,
	"eval_samples_per_second": 911.315,
	"eval_steps_per_second": 56.957,
	"step": 80000
	},
	{
	"epoch": 0.74,
	"eval_loss": 2.0107083320617676,
	"eval_runtime": 109.0625,
	"eval_samples_per_second": 916.905,
	"eval_steps_per_second": 57.307,
	"step": 88000
	},
	{
	"epoch": 0.81,
	"learning_rate": 3.936e-07,
	"loss": 2.1264,
	"step": 96000
	},
	{
	"epoch": 0.81,
	"eval_loss": 2.0096383094787598,
	"eval_runtime": 109.3127,
	"eval_samples_per_second": 914.807,
	"eval_steps_per_second": 57.175,
	"step": 96000
	},
	{
	"epoch": 0.88,
	"eval_loss": 2.010380506515503,
	"eval_runtime": 110.6854,
	"eval_samples_per_second": 903.462,
	"eval_steps_per_second": 56.466,
	"step": 104000
	},
	{
	"epoch": 0.94,
	"learning_rate": 3.908666666666667e-07,
	"loss": 2.1203,
	"step": 112000
	},
	{
	"epoch": 0.94,
	"eval_loss": 2.003709077835083,
	"eval_runtime": 109.0039,
	"eval_samples_per_second": 917.399,
	"eval_steps_per_second": 57.337,
	"step": 112000
	},
	{
	"epoch": 1.01,
	"eval_loss": 2.0078485012054443,
	"eval_runtime": 109.4142,
	"eval_samples_per_second": 913.958,
	"eval_steps_per_second": 57.122,
	"step": 120000
	},
	{
	"epoch": 1.08,
	"learning_rate": 3.8813333333333334e-07,
	"loss": 2.1116,
	"step": 128000
	},
	{
	"epoch": 1.08,
	"eval_loss": 1.9965349435806274,
	"eval_runtime": 109.9802,
	"eval_samples_per_second": 909.255,
	"eval_steps_per_second": 56.828,
	"step": 128000
	},
	{
	"epoch": 1.15,
	"eval_loss": 2.0025391578674316,
	"eval_runtime": 110.9711,
	"eval_samples_per_second": 901.135,
	"eval_steps_per_second": 56.321,
	"step": 136000
	},
	{
	"epoch": 1.21,
	"learning_rate": 3.854e-07,
	"loss": 2.1041,
	"step": 144000
	},
	{
	"epoch": 1.21,
	"eval_loss": 1.992916464805603,
	"eval_runtime": 110.9498,
	"eval_samples_per_second": 901.309,
	"eval_steps_per_second": 56.332,
	"step": 144000
	},
	{
	"epoch": 1.28,
	"eval_loss": 1.9869908094406128,
	"eval_runtime": 109.4965,
	"eval_samples_per_second": 913.272,
	"eval_steps_per_second": 57.079,
	"step": 152000
	},
	{
	"epoch": 1.35,
	"learning_rate": 3.8266666666666665e-07,
	"loss": 2.1058,
	"step": 160000
	},
	{
	"epoch": 1.35,
	"eval_loss": 1.9895384311676025,
	"eval_runtime": 109.4386,
	"eval_samples_per_second": 913.755,
	"eval_steps_per_second": 57.11,
	"step": 160000
	},
	{
	"epoch": 1.41,
	"eval_loss": 1.9794731140136719,
	"eval_runtime": 110.027,
	"eval_samples_per_second": 908.868,
	"eval_steps_per_second": 56.804,
	"step": 168000
	},
	{
	"epoch": 1.48,
	"learning_rate": 3.799333333333333e-07,
	"loss": 2.1064,
	"step": 176000
	},
	{
	"epoch": 1.48,
	"eval_loss": 1.9892573356628418,
	"eval_runtime": 109.3598,
	"eval_samples_per_second": 914.413,
	"eval_steps_per_second": 57.151,
	"step": 176000
	},
	{
	"epoch": 1.55,
	"eval_loss": 1.9877266883850098,
	"eval_runtime": 110.3406,
	"eval_samples_per_second": 906.284,
	"eval_steps_per_second": 56.643,
	"step": 184000
	},
	{
	"epoch": 1.62,
	"learning_rate": 3.772e-07,
	"loss": 2.098,
	"step": 192000
	},
	{
	"epoch": 1.62,
	"eval_loss": 1.9919915199279785,
	"eval_runtime": 110.6856,
	"eval_samples_per_second": 903.46,
	"eval_steps_per_second": 56.466,
	"step": 192000
	},
	{
	"epoch": 1.68,
	"eval_loss": 1.9800524711608887,
	"eval_runtime": 110.1564,
	"eval_samples_per_second": 907.8,
	"eval_steps_per_second": 56.738,
	"step": 200000
	},
	{
	"epoch": 1.75,
	"learning_rate": 3.7446666666666667e-07,
	"loss": 2.0916,
	"step": 208000
	},
	{
	"epoch": 1.75,
	"eval_loss": 1.9778263568878174,
	"eval_runtime": 110.0821,
	"eval_samples_per_second": 908.413,
	"eval_steps_per_second": 56.776,
	"step": 208000
	},
	{
	"epoch": 1.82,
	"eval_loss": 1.9744561910629272,
	"eval_runtime": 110.1318,
	"eval_samples_per_second": 908.003,
	"eval_steps_per_second": 56.75,
	"step": 216000
	},
	{
	"epoch": 1.89,
	"learning_rate": 3.7173333333333333e-07,
	"loss": 2.0951,
	"step": 224000
	},
	{
	"epoch": 1.89,
	"eval_loss": 1.9831310510635376,
	"eval_runtime": 110.3219,
	"eval_samples_per_second": 906.438,
	"eval_steps_per_second": 56.652,
	"step": 224000
	},
	{
	"epoch": 1.95,
	"eval_loss": 1.9748752117156982,
	"eval_runtime": 109.9764,
	"eval_samples_per_second": 909.286,
	"eval_steps_per_second": 56.83,
	"step": 232000
	},
	{
	"epoch": 2.02,
	"learning_rate": 3.69e-07,
	"loss": 2.092,
	"step": 240000
	},
	{
	"epoch": 2.02,
	"eval_loss": 1.975371241569519,
	"eval_runtime": 110.1949,
	"eval_samples_per_second": 907.483,
	"eval_steps_per_second": 56.718,
	"step": 240000
	},
	{
	"epoch": 2.09,
	"eval_loss": 1.9793789386749268,
	"eval_runtime": 109.4532,
	"eval_samples_per_second": 913.632,
	"eval_steps_per_second": 57.102,
	"step": 248000
	},
	{
	"epoch": 2.16,
	"learning_rate": 3.6626666666666664e-07,
	"loss": 2.0968,
	"step": 256000
	},
	{
	"epoch": 2.16,
	"eval_loss": 1.9674972295761108,
	"eval_runtime": 110.2227,
	"eval_samples_per_second": 907.254,
	"eval_steps_per_second": 56.703,
	"step": 256000
	},
	{
	"epoch": 2.22,
	"eval_loss": 1.9709570407867432,
	"eval_runtime": 109.7565,
	"eval_samples_per_second": 911.108,
	"eval_steps_per_second": 56.944,
	"step": 264000
	},
	{
	"epoch": 2.29,
	"learning_rate": 3.6353333333333335e-07,
	"loss": 2.0942,
	"step": 272000
	},
	{
	"epoch": 2.29,
	"eval_loss": 1.9712343215942383,
	"eval_runtime": 110.5189,
	"eval_samples_per_second": 904.823,
	"eval_steps_per_second": 56.551,
	"step": 272000
	},
	{
	"epoch": 2.36,
	"eval_loss": 1.966220736503601,
	"eval_runtime": 109.6691,
	"eval_samples_per_second": 911.834,
	"eval_steps_per_second": 56.99,
	"step": 280000
	},
	{
	"epoch": 2.43,
	"learning_rate": 3.608e-07,
	"loss": 2.0929,
	"step": 288000
	},
	{
	"epoch": 2.43,
	"eval_loss": 1.9672335386276245,
	"eval_runtime": 110.4084,
	"eval_samples_per_second": 905.728,
	"eval_steps_per_second": 56.608,
	"step": 288000
	},
	{
	"epoch": 2.49,
	"eval_loss": 1.982972502708435,
	"eval_runtime": 110.1708,
	"eval_samples_per_second": 907.681,
	"eval_steps_per_second": 56.73,
	"step": 296000
	},
	{
	"epoch": 2.56,
	"learning_rate": 3.5806666666666666e-07,
	"loss": 2.092,
	"step": 304000
	},
	{
	"epoch": 2.56,
	"eval_loss": 1.9803731441497803,
	"eval_runtime": 109.6593,
	"eval_samples_per_second": 911.915,
	"eval_steps_per_second": 56.995,
	"step": 304000
	},
	{
	"epoch": 2.63,
	"eval_loss": 1.966055989265442,
	"eval_runtime": 111.5079,
	"eval_samples_per_second": 896.797,
	"eval_steps_per_second": 56.05,
	"step": 312000
	},
	{
	"epoch": 2.69,
	"learning_rate": 3.553333333333333e-07,
	"loss": 2.0886,
	"step": 320000
	},
	{
	"epoch": 2.69,
	"eval_loss": 1.9667844772338867,
	"eval_runtime": 110.7165,
	"eval_samples_per_second": 903.208,
	"eval_steps_per_second": 56.451,
	"step": 320000
	},
	{
	"epoch": 2.76,
	"eval_loss": 1.964282512664795,
	"eval_runtime": 110.4524,
	"eval_samples_per_second": 905.367,
	"eval_steps_per_second": 56.585,
	"step": 328000
	},
	{
	"epoch": 2.83,
	"learning_rate": 3.5259999999999997e-07,
	"loss": 2.0883,
	"step": 336000
	},
	{
	"epoch": 2.83,
	"eval_loss": 1.971015214920044,
	"eval_runtime": 110.4534,
	"eval_samples_per_second": 905.359,
	"eval_steps_per_second": 56.585,
	"step": 336000
	},
	{
	"epoch": 2.9,
	"eval_loss": 1.9678236246109009,
	"eval_runtime": 110.0272,
	"eval_samples_per_second": 908.866,
	"eval_steps_per_second": 56.804,
	"step": 344000
	},
	{
	"epoch": 2.96,
	"learning_rate": 3.498666666666667e-07,
	"loss": 2.0937,
	"step": 352000
	},
	{
	"epoch": 2.96,
	"eval_loss": 1.9737088680267334,
	"eval_runtime": 110.4599,
	"eval_samples_per_second": 905.306,
	"eval_steps_per_second": 56.582,
	"step": 352000
	},
	{
	"epoch": 3.03,
	"eval_loss": 1.9638490676879883,
	"eval_runtime": 109.68,
	"eval_samples_per_second": 911.743,
	"eval_steps_per_second": 56.984,
	"step": 360000
	},
	{
	"epoch": 3.1,
	"learning_rate": 3.4713333333333333e-07,
	"loss": 2.0899,
	"step": 368000
	},
	{
	"epoch": 3.1,
	"eval_loss": 1.9598619937896729,
	"eval_runtime": 110.8301,
	"eval_samples_per_second": 902.282,
	"eval_steps_per_second": 56.393,
	"step": 368000
	},
	{
	"epoch": 3.17,
	"eval_loss": 1.9570248126983643,
	"eval_runtime": 109.9153,
	"eval_samples_per_second": 909.792,
	"eval_steps_per_second": 56.862,
	"step": 376000
	},
	{
	"epoch": 3.23,
	"learning_rate": 3.444e-07,
	"loss": 2.0839,
	"step": 384000
	},
	{
	"epoch": 3.23,
	"eval_loss": 1.9688061475753784,
	"eval_runtime": 110.0398,
	"eval_samples_per_second": 908.762,
	"eval_steps_per_second": 56.798,
	"step": 384000
	},
	{
	"epoch": 3.3,
	"eval_loss": 1.961317777633667,
	"eval_runtime": 110.3425,
	"eval_samples_per_second": 906.27,
	"eval_steps_per_second": 56.642,
	"step": 392000
	},
	{
	"epoch": 3.37,
	"learning_rate": 3.416666666666667e-07,
	"loss": 2.0862,
	"step": 400000
	},
	{
	"epoch": 3.37,
	"eval_loss": 1.9686087369918823,
	"eval_runtime": 109.8056,
	"eval_samples_per_second": 910.7,
	"eval_steps_per_second": 56.919,
	"step": 400000
	},
	{
	"epoch": 3.44,
	"eval_loss": 1.969017505645752,
	"eval_runtime": 110.4224,
	"eval_samples_per_second": 905.613,
	"eval_steps_per_second": 56.601,
	"step": 408000
	},
	{
	"epoch": 3.5,
	"learning_rate": 3.3893333333333335e-07,
	"loss": 2.0844,
	"step": 416000
	},
	{
	"epoch": 3.5,
	"eval_loss": 1.9665478467941284,
	"eval_runtime": 109.7701,
	"eval_samples_per_second": 910.995,
	"eval_steps_per_second": 56.937,
	"step": 416000
	},
	{
	"epoch": 3.57,
	"eval_loss": 1.9512009620666504,
	"eval_runtime": 110.6785,
	"eval_samples_per_second": 903.518,
	"eval_steps_per_second": 56.47,
	"step": 424000
	},
	{
	"epoch": 3.64,
	"learning_rate": 3.3619999999999995e-07,
	"loss": 2.0802,
	"step": 432000
	},
	{
	"epoch": 3.64,
	"eval_loss": 1.965216040611267,
	"eval_runtime": 109.9673,
	"eval_samples_per_second": 909.361,
	"eval_steps_per_second": 56.835,
	"step": 432000
	},
	{
	"epoch": 3.71,
	"eval_loss": 1.959397315979004,
	"eval_runtime": 110.3077,
	"eval_samples_per_second": 906.555,
	"eval_steps_per_second": 56.66,
	"step": 440000
	},
	{
	"epoch": 3.77,
	"learning_rate": 3.3346666666666666e-07,
	"loss": 2.0882,
	"step": 448000
	},
	{
	"epoch": 3.77,
	"eval_loss": 1.9543430805206299,
	"eval_runtime": 111.4673,
	"eval_samples_per_second": 897.124,
	"eval_steps_per_second": 56.07,
	"step": 448000
	},
	{
	"epoch": 3.84,
	"eval_loss": 1.9634778499603271,
	"eval_runtime": 111.4044,
	"eval_samples_per_second": 897.631,
	"eval_steps_per_second": 56.102,
	"step": 456000
	},
	{
	"epoch": 3.91,
	"learning_rate": 3.307333333333333e-07,
	"loss": 2.0794,
	"step": 464000
	},
	{
	"epoch": 3.91,
	"eval_loss": 1.961761713027954,
	"eval_runtime": 110.0339,
	"eval_samples_per_second": 908.81,
	"eval_steps_per_second": 56.801,
	"step": 464000
	},
	{
	"epoch": 3.97,
	"eval_loss": 1.9616820812225342,
	"eval_runtime": 111.4358,
	"eval_samples_per_second": 897.378,
	"eval_steps_per_second": 56.086,
	"step": 472000
	},
	{
	"epoch": 4.04,
	"learning_rate": 3.28e-07,
	"loss": 2.0848,
	"step": 480000
	},
	{
	"epoch": 4.04,
	"eval_loss": 1.9596595764160156,
	"eval_runtime": 109.7288,
	"eval_samples_per_second": 911.338,
	"eval_steps_per_second": 56.959,
	"step": 480000
	},
	{
	"epoch": 4.11,
	"eval_loss": 1.9585806131362915,
	"eval_runtime": 110.7191,
	"eval_samples_per_second": 903.187,
	"eval_steps_per_second": 56.449,
	"step": 488000
	},
	{
	"epoch": 4.18,
	"learning_rate": 3.252666666666667e-07,
	"loss": 2.0814,
	"step": 496000
	},
	{
	"epoch": 4.18,
	"eval_loss": 1.9587445259094238,
	"eval_runtime": 110.1878,
	"eval_samples_per_second": 907.541,
	"eval_steps_per_second": 56.721,
	"step": 496000
	},
	{
	"epoch": 4.24,
	"eval_loss": 1.951024055480957,
	"eval_runtime": 111.6076,
	"eval_samples_per_second": 895.996,
	"eval_steps_per_second": 56.0,
	"step": 504000
	},
	{
	"epoch": 4.31,
	"learning_rate": 3.2253333333333334e-07,
	"loss": 2.0765,
	"step": 512000
	},
	{
	"epoch": 4.31,
	"eval_loss": 1.9643146991729736,
	"eval_runtime": 110.4319,
	"eval_samples_per_second": 905.535,
	"eval_steps_per_second": 56.596,
	"step": 512000
	},
	{
	"epoch": 4.38,
	"eval_loss": 1.9586251974105835,
	"eval_runtime": 111.9851,
	"eval_samples_per_second": 892.976,
	"eval_steps_per_second": 55.811,
	"step": 520000
	},
	{
	"epoch": 4.45,
	"learning_rate": 3.198e-07,
	"loss": 2.0887,
	"step": 528000
	},
	{
	"epoch": 4.45,
	"eval_loss": 1.9476207494735718,
	"eval_runtime": 111.761,
	"eval_samples_per_second": 894.766,
	"eval_steps_per_second": 55.923,
	"step": 528000
	},
	{
	"epoch": 4.51,
	"eval_loss": 1.9539178609848022,
	"eval_runtime": 112.4824,
	"eval_samples_per_second": 889.028,
	"eval_steps_per_second": 55.564,
	"step": 536000
	},
	{
	"epoch": 4.58,
	"learning_rate": 3.1706666666666665e-07,
	"loss": 2.0857,
	"step": 544000
	},
	{
	"epoch": 4.58,
	"eval_loss": 1.9538391828536987,
	"eval_runtime": 110.284,
	"eval_samples_per_second": 906.75,
	"eval_steps_per_second": 56.672,
	"step": 544000
	},
	{
	"epoch": 4.65,
	"eval_loss": 1.9528268575668335,
	"eval_runtime": 110.3047,
	"eval_samples_per_second": 906.58,
	"eval_steps_per_second": 56.661,
	"step": 552000
	},
	{
	"epoch": 4.72,
	"learning_rate": 3.1433333333333336e-07,
	"loss": 2.0798,
	"step": 560000
	},
	{
	"epoch": 4.72,
	"eval_loss": 1.958569049835205,
	"eval_runtime": 110.3087,
	"eval_samples_per_second": 906.547,
	"eval_steps_per_second": 56.659,
	"step": 560000
	},
	{
	"epoch": 4.78,
	"eval_loss": 1.966043472290039,
	"eval_runtime": 110.287,
	"eval_samples_per_second": 906.725,
	"eval_steps_per_second": 56.67,
	"step": 568000
	},
	{
	"epoch": 4.85,
	"learning_rate": 3.116e-07,
	"loss": 2.0752,
	"step": 576000
	},
	{
	"epoch": 4.85,
	"eval_loss": 1.9638713598251343,
	"eval_runtime": 110.4682,
	"eval_samples_per_second": 905.238,
	"eval_steps_per_second": 56.577,
	"step": 576000
	},
	{
	"epoch": 4.92,
	"eval_loss": 1.950478434562683,
	"eval_runtime": 112.4819,
	"eval_samples_per_second": 889.032,
	"eval_steps_per_second": 55.565,
	"step": 584000
	},
	{
	"epoch": 4.99,
	"learning_rate": 3.0886666666666667e-07,
	"loss": 2.0771,
	"step": 592000
	},
	{
	"epoch": 4.99,
	"eval_loss": 1.9551353454589844,
	"eval_runtime": 111.1621,
	"eval_samples_per_second": 899.587,
	"eval_steps_per_second": 56.224,
	"step": 592000
	},
	{
	"epoch": 5.05,
	"eval_loss": 1.9495452642440796,
	"eval_runtime": 110.1306,
	"eval_samples_per_second": 908.013,
	"eval_steps_per_second": 56.751,
	"step": 600000
	},
	{
	"epoch": 5.12,
	"learning_rate": 3.061333333333333e-07,
	"loss": 2.0772,
	"step": 608000
	},
	{
	"epoch": 5.12,
	"eval_loss": 1.9536247253417969,
	"eval_runtime": 110.5342,
	"eval_samples_per_second": 904.697,
	"eval_steps_per_second": 56.544,
	"step": 608000
	},
	{
	"epoch": 5.19,
	"eval_loss": 1.9566668272018433,
	"eval_runtime": 110.8939,
	"eval_samples_per_second": 901.763,
	"eval_steps_per_second": 56.36,
	"step": 616000
	},
	{
	"epoch": 5.25,
	"learning_rate": 3.034e-07,
	"loss": 2.0836,
	"step": 624000
	},
	{
	"epoch": 5.25,
	"eval_loss": 1.9533698558807373,
	"eval_runtime": 111.153,
	"eval_samples_per_second": 899.661,
	"eval_steps_per_second": 56.229,
	"step": 624000
	},
	{
	"epoch": 5.32,
	"eval_loss": 1.9663032293319702,
	"eval_runtime": 113.3189,
	"eval_samples_per_second": 882.465,
	"eval_steps_per_second": 55.154,
	"step": 632000
	},
	{
	"epoch": 5.39,
	"learning_rate": 3.0066666666666663e-07,
	"loss": 2.0851,
	"step": 640000
	},
	{
	"epoch": 5.39,
	"eval_loss": 1.9535197019577026,
	"eval_runtime": 110.5244,
	"eval_samples_per_second": 904.778,
	"eval_steps_per_second": 56.549,
	"step": 640000
	},
	{
	"epoch": 5.46,
	"eval_loss": 1.9554091691970825,
	"eval_runtime": 111.1979,
	"eval_samples_per_second": 899.298,
	"eval_steps_per_second": 56.206,
	"step": 648000
	},
	{
	"epoch": 5.52,
	"learning_rate": 2.9793333333333334e-07,
	"loss": 2.0842,
	"step": 656000
	},
	{
	"epoch": 5.52,
	"eval_loss": 1.9539320468902588,
	"eval_runtime": 110.1114,
	"eval_samples_per_second": 908.171,
	"eval_steps_per_second": 56.761,
	"step": 656000
	},
	{
	"epoch": 5.59,
	"eval_loss": 1.9588661193847656,
	"eval_runtime": 110.2861,
	"eval_samples_per_second": 906.732,
	"eval_steps_per_second": 56.671,
	"step": 664000
	},
	{
	"epoch": 5.66,
	"learning_rate": 2.952e-07,
	"loss": 2.088,
	"step": 672000
	},
	{
	"epoch": 5.66,
	"eval_loss": 1.9571921825408936,
	"eval_runtime": 110.8703,
	"eval_samples_per_second": 901.955,
	"eval_steps_per_second": 56.372,
	"step": 672000
	},
	{
	"epoch": 5.73,
	"eval_loss": 1.9603205919265747,
	"eval_runtime": 111.1855,
	"eval_samples_per_second": 899.397,
	"eval_steps_per_second": 56.212,
	"step": 680000
	},
	{
	"epoch": 5.79,
	"learning_rate": 2.9246666666666665e-07,
	"loss": 2.075,
	"step": 688000
	},
	{
	"epoch": 5.79,
	"eval_loss": 1.9638681411743164,
	"eval_runtime": 110.5603,
	"eval_samples_per_second": 904.483,
	"eval_steps_per_second": 56.53,
	"step": 688000
	},
	{
	"epoch": 5.86,
	"eval_loss": 1.9536782503128052,
	"eval_runtime": 111.9104,
	"eval_samples_per_second": 893.572,
	"eval_steps_per_second": 55.848,
	"step": 696000
	},
	{
	"epoch": 5.93,
	"learning_rate": 2.897333333333333e-07,
	"loss": 2.077,
	"step": 704000
	},
	{
	"epoch": 5.93,
	"eval_loss": 1.961190104484558,
	"eval_runtime": 110.2085,
	"eval_samples_per_second": 907.371,
	"eval_steps_per_second": 56.711,
	"step": 704000
	},
	{
	"epoch": 6.0,
	"eval_loss": 1.9571187496185303,
	"eval_runtime": 111.1,
	"eval_samples_per_second": 900.09,
	"eval_steps_per_second": 56.256,
	"step": 712000
	},
	{
	"epoch": 6.06,
	"learning_rate": 2.8699999999999996e-07,
	"loss": 2.0692,
	"step": 720000
	},
	{
	"epoch": 6.06,
	"eval_loss": 1.954491376876831,
	"eval_runtime": 110.3925,
	"eval_samples_per_second": 905.858,
	"eval_steps_per_second": 56.616,
	"step": 720000
	},
	{
	"epoch": 6.13,
	"eval_loss": 1.9494022130966187,
	"eval_runtime": 111.0587,
	"eval_samples_per_second": 900.425,
	"eval_steps_per_second": 56.277,
	"step": 728000
	},
	{
	"epoch": 6.2,
	"learning_rate": 2.8426666666666667e-07,
	"loss": 2.087,
	"step": 736000
	},
	{
	"epoch": 6.2,
	"eval_loss": 1.9555366039276123,
	"eval_runtime": 111.4849,
	"eval_samples_per_second": 896.982,
	"eval_steps_per_second": 56.061,
	"step": 736000
	},
	{
	"epoch": 6.27,
	"eval_loss": 1.9565927982330322,
	"eval_runtime": 110.3868,
	"eval_samples_per_second": 905.905,
	"eval_steps_per_second": 56.619,
	"step": 744000
	},
	{
	"epoch": 6.33,
	"learning_rate": 2.815333333333333e-07,
	"loss": 2.0783,
	"step": 752000
	},
	{
	"epoch": 6.33,
	"eval_loss": 1.944687843322754,
	"eval_runtime": 110.7554,
	"eval_samples_per_second": 902.891,
	"eval_steps_per_second": 56.431,
	"step": 752000
	},
	{
	"epoch": 6.4,
	"eval_loss": 1.9517587423324585,
	"eval_runtime": 110.834,
	"eval_samples_per_second": 902.25,
	"eval_steps_per_second": 56.391,
	"step": 760000
	},
	{
	"epoch": 6.47,
	"learning_rate": 2.7880000000000003e-07,
	"loss": 2.0771,
	"step": 768000
	},
	{
	"epoch": 6.47,
	"eval_loss": 1.942885160446167,
	"eval_runtime": 111.4733,
	"eval_samples_per_second": 897.076,
	"eval_steps_per_second": 56.067,
	"step": 768000
	},
	{
	"epoch": 6.53,
	"eval_loss": 1.9603298902511597,
	"eval_runtime": 110.8474,
	"eval_samples_per_second": 902.141,
	"eval_steps_per_second": 56.384,
	"step": 776000
	},
	{
	"epoch": 6.6,
	"learning_rate": 2.7606666666666664e-07,
	"loss": 2.0794,
	"step": 784000
	},
	{
	"epoch": 6.6,
	"eval_loss": 1.9503004550933838,
	"eval_runtime": 110.8398,
	"eval_samples_per_second": 902.203,
	"eval_steps_per_second": 56.388,
	"step": 784000
	},
	{
	"epoch": 6.67,
	"eval_loss": 1.9571810960769653,
	"eval_runtime": 110.2885,
	"eval_samples_per_second": 906.713,
	"eval_steps_per_second": 56.67,
	"step": 792000
	},
	{
	"epoch": 6.74,
	"learning_rate": 2.733333333333333e-07,
	"loss": 2.0777,
	"step": 800000
	},
	{
	"epoch": 6.74,
	"eval_loss": 1.9606574773788452,
	"eval_runtime": 110.4898,
	"eval_samples_per_second": 905.061,
	"eval_steps_per_second": 56.566,
	"step": 800000
	},
	{
	"epoch": 6.8,
	"eval_loss": 1.952511191368103,
	"eval_runtime": 111.2869,
	"eval_samples_per_second": 898.579,
	"eval_steps_per_second": 56.161,
	"step": 808000
	},
	{
	"epoch": 6.87,
	"learning_rate": 2.706e-07,
	"loss": 2.0725,
	"step": 816000
	},
	{
	"epoch": 6.87,
	"eval_loss": 1.9495289325714111,
	"eval_runtime": 111.2387,
	"eval_samples_per_second": 898.968,
	"eval_steps_per_second": 56.185,
	"step": 816000
	},
	{
	"epoch": 6.94,
	"eval_loss": 1.9516665935516357,
	"eval_runtime": 111.2649,
	"eval_samples_per_second": 898.756,
	"eval_steps_per_second": 56.172,
	"step": 824000
	},
	{
	"epoch": 7.01,
	"learning_rate": 2.6786666666666666e-07,
	"loss": 2.0863,
	"step": 832000
	},
	{
	"epoch": 7.01,
	"eval_loss": 1.9522712230682373,
	"eval_runtime": 110.9997,
	"eval_samples_per_second": 900.903,
	"eval_steps_per_second": 56.306,
	"step": 832000
	},
	{
	"epoch": 7.07,
	"eval_loss": 1.944066047668457,
	"eval_runtime": 110.9939,
	"eval_samples_per_second": 900.95,
	"eval_steps_per_second": 56.309,
	"step": 840000
	},
	{
	"epoch": 7.14,
	"learning_rate": 2.651333333333333e-07,
	"loss": 2.0735,
	"step": 848000
	},
	{
	"epoch": 7.14,
	"eval_loss": 1.942973256111145,
	"eval_runtime": 110.4043,
	"eval_samples_per_second": 905.762,
	"eval_steps_per_second": 56.61,
	"step": 848000
	},
	{
	"epoch": 7.21,
	"eval_loss": 1.9516521692276,
	"eval_runtime": 110.9458,
	"eval_samples_per_second": 901.341,
	"eval_steps_per_second": 56.334,
	"step": 856000
	},
	{
	"epoch": 7.28,
	"learning_rate": 2.624e-07,
	"loss": 2.0808,
	"step": 864000
	},
	{
	"epoch": 7.28,
	"eval_loss": 1.9442354440689087,
	"eval_runtime": 110.9964,
	"eval_samples_per_second": 900.93,
	"eval_steps_per_second": 56.308,
	"step": 864000
	},
	{
	"epoch": 7.34,
	"eval_loss": 1.9414219856262207,
	"eval_runtime": 111.0475,
	"eval_samples_per_second": 900.515,
	"eval_steps_per_second": 56.282,
	"step": 872000
	},
	{
	"epoch": 7.41,
	"learning_rate": 2.596666666666667e-07,
	"loss": 2.0756,
	"step": 880000
	},
	{
	"epoch": 7.41,
	"eval_loss": 1.943913459777832,
	"eval_runtime": 110.5804,
	"eval_samples_per_second": 904.319,
	"eval_steps_per_second": 56.52,
	"step": 880000
	},
	{
	"epoch": 7.48,
	"eval_loss": 1.9428108930587769,
	"eval_runtime": 110.7686,
	"eval_samples_per_second": 902.783,
	"eval_steps_per_second": 56.424,
	"step": 888000
	},
	{
	"epoch": 7.55,
	"learning_rate": 2.5693333333333333e-07,
	"loss": 2.0799,
	"step": 896000
	},
	{
	"epoch": 7.55,
	"eval_loss": 1.9471795558929443,
	"eval_runtime": 110.5526,
	"eval_samples_per_second": 904.547,
	"eval_steps_per_second": 56.534,
	"step": 896000
	},
	{
	"epoch": 7.61,
	"eval_loss": 1.9425973892211914,
	"eval_runtime": 110.4745,
	"eval_samples_per_second": 905.186,
	"eval_steps_per_second": 56.574,
	"step": 904000
	},
	{
	"epoch": 7.68,
	"learning_rate": 2.542e-07,
	"loss": 2.0717,
	"step": 912000
	},
	{
	"epoch": 7.68,
	"eval_loss": 1.9460599422454834,
	"eval_runtime": 110.5105,
	"eval_samples_per_second": 904.891,
	"eval_steps_per_second": 56.556,
	"step": 912000
	},
	{
	"epoch": 7.75,
	"eval_loss": 1.958345651626587,
	"eval_runtime": 110.4629,
	"eval_samples_per_second": 905.281,
	"eval_steps_per_second": 56.58,
	"step": 920000
	},
	{
	"epoch": 7.81,
	"learning_rate": 2.5146666666666664e-07,
	"loss": 2.0799,
	"step": 928000
	},
	{
	"epoch": 7.81,
	"eval_loss": 1.9433069229125977,
	"eval_runtime": 111.4685,
	"eval_samples_per_second": 897.115,
	"eval_steps_per_second": 56.07,
	"step": 928000
	},
	{
	"epoch": 7.88,
	"eval_loss": 1.9442389011383057,
	"eval_runtime": 110.6773,
	"eval_samples_per_second": 903.528,
	"eval_steps_per_second": 56.47,
	"step": 936000
	},
	{
	"epoch": 7.95,
	"learning_rate": 2.4873333333333335e-07,
	"loss": 2.0704,
	"step": 944000
	},
	{
	"epoch": 7.95,
	"eval_loss": 1.939575433731079,
	"eval_runtime": 110.5017,
	"eval_samples_per_second": 904.964,
	"eval_steps_per_second": 56.56,
	"step": 944000
	},
	{
	"epoch": 8.02,
	"eval_loss": 1.9409291744232178,
	"eval_runtime": 110.9407,
	"eval_samples_per_second": 901.383,
	"eval_steps_per_second": 56.336,
	"step": 952000
	},
	{
	"epoch": 8.08,
	"learning_rate": 2.46e-07,
	"loss": 2.0785,
	"step": 960000
	},
	{
	"epoch": 8.08,
	"eval_loss": 1.9520161151885986,
	"eval_runtime": 110.8429,
	"eval_samples_per_second": 902.178,
	"eval_steps_per_second": 56.386,
	"step": 960000
	},
	{
	"epoch": 8.15,
	"eval_loss": 1.9408738613128662,
	"eval_runtime": 111.2876,
	"eval_samples_per_second": 898.572,
	"eval_steps_per_second": 56.161,
	"step": 968000
	},
	{
	"epoch": 8.22,
	"learning_rate": 2.4326666666666666e-07,
	"loss": 2.0761,
	"step": 976000
	},
	{
	"epoch": 8.22,
	"eval_loss": 1.9469316005706787,
	"eval_runtime": 111.4838,
	"eval_samples_per_second": 896.991,
	"eval_steps_per_second": 56.062,
	"step": 976000
	},
	{
	"epoch": 8.29,
	"eval_loss": 1.937188744544983,
	"eval_runtime": 110.6386,
	"eval_samples_per_second": 903.843,
	"eval_steps_per_second": 56.49,
	"step": 984000
	},
	{
	"epoch": 8.35,
	"learning_rate": 2.405333333333333e-07,
	"loss": 2.0739,
	"step": 992000
	},
	{
	"epoch": 8.35,
	"eval_loss": 1.938472867012024,
	"eval_runtime": 110.7286,
	"eval_samples_per_second": 903.109,
	"eval_steps_per_second": 56.444,
	"step": 992000
	},
	{
	"epoch": 8.42,
	"eval_loss": 1.953993320465088,
	"eval_runtime": 111.1301,
	"eval_samples_per_second": 899.846,
	"eval_steps_per_second": 56.24,
	"step": 1000000
	},
	{
	"epoch": 8.49,
	"learning_rate": 2.3779999999999997e-07,
	"loss": 2.0761,
	"step": 1008000
	},
	{
	"epoch": 8.49,
	"eval_loss": 1.9488329887390137,
	"eval_runtime": 110.8551,
	"eval_samples_per_second": 902.079,
	"eval_steps_per_second": 56.38,
	"step": 1008000
	},
	{
	"epoch": 8.56,
	"eval_loss": 1.946441888809204,
	"eval_runtime": 110.9628,
	"eval_samples_per_second": 901.203,
	"eval_steps_per_second": 56.325,
	"step": 1016000
	},
	{
	"epoch": 8.62,
	"learning_rate": 2.3506666666666668e-07,
	"loss": 2.0725,
	"step": 1024000
	},
	{
	"epoch": 8.62,
	"eval_loss": 1.9465641975402832,
	"eval_runtime": 111.87,
	"eval_samples_per_second": 893.895,
	"eval_steps_per_second": 55.868,
	"step": 1024000
	},
	{
	"epoch": 8.69,
	"eval_loss": 1.9460062980651855,
	"eval_runtime": 111.2897,
	"eval_samples_per_second": 898.556,
	"eval_steps_per_second": 56.16,
	"step": 1032000
	},
	{
	"epoch": 8.76,
	"learning_rate": 2.3233333333333334e-07,
	"loss": 2.0704,
	"step": 1040000
	},
	{
	"epoch": 8.76,
	"eval_loss": 1.9449492692947388,
	"eval_runtime": 111.0347,
	"eval_samples_per_second": 900.62,
	"eval_steps_per_second": 56.289,
	"step": 1040000
	},
	{
	"epoch": 8.83,
	"eval_loss": 1.9492580890655518,
	"eval_runtime": 111.2543,
	"eval_samples_per_second": 898.842,
	"eval_steps_per_second": 56.178,
	"step": 1048000
	},
	{
	"epoch": 8.89,
	"learning_rate": 2.2960000000000002e-07,
	"loss": 2.0734,
	"step": 1056000
	},
	{
	"epoch": 8.89,
	"eval_loss": 1.946271300315857,
	"eval_runtime": 111.7276,
	"eval_samples_per_second": 895.034,
	"eval_steps_per_second": 55.94,
	"step": 1056000
	},
	{
	"epoch": 8.96,
	"eval_loss": 1.9402709007263184,
	"eval_runtime": 111.4255,
	"eval_samples_per_second": 897.46,
	"eval_steps_per_second": 56.091,
	"step": 1064000
	},
	{
	"epoch": 9.03,
	"learning_rate": 2.2686666666666667e-07,
	"loss": 2.0744,
	"step": 1072000
	},
	{
	"epoch": 9.03,
	"eval_loss": 1.9467432498931885,
	"eval_runtime": 110.7175,
	"eval_samples_per_second": 903.2,
	"eval_steps_per_second": 56.45,
	"step": 1072000
	},
	{
	"epoch": 9.09,
	"eval_loss": 1.9405895471572876,
	"eval_runtime": 111.339,
	"eval_samples_per_second": 898.158,
	"eval_steps_per_second": 56.135,
	"step": 1080000
	},
	{
	"epoch": 9.16,
	"learning_rate": 2.2413333333333333e-07,
	"loss": 2.0776,
	"step": 1088000
	},
	{
	"epoch": 9.16,
	"eval_loss": 1.9491678476333618,
	"eval_runtime": 112.0203,
	"eval_samples_per_second": 892.696,
	"eval_steps_per_second": 55.793,
	"step": 1088000
	},
	{
	"epoch": 9.23,
	"eval_loss": 1.9432501792907715,
	"eval_runtime": 111.5552,
	"eval_samples_per_second": 896.417,
	"eval_steps_per_second": 56.026,
	"step": 1096000
	},
	{
	"epoch": 9.3,
	"learning_rate": 2.214e-07,
	"loss": 2.068,
	"step": 1104000
	},
	{
	"epoch": 9.3,
	"eval_loss": 1.9449836015701294,
	"eval_runtime": 111.8965,
	"eval_samples_per_second": 893.683,
	"eval_steps_per_second": 55.855,
	"step": 1104000
	},
	{
	"epoch": 9.36,
	"eval_loss": 1.9473295211791992,
	"eval_runtime": 111.6609,
	"eval_samples_per_second": 895.569,
	"eval_steps_per_second": 55.973,
	"step": 1112000
	},
	{
	"epoch": 9.43,
	"learning_rate": 2.1866666666666667e-07,
	"loss": 2.0755,
	"step": 1120000
	},
	{
	"epoch": 9.43,
	"eval_loss": 1.9459151029586792,
	"eval_runtime": 111.1268,
	"eval_samples_per_second": 899.873,
	"eval_steps_per_second": 56.242,
	"step": 1120000
	},
	{
	"epoch": 9.5,
	"eval_loss": 1.9562652111053467,
	"eval_runtime": 110.7077,
	"eval_samples_per_second": 903.279,
	"eval_steps_per_second": 56.455,
	"step": 1128000
	},
	{
	"epoch": 9.57,
	"learning_rate": 2.1593333333333332e-07,
	"loss": 2.0783,
	"step": 1136000
	},
	{
	"epoch": 9.57,
	"eval_loss": 1.936863899230957,
	"eval_runtime": 110.9141,
	"eval_samples_per_second": 901.599,
	"eval_steps_per_second": 56.35,
	"step": 1136000
	},
	{
	"epoch": 9.63,
	"eval_loss": 1.9461090564727783,
	"eval_runtime": 110.7314,
	"eval_samples_per_second": 903.086,
	"eval_steps_per_second": 56.443,
	"step": 1144000
	},
	{
	"epoch": 9.7,
	"learning_rate": 2.132e-07,
	"loss": 2.0776,
	"step": 1152000
	},
	{
	"epoch": 9.7,
	"eval_loss": 1.9494104385375977,
	"eval_runtime": 112.0046,
	"eval_samples_per_second": 892.82,
	"eval_steps_per_second": 55.801,
	"step": 1152000
	},
	{
	"epoch": 9.77,
	"eval_loss": 1.9312143325805664,
	"eval_runtime": 111.1816,
	"eval_samples_per_second": 899.429,
	"eval_steps_per_second": 56.214,
	"step": 1160000
	},
	{
	"epoch": 9.84,
	"learning_rate": 2.1046666666666666e-07,
	"loss": 2.0757,
	"step": 1168000
	},
	{
	"epoch": 9.84,
	"eval_loss": 1.9451590776443481,
	"eval_runtime": 111.0971,
	"eval_samples_per_second": 900.114,
	"eval_steps_per_second": 56.257,
	"step": 1168000
	},
	{
	"epoch": 9.9,
	"eval_loss": 1.9424793720245361,
	"eval_runtime": 112.0686,
	"eval_samples_per_second": 892.31,
	"eval_steps_per_second": 55.769,
	"step": 1176000
	},
	{
	"epoch": 9.97,
	"learning_rate": 2.0773333333333334e-07,
	"loss": 2.0776,
	"step": 1184000
	},
	{
	"epoch": 9.97,
	"eval_loss": 1.9535951614379883,
	"eval_runtime": 112.2353,
	"eval_samples_per_second": 890.986,
	"eval_steps_per_second": 55.687,
	"step": 1184000
	},
	{
	"epoch": 10.04,
	"eval_loss": 1.93512761592865,
	"eval_runtime": 111.2352,
	"eval_samples_per_second": 898.996,
	"eval_steps_per_second": 56.187,
	"step": 1192000
	},
	{
	"epoch": 10.11,
	"learning_rate": 2.05e-07,
	"loss": 2.0769,
	"step": 1200000
	},
	{
	"epoch": 10.11,
	"eval_loss": 1.930122971534729,
	"eval_runtime": 111.6202,
	"eval_samples_per_second": 895.896,
	"eval_steps_per_second": 55.993,
	"step": 1200000
	},
	{
	"epoch": 10.17,
	"eval_loss": 1.9463820457458496,
	"eval_runtime": 110.7887,
	"eval_samples_per_second": 902.619,
	"eval_steps_per_second": 56.414,
	"step": 1208000
	},
	{
	"epoch": 10.24,
	"learning_rate": 2.0226666666666668e-07,
	"loss": 2.071,
	"step": 1216000
	},
	{
	"epoch": 10.24,
	"eval_loss": 1.9409968852996826,
	"eval_runtime": 111.4322,
	"eval_samples_per_second": 897.406,
	"eval_steps_per_second": 56.088,
	"step": 1216000
	},
	{
	"epoch": 10.31,
	"eval_loss": 1.9320902824401855,
	"eval_runtime": 111.6751,
	"eval_samples_per_second": 895.455,
	"eval_steps_per_second": 55.966,
	"step": 1224000
	},
	{
	"epoch": 10.37,
	"learning_rate": 1.9953333333333333e-07,
	"loss": 2.0702,
	"step": 1232000
	},
	{
	"epoch": 10.37,
	"eval_loss": 1.9406121969223022,
	"eval_runtime": 111.9712,
	"eval_samples_per_second": 893.086,
	"eval_steps_per_second": 55.818,
	"step": 1232000
	},
	{
	"epoch": 10.44,
	"eval_loss": 1.9524641036987305,
	"eval_runtime": 111.105,
	"eval_samples_per_second": 900.05,
	"eval_steps_per_second": 56.253,
	"step": 1240000
	},
	{
	"epoch": 10.51,
	"learning_rate": 1.968e-07,
	"loss": 2.0716,
	"step": 1248000
	},
	{
	"epoch": 10.51,
	"eval_loss": 1.9418323040008545,
	"eval_runtime": 110.5724,
	"eval_samples_per_second": 904.385,
	"eval_steps_per_second": 56.524,
	"step": 1248000
	},
	{
	"epoch": 10.58,
	"eval_loss": 1.9372801780700684,
	"eval_runtime": 111.126,
	"eval_samples_per_second": 899.88,
	"eval_steps_per_second": 56.242,
	"step": 1256000
	},
	{
	"epoch": 10.64,
	"learning_rate": 1.9406666666666667e-07,
	"loss": 2.0753,
	"step": 1264000
	},
	{
	"epoch": 10.64,
	"eval_loss": 1.9362831115722656,
	"eval_runtime": 111.0107,
	"eval_samples_per_second": 900.814,
	"eval_steps_per_second": 56.301,
	"step": 1264000
	},
	{
	"epoch": 10.71,
	"eval_loss": 1.950430989265442,
	"eval_runtime": 111.42,
	"eval_samples_per_second": 897.505,
	"eval_steps_per_second": 56.094,
	"step": 1272000
	},
	{
	"epoch": 10.78,
	"learning_rate": 1.9133333333333333e-07,
	"loss": 2.0757,
	"step": 1280000
	},
	{
	"epoch": 10.78,
	"eval_loss": 1.937592625617981,
	"eval_runtime": 111.8154,
	"eval_samples_per_second": 894.331,
	"eval_steps_per_second": 55.896,
	"step": 1280000
	},
	{
	"epoch": 10.85,
	"eval_loss": 1.9350725412368774,
	"eval_runtime": 110.9987,
	"eval_samples_per_second": 900.912,
	"eval_steps_per_second": 56.307,
	"step": 1288000
	},
	{
	"epoch": 10.91,
	"learning_rate": 1.886e-07,
	"loss": 2.0656,
	"step": 1296000
	},
	{
	"epoch": 10.91,
	"eval_loss": 1.9444907903671265,
	"eval_runtime": 112.1206,
	"eval_samples_per_second": 891.897,
	"eval_steps_per_second": 55.744,
	"step": 1296000
	},
	{
	"epoch": 10.98,
	"eval_loss": 1.9282187223434448,
	"eval_runtime": 111.5472,
	"eval_samples_per_second": 896.482,
	"eval_steps_per_second": 56.03,
	"step": 1304000
	},
	{
	"epoch": 11.05,
	"learning_rate": 1.8586666666666666e-07,
	"loss": 2.0732,
	"step": 1312000
	},
	{
	"epoch": 11.05,
	"eval_loss": 1.9437243938446045,
	"eval_runtime": 111.1188,
	"eval_samples_per_second": 899.937,
	"eval_steps_per_second": 56.246,
	"step": 1312000
	},
	{
	"epoch": 11.12,
	"eval_loss": 1.9500561952590942,
	"eval_runtime": 112.2135,
	"eval_samples_per_second": 891.158,
	"eval_steps_per_second": 55.697,
	"step": 1320000
	},
	{
	"epoch": 11.18,
	"learning_rate": 1.8313333333333332e-07,
	"loss": 2.0756,
	"step": 1328000
	},
	{
	"epoch": 11.18,
	"eval_loss": 1.9378612041473389,
	"eval_runtime": 111.2719,
	"eval_samples_per_second": 898.699,
	"eval_steps_per_second": 56.169,
	"step": 1328000
	},
	{
	"epoch": 11.25,
	"eval_loss": 1.942953109741211,
	"eval_runtime": 111.8733,
	"eval_samples_per_second": 893.869,
	"eval_steps_per_second": 55.867,
	"step": 1336000
	},
	{
	"epoch": 11.32,
	"learning_rate": 1.804e-07,
	"loss": 2.0885,
	"step": 1344000
	},
	{
	"epoch": 11.32,
	"eval_loss": 1.9392478466033936,
	"eval_runtime": 111.6275,
	"eval_samples_per_second": 895.836,
	"eval_steps_per_second": 55.99,
	"step": 1344000
	},
	{
	"epoch": 11.39,
	"eval_loss": 1.9343684911727905,
	"eval_runtime": 110.9879,
	"eval_samples_per_second": 900.999,
	"eval_steps_per_second": 56.312,
	"step": 1352000
	},
	{
	"epoch": 11.45,
	"learning_rate": 1.7766666666666666e-07,
	"loss": 2.0758,
	"step": 1360000
	},
	{
	"epoch": 11.45,
	"eval_loss": 1.9363566637039185,
	"eval_runtime": 112.2823,
	"eval_samples_per_second": 890.612,
	"eval_steps_per_second": 55.663,
	"step": 1360000
	},
	{
	"epoch": 11.52,
	"eval_loss": 1.9404397010803223,
	"eval_runtime": 111.7313,
	"eval_samples_per_second": 895.004,
	"eval_steps_per_second": 55.938,
	"step": 1368000
	},
	{
	"epoch": 11.59,
	"learning_rate": 1.7493333333333334e-07,
	"loss": 2.0693,
	"step": 1376000
	},
	{
	"epoch": 11.59,
	"eval_loss": 1.9346548318862915,
	"eval_runtime": 112.1875,
	"eval_samples_per_second": 891.365,
	"eval_steps_per_second": 55.71,
	"step": 1376000
	},
	{
	"epoch": 11.65,
	"eval_loss": 1.9437816143035889,
	"eval_runtime": 110.9656,
	"eval_samples_per_second": 901.18,
	"eval_steps_per_second": 56.324,
	"step": 1384000
	},
	{
	"epoch": 11.72,
	"learning_rate": 1.722e-07,
	"loss": 2.0675,
	"step": 1392000
	},
	{
	"epoch": 11.72,
	"eval_loss": 1.936692476272583,
	"eval_runtime": 111.3228,
	"eval_samples_per_second": 898.289,
	"eval_steps_per_second": 56.143,
	"step": 1392000
	},
	{
	"epoch": 11.79,
	"eval_loss": 1.9438282251358032,
	"eval_runtime": 113.421,
	"eval_samples_per_second": 881.671,
	"eval_steps_per_second": 55.104,
	"step": 1400000
	},
	{
	"epoch": 11.86,
	"learning_rate": 1.6946666666666668e-07,
	"loss": 2.0731,
	"step": 1408000
	},
	{
	"epoch": 11.86,
	"eval_loss": 1.9327083826065063,
	"eval_runtime": 111.5562,
	"eval_samples_per_second": 896.409,
	"eval_steps_per_second": 56.026,
	"step": 1408000
	},
	{
	"epoch": 11.92,
	"eval_loss": 1.93413245677948,
	"eval_runtime": 111.6893,
	"eval_samples_per_second": 895.341,
	"eval_steps_per_second": 55.959,
	"step": 1416000
	},
	{
	"epoch": 11.99,
	"learning_rate": 1.6673333333333333e-07,
	"loss": 2.0774,
	"step": 1424000
	},
	{
	"epoch": 11.99,
	"eval_loss": 1.9390318393707275,
	"eval_runtime": 111.7654,
	"eval_samples_per_second": 894.732,
	"eval_steps_per_second": 55.921,
	"step": 1424000
	},
	{
	"epoch": 12.06,
	"eval_loss": 1.9456911087036133,
	"eval_runtime": 112.3213,
	"eval_samples_per_second": 890.303,
	"eval_steps_per_second": 55.644,
	"step": 1432000
	},
	{
	"epoch": 12.13,
	"learning_rate": 1.64e-07,
	"loss": 2.0738,
	"step": 1440000
	},
	{
	"epoch": 12.13,
	"eval_loss": 1.9436718225479126,
	"eval_runtime": 112.04,
	"eval_samples_per_second": 892.539,
	"eval_steps_per_second": 55.784,
	"step": 1440000
	},
	{
	"epoch": 12.19,
	"eval_loss": 1.9353281259536743,
	"eval_runtime": 111.1163,
	"eval_samples_per_second": 899.958,
	"eval_steps_per_second": 56.247,
	"step": 1448000
	},
	{
	"epoch": 12.26,
	"learning_rate": 1.6126666666666667e-07,
	"loss": 2.0667,
	"step": 1456000
	},
	{
	"epoch": 12.26,
	"eval_loss": 1.942425012588501,
	"eval_runtime": 112.2929,
	"eval_samples_per_second": 890.528,
	"eval_steps_per_second": 55.658,
	"step": 1456000
	},
	{
	"epoch": 12.33,
	"eval_loss": 1.9434609413146973,
	"eval_runtime": 111.3439,
	"eval_samples_per_second": 898.118,
	"eval_steps_per_second": 56.132,
	"step": 1464000
	},
	{
	"epoch": 12.4,
	"learning_rate": 1.5853333333333332e-07,
	"loss": 2.0674,
	"step": 1472000
	},
	{
	"epoch": 12.4,
	"eval_loss": 1.933566927909851,
	"eval_runtime": 112.0783,
	"eval_samples_per_second": 892.234,
	"eval_steps_per_second": 55.765,
	"step": 1472000
	},
	{
	"epoch": 12.46,
	"eval_loss": 1.9461445808410645,
	"eval_runtime": 111.6861,
	"eval_samples_per_second": 895.367,
	"eval_steps_per_second": 55.96,
	"step": 1480000
	},
	{
	"epoch": 12.53,
	"learning_rate": 1.558e-07,
	"loss": 2.0704,
	"step": 1488000
	},
	{
	"epoch": 12.53,
	"eval_loss": 1.9457792043685913,
	"eval_runtime": 112.4559,
	"eval_samples_per_second": 889.237,
	"eval_steps_per_second": 55.577,
	"step": 1488000
	},
	{
	"epoch": 12.6,
	"eval_loss": 1.9397221803665161,
	"eval_runtime": 111.3476,
	"eval_samples_per_second": 898.089,
	"eval_steps_per_second": 56.131,
	"step": 1496000
	},
	{
	"epoch": 12.67,
	"learning_rate": 1.5306666666666666e-07,
	"loss": 2.0691,
	"step": 1504000
	},
	{
	"epoch": 12.67,
	"eval_loss": 1.9437509775161743,
	"eval_runtime": 112.0293,
	"eval_samples_per_second": 892.624,
	"eval_steps_per_second": 55.789,
	"step": 1504000
	},
	{
	"epoch": 12.73,
	"eval_loss": 1.932470679283142,
	"eval_runtime": 112.2376,
	"eval_samples_per_second": 890.967,
	"eval_steps_per_second": 55.685,
	"step": 1512000
	},
	{
	"epoch": 12.8,
	"learning_rate": 1.5033333333333332e-07,
	"loss": 2.0727,
	"step": 1520000
	},
	{
	"epoch": 12.8,
	"eval_loss": 1.935852289199829,
	"eval_runtime": 112.777,
	"eval_samples_per_second": 886.706,
	"eval_steps_per_second": 55.419,
	"step": 1520000
	},
	{
	"epoch": 12.87,
	"eval_loss": 1.9426517486572266,
	"eval_runtime": 112.773,
	"eval_samples_per_second": 886.737,
	"eval_steps_per_second": 55.421,
	"step": 1528000
	},
	{
	"epoch": 12.93,
	"learning_rate": 1.476e-07,
	"loss": 2.0715,
	"step": 1536000
	},
	{
	"epoch": 12.93,
	"eval_loss": 1.9491215944290161,
	"eval_runtime": 111.747,
	"eval_samples_per_second": 894.878,
	"eval_steps_per_second": 55.93,
	"step": 1536000
	},
	{
	"epoch": 13.0,
	"eval_loss": 1.9350641965866089,
	"eval_runtime": 111.6174,
	"eval_samples_per_second": 895.917,
	"eval_steps_per_second": 55.995,
	"step": 1544000
	},
	{
	"epoch": 13.07,
	"learning_rate": 1.4486666666666665e-07,
	"loss": 2.0692,
	"step": 1552000
	},
	{
	"epoch": 13.07,
	"eval_loss": 1.924606204032898,
	"eval_runtime": 111.7882,
	"eval_samples_per_second": 894.549,
	"eval_steps_per_second": 55.909,
	"step": 1552000
	},
	{
	"epoch": 13.14,
	"eval_loss": 1.9456748962402344,
	"eval_runtime": 112.0116,
	"eval_samples_per_second": 892.765,
	"eval_steps_per_second": 55.798,
	"step": 1560000
	},
	{
	"epoch": 13.2,
	"learning_rate": 1.4213333333333334e-07,
	"loss": 2.0711,
	"step": 1568000
	},
	{
	"epoch": 13.2,
	"eval_loss": 1.940625786781311,
	"eval_runtime": 111.8712,
	"eval_samples_per_second": 893.885,
	"eval_steps_per_second": 55.868,
	"step": 1568000
	},
	{
	"epoch": 13.27,
	"eval_loss": 1.9458470344543457,
	"eval_runtime": 113.2996,
	"eval_samples_per_second": 882.616,
	"eval_steps_per_second": 55.163,
	"step": 1576000
	},
	{
	"epoch": 13.34,
	"learning_rate": 1.3940000000000002e-07,
	"loss": 2.0735,
	"step": 1584000
	},
	{
	"epoch": 13.34,
	"eval_loss": 1.9356151819229126,
	"eval_runtime": 112.3553,
	"eval_samples_per_second": 890.033,
	"eval_steps_per_second": 55.627,
	"step": 1584000
	},
	{
	"epoch": 13.41,
	"eval_loss": 1.9443440437316895,
	"eval_runtime": 112.0434,
	"eval_samples_per_second": 892.512,
	"eval_steps_per_second": 55.782,
	"step": 1592000
	},
	{
	"epoch": 13.47,
	"learning_rate": 1.3666666666666665e-07,
	"loss": 2.0707,
	"step": 1600000
	},
	{
	"epoch": 13.47,
	"eval_loss": 1.9308792352676392,
	"eval_runtime": 112.2968,
	"eval_samples_per_second": 890.497,
	"eval_steps_per_second": 55.656,
	"step": 1600000
	},
	{
	"epoch": 13.54,
	"eval_loss": 1.9366567134857178,
	"eval_runtime": 113.834,
	"eval_samples_per_second": 878.472,
	"eval_steps_per_second": 54.904,
	"step": 1608000
	},
	{
	"epoch": 13.61,
	"learning_rate": 1.3393333333333333e-07,
	"loss": 2.0776,
	"step": 1616000
	},
	{
	"epoch": 13.61,
	"eval_loss": 1.938970923423767,
	"eval_runtime": 113.1972,
	"eval_samples_per_second": 883.414,
	"eval_steps_per_second": 55.213,
	"step": 1616000
	},
	{
	"epoch": 13.68,
	"eval_loss": 1.9390745162963867,
	"eval_runtime": 113.4016,
	"eval_samples_per_second": 881.822,
	"eval_steps_per_second": 55.114,
	"step": 1624000
	},
	{
	"epoch": 13.74,
	"learning_rate": 1.312e-07,
	"loss": 2.074,
	"step": 1632000
	},
	{
	"epoch": 13.74,
	"eval_loss": 1.945857048034668,
	"eval_runtime": 112.0726,
	"eval_samples_per_second": 892.279,
	"eval_steps_per_second": 55.767,
	"step": 1632000
	},
	{
	"epoch": 13.81,
	"eval_loss": 1.9315778017044067,
	"eval_runtime": 112.2508,
	"eval_samples_per_second": 890.862,
	"eval_steps_per_second": 55.679,
	"step": 1640000
	},
	{
	"epoch": 13.88,
	"learning_rate": 1.2846666666666667e-07,
	"loss": 2.0681,
	"step": 1648000
	},
	{
	"epoch": 13.88,
	"eval_loss": 1.9354796409606934,
	"eval_runtime": 112.1476,
	"eval_samples_per_second": 891.682,
	"eval_steps_per_second": 55.73,
	"step": 1648000
	},
	{
	"epoch": 13.95,
	"eval_loss": 1.942836046218872,
	"eval_runtime": 113.6141,
	"eval_samples_per_second": 880.172,
	"eval_steps_per_second": 55.011,
	"step": 1656000
	},
	{
	"epoch": 14.01,
	"learning_rate": 1.2573333333333332e-07,
	"loss": 2.0671,
	"step": 1664000
	},
	{
	"epoch": 14.01,
	"eval_loss": 1.9285801649093628,
	"eval_runtime": 114.1501,
	"eval_samples_per_second": 876.04,
	"eval_steps_per_second": 54.752,
	"step": 1664000
	},
	{
	"epoch": 14.08,
	"eval_loss": 1.9373844861984253,
	"eval_runtime": 113.4911,
	"eval_samples_per_second": 881.126,
	"eval_steps_per_second": 55.07,
	"step": 1672000
	},
	{
	"epoch": 14.15,
	"learning_rate": 1.23e-07,
	"loss": 2.0672,
	"step": 1680000
	},
	{
	"epoch": 14.15,
	"eval_loss": 1.9412592649459839,
	"eval_runtime": 112.4158,
	"eval_samples_per_second": 889.554,
	"eval_steps_per_second": 55.597,
	"step": 1680000
	},
	{
	"epoch": 14.21,
	"eval_loss": 1.9371790885925293,
	"eval_runtime": 112.6271,
	"eval_samples_per_second": 887.885,
	"eval_steps_per_second": 55.493,
	"step": 1688000
	},
	{
	"epoch": 14.28,
	"learning_rate": 1.2026666666666666e-07,
	"loss": 2.0675,
	"step": 1696000
	},
	{
	"epoch": 14.28,
	"eval_loss": 1.9316694736480713,
	"eval_runtime": 112.9076,
	"eval_samples_per_second": 885.68,
	"eval_steps_per_second": 55.355,
	"step": 1696000
	},
	{
	"epoch": 14.35,
	"eval_loss": 1.9431692361831665,
	"eval_runtime": 113.2713,
	"eval_samples_per_second": 882.836,
	"eval_steps_per_second": 55.177,
	"step": 1704000
	},
	{
	"epoch": 14.42,
	"learning_rate": 1.1753333333333334e-07,
	"loss": 2.0665,
	"step": 1712000
	},
	{
	"epoch": 14.42,
	"eval_loss": 1.9444059133529663,
	"eval_runtime": 113.7863,
	"eval_samples_per_second": 878.841,
	"eval_steps_per_second": 54.928,
	"step": 1712000
	},
	{
	"epoch": 14.48,
	"eval_loss": 1.9393354654312134,
	"eval_runtime": 113.2214,
	"eval_samples_per_second": 883.225,
	"eval_steps_per_second": 55.202,
	"step": 1720000
	},
	{
	"epoch": 14.55,
	"learning_rate": 1.1480000000000001e-07,
	"loss": 2.0645,
	"step": 1728000
	},
	{
	"epoch": 14.55,
	"eval_loss": 1.9462323188781738,
	"eval_runtime": 114.3328,
	"eval_samples_per_second": 874.64,
	"eval_steps_per_second": 54.665,
	"step": 1728000
	},
	{
	"epoch": 14.62,
	"eval_loss": 1.9374451637268066,
	"eval_runtime": 112.5932,
	"eval_samples_per_second": 888.153,
	"eval_steps_per_second": 55.51,
	"step": 1736000
	},
	{
	"epoch": 14.69,
	"learning_rate": 1.1206666666666666e-07,
	"loss": 2.0712,
	"step": 1744000
	},
	{
	"epoch": 14.69,
	"eval_loss": 1.9367477893829346,
	"eval_runtime": 113.3109,
	"eval_samples_per_second": 882.527,
	"eval_steps_per_second": 55.158,
	"step": 1744000
	},
	{
	"epoch": 14.75,
	"eval_loss": 1.9407415390014648,
	"eval_runtime": 112.5273,
	"eval_samples_per_second": 888.673,
	"eval_steps_per_second": 55.542,
	"step": 1752000
	},
	{
	"epoch": 14.82,
	"learning_rate": 1.0933333333333333e-07,
	"loss": 2.0689,
	"step": 1760000
	},
	{
	"epoch": 14.82,
	"eval_loss": 1.936061978340149,
	"eval_runtime": 112.7649,
	"eval_samples_per_second": 886.801,
	"eval_steps_per_second": 55.425,
	"step": 1760000
	},
	{
	"epoch": 14.89,
	"eval_loss": 1.9395064115524292,
	"eval_runtime": 112.9027,
	"eval_samples_per_second": 885.719,
	"eval_steps_per_second": 55.357,
	"step": 1768000
	},
	{
	"epoch": 14.96,
	"learning_rate": 1.066e-07,
	"loss": 2.0657,
	"step": 1776000
	},
	{
	"epoch": 14.96,
	"eval_loss": 1.9389370679855347,
	"eval_runtime": 112.5304,
	"eval_samples_per_second": 888.649,
	"eval_steps_per_second": 55.541,
	"step": 1776000
	},
	{
	"epoch": 15.02,
	"eval_loss": 1.939638614654541,
	"eval_runtime": 111.9639,
	"eval_samples_per_second": 893.145,
	"eval_steps_per_second": 55.822,
	"step": 1784000
	},
	{
	"epoch": 15.09,
	"learning_rate": 1.0386666666666667e-07,
	"loss": 2.0781,
	"step": 1792000
	},
	{
	"epoch": 15.09,
	"eval_loss": 1.9406148195266724,
	"eval_runtime": 112.1285,
	"eval_samples_per_second": 891.834,
	"eval_steps_per_second": 55.74,
	"step": 1792000
	},
	{
	"epoch": 15.16,
	"eval_loss": 1.9366379976272583,
	"eval_runtime": 112.1351,
	"eval_samples_per_second": 891.781,
	"eval_steps_per_second": 55.736,
	"step": 1800000
	},
	{
	"epoch": 15.23,
	"learning_rate": 1.0113333333333334e-07,
	"loss": 2.0631,
	"step": 1808000
	},
	{
	"epoch": 15.23,
	"eval_loss": 1.935654878616333,
	"eval_runtime": 112.8126,
	"eval_samples_per_second": 886.426,
	"eval_steps_per_second": 55.402,
	"step": 1808000
	},
	{
	"epoch": 15.29,
	"eval_loss": 1.9456075429916382,
	"eval_runtime": 112.2126,
	"eval_samples_per_second": 891.166,
	"eval_steps_per_second": 55.698,
	"step": 1816000
	},
	{
	"epoch": 15.36,
	"learning_rate": 9.84e-08,
	"loss": 2.0738,
	"step": 1824000
	},
	{
	"epoch": 15.36,
	"eval_loss": 1.9325162172317505,
	"eval_runtime": 112.2554,
	"eval_samples_per_second": 890.825,
	"eval_steps_per_second": 55.677,
	"step": 1824000
	},
	{
	"epoch": 15.43,
	"eval_loss": 1.9377248287200928,
	"eval_runtime": 111.9986,
	"eval_samples_per_second": 892.868,
	"eval_steps_per_second": 55.804,
	"step": 1832000
	},
	{
	"epoch": 15.49,
	"learning_rate": 9.566666666666666e-08,
	"loss": 2.0726,
	"step": 1840000
	},
	{
	"epoch": 15.49,
	"eval_loss": 1.9404562711715698,
	"eval_runtime": 112.0792,
	"eval_samples_per_second": 892.226,
	"eval_steps_per_second": 55.764,
	"step": 1840000
	},
	{
	"epoch": 15.56,
	"eval_loss": 1.93331778049469,
	"eval_runtime": 112.9009,
	"eval_samples_per_second": 885.733,
	"eval_steps_per_second": 55.358,
	"step": 1848000
	},
	{
	"epoch": 15.63,
	"learning_rate": 9.293333333333333e-08,
	"loss": 2.0699,
	"step": 1856000
	},
	{
	"epoch": 15.63,
	"eval_loss": 1.936886191368103,
	"eval_runtime": 112.1154,
	"eval_samples_per_second": 891.938,
	"eval_steps_per_second": 55.746,
	"step": 1856000
	},
	{
	"epoch": 15.7,
	"eval_loss": 1.9418281316757202,
	"eval_runtime": 113.1424,
	"eval_samples_per_second": 883.842,
	"eval_steps_per_second": 55.24,
	"step": 1864000
	},
	{
	"epoch": 15.76,
	"learning_rate": 9.02e-08,
	"loss": 2.0764,
	"step": 1872000
	},
	{
	"epoch": 15.76,
	"eval_loss": 1.936255931854248,
	"eval_runtime": 112.2628,
	"eval_samples_per_second": 890.767,
	"eval_steps_per_second": 55.673,
	"step": 1872000
	},
	{
	"epoch": 15.83,
	"eval_loss": 1.9375123977661133,
	"eval_runtime": 113.2525,
	"eval_samples_per_second": 882.982,
	"eval_steps_per_second": 55.186,
	"step": 1880000
	},
	{
	"epoch": 15.9,
	"learning_rate": 8.746666666666667e-08,
	"loss": 2.0779,
	"step": 1888000
	},
	{
	"epoch": 15.9,
	"eval_loss": 1.9335252046585083,
	"eval_runtime": 113.7859,
	"eval_samples_per_second": 878.844,
	"eval_steps_per_second": 54.928,
	"step": 1888000
	},
	{
	"epoch": 15.97,
	"eval_loss": 1.9454823732376099,
	"eval_runtime": 112.4427,
	"eval_samples_per_second": 889.342,
	"eval_steps_per_second": 55.584,
	"step": 1896000
	},
	{
	"epoch": 16.03,
	"learning_rate": 8.473333333333334e-08,
	"loss": 2.0693,
	"step": 1904000
	},
	{
	"epoch": 16.03,
	"eval_loss": 1.9446665048599243,
	"eval_runtime": 112.6559,
	"eval_samples_per_second": 887.659,
	"eval_steps_per_second": 55.479,
	"step": 1904000
	},
	{
	"epoch": 16.1,
	"eval_loss": 1.9349315166473389,
	"eval_runtime": 113.0201,
	"eval_samples_per_second": 884.798,
	"eval_steps_per_second": 55.3,
	"step": 1912000
	},
	{
	"epoch": 16.17,
	"learning_rate": 8.2e-08,
	"loss": 2.0716,
	"step": 1920000
	},
	{
	"epoch": 16.17,
	"eval_loss": 1.9339326620101929,
	"eval_runtime": 112.7709,
	"eval_samples_per_second": 886.754,
	"eval_steps_per_second": 55.422,
	"step": 1920000
	},
	{
	"epoch": 16.24,
	"eval_loss": 1.94255530834198,
	"eval_runtime": 112.798,
	"eval_samples_per_second": 886.54,
	"eval_steps_per_second": 55.409,
	"step": 1928000
	},
	{
	"epoch": 16.3,
	"learning_rate": 7.926666666666666e-08,
	"loss": 2.075,
	"step": 1936000
	},
	{
	"epoch": 16.3,
	"eval_loss": 1.943917155265808,
	"eval_runtime": 112.6881,
	"eval_samples_per_second": 887.405,
	"eval_steps_per_second": 55.463,
	"step": 1936000
	},
	{
	"epoch": 16.37,
	"eval_loss": 1.9333665370941162,
	"eval_runtime": 113.4627,
	"eval_samples_per_second": 881.347,
	"eval_steps_per_second": 55.084,
	"step": 1944000
	},
	{
	"epoch": 16.44,
	"learning_rate": 7.653333333333333e-08,
	"loss": 2.0751,
	"step": 1952000
	},
	{
	"epoch": 16.44,
	"eval_loss": 1.9466158151626587,
	"eval_runtime": 112.5622,
	"eval_samples_per_second": 888.398,
	"eval_steps_per_second": 55.525,
	"step": 1952000
	},
	{
	"epoch": 16.51,
	"eval_loss": 1.9396798610687256,
	"eval_runtime": 112.8587,
	"eval_samples_per_second": 886.064,
	"eval_steps_per_second": 55.379,
	"step": 1960000
	},
	{
	"epoch": 16.57,
	"learning_rate": 7.38e-08,
	"loss": 2.0734,
	"step": 1968000
	},
	{
	"epoch": 16.57,
	"eval_loss": 1.9367443323135376,
	"eval_runtime": 113.0019,
	"eval_samples_per_second": 884.941,
	"eval_steps_per_second": 55.309,
	"step": 1968000
	},
	{
	"epoch": 16.64,
	"eval_loss": 1.9348819255828857,
	"eval_runtime": 113.2526,
	"eval_samples_per_second": 882.982,
	"eval_steps_per_second": 55.186,
	"step": 1976000
	},
	{
	"epoch": 16.71,
	"learning_rate": 7.106666666666667e-08,
	"loss": 2.0685,
	"step": 1984000
	},
	{
	"epoch": 16.71,
	"eval_loss": 1.950958013534546,
	"eval_runtime": 112.2498,
	"eval_samples_per_second": 890.87,
	"eval_steps_per_second": 55.679,
	"step": 1984000
	},
	{
	"epoch": 16.77,
	"eval_loss": 1.9427640438079834,
	"eval_runtime": 112.1897,
	"eval_samples_per_second": 891.347,
	"eval_steps_per_second": 55.709,
	"step": 1992000
	},
	{
	"epoch": 16.84,
	"learning_rate": 6.833333333333332e-08,
	"loss": 2.0706,
	"step": 2000000
	},
	{
	"epoch": 16.84,
	"eval_loss": 1.9509494304656982,
	"eval_runtime": 112.3131,
	"eval_samples_per_second": 890.368,
	"eval_steps_per_second": 55.648,
	"step": 2000000
	},
	{
	"epoch": 16.91,
	"eval_loss": 1.9403355121612549,
	"eval_runtime": 112.559,
	"eval_samples_per_second": 888.423,
	"eval_steps_per_second": 55.526,
	"step": 2008000
	},
	{
	"epoch": 16.98,
	"learning_rate": 6.56e-08,
	"loss": 2.0716,
	"step": 2016000
	},
	{
	"epoch": 16.98,
	"eval_loss": 1.9383665323257446,
	"eval_runtime": 113.2638,
	"eval_samples_per_second": 882.894,
	"eval_steps_per_second": 55.181,
	"step": 2016000
	},
	{
	"epoch": 17.04,
	"eval_loss": 1.935543179512024,
	"eval_runtime": 113.0174,
	"eval_samples_per_second": 884.819,
	"eval_steps_per_second": 55.301,
	"step": 2024000
	},
	{
	"epoch": 17.11,
	"learning_rate": 6.286666666666666e-08,
	"loss": 2.0741,
	"step": 2032000
	},
	{
	"epoch": 17.11,
	"eval_loss": 1.9308490753173828,
	"eval_runtime": 113.1785,
	"eval_samples_per_second": 883.56,
	"eval_steps_per_second": 55.223,
	"step": 2032000
	},
	{
	"epoch": 17.18,
	"eval_loss": 1.9395028352737427,
	"eval_runtime": 113.293,
	"eval_samples_per_second": 882.667,
	"eval_steps_per_second": 55.167,
	"step": 2040000
	},
	{
	"epoch": 17.25,
	"learning_rate": 6.013333333333333e-08,
	"loss": 2.0714,
	"step": 2048000
	},
	{
	"epoch": 17.25,
	"eval_loss": 1.9502129554748535,
	"eval_runtime": 113.0063,
	"eval_samples_per_second": 884.907,
	"eval_steps_per_second": 55.307,
	"step": 2048000
	},
	{
	"epoch": 17.31,
	"eval_loss": 1.9337003231048584,
	"eval_runtime": 114.7888,
	"eval_samples_per_second": 871.165,
	"eval_steps_per_second": 54.448,
	"step": 2056000
	},
	{
	"epoch": 17.38,
	"learning_rate": 5.7400000000000004e-08,
	"loss": 2.0696,
	"step": 2064000
	},
	{
	"epoch": 17.38,
	"eval_loss": 1.9382506608963013,
	"eval_runtime": 113.6067,
	"eval_samples_per_second": 880.23,
	"eval_steps_per_second": 55.014,
	"step": 2064000
	},
	{
	"epoch": 17.45,
	"eval_loss": 1.9450607299804688,
	"eval_runtime": 113.2107,
	"eval_samples_per_second": 883.309,
	"eval_steps_per_second": 55.207,
	"step": 2072000
	},
	{
	"epoch": 17.52,
	"learning_rate": 5.4666666666666666e-08,
	"loss": 2.0729,
	"step": 2080000
	},
	{
	"epoch": 17.52,
	"eval_loss": 1.9372721910476685,
	"eval_runtime": 113.4098,
	"eval_samples_per_second": 881.758,
	"eval_steps_per_second": 55.11,
	"step": 2080000
	},
	{
	"epoch": 17.58,
	"eval_loss": 1.9365758895874023,
	"eval_runtime": 112.5019,
	"eval_samples_per_second": 888.874,
	"eval_steps_per_second": 55.555,
	"step": 2088000
	},
	{
	"epoch": 17.65,
	"learning_rate": 5.1933333333333335e-08,
	"loss": 2.0716,
	"step": 2096000
	},
	{
	"epoch": 17.65,
	"eval_loss": 1.933381199836731,
	"eval_runtime": 113.0267,
	"eval_samples_per_second": 884.746,
	"eval_steps_per_second": 55.297,
	"step": 2096000
	},
	{
	"epoch": 17.72,
	"eval_loss": 1.9417020082473755,
	"eval_runtime": 113.1566,
	"eval_samples_per_second": 883.731,
	"eval_steps_per_second": 55.233,
	"step": 2104000
	},
	{
	"epoch": 17.79,
	"learning_rate": 4.92e-08,
	"loss": 2.074,
	"step": 2112000
	},
	{
	"epoch": 17.79,
	"eval_loss": 1.9408122301101685,
	"eval_runtime": 112.4418,
	"eval_samples_per_second": 889.349,
	"eval_steps_per_second": 55.584,
	"step": 2112000
	},
	{
	"epoch": 17.85,
	"eval_loss": 1.9258335828781128,
	"eval_runtime": 113.2063,
	"eval_samples_per_second": 883.343,
	"eval_steps_per_second": 55.209,
	"step": 2120000
	},
	{
	"epoch": 17.92,
	"learning_rate": 4.6466666666666666e-08,
	"loss": 2.0745,
	"step": 2128000
	},
	{
	"epoch": 17.92,
	"eval_loss": 1.938525915145874,
	"eval_runtime": 114.1896,
	"eval_samples_per_second": 875.736,
	"eval_steps_per_second": 54.734,
	"step": 2128000
	},
	{
	"epoch": 17.99,
	"eval_loss": 1.9408940076828003,
	"eval_runtime": 114.808,
	"eval_samples_per_second": 871.019,
	"eval_steps_per_second": 54.439,
	"step": 2136000
	},
	{
	"epoch": 18.05,
	"learning_rate": 4.3733333333333335e-08,
	"loss": 2.074,
	"step": 2144000
	},
	{
	"epoch": 18.05,
	"eval_loss": 1.9341570138931274,
	"eval_runtime": 113.4257,
	"eval_samples_per_second": 881.634,
	"eval_steps_per_second": 55.102,
	"step": 2144000
	},
	{
	"epoch": 18.12,
	"eval_loss": 1.9437114000320435,
	"eval_runtime": 113.6847,
	"eval_samples_per_second": 879.626,
	"eval_steps_per_second": 54.977,
	"step": 2152000
	},
	{
	"epoch": 18.19,
	"learning_rate": 4.1e-08,
	"loss": 2.0666,
	"step": 2160000
	},
	{
	"epoch": 18.19,
	"eval_loss": 1.9405776262283325,
	"eval_runtime": 112.7306,
	"eval_samples_per_second": 887.071,
	"eval_steps_per_second": 55.442,
	"step": 2160000
	},
	{
	"epoch": 18.26,
	"eval_loss": 1.9382190704345703,
	"eval_runtime": 112.7331,
	"eval_samples_per_second": 887.051,
	"eval_steps_per_second": 55.441,
	"step": 2168000
	},
	{
	"epoch": 18.32,
	"learning_rate": 3.8266666666666665e-08,
	"loss": 2.0657,
	"step": 2176000
	},
	{
	"epoch": 18.32,
	"eval_loss": 1.939794659614563,
	"eval_runtime": 112.8451,
	"eval_samples_per_second": 886.17,
	"eval_steps_per_second": 55.386,
	"step": 2176000
	},
	{
	"epoch": 18.39,
	"eval_loss": 1.9246890544891357,
	"eval_runtime": 112.9742,
	"eval_samples_per_second": 885.158,
	"eval_steps_per_second": 55.322,
	"step": 2184000
	},
	{
	"epoch": 18.46,
	"learning_rate": 3.5533333333333334e-08,
	"loss": 2.0692,
	"step": 2192000
	},
	{
	"epoch": 18.46,
	"eval_loss": 1.9376510381698608,
	"eval_runtime": 113.0265,
	"eval_samples_per_second": 884.748,
	"eval_steps_per_second": 55.297,
	"step": 2192000
	},
	{
	"epoch": 18.53,
	"eval_loss": 1.942256212234497,
	"eval_runtime": 113.1034,
	"eval_samples_per_second": 884.147,
	"eval_steps_per_second": 55.259,
	"step": 2200000
	},
	{
	"epoch": 18.59,
	"learning_rate": 3.28e-08,
	"loss": 2.0726,
	"step": 2208000
	},
	{
	"epoch": 18.59,
	"eval_loss": 1.9394909143447876,
	"eval_runtime": 113.55,
	"eval_samples_per_second": 880.669,
	"eval_steps_per_second": 55.042,
	"step": 2208000
	},
	{
	"epoch": 18.66,
	"eval_loss": 1.9286389350891113,
	"eval_runtime": 112.8956,
	"eval_samples_per_second": 885.774,
	"eval_steps_per_second": 55.361,
	"step": 2216000
	},
	{
	"epoch": 18.73,
	"learning_rate": 3.0066666666666665e-08,
	"loss": 2.0688,
	"step": 2224000
	},
	{
	"epoch": 18.73,
	"eval_loss": 1.9356930255889893,
	"eval_runtime": 113.4246,
	"eval_samples_per_second": 881.643,
	"eval_steps_per_second": 55.103,
	"step": 2224000
	},
	{
	"epoch": 18.8,
	"eval_loss": 1.9267104864120483,
	"eval_runtime": 112.8211,
	"eval_samples_per_second": 886.359,
	"eval_steps_per_second": 55.397,
	"step": 2232000
	},
	{
	"epoch": 18.86,
	"learning_rate": 2.7333333333333333e-08,
	"loss": 2.0732,
	"step": 2240000
	},
	{
	"epoch": 18.86,
	"eval_loss": 1.929336428642273,
	"eval_runtime": 112.5503,
	"eval_samples_per_second": 888.492,
	"eval_steps_per_second": 55.531,
	"step": 2240000
	},
	{
	"epoch": 18.93,
	"eval_loss": 1.941459059715271,
	"eval_runtime": 113.4202,
	"eval_samples_per_second": 881.677,
	"eval_steps_per_second": 55.105,
	"step": 2248000
	},
	{
	"epoch": 19.0,
	"learning_rate": 2.46e-08,
	"loss": 2.0697,
	"step": 2256000
	},
	{
	"epoch": 19.0,
	"eval_loss": 1.9455673694610596,
	"eval_runtime": 113.6851,
	"eval_samples_per_second": 879.623,
	"eval_steps_per_second": 54.976,
	"step": 2256000
	},
	{
	"epoch": 19.07,
	"eval_loss": 1.9331035614013672,
	"eval_runtime": 113.8097,
	"eval_samples_per_second": 878.66,
	"eval_steps_per_second": 54.916,
	"step": 2264000
	},
	{
	"epoch": 19.13,
	"learning_rate": 2.1866666666666667e-08,
	"loss": 2.0747,
	"step": 2272000
	},
	{
	"epoch": 19.13,
	"eval_loss": 1.9439350366592407,
	"eval_runtime": 112.8451,
	"eval_samples_per_second": 886.17,
	"eval_steps_per_second": 55.386,
	"step": 2272000
	},
	{
	"epoch": 19.2,
	"eval_loss": 1.9293532371520996,
	"eval_runtime": 113.0471,
	"eval_samples_per_second": 884.587,
	"eval_steps_per_second": 55.287,
	"step": 2280000
	},
	{
	"epoch": 19.27,
	"learning_rate": 1.9133333333333333e-08,
	"loss": 2.072,
	"step": 2288000
	},
	{
	"epoch": 19.27,
	"eval_loss": 1.930493950843811,
	"eval_runtime": 114.1854,
	"eval_samples_per_second": 875.769,
	"eval_steps_per_second": 54.736,
	"step": 2288000
	},
	{
	"epoch": 19.33,
	"eval_loss": 1.9400615692138672,
	"eval_runtime": 114.2764,
	"eval_samples_per_second": 875.071,
	"eval_steps_per_second": 54.692,
	"step": 2296000
	},
	{
	"epoch": 19.4,
	"learning_rate": 1.64e-08,
	"loss": 2.0609,
	"step": 2304000
	},
	{
	"epoch": 19.4,
	"eval_loss": 1.9361680746078491,
	"eval_runtime": 113.6148,
	"eval_samples_per_second": 880.167,
	"eval_steps_per_second": 55.01,
	"step": 2304000
	},
	{
	"epoch": 19.47,
	"eval_loss": 1.945052146911621,
	"eval_runtime": 113.9383,
	"eval_samples_per_second": 877.668,
	"eval_steps_per_second": 54.854,
	"step": 2312000
	},
	{
	"epoch": 19.54,
	"learning_rate": 1.3666666666666667e-08,
	"loss": 2.073,
	"step": 2320000
	},
	{
	"epoch": 19.54,
	"eval_loss": 1.9352370500564575,
	"eval_runtime": 113.3806,
	"eval_samples_per_second": 881.985,
	"eval_steps_per_second": 55.124,
	"step": 2320000
	},
	{
	"epoch": 19.6,
	"eval_loss": 1.9379993677139282,
	"eval_runtime": 113.7775,
	"eval_samples_per_second": 878.908,
	"eval_steps_per_second": 54.932,
	"step": 2328000
	},
	{
	"epoch": 19.67,
	"learning_rate": 1.0933333333333334e-08,
	"loss": 2.0793,
	"step": 2336000
	},
	{
	"epoch": 19.67,
	"eval_loss": 1.9392181634902954,
	"eval_runtime": 114.1447,
	"eval_samples_per_second": 876.081,
	"eval_steps_per_second": 54.755,
	"step": 2336000
	},
	{
	"epoch": 19.74,
	"eval_loss": 1.943751573562622,
	"eval_runtime": 113.0391,
	"eval_samples_per_second": 884.65,
	"eval_steps_per_second": 55.291,
	"step": 2344000
	},
	{
	"epoch": 19.81,
	"learning_rate": 8.2e-09,
	"loss": 2.0787,
	"step": 2352000
	},
	{
	"epoch": 19.81,
	"eval_loss": 1.9403409957885742,
	"eval_runtime": 113.8554,
	"eval_samples_per_second": 878.307,
	"eval_steps_per_second": 54.894,
	"step": 2352000
	},
	{
	"epoch": 19.87,
	"eval_loss": 1.9380377531051636,
	"eval_runtime": 112.993,
	"eval_samples_per_second": 885.011,
	"eval_steps_per_second": 55.313,
	"step": 2360000
	},
	{
	"epoch": 19.94,
	"learning_rate": 5.466666666666667e-09,
	"loss": 2.0694,
	"step": 2368000
	},
	{
	"epoch": 19.94,
	"eval_loss": 1.9274845123291016,
	"eval_runtime": 113.327,
	"eval_samples_per_second": 882.402,
	"eval_steps_per_second": 55.15,
	"step": 2368000
	},
	{
	"epoch": 20.01,
	"eval_loss": 1.9343926906585693,
	"eval_runtime": 113.0299,
	"eval_samples_per_second": 884.722,
	"eval_steps_per_second": 55.295,
	"step": 2376000
	},
	{
	"epoch": 20.08,
	"learning_rate": 2.7333333333333334e-09,
	"loss": 2.0649,
	"step": 2384000
	},
	{
	"epoch": 20.08,
	"eval_loss": 1.944276213645935,
	"eval_runtime": 113.1534,
	"eval_samples_per_second": 883.756,
	"eval_steps_per_second": 55.235,
	"step": 2384000
	},
	{
	"epoch": 20.14,
	"eval_loss": 1.9400659799575806,
	"eval_runtime": 113.9859,
	"eval_samples_per_second": 877.302,
	"eval_steps_per_second": 54.831,
	"step": 2392000
	},
	{
	"epoch": 20.21,
	"learning_rate": 0.0,
	"loss": 2.0727,
	"step": 2400000
	},
	{
	"epoch": 20.21,
	"eval_loss": 1.9447115659713745,
	"eval_runtime": 113.1722,
	"eval_samples_per_second": 883.609,
	"eval_steps_per_second": 55.226,
	"step": 2400000
	},
	{
	"epoch": 20.21,
	"step": 2400000,
	"total_flos": 7.569354466725706e+17,
	"train_loss": 2.08237556640625,
	"train_runtime": 186458.4438,
	"train_samples_per_second": 205.944,
	"train_steps_per_second": 12.872
	}
	],
	"logging_steps": 16000,
	"max_steps": 2400000,
	"num_train_epochs": 21,
	"save_steps": 32000,
	"total_flos": 7.569354466725706e+17,
	"trial_name": null,
	"trial_params": null
	}