llama3-8B-DWP-lora / trainer_state.json

Upload folder using huggingface_hub

919e6c4 verified 5 months ago

158 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 2.0,
	"eval_steps": 20,
	"global_step": 1320,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0030303030303030303,
	"grad_norm": 0.42330464720726013,
	"learning_rate": 4e-07,
	"loss": 2.4685,
	"num_input_tokens_seen": 10296,
	"step": 2
	},
	{
	"epoch": 0.006060606060606061,
	"grad_norm": 0.4667194187641144,
	"learning_rate": 8e-07,
	"loss": 2.4399,
	"num_input_tokens_seen": 20376,
	"step": 4
	},
	{
	"epoch": 0.00909090909090909,
	"grad_norm": 0.38802874088287354,
	"learning_rate": 1.2e-06,
	"loss": 2.3101,
	"num_input_tokens_seen": 32664,
	"step": 6
	},
	{
	"epoch": 0.012121212121212121,
	"grad_norm": 0.4379090368747711,
	"learning_rate": 1.6e-06,
	"loss": 2.2743,
	"num_input_tokens_seen": 41904,
	"step": 8
	},
	{
	"epoch": 0.015151515151515152,
	"grad_norm": 0.4267907738685608,
	"learning_rate": 2e-06,
	"loss": 2.355,
	"num_input_tokens_seen": 52776,
	"step": 10
	},
	{
	"epoch": 0.01818181818181818,
	"grad_norm": 0.5171758532524109,
	"learning_rate": 1.999990798125535e-06,
	"loss": 2.633,
	"num_input_tokens_seen": 61464,
	"step": 12
	},
	{
	"epoch": 0.021212121212121213,
	"grad_norm": 0.47265326976776123,
	"learning_rate": 1.9999631927138275e-06,
	"loss": 2.3386,
	"num_input_tokens_seen": 72624,
	"step": 14
	},
	{
	"epoch": 0.024242424242424242,
	"grad_norm": 0.5586420893669128,
	"learning_rate": 1.9999171843999306e-06,
	"loss": 2.3536,
	"num_input_tokens_seen": 81840,
	"step": 16
	},
	{
	"epoch": 0.02727272727272727,
	"grad_norm": 0.39176592230796814,
	"learning_rate": 1.9998527742422515e-06,
	"loss": 2.2979,
	"num_input_tokens_seen": 91968,
	"step": 18
	},
	{
	"epoch": 0.030303030303030304,
	"grad_norm": 0.4795871078968048,
	"learning_rate": 1.9997699637225253e-06,
	"loss": 2.3755,
	"num_input_tokens_seen": 102984,
	"step": 20
	},
	{
	"epoch": 0.030303030303030304,
	"eval_loss": 2.3641138076782227,
	"eval_runtime": 5.815,
	"eval_samples_per_second": 3.439,
	"eval_steps_per_second": 3.439,
	"num_input_tokens_seen": 102984,
	"step": 20
	},
	{
	"epoch": 0.03333333333333333,
	"grad_norm": 0.4541929364204407,
	"learning_rate": 1.9996687547457825e-06,
	"loss": 2.286,
	"num_input_tokens_seen": 113352,
	"step": 22
	},
	{
	"epoch": 0.03636363636363636,
	"grad_norm": 0.4055442810058594,
	"learning_rate": 1.999549149640303e-06,
	"loss": 2.3933,
	"num_input_tokens_seen": 125184,
	"step": 24
	},
	{
	"epoch": 0.03939393939393939,
	"grad_norm": 0.5810754299163818,
	"learning_rate": 1.9994111511575657e-06,
	"loss": 2.1378,
	"num_input_tokens_seen": 135480,
	"step": 26
	},
	{
	"epoch": 0.04242424242424243,
	"grad_norm": 0.41868993639945984,
	"learning_rate": 1.999254762472182e-06,
	"loss": 2.2551,
	"num_input_tokens_seen": 147384,
	"step": 28
	},
	{
	"epoch": 0.045454545454545456,
	"grad_norm": 0.5975711941719055,
	"learning_rate": 1.999079987181824e-06,
	"loss": 2.506,
	"num_input_tokens_seen": 156912,
	"step": 30
	},
	{
	"epoch": 0.048484848484848485,
	"grad_norm": 0.422783762216568,
	"learning_rate": 1.9988868293071435e-06,
	"loss": 2.4742,
	"num_input_tokens_seen": 167568,
	"step": 32
	},
	{
	"epoch": 0.051515151515151514,
	"grad_norm": 0.32683178782463074,
	"learning_rate": 1.998675293291676e-06,
	"loss": 2.5007,
	"num_input_tokens_seen": 176616,
	"step": 34
	},
	{
	"epoch": 0.05454545454545454,
	"grad_norm": 0.4234691858291626,
	"learning_rate": 1.998445384001741e-06,
	"loss": 2.4632,
	"num_input_tokens_seen": 187272,
	"step": 36
	},
	{
	"epoch": 0.05757575757575758,
	"grad_norm": 0.4502381980419159,
	"learning_rate": 1.99819710672633e-06,
	"loss": 2.4556,
	"num_input_tokens_seen": 196992,
	"step": 38
	},
	{
	"epoch": 0.06060606060606061,
	"grad_norm": 0.5127580165863037,
	"learning_rate": 1.9979304671769838e-06,
	"loss": 2.5355,
	"num_input_tokens_seen": 208824,
	"step": 40
	},
	{
	"epoch": 0.06060606060606061,
	"eval_loss": 2.361894130706787,
	"eval_runtime": 5.8061,
	"eval_samples_per_second": 3.445,
	"eval_steps_per_second": 3.445,
	"num_input_tokens_seen": 208824,
	"step": 40
	},
	{
	"epoch": 0.06363636363636363,
	"grad_norm": 0.5844971537590027,
	"learning_rate": 1.997645471487661e-06,
	"loss": 2.497,
	"num_input_tokens_seen": 217272,
	"step": 42
	},
	{
	"epoch": 0.06666666666666667,
	"grad_norm": 0.41816312074661255,
	"learning_rate": 1.9973421262145992e-06,
	"loss": 2.4371,
	"num_input_tokens_seen": 229560,
	"step": 44
	},
	{
	"epoch": 0.0696969696969697,
	"grad_norm": 0.505349338054657,
	"learning_rate": 1.99702043833616e-06,
	"loss": 2.4757,
	"num_input_tokens_seen": 239568,
	"step": 46
	},
	{
	"epoch": 0.07272727272727272,
	"grad_norm": 0.4537525177001953,
	"learning_rate": 1.9966804152526726e-06,
	"loss": 2.4514,
	"num_input_tokens_seen": 251664,
	"step": 48
	},
	{
	"epoch": 0.07575757575757576,
	"grad_norm": 0.40902894735336304,
	"learning_rate": 1.996322064786261e-06,
	"loss": 2.3474,
	"num_input_tokens_seen": 263040,
	"step": 50
	},
	{
	"epoch": 0.07878787878787878,
	"grad_norm": 0.48902806639671326,
	"learning_rate": 1.9959453951806656e-06,
	"loss": 2.4297,
	"num_input_tokens_seen": 271080,
	"step": 52
	},
	{
	"epoch": 0.08181818181818182,
	"grad_norm": 0.4684095084667206,
	"learning_rate": 1.995550415101052e-06,
	"loss": 2.6676,
	"num_input_tokens_seen": 282000,
	"step": 54
	},
	{
	"epoch": 0.08484848484848485,
	"grad_norm": 0.33189377188682556,
	"learning_rate": 1.9951371336338145e-06,
	"loss": 2.1799,
	"num_input_tokens_seen": 290568,
	"step": 56
	},
	{
	"epoch": 0.08787878787878788,
	"grad_norm": 0.4579316973686218,
	"learning_rate": 1.994705560286361e-06,
	"loss": 2.5315,
	"num_input_tokens_seen": 298920,
	"step": 58
	},
	{
	"epoch": 0.09090909090909091,
	"grad_norm": 0.42468497157096863,
	"learning_rate": 1.994255704986903e-06,
	"loss": 2.4679,
	"num_input_tokens_seen": 309744,
	"step": 60
	},
	{
	"epoch": 0.09090909090909091,
	"eval_loss": 2.360027551651001,
	"eval_runtime": 5.8148,
	"eval_samples_per_second": 3.439,
	"eval_steps_per_second": 3.439,
	"num_input_tokens_seen": 309744,
	"step": 60
	},
	{
	"epoch": 0.09393939393939393,
	"grad_norm": 0.5245186686515808,
	"learning_rate": 1.993787578084219e-06,
	"loss": 2.4576,
	"num_input_tokens_seen": 321360,
	"step": 62
	},
	{
	"epoch": 0.09696969696969697,
	"grad_norm": 0.38165679574012756,
	"learning_rate": 1.9933011903474228e-06,
	"loss": 2.275,
	"num_input_tokens_seen": 332736,
	"step": 64
	},
	{
	"epoch": 0.1,
	"grad_norm": 0.5568698644638062,
	"learning_rate": 1.992796552965711e-06,
	"loss": 2.2761,
	"num_input_tokens_seen": 344568,
	"step": 66
	},
	{
	"epoch": 0.10303030303030303,
	"grad_norm": 0.39623475074768066,
	"learning_rate": 1.9922736775481083e-06,
	"loss": 2.3385,
	"num_input_tokens_seen": 356616,
	"step": 68
	},
	{
	"epoch": 0.10606060606060606,
	"grad_norm": 0.532319188117981,
	"learning_rate": 1.991732576123199e-06,
	"loss": 2.3342,
	"num_input_tokens_seen": 367680,
	"step": 70
	},
	{
	"epoch": 0.10909090909090909,
	"grad_norm": 0.505707859992981,
	"learning_rate": 1.9911732611388524e-06,
	"loss": 2.3604,
	"num_input_tokens_seen": 377376,
	"step": 72
	},
	{
	"epoch": 0.11212121212121212,
	"grad_norm": 0.4921689033508301,
	"learning_rate": 1.9905957454619343e-06,
	"loss": 2.2869,
	"num_input_tokens_seen": 387432,
	"step": 74
	},
	{
	"epoch": 0.11515151515151516,
	"grad_norm": 0.47557827830314636,
	"learning_rate": 1.9900000423780104e-06,
	"loss": 2.601,
	"num_input_tokens_seen": 395808,
	"step": 76
	},
	{
	"epoch": 0.11818181818181818,
	"grad_norm": 1.9346156120300293,
	"learning_rate": 1.9893861655910444e-06,
	"loss": 2.3741,
	"num_input_tokens_seen": 407568,
	"step": 78
	},
	{
	"epoch": 0.12121212121212122,
	"grad_norm": 0.45454809069633484,
	"learning_rate": 1.988754129223079e-06,
	"loss": 2.3929,
	"num_input_tokens_seen": 417648,
	"step": 80
	},
	{
	"epoch": 0.12121212121212122,
	"eval_loss": 2.3575997352600098,
	"eval_runtime": 5.8145,
	"eval_samples_per_second": 3.44,
	"eval_steps_per_second": 3.44,
	"num_input_tokens_seen": 417648,
	"step": 80
	},
	{
	"epoch": 0.12424242424242424,
	"grad_norm": 0.533509373664856,
	"learning_rate": 1.9881039478139115e-06,
	"loss": 2.3717,
	"num_input_tokens_seen": 428568,
	"step": 82
	},
	{
	"epoch": 0.12727272727272726,
	"grad_norm": 0.3749203681945801,
	"learning_rate": 1.9874356363207624e-06,
	"loss": 2.2728,
	"num_input_tokens_seen": 437688,
	"step": 84
	},
	{
	"epoch": 0.1303030303030303,
	"grad_norm": 0.41353124380111694,
	"learning_rate": 1.986749210117927e-06,
	"loss": 2.5347,
	"num_input_tokens_seen": 447408,
	"step": 86
	},
	{
	"epoch": 0.13333333333333333,
	"grad_norm": 0.4702826142311096,
	"learning_rate": 1.986044684996425e-06,
	"loss": 2.4081,
	"num_input_tokens_seen": 456120,
	"step": 88
	},
	{
	"epoch": 0.13636363636363635,
	"grad_norm": 0.5201271772384644,
	"learning_rate": 1.985322077163636e-06,
	"loss": 2.5697,
	"num_input_tokens_seen": 467208,
	"step": 90
	},
	{
	"epoch": 0.1393939393939394,
	"grad_norm": 0.5325783491134644,
	"learning_rate": 1.9845814032429257e-06,
	"loss": 2.3267,
	"num_input_tokens_seen": 477168,
	"step": 92
	},
	{
	"epoch": 0.14242424242424243,
	"grad_norm": 0.49566376209259033,
	"learning_rate": 1.9838226802732656e-06,
	"loss": 2.5342,
	"num_input_tokens_seen": 486888,
	"step": 94
	},
	{
	"epoch": 0.14545454545454545,
	"grad_norm": 0.5317257046699524,
	"learning_rate": 1.9830459257088395e-06,
	"loss": 2.5662,
	"num_input_tokens_seen": 496584,
	"step": 96
	},
	{
	"epoch": 0.1484848484848485,
	"grad_norm": 0.6195109486579895,
	"learning_rate": 1.982251157418642e-06,
	"loss": 2.3294,
	"num_input_tokens_seen": 503736,
	"step": 98
	},
	{
	"epoch": 0.15151515151515152,
	"grad_norm": 0.4253556728363037,
	"learning_rate": 1.981438393686069e-06,
	"loss": 2.6105,
	"num_input_tokens_seen": 513600,
	"step": 100
	},
	{
	"epoch": 0.15151515151515152,
	"eval_loss": 2.3544414043426514,
	"eval_runtime": 5.8171,
	"eval_samples_per_second": 3.438,
	"eval_steps_per_second": 3.438,
	"num_input_tokens_seen": 513600,
	"step": 100
	},
	{
	"epoch": 0.15454545454545454,
	"grad_norm": 0.5861473083496094,
	"learning_rate": 1.980607653208495e-06,
	"loss": 2.6435,
	"num_input_tokens_seen": 519960,
	"step": 102
	},
	{
	"epoch": 0.15757575757575756,
	"grad_norm": 0.44223421812057495,
	"learning_rate": 1.9797589550968434e-06,
	"loss": 2.4326,
	"num_input_tokens_seen": 529392,
	"step": 104
	},
	{
	"epoch": 0.1606060606060606,
	"grad_norm": 0.7290481328964233,
	"learning_rate": 1.9788923188751478e-06,
	"loss": 2.5169,
	"num_input_tokens_seen": 537000,
	"step": 106
	},
	{
	"epoch": 0.16363636363636364,
	"grad_norm": 0.43159109354019165,
	"learning_rate": 1.978007764480103e-06,
	"loss": 2.3097,
	"num_input_tokens_seen": 546864,
	"step": 108
	},
	{
	"epoch": 0.16666666666666666,
	"grad_norm": 0.46773430705070496,
	"learning_rate": 1.977105312260605e-06,
	"loss": 2.2565,
	"num_input_tokens_seen": 558432,
	"step": 110
	},
	{
	"epoch": 0.1696969696969697,
	"grad_norm": 0.46607473492622375,
	"learning_rate": 1.976184982977284e-06,
	"loss": 2.3503,
	"num_input_tokens_seen": 569016,
	"step": 112
	},
	{
	"epoch": 0.17272727272727273,
	"grad_norm": 0.5427464842796326,
	"learning_rate": 1.975246797802026e-06,
	"loss": 2.2801,
	"num_input_tokens_seen": 580392,
	"step": 114
	},
	{
	"epoch": 0.17575757575757575,
	"grad_norm": 0.4266676902770996,
	"learning_rate": 1.974290778317487e-06,
	"loss": 2.4019,
	"num_input_tokens_seen": 590568,
	"step": 116
	},
	{
	"epoch": 0.1787878787878788,
	"grad_norm": 0.4442364275455475,
	"learning_rate": 1.973316946516595e-06,
	"loss": 2.3779,
	"num_input_tokens_seen": 601704,
	"step": 118
	},
	{
	"epoch": 0.18181818181818182,
	"grad_norm": 0.4435305595397949,
	"learning_rate": 1.9723253248020455e-06,
	"loss": 2.2488,
	"num_input_tokens_seen": 613584,
	"step": 120
	},
	{
	"epoch": 0.18181818181818182,
	"eval_loss": 2.3512158393859863,
	"eval_runtime": 5.819,
	"eval_samples_per_second": 3.437,
	"eval_steps_per_second": 3.437,
	"num_input_tokens_seen": 613584,
	"step": 120
	},
	{
	"epoch": 0.18484848484848485,
	"grad_norm": 0.5893362164497375,
	"learning_rate": 1.9713159359857833e-06,
	"loss": 2.4906,
	"num_input_tokens_seen": 624792,
	"step": 122
	},
	{
	"epoch": 0.18787878787878787,
	"grad_norm": 0.4149838089942932,
	"learning_rate": 1.9702888032884826e-06,
	"loss": 2.5957,
	"num_input_tokens_seen": 635832,
	"step": 124
	},
	{
	"epoch": 0.19090909090909092,
	"grad_norm": 0.42286068201065063,
	"learning_rate": 1.969243950339009e-06,
	"loss": 2.1759,
	"num_input_tokens_seen": 647664,
	"step": 126
	},
	{
	"epoch": 0.19393939393939394,
	"grad_norm": 0.5177129507064819,
	"learning_rate": 1.9681814011738758e-06,
	"loss": 2.5093,
	"num_input_tokens_seen": 656952,
	"step": 128
	},
	{
	"epoch": 0.19696969696969696,
	"grad_norm": 0.5667068958282471,
	"learning_rate": 1.9671011802366934e-06,
	"loss": 2.5727,
	"num_input_tokens_seen": 664104,
	"step": 130
	},
	{
	"epoch": 0.2,
	"grad_norm": 0.566889762878418,
	"learning_rate": 1.9660033123776056e-06,
	"loss": 2.3728,
	"num_input_tokens_seen": 674016,
	"step": 132
	},
	{
	"epoch": 0.20303030303030303,
	"grad_norm": 0.4465801417827606,
	"learning_rate": 1.964887822852718e-06,
	"loss": 2.4271,
	"num_input_tokens_seen": 684480,
	"step": 134
	},
	{
	"epoch": 0.20606060606060606,
	"grad_norm": 0.5765467286109924,
	"learning_rate": 1.963754737323516e-06,
	"loss": 2.5413,
	"num_input_tokens_seen": 694056,
	"step": 136
	},
	{
	"epoch": 0.20909090909090908,
	"grad_norm": 0.5330570936203003,
	"learning_rate": 1.9626040818562783e-06,
	"loss": 2.4513,
	"num_input_tokens_seen": 704640,
	"step": 138
	},
	{
	"epoch": 0.21212121212121213,
	"grad_norm": 0.6006715297698975,
	"learning_rate": 1.9614358829214722e-06,
	"loss": 2.3866,
	"num_input_tokens_seen": 713640,
	"step": 140
	},
	{
	"epoch": 0.21212121212121213,
	"eval_loss": 2.349419355392456,
	"eval_runtime": 5.8237,
	"eval_samples_per_second": 3.434,
	"eval_steps_per_second": 3.434,
	"num_input_tokens_seen": 713640,
	"step": 140
	},
	{
	"epoch": 0.21515151515151515,
	"grad_norm": 0.4789717495441437,
	"learning_rate": 1.960250167393147e-06,
	"loss": 2.4217,
	"num_input_tokens_seen": 722880,
	"step": 142
	},
	{
	"epoch": 0.21818181818181817,
	"grad_norm": 0.558068037033081,
	"learning_rate": 1.959046962548316e-06,
	"loss": 2.5271,
	"num_input_tokens_seen": 733104,
	"step": 144
	},
	{
	"epoch": 0.22121212121212122,
	"grad_norm": 0.5164092183113098,
	"learning_rate": 1.9578262960663305e-06,
	"loss": 2.4228,
	"num_input_tokens_seen": 745392,
	"step": 146
	},
	{
	"epoch": 0.22424242424242424,
	"grad_norm": 0.49615126848220825,
	"learning_rate": 1.9565881960282384e-06,
	"loss": 2.1895,
	"num_input_tokens_seen": 755736,
	"step": 148
	},
	{
	"epoch": 0.22727272727272727,
	"grad_norm": 0.6630756258964539,
	"learning_rate": 1.9553326909161436e-06,
	"loss": 2.4702,
	"num_input_tokens_seen": 767040,
	"step": 150
	},
	{
	"epoch": 0.23030303030303031,
	"grad_norm": 0.5331915020942688,
	"learning_rate": 1.954059809612546e-06,
	"loss": 2.4535,
	"num_input_tokens_seen": 776496,
	"step": 152
	},
	{
	"epoch": 0.23333333333333334,
	"grad_norm": 0.44153809547424316,
	"learning_rate": 1.9527695813996817e-06,
	"loss": 2.3757,
	"num_input_tokens_seen": 785568,
	"step": 154
	},
	{
	"epoch": 0.23636363636363636,
	"grad_norm": 0.4671899378299713,
	"learning_rate": 1.9514620359588454e-06,
	"loss": 2.3609,
	"num_input_tokens_seen": 797496,
	"step": 156
	},
	{
	"epoch": 0.23939393939393938,
	"grad_norm": 0.49474212527275085,
	"learning_rate": 1.9501372033697097e-06,
	"loss": 2.4576,
	"num_input_tokens_seen": 808536,
	"step": 158
	},
	{
	"epoch": 0.24242424242424243,
	"grad_norm": 0.5353239178657532,
	"learning_rate": 1.948795114109632e-06,
	"loss": 2.2509,
	"num_input_tokens_seen": 818592,
	"step": 160
	},
	{
	"epoch": 0.24242424242424243,
	"eval_loss": 2.3466238975524902,
	"eval_runtime": 5.8178,
	"eval_samples_per_second": 3.438,
	"eval_steps_per_second": 3.438,
	"num_input_tokens_seen": 818592,
	"step": 160
	},
	{
	"epoch": 0.24545454545454545,
	"grad_norm": 0.4847556948661804,
	"learning_rate": 1.947435799052955e-06,
	"loss": 2.4558,
	"num_input_tokens_seen": 828336,
	"step": 162
	},
	{
	"epoch": 0.24848484848484848,
	"grad_norm": 0.5099437236785889,
	"learning_rate": 1.9460592894702946e-06,
	"loss": 2.3038,
	"num_input_tokens_seen": 838080,
	"step": 164
	},
	{
	"epoch": 0.2515151515151515,
	"grad_norm": 0.47751423716545105,
	"learning_rate": 1.944665617027823e-06,
	"loss": 2.2954,
	"num_input_tokens_seen": 850128,
	"step": 166
	},
	{
	"epoch": 0.2545454545454545,
	"grad_norm": 0.4297049045562744,
	"learning_rate": 1.943254813786535e-06,
	"loss": 2.2327,
	"num_input_tokens_seen": 862416,
	"step": 168
	},
	{
	"epoch": 0.25757575757575757,
	"grad_norm": 0.5330982804298401,
	"learning_rate": 1.941826912201518e-06,
	"loss": 2.487,
	"num_input_tokens_seen": 873936,
	"step": 170
	},
	{
	"epoch": 0.2606060606060606,
	"grad_norm": 0.4737272560596466,
	"learning_rate": 1.9403819451212004e-06,
	"loss": 2.6736,
	"num_input_tokens_seen": 883584,
	"step": 172
	},
	{
	"epoch": 0.2636363636363636,
	"grad_norm": 0.6267192363739014,
	"learning_rate": 1.938919945786595e-06,
	"loss": 2.2313,
	"num_input_tokens_seen": 892632,
	"step": 174
	},
	{
	"epoch": 0.26666666666666666,
	"grad_norm": 0.42695581912994385,
	"learning_rate": 1.9374409478305385e-06,
	"loss": 2.4444,
	"num_input_tokens_seen": 904920,
	"step": 176
	},
	{
	"epoch": 0.2696969696969697,
	"grad_norm": 0.5554710030555725,
	"learning_rate": 1.935944985276914e-06,
	"loss": 2.5038,
	"num_input_tokens_seen": 913752,
	"step": 178
	},
	{
	"epoch": 0.2727272727272727,
	"grad_norm": 0.6374077796936035,
	"learning_rate": 1.9344320925398713e-06,
	"loss": 2.3807,
	"num_input_tokens_seen": 920952,
	"step": 180
	},
	{
	"epoch": 0.2727272727272727,
	"eval_loss": 2.3428144454956055,
	"eval_runtime": 5.8159,
	"eval_samples_per_second": 3.439,
	"eval_steps_per_second": 3.439,
	"num_input_tokens_seen": 920952,
	"step": 180
	},
	{
	"epoch": 0.27575757575757576,
	"grad_norm": 0.41562148928642273,
	"learning_rate": 1.932902304423033e-06,
	"loss": 2.5033,
	"num_input_tokens_seen": 932280,
	"step": 182
	},
	{
	"epoch": 0.2787878787878788,
	"grad_norm": 0.47822168469429016,
	"learning_rate": 1.931355656118694e-06,
	"loss": 2.275,
	"num_input_tokens_seen": 944568,
	"step": 184
	},
	{
	"epoch": 0.2818181818181818,
	"grad_norm": 0.553165853023529,
	"learning_rate": 1.9297921832070134e-06,
	"loss": 2.567,
	"num_input_tokens_seen": 952032,
	"step": 186
	},
	{
	"epoch": 0.28484848484848485,
	"grad_norm": 0.5379563570022583,
	"learning_rate": 1.928211921655195e-06,
	"loss": 2.5257,
	"num_input_tokens_seen": 963840,
	"step": 188
	},
	{
	"epoch": 0.2878787878787879,
	"grad_norm": 0.5385987758636475,
	"learning_rate": 1.9266149078166603e-06,
	"loss": 2.3678,
	"num_input_tokens_seen": 975288,
	"step": 190
	},
	{
	"epoch": 0.2909090909090909,
	"grad_norm": 0.42638707160949707,
	"learning_rate": 1.9250011784302106e-06,
	"loss": 2.232,
	"num_input_tokens_seen": 987144,
	"step": 192
	},
	{
	"epoch": 0.29393939393939394,
	"grad_norm": 0.450655996799469,
	"learning_rate": 1.923370770619184e-06,
	"loss": 2.1844,
	"num_input_tokens_seen": 998664,
	"step": 194
	},
	{
	"epoch": 0.296969696969697,
	"grad_norm": 0.477781742811203,
	"learning_rate": 1.921723721890602e-06,
	"loss": 2.3571,
	"num_input_tokens_seen": 1008504,
	"step": 196
	},
	{
	"epoch": 0.3,
	"grad_norm": 0.7921934723854065,
	"learning_rate": 1.920060070134301e-06,
	"loss": 2.472,
	"num_input_tokens_seen": 1016664,
	"step": 198
	},
	{
	"epoch": 0.30303030303030304,
	"grad_norm": 0.5304360389709473,
	"learning_rate": 1.91837985362207e-06,
	"loss": 2.4112,
	"num_input_tokens_seen": 1026192,
	"step": 200
	},
	{
	"epoch": 0.30303030303030304,
	"eval_loss": 2.340877056121826,
	"eval_runtime": 5.8187,
	"eval_samples_per_second": 3.437,
	"eval_steps_per_second": 3.437,
	"num_input_tokens_seen": 1026192,
	"step": 200
	},
	{
	"epoch": 0.30606060606060603,
	"grad_norm": 0.4748481810092926,
	"learning_rate": 1.9166831110067615e-06,
	"loss": 2.5731,
	"num_input_tokens_seen": 1037064,
	"step": 202
	},
	{
	"epoch": 0.3090909090909091,
	"grad_norm": 0.44187602400779724,
	"learning_rate": 1.914969881321407e-06,
	"loss": 2.5743,
	"num_input_tokens_seen": 1049352,
	"step": 204
	},
	{
	"epoch": 0.31212121212121213,
	"grad_norm": 0.6284915208816528,
	"learning_rate": 1.913240203978318e-06,
	"loss": 2.4531,
	"num_input_tokens_seen": 1057272,
	"step": 206
	},
	{
	"epoch": 0.3151515151515151,
	"grad_norm": 0.6538528800010681,
	"learning_rate": 1.9114941187681783e-06,
	"loss": 2.5391,
	"num_input_tokens_seen": 1065120,
	"step": 208
	},
	{
	"epoch": 0.3181818181818182,
	"grad_norm": 1.0042399168014526,
	"learning_rate": 1.9097316658591304e-06,
	"loss": 2.4156,
	"num_input_tokens_seen": 1074192,
	"step": 210
	},
	{
	"epoch": 0.3212121212121212,
	"grad_norm": 0.48325198888778687,
	"learning_rate": 1.9079528857958504e-06,
	"loss": 2.5733,
	"num_input_tokens_seen": 1084416,
	"step": 212
	},
	{
	"epoch": 0.3242424242424242,
	"grad_norm": 0.6697909832000732,
	"learning_rate": 1.906157819498616e-06,
	"loss": 2.5264,
	"num_input_tokens_seen": 1092888,
	"step": 214
	},
	{
	"epoch": 0.32727272727272727,
	"grad_norm": 0.6655834913253784,
	"learning_rate": 1.904346508262363e-06,
	"loss": 2.3912,
	"num_input_tokens_seen": 1100160,
	"step": 216
	},
	{
	"epoch": 0.3303030303030303,
	"grad_norm": 1.1694029569625854,
	"learning_rate": 1.9025189937557386e-06,
	"loss": 2.462,
	"num_input_tokens_seen": 1107360,
	"step": 218
	},
	{
	"epoch": 0.3333333333333333,
	"grad_norm": 0.4985570013523102,
	"learning_rate": 1.90067531802014e-06,
	"loss": 2.2447,
	"num_input_tokens_seen": 1119096,
	"step": 220
	},
	{
	"epoch": 0.3333333333333333,
	"eval_loss": 2.339911937713623,
	"eval_runtime": 5.8137,
	"eval_samples_per_second": 3.44,
	"eval_steps_per_second": 3.44,
	"num_input_tokens_seen": 1119096,
	"step": 220
	},
	{
	"epoch": 0.33636363636363636,
	"grad_norm": 0.4883664548397064,
	"learning_rate": 1.8988155234687495e-06,
	"loss": 2.4013,
	"num_input_tokens_seen": 1131384,
	"step": 222
	},
	{
	"epoch": 0.3393939393939394,
	"grad_norm": 0.7224740982055664,
	"learning_rate": 1.8969396528855567e-06,
	"loss": 2.4763,
	"num_input_tokens_seen": 1142616,
	"step": 224
	},
	{
	"epoch": 0.3424242424242424,
	"grad_norm": 0.569634199142456,
	"learning_rate": 1.8950477494243762e-06,
	"loss": 2.3552,
	"num_input_tokens_seen": 1154904,
	"step": 226
	},
	{
	"epoch": 0.34545454545454546,
	"grad_norm": 0.45122525095939636,
	"learning_rate": 1.8931398566078523e-06,
	"loss": 2.4198,
	"num_input_tokens_seen": 1164264,
	"step": 228
	},
	{
	"epoch": 0.3484848484848485,
	"grad_norm": 0.5598176121711731,
	"learning_rate": 1.8912160183264612e-06,
	"loss": 2.5283,
	"num_input_tokens_seen": 1175472,
	"step": 230
	},
	{
	"epoch": 0.3515151515151515,
	"grad_norm": 0.5492939352989197,
	"learning_rate": 1.8892762788374985e-06,
	"loss": 2.5246,
	"num_input_tokens_seen": 1185264,
	"step": 232
	},
	{
	"epoch": 0.35454545454545455,
	"grad_norm": 0.557397723197937,
	"learning_rate": 1.8873206827640624e-06,
	"loss": 2.3821,
	"num_input_tokens_seen": 1197408,
	"step": 234
	},
	{
	"epoch": 0.3575757575757576,
	"grad_norm": 0.42229530215263367,
	"learning_rate": 1.8853492750940275e-06,
	"loss": 2.3593,
	"num_input_tokens_seen": 1207656,
	"step": 236
	},
	{
	"epoch": 0.3606060606060606,
	"grad_norm": 0.4781576693058014,
	"learning_rate": 1.8833621011790078e-06,
	"loss": 2.2261,
	"num_input_tokens_seen": 1219080,
	"step": 238
	},
	{
	"epoch": 0.36363636363636365,
	"grad_norm": 0.46443861722946167,
	"learning_rate": 1.8813592067333155e-06,
	"loss": 2.4046,
	"num_input_tokens_seen": 1230048,
	"step": 240
	},
	{
	"epoch": 0.36363636363636365,
	"eval_loss": 2.339547872543335,
	"eval_runtime": 5.8158,
	"eval_samples_per_second": 3.439,
	"eval_steps_per_second": 3.439,
	"num_input_tokens_seen": 1230048,
	"step": 240
	},
	{
	"epoch": 0.36666666666666664,
	"grad_norm": 0.4926714599132538,
	"learning_rate": 1.8793406378329092e-06,
	"loss": 2.1956,
	"num_input_tokens_seen": 1239288,
	"step": 242
	},
	{
	"epoch": 0.3696969696969697,
	"grad_norm": 0.9403526186943054,
	"learning_rate": 1.877306440914333e-06,
	"loss": 2.3843,
	"num_input_tokens_seen": 1246512,
	"step": 244
	},
	{
	"epoch": 0.37272727272727274,
	"grad_norm": 0.8498961329460144,
	"learning_rate": 1.8752566627736477e-06,
	"loss": 2.2977,
	"num_input_tokens_seen": 1256256,
	"step": 246
	},
	{
	"epoch": 0.37575757575757573,
	"grad_norm": 0.5305018424987793,
	"learning_rate": 1.8731913505653569e-06,
	"loss": 2.4575,
	"num_input_tokens_seen": 1265712,
	"step": 248
	},
	{
	"epoch": 0.3787878787878788,
	"grad_norm": 0.4798325002193451,
	"learning_rate": 1.8711105518013199e-06,
	"loss": 2.3638,
	"num_input_tokens_seen": 1273848,
	"step": 250
	},
	{
	"epoch": 0.38181818181818183,
	"grad_norm": 0.5862890481948853,
	"learning_rate": 1.869014314349659e-06,
	"loss": 2.388,
	"num_input_tokens_seen": 1283664,
	"step": 252
	},
	{
	"epoch": 0.38484848484848483,
	"grad_norm": 0.5504214763641357,
	"learning_rate": 1.8669026864336591e-06,
	"loss": 2.3997,
	"num_input_tokens_seen": 1293768,
	"step": 254
	},
	{
	"epoch": 0.3878787878787879,
	"grad_norm": 0.662431538105011,
	"learning_rate": 1.8647757166306572e-06,
	"loss": 2.4629,
	"num_input_tokens_seen": 1303392,
	"step": 256
	},
	{
	"epoch": 0.39090909090909093,
	"grad_norm": 0.5133792757987976,
	"learning_rate": 1.8626334538709263e-06,
	"loss": 2.3915,
	"num_input_tokens_seen": 1313784,
	"step": 258
	},
	{
	"epoch": 0.3939393939393939,
	"grad_norm": 0.47367045283317566,
	"learning_rate": 1.8604759474365492e-06,
	"loss": 2.4396,
	"num_input_tokens_seen": 1326072,
	"step": 260
	},
	{
	"epoch": 0.3939393939393939,
	"eval_loss": 2.338432788848877,
	"eval_runtime": 5.8115,
	"eval_samples_per_second": 3.441,
	"eval_steps_per_second": 3.441,
	"num_input_tokens_seen": 1326072,
	"step": 260
	},
	{
	"epoch": 0.396969696969697,
	"grad_norm": 0.5194035768508911,
	"learning_rate": 1.858303246960284e-06,
	"loss": 2.4028,
	"num_input_tokens_seen": 1335864,
	"step": 262
	},
	{
	"epoch": 0.4,
	"grad_norm": 0.4642770290374756,
	"learning_rate": 1.856115402424423e-06,
	"loss": 2.434,
	"num_input_tokens_seen": 1347552,
	"step": 264
	},
	{
	"epoch": 0.403030303030303,
	"grad_norm": 0.5999087691307068,
	"learning_rate": 1.8539124641596437e-06,
	"loss": 2.3149,
	"num_input_tokens_seen": 1356912,
	"step": 266
	},
	{
	"epoch": 0.40606060606060607,
	"grad_norm": 0.588898241519928,
	"learning_rate": 1.851694482843849e-06,
	"loss": 2.5401,
	"num_input_tokens_seen": 1368408,
	"step": 268
	},
	{
	"epoch": 0.4090909090909091,
	"grad_norm": 0.49462223052978516,
	"learning_rate": 1.8494615095010037e-06,
	"loss": 2.3905,
	"num_input_tokens_seen": 1380696,
	"step": 270
	},
	{
	"epoch": 0.4121212121212121,
	"grad_norm": 1.0041953325271606,
	"learning_rate": 1.8472135954999582e-06,
	"loss": 2.7022,
	"num_input_tokens_seen": 1389096,
	"step": 272
	},
	{
	"epoch": 0.41515151515151516,
	"grad_norm": 0.5517657399177551,
	"learning_rate": 1.8449507925532685e-06,
	"loss": 2.5369,
	"num_input_tokens_seen": 1400784,
	"step": 274
	},
	{
	"epoch": 0.41818181818181815,
	"grad_norm": 0.6180247068405151,
	"learning_rate": 1.8426731527160064e-06,
	"loss": 2.2525,
	"num_input_tokens_seen": 1413072,
	"step": 276
	},
	{
	"epoch": 0.4212121212121212,
	"grad_norm": 0.6159691214561462,
	"learning_rate": 1.8403807283845616e-06,
	"loss": 2.3052,
	"num_input_tokens_seen": 1422888,
	"step": 278
	},
	{
	"epoch": 0.42424242424242425,
	"grad_norm": 0.6237558722496033,
	"learning_rate": 1.8380735722954367e-06,
	"loss": 2.344,
	"num_input_tokens_seen": 1432128,
	"step": 280
	},
	{
	"epoch": 0.42424242424242425,
	"eval_loss": 2.3386666774749756,
	"eval_runtime": 5.8175,
	"eval_samples_per_second": 3.438,
	"eval_steps_per_second": 3.438,
	"num_input_tokens_seen": 1432128,
	"step": 280
	},
	{
	"epoch": 0.42727272727272725,
	"grad_norm": 0.6814020276069641,
	"learning_rate": 1.835751737524033e-06,
	"loss": 2.4498,
	"num_input_tokens_seen": 1439928,
	"step": 282
	},
	{
	"epoch": 0.4303030303030303,
	"grad_norm": 0.5670037865638733,
	"learning_rate": 1.8334152774834309e-06,
	"loss": 2.3934,
	"num_input_tokens_seen": 1449624,
	"step": 284
	},
	{
	"epoch": 0.43333333333333335,
	"grad_norm": 0.6628959774971008,
	"learning_rate": 1.83106424592316e-06,
	"loss": 2.52,
	"num_input_tokens_seen": 1460520,
	"step": 286
	},
	{
	"epoch": 0.43636363636363634,
	"grad_norm": 0.6537968516349792,
	"learning_rate": 1.8286986969279643e-06,
	"loss": 2.5132,
	"num_input_tokens_seen": 1469712,
	"step": 288
	},
	{
	"epoch": 0.4393939393939394,
	"grad_norm": 0.5633306503295898,
	"learning_rate": 1.8263186849165555e-06,
	"loss": 2.403,
	"num_input_tokens_seen": 1480824,
	"step": 290
	},
	{
	"epoch": 0.44242424242424244,
	"grad_norm": 0.5708298683166504,
	"learning_rate": 1.8239242646403628e-06,
	"loss": 2.5149,
	"num_input_tokens_seen": 1488816,
	"step": 292
	},
	{
	"epoch": 0.44545454545454544,
	"grad_norm": 0.7049750685691833,
	"learning_rate": 1.8215154911822737e-06,
	"loss": 2.2043,
	"num_input_tokens_seen": 1497816,
	"step": 294
	},
	{
	"epoch": 0.4484848484848485,
	"grad_norm": 0.5039754509925842,
	"learning_rate": 1.8190924199553655e-06,
	"loss": 2.439,
	"num_input_tokens_seen": 1508928,
	"step": 296
	},
	{
	"epoch": 0.45151515151515154,
	"grad_norm": 0.5821936726570129,
	"learning_rate": 1.816655106701631e-06,
	"loss": 2.4665,
	"num_input_tokens_seen": 1519512,
	"step": 298
	},
	{
	"epoch": 0.45454545454545453,
	"grad_norm": 0.5108533501625061,
	"learning_rate": 1.8142036074906968e-06,
	"loss": 2.4901,
	"num_input_tokens_seen": 1529520,
	"step": 300
	},
	{
	"epoch": 0.45454545454545453,
	"eval_loss": 2.337289333343506,
	"eval_runtime": 5.817,
	"eval_samples_per_second": 3.438,
	"eval_steps_per_second": 3.438,
	"num_input_tokens_seen": 1529520,
	"step": 300
	},
	{
	"epoch": 0.4575757575757576,
	"grad_norm": 0.4282449781894684,
	"learning_rate": 1.8117379787185333e-06,
	"loss": 2.1503,
	"num_input_tokens_seen": 1541808,
	"step": 302
	},
	{
	"epoch": 0.46060606060606063,
	"grad_norm": 0.6109529137611389,
	"learning_rate": 1.809258277106156e-06,
	"loss": 2.4026,
	"num_input_tokens_seen": 1550952,
	"step": 304
	},
	{
	"epoch": 0.4636363636363636,
	"grad_norm": 0.5644070506095886,
	"learning_rate": 1.8067645596983226e-06,
	"loss": 2.4195,
	"num_input_tokens_seen": 1562064,
	"step": 306
	},
	{
	"epoch": 0.4666666666666667,
	"grad_norm": 0.665733814239502,
	"learning_rate": 1.804256883862219e-06,
	"loss": 2.6243,
	"num_input_tokens_seen": 1569240,
	"step": 308
	},
	{
	"epoch": 0.4696969696969697,
	"grad_norm": 0.6493149995803833,
	"learning_rate": 1.8017353072861416e-06,
	"loss": 2.3603,
	"num_input_tokens_seen": 1579560,
	"step": 310
	},
	{
	"epoch": 0.4727272727272727,
	"grad_norm": 0.5297104120254517,
	"learning_rate": 1.7991998879781676e-06,
	"loss": 2.2741,
	"num_input_tokens_seen": 1591248,
	"step": 312
	},
	{
	"epoch": 0.47575757575757577,
	"grad_norm": 0.4405084252357483,
	"learning_rate": 1.796650684264823e-06,
	"loss": 2.5167,
	"num_input_tokens_seen": 1602840,
	"step": 314
	},
	{
	"epoch": 0.47878787878787876,
	"grad_norm": 0.6081413626670837,
	"learning_rate": 1.7940877547897383e-06,
	"loss": 2.404,
	"num_input_tokens_seen": 1610520,
	"step": 316
	},
	{
	"epoch": 0.4818181818181818,
	"grad_norm": 0.7665295600891113,
	"learning_rate": 1.7915111585123026e-06,
	"loss": 2.3861,
	"num_input_tokens_seen": 1617936,
	"step": 318
	},
	{
	"epoch": 0.48484848484848486,
	"grad_norm": 0.5678819417953491,
	"learning_rate": 1.7889209547063038e-06,
	"loss": 2.3335,
	"num_input_tokens_seen": 1628424,
	"step": 320
	},
	{
	"epoch": 0.48484848484848486,
	"eval_loss": 2.336883068084717,
	"eval_runtime": 5.8244,
	"eval_samples_per_second": 3.434,
	"eval_steps_per_second": 3.434,
	"num_input_tokens_seen": 1628424,
	"step": 320
	},
	{
	"epoch": 0.48787878787878786,
	"grad_norm": 0.6124878525733948,
	"learning_rate": 1.7863172029585684e-06,
	"loss": 2.6274,
	"num_input_tokens_seen": 1636704,
	"step": 322
	},
	{
	"epoch": 0.4909090909090909,
	"grad_norm": 0.5369870066642761,
	"learning_rate": 1.7836999631675877e-06,
	"loss": 2.2444,
	"num_input_tokens_seen": 1646760,
	"step": 324
	},
	{
	"epoch": 0.49393939393939396,
	"grad_norm": 0.47992056608200073,
	"learning_rate": 1.7810692955421418e-06,
	"loss": 2.3407,
	"num_input_tokens_seen": 1657824,
	"step": 326
	},
	{
	"epoch": 0.49696969696969695,
	"grad_norm": 0.5946272611618042,
	"learning_rate": 1.778425260599914e-06,
	"loss": 2.5075,
	"num_input_tokens_seen": 1669800,
	"step": 328
	},
	{
	"epoch": 0.5,
	"grad_norm": 0.5064172744750977,
	"learning_rate": 1.7757679191660974e-06,
	"loss": 2.4304,
	"num_input_tokens_seen": 1678896,
	"step": 330
	},
	{
	"epoch": 0.503030303030303,
	"grad_norm": 0.676836371421814,
	"learning_rate": 1.7730973323719996e-06,
	"loss": 2.3898,
	"num_input_tokens_seen": 1686696,
	"step": 332
	},
	{
	"epoch": 0.5060606060606061,
	"grad_norm": 0.45694637298583984,
	"learning_rate": 1.7704135616536297e-06,
	"loss": 2.1912,
	"num_input_tokens_seen": 1695648,
	"step": 334
	},
	{
	"epoch": 0.509090909090909,
	"grad_norm": 0.5608468651771545,
	"learning_rate": 1.767716668750292e-06,
	"loss": 2.4971,
	"num_input_tokens_seen": 1703112,
	"step": 336
	},
	{
	"epoch": 0.5121212121212121,
	"grad_norm": 0.5195941925048828,
	"learning_rate": 1.7650067157031607e-06,
	"loss": 2.3934,
	"num_input_tokens_seen": 1715400,
	"step": 338
	},
	{
	"epoch": 0.5151515151515151,
	"grad_norm": 0.3820761442184448,
	"learning_rate": 1.7622837648538558e-06,
	"loss": 2.1842,
	"num_input_tokens_seen": 1725816,
	"step": 340
	},
	{
	"epoch": 0.5151515151515151,
	"eval_loss": 2.3365180492401123,
	"eval_runtime": 5.8166,
	"eval_samples_per_second": 3.438,
	"eval_steps_per_second": 3.438,
	"num_input_tokens_seen": 1725816,
	"step": 340
	},
	{
	"epoch": 0.5181818181818182,
	"grad_norm": 0.5152050852775574,
	"learning_rate": 1.7595478788430067e-06,
	"loss": 2.2292,
	"num_input_tokens_seen": 1737240,
	"step": 342
	},
	{
	"epoch": 0.5212121212121212,
	"grad_norm": 0.6499360203742981,
	"learning_rate": 1.7567991206088122e-06,
	"loss": 2.3013,
	"num_input_tokens_seen": 1743792,
	"step": 344
	},
	{
	"epoch": 0.5242424242424243,
	"grad_norm": 0.6490241885185242,
	"learning_rate": 1.7540375533855931e-06,
	"loss": 2.5828,
	"num_input_tokens_seen": 1755192,
	"step": 346
	},
	{
	"epoch": 0.5272727272727272,
	"grad_norm": 0.5575884580612183,
	"learning_rate": 1.751263240702337e-06,
	"loss": 2.2834,
	"num_input_tokens_seen": 1765656,
	"step": 348
	},
	{
	"epoch": 0.5303030303030303,
	"grad_norm": 0.6133118867874146,
	"learning_rate": 1.7484762463812359e-06,
	"loss": 2.5502,
	"num_input_tokens_seen": 1773504,
	"step": 350
	},
	{
	"epoch": 0.5333333333333333,
	"grad_norm": 0.477857768535614,
	"learning_rate": 1.7456766345362195e-06,
	"loss": 2.2939,
	"num_input_tokens_seen": 1785792,
	"step": 352
	},
	{
	"epoch": 0.5363636363636364,
	"grad_norm": 1.5005486011505127,
	"learning_rate": 1.7428644695714798e-06,
	"loss": 2.3919,
	"num_input_tokens_seen": 1792848,
	"step": 354
	},
	{
	"epoch": 0.5393939393939394,
	"grad_norm": 0.6583260893821716,
	"learning_rate": 1.7400398161799901e-06,
	"loss": 2.4862,
	"num_input_tokens_seen": 1802256,
	"step": 356
	},
	{
	"epoch": 0.5424242424242425,
	"grad_norm": 0.5908564925193787,
	"learning_rate": 1.7372027393420136e-06,
	"loss": 2.4536,
	"num_input_tokens_seen": 1812840,
	"step": 358
	},
	{
	"epoch": 0.5454545454545454,
	"grad_norm": 0.6152108311653137,
	"learning_rate": 1.7343533043236135e-06,
	"loss": 2.2118,
	"num_input_tokens_seen": 1822440,
	"step": 360
	},
	{
	"epoch": 0.5454545454545454,
	"eval_loss": 2.335080623626709,
	"eval_runtime": 5.8256,
	"eval_samples_per_second": 3.433,
	"eval_steps_per_second": 3.433,
	"num_input_tokens_seen": 1822440,
	"step": 360
	},
	{
	"epoch": 0.5484848484848485,
	"grad_norm": 0.5109455585479736,
	"learning_rate": 1.7314915766751482e-06,
	"loss": 2.3442,
	"num_input_tokens_seen": 1833168,
	"step": 362
	},
	{
	"epoch": 0.5515151515151515,
	"grad_norm": 0.4524301290512085,
	"learning_rate": 1.7286176222297643e-06,
	"loss": 2.3881,
	"num_input_tokens_seen": 1845072,
	"step": 364
	},
	{
	"epoch": 0.5545454545454546,
	"grad_norm": 0.4554661810398102,
	"learning_rate": 1.7257315071018814e-06,
	"loss": 2.2764,
	"num_input_tokens_seen": 1857168,
	"step": 366
	},
	{
	"epoch": 0.5575757575757576,
	"grad_norm": 0.42852118611335754,
	"learning_rate": 1.7228332976856717e-06,
	"loss": 2.364,
	"num_input_tokens_seen": 1869456,
	"step": 368
	},
	{
	"epoch": 0.5606060606060606,
	"grad_norm": 0.7273756861686707,
	"learning_rate": 1.7199230606535347e-06,
	"loss": 2.4654,
	"num_input_tokens_seen": 1878168,
	"step": 370
	},
	{
	"epoch": 0.5636363636363636,
	"grad_norm": 0.7303619384765625,
	"learning_rate": 1.717000862954559e-06,
	"loss": 2.4599,
	"num_input_tokens_seen": 1888608,
	"step": 372
	},
	{
	"epoch": 0.5666666666666667,
	"grad_norm": 0.6044741868972778,
	"learning_rate": 1.7140667718129853e-06,
	"loss": 2.2146,
	"num_input_tokens_seen": 1897008,
	"step": 374
	},
	{
	"epoch": 0.5696969696969697,
	"grad_norm": 0.5754801630973816,
	"learning_rate": 1.7111208547266607e-06,
	"loss": 2.4951,
	"num_input_tokens_seen": 1906776,
	"step": 376
	},
	{
	"epoch": 0.5727272727272728,
	"grad_norm": 0.47109347581863403,
	"learning_rate": 1.7081631794654818e-06,
	"loss": 2.1497,
	"num_input_tokens_seen": 1919064,
	"step": 378
	},
	{
	"epoch": 0.5757575757575758,
	"grad_norm": 0.6136711835861206,
	"learning_rate": 1.7051938140698408e-06,
	"loss": 2.3233,
	"num_input_tokens_seen": 1928688,
	"step": 380
	},
	{
	"epoch": 0.5757575757575758,
	"eval_loss": 2.334742546081543,
	"eval_runtime": 5.8193,
	"eval_samples_per_second": 3.437,
	"eval_steps_per_second": 3.437,
	"num_input_tokens_seen": 1928688,
	"step": 380
	},
	{
	"epoch": 0.5787878787878787,
	"grad_norm": 0.6149052977561951,
	"learning_rate": 1.702212826849056e-06,
	"loss": 2.319,
	"num_input_tokens_seen": 1940784,
	"step": 382
	},
	{
	"epoch": 0.5818181818181818,
	"grad_norm": 0.5667149424552917,
	"learning_rate": 1.6992202863798037e-06,
	"loss": 2.5949,
	"num_input_tokens_seen": 1950840,
	"step": 384
	},
	{
	"epoch": 0.5848484848484848,
	"grad_norm": 0.5343450307846069,
	"learning_rate": 1.6962162615045377e-06,
	"loss": 2.3292,
	"num_input_tokens_seen": 1963128,
	"step": 386
	},
	{
	"epoch": 0.5878787878787879,
	"grad_norm": 0.5003802180290222,
	"learning_rate": 1.6932008213299071e-06,
	"loss": 2.5239,
	"num_input_tokens_seen": 1975008,
	"step": 388
	},
	{
	"epoch": 0.5909090909090909,
	"grad_norm": 0.5460373759269714,
	"learning_rate": 1.6901740352251675e-06,
	"loss": 2.4818,
	"num_input_tokens_seen": 1983648,
	"step": 390
	},
	{
	"epoch": 0.593939393939394,
	"grad_norm": 0.5535560250282288,
	"learning_rate": 1.6871359728205828e-06,
	"loss": 2.1795,
	"num_input_tokens_seen": 1993536,
	"step": 392
	},
	{
	"epoch": 0.5969696969696969,
	"grad_norm": 0.4466463029384613,
	"learning_rate": 1.6840867040058254e-06,
	"loss": 2.3585,
	"num_input_tokens_seen": 2002872,
	"step": 394
	},
	{
	"epoch": 0.6,
	"grad_norm": 0.5831019878387451,
	"learning_rate": 1.6810262989283674e-06,
	"loss": 2.3718,
	"num_input_tokens_seen": 2012400,
	"step": 396
	},
	{
	"epoch": 0.603030303030303,
	"grad_norm": 0.5981975197792053,
	"learning_rate": 1.6779548279918671e-06,
	"loss": 2.314,
	"num_input_tokens_seen": 2022936,
	"step": 398
	},
	{
	"epoch": 0.6060606060606061,
	"grad_norm": 0.5155858397483826,
	"learning_rate": 1.6748723618545496e-06,
	"loss": 2.6427,
	"num_input_tokens_seen": 2031480,
	"step": 400
	},
	{
	"epoch": 0.6060606060606061,
	"eval_loss": 2.334027051925659,
	"eval_runtime": 5.8193,
	"eval_samples_per_second": 3.437,
	"eval_steps_per_second": 3.437,
	"num_input_tokens_seen": 2031480,
	"step": 400
	},
	{
	"epoch": 0.6090909090909091,
	"grad_norm": 0.46695375442504883,
	"learning_rate": 1.6717789714275808e-06,
	"loss": 2.2379,
	"num_input_tokens_seen": 2043768,
	"step": 402
	},
	{
	"epoch": 0.6121212121212121,
	"grad_norm": 0.8030733466148376,
	"learning_rate": 1.6686747278734364e-06,
	"loss": 2.3286,
	"num_input_tokens_seen": 2052456,
	"step": 404
	},
	{
	"epoch": 0.6151515151515151,
	"grad_norm": 0.5807926654815674,
	"learning_rate": 1.6655597026042654e-06,
	"loss": 2.3891,
	"num_input_tokens_seen": 2062608,
	"step": 406
	},
	{
	"epoch": 0.6181818181818182,
	"grad_norm": 0.5125523209571838,
	"learning_rate": 1.6624339672802466e-06,
	"loss": 2.2766,
	"num_input_tokens_seen": 2070624,
	"step": 408
	},
	{
	"epoch": 0.6212121212121212,
	"grad_norm": 0.4872816205024719,
	"learning_rate": 1.65929759380794e-06,
	"loss": 2.3172,
	"num_input_tokens_seen": 2082024,
	"step": 410
	},
	{
	"epoch": 0.6242424242424243,
	"grad_norm": 0.5617727637290955,
	"learning_rate": 1.6561506543386332e-06,
	"loss": 2.2975,
	"num_input_tokens_seen": 2093928,
	"step": 412
	},
	{
	"epoch": 0.6272727272727273,
	"grad_norm": 0.7218233942985535,
	"learning_rate": 1.6529932212666813e-06,
	"loss": 2.5706,
	"num_input_tokens_seen": 2102712,
	"step": 414
	},
	{
	"epoch": 0.6303030303030303,
	"grad_norm": 0.5542349219322205,
	"learning_rate": 1.6498253672278403e-06,
	"loss": 2.4111,
	"num_input_tokens_seen": 2111352,
	"step": 416
	},
	{
	"epoch": 0.6333333333333333,
	"grad_norm": 0.5303030610084534,
	"learning_rate": 1.6466471650975989e-06,
	"loss": 2.3655,
	"num_input_tokens_seen": 2123184,
	"step": 418
	},
	{
	"epoch": 0.6363636363636364,
	"grad_norm": 0.4791901111602783,
	"learning_rate": 1.6434586879894994e-06,
	"loss": 2.1955,
	"num_input_tokens_seen": 2132520,
	"step": 420
	},
	{
	"epoch": 0.6363636363636364,
	"eval_loss": 2.3337419033050537,
	"eval_runtime": 5.8194,
	"eval_samples_per_second": 3.437,
	"eval_steps_per_second": 3.437,
	"num_input_tokens_seen": 2132520,
	"step": 420
	},
	{
	"epoch": 0.6393939393939394,
	"grad_norm": 1.0299837589263916,
	"learning_rate": 1.6402600092534571e-06,
	"loss": 2.4297,
	"num_input_tokens_seen": 2140344,
	"step": 422
	},
	{
	"epoch": 0.6424242424242425,
	"grad_norm": 0.5022935271263123,
	"learning_rate": 1.637051202474072e-06,
	"loss": 2.3299,
	"num_input_tokens_seen": 2150592,
	"step": 424
	},
	{
	"epoch": 0.6454545454545455,
	"grad_norm": 0.7252947688102722,
	"learning_rate": 1.6338323414689384e-06,
	"loss": 2.4036,
	"num_input_tokens_seen": 2158848,
	"step": 426
	},
	{
	"epoch": 0.6484848484848484,
	"grad_norm": 0.49614864587783813,
	"learning_rate": 1.6306035002869418e-06,
	"loss": 2.3709,
	"num_input_tokens_seen": 2166120,
	"step": 428
	},
	{
	"epoch": 0.6515151515151515,
	"grad_norm": 0.5736730098724365,
	"learning_rate": 1.6273647532065615e-06,
	"loss": 2.6169,
	"num_input_tokens_seen": 2177760,
	"step": 430
	},
	{
	"epoch": 0.6545454545454545,
	"grad_norm": 0.8251070380210876,
	"learning_rate": 1.6241161747341568e-06,
	"loss": 2.4805,
	"num_input_tokens_seen": 2185488,
	"step": 432
	},
	{
	"epoch": 0.6575757575757576,
	"grad_norm": 1.2293510437011719,
	"learning_rate": 1.6208578396022566e-06,
	"loss": 2.1922,
	"num_input_tokens_seen": 2196336,
	"step": 434
	},
	{
	"epoch": 0.6606060606060606,
	"grad_norm": 0.6561338305473328,
	"learning_rate": 1.6175898227678376e-06,
	"loss": 2.4529,
	"num_input_tokens_seen": 2204520,
	"step": 436
	},
	{
	"epoch": 0.6636363636363637,
	"grad_norm": 0.4846937954425812,
	"learning_rate": 1.6143121994106012e-06,
	"loss": 2.3597,
	"num_input_tokens_seen": 2216808,
	"step": 438
	},
	{
	"epoch": 0.6666666666666666,
	"grad_norm": 0.6437355279922485,
	"learning_rate": 1.611025044931245e-06,
	"loss": 2.4364,
	"num_input_tokens_seen": 2227752,
	"step": 440
	},
	{
	"epoch": 0.6666666666666666,
	"eval_loss": 2.3327877521514893,
	"eval_runtime": 5.8187,
	"eval_samples_per_second": 3.437,
	"eval_steps_per_second": 3.437,
	"num_input_tokens_seen": 2227752,
	"step": 440
	},
	{
	"epoch": 0.6696969696969697,
	"grad_norm": 0.5672312378883362,
	"learning_rate": 1.6077284349497254e-06,
	"loss": 2.5148,
	"num_input_tokens_seen": 2237808,
	"step": 442
	},
	{
	"epoch": 0.6727272727272727,
	"grad_norm": 0.5006369948387146,
	"learning_rate": 1.6044224453035203e-06,
	"loss": 2.1969,
	"num_input_tokens_seen": 2249304,
	"step": 444
	},
	{
	"epoch": 0.6757575757575758,
	"grad_norm": 0.6202157735824585,
	"learning_rate": 1.6011071520458845e-06,
	"loss": 2.5604,
	"num_input_tokens_seen": 2260176,
	"step": 446
	},
	{
	"epoch": 0.6787878787878788,
	"grad_norm": 0.555921733379364,
	"learning_rate": 1.5977826314440987e-06,
	"loss": 2.2211,
	"num_input_tokens_seen": 2270184,
	"step": 448
	},
	{
	"epoch": 0.6818181818181818,
	"grad_norm": 0.5153559446334839,
	"learning_rate": 1.5944489599777161e-06,
	"loss": 2.3477,
	"num_input_tokens_seen": 2281464,
	"step": 450
	},
	{
	"epoch": 0.6848484848484848,
	"grad_norm": 0.5477102994918823,
	"learning_rate": 1.5911062143368027e-06,
	"loss": 2.4645,
	"num_input_tokens_seen": 2292720,
	"step": 452
	},
	{
	"epoch": 0.6878787878787879,
	"grad_norm": 0.5461196303367615,
	"learning_rate": 1.5877544714201726e-06,
	"loss": 2.5217,
	"num_input_tokens_seen": 2303376,
	"step": 454
	},
	{
	"epoch": 0.6909090909090909,
	"grad_norm": 0.5640104413032532,
	"learning_rate": 1.5843938083336194e-06,
	"loss": 2.5123,
	"num_input_tokens_seen": 2312544,
	"step": 456
	},
	{
	"epoch": 0.693939393939394,
	"grad_norm": 0.4936680197715759,
	"learning_rate": 1.5810243023881432e-06,
	"loss": 2.2975,
	"num_input_tokens_seen": 2323344,
	"step": 458
	},
	{
	"epoch": 0.696969696969697,
	"grad_norm": 0.4782181680202484,
	"learning_rate": 1.5776460310981702e-06,
	"loss": 2.3568,
	"num_input_tokens_seen": 2332056,
	"step": 460
	},
	{
	"epoch": 0.696969696969697,
	"eval_loss": 2.332925319671631,
	"eval_runtime": 5.8201,
	"eval_samples_per_second": 3.436,
	"eval_steps_per_second": 3.436,
	"num_input_tokens_seen": 2332056,
	"step": 460
	},
	{
	"epoch": 0.7,
	"grad_norm": 0.5433066487312317,
	"learning_rate": 1.5742590721797725e-06,
	"loss": 2.5328,
	"num_input_tokens_seen": 2342400,
	"step": 462
	},
	{
	"epoch": 0.703030303030303,
	"grad_norm": 1.0040984153747559,
	"learning_rate": 1.5708635035488756e-06,
	"loss": 2.5166,
	"num_input_tokens_seen": 2350536,
	"step": 464
	},
	{
	"epoch": 0.706060606060606,
	"grad_norm": 0.5495861172676086,
	"learning_rate": 1.5674594033194706e-06,
	"loss": 2.3471,
	"num_input_tokens_seen": 2361528,
	"step": 466
	},
	{
	"epoch": 0.7090909090909091,
	"grad_norm": 0.6494752764701843,
	"learning_rate": 1.5640468498018153e-06,
	"loss": 2.4315,
	"num_input_tokens_seen": 2370552,
	"step": 468
	},
	{
	"epoch": 0.7121212121212122,
	"grad_norm": 0.5859867930412292,
	"learning_rate": 1.5606259215006325e-06,
	"loss": 2.5083,
	"num_input_tokens_seen": 2380368,
	"step": 470
	},
	{
	"epoch": 0.7151515151515152,
	"grad_norm": 0.606728196144104,
	"learning_rate": 1.5571966971133037e-06,
	"loss": 2.3308,
	"num_input_tokens_seen": 2389176,
	"step": 472
	},
	{
	"epoch": 0.7181818181818181,
	"grad_norm": 0.453156441450119,
	"learning_rate": 1.5537592555280594e-06,
	"loss": 2.3236,
	"num_input_tokens_seen": 2398944,
	"step": 474
	},
	{
	"epoch": 0.7212121212121212,
	"grad_norm": 0.8148333430290222,
	"learning_rate": 1.5503136758221653e-06,
	"loss": 2.8391,
	"num_input_tokens_seen": 2404656,
	"step": 476
	},
	{
	"epoch": 0.7242424242424242,
	"grad_norm": 0.4754016399383545,
	"learning_rate": 1.5468600372601009e-06,
	"loss": 2.6875,
	"num_input_tokens_seen": 2416392,
	"step": 478
	},
	{
	"epoch": 0.7272727272727273,
	"grad_norm": 0.7027032375335693,
	"learning_rate": 1.543398419291737e-06,
	"loss": 2.4508,
	"num_input_tokens_seen": 2425032,
	"step": 480
	},
	{
	"epoch": 0.7272727272727273,
	"eval_loss": 2.332369089126587,
	"eval_runtime": 5.8166,
	"eval_samples_per_second": 3.438,
	"eval_steps_per_second": 3.438,
	"num_input_tokens_seen": 2425032,
	"step": 480
	},
	{
	"epoch": 0.7303030303030303,
	"grad_norm": 0.8816015124320984,
	"learning_rate": 1.5399289015505096e-06,
	"loss": 2.4884,
	"num_input_tokens_seen": 2432280,
	"step": 482
	},
	{
	"epoch": 0.7333333333333333,
	"grad_norm": 0.5385542511940002,
	"learning_rate": 1.536451563851584e-06,
	"loss": 2.3159,
	"num_input_tokens_seen": 2442576,
	"step": 484
	},
	{
	"epoch": 0.7363636363636363,
	"grad_norm": 0.5668327808380127,
	"learning_rate": 1.5329664861900237e-06,
	"loss": 2.5522,
	"num_input_tokens_seen": 2450664,
	"step": 486
	},
	{
	"epoch": 0.7393939393939394,
	"grad_norm": 0.5444993376731873,
	"learning_rate": 1.5294737487389462e-06,
	"loss": 2.4853,
	"num_input_tokens_seen": 2462568,
	"step": 488
	},
	{
	"epoch": 0.7424242424242424,
	"grad_norm": 0.5722953081130981,
	"learning_rate": 1.5259734318476807e-06,
	"loss": 2.5841,
	"num_input_tokens_seen": 2472312,
	"step": 490
	},
	{
	"epoch": 0.7454545454545455,
	"grad_norm": 0.5933071970939636,
	"learning_rate": 1.5224656160399186e-06,
	"loss": 2.4222,
	"num_input_tokens_seen": 2483016,
	"step": 492
	},
	{
	"epoch": 0.7484848484848485,
	"grad_norm": 0.6787658929824829,
	"learning_rate": 1.518950382011861e-06,
	"loss": 2.261,
	"num_input_tokens_seen": 2492688,
	"step": 494
	},
	{
	"epoch": 0.7515151515151515,
	"grad_norm": 0.5823308825492859,
	"learning_rate": 1.5154278106303649e-06,
	"loss": 2.3332,
	"num_input_tokens_seen": 2504472,
	"step": 496
	},
	{
	"epoch": 0.7545454545454545,
	"grad_norm": 0.5042080879211426,
	"learning_rate": 1.511897982931078e-06,
	"loss": 2.3521,
	"num_input_tokens_seen": 2516160,
	"step": 498
	},
	{
	"epoch": 0.7575757575757576,
	"grad_norm": 0.6808260679244995,
	"learning_rate": 1.50836098011658e-06,
	"loss": 2.3093,
	"num_input_tokens_seen": 2527320,
	"step": 500
	},
	{
	"epoch": 0.7575757575757576,
	"eval_loss": 2.3320088386535645,
	"eval_runtime": 5.8161,
	"eval_samples_per_second": 3.439,
	"eval_steps_per_second": 3.439,
	"num_input_tokens_seen": 2527320,
	"step": 500
	},
	{
	"epoch": 0.7606060606060606,
	"grad_norm": 0.5960633158683777,
	"learning_rate": 1.5048168835545094e-06,
	"loss": 2.4031,
	"num_input_tokens_seen": 2535744,
	"step": 502
	},
	{
	"epoch": 0.7636363636363637,
	"grad_norm": 0.4656361937522888,
	"learning_rate": 1.5012657747756961e-06,
	"loss": 2.2842,
	"num_input_tokens_seen": 2546376,
	"step": 504
	},
	{
	"epoch": 0.7666666666666667,
	"grad_norm": 0.7001519203186035,
	"learning_rate": 1.4977077354722828e-06,
	"loss": 2.4888,
	"num_input_tokens_seen": 2553456,
	"step": 506
	},
	{
	"epoch": 0.7696969696969697,
	"grad_norm": 0.5070295333862305,
	"learning_rate": 1.4941428474958469e-06,
	"loss": 2.3082,
	"num_input_tokens_seen": 2563632,
	"step": 508
	},
	{
	"epoch": 0.7727272727272727,
	"grad_norm": 0.559223473072052,
	"learning_rate": 1.4905711928555178e-06,
	"loss": 2.4127,
	"num_input_tokens_seen": 2573184,
	"step": 510
	},
	{
	"epoch": 0.7757575757575758,
	"grad_norm": 0.45378220081329346,
	"learning_rate": 1.4869928537160892e-06,
	"loss": 2.1886,
	"num_input_tokens_seen": 2585472,
	"step": 512
	},
	{
	"epoch": 0.7787878787878788,
	"grad_norm": 0.5591022968292236,
	"learning_rate": 1.4834079123961308e-06,
	"loss": 2.2753,
	"num_input_tokens_seen": 2594304,
	"step": 514
	},
	{
	"epoch": 0.7818181818181819,
	"grad_norm": 0.6257476806640625,
	"learning_rate": 1.479816451366092e-06,
	"loss": 2.4605,
	"num_input_tokens_seen": 2601600,
	"step": 516
	},
	{
	"epoch": 0.7848484848484848,
	"grad_norm": 0.5094606280326843,
	"learning_rate": 1.4762185532464057e-06,
	"loss": 2.4019,
	"num_input_tokens_seen": 2612280,
	"step": 518
	},
	{
	"epoch": 0.7878787878787878,
	"grad_norm": 0.4572422206401825,
	"learning_rate": 1.472614300805591e-06,
	"loss": 2.5201,
	"num_input_tokens_seen": 2624280,
	"step": 520
	},
	{
	"epoch": 0.7878787878787878,
	"eval_loss": 2.3315682411193848,
	"eval_runtime": 5.8196,
	"eval_samples_per_second": 3.437,
	"eval_steps_per_second": 3.437,
	"num_input_tokens_seen": 2624280,
	"step": 520
	},
	{
	"epoch": 0.7909090909090909,
	"grad_norm": 0.5242352485656738,
	"learning_rate": 1.4690037769583428e-06,
	"loss": 2.429,
	"num_input_tokens_seen": 2634072,
	"step": 522
	},
	{
	"epoch": 0.793939393939394,
	"grad_norm": 0.48639097809791565,
	"learning_rate": 1.4653870647636297e-06,
	"loss": 2.4341,
	"num_input_tokens_seen": 2643864,
	"step": 524
	},
	{
	"epoch": 0.796969696969697,
	"grad_norm": 0.48426756262779236,
	"learning_rate": 1.4617642474227797e-06,
	"loss": 2.2926,
	"num_input_tokens_seen": 2656152,
	"step": 526
	},
	{
	"epoch": 0.8,
	"grad_norm": 0.5517458319664001,
	"learning_rate": 1.45813540827757e-06,
	"loss": 2.6445,
	"num_input_tokens_seen": 2665968,
	"step": 528
	},
	{
	"epoch": 0.803030303030303,
	"grad_norm": 0.540124237537384,
	"learning_rate": 1.4545006308083055e-06,
	"loss": 2.2952,
	"num_input_tokens_seen": 2677680,
	"step": 530
	},
	{
	"epoch": 0.806060606060606,
	"grad_norm": 0.5651832222938538,
	"learning_rate": 1.4508599986319015e-06,
	"loss": 2.4097,
	"num_input_tokens_seen": 2687376,
	"step": 532
	},
	{
	"epoch": 0.8090909090909091,
	"grad_norm": 0.4706498980522156,
	"learning_rate": 1.4472135954999578e-06,
	"loss": 2.2751,
	"num_input_tokens_seen": 2699112,
	"step": 534
	},
	{
	"epoch": 0.8121212121212121,
	"grad_norm": 0.5661342144012451,
	"learning_rate": 1.4435615052968358e-06,
	"loss": 2.4527,
	"num_input_tokens_seen": 2710008,
	"step": 536
	},
	{
	"epoch": 0.8151515151515152,
	"grad_norm": 0.49977409839630127,
	"learning_rate": 1.4399038120377224e-06,
	"loss": 2.3689,
	"num_input_tokens_seen": 2720136,
	"step": 538
	},
	{
	"epoch": 0.8181818181818182,
	"grad_norm": 0.5473623871803284,
	"learning_rate": 1.4362405998667043e-06,
	"loss": 2.4758,
	"num_input_tokens_seen": 2729160,
	"step": 540
	},
	{
	"epoch": 0.8181818181818182,
	"eval_loss": 2.3316752910614014,
	"eval_runtime": 5.8161,
	"eval_samples_per_second": 3.439,
	"eval_steps_per_second": 3.439,
	"num_input_tokens_seen": 2729160,
	"step": 540
	},
	{
	"epoch": 0.8212121212121212,
	"grad_norm": 0.5338855385780334,
	"learning_rate": 1.432571953054828e-06,
	"loss": 2.3434,
	"num_input_tokens_seen": 2739168,
	"step": 542
	},
	{
	"epoch": 0.8242424242424242,
	"grad_norm": 0.5923134684562683,
	"learning_rate": 1.4288979559981615e-06,
	"loss": 2.364,
	"num_input_tokens_seen": 2747688,
	"step": 544
	},
	{
	"epoch": 0.8272727272727273,
	"grad_norm": 0.48334839940071106,
	"learning_rate": 1.4252186932158546e-06,
	"loss": 2.4677,
	"num_input_tokens_seen": 2758488,
	"step": 546
	},
	{
	"epoch": 0.8303030303030303,
	"grad_norm": 0.5619869828224182,
	"learning_rate": 1.421534249348192e-06,
	"loss": 2.5121,
	"num_input_tokens_seen": 2768832,
	"step": 548
	},
	{
	"epoch": 0.8333333333333334,
	"grad_norm": 0.6507293581962585,
	"learning_rate": 1.4178447091546497e-06,
	"loss": 2.491,
	"num_input_tokens_seen": 2779584,
	"step": 550
	},
	{
	"epoch": 0.8363636363636363,
	"grad_norm": 0.8891876935958862,
	"learning_rate": 1.414150157511941e-06,
	"loss": 2.3513,
	"num_input_tokens_seen": 2786232,
	"step": 552
	},
	{
	"epoch": 0.8393939393939394,
	"grad_norm": 0.5667576193809509,
	"learning_rate": 1.410450679412067e-06,
	"loss": 2.4317,
	"num_input_tokens_seen": 2796216,
	"step": 554
	},
	{
	"epoch": 0.8424242424242424,
	"grad_norm": 0.4579615592956543,
	"learning_rate": 1.406746359960361e-06,
	"loss": 2.3216,
	"num_input_tokens_seen": 2807352,
	"step": 556
	},
	{
	"epoch": 0.8454545454545455,
	"grad_norm": 0.4524303376674652,
	"learning_rate": 1.403037284373529e-06,
	"loss": 2.2947,
	"num_input_tokens_seen": 2817936,
	"step": 558
	},
	{
	"epoch": 0.8484848484848485,
	"grad_norm": 0.8141398429870605,
	"learning_rate": 1.3993235379776908e-06,
	"loss": 2.5013,
	"num_input_tokens_seen": 2827104,
	"step": 560
	},
	{
	"epoch": 0.8484848484848485,
	"eval_loss": 2.33099102973938,
	"eval_runtime": 5.8178,
	"eval_samples_per_second": 3.438,
	"eval_steps_per_second": 3.438,
	"num_input_tokens_seen": 2827104,
	"step": 560
	},
	{
	"epoch": 0.8515151515151516,
	"grad_norm": 0.6005460023880005,
	"learning_rate": 1.395605206206417e-06,
	"loss": 2.3728,
	"num_input_tokens_seen": 2834520,
	"step": 562
	},
	{
	"epoch": 0.8545454545454545,
	"grad_norm": 0.6270483136177063,
	"learning_rate": 1.3918823745987625e-06,
	"loss": 2.5102,
	"num_input_tokens_seen": 2845560,
	"step": 564
	},
	{
	"epoch": 0.8575757575757575,
	"grad_norm": 0.5506067872047424,
	"learning_rate": 1.3881551287973006e-06,
	"loss": 2.4606,
	"num_input_tokens_seen": 2856168,
	"step": 566
	},
	{
	"epoch": 0.8606060606060606,
	"grad_norm": 0.5318931937217712,
	"learning_rate": 1.384423554546151e-06,
	"loss": 2.6367,
	"num_input_tokens_seen": 2866872,
	"step": 568
	},
	{
	"epoch": 0.8636363636363636,
	"grad_norm": 0.5173328518867493,
	"learning_rate": 1.3806877376890084e-06,
	"loss": 2.4952,
	"num_input_tokens_seen": 2878296,
	"step": 570
	},
	{
	"epoch": 0.8666666666666667,
	"grad_norm": 0.6837607622146606,
	"learning_rate": 1.3769477641671668e-06,
	"loss": 2.4297,
	"num_input_tokens_seen": 2887056,
	"step": 572
	},
	{
	"epoch": 0.8696969696969697,
	"grad_norm": 0.5360056757926941,
	"learning_rate": 1.373203720017544e-06,
	"loss": 2.3496,
	"num_input_tokens_seen": 2896152,
	"step": 574
	},
	{
	"epoch": 0.8727272727272727,
	"grad_norm": 0.5022287368774414,
	"learning_rate": 1.3694556913706996e-06,
	"loss": 2.4491,
	"num_input_tokens_seen": 2905776,
	"step": 576
	},
	{
	"epoch": 0.8757575757575757,
	"grad_norm": 0.691007137298584,
	"learning_rate": 1.3657037644488574e-06,
	"loss": 2.1934,
	"num_input_tokens_seen": 2915568,
	"step": 578
	},
	{
	"epoch": 0.8787878787878788,
	"grad_norm": 0.5107728838920593,
	"learning_rate": 1.361948025563918e-06,
	"loss": 2.3654,
	"num_input_tokens_seen": 2926128,
	"step": 580
	},
	{
	"epoch": 0.8787878787878788,
	"eval_loss": 2.33089542388916,
	"eval_runtime": 5.8222,
	"eval_samples_per_second": 3.435,
	"eval_steps_per_second": 3.435,
	"num_input_tokens_seen": 2926128,
	"step": 580
	},
	{
	"epoch": 0.8818181818181818,
	"grad_norm": 0.5568860769271851,
	"learning_rate": 1.3581885611154759e-06,
	"loss": 2.4307,
	"num_input_tokens_seen": 2933568,
	"step": 582
	},
	{
	"epoch": 0.8848484848484849,
	"grad_norm": 0.6976082921028137,
	"learning_rate": 1.3544254575888313e-06,
	"loss": 2.6203,
	"num_input_tokens_seen": 2942616,
	"step": 584
	},
	{
	"epoch": 0.8878787878787879,
	"grad_norm": 0.5394561290740967,
	"learning_rate": 1.3506588015529994e-06,
	"loss": 2.4422,
	"num_input_tokens_seen": 2952480,
	"step": 586
	},
	{
	"epoch": 0.8909090909090909,
	"grad_norm": 0.5144073963165283,
	"learning_rate": 1.3468886796587202e-06,
	"loss": 2.2622,
	"num_input_tokens_seen": 2962344,
	"step": 588
	},
	{
	"epoch": 0.8939393939393939,
	"grad_norm": 0.5705990195274353,
	"learning_rate": 1.3431151786364647e-06,
	"loss": 2.3397,
	"num_input_tokens_seen": 2969832,
	"step": 590
	},
	{
	"epoch": 0.896969696969697,
	"grad_norm": 0.7521764636039734,
	"learning_rate": 1.33933838529444e-06,
	"loss": 2.4768,
	"num_input_tokens_seen": 2979312,
	"step": 592
	},
	{
	"epoch": 0.9,
	"grad_norm": 0.4214877784252167,
	"learning_rate": 1.3355583865165912e-06,
	"loss": 2.3752,
	"num_input_tokens_seen": 2990568,
	"step": 594
	},
	{
	"epoch": 0.9030303030303031,
	"grad_norm": 0.6079035401344299,
	"learning_rate": 1.331775269260604e-06,
	"loss": 2.3682,
	"num_input_tokens_seen": 2998584,
	"step": 596
	},
	{
	"epoch": 0.906060606060606,
	"grad_norm": 0.5687966346740723,
	"learning_rate": 1.3279891205559034e-06,
	"loss": 2.4906,
	"num_input_tokens_seen": 3005784,
	"step": 598
	},
	{
	"epoch": 0.9090909090909091,
	"grad_norm": 0.6438218355178833,
	"learning_rate": 1.3242000275016527e-06,
	"loss": 2.4142,
	"num_input_tokens_seen": 3013968,
	"step": 600
	},
	{
	"epoch": 0.9090909090909091,
	"eval_loss": 2.3308167457580566,
	"eval_runtime": 5.8211,
	"eval_samples_per_second": 3.436,
	"eval_steps_per_second": 3.436,
	"num_input_tokens_seen": 3013968,
	"step": 600
	},
	{
	"epoch": 0.9121212121212121,
	"grad_norm": 0.8877610564231873,
	"learning_rate": 1.3204080772647478e-06,
	"loss": 2.8198,
	"num_input_tokens_seen": 3021504,
	"step": 602
	},
	{
	"epoch": 0.9151515151515152,
	"grad_norm": 0.6974935531616211,
	"learning_rate": 1.3166133570778143e-06,
	"loss": 2.4954,
	"num_input_tokens_seen": 3033264,
	"step": 604
	},
	{
	"epoch": 0.9181818181818182,
	"grad_norm": 0.4437900483608246,
	"learning_rate": 1.3128159542371987e-06,
	"loss": 2.4191,
	"num_input_tokens_seen": 3044688,
	"step": 606
	},
	{
	"epoch": 0.9212121212121213,
	"grad_norm": 0.41366204619407654,
	"learning_rate": 1.309015956100962e-06,
	"loss": 2.2432,
	"num_input_tokens_seen": 3056592,
	"step": 608
	},
	{
	"epoch": 0.9242424242424242,
	"grad_norm": 0.4901912808418274,
	"learning_rate": 1.3052134500868686e-06,
	"loss": 2.4408,
	"num_input_tokens_seen": 3066048,
	"step": 610
	},
	{
	"epoch": 0.9272727272727272,
	"grad_norm": 0.7082731127738953,
	"learning_rate": 1.301408523670376e-06,
	"loss": 2.5248,
	"num_input_tokens_seen": 3076128,
	"step": 612
	},
	{
	"epoch": 0.9303030303030303,
	"grad_norm": 0.6702643036842346,
	"learning_rate": 1.297601264382622e-06,
	"loss": 2.4202,
	"num_input_tokens_seen": 3085464,
	"step": 614
	},
	{
	"epoch": 0.9333333333333333,
	"grad_norm": 0.5271164178848267,
	"learning_rate": 1.2937917598084123e-06,
	"loss": 2.3525,
	"num_input_tokens_seen": 3094440,
	"step": 616
	},
	{
	"epoch": 0.9363636363636364,
	"grad_norm": 0.5742107629776001,
	"learning_rate": 1.2899800975842038e-06,
	"loss": 2.3598,
	"num_input_tokens_seen": 3105720,
	"step": 618
	},
	{
	"epoch": 0.9393939393939394,
	"grad_norm": 0.653012216091156,
	"learning_rate": 1.286166365396089e-06,
	"loss": 2.588,
	"num_input_tokens_seen": 3113856,
	"step": 620
	},
	{
	"epoch": 0.9393939393939394,
	"eval_loss": 2.3307266235351562,
	"eval_runtime": 5.8207,
	"eval_samples_per_second": 3.436,
	"eval_steps_per_second": 3.436,
	"num_input_tokens_seen": 3113856,
	"step": 620
	},
	{
	"epoch": 0.9424242424242424,
	"grad_norm": 0.7475118041038513,
	"learning_rate": 1.2823506509777807e-06,
	"loss": 2.4249,
	"num_input_tokens_seen": 3123288,
	"step": 622
	},
	{
	"epoch": 0.9454545454545454,
	"grad_norm": 0.7373444437980652,
	"learning_rate": 1.2785330421085917e-06,
	"loss": 2.3551,
	"num_input_tokens_seen": 3131256,
	"step": 624
	},
	{
	"epoch": 0.9484848484848485,
	"grad_norm": 0.5523613691329956,
	"learning_rate": 1.2747136266114156e-06,
	"loss": 2.1922,
	"num_input_tokens_seen": 3139656,
	"step": 626
	},
	{
	"epoch": 0.9515151515151515,
	"grad_norm": 0.7101964950561523,
	"learning_rate": 1.270892492350707e-06,
	"loss": 2.4905,
	"num_input_tokens_seen": 3147744,
	"step": 628
	},
	{
	"epoch": 0.9545454545454546,
	"grad_norm": 0.5868334770202637,
	"learning_rate": 1.267069727230461e-06,
	"loss": 2.4588,
	"num_input_tokens_seen": 3158376,
	"step": 630
	},
	{
	"epoch": 0.9575757575757575,
	"grad_norm": 0.6006575226783752,
	"learning_rate": 1.2632454191921894e-06,
	"loss": 2.3059,
	"num_input_tokens_seen": 3168120,
	"step": 632
	},
	{
	"epoch": 0.9606060606060606,
	"grad_norm": 0.5622104406356812,
	"learning_rate": 1.2594196562128978e-06,
	"loss": 2.5159,
	"num_input_tokens_seen": 3178176,
	"step": 634
	},
	{
	"epoch": 0.9636363636363636,
	"grad_norm": 0.5180094242095947,
	"learning_rate": 1.2555925263030634e-06,
	"loss": 2.3614,
	"num_input_tokens_seen": 3189816,
	"step": 636
	},
	{
	"epoch": 0.9666666666666667,
	"grad_norm": 0.7544111013412476,
	"learning_rate": 1.2517641175046078e-06,
	"loss": 2.6341,
	"num_input_tokens_seen": 3198528,
	"step": 638
	},
	{
	"epoch": 0.9696969696969697,
	"grad_norm": 0.5005560517311096,
	"learning_rate": 1.2479345178888752e-06,
	"loss": 2.1493,
	"num_input_tokens_seen": 3209904,
	"step": 640
	},
	{
	"epoch": 0.9696969696969697,
	"eval_loss": 2.3306069374084473,
	"eval_runtime": 5.8165,
	"eval_samples_per_second": 3.439,
	"eval_steps_per_second": 3.439,
	"num_input_tokens_seen": 3209904,
	"step": 640
	},
	{
	"epoch": 0.9727272727272728,
	"grad_norm": 0.6143120527267456,
	"learning_rate": 1.244103815554602e-06,
	"loss": 2.5543,
	"num_input_tokens_seen": 3220584,
	"step": 642
	},
	{
	"epoch": 0.9757575757575757,
	"grad_norm": 0.6468402147293091,
	"learning_rate": 1.2402720986258936e-06,
	"loss": 2.3468,
	"num_input_tokens_seen": 3231576,
	"step": 644
	},
	{
	"epoch": 0.9787878787878788,
	"grad_norm": 0.6000608205795288,
	"learning_rate": 1.2364394552501951e-06,
	"loss": 2.3648,
	"num_input_tokens_seen": 3239208,
	"step": 646
	},
	{
	"epoch": 0.9818181818181818,
	"grad_norm": 0.6772189140319824,
	"learning_rate": 1.2326059735962648e-06,
	"loss": 2.5894,
	"num_input_tokens_seen": 3246072,
	"step": 648
	},
	{
	"epoch": 0.9848484848484849,
	"grad_norm": 0.5030667185783386,
	"learning_rate": 1.228771741852145e-06,
	"loss": 2.4484,
	"num_input_tokens_seen": 3258000,
	"step": 650
	},
	{
	"epoch": 0.9878787878787879,
	"grad_norm": 0.8376536965370178,
	"learning_rate": 1.2249368482231334e-06,
	"loss": 2.5076,
	"num_input_tokens_seen": 3264912,
	"step": 652
	},
	{
	"epoch": 0.990909090909091,
	"grad_norm": 0.6285922527313232,
	"learning_rate": 1.2211013809297546e-06,
	"loss": 2.3112,
	"num_input_tokens_seen": 3272832,
	"step": 654
	},
	{
	"epoch": 0.9939393939393939,
	"grad_norm": 0.49095821380615234,
	"learning_rate": 1.21726542820573e-06,
	"loss": 2.3038,
	"num_input_tokens_seen": 3283848,
	"step": 656
	},
	{
	"epoch": 0.996969696969697,
	"grad_norm": 0.5539312958717346,
	"learning_rate": 1.213429078295948e-06,
	"loss": 2.3811,
	"num_input_tokens_seen": 3295272,
	"step": 658
	},
	{
	"epoch": 1.0,
	"grad_norm": 0.46812400221824646,
	"learning_rate": 1.2095924194544344e-06,
	"loss": 2.4287,
	"num_input_tokens_seen": 3305760,
	"step": 660
	},
	{
	"epoch": 1.0,
	"eval_loss": 2.3300185203552246,
	"eval_runtime": 5.8178,
	"eval_samples_per_second": 3.438,
	"eval_steps_per_second": 3.438,
	"num_input_tokens_seen": 3305760,
	"step": 660
	},
	{
	"epoch": 1.003030303030303,
	"grad_norm": 0.45484259724617004,
	"learning_rate": 1.2057555399423218e-06,
	"loss": 2.4229,
	"num_input_tokens_seen": 3316512,
	"step": 662
	},
	{
	"epoch": 1.006060606060606,
	"grad_norm": 0.506411612033844,
	"learning_rate": 1.201918528025819e-06,
	"loss": 2.3718,
	"num_input_tokens_seen": 3328800,
	"step": 664
	},
	{
	"epoch": 1.009090909090909,
	"grad_norm": 0.7456917762756348,
	"learning_rate": 1.1980814719741809e-06,
	"loss": 2.5418,
	"num_input_tokens_seen": 3335424,
	"step": 666
	},
	{
	"epoch": 1.0121212121212122,
	"grad_norm": 0.6323581337928772,
	"learning_rate": 1.1942444600576783e-06,
	"loss": 2.4076,
	"num_input_tokens_seen": 3344904,
	"step": 668
	},
	{
	"epoch": 1.0151515151515151,
	"grad_norm": 0.6008067727088928,
	"learning_rate": 1.1904075805455657e-06,
	"loss": 2.3543,
	"num_input_tokens_seen": 3355176,
	"step": 670
	},
	{
	"epoch": 1.018181818181818,
	"grad_norm": 0.6115381121635437,
	"learning_rate": 1.186570921704052e-06,
	"loss": 2.3537,
	"num_input_tokens_seen": 3366096,
	"step": 672
	},
	{
	"epoch": 1.0212121212121212,
	"grad_norm": 0.5540327429771423,
	"learning_rate": 1.18273457179427e-06,
	"loss": 2.1717,
	"num_input_tokens_seen": 3375696,
	"step": 674
	},
	{
	"epoch": 1.0242424242424242,
	"grad_norm": 0.6130234599113464,
	"learning_rate": 1.1788986190702453e-06,
	"loss": 2.408,
	"num_input_tokens_seen": 3384288,
	"step": 676
	},
	{
	"epoch": 1.0272727272727273,
	"grad_norm": 0.6069101095199585,
	"learning_rate": 1.1750631517768667e-06,
	"loss": 2.3485,
	"num_input_tokens_seen": 3391128,
	"step": 678
	},
	{
	"epoch": 1.0303030303030303,
	"grad_norm": 0.5664869546890259,
	"learning_rate": 1.1712282581478552e-06,
	"loss": 2.4617,
	"num_input_tokens_seen": 3401640,
	"step": 680
	},
	{
	"epoch": 1.0303030303030303,
	"eval_loss": 2.3293986320495605,
	"eval_runtime": 5.8211,
	"eval_samples_per_second": 3.436,
	"eval_steps_per_second": 3.436,
	"num_input_tokens_seen": 3401640,
	"step": 680
	},
	{
	"epoch": 1.0333333333333334,
	"grad_norm": 0.5258334875106812,
	"learning_rate": 1.167394026403735e-06,
	"loss": 2.3971,
	"num_input_tokens_seen": 3411120,
	"step": 682
	},
	{
	"epoch": 1.0363636363636364,
	"grad_norm": 0.5583547353744507,
	"learning_rate": 1.1635605447498048e-06,
	"loss": 2.3265,
	"num_input_tokens_seen": 3420912,
	"step": 684
	},
	{
	"epoch": 1.0393939393939393,
	"grad_norm": 0.5852888822555542,
	"learning_rate": 1.1597279013741067e-06,
	"loss": 2.5114,
	"num_input_tokens_seen": 3429744,
	"step": 686
	},
	{
	"epoch": 1.0424242424242425,
	"grad_norm": 0.5078532695770264,
	"learning_rate": 1.1558961844453978e-06,
	"loss": 2.5497,
	"num_input_tokens_seen": 3438936,
	"step": 688
	},
	{
	"epoch": 1.0454545454545454,
	"grad_norm": 0.9847856760025024,
	"learning_rate": 1.152065482111125e-06,
	"loss": 2.5458,
	"num_input_tokens_seen": 3444912,
	"step": 690
	},
	{
	"epoch": 1.0484848484848486,
	"grad_norm": 0.49534177780151367,
	"learning_rate": 1.1482358824953919e-06,
	"loss": 2.3622,
	"num_input_tokens_seen": 3456936,
	"step": 692
	},
	{
	"epoch": 1.0515151515151515,
	"grad_norm": 0.6851257681846619,
	"learning_rate": 1.144407473696937e-06,
	"loss": 2.221,
	"num_input_tokens_seen": 3466344,
	"step": 694
	},
	{
	"epoch": 1.0545454545454545,
	"grad_norm": 0.4764980375766754,
	"learning_rate": 1.1405803437871027e-06,
	"loss": 2.3708,
	"num_input_tokens_seen": 3478632,
	"step": 696
	},
	{
	"epoch": 1.0575757575757576,
	"grad_norm": 0.6040279865264893,
	"learning_rate": 1.136754580807811e-06,
	"loss": 2.5175,
	"num_input_tokens_seen": 3485496,
	"step": 698
	},
	{
	"epoch": 1.0606060606060606,
	"grad_norm": 0.6335225701332092,
	"learning_rate": 1.1329302727695389e-06,
	"loss": 2.2166,
	"num_input_tokens_seen": 3496272,
	"step": 700
	},
	{
	"epoch": 1.0606060606060606,
	"eval_loss": 2.329413890838623,
	"eval_runtime": 5.8255,
	"eval_samples_per_second": 3.433,
	"eval_steps_per_second": 3.433,
	"num_input_tokens_seen": 3496272,
	"step": 700
	},
	{
	"epoch": 1.0636363636363637,
	"grad_norm": 0.6664142608642578,
	"learning_rate": 1.1291075076492928e-06,
	"loss": 2.5228,
	"num_input_tokens_seen": 3506712,
	"step": 702
	},
	{
	"epoch": 1.0666666666666667,
	"grad_norm": 0.5364813208580017,
	"learning_rate": 1.1252863733885845e-06,
	"loss": 2.4304,
	"num_input_tokens_seen": 3518856,
	"step": 704
	},
	{
	"epoch": 1.0696969696969698,
	"grad_norm": 0.7389492988586426,
	"learning_rate": 1.1214669578914087e-06,
	"loss": 2.0998,
	"num_input_tokens_seen": 3528456,
	"step": 706
	},
	{
	"epoch": 1.0727272727272728,
	"grad_norm": 0.709426999092102,
	"learning_rate": 1.1176493490222192e-06,
	"loss": 2.146,
	"num_input_tokens_seen": 3537048,
	"step": 708
	},
	{
	"epoch": 1.0757575757575757,
	"grad_norm": 0.7311533093452454,
	"learning_rate": 1.1138336346039113e-06,
	"loss": 2.3275,
	"num_input_tokens_seen": 3544536,
	"step": 710
	},
	{
	"epoch": 1.0787878787878789,
	"grad_norm": 0.5675577521324158,
	"learning_rate": 1.1100199024157966e-06,
	"loss": 2.3477,
	"num_input_tokens_seen": 3551472,
	"step": 712
	},
	{
	"epoch": 1.0818181818181818,
	"grad_norm": 0.6367121934890747,
	"learning_rate": 1.1062082401915878e-06,
	"loss": 2.4356,
	"num_input_tokens_seen": 3561312,
	"step": 714
	},
	{
	"epoch": 1.084848484848485,
	"grad_norm": 0.5750899910926819,
	"learning_rate": 1.1023987356173782e-06,
	"loss": 2.5201,
	"num_input_tokens_seen": 3570456,
	"step": 716
	},
	{
	"epoch": 1.087878787878788,
	"grad_norm": 0.46258801221847534,
	"learning_rate": 1.0985914763296245e-06,
	"loss": 2.0526,
	"num_input_tokens_seen": 3582744,
	"step": 718
	},
	{
	"epoch": 1.0909090909090908,
	"grad_norm": 0.6125935912132263,
	"learning_rate": 1.0947865499131315e-06,
	"loss": 2.2984,
	"num_input_tokens_seen": 3595032,
	"step": 720
	},
	{
	"epoch": 1.0909090909090908,
	"eval_loss": 2.328953504562378,
	"eval_runtime": 5.8254,
	"eval_samples_per_second": 3.433,
	"eval_steps_per_second": 3.433,
	"num_input_tokens_seen": 3595032,
	"step": 720
	},
	{
	"epoch": 1.093939393939394,
	"grad_norm": 0.48193785548210144,
	"learning_rate": 1.0909840438990383e-06,
	"loss": 1.7515,
	"num_input_tokens_seen": 3606048,
	"step": 722
	},
	{
	"epoch": 1.096969696969697,
	"grad_norm": 0.48528820276260376,
	"learning_rate": 1.0871840457628012e-06,
	"loss": 2.3416,
	"num_input_tokens_seen": 3616368,
	"step": 724
	},
	{
	"epoch": 1.1,
	"grad_norm": 0.46913468837738037,
	"learning_rate": 1.0833866429221858e-06,
	"loss": 2.3327,
	"num_input_tokens_seen": 3628368,
	"step": 726
	},
	{
	"epoch": 1.103030303030303,
	"grad_norm": 0.5710415840148926,
	"learning_rate": 1.0795919227352523e-06,
	"loss": 2.401,
	"num_input_tokens_seen": 3637848,
	"step": 728
	},
	{
	"epoch": 1.106060606060606,
	"grad_norm": 0.5964322090148926,
	"learning_rate": 1.0757999724983474e-06,
	"loss": 2.2503,
	"num_input_tokens_seen": 3647640,
	"step": 730
	},
	{
	"epoch": 1.1090909090909091,
	"grad_norm": 0.5693560242652893,
	"learning_rate": 1.0720108794440967e-06,
	"loss": 2.4449,
	"num_input_tokens_seen": 3658272,
	"step": 732
	},
	{
	"epoch": 1.112121212121212,
	"grad_norm": 0.7325261235237122,
	"learning_rate": 1.068224730739396e-06,
	"loss": 2.2787,
	"num_input_tokens_seen": 3668760,
	"step": 734
	},
	{
	"epoch": 1.1151515151515152,
	"grad_norm": 0.5507751107215881,
	"learning_rate": 1.064441613483409e-06,
	"loss": 2.2226,
	"num_input_tokens_seen": 3679608,
	"step": 736
	},
	{
	"epoch": 1.1181818181818182,
	"grad_norm": 0.4701879620552063,
	"learning_rate": 1.0606616147055602e-06,
	"loss": 2.6116,
	"num_input_tokens_seen": 3689832,
	"step": 738
	},
	{
	"epoch": 1.121212121212121,
	"grad_norm": 0.5531448125839233,
	"learning_rate": 1.056884821363535e-06,
	"loss": 2.1242,
	"num_input_tokens_seen": 3700392,
	"step": 740
	},
	{
	"epoch": 1.121212121212121,
	"eval_loss": 2.3289198875427246,
	"eval_runtime": 5.8244,
	"eval_samples_per_second": 3.434,
	"eval_steps_per_second": 3.434,
	"num_input_tokens_seen": 3700392,
	"step": 740
	},
	{
	"epoch": 1.1242424242424243,
	"grad_norm": 0.7482770085334778,
	"learning_rate": 1.05311132034128e-06,
	"loss": 2.3979,
	"num_input_tokens_seen": 3709632,
	"step": 742
	},
	{
	"epoch": 1.1272727272727272,
	"grad_norm": 0.6427175998687744,
	"learning_rate": 1.0493411984470007e-06,
	"loss": 2.4608,
	"num_input_tokens_seen": 3717720,
	"step": 744
	},
	{
	"epoch": 1.1303030303030304,
	"grad_norm": 0.5718503594398499,
	"learning_rate": 1.0455745424111686e-06,
	"loss": 2.5028,
	"num_input_tokens_seen": 3728280,
	"step": 746
	},
	{
	"epoch": 1.1333333333333333,
	"grad_norm": 0.8905156850814819,
	"learning_rate": 1.0418114388845242e-06,
	"loss": 2.5461,
	"num_input_tokens_seen": 3735888,
	"step": 748
	},
	{
	"epoch": 1.1363636363636362,
	"grad_norm": 0.535351037979126,
	"learning_rate": 1.038051974436082e-06,
	"loss": 2.2596,
	"num_input_tokens_seen": 3747720,
	"step": 750
	},
	{
	"epoch": 1.1393939393939394,
	"grad_norm": 0.5600206255912781,
	"learning_rate": 1.034296235551143e-06,
	"loss": 2.2801,
	"num_input_tokens_seen": 3758640,
	"step": 752
	},
	{
	"epoch": 1.1424242424242423,
	"grad_norm": 0.5470922589302063,
	"learning_rate": 1.0305443086293003e-06,
	"loss": 2.3337,
	"num_input_tokens_seen": 3769128,
	"step": 754
	},
	{
	"epoch": 1.1454545454545455,
	"grad_norm": 0.5066417455673218,
	"learning_rate": 1.0267962799824562e-06,
	"loss": 2.6706,
	"num_input_tokens_seen": 3779304,
	"step": 756
	},
	{
	"epoch": 1.1484848484848484,
	"grad_norm": 0.46135252714157104,
	"learning_rate": 1.0230522358328331e-06,
	"loss": 2.2422,
	"num_input_tokens_seen": 3789312,
	"step": 758
	},
	{
	"epoch": 1.1515151515151516,
	"grad_norm": 0.7310757637023926,
	"learning_rate": 1.0193122623109917e-06,
	"loss": 2.4892,
	"num_input_tokens_seen": 3796848,
	"step": 760
	},
	{
	"epoch": 1.1515151515151516,
	"eval_loss": 2.3289122581481934,
	"eval_runtime": 5.8291,
	"eval_samples_per_second": 3.431,
	"eval_steps_per_second": 3.431,
	"num_input_tokens_seen": 3796848,
	"step": 760
	},
	{
	"epoch": 1.1545454545454545,
	"grad_norm": 0.5655786991119385,
	"learning_rate": 1.015576445453849e-06,
	"loss": 2.2826,
	"num_input_tokens_seen": 3806640,
	"step": 762
	},
	{
	"epoch": 1.1575757575757575,
	"grad_norm": 0.6524637341499329,
	"learning_rate": 1.0118448712026992e-06,
	"loss": 2.4358,
	"num_input_tokens_seen": 3817608,
	"step": 764
	},
	{
	"epoch": 1.1606060606060606,
	"grad_norm": 0.6280786991119385,
	"learning_rate": 1.0081176254012374e-06,
	"loss": 2.421,
	"num_input_tokens_seen": 3827592,
	"step": 766
	},
	{
	"epoch": 1.1636363636363636,
	"grad_norm": 0.6797434687614441,
	"learning_rate": 1.0043947937935832e-06,
	"loss": 2.3245,
	"num_input_tokens_seen": 3837264,
	"step": 768
	},
	{
	"epoch": 1.1666666666666667,
	"grad_norm": 0.5665332078933716,
	"learning_rate": 1.0006764620223093e-06,
	"loss": 2.3388,
	"num_input_tokens_seen": 3847656,
	"step": 770
	},
	{
	"epoch": 1.1696969696969697,
	"grad_norm": 0.4868026077747345,
	"learning_rate": 9.96962715626471e-07,
	"loss": 2.3956,
	"num_input_tokens_seen": 3858600,
	"step": 772
	},
	{
	"epoch": 1.1727272727272728,
	"grad_norm": 0.77336585521698,
	"learning_rate": 9.932536400396393e-07,
	"loss": 2.3562,
	"num_input_tokens_seen": 3870120,
	"step": 774
	},
	{
	"epoch": 1.1757575757575758,
	"grad_norm": 0.6464818120002747,
	"learning_rate": 9.895493205879332e-07,
	"loss": 2.5851,
	"num_input_tokens_seen": 3879600,
	"step": 776
	},
	{
	"epoch": 1.1787878787878787,
	"grad_norm": 0.6274628639221191,
	"learning_rate": 9.858498424880592e-07,
	"loss": 2.7061,
	"num_input_tokens_seen": 3889296,
	"step": 778
	},
	{
	"epoch": 1.1818181818181819,
	"grad_norm": 0.5714861154556274,
	"learning_rate": 9.821552908453506e-07,
	"loss": 2.4251,
	"num_input_tokens_seen": 3901464,
	"step": 780
	},
	{
	"epoch": 1.1818181818181819,
	"eval_loss": 2.3287835121154785,
	"eval_runtime": 5.8272,
	"eval_samples_per_second": 3.432,
	"eval_steps_per_second": 3.432,
	"num_input_tokens_seen": 3901464,
	"step": 780
	},
	{
	"epoch": 1.1848484848484848,
	"grad_norm": 0.6943346261978149,
	"learning_rate": 9.784657506518078e-07,
	"loss": 2.6212,
	"num_input_tokens_seen": 3910656,
	"step": 782
	},
	{
	"epoch": 1.187878787878788,
	"grad_norm": 0.4821998178958893,
	"learning_rate": 9.747813067841455e-07,
	"loss": 2.3086,
	"num_input_tokens_seen": 3922944,
	"step": 784
	},
	{
	"epoch": 1.190909090909091,
	"grad_norm": 0.7086381912231445,
	"learning_rate": 9.711020440018384e-07,
	"loss": 2.5027,
	"num_input_tokens_seen": 3931752,
	"step": 786
	},
	{
	"epoch": 1.1939393939393939,
	"grad_norm": 0.5712624788284302,
	"learning_rate": 9.674280469451718e-07,
	"loss": 2.4088,
	"num_input_tokens_seen": 3942120,
	"step": 788
	},
	{
	"epoch": 1.196969696969697,
	"grad_norm": 0.6443710327148438,
	"learning_rate": 9.637594001332956e-07,
	"loss": 2.3161,
	"num_input_tokens_seen": 3952248,
	"step": 790
	},
	{
	"epoch": 1.2,
	"grad_norm": 0.6674967408180237,
	"learning_rate": 9.600961879622777e-07,
	"loss": 2.4837,
	"num_input_tokens_seen": 3960600,
	"step": 792
	},
	{
	"epoch": 1.2030303030303031,
	"grad_norm": 0.5792006254196167,
	"learning_rate": 9.564384947031646e-07,
	"loss": 2.3195,
	"num_input_tokens_seen": 3971568,
	"step": 794
	},
	{
	"epoch": 1.206060606060606,
	"grad_norm": 0.7185015082359314,
	"learning_rate": 9.527864045000421e-07,
	"loss": 2.5749,
	"num_input_tokens_seen": 3983592,
	"step": 796
	},
	{
	"epoch": 1.209090909090909,
	"grad_norm": 0.6423861980438232,
	"learning_rate": 9.491400013680988e-07,
	"loss": 2.39,
	"num_input_tokens_seen": 3994008,
	"step": 798
	},
	{
	"epoch": 1.2121212121212122,
	"grad_norm": 0.6292434334754944,
	"learning_rate": 9.454993691916948e-07,
	"loss": 2.3579,
	"num_input_tokens_seen": 4004496,
	"step": 800
	},
	{
	"epoch": 1.2121212121212122,
	"eval_loss": 2.3282077312469482,
	"eval_runtime": 5.8254,
	"eval_samples_per_second": 3.433,
	"eval_steps_per_second": 3.433,
	"num_input_tokens_seen": 4004496,
	"step": 800
	},
	{
	"epoch": 1.215151515151515,
	"grad_norm": 0.6097608208656311,
	"learning_rate": 9.418645917224303e-07,
	"loss": 2.3152,
	"num_input_tokens_seen": 4016592,
	"step": 802
	},
	{
	"epoch": 1.2181818181818183,
	"grad_norm": 0.5774179100990295,
	"learning_rate": 9.382357525772202e-07,
	"loss": 2.4599,
	"num_input_tokens_seen": 4024800,
	"step": 804
	},
	{
	"epoch": 1.2212121212121212,
	"grad_norm": 0.645380973815918,
	"learning_rate": 9.346129352363705e-07,
	"loss": 2.2412,
	"num_input_tokens_seen": 4035144,
	"step": 806
	},
	{
	"epoch": 1.2242424242424241,
	"grad_norm": 0.6434935331344604,
	"learning_rate": 9.309962230416574e-07,
	"loss": 2.4022,
	"num_input_tokens_seen": 4042920,
	"step": 808
	},
	{
	"epoch": 1.2272727272727273,
	"grad_norm": 0.5125094056129456,
	"learning_rate": 9.273856991944089e-07,
	"loss": 2.4082,
	"num_input_tokens_seen": 4053072,
	"step": 810
	},
	{
	"epoch": 1.2303030303030302,
	"grad_norm": 0.5167670845985413,
	"learning_rate": 9.237814467535941e-07,
	"loss": 2.3188,
	"num_input_tokens_seen": 4063368,
	"step": 812
	},
	{
	"epoch": 1.2333333333333334,
	"grad_norm": 0.5533791184425354,
	"learning_rate": 9.201835486339084e-07,
	"loss": 2.4367,
	"num_input_tokens_seen": 4072392,
	"step": 814
	},
	{
	"epoch": 1.2363636363636363,
	"grad_norm": 0.5429077744483948,
	"learning_rate": 9.165920876038694e-07,
	"loss": 2.3054,
	"num_input_tokens_seen": 4083072,
	"step": 816
	},
	{
	"epoch": 1.2393939393939393,
	"grad_norm": 0.530968427658081,
	"learning_rate": 9.130071462839108e-07,
	"loss": 2.4475,
	"num_input_tokens_seen": 4093776,
	"step": 818
	},
	{
	"epoch": 1.2424242424242424,
	"grad_norm": 0.5137664675712585,
	"learning_rate": 9.094288071444822e-07,
	"loss": 2.4868,
	"num_input_tokens_seen": 4106040,
	"step": 820
	},
	{
	"epoch": 1.2424242424242424,
	"eval_loss": 2.3283748626708984,
	"eval_runtime": 5.8265,
	"eval_samples_per_second": 3.433,
	"eval_steps_per_second": 3.433,
	"num_input_tokens_seen": 4106040,
	"step": 820
	},
	{
	"epoch": 1.2454545454545454,
	"grad_norm": 0.7732150554656982,
	"learning_rate": 9.058571525041534e-07,
	"loss": 2.4682,
	"num_input_tokens_seen": 4117392,
	"step": 822
	},
	{
	"epoch": 1.2484848484848485,
	"grad_norm": 0.6861566305160522,
	"learning_rate": 9.022922645277176e-07,
	"loss": 2.372,
	"num_input_tokens_seen": 4125696,
	"step": 824
	},
	{
	"epoch": 1.2515151515151515,
	"grad_norm": 0.4728741943836212,
	"learning_rate": 8.987342252243042e-07,
	"loss": 2.4424,
	"num_input_tokens_seen": 4137816,
	"step": 826
	},
	{
	"epoch": 1.2545454545454544,
	"grad_norm": 0.5557587742805481,
	"learning_rate": 8.951831164454908e-07,
	"loss": 2.4164,
	"num_input_tokens_seen": 4150104,
	"step": 828
	},
	{
	"epoch": 1.2575757575757576,
	"grad_norm": 0.6730014085769653,
	"learning_rate": 8.916390198834203e-07,
	"loss": 2.4451,
	"num_input_tokens_seen": 4160832,
	"step": 830
	},
	{
	"epoch": 1.2606060606060607,
	"grad_norm": 0.7126666307449341,
	"learning_rate": 8.88102017068922e-07,
	"loss": 2.3256,
	"num_input_tokens_seen": 4170216,
	"step": 832
	},
	{
	"epoch": 1.2636363636363637,
	"grad_norm": 0.6457303762435913,
	"learning_rate": 8.845721893696354e-07,
	"loss": 2.2176,
	"num_input_tokens_seen": 4181256,
	"step": 834
	},
	{
	"epoch": 1.2666666666666666,
	"grad_norm": 1.0662436485290527,
	"learning_rate": 8.810496179881387e-07,
	"loss": 2.3812,
	"num_input_tokens_seen": 4192128,
	"step": 836
	},
	{
	"epoch": 1.2696969696969698,
	"grad_norm": 0.4683075547218323,
	"learning_rate": 8.775343839600816e-07,
	"loss": 2.4275,
	"num_input_tokens_seen": 4202208,
	"step": 838
	},
	{
	"epoch": 1.2727272727272727,
	"grad_norm": 0.5171107649803162,
	"learning_rate": 8.740265681523195e-07,
	"loss": 2.4706,
	"num_input_tokens_seen": 4210464,
	"step": 840
	},
	{
	"epoch": 1.2727272727272727,
	"eval_loss": 2.3279545307159424,
	"eval_runtime": 5.823,
	"eval_samples_per_second": 3.435,
	"eval_steps_per_second": 3.435,
	"num_input_tokens_seen": 4210464,
	"step": 840
	},
	{
	"epoch": 1.2757575757575759,
	"grad_norm": 0.7313932180404663,
	"learning_rate": 8.705262512610539e-07,
	"loss": 2.4054,
	"num_input_tokens_seen": 4217928,
	"step": 842
	},
	{
	"epoch": 1.2787878787878788,
	"grad_norm": 0.7015888690948486,
	"learning_rate": 8.670335138099765e-07,
	"loss": 2.4653,
	"num_input_tokens_seen": 4226904,
	"step": 844
	},
	{
	"epoch": 1.2818181818181817,
	"grad_norm": 0.6179009079933167,
	"learning_rate": 8.635484361484158e-07,
	"loss": 2.3184,
	"num_input_tokens_seen": 4237656,
	"step": 846
	},
	{
	"epoch": 1.284848484848485,
	"grad_norm": 0.5112322568893433,
	"learning_rate": 8.600710984494909e-07,
	"loss": 2.3415,
	"num_input_tokens_seen": 4248720,
	"step": 848
	},
	{
	"epoch": 1.2878787878787878,
	"grad_norm": 0.7824225425720215,
	"learning_rate": 8.56601580708263e-07,
	"loss": 2.6382,
	"num_input_tokens_seen": 4253448,
	"step": 850
	},
	{
	"epoch": 1.290909090909091,
	"grad_norm": 0.7822674512863159,
	"learning_rate": 8.531399627398991e-07,
	"loss": 2.5681,
	"num_input_tokens_seen": 4261488,
	"step": 852
	},
	{
	"epoch": 1.293939393939394,
	"grad_norm": 0.5791777968406677,
	"learning_rate": 8.496863241778346e-07,
	"loss": 2.2039,
	"num_input_tokens_seen": 4273104,
	"step": 854
	},
	{
	"epoch": 1.2969696969696969,
	"grad_norm": 0.5415911674499512,
	"learning_rate": 8.462407444719405e-07,
	"loss": 2.3936,
	"num_input_tokens_seen": 4283136,
	"step": 856
	},
	{
	"epoch": 1.3,
	"grad_norm": 0.5852922797203064,
	"learning_rate": 8.428033028866967e-07,
	"loss": 2.3669,
	"num_input_tokens_seen": 4292208,
	"step": 858
	},
	{
	"epoch": 1.303030303030303,
	"grad_norm": 0.5799878239631653,
	"learning_rate": 8.393740784993677e-07,
	"loss": 2.4704,
	"num_input_tokens_seen": 4302240,
	"step": 860
	},
	{
	"epoch": 1.303030303030303,
	"eval_loss": 2.3276970386505127,
	"eval_runtime": 5.8227,
	"eval_samples_per_second": 3.435,
	"eval_steps_per_second": 3.435,
	"num_input_tokens_seen": 4302240,
	"step": 860
	},
	{
	"epoch": 1.3060606060606061,
	"grad_norm": 0.7296667695045471,
	"learning_rate": 8.359531501981846e-07,
	"loss": 2.7633,
	"num_input_tokens_seen": 4311888,
	"step": 862
	},
	{
	"epoch": 1.309090909090909,
	"grad_norm": 0.9460285305976868,
	"learning_rate": 8.325405966805295e-07,
	"loss": 2.1671,
	"num_input_tokens_seen": 4321992,
	"step": 864
	},
	{
	"epoch": 1.312121212121212,
	"grad_norm": 0.5294950008392334,
	"learning_rate": 8.291364964511247e-07,
	"loss": 2.4139,
	"num_input_tokens_seen": 4332408,
	"step": 866
	},
	{
	"epoch": 1.3151515151515152,
	"grad_norm": 0.6206031441688538,
	"learning_rate": 8.25740927820228e-07,
	"loss": 2.5621,
	"num_input_tokens_seen": 4344696,
	"step": 868
	},
	{
	"epoch": 1.3181818181818181,
	"grad_norm": 0.5652275085449219,
	"learning_rate": 8.223539689018299e-07,
	"loss": 2.4142,
	"num_input_tokens_seen": 4356168,
	"step": 870
	},
	{
	"epoch": 1.3212121212121213,
	"grad_norm": 0.6217209696769714,
	"learning_rate": 8.189756976118568e-07,
	"loss": 2.3459,
	"num_input_tokens_seen": 4364568,
	"step": 872
	},
	{
	"epoch": 1.3242424242424242,
	"grad_norm": 0.5359376072883606,
	"learning_rate": 8.156061916663807e-07,
	"loss": 2.2973,
	"num_input_tokens_seen": 4374984,
	"step": 874
	},
	{
	"epoch": 1.3272727272727272,
	"grad_norm": 0.531065821647644,
	"learning_rate": 8.12245528579828e-07,
	"loss": 2.5294,
	"num_input_tokens_seen": 4385424,
	"step": 876
	},
	{
	"epoch": 1.3303030303030303,
	"grad_norm": 0.837188184261322,
	"learning_rate": 8.088937856631974e-07,
	"loss": 2.4239,
	"num_input_tokens_seen": 4395192,
	"step": 878
	},
	{
	"epoch": 1.3333333333333333,
	"grad_norm": 0.6112043857574463,
	"learning_rate": 8.055510400222836e-07,
	"loss": 2.4403,
	"num_input_tokens_seen": 4405608,
	"step": 880
	},
	{
	"epoch": 1.3333333333333333,
	"eval_loss": 2.328122138977051,
	"eval_runtime": 5.8246,
	"eval_samples_per_second": 3.434,
	"eval_steps_per_second": 3.434,
	"num_input_tokens_seen": 4405608,
	"step": 880
	},
	{
	"epoch": 1.3363636363636364,
	"grad_norm": 0.6124045252799988,
	"learning_rate": 8.022173685559011e-07,
	"loss": 2.389,
	"num_input_tokens_seen": 4417896,
	"step": 882
	},
	{
	"epoch": 1.3393939393939394,
	"grad_norm": 0.6339285969734192,
	"learning_rate": 7.988928479541154e-07,
	"loss": 2.3811,
	"num_input_tokens_seen": 4428000,
	"step": 884
	},
	{
	"epoch": 1.3424242424242423,
	"grad_norm": 0.5700270533561707,
	"learning_rate": 7.955775546964797e-07,
	"loss": 2.4351,
	"num_input_tokens_seen": 4436736,
	"step": 886
	},
	{
	"epoch": 1.3454545454545455,
	"grad_norm": 0.5536416172981262,
	"learning_rate": 7.922715650502746e-07,
	"loss": 2.4343,
	"num_input_tokens_seen": 4447488,
	"step": 888
	},
	{
	"epoch": 1.3484848484848486,
	"grad_norm": 0.6863646507263184,
	"learning_rate": 7.889749550687552e-07,
	"loss": 2.5435,
	"num_input_tokens_seen": 4455840,
	"step": 890
	},
	{
	"epoch": 1.3515151515151516,
	"grad_norm": 0.6737553477287292,
	"learning_rate": 7.856878005893988e-07,
	"loss": 2.3398,
	"num_input_tokens_seen": 4463568,
	"step": 892
	},
	{
	"epoch": 1.3545454545454545,
	"grad_norm": 0.7057380676269531,
	"learning_rate": 7.824101772321625e-07,
	"loss": 2.3618,
	"num_input_tokens_seen": 4472904,
	"step": 894
	},
	{
	"epoch": 1.3575757575757577,
	"grad_norm": 0.47144582867622375,
	"learning_rate": 7.791421603977435e-07,
	"loss": 2.1904,
	"num_input_tokens_seen": 4484400,
	"step": 896
	},
	{
	"epoch": 1.3606060606060606,
	"grad_norm": 0.5720792412757874,
	"learning_rate": 7.758838252658433e-07,
	"loss": 2.3122,
	"num_input_tokens_seen": 4493592,
	"step": 898
	},
	{
	"epoch": 1.3636363636363638,
	"grad_norm": 0.6241214275360107,
	"learning_rate": 7.726352467934386e-07,
	"loss": 2.4964,
	"num_input_tokens_seen": 4502664,
	"step": 900
	},
	{
	"epoch": 1.3636363636363638,
	"eval_loss": 2.327789783477783,
	"eval_runtime": 5.8265,
	"eval_samples_per_second": 3.433,
	"eval_steps_per_second": 3.433,
	"num_input_tokens_seen": 4502664,
	"step": 900
	},
	{
	"epoch": 1.3666666666666667,
	"grad_norm": 0.6216875910758972,
	"learning_rate": 7.693964997130581e-07,
	"loss": 2.4142,
	"num_input_tokens_seen": 4510920,
	"step": 902
	},
	{
	"epoch": 1.3696969696969696,
	"grad_norm": 0.5733647346496582,
	"learning_rate": 7.661676585310618e-07,
	"loss": 2.3751,
	"num_input_tokens_seen": 4523208,
	"step": 904
	},
	{
	"epoch": 1.3727272727272728,
	"grad_norm": 0.5904967784881592,
	"learning_rate": 7.629487975259276e-07,
	"loss": 2.5808,
	"num_input_tokens_seen": 4532520,
	"step": 906
	},
	{
	"epoch": 1.3757575757575757,
	"grad_norm": 0.44976285099983215,
	"learning_rate": 7.597399907465431e-07,
	"loss": 2.3199,
	"num_input_tokens_seen": 4544688,
	"step": 908
	},
	{
	"epoch": 1.378787878787879,
	"grad_norm": 0.6326127052307129,
	"learning_rate": 7.565413120105009e-07,
	"loss": 2.3752,
	"num_input_tokens_seen": 4554000,
	"step": 910
	},
	{
	"epoch": 1.3818181818181818,
	"grad_norm": 0.5754263997077942,
	"learning_rate": 7.533528349024014e-07,
	"loss": 2.3512,
	"num_input_tokens_seen": 4564368,
	"step": 912
	},
	{
	"epoch": 1.3848484848484848,
	"grad_norm": 0.7068946957588196,
	"learning_rate": 7.5017463277216e-07,
	"loss": 2.3772,
	"num_input_tokens_seen": 4574448,
	"step": 914
	},
	{
	"epoch": 1.387878787878788,
	"grad_norm": 0.6131560206413269,
	"learning_rate": 7.470067787333188e-07,
	"loss": 2.4036,
	"num_input_tokens_seen": 4582464,
	"step": 916
	},
	{
	"epoch": 1.3909090909090909,
	"grad_norm": 0.6577942967414856,
	"learning_rate": 7.43849345661367e-07,
	"loss": 2.3063,
	"num_input_tokens_seen": 4592976,
	"step": 918
	},
	{
	"epoch": 1.393939393939394,
	"grad_norm": 0.7147580981254578,
	"learning_rate": 7.407024061920599e-07,
	"loss": 2.4129,
	"num_input_tokens_seen": 4603920,
	"step": 920
	},
	{
	"epoch": 1.393939393939394,
	"eval_loss": 2.32749080657959,
	"eval_runtime": 5.8263,
	"eval_samples_per_second": 3.433,
	"eval_steps_per_second": 3.433,
	"num_input_tokens_seen": 4603920,
	"step": 920
	},
	{
	"epoch": 1.396969696969697,
	"grad_norm": 0.5320861339569092,
	"learning_rate": 7.375660327197534e-07,
	"loss": 2.3207,
	"num_input_tokens_seen": 4614072,
	"step": 922
	},
	{
	"epoch": 1.4,
	"grad_norm": 0.6758208870887756,
	"learning_rate": 7.344402973957346e-07,
	"loss": 2.4536,
	"num_input_tokens_seen": 4622640,
	"step": 924
	},
	{
	"epoch": 1.403030303030303,
	"grad_norm": 0.5670093894004822,
	"learning_rate": 7.313252721265638e-07,
	"loss": 2.5495,
	"num_input_tokens_seen": 4634040,
	"step": 926
	},
	{
	"epoch": 1.406060606060606,
	"grad_norm": 0.5245952606201172,
	"learning_rate": 7.282210285724195e-07,
	"loss": 2.4487,
	"num_input_tokens_seen": 4644192,
	"step": 928
	},
	{
	"epoch": 1.4090909090909092,
	"grad_norm": 0.4705655872821808,
	"learning_rate": 7.251276381454506e-07,
	"loss": 2.5896,
	"num_input_tokens_seen": 4653720,
	"step": 930
	},
	{
	"epoch": 1.412121212121212,
	"grad_norm": 0.5075128674507141,
	"learning_rate": 7.22045172008133e-07,
	"loss": 2.261,
	"num_input_tokens_seen": 4666008,
	"step": 932
	},
	{
	"epoch": 1.415151515151515,
	"grad_norm": 0.5407282710075378,
	"learning_rate": 7.189737010716326e-07,
	"loss": 2.384,
	"num_input_tokens_seen": 4674936,
	"step": 934
	},
	{
	"epoch": 1.4181818181818182,
	"grad_norm": 0.6681150794029236,
	"learning_rate": 7.159132959941745e-07,
	"loss": 2.4542,
	"num_input_tokens_seen": 4684272,
	"step": 936
	},
	{
	"epoch": 1.4212121212121211,
	"grad_norm": 0.6024764776229858,
	"learning_rate": 7.128640271794171e-07,
	"loss": 2.3937,
	"num_input_tokens_seen": 4695576,
	"step": 938
	},
	{
	"epoch": 1.4242424242424243,
	"grad_norm": 0.5031726956367493,
	"learning_rate": 7.098259647748328e-07,
	"loss": 2.2943,
	"num_input_tokens_seen": 4705800,
	"step": 940
	},
	{
	"epoch": 1.4242424242424243,
	"eval_loss": 2.3277194499969482,
	"eval_runtime": 5.8264,
	"eval_samples_per_second": 3.433,
	"eval_steps_per_second": 3.433,
	"num_input_tokens_seen": 4705800,
	"step": 940
	},
	{
	"epoch": 1.4272727272727272,
	"grad_norm": 0.5406504273414612,
	"learning_rate": 7.067991786700929e-07,
	"loss": 2.3552,
	"num_input_tokens_seen": 4718088,
	"step": 942
	},
	{
	"epoch": 1.4303030303030302,
	"grad_norm": 0.5154955387115479,
	"learning_rate": 7.037837384954625e-07,
	"loss": 2.4507,
	"num_input_tokens_seen": 4729536,
	"step": 944
	},
	{
	"epoch": 1.4333333333333333,
	"grad_norm": 0.710150420665741,
	"learning_rate": 7.007797136201966e-07,
	"loss": 2.4813,
	"num_input_tokens_seen": 4738272,
	"step": 946
	},
	{
	"epoch": 1.4363636363636363,
	"grad_norm": 0.5603686571121216,
	"learning_rate": 6.977871731509438e-07,
	"loss": 2.4679,
	"num_input_tokens_seen": 4747488,
	"step": 948
	},
	{
	"epoch": 1.4393939393939394,
	"grad_norm": 0.6040205359458923,
	"learning_rate": 6.948061859301593e-07,
	"loss": 2.5084,
	"num_input_tokens_seen": 4756032,
	"step": 950
	},
	{
	"epoch": 1.4424242424242424,
	"grad_norm": 0.6151003837585449,
	"learning_rate": 6.918368205345182e-07,
	"loss": 2.3797,
	"num_input_tokens_seen": 4766904,
	"step": 952
	},
	{
	"epoch": 1.4454545454545453,
	"grad_norm": 0.5921849012374878,
	"learning_rate": 6.888791452733397e-07,
	"loss": 2.4923,
	"num_input_tokens_seen": 4777680,
	"step": 954
	},
	{
	"epoch": 1.4484848484848485,
	"grad_norm": 0.5749545693397522,
	"learning_rate": 6.859332281870147e-07,
	"loss": 2.5362,
	"num_input_tokens_seen": 4788432,
	"step": 956
	},
	{
	"epoch": 1.4515151515151516,
	"grad_norm": 0.5609776973724365,
	"learning_rate": 6.829991370454411e-07,
	"loss": 2.433,
	"num_input_tokens_seen": 4799712,
	"step": 958
	},
	{
	"epoch": 1.4545454545454546,
	"grad_norm": 0.6038674116134644,
	"learning_rate": 6.800769393464656e-07,
	"loss": 2.362,
	"num_input_tokens_seen": 4808688,
	"step": 960
	},
	{
	"epoch": 1.4545454545454546,
	"eval_loss": 2.3274452686309814,
	"eval_runtime": 5.8255,
	"eval_samples_per_second": 3.433,
	"eval_steps_per_second": 3.433,
	"num_input_tokens_seen": 4808688,
	"step": 960
	},
	{
	"epoch": 1.4575757575757575,
	"grad_norm": 0.6705885529518127,
	"learning_rate": 6.771667023143284e-07,
	"loss": 2.5027,
	"num_input_tokens_seen": 4817136,
	"step": 962
	},
	{
	"epoch": 1.4606060606060607,
	"grad_norm": 0.6026042699813843,
	"learning_rate": 6.742684928981188e-07,
	"loss": 2.6941,
	"num_input_tokens_seen": 4829112,
	"step": 964
	},
	{
	"epoch": 1.4636363636363636,
	"grad_norm": 0.5220550894737244,
	"learning_rate": 6.713823777702359e-07,
	"loss": 2.2785,
	"num_input_tokens_seen": 4838664,
	"step": 966
	},
	{
	"epoch": 1.4666666666666668,
	"grad_norm": 0.6457405090332031,
	"learning_rate": 6.685084233248517e-07,
	"loss": 2.502,
	"num_input_tokens_seen": 4846656,
	"step": 968
	},
	{
	"epoch": 1.4696969696969697,
	"grad_norm": 0.831514298915863,
	"learning_rate": 6.656466956763864e-07,
	"loss": 2.4094,
	"num_input_tokens_seen": 4855296,
	"step": 970
	},
	{
	"epoch": 1.4727272727272727,
	"grad_norm": 0.623429000377655,
	"learning_rate": 6.627972606579866e-07,
	"loss": 2.3646,
	"num_input_tokens_seen": 4867584,
	"step": 972
	},
	{
	"epoch": 1.4757575757575758,
	"grad_norm": 0.6878921389579773,
	"learning_rate": 6.599601838200104e-07,
	"loss": 2.3642,
	"num_input_tokens_seen": 4879584,
	"step": 974
	},
	{
	"epoch": 1.4787878787878788,
	"grad_norm": 0.8445355296134949,
	"learning_rate": 6.571355304285202e-07,
	"loss": 2.571,
	"num_input_tokens_seen": 4889976,
	"step": 976
	},
	{
	"epoch": 1.481818181818182,
	"grad_norm": 0.5575315356254578,
	"learning_rate": 6.543233654637804e-07,
	"loss": 2.5749,
	"num_input_tokens_seen": 4899048,
	"step": 978
	},
	{
	"epoch": 1.4848484848484849,
	"grad_norm": 0.5096350312232971,
	"learning_rate": 6.515237536187644e-07,
	"loss": 2.2386,
	"num_input_tokens_seen": 4910088,
	"step": 980
	},
	{
	"epoch": 1.4848484848484849,
	"eval_loss": 2.3277652263641357,
	"eval_runtime": 5.8263,
	"eval_samples_per_second": 3.433,
	"eval_steps_per_second": 3.433,
	"num_input_tokens_seen": 4910088,
	"step": 980
	},
	{
	"epoch": 1.4878787878787878,
	"grad_norm": 0.7003534436225891,
	"learning_rate": 6.487367592976633e-07,
	"loss": 2.5641,
	"num_input_tokens_seen": 4922376,
	"step": 982
	},
	{
	"epoch": 1.490909090909091,
	"grad_norm": 0.5951968431472778,
	"learning_rate": 6.459624466144067e-07,
	"loss": 2.298,
	"num_input_tokens_seen": 4934664,
	"step": 984
	},
	{
	"epoch": 1.493939393939394,
	"grad_norm": 0.7097399234771729,
	"learning_rate": 6.432008793911877e-07,
	"loss": 2.3938,
	"num_input_tokens_seen": 4943352,
	"step": 986
	},
	{
	"epoch": 1.496969696969697,
	"grad_norm": 0.5688740015029907,
	"learning_rate": 6.404521211569937e-07,
	"loss": 2.421,
	"num_input_tokens_seen": 4953888,
	"step": 988
	},
	{
	"epoch": 1.5,
	"grad_norm": 0.6089447736740112,
	"learning_rate": 6.377162351461442e-07,
	"loss": 2.1273,
	"num_input_tokens_seen": 4965024,
	"step": 990
	},
	{
	"epoch": 1.503030303030303,
	"grad_norm": 0.5698357224464417,
	"learning_rate": 6.349932842968391e-07,
	"loss": 2.3928,
	"num_input_tokens_seen": 4977216,
	"step": 992
	},
	{
	"epoch": 1.506060606060606,
	"grad_norm": 0.6300851702690125,
	"learning_rate": 6.322833312497082e-07,
	"loss": 2.3595,
	"num_input_tokens_seen": 4986720,
	"step": 994
	},
	{
	"epoch": 1.509090909090909,
	"grad_norm": 0.5977615714073181,
	"learning_rate": 6.295864383463705e-07,
	"loss": 2.5852,
	"num_input_tokens_seen": 4995072,
	"step": 996
	},
	{
	"epoch": 1.5121212121212122,
	"grad_norm": 0.6872332096099854,
	"learning_rate": 6.269026676280008e-07,
	"loss": 2.4611,
	"num_input_tokens_seen": 5003256,
	"step": 998
	},
	{
	"epoch": 1.5151515151515151,
	"grad_norm": 0.7128229141235352,
	"learning_rate": 6.242320808339023e-07,
	"loss": 2.0949,
	"num_input_tokens_seen": 5010864,
	"step": 1000
	},
	{
	"epoch": 1.5151515151515151,
	"eval_loss": 2.3277881145477295,
	"eval_runtime": 5.8265,
	"eval_samples_per_second": 3.433,
	"eval_steps_per_second": 3.433,
	"num_input_tokens_seen": 5010864,
	"step": 1000
	},
	{
	"epoch": 1.518181818181818,
	"grad_norm": 0.48600301146507263,
	"learning_rate": 6.215747394000864e-07,
	"loss": 2.2478,
	"num_input_tokens_seen": 5021400,
	"step": 1002
	},
	{
	"epoch": 1.5212121212121212,
	"grad_norm": 0.6063188314437866,
	"learning_rate": 6.189307044578585e-07,
	"loss": 2.1912,
	"num_input_tokens_seen": 5031576,
	"step": 1004
	},
	{
	"epoch": 1.5242424242424244,
	"grad_norm": 0.6136674284934998,
	"learning_rate": 6.163000368324124e-07,
	"loss": 2.3441,
	"num_input_tokens_seen": 5042136,
	"step": 1006
	},
	{
	"epoch": 1.5272727272727273,
	"grad_norm": 0.6810842156410217,
	"learning_rate": 6.136827970414317e-07,
	"loss": 2.3444,
	"num_input_tokens_seen": 5052480,
	"step": 1008
	},
	{
	"epoch": 1.5303030303030303,
	"grad_norm": 0.70346599817276,
	"learning_rate": 6.11079045293696e-07,
	"loss": 2.5014,
	"num_input_tokens_seen": 5062872,
	"step": 1010
	},
	{
	"epoch": 1.5333333333333332,
	"grad_norm": 0.6263840198516846,
	"learning_rate": 6.084888414876976e-07,
	"loss": 2.2427,
	"num_input_tokens_seen": 5073744,
	"step": 1012
	},
	{
	"epoch": 1.5363636363636364,
	"grad_norm": 0.6593678593635559,
	"learning_rate": 6.059122452102618e-07,
	"loss": 2.3813,
	"num_input_tokens_seen": 5082432,
	"step": 1014
	},
	{
	"epoch": 1.5393939393939395,
	"grad_norm": 0.521698534488678,
	"learning_rate": 6.033493157351772e-07,
	"loss": 2.6378,
	"num_input_tokens_seen": 5092848,
	"step": 1016
	},
	{
	"epoch": 1.5424242424242425,
	"grad_norm": 0.46363523602485657,
	"learning_rate": 6.008001120218322e-07,
	"loss": 2.4006,
	"num_input_tokens_seen": 5105136,
	"step": 1018
	},
	{
	"epoch": 1.5454545454545454,
	"grad_norm": 0.7737420797348022,
	"learning_rate": 5.982646927138584e-07,
	"loss": 2.5504,
	"num_input_tokens_seen": 5114064,
	"step": 1020
	},
	{
	"epoch": 1.5454545454545454,
	"eval_loss": 2.3275692462921143,
	"eval_runtime": 5.8238,
	"eval_samples_per_second": 3.434,
	"eval_steps_per_second": 3.434,
	"num_input_tokens_seen": 5114064,
	"step": 1020
	},
	{
	"epoch": 1.5484848484848484,
	"grad_norm": 0.6213299036026001,
	"learning_rate": 5.957431161377809e-07,
	"loss": 2.4085,
	"num_input_tokens_seen": 5125872,
	"step": 1022
	},
	{
	"epoch": 1.5515151515151515,
	"grad_norm": 0.7610370516777039,
	"learning_rate": 5.932354403016777e-07,
	"loss": 2.263,
	"num_input_tokens_seen": 5135208,
	"step": 1024
	},
	{
	"epoch": 1.5545454545454547,
	"grad_norm": 0.5635423064231873,
	"learning_rate": 5.907417228938442e-07,
	"loss": 2.352,
	"num_input_tokens_seen": 5146896,
	"step": 1026
	},
	{
	"epoch": 1.5575757575757576,
	"grad_norm": 0.5265647768974304,
	"learning_rate": 5.88262021281467e-07,
	"loss": 2.3172,
	"num_input_tokens_seen": 5159184,
	"step": 1028
	},
	{
	"epoch": 1.5606060606060606,
	"grad_norm": 0.8375009298324585,
	"learning_rate": 5.857963925093034e-07,
	"loss": 2.4402,
	"num_input_tokens_seen": 5167656,
	"step": 1030
	},
	{
	"epoch": 1.5636363636363635,
	"grad_norm": 0.5335946679115295,
	"learning_rate": 5.833448932983693e-07,
	"loss": 2.5926,
	"num_input_tokens_seen": 5179680,
	"step": 1032
	},
	{
	"epoch": 1.5666666666666667,
	"grad_norm": 0.8245714902877808,
	"learning_rate": 5.809075800446348e-07,
	"loss": 2.5999,
	"num_input_tokens_seen": 5190216,
	"step": 1034
	},
	{
	"epoch": 1.5696969696969698,
	"grad_norm": 0.5047762393951416,
	"learning_rate": 5.784845088177263e-07,
	"loss": 2.379,
	"num_input_tokens_seen": 5201592,
	"step": 1036
	},
	{
	"epoch": 1.5727272727272728,
	"grad_norm": 0.5322418212890625,
	"learning_rate": 5.760757353596371e-07,
	"loss": 2.3246,
	"num_input_tokens_seen": 5213040,
	"step": 1038
	},
	{
	"epoch": 1.5757575757575757,
	"grad_norm": 0.47743648290634155,
	"learning_rate": 5.736813150834447e-07,
	"loss": 2.4542,
	"num_input_tokens_seen": 5223360,
	"step": 1040
	},
	{
	"epoch": 1.5757575757575757,
	"eval_loss": 2.3277275562286377,
	"eval_runtime": 5.824,
	"eval_samples_per_second": 3.434,
	"eval_steps_per_second": 3.434,
	"num_input_tokens_seen": 5223360,
	"step": 1040
	},
	{
	"epoch": 1.5787878787878786,
	"grad_norm": 0.4745235741138458,
	"learning_rate": 5.713013030720356e-07,
	"loss": 2.3253,
	"num_input_tokens_seen": 5235480,
	"step": 1042
	},
	{
	"epoch": 1.5818181818181818,
	"grad_norm": 0.521117091178894,
	"learning_rate": 5.6893575407684e-07,
	"loss": 2.3232,
	"num_input_tokens_seen": 5246280,
	"step": 1044
	},
	{
	"epoch": 1.584848484848485,
	"grad_norm": 0.6688542366027832,
	"learning_rate": 5.665847225165695e-07,
	"loss": 2.323,
	"num_input_tokens_seen": 5257248,
	"step": 1046
	},
	{
	"epoch": 1.587878787878788,
	"grad_norm": 0.6905980706214905,
	"learning_rate": 5.642482624759672e-07,
	"loss": 2.6128,
	"num_input_tokens_seen": 5268264,
	"step": 1048
	},
	{
	"epoch": 1.5909090909090908,
	"grad_norm": 0.555060088634491,
	"learning_rate": 5.619264277045634e-07,
	"loss": 2.5484,
	"num_input_tokens_seen": 5280432,
	"step": 1050
	},
	{
	"epoch": 1.593939393939394,
	"grad_norm": 0.6293858289718628,
	"learning_rate": 5.596192716154385e-07,
	"loss": 2.5,
	"num_input_tokens_seen": 5290488,
	"step": 1052
	},
	{
	"epoch": 1.596969696969697,
	"grad_norm": 0.9078196883201599,
	"learning_rate": 5.573268472839937e-07,
	"loss": 2.4814,
	"num_input_tokens_seen": 5299536,
	"step": 1054
	},
	{
	"epoch": 1.6,
	"grad_norm": 0.6941189765930176,
	"learning_rate": 5.550492074467317e-07,
	"loss": 2.4972,
	"num_input_tokens_seen": 5309544,
	"step": 1056
	},
	{
	"epoch": 1.603030303030303,
	"grad_norm": 0.6833639740943909,
	"learning_rate": 5.527864045000421e-07,
	"loss": 2.5041,
	"num_input_tokens_seen": 5319024,
	"step": 1058
	},
	{
	"epoch": 1.606060606060606,
	"grad_norm": 0.6468996405601501,
	"learning_rate": 5.505384904989965e-07,
	"loss": 2.3262,
	"num_input_tokens_seen": 5329752,
	"step": 1060
	},
	{
	"epoch": 1.606060606060606,
	"eval_loss": 2.327099323272705,
	"eval_runtime": 5.8238,
	"eval_samples_per_second": 3.434,
	"eval_steps_per_second": 3.434,
	"num_input_tokens_seen": 5329752,
	"step": 1060
	},
	{
	"epoch": 1.6090909090909091,
	"grad_norm": 0.7046562433242798,
	"learning_rate": 5.483055171561511e-07,
	"loss": 2.2181,
	"num_input_tokens_seen": 5340552,
	"step": 1062
	},
	{
	"epoch": 1.612121212121212,
	"grad_norm": 0.48583197593688965,
	"learning_rate": 5.460875358403565e-07,
	"loss": 2.3349,
	"num_input_tokens_seen": 5350320,
	"step": 1064
	},
	{
	"epoch": 1.6151515151515152,
	"grad_norm": 0.6768611073493958,
	"learning_rate": 5.438845975755772e-07,
	"loss": 2.4784,
	"num_input_tokens_seen": 5356608,
	"step": 1066
	},
	{
	"epoch": 1.6181818181818182,
	"grad_norm": 0.6648526191711426,
	"learning_rate": 5.416967530397164e-07,
	"loss": 2.2265,
	"num_input_tokens_seen": 5366568,
	"step": 1068
	},
	{
	"epoch": 1.621212121212121,
	"grad_norm": 0.5271417498588562,
	"learning_rate": 5.395240525634511e-07,
	"loss": 2.4877,
	"num_input_tokens_seen": 5378856,
	"step": 1070
	},
	{
	"epoch": 1.6242424242424243,
	"grad_norm": 0.5848326086997986,
	"learning_rate": 5.37366546129074e-07,
	"loss": 2.3169,
	"num_input_tokens_seen": 5391120,
	"step": 1072
	},
	{
	"epoch": 1.6272727272727274,
	"grad_norm": 0.5480791330337524,
	"learning_rate": 5.35224283369343e-07,
	"loss": 2.4456,
	"num_input_tokens_seen": 5398752,
	"step": 1074
	},
	{
	"epoch": 1.6303030303030304,
	"grad_norm": 0.47689610719680786,
	"learning_rate": 5.330973135663411e-07,
	"loss": 2.5053,
	"num_input_tokens_seen": 5411040,
	"step": 1076
	},
	{
	"epoch": 1.6333333333333333,
	"grad_norm": 0.5623081922531128,
	"learning_rate": 5.309856856503409e-07,
	"loss": 2.4062,
	"num_input_tokens_seen": 5422848,
	"step": 1078
	},
	{
	"epoch": 1.6363636363636362,
	"grad_norm": 0.539359450340271,
	"learning_rate": 5.2888944819868e-07,
	"loss": 2.2278,
	"num_input_tokens_seen": 5435136,
	"step": 1080
	},
	{
	"epoch": 1.6363636363636362,
	"eval_loss": 2.32759428024292,
	"eval_runtime": 5.8229,
	"eval_samples_per_second": 3.435,
	"eval_steps_per_second": 3.435,
	"num_input_tokens_seen": 5435136,
	"step": 1080
	},
	{
	"epoch": 1.6393939393939394,
	"grad_norm": 0.5953027009963989,
	"learning_rate": 5.26808649434643e-07,
	"loss": 2.3976,
	"num_input_tokens_seen": 5445672,
	"step": 1082
	},
	{
	"epoch": 1.6424242424242426,
	"grad_norm": 0.5432310700416565,
	"learning_rate": 5.247433372263522e-07,
	"loss": 2.4648,
	"num_input_tokens_seen": 5456640,
	"step": 1084
	},
	{
	"epoch": 1.6454545454545455,
	"grad_norm": 0.5668439865112305,
	"learning_rate": 5.226935590856675e-07,
	"loss": 2.2962,
	"num_input_tokens_seen": 5465976,
	"step": 1086
	},
	{
	"epoch": 1.6484848484848484,
	"grad_norm": 0.5815810561180115,
	"learning_rate": 5.20659362167091e-07,
	"loss": 2.3107,
	"num_input_tokens_seen": 5477016,
	"step": 1088
	},
	{
	"epoch": 1.6515151515151514,
	"grad_norm": 0.5914052724838257,
	"learning_rate": 5.186407932666846e-07,
	"loss": 2.2394,
	"num_input_tokens_seen": 5487504,
	"step": 1090
	},
	{
	"epoch": 1.6545454545454545,
	"grad_norm": 0.8601570129394531,
	"learning_rate": 5.166378988209924e-07,
	"loss": 2.6481,
	"num_input_tokens_seen": 5496600,
	"step": 1092
	},
	{
	"epoch": 1.6575757575757577,
	"grad_norm": 0.6369432210922241,
	"learning_rate": 5.146507249059727e-07,
	"loss": 2.5754,
	"num_input_tokens_seen": 5506416,
	"step": 1094
	},
	{
	"epoch": 1.6606060606060606,
	"grad_norm": 0.712243914604187,
	"learning_rate": 5.126793172359373e-07,
	"loss": 2.3295,
	"num_input_tokens_seen": 5514600,
	"step": 1096
	},
	{
	"epoch": 1.6636363636363636,
	"grad_norm": 0.6746931672096252,
	"learning_rate": 5.107237211625016e-07,
	"loss": 2.3752,
	"num_input_tokens_seen": 5522616,
	"step": 1098
	},
	{
	"epoch": 1.6666666666666665,
	"grad_norm": 0.5909104943275452,
	"learning_rate": 5.087839816735391e-07,
	"loss": 2.2484,
	"num_input_tokens_seen": 5533488,
	"step": 1100
	},
	{
	"epoch": 1.6666666666666665,
	"eval_loss": 2.326948642730713,
	"eval_runtime": 5.8207,
	"eval_samples_per_second": 3.436,
	"eval_steps_per_second": 3.436,
	"num_input_tokens_seen": 5533488,
	"step": 1100
	},
	{
	"epoch": 1.6696969696969697,
	"grad_norm": 0.578524112701416,
	"learning_rate": 5.068601433921479e-07,
	"loss": 2.392,
	"num_input_tokens_seen": 5544864,
	"step": 1102
	},
	{
	"epoch": 1.6727272727272728,
	"grad_norm": 0.6614283323287964,
	"learning_rate": 5.04952250575624e-07,
	"loss": 2.4998,
	"num_input_tokens_seen": 5555928,
	"step": 1104
	},
	{
	"epoch": 1.6757575757575758,
	"grad_norm": 0.5955278277397156,
	"learning_rate": 5.030603471144432e-07,
	"loss": 2.3944,
	"num_input_tokens_seen": 5567088,
	"step": 1106
	},
	{
	"epoch": 1.6787878787878787,
	"grad_norm": 0.5927826166152954,
	"learning_rate": 5.011844765312504e-07,
	"loss": 2.487,
	"num_input_tokens_seen": 5578128,
	"step": 1108
	},
	{
	"epoch": 1.6818181818181817,
	"grad_norm": 0.6427227258682251,
	"learning_rate": 4.9932468197986e-07,
	"loss": 2.5279,
	"num_input_tokens_seen": 5588952,
	"step": 1110
	},
	{
	"epoch": 1.6848484848484848,
	"grad_norm": 0.49643516540527344,
	"learning_rate": 4.974810062442615e-07,
	"loss": 2.4558,
	"num_input_tokens_seen": 5599992,
	"step": 1112
	},
	{
	"epoch": 1.687878787878788,
	"grad_norm": 0.5617672204971313,
	"learning_rate": 4.956534917376373e-07,
	"loss": 2.3407,
	"num_input_tokens_seen": 5611752,
	"step": 1114
	},
	{
	"epoch": 1.690909090909091,
	"grad_norm": 0.7746953368186951,
	"learning_rate": 4.938421805013844e-07,
	"loss": 2.4067,
	"num_input_tokens_seen": 5619072,
	"step": 1116
	},
	{
	"epoch": 1.6939393939393939,
	"grad_norm": 0.6146767139434814,
	"learning_rate": 4.920471142041496e-07,
	"loss": 2.2224,
	"num_input_tokens_seen": 5629824,
	"step": 1118
	},
	{
	"epoch": 1.696969696969697,
	"grad_norm": 0.7500237822532654,
	"learning_rate": 4.902683341408698e-07,
	"loss": 2.4764,
	"num_input_tokens_seen": 5639376,
	"step": 1120
	},
	{
	"epoch": 1.696969696969697,
	"eval_loss": 2.327069044113159,
	"eval_runtime": 5.8204,
	"eval_samples_per_second": 3.436,
	"eval_steps_per_second": 3.436,
	"num_input_tokens_seen": 5639376,
	"step": 1120
	},
	{
	"epoch": 1.7,
	"grad_norm": 0.512405276298523,
	"learning_rate": 4.88505881231822e-07,
	"loss": 2.4383,
	"num_input_tokens_seen": 5649624,
	"step": 1122
	},
	{
	"epoch": 1.7030303030303031,
	"grad_norm": 0.6521934866905212,
	"learning_rate": 4.867597960216823e-07,
	"loss": 2.3752,
	"num_input_tokens_seen": 5659800,
	"step": 1124
	},
	{
	"epoch": 1.706060606060606,
	"grad_norm": 0.5437342524528503,
	"learning_rate": 4.85030118678593e-07,
	"loss": 2.2427,
	"num_input_tokens_seen": 5668296,
	"step": 1126
	},
	{
	"epoch": 1.709090909090909,
	"grad_norm": 0.5007622838020325,
	"learning_rate": 4.833168889932384e-07,
	"loss": 2.3027,
	"num_input_tokens_seen": 5678832,
	"step": 1128
	},
	{
	"epoch": 1.7121212121212122,
	"grad_norm": 0.9229590892791748,
	"learning_rate": 4.816201463779299e-07,
	"loss": 2.4966,
	"num_input_tokens_seen": 5686872,
	"step": 1130
	},
	{
	"epoch": 1.7151515151515153,
	"grad_norm": 0.7598445415496826,
	"learning_rate": 4.799399298656985e-07,
	"loss": 2.5635,
	"num_input_tokens_seen": 5697216,
	"step": 1132
	},
	{
	"epoch": 1.7181818181818183,
	"grad_norm": 0.5250843167304993,
	"learning_rate": 4.782762781093983e-07,
	"loss": 2.3295,
	"num_input_tokens_seen": 5706840,
	"step": 1134
	},
	{
	"epoch": 1.7212121212121212,
	"grad_norm": 0.7306003570556641,
	"learning_rate": 4.7662922938081575e-07,
	"loss": 2.3937,
	"num_input_tokens_seen": 5715816,
	"step": 1136
	},
	{
	"epoch": 1.7242424242424241,
	"grad_norm": 0.7364092469215393,
	"learning_rate": 4.7499882156978934e-07,
	"loss": 2.3815,
	"num_input_tokens_seen": 5724456,
	"step": 1138
	},
	{
	"epoch": 1.7272727272727273,
	"grad_norm": 0.6539096236228943,
	"learning_rate": 4.7338509218333966e-07,
	"loss": 2.3489,
	"num_input_tokens_seen": 5732496,
	"step": 1140
	},
	{
	"epoch": 1.7272727272727273,
	"eval_loss": 2.326911687850952,
	"eval_runtime": 5.8239,
	"eval_samples_per_second": 3.434,
	"eval_steps_per_second": 3.434,
	"num_input_tokens_seen": 5732496,
	"step": 1140
	},
	{
	"epoch": 1.7303030303030305,
	"grad_norm": 0.6865965127944946,
	"learning_rate": 4.717880783448046e-07,
	"loss": 2.2154,
	"num_input_tokens_seen": 5744784,
	"step": 1142
	},
	{
	"epoch": 1.7333333333333334,
	"grad_norm": 0.6450785994529724,
	"learning_rate": 4.7020781679298636e-07,
	"loss": 2.5799,
	"num_input_tokens_seen": 5752872,
	"step": 1144
	},
	{
	"epoch": 1.7363636363636363,
	"grad_norm": 0.6152123808860779,
	"learning_rate": 4.6864434388130604e-07,
	"loss": 2.4051,
	"num_input_tokens_seen": 5762880,
	"step": 1146
	},
	{
	"epoch": 1.7393939393939393,
	"grad_norm": 0.5718716382980347,
	"learning_rate": 4.6709769557696724e-07,
	"loss": 2.2532,
	"num_input_tokens_seen": 5773632,
	"step": 1148
	},
	{
	"epoch": 1.7424242424242424,
	"grad_norm": 0.6017091274261475,
	"learning_rate": 4.6556790746012866e-07,
	"loss": 2.2363,
	"num_input_tokens_seen": 5784960,
	"step": 1150
	},
	{
	"epoch": 1.7454545454545456,
	"grad_norm": 0.5728634595870972,
	"learning_rate": 4.6405501472308593e-07,
	"loss": 2.264,
	"num_input_tokens_seen": 5794392,
	"step": 1152
	},
	{
	"epoch": 1.7484848484848485,
	"grad_norm": 0.7092226147651672,
	"learning_rate": 4.6255905216946174e-07,
	"loss": 2.6636,
	"num_input_tokens_seen": 5801088,
	"step": 1154
	},
	{
	"epoch": 1.7515151515151515,
	"grad_norm": 0.6607272028923035,
	"learning_rate": 4.6108005421340517e-07,
	"loss": 2.3849,
	"num_input_tokens_seen": 5810232,
	"step": 1156
	},
	{
	"epoch": 1.7545454545454544,
	"grad_norm": 0.6151024699211121,
	"learning_rate": 4.5961805487879993e-07,
	"loss": 2.1526,
	"num_input_tokens_seen": 5819976,
	"step": 1158
	},
	{
	"epoch": 1.7575757575757576,
	"grad_norm": 0.5664975047111511,
	"learning_rate": 4.581730877984817e-07,
	"loss": 2.3448,
	"num_input_tokens_seen": 5831304,
	"step": 1160
	},
	{
	"epoch": 1.7575757575757576,
	"eval_loss": 2.326674699783325,
	"eval_runtime": 5.817,
	"eval_samples_per_second": 3.438,
	"eval_steps_per_second": 3.438,
	"num_input_tokens_seen": 5831304,
	"step": 1160
	},
	{
	"epoch": 1.7606060606060607,
	"grad_norm": 0.6864150166511536,
	"learning_rate": 4.567451862134651e-07,
	"loss": 2.2982,
	"num_input_tokens_seen": 5841792,
	"step": 1162
	},
	{
	"epoch": 1.7636363636363637,
	"grad_norm": 0.5514176487922668,
	"learning_rate": 4.553343829721776e-07,
	"loss": 2.296,
	"num_input_tokens_seen": 5852640,
	"step": 1164
	},
	{
	"epoch": 1.7666666666666666,
	"grad_norm": 0.5415042638778687,
	"learning_rate": 4.539407105297053e-07,
	"loss": 2.3767,
	"num_input_tokens_seen": 5864328,
	"step": 1166
	},
	{
	"epoch": 1.7696969696969695,
	"grad_norm": 0.7088015675544739,
	"learning_rate": 4.5256420094704516e-07,
	"loss": 2.1989,
	"num_input_tokens_seen": 5873424,
	"step": 1168
	},
	{
	"epoch": 1.7727272727272727,
	"grad_norm": 0.5956241488456726,
	"learning_rate": 4.5120488589036816e-07,
	"loss": 2.2727,
	"num_input_tokens_seen": 5881608,
	"step": 1170
	},
	{
	"epoch": 1.7757575757575759,
	"grad_norm": 0.6199578046798706,
	"learning_rate": 4.498627966302905e-07,
	"loss": 2.3122,
	"num_input_tokens_seen": 5892984,
	"step": 1172
	},
	{
	"epoch": 1.7787878787878788,
	"grad_norm": 0.6161043643951416,
	"learning_rate": 4.485379640411545e-07,
	"loss": 2.607,
	"num_input_tokens_seen": 5903832,
	"step": 1174
	},
	{
	"epoch": 1.7818181818181817,
	"grad_norm": 0.7086969017982483,
	"learning_rate": 4.4723041860031803e-07,
	"loss": 2.444,
	"num_input_tokens_seen": 5914224,
	"step": 1176
	},
	{
	"epoch": 1.7848484848484847,
	"grad_norm": 0.5110089182853699,
	"learning_rate": 4.459401903874538e-07,
	"loss": 2.462,
	"num_input_tokens_seen": 5925768,
	"step": 1178
	},
	{
	"epoch": 1.7878787878787878,
	"grad_norm": 0.6780450344085693,
	"learning_rate": 4.4466730908385664e-07,
	"loss": 2.4997,
	"num_input_tokens_seen": 5934528,
	"step": 1180
	},
	{
	"epoch": 1.7878787878787878,
	"eval_loss": 2.3263440132141113,
	"eval_runtime": 5.8197,
	"eval_samples_per_second": 3.437,
	"eval_steps_per_second": 3.437,
	"num_input_tokens_seen": 5934528,
	"step": 1180
	},
	{
	"epoch": 1.790909090909091,
	"grad_norm": 0.6635234355926514,
	"learning_rate": 4.434118039717616e-07,
	"loss": 2.2541,
	"num_input_tokens_seen": 5944224,
	"step": 1182
	},
	{
	"epoch": 1.793939393939394,
	"grad_norm": 0.6881716251373291,
	"learning_rate": 4.4217370393366995e-07,
	"loss": 2.2483,
	"num_input_tokens_seen": 5954688,
	"step": 1184
	},
	{
	"epoch": 1.7969696969696969,
	"grad_norm": 1.0131621360778809,
	"learning_rate": 4.40953037451684e-07,
	"loss": 2.403,
	"num_input_tokens_seen": 5964072,
	"step": 1186
	},
	{
	"epoch": 1.8,
	"grad_norm": 0.5744723677635193,
	"learning_rate": 4.3974983260685345e-07,
	"loss": 2.5772,
	"num_input_tokens_seen": 5975184,
	"step": 1188
	},
	{
	"epoch": 1.803030303030303,
	"grad_norm": 0.6319069266319275,
	"learning_rate": 4.3856411707852814e-07,
	"loss": 2.3809,
	"num_input_tokens_seen": 5981496,
	"step": 1190
	},
	{
	"epoch": 1.8060606060606061,
	"grad_norm": 0.49835190176963806,
	"learning_rate": 4.373959181437216e-07,
	"loss": 2.3452,
	"num_input_tokens_seen": 5993088,
	"step": 1192
	},
	{
	"epoch": 1.809090909090909,
	"grad_norm": 0.825423538684845,
	"learning_rate": 4.3624526267648363e-07,
	"loss": 2.2971,
	"num_input_tokens_seen": 6003864,
	"step": 1194
	},
	{
	"epoch": 1.812121212121212,
	"grad_norm": 0.5639837384223938,
	"learning_rate": 4.351121771472823e-07,
	"loss": 2.1717,
	"num_input_tokens_seen": 6013824,
	"step": 1196
	},
	{
	"epoch": 1.8151515151515152,
	"grad_norm": 0.6175968050956726,
	"learning_rate": 4.3399668762239446e-07,
	"loss": 2.3326,
	"num_input_tokens_seen": 6024120,
	"step": 1198
	},
	{
	"epoch": 1.8181818181818183,
	"grad_norm": 0.5506427884101868,
	"learning_rate": 4.328988197633066e-07,
	"loss": 2.311,
	"num_input_tokens_seen": 6035544,
	"step": 1200
	},
	{
	"epoch": 1.8181818181818183,
	"eval_loss": 2.326775550842285,
	"eval_runtime": 5.8185,
	"eval_samples_per_second": 3.437,
	"eval_steps_per_second": 3.437,
	"num_input_tokens_seen": 6035544,
	"step": 1200
	},
	{
	"epoch": 1.8212121212121213,
	"grad_norm": 0.6879149675369263,
	"learning_rate": 4.3181859882612426e-07,
	"loss": 2.4867,
	"num_input_tokens_seen": 6047520,
	"step": 1202
	},
	{
	"epoch": 1.8242424242424242,
	"grad_norm": 0.9205613136291504,
	"learning_rate": 4.307560496609911e-07,
	"loss": 2.5415,
	"num_input_tokens_seen": 6055488,
	"step": 1204
	},
	{
	"epoch": 1.8272727272727272,
	"grad_norm": 0.7125353813171387,
	"learning_rate": 4.297111967115171e-07,
	"loss": 2.3684,
	"num_input_tokens_seen": 6063720,
	"step": 1206
	},
	{
	"epoch": 1.8303030303030303,
	"grad_norm": 0.7578244805335999,
	"learning_rate": 4.286840640142166e-07,
	"loss": 2.1882,
	"num_input_tokens_seen": 6071664,
	"step": 1208
	},
	{
	"epoch": 1.8333333333333335,
	"grad_norm": 0.5936377644538879,
	"learning_rate": 4.2767467519795497e-07,
	"loss": 2.4383,
	"num_input_tokens_seen": 6081360,
	"step": 1210
	},
	{
	"epoch": 1.8363636363636364,
	"grad_norm": 0.5857051610946655,
	"learning_rate": 4.2668305348340495e-07,
	"loss": 2.2313,
	"num_input_tokens_seen": 6090624,
	"step": 1212
	},
	{
	"epoch": 1.8393939393939394,
	"grad_norm": 0.5357300639152527,
	"learning_rate": 4.2570922168251294e-07,
	"loss": 2.3837,
	"num_input_tokens_seen": 6100944,
	"step": 1214
	},
	{
	"epoch": 1.8424242424242423,
	"grad_norm": 0.8577349185943604,
	"learning_rate": 4.2475320219797406e-07,
	"loss": 2.3874,
	"num_input_tokens_seen": 6108792,
	"step": 1216
	},
	{
	"epoch": 1.8454545454545455,
	"grad_norm": 0.5311655402183533,
	"learning_rate": 4.2381501702271623e-07,
	"loss": 2.3853,
	"num_input_tokens_seen": 6121080,
	"step": 1218
	},
	{
	"epoch": 1.8484848484848486,
	"grad_norm": 0.5314241051673889,
	"learning_rate": 4.228946877393953e-07,
	"loss": 2.3858,
	"num_input_tokens_seen": 6131112,
	"step": 1220
	},
	{
	"epoch": 1.8484848484848486,
	"eval_loss": 2.3265769481658936,
	"eval_runtime": 5.8173,
	"eval_samples_per_second": 3.438,
	"eval_steps_per_second": 3.438,
	"num_input_tokens_seen": 6131112,
	"step": 1220
	},
	{
	"epoch": 1.8515151515151516,
	"grad_norm": 0.6820886731147766,
	"learning_rate": 4.219922355198972e-07,
	"loss": 2.3291,
	"num_input_tokens_seen": 6141072,
	"step": 1222
	},
	{
	"epoch": 1.8545454545454545,
	"grad_norm": 0.6875143051147461,
	"learning_rate": 4.211076811248524e-07,
	"loss": 2.344,
	"num_input_tokens_seen": 6152040,
	"step": 1224
	},
	{
	"epoch": 1.8575757575757574,
	"grad_norm": 0.6124435067176819,
	"learning_rate": 4.2024104490315696e-07,
	"loss": 2.275,
	"num_input_tokens_seen": 6163368,
	"step": 1226
	},
	{
	"epoch": 1.8606060606060606,
	"grad_norm": 0.6159326434135437,
	"learning_rate": 4.1939234679150516e-07,
	"loss": 2.4138,
	"num_input_tokens_seen": 6171072,
	"step": 1228
	},
	{
	"epoch": 1.8636363636363638,
	"grad_norm": 0.4833909273147583,
	"learning_rate": 4.185616063139308e-07,
	"loss": 2.2974,
	"num_input_tokens_seen": 6183312,
	"step": 1230
	},
	{
	"epoch": 1.8666666666666667,
	"grad_norm": 0.8235618472099304,
	"learning_rate": 4.177488425813578e-07,
	"loss": 2.4087,
	"num_input_tokens_seen": 6193104,
	"step": 1232
	},
	{
	"epoch": 1.8696969696969696,
	"grad_norm": 0.5075482726097107,
	"learning_rate": 4.1695407429116063e-07,
	"loss": 2.4328,
	"num_input_tokens_seen": 6205392,
	"step": 1234
	},
	{
	"epoch": 1.8727272727272726,
	"grad_norm": 0.5093833208084106,
	"learning_rate": 4.1617731972673466e-07,
	"loss": 2.4412,
	"num_input_tokens_seen": 6215808,
	"step": 1236
	},
	{
	"epoch": 1.8757575757575757,
	"grad_norm": 0.5927122235298157,
	"learning_rate": 4.1541859675707454e-07,
	"loss": 2.2544,
	"num_input_tokens_seen": 6226224,
	"step": 1238
	},
	{
	"epoch": 1.878787878787879,
	"grad_norm": 0.6176667809486389,
	"learning_rate": 4.146779228363644e-07,
	"loss": 2.3602,
	"num_input_tokens_seen": 6235464,
	"step": 1240
	},
	{
	"epoch": 1.878787878787879,
	"eval_loss": 2.3264036178588867,
	"eval_runtime": 5.821,
	"eval_samples_per_second": 3.436,
	"eval_steps_per_second": 3.436,
	"num_input_tokens_seen": 6235464,
	"step": 1240
	},
	{
	"epoch": 1.8818181818181818,
	"grad_norm": 0.5281220078468323,
	"learning_rate": 4.139553150035751e-07,
	"loss": 2.439,
	"num_input_tokens_seen": 6245400,
	"step": 1242
	},
	{
	"epoch": 1.8848484848484848,
	"grad_norm": 0.6205955147743225,
	"learning_rate": 4.1325078988207303e-07,
	"loss": 2.466,
	"num_input_tokens_seen": 6252768,
	"step": 1244
	},
	{
	"epoch": 1.887878787878788,
	"grad_norm": 0.5631701350212097,
	"learning_rate": 4.1256436367923777e-07,
	"loss": 2.5193,
	"num_input_tokens_seen": 6264432,
	"step": 1246
	},
	{
	"epoch": 1.8909090909090909,
	"grad_norm": 0.6673572659492493,
	"learning_rate": 4.118960521860884e-07,
	"loss": 2.4064,
	"num_input_tokens_seen": 6273264,
	"step": 1248
	},
	{
	"epoch": 1.893939393939394,
	"grad_norm": 0.6367799639701843,
	"learning_rate": 4.1124587077692115e-07,
	"loss": 2.2931,
	"num_input_tokens_seen": 6284112,
	"step": 1250
	},
	{
	"epoch": 1.896969696969697,
	"grad_norm": 1.2654261589050293,
	"learning_rate": 4.106138344089554e-07,
	"loss": 2.4058,
	"num_input_tokens_seen": 6292248,
	"step": 1252
	},
	{
	"epoch": 1.9,
	"grad_norm": 0.4898473024368286,
	"learning_rate": 4.0999995762198936e-07,
	"loss": 2.4485,
	"num_input_tokens_seen": 6302352,
	"step": 1254
	},
	{
	"epoch": 1.903030303030303,
	"grad_norm": 0.5527143478393555,
	"learning_rate": 4.094042545380659e-07,
	"loss": 2.1889,
	"num_input_tokens_seen": 6311712,
	"step": 1256
	},
	{
	"epoch": 1.906060606060606,
	"grad_norm": 0.6194308996200562,
	"learning_rate": 4.088267388611474e-07,
	"loss": 2.3617,
	"num_input_tokens_seen": 6323304,
	"step": 1258
	},
	{
	"epoch": 1.9090909090909092,
	"grad_norm": 0.5801293849945068,
	"learning_rate": 4.082674238768009e-07,
	"loss": 2.2347,
	"num_input_tokens_seen": 6335304,
	"step": 1260
	},
	{
	"epoch": 1.9090909090909092,
	"eval_loss": 2.326760768890381,
	"eval_runtime": 5.8194,
	"eval_samples_per_second": 3.437,
	"eval_steps_per_second": 3.437,
	"num_input_tokens_seen": 6335304,
	"step": 1260
	},
	{
	"epoch": 1.912121212121212,
	"grad_norm": 0.638659656047821,
	"learning_rate": 4.0772632245189193e-07,
	"loss": 2.2904,
	"num_input_tokens_seen": 6345624,
	"step": 1262
	},
	{
	"epoch": 1.915151515151515,
	"grad_norm": 0.5953812003135681,
	"learning_rate": 4.0720344703428906e-07,
	"loss": 2.3719,
	"num_input_tokens_seen": 6355632,
	"step": 1264
	},
	{
	"epoch": 1.9181818181818182,
	"grad_norm": 0.5857142806053162,
	"learning_rate": 4.066988096525772e-07,
	"loss": 2.3489,
	"num_input_tokens_seen": 6363840,
	"step": 1266
	},
	{
	"epoch": 1.9212121212121214,
	"grad_norm": 0.5746711492538452,
	"learning_rate": 4.062124219157808e-07,
	"loss": 2.3433,
	"num_input_tokens_seen": 6375000,
	"step": 1268
	},
	{
	"epoch": 1.9242424242424243,
	"grad_norm": 0.6761659383773804,
	"learning_rate": 4.057442950130972e-07,
	"loss": 2.4374,
	"num_input_tokens_seen": 6385632,
	"step": 1270
	},
	{
	"epoch": 1.9272727272727272,
	"grad_norm": 0.4828651249408722,
	"learning_rate": 4.05294439713639e-07,
	"loss": 2.3613,
	"num_input_tokens_seen": 6397728,
	"step": 1272
	},
	{
	"epoch": 1.9303030303030302,
	"grad_norm": 0.6450832486152649,
	"learning_rate": 4.048628663661859e-07,
	"loss": 2.1642,
	"num_input_tokens_seen": 6409512,
	"step": 1274
	},
	{
	"epoch": 1.9333333333333333,
	"grad_norm": 0.6221877336502075,
	"learning_rate": 4.044495848989475e-07,
	"loss": 2.4558,
	"num_input_tokens_seen": 6419664,
	"step": 1276
	},
	{
	"epoch": 1.9363636363636365,
	"grad_norm": 0.825742781162262,
	"learning_rate": 4.040546048193343e-07,
	"loss": 2.5869,
	"num_input_tokens_seen": 6428712,
	"step": 1278
	},
	{
	"epoch": 1.9393939393939394,
	"grad_norm": 0.69305020570755,
	"learning_rate": 4.0367793521373886e-07,
	"loss": 2.577,
	"num_input_tokens_seen": 6435960,
	"step": 1280
	},
	{
	"epoch": 1.9393939393939394,
	"eval_loss": 2.3265655040740967,
	"eval_runtime": 5.8193,
	"eval_samples_per_second": 3.437,
	"eval_steps_per_second": 3.437,
	"num_input_tokens_seen": 6435960,
	"step": 1280
	},
	{
	"epoch": 1.9424242424242424,
	"grad_norm": 0.51558518409729,
	"learning_rate": 4.0331958474732744e-07,
	"loss": 2.4398,
	"num_input_tokens_seen": 6446952,
	"step": 1282
	},
	{
	"epoch": 1.9454545454545453,
	"grad_norm": 0.7710928916931152,
	"learning_rate": 4.0297956166384e-07,
	"loss": 2.3546,
	"num_input_tokens_seen": 6454440,
	"step": 1284
	},
	{
	"epoch": 1.9484848484848485,
	"grad_norm": 0.6520776748657227,
	"learning_rate": 4.0265787378540076e-07,
	"loss": 2.2851,
	"num_input_tokens_seen": 6465888,
	"step": 1286
	},
	{
	"epoch": 1.9515151515151516,
	"grad_norm": 0.7156710624694824,
	"learning_rate": 4.023545285123386e-07,
	"loss": 2.501,
	"num_input_tokens_seen": 6474384,
	"step": 1288
	},
	{
	"epoch": 1.9545454545454546,
	"grad_norm": 0.5886339545249939,
	"learning_rate": 4.020695328230162e-07,
	"loss": 2.3128,
	"num_input_tokens_seen": 6485712,
	"step": 1290
	},
	{
	"epoch": 1.9575757575757575,
	"grad_norm": 0.5593713521957397,
	"learning_rate": 4.018028932736699e-07,
	"loss": 2.2989,
	"num_input_tokens_seen": 6497160,
	"step": 1292
	},
	{
	"epoch": 1.9606060606060605,
	"grad_norm": 0.5878450870513916,
	"learning_rate": 4.01554615998259e-07,
	"loss": 2.4504,
	"num_input_tokens_seen": 6508920,
	"step": 1294
	},
	{
	"epoch": 1.9636363636363636,
	"grad_norm": 0.5121827721595764,
	"learning_rate": 4.013247067083242e-07,
	"loss": 2.4132,
	"num_input_tokens_seen": 6520176,
	"step": 1296
	},
	{
	"epoch": 1.9666666666666668,
	"grad_norm": 0.49630334973335266,
	"learning_rate": 4.011131706928566e-07,
	"loss": 2.3645,
	"num_input_tokens_seen": 6531528,
	"step": 1298
	},
	{
	"epoch": 1.9696969696969697,
	"grad_norm": 0.543795645236969,
	"learning_rate": 4.0092001281817576e-07,
	"loss": 2.3001,
	"num_input_tokens_seen": 6543816,
	"step": 1300
	},
	{
	"epoch": 1.9696969696969697,
	"eval_loss": 2.3271186351776123,
	"eval_runtime": 5.816,
	"eval_samples_per_second": 3.439,
	"eval_steps_per_second": 3.439,
	"num_input_tokens_seen": 6543816,
	"step": 1300
	},
	{
	"epoch": 1.9727272727272727,
	"grad_norm": 0.8191571235656738,
	"learning_rate": 4.0074523752781806e-07,
	"loss": 2.8758,
	"num_input_tokens_seen": 6552936,
	"step": 1302
	},
	{
	"epoch": 1.9757575757575756,
	"grad_norm": 0.6543108820915222,
	"learning_rate": 4.0058884884243416e-07,
	"loss": 2.3766,
	"num_input_tokens_seen": 6562896,
	"step": 1304
	},
	{
	"epoch": 1.9787878787878788,
	"grad_norm": 0.5305016040802002,
	"learning_rate": 4.004508503596967e-07,
	"loss": 2.3732,
	"num_input_tokens_seen": 6575184,
	"step": 1306
	},
	{
	"epoch": 1.981818181818182,
	"grad_norm": 0.5914813280105591,
	"learning_rate": 4.0033124525421757e-07,
	"loss": 2.3789,
	"num_input_tokens_seen": 6586032,
	"step": 1308
	},
	{
	"epoch": 1.9848484848484849,
	"grad_norm": 0.712382435798645,
	"learning_rate": 4.0023003627747455e-07,
	"loss": 2.2654,
	"num_input_tokens_seen": 6594768,
	"step": 1310
	},
	{
	"epoch": 1.9878787878787878,
	"grad_norm": 0.5054189562797546,
	"learning_rate": 4.0014722575774835e-07,
	"loss": 2.4605,
	"num_input_tokens_seen": 6604728,
	"step": 1312
	},
	{
	"epoch": 1.990909090909091,
	"grad_norm": 0.5901520252227783,
	"learning_rate": 4.000828156000692e-07,
	"loss": 2.4816,
	"num_input_tokens_seen": 6616536,
	"step": 1314
	},
	{
	"epoch": 1.993939393939394,
	"grad_norm": 0.7864160537719727,
	"learning_rate": 4.000368072861723e-07,
	"loss": 2.482,
	"num_input_tokens_seen": 6624480,
	"step": 1316
	},
	{
	"epoch": 1.996969696969697,
	"grad_norm": 0.49510428309440613,
	"learning_rate": 4.0000920187446465e-07,
	"loss": 2.45,
	"num_input_tokens_seen": 6636768,
	"step": 1318
	},
	{
	"epoch": 2.0,
	"grad_norm": 0.6357753872871399,
	"learning_rate": 4e-07,
	"loss": 2.2129,
	"num_input_tokens_seen": 6646824,
	"step": 1320
	},
	{
	"epoch": 2.0,
	"eval_loss": 2.326845645904541,
	"eval_runtime": 5.8186,
	"eval_samples_per_second": 3.437,
	"eval_steps_per_second": 3.437,
	"num_input_tokens_seen": 6646824,
	"step": 1320
	},
	{
	"epoch": 2.0,
	"num_input_tokens_seen": 6646824,
	"step": 1320,
	"total_flos": 3.059943926859694e+17,
	"train_loss": 2.3998946460810573,
	"train_runtime": 5038.8172,
	"train_samples_per_second": 0.786,
	"train_steps_per_second": 0.262
	}
	],
	"logging_steps": 2,
	"max_steps": 1320,
	"num_input_tokens_seen": 6646824,
	"num_train_epochs": 2,
	"save_steps": 100,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 3.059943926859694e+17,
	"train_batch_size": 3,
	"trial_name": null,
	"trial_params": null
	}