Mistral-DNA-v1-138M-lncRNA / trainer_state.json

Upload 9 files

241c51c verified about 7 hours ago

147 kB

	{
	"best_metric": 6.436838150024414,
	"best_model_checkpoint": "./results/models/checkpoint-434265",
	"epoch": 17.0,
	"eval_steps": 500,
	"global_step": 434265,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.019573302016050106,
	"grad_norm": 0.59765625,
	"learning_rate": 0.000999608533959679,
	"loss": 7.0053,
	"step": 500
	},
	{
	"epoch": 0.03914660403210021,
	"grad_norm": 0.625,
	"learning_rate": 0.000999217067919358,
	"loss": 6.8806,
	"step": 1000
	},
	{
	"epoch": 0.058719906048150326,
	"grad_norm": 0.79296875,
	"learning_rate": 0.0009988256018790371,
	"loss": 6.8512,
	"step": 1500
	},
	{
	"epoch": 0.07829320806420043,
	"grad_norm": 4.4375,
	"learning_rate": 0.000998434135838716,
	"loss": 6.8494,
	"step": 2000
	},
	{
	"epoch": 0.09786651008025053,
	"grad_norm": 1.3203125,
	"learning_rate": 0.000998042669798395,
	"loss": 6.8296,
	"step": 2500
	},
	{
	"epoch": 0.11743981209630065,
	"grad_norm": 1.7265625,
	"learning_rate": 0.000997651203758074,
	"loss": 6.8209,
	"step": 3000
	},
	{
	"epoch": 0.13701311411235076,
	"grad_norm": 0.93359375,
	"learning_rate": 0.0009972597377177531,
	"loss": 6.8119,
	"step": 3500
	},
	{
	"epoch": 0.15658641612840085,
	"grad_norm": 0.95703125,
	"learning_rate": 0.000996868271677432,
	"loss": 6.8096,
	"step": 4000
	},
	{
	"epoch": 0.17615971814445097,
	"grad_norm": 1.0546875,
	"learning_rate": 0.0009964768056371109,
	"loss": 6.7987,
	"step": 4500
	},
	{
	"epoch": 0.19573302016050106,
	"grad_norm": 0.94921875,
	"learning_rate": 0.00099608533959679,
	"loss": 6.7946,
	"step": 5000
	},
	{
	"epoch": 0.21530632217655118,
	"grad_norm": 2.34375,
	"learning_rate": 0.000995693873556469,
	"loss": 6.7825,
	"step": 5500
	},
	{
	"epoch": 0.2348796241926013,
	"grad_norm": 0.94140625,
	"learning_rate": 0.000995302407516148,
	"loss": 6.7724,
	"step": 6000
	},
	{
	"epoch": 0.2544529262086514,
	"grad_norm": 0.8671875,
	"learning_rate": 0.0009949109414758269,
	"loss": 6.7732,
	"step": 6500
	},
	{
	"epoch": 0.2740262282247015,
	"grad_norm": 1.3671875,
	"learning_rate": 0.000994519475435506,
	"loss": 6.7652,
	"step": 7000
	},
	{
	"epoch": 0.29359953024075164,
	"grad_norm": 1.046875,
	"learning_rate": 0.000994128009395185,
	"loss": 6.7589,
	"step": 7500
	},
	{
	"epoch": 0.3131728322568017,
	"grad_norm": 0.96484375,
	"learning_rate": 0.000993736543354864,
	"loss": 6.7583,
	"step": 8000
	},
	{
	"epoch": 0.3327461342728518,
	"grad_norm": 1.5234375,
	"learning_rate": 0.0009933450773145429,
	"loss": 6.7515,
	"step": 8500
	},
	{
	"epoch": 0.35231943628890194,
	"grad_norm": 2.234375,
	"learning_rate": 0.000992953611274222,
	"loss": 6.7467,
	"step": 9000
	},
	{
	"epoch": 0.37189273830495206,
	"grad_norm": 1.46875,
	"learning_rate": 0.000992562145233901,
	"loss": 6.7366,
	"step": 9500
	},
	{
	"epoch": 0.39146604032100213,
	"grad_norm": 1.1484375,
	"learning_rate": 0.00099217067919358,
	"loss": 6.7365,
	"step": 10000
	},
	{
	"epoch": 0.41103934233705225,
	"grad_norm": 1.4375,
	"learning_rate": 0.000991779213153259,
	"loss": 6.7253,
	"step": 10500
	},
	{
	"epoch": 0.43061264435310237,
	"grad_norm": 0.87109375,
	"learning_rate": 0.000991387747112938,
	"loss": 6.7356,
	"step": 11000
	},
	{
	"epoch": 0.4501859463691525,
	"grad_norm": 1.484375,
	"learning_rate": 0.000990996281072617,
	"loss": 6.7177,
	"step": 11500
	},
	{
	"epoch": 0.4697592483852026,
	"grad_norm": 3.15625,
	"learning_rate": 0.000990604815032296,
	"loss": 6.7195,
	"step": 12000
	},
	{
	"epoch": 0.4893325504012527,
	"grad_norm": 0.9140625,
	"learning_rate": 0.000990213348991975,
	"loss": 6.7202,
	"step": 12500
	},
	{
	"epoch": 0.5089058524173028,
	"grad_norm": 1.046875,
	"learning_rate": 0.000989821882951654,
	"loss": 6.7183,
	"step": 13000
	},
	{
	"epoch": 0.5284791544333529,
	"grad_norm": 0.91015625,
	"learning_rate": 0.000989430416911333,
	"loss": 6.7186,
	"step": 13500
	},
	{
	"epoch": 0.548052456449403,
	"grad_norm": 1.4765625,
	"learning_rate": 0.000989038950871012,
	"loss": 6.7221,
	"step": 14000
	},
	{
	"epoch": 0.5676257584654532,
	"grad_norm": 1.3515625,
	"learning_rate": 0.000988647484830691,
	"loss": 6.7046,
	"step": 14500
	},
	{
	"epoch": 0.5871990604815033,
	"grad_norm": 1.1640625,
	"learning_rate": 0.00098825601879037,
	"loss": 6.7078,
	"step": 15000
	},
	{
	"epoch": 0.6067723624975533,
	"grad_norm": 1.109375,
	"learning_rate": 0.000987864552750049,
	"loss": 6.7063,
	"step": 15500
	},
	{
	"epoch": 0.6263456645136034,
	"grad_norm": 4.8125,
	"learning_rate": 0.000987473086709728,
	"loss": 6.6989,
	"step": 16000
	},
	{
	"epoch": 0.6459189665296535,
	"grad_norm": 1.3125,
	"learning_rate": 0.000987081620669407,
	"loss": 6.6951,
	"step": 16500
	},
	{
	"epoch": 0.6654922685457036,
	"grad_norm": 0.890625,
	"learning_rate": 0.000986690154629086,
	"loss": 6.6921,
	"step": 17000
	},
	{
	"epoch": 0.6850655705617538,
	"grad_norm": 1.7890625,
	"learning_rate": 0.0009862986885887648,
	"loss": 6.6921,
	"step": 17500
	},
	{
	"epoch": 0.7046388725778039,
	"grad_norm": 7.75,
	"learning_rate": 0.000985907222548444,
	"loss": 6.6884,
	"step": 18000
	},
	{
	"epoch": 0.724212174593854,
	"grad_norm": 1.203125,
	"learning_rate": 0.000985515756508123,
	"loss": 6.6841,
	"step": 18500
	},
	{
	"epoch": 0.7437854766099041,
	"grad_norm": 7.46875,
	"learning_rate": 0.000985124290467802,
	"loss": 6.6904,
	"step": 19000
	},
	{
	"epoch": 0.7633587786259542,
	"grad_norm": 1.6171875,
	"learning_rate": 0.0009847328244274808,
	"loss": 6.6847,
	"step": 19500
	},
	{
	"epoch": 0.7829320806420043,
	"grad_norm": 1.125,
	"learning_rate": 0.00098434135838716,
	"loss": 6.6799,
	"step": 20000
	},
	{
	"epoch": 0.8025053826580544,
	"grad_norm": 1.734375,
	"learning_rate": 0.000983949892346839,
	"loss": 6.6814,
	"step": 20500
	},
	{
	"epoch": 0.8220786846741045,
	"grad_norm": 1.4921875,
	"learning_rate": 0.000983558426306518,
	"loss": 6.6767,
	"step": 21000
	},
	{
	"epoch": 0.8416519866901546,
	"grad_norm": 4.5,
	"learning_rate": 0.0009831669602661968,
	"loss": 6.6714,
	"step": 21500
	},
	{
	"epoch": 0.8612252887062047,
	"grad_norm": 1.75,
	"learning_rate": 0.000982775494225876,
	"loss": 6.6725,
	"step": 22000
	},
	{
	"epoch": 0.8807985907222549,
	"grad_norm": 1.7265625,
	"learning_rate": 0.000982384028185555,
	"loss": 6.6646,
	"step": 22500
	},
	{
	"epoch": 0.900371892738305,
	"grad_norm": 2.25,
	"learning_rate": 0.000981992562145234,
	"loss": 6.6636,
	"step": 23000
	},
	{
	"epoch": 0.9199451947543551,
	"grad_norm": 2.203125,
	"learning_rate": 0.0009816010961049128,
	"loss": 6.6506,
	"step": 23500
	},
	{
	"epoch": 0.9395184967704052,
	"grad_norm": 2.96875,
	"learning_rate": 0.000981209630064592,
	"loss": 6.6546,
	"step": 24000
	},
	{
	"epoch": 0.9590917987864552,
	"grad_norm": 1.0546875,
	"learning_rate": 0.000980818164024271,
	"loss": 6.6504,
	"step": 24500
	},
	{
	"epoch": 0.9786651008025053,
	"grad_norm": 3.421875,
	"learning_rate": 0.0009804266979839499,
	"loss": 6.6499,
	"step": 25000
	},
	{
	"epoch": 0.9982384028185555,
	"grad_norm": 3.0625,
	"learning_rate": 0.0009800352319436288,
	"loss": 6.6422,
	"step": 25500
	},
	{
	"epoch": 1.0,
	"eval_loss": 6.643181800842285,
	"eval_runtime": 23.6647,
	"eval_samples_per_second": 84.514,
	"eval_steps_per_second": 5.282,
	"step": 25545
	},
	{
	"epoch": 1.0178117048346056,
	"grad_norm": 1.7578125,
	"learning_rate": 0.0009796437659033079,
	"loss": 6.6453,
	"step": 26000
	},
	{
	"epoch": 1.0373850068506556,
	"grad_norm": 0.84375,
	"learning_rate": 0.000979252299862987,
	"loss": 6.6465,
	"step": 26500
	},
	{
	"epoch": 1.0569583088667058,
	"grad_norm": 2.421875,
	"learning_rate": 0.0009788608338226659,
	"loss": 6.6497,
	"step": 27000
	},
	{
	"epoch": 1.0765316108827558,
	"grad_norm": 1.3515625,
	"learning_rate": 0.0009784693677823448,
	"loss": 6.642,
	"step": 27500
	},
	{
	"epoch": 1.096104912898806,
	"grad_norm": 0.89453125,
	"learning_rate": 0.0009780779017420239,
	"loss": 6.6384,
	"step": 28000
	},
	{
	"epoch": 1.115678214914856,
	"grad_norm": 0.88671875,
	"learning_rate": 0.000977686435701703,
	"loss": 6.6389,
	"step": 28500
	},
	{
	"epoch": 1.1352515169309063,
	"grad_norm": 1.203125,
	"learning_rate": 0.0009772949696613819,
	"loss": 6.6361,
	"step": 29000
	},
	{
	"epoch": 1.1548248189469563,
	"grad_norm": 1.140625,
	"learning_rate": 0.0009769035036210608,
	"loss": 6.6393,
	"step": 29500
	},
	{
	"epoch": 1.1743981209630066,
	"grad_norm": 1.421875,
	"learning_rate": 0.00097651203758074,
	"loss": 6.6413,
	"step": 30000
	},
	{
	"epoch": 1.1939714229790566,
	"grad_norm": 1.421875,
	"learning_rate": 0.0009761205715404189,
	"loss": 6.6334,
	"step": 30500
	},
	{
	"epoch": 1.2135447249951068,
	"grad_norm": 1.390625,
	"learning_rate": 0.0009757291055000979,
	"loss": 6.6316,
	"step": 31000
	},
	{
	"epoch": 1.2331180270111568,
	"grad_norm": 2.015625,
	"learning_rate": 0.000975337639459777,
	"loss": 6.6257,
	"step": 31500
	},
	{
	"epoch": 1.2526913290272068,
	"grad_norm": 2.0,
	"learning_rate": 0.000974946173419456,
	"loss": 6.6277,
	"step": 32000
	},
	{
	"epoch": 1.272264631043257,
	"grad_norm": 1.4765625,
	"learning_rate": 0.0009745547073791348,
	"loss": 6.6333,
	"step": 32500
	},
	{
	"epoch": 1.291837933059307,
	"grad_norm": 1.28125,
	"learning_rate": 0.0009741632413388138,
	"loss": 6.6241,
	"step": 33000
	},
	{
	"epoch": 1.3114112350753573,
	"grad_norm": 1.078125,
	"learning_rate": 0.000973771775298493,
	"loss": 6.6336,
	"step": 33500
	},
	{
	"epoch": 1.3309845370914073,
	"grad_norm": 3.359375,
	"learning_rate": 0.0009733803092581718,
	"loss": 6.6298,
	"step": 34000
	},
	{
	"epoch": 1.3505578391074575,
	"grad_norm": 1.5,
	"learning_rate": 0.0009729888432178508,
	"loss": 6.6248,
	"step": 34500
	},
	{
	"epoch": 1.3701311411235075,
	"grad_norm": 1.2109375,
	"learning_rate": 0.0009725973771775298,
	"loss": 6.6291,
	"step": 35000
	},
	{
	"epoch": 1.3897044431395575,
	"grad_norm": 2.125,
	"learning_rate": 0.0009722059111372089,
	"loss": 6.6224,
	"step": 35500
	},
	{
	"epoch": 1.4092777451556078,
	"grad_norm": 1.375,
	"learning_rate": 0.0009718144450968878,
	"loss": 6.6194,
	"step": 36000
	},
	{
	"epoch": 1.4288510471716578,
	"grad_norm": 1.859375,
	"learning_rate": 0.0009714229790565668,
	"loss": 6.6127,
	"step": 36500
	},
	{
	"epoch": 1.448424349187708,
	"grad_norm": 1.234375,
	"learning_rate": 0.0009710315130162458,
	"loss": 6.6062,
	"step": 37000
	},
	{
	"epoch": 1.467997651203758,
	"grad_norm": 1.078125,
	"learning_rate": 0.0009706400469759249,
	"loss": 6.6188,
	"step": 37500
	},
	{
	"epoch": 1.4875709532198083,
	"grad_norm": 2.125,
	"learning_rate": 0.0009702485809356038,
	"loss": 6.6132,
	"step": 38000
	},
	{
	"epoch": 1.5071442552358583,
	"grad_norm": 3.34375,
	"learning_rate": 0.0009698571148952828,
	"loss": 6.6034,
	"step": 38500
	},
	{
	"epoch": 1.5267175572519083,
	"grad_norm": 2.359375,
	"learning_rate": 0.0009694656488549618,
	"loss": 6.6049,
	"step": 39000
	},
	{
	"epoch": 1.5462908592679585,
	"grad_norm": 3.65625,
	"learning_rate": 0.0009690741828146409,
	"loss": 6.6077,
	"step": 39500
	},
	{
	"epoch": 1.5658641612840087,
	"grad_norm": 1.3046875,
	"learning_rate": 0.0009686827167743198,
	"loss": 6.6054,
	"step": 40000
	},
	{
	"epoch": 1.5854374633000587,
	"grad_norm": 3.140625,
	"learning_rate": 0.0009682912507339988,
	"loss": 6.6109,
	"step": 40500
	},
	{
	"epoch": 1.6050107653161088,
	"grad_norm": 1.21875,
	"learning_rate": 0.0009678997846936779,
	"loss": 6.6122,
	"step": 41000
	},
	{
	"epoch": 1.624584067332159,
	"grad_norm": 1.3984375,
	"learning_rate": 0.0009675083186533569,
	"loss": 6.6049,
	"step": 41500
	},
	{
	"epoch": 1.644157369348209,
	"grad_norm": 2.5625,
	"learning_rate": 0.0009671168526130358,
	"loss": 6.6004,
	"step": 42000
	},
	{
	"epoch": 1.663730671364259,
	"grad_norm": 6.8125,
	"learning_rate": 0.0009667253865727148,
	"loss": 6.608,
	"step": 42500
	},
	{
	"epoch": 1.6833039733803092,
	"grad_norm": 1.34375,
	"learning_rate": 0.0009663339205323939,
	"loss": 6.5973,
	"step": 43000
	},
	{
	"epoch": 1.7028772753963595,
	"grad_norm": 2.328125,
	"learning_rate": 0.0009659424544920729,
	"loss": 6.5984,
	"step": 43500
	},
	{
	"epoch": 1.7224505774124095,
	"grad_norm": 2.90625,
	"learning_rate": 0.0009655509884517518,
	"loss": 6.6001,
	"step": 44000
	},
	{
	"epoch": 1.7420238794284595,
	"grad_norm": 1.1171875,
	"learning_rate": 0.0009651595224114308,
	"loss": 6.6016,
	"step": 44500
	},
	{
	"epoch": 1.7615971814445097,
	"grad_norm": 2.84375,
	"learning_rate": 0.0009647680563711099,
	"loss": 6.598,
	"step": 45000
	},
	{
	"epoch": 1.78117048346056,
	"grad_norm": 2.03125,
	"learning_rate": 0.0009643765903307889,
	"loss": 6.6052,
	"step": 45500
	},
	{
	"epoch": 1.80074378547661,
	"grad_norm": 1.421875,
	"learning_rate": 0.0009639851242904678,
	"loss": 6.5902,
	"step": 46000
	},
	{
	"epoch": 1.82031708749266,
	"grad_norm": 1.8671875,
	"learning_rate": 0.0009635936582501468,
	"loss": 6.5847,
	"step": 46500
	},
	{
	"epoch": 1.8398903895087102,
	"grad_norm": 6.15625,
	"learning_rate": 0.0009632021922098259,
	"loss": 6.5948,
	"step": 47000
	},
	{
	"epoch": 1.8594636915247602,
	"grad_norm": 9.8125,
	"learning_rate": 0.0009628107261695049,
	"loss": 6.6071,
	"step": 47500
	},
	{
	"epoch": 1.8790369935408102,
	"grad_norm": 3.515625,
	"learning_rate": 0.0009624192601291838,
	"loss": 6.5973,
	"step": 48000
	},
	{
	"epoch": 1.8986102955568605,
	"grad_norm": 4.5625,
	"learning_rate": 0.0009620277940888628,
	"loss": 6.5917,
	"step": 48500
	},
	{
	"epoch": 1.9181835975729107,
	"grad_norm": 0.83984375,
	"learning_rate": 0.0009616363280485419,
	"loss": 6.5937,
	"step": 49000
	},
	{
	"epoch": 1.9377568995889607,
	"grad_norm": 2.984375,
	"learning_rate": 0.0009612448620082208,
	"loss": 6.5919,
	"step": 49500
	},
	{
	"epoch": 1.9573302016050107,
	"grad_norm": 1.90625,
	"learning_rate": 0.0009608533959678998,
	"loss": 6.5885,
	"step": 50000
	},
	{
	"epoch": 1.976903503621061,
	"grad_norm": 3.203125,
	"learning_rate": 0.0009604619299275788,
	"loss": 6.6004,
	"step": 50500
	},
	{
	"epoch": 1.996476805637111,
	"grad_norm": 7.4375,
	"learning_rate": 0.0009600704638872579,
	"loss": 6.5952,
	"step": 51000
	},
	{
	"epoch": 2.0,
	"eval_loss": 6.583548545837402,
	"eval_runtime": 20.5988,
	"eval_samples_per_second": 97.093,
	"eval_steps_per_second": 6.068,
	"step": 51090
	},
	{
	"epoch": 2.016050107653161,
	"grad_norm": 1.4296875,
	"learning_rate": 0.0009596789978469367,
	"loss": 6.5932,
	"step": 51500
	},
	{
	"epoch": 2.035623409669211,
	"grad_norm": 1.1796875,
	"learning_rate": 0.0009592875318066157,
	"loss": 6.5895,
	"step": 52000
	},
	{
	"epoch": 2.0551967116852614,
	"grad_norm": 9.0625,
	"learning_rate": 0.0009588960657662949,
	"loss": 6.5814,
	"step": 52500
	},
	{
	"epoch": 2.074770013701311,
	"grad_norm": 5.78125,
	"learning_rate": 0.0009585045997259738,
	"loss": 6.5826,
	"step": 53000
	},
	{
	"epoch": 2.0943433157173614,
	"grad_norm": 1.5078125,
	"learning_rate": 0.0009581131336856527,
	"loss": 6.591,
	"step": 53500
	},
	{
	"epoch": 2.1139166177334117,
	"grad_norm": 3.921875,
	"learning_rate": 0.0009577216676453317,
	"loss": 6.5807,
	"step": 54000
	},
	{
	"epoch": 2.133489919749462,
	"grad_norm": 3.09375,
	"learning_rate": 0.0009573302016050108,
	"loss": 6.5793,
	"step": 54500
	},
	{
	"epoch": 2.1530632217655117,
	"grad_norm": 2.953125,
	"learning_rate": 0.0009569387355646898,
	"loss": 6.5854,
	"step": 55000
	},
	{
	"epoch": 2.172636523781562,
	"grad_norm": 5.53125,
	"learning_rate": 0.0009565472695243687,
	"loss": 6.5796,
	"step": 55500
	},
	{
	"epoch": 2.192209825797612,
	"grad_norm": 1.3359375,
	"learning_rate": 0.0009561558034840477,
	"loss": 6.5693,
	"step": 56000
	},
	{
	"epoch": 2.2117831278136624,
	"grad_norm": 2.21875,
	"learning_rate": 0.0009557643374437268,
	"loss": 6.5837,
	"step": 56500
	},
	{
	"epoch": 2.231356429829712,
	"grad_norm": 2.609375,
	"learning_rate": 0.0009553728714034058,
	"loss": 6.5791,
	"step": 57000
	},
	{
	"epoch": 2.2509297318457624,
	"grad_norm": 1.9765625,
	"learning_rate": 0.0009549814053630847,
	"loss": 6.5746,
	"step": 57500
	},
	{
	"epoch": 2.2705030338618126,
	"grad_norm": 1.6171875,
	"learning_rate": 0.0009545899393227637,
	"loss": 6.5766,
	"step": 58000
	},
	{
	"epoch": 2.2900763358778624,
	"grad_norm": 2.9375,
	"learning_rate": 0.0009541984732824428,
	"loss": 6.5832,
	"step": 58500
	},
	{
	"epoch": 2.3096496378939126,
	"grad_norm": 3.28125,
	"learning_rate": 0.0009538070072421218,
	"loss": 6.5732,
	"step": 59000
	},
	{
	"epoch": 2.329222939909963,
	"grad_norm": 1.0625,
	"learning_rate": 0.0009534155412018007,
	"loss": 6.5774,
	"step": 59500
	},
	{
	"epoch": 2.348796241926013,
	"grad_norm": 2.921875,
	"learning_rate": 0.0009530240751614797,
	"loss": 6.5692,
	"step": 60000
	},
	{
	"epoch": 2.368369543942063,
	"grad_norm": 1.8046875,
	"learning_rate": 0.0009526326091211588,
	"loss": 6.5789,
	"step": 60500
	},
	{
	"epoch": 2.387942845958113,
	"grad_norm": 1.4921875,
	"learning_rate": 0.0009522411430808378,
	"loss": 6.576,
	"step": 61000
	},
	{
	"epoch": 2.4075161479741634,
	"grad_norm": 8.6875,
	"learning_rate": 0.0009518496770405167,
	"loss": 6.5807,
	"step": 61500
	},
	{
	"epoch": 2.4270894499902136,
	"grad_norm": 2.71875,
	"learning_rate": 0.0009514582110001958,
	"loss": 6.5753,
	"step": 62000
	},
	{
	"epoch": 2.4466627520062634,
	"grad_norm": 1.9765625,
	"learning_rate": 0.0009510667449598748,
	"loss": 6.5799,
	"step": 62500
	},
	{
	"epoch": 2.4662360540223136,
	"grad_norm": 1.890625,
	"learning_rate": 0.0009506752789195538,
	"loss": 6.5678,
	"step": 63000
	},
	{
	"epoch": 2.485809356038364,
	"grad_norm": 1.421875,
	"learning_rate": 0.0009502838128792327,
	"loss": 6.5683,
	"step": 63500
	},
	{
	"epoch": 2.5053826580544136,
	"grad_norm": 3.03125,
	"learning_rate": 0.0009498923468389118,
	"loss": 6.5674,
	"step": 64000
	},
	{
	"epoch": 2.524955960070464,
	"grad_norm": 0.828125,
	"learning_rate": 0.0009495008807985908,
	"loss": 6.5606,
	"step": 64500
	},
	{
	"epoch": 2.544529262086514,
	"grad_norm": 0.8359375,
	"learning_rate": 0.0009491094147582697,
	"loss": 6.5669,
	"step": 65000
	},
	{
	"epoch": 2.564102564102564,
	"grad_norm": 1.8671875,
	"learning_rate": 0.0009487179487179487,
	"loss": 6.5519,
	"step": 65500
	},
	{
	"epoch": 2.583675866118614,
	"grad_norm": 1.3515625,
	"learning_rate": 0.0009483264826776278,
	"loss": 6.5573,
	"step": 66000
	},
	{
	"epoch": 2.6032491681346643,
	"grad_norm": 3.125,
	"learning_rate": 0.0009479350166373068,
	"loss": 6.5511,
	"step": 66500
	},
	{
	"epoch": 2.6228224701507146,
	"grad_norm": 1.4453125,
	"learning_rate": 0.0009475435505969857,
	"loss": 6.5593,
	"step": 67000
	},
	{
	"epoch": 2.642395772166765,
	"grad_norm": 7.375,
	"learning_rate": 0.0009471520845566647,
	"loss": 6.5606,
	"step": 67500
	},
	{
	"epoch": 2.6619690741828146,
	"grad_norm": 1.4765625,
	"learning_rate": 0.0009467606185163438,
	"loss": 6.5601,
	"step": 68000
	},
	{
	"epoch": 2.681542376198865,
	"grad_norm": 3.546875,
	"learning_rate": 0.0009463691524760228,
	"loss": 6.5607,
	"step": 68500
	},
	{
	"epoch": 2.701115678214915,
	"grad_norm": 3.046875,
	"learning_rate": 0.0009459776864357017,
	"loss": 6.5462,
	"step": 69000
	},
	{
	"epoch": 2.720688980230965,
	"grad_norm": 1.59375,
	"learning_rate": 0.0009455862203953807,
	"loss": 6.567,
	"step": 69500
	},
	{
	"epoch": 2.740262282247015,
	"grad_norm": 1.5625,
	"learning_rate": 0.0009451947543550598,
	"loss": 6.5566,
	"step": 70000
	},
	{
	"epoch": 2.7598355842630653,
	"grad_norm": 4.40625,
	"learning_rate": 0.0009448032883147388,
	"loss": 6.5543,
	"step": 70500
	},
	{
	"epoch": 2.779408886279115,
	"grad_norm": 2.640625,
	"learning_rate": 0.0009444118222744176,
	"loss": 6.5527,
	"step": 71000
	},
	{
	"epoch": 2.7989821882951653,
	"grad_norm": 1.09375,
	"learning_rate": 0.0009440203562340968,
	"loss": 6.557,
	"step": 71500
	},
	{
	"epoch": 2.8185554903112156,
	"grad_norm": 1.0234375,
	"learning_rate": 0.0009436288901937757,
	"loss": 6.5603,
	"step": 72000
	},
	{
	"epoch": 2.8381287923272653,
	"grad_norm": 4.46875,
	"learning_rate": 0.0009432374241534547,
	"loss": 6.5515,
	"step": 72500
	},
	{
	"epoch": 2.8577020943433156,
	"grad_norm": 3.796875,
	"learning_rate": 0.0009428459581131336,
	"loss": 6.5506,
	"step": 73000
	},
	{
	"epoch": 2.877275396359366,
	"grad_norm": 1.1640625,
	"learning_rate": 0.0009424544920728127,
	"loss": 6.5583,
	"step": 73500
	},
	{
	"epoch": 2.896848698375416,
	"grad_norm": 1.8671875,
	"learning_rate": 0.0009420630260324917,
	"loss": 6.5545,
	"step": 74000
	},
	{
	"epoch": 2.9164220003914663,
	"grad_norm": 8.6875,
	"learning_rate": 0.0009416715599921707,
	"loss": 6.5564,
	"step": 74500
	},
	{
	"epoch": 2.935995302407516,
	"grad_norm": 1.28125,
	"learning_rate": 0.0009412800939518496,
	"loss": 6.5502,
	"step": 75000
	},
	{
	"epoch": 2.9555686044235663,
	"grad_norm": 6.375,
	"learning_rate": 0.0009408886279115287,
	"loss": 6.5434,
	"step": 75500
	},
	{
	"epoch": 2.9751419064396165,
	"grad_norm": 1.8125,
	"learning_rate": 0.0009404971618712077,
	"loss": 6.5457,
	"step": 76000
	},
	{
	"epoch": 2.9947152084556663,
	"grad_norm": 2.34375,
	"learning_rate": 0.0009401056958308867,
	"loss": 6.5616,
	"step": 76500
	},
	{
	"epoch": 3.0,
	"eval_loss": 6.546030044555664,
	"eval_runtime": 20.7765,
	"eval_samples_per_second": 96.262,
	"eval_steps_per_second": 6.016,
	"step": 76635
	},
	{
	"epoch": 3.0142885104717165,
	"grad_norm": 2.34375,
	"learning_rate": 0.0009397142297905656,
	"loss": 6.545,
	"step": 77000
	},
	{
	"epoch": 3.0338618124877668,
	"grad_norm": 1.6328125,
	"learning_rate": 0.0009393227637502447,
	"loss": 6.5504,
	"step": 77500
	},
	{
	"epoch": 3.053435114503817,
	"grad_norm": 1.453125,
	"learning_rate": 0.0009389312977099237,
	"loss": 6.5508,
	"step": 78000
	},
	{
	"epoch": 3.073008416519867,
	"grad_norm": 3.328125,
	"learning_rate": 0.0009385398316696027,
	"loss": 6.5495,
	"step": 78500
	},
	{
	"epoch": 3.092581718535917,
	"grad_norm": 1.9609375,
	"learning_rate": 0.0009381483656292816,
	"loss": 6.5518,
	"step": 79000
	},
	{
	"epoch": 3.1121550205519672,
	"grad_norm": 2.578125,
	"learning_rate": 0.0009377568995889607,
	"loss": 6.5535,
	"step": 79500
	},
	{
	"epoch": 3.131728322568017,
	"grad_norm": 1.65625,
	"learning_rate": 0.0009373654335486397,
	"loss": 6.5451,
	"step": 80000
	},
	{
	"epoch": 3.1513016245840673,
	"grad_norm": 7.125,
	"learning_rate": 0.0009369739675083186,
	"loss": 6.545,
	"step": 80500
	},
	{
	"epoch": 3.1708749266001175,
	"grad_norm": 2.671875,
	"learning_rate": 0.0009365825014679976,
	"loss": 6.5379,
	"step": 81000
	},
	{
	"epoch": 3.1904482286161677,
	"grad_norm": 2.125,
	"learning_rate": 0.0009361910354276767,
	"loss": 6.5455,
	"step": 81500
	},
	{
	"epoch": 3.2100215306322175,
	"grad_norm": 1.171875,
	"learning_rate": 0.0009357995693873557,
	"loss": 6.5449,
	"step": 82000
	},
	{
	"epoch": 3.2295948326482677,
	"grad_norm": 2.375,
	"learning_rate": 0.0009354081033470346,
	"loss": 6.5413,
	"step": 82500
	},
	{
	"epoch": 3.249168134664318,
	"grad_norm": 3.578125,
	"learning_rate": 0.0009350166373067137,
	"loss": 6.5442,
	"step": 83000
	},
	{
	"epoch": 3.2687414366803678,
	"grad_norm": 1.3125,
	"learning_rate": 0.0009346251712663927,
	"loss": 6.5454,
	"step": 83500
	},
	{
	"epoch": 3.288314738696418,
	"grad_norm": 1.265625,
	"learning_rate": 0.0009342337052260717,
	"loss": 6.5383,
	"step": 84000
	},
	{
	"epoch": 3.3078880407124682,
	"grad_norm": 2.28125,
	"learning_rate": 0.0009338422391857506,
	"loss": 6.5521,
	"step": 84500
	},
	{
	"epoch": 3.3274613427285185,
	"grad_norm": 3.40625,
	"learning_rate": 0.0009334507731454297,
	"loss": 6.5454,
	"step": 85000
	},
	{
	"epoch": 3.3470346447445682,
	"grad_norm": 1.546875,
	"learning_rate": 0.0009330593071051087,
	"loss": 6.5394,
	"step": 85500
	},
	{
	"epoch": 3.3666079467606185,
	"grad_norm": 1.453125,
	"learning_rate": 0.0009326678410647877,
	"loss": 6.5398,
	"step": 86000
	},
	{
	"epoch": 3.3861812487766687,
	"grad_norm": 1.703125,
	"learning_rate": 0.0009322763750244666,
	"loss": 6.5434,
	"step": 86500
	},
	{
	"epoch": 3.405754550792719,
	"grad_norm": 1.75,
	"learning_rate": 0.0009318849089841457,
	"loss": 6.5355,
	"step": 87000
	},
	{
	"epoch": 3.4253278528087687,
	"grad_norm": 1.0390625,
	"learning_rate": 0.0009314934429438247,
	"loss": 6.5417,
	"step": 87500
	},
	{
	"epoch": 3.444901154824819,
	"grad_norm": 1.234375,
	"learning_rate": 0.0009311019769035037,
	"loss": 6.5454,
	"step": 88000
	},
	{
	"epoch": 3.464474456840869,
	"grad_norm": 4.15625,
	"learning_rate": 0.0009307105108631826,
	"loss": 6.5316,
	"step": 88500
	},
	{
	"epoch": 3.484047758856919,
	"grad_norm": 3.296875,
	"learning_rate": 0.0009303190448228617,
	"loss": 6.5429,
	"step": 89000
	},
	{
	"epoch": 3.503621060872969,
	"grad_norm": 2.65625,
	"learning_rate": 0.0009299275787825407,
	"loss": 6.5424,
	"step": 89500
	},
	{
	"epoch": 3.5231943628890194,
	"grad_norm": 2.8125,
	"learning_rate": 0.0009295361127422197,
	"loss": 6.5447,
	"step": 90000
	},
	{
	"epoch": 3.5427676649050692,
	"grad_norm": 1.2421875,
	"learning_rate": 0.0009291446467018985,
	"loss": 6.5418,
	"step": 90500
	},
	{
	"epoch": 3.5623409669211195,
	"grad_norm": 1.1484375,
	"learning_rate": 0.0009287531806615776,
	"loss": 6.5405,
	"step": 91000
	},
	{
	"epoch": 3.5819142689371697,
	"grad_norm": 1.328125,
	"learning_rate": 0.0009283617146212566,
	"loss": 6.5403,
	"step": 91500
	},
	{
	"epoch": 3.60148757095322,
	"grad_norm": 1.2734375,
	"learning_rate": 0.0009279702485809356,
	"loss": 6.5384,
	"step": 92000
	},
	{
	"epoch": 3.62106087296927,
	"grad_norm": 1.203125,
	"learning_rate": 0.0009275787825406146,
	"loss": 6.542,
	"step": 92500
	},
	{
	"epoch": 3.64063417498532,
	"grad_norm": 3.75,
	"learning_rate": 0.0009271873165002936,
	"loss": 6.538,
	"step": 93000
	},
	{
	"epoch": 3.66020747700137,
	"grad_norm": 2.09375,
	"learning_rate": 0.0009267958504599726,
	"loss": 6.5282,
	"step": 93500
	},
	{
	"epoch": 3.6797807790174204,
	"grad_norm": 1.4609375,
	"learning_rate": 0.0009264043844196516,
	"loss": 6.5442,
	"step": 94000
	},
	{
	"epoch": 3.69935408103347,
	"grad_norm": 3.015625,
	"learning_rate": 0.0009260129183793306,
	"loss": 6.5425,
	"step": 94500
	},
	{
	"epoch": 3.7189273830495204,
	"grad_norm": 0.953125,
	"learning_rate": 0.0009256214523390096,
	"loss": 6.5375,
	"step": 95000
	},
	{
	"epoch": 3.7385006850655707,
	"grad_norm": 1.734375,
	"learning_rate": 0.0009252299862986886,
	"loss": 6.5488,
	"step": 95500
	},
	{
	"epoch": 3.7580739870816204,
	"grad_norm": 1.4453125,
	"learning_rate": 0.0009248385202583675,
	"loss": 6.5497,
	"step": 96000
	},
	{
	"epoch": 3.7776472890976707,
	"grad_norm": 1.3359375,
	"learning_rate": 0.0009244470542180466,
	"loss": 6.5467,
	"step": 96500
	},
	{
	"epoch": 3.797220591113721,
	"grad_norm": 1.7578125,
	"learning_rate": 0.0009240555881777256,
	"loss": 6.5442,
	"step": 97000
	},
	{
	"epoch": 3.816793893129771,
	"grad_norm": 1.40625,
	"learning_rate": 0.0009236641221374046,
	"loss": 6.5393,
	"step": 97500
	},
	{
	"epoch": 3.8363671951458214,
	"grad_norm": 1.34375,
	"learning_rate": 0.0009232726560970835,
	"loss": 6.5378,
	"step": 98000
	},
	{
	"epoch": 3.855940497161871,
	"grad_norm": 1.6484375,
	"learning_rate": 0.0009228811900567626,
	"loss": 6.5469,
	"step": 98500
	},
	{
	"epoch": 3.8755137991779214,
	"grad_norm": 2.203125,
	"learning_rate": 0.0009224897240164416,
	"loss": 6.5322,
	"step": 99000
	},
	{
	"epoch": 3.8950871011939716,
	"grad_norm": 62.75,
	"learning_rate": 0.0009220982579761206,
	"loss": 6.5472,
	"step": 99500
	},
	{
	"epoch": 3.9146604032100214,
	"grad_norm": 8.0,
	"learning_rate": 0.0009217067919357995,
	"loss": 6.5364,
	"step": 100000
	},
	{
	"epoch": 3.9342337052260716,
	"grad_norm": 2.796875,
	"learning_rate": 0.0009213153258954786,
	"loss": 6.5356,
	"step": 100500
	},
	{
	"epoch": 3.953807007242122,
	"grad_norm": 1.1484375,
	"learning_rate": 0.0009209238598551576,
	"loss": 6.5267,
	"step": 101000
	},
	{
	"epoch": 3.9733803092581716,
	"grad_norm": 4.53125,
	"learning_rate": 0.0009205323938148366,
	"loss": 6.5332,
	"step": 101500
	},
	{
	"epoch": 3.992953611274222,
	"grad_norm": 2.21875,
	"learning_rate": 0.0009201409277745156,
	"loss": 6.5363,
	"step": 102000
	},
	{
	"epoch": 4.0,
	"eval_loss": 6.529191493988037,
	"eval_runtime": 20.9814,
	"eval_samples_per_second": 95.322,
	"eval_steps_per_second": 5.958,
	"step": 102180
	},
	{
	"epoch": 4.012526913290272,
	"grad_norm": 1.3046875,
	"learning_rate": 0.0009197494617341946,
	"loss": 6.541,
	"step": 102500
	},
	{
	"epoch": 4.032100215306322,
	"grad_norm": 1.453125,
	"learning_rate": 0.0009193579956938736,
	"loss": 6.5328,
	"step": 103000
	},
	{
	"epoch": 4.051673517322373,
	"grad_norm": 1.109375,
	"learning_rate": 0.0009189665296535526,
	"loss": 6.5279,
	"step": 103500
	},
	{
	"epoch": 4.071246819338422,
	"grad_norm": 1.7421875,
	"learning_rate": 0.0009185750636132316,
	"loss": 6.5302,
	"step": 104000
	},
	{
	"epoch": 4.090820121354472,
	"grad_norm": 1.03125,
	"learning_rate": 0.0009181835975729106,
	"loss": 6.5393,
	"step": 104500
	},
	{
	"epoch": 4.110393423370523,
	"grad_norm": 1.6015625,
	"learning_rate": 0.0009177921315325896,
	"loss": 6.5323,
	"step": 105000
	},
	{
	"epoch": 4.129966725386573,
	"grad_norm": 0.91015625,
	"learning_rate": 0.0009174006654922686,
	"loss": 6.5308,
	"step": 105500
	},
	{
	"epoch": 4.149540027402622,
	"grad_norm": 8.6875,
	"learning_rate": 0.0009170091994519476,
	"loss": 6.5302,
	"step": 106000
	},
	{
	"epoch": 4.169113329418673,
	"grad_norm": 1.609375,
	"learning_rate": 0.0009166177334116266,
	"loss": 6.5328,
	"step": 106500
	},
	{
	"epoch": 4.188686631434723,
	"grad_norm": 5.90625,
	"learning_rate": 0.0009162262673713056,
	"loss": 6.5346,
	"step": 107000
	},
	{
	"epoch": 4.2082599334507735,
	"grad_norm": 5.1875,
	"learning_rate": 0.0009158348013309846,
	"loss": 6.5306,
	"step": 107500
	},
	{
	"epoch": 4.227833235466823,
	"grad_norm": 1.5703125,
	"learning_rate": 0.0009154433352906636,
	"loss": 6.5278,
	"step": 108000
	},
	{
	"epoch": 4.247406537482873,
	"grad_norm": 3.09375,
	"learning_rate": 0.0009150518692503426,
	"loss": 6.5298,
	"step": 108500
	},
	{
	"epoch": 4.266979839498924,
	"grad_norm": 7.59375,
	"learning_rate": 0.0009146604032100216,
	"loss": 6.5243,
	"step": 109000
	},
	{
	"epoch": 4.286553141514974,
	"grad_norm": 1.6484375,
	"learning_rate": 0.0009142689371697005,
	"loss": 6.5258,
	"step": 109500
	},
	{
	"epoch": 4.306126443531023,
	"grad_norm": 3.390625,
	"learning_rate": 0.0009138774711293795,
	"loss": 6.5237,
	"step": 110000
	},
	{
	"epoch": 4.325699745547074,
	"grad_norm": 3.171875,
	"learning_rate": 0.0009134860050890585,
	"loss": 6.5307,
	"step": 110500
	},
	{
	"epoch": 4.345273047563124,
	"grad_norm": 2.3125,
	"learning_rate": 0.0009130945390487375,
	"loss": 6.5236,
	"step": 111000
	},
	{
	"epoch": 4.364846349579174,
	"grad_norm": 5.625,
	"learning_rate": 0.0009127030730084165,
	"loss": 6.5264,
	"step": 111500
	},
	{
	"epoch": 4.384419651595224,
	"grad_norm": 1.9375,
	"learning_rate": 0.0009123116069680955,
	"loss": 6.5254,
	"step": 112000
	},
	{
	"epoch": 4.403992953611274,
	"grad_norm": 2.65625,
	"learning_rate": 0.0009119201409277745,
	"loss": 6.5323,
	"step": 112500
	},
	{
	"epoch": 4.423566255627325,
	"grad_norm": 1.703125,
	"learning_rate": 0.0009115286748874535,
	"loss": 6.5362,
	"step": 113000
	},
	{
	"epoch": 4.4431395576433745,
	"grad_norm": 3.21875,
	"learning_rate": 0.0009111372088471325,
	"loss": 6.5292,
	"step": 113500
	},
	{
	"epoch": 4.462712859659424,
	"grad_norm": 1.1640625,
	"learning_rate": 0.0009107457428068115,
	"loss": 6.5248,
	"step": 114000
	},
	{
	"epoch": 4.482286161675475,
	"grad_norm": 1.4453125,
	"learning_rate": 0.0009103542767664905,
	"loss": 6.5216,
	"step": 114500
	},
	{
	"epoch": 4.501859463691525,
	"grad_norm": 1.21875,
	"learning_rate": 0.0009099628107261695,
	"loss": 6.5157,
	"step": 115000
	},
	{
	"epoch": 4.521432765707575,
	"grad_norm": 3.609375,
	"learning_rate": 0.0009095713446858485,
	"loss": 6.5172,
	"step": 115500
	},
	{
	"epoch": 4.541006067723625,
	"grad_norm": 1.0546875,
	"learning_rate": 0.0009091798786455275,
	"loss": 6.524,
	"step": 116000
	},
	{
	"epoch": 4.560579369739675,
	"grad_norm": 1.421875,
	"learning_rate": 0.0009087884126052065,
	"loss": 6.5227,
	"step": 116500
	},
	{
	"epoch": 4.580152671755725,
	"grad_norm": 1.8359375,
	"learning_rate": 0.0009083969465648855,
	"loss": 6.5148,
	"step": 117000
	},
	{
	"epoch": 4.5997259737717755,
	"grad_norm": 3.546875,
	"learning_rate": 0.0009080054805245645,
	"loss": 6.5208,
	"step": 117500
	},
	{
	"epoch": 4.619299275787825,
	"grad_norm": 5.90625,
	"learning_rate": 0.0009076140144842435,
	"loss": 6.5183,
	"step": 118000
	},
	{
	"epoch": 4.638872577803875,
	"grad_norm": 4.0625,
	"learning_rate": 0.0009072225484439225,
	"loss": 6.5221,
	"step": 118500
	},
	{
	"epoch": 4.658445879819926,
	"grad_norm": 3.5625,
	"learning_rate": 0.0009068310824036015,
	"loss": 6.5201,
	"step": 119000
	},
	{
	"epoch": 4.6780191818359755,
	"grad_norm": 1.1640625,
	"learning_rate": 0.0009064396163632805,
	"loss": 6.5176,
	"step": 119500
	},
	{
	"epoch": 4.697592483852026,
	"grad_norm": 1.28125,
	"learning_rate": 0.0009060481503229595,
	"loss": 6.5137,
	"step": 120000
	},
	{
	"epoch": 4.717165785868076,
	"grad_norm": 1.8046875,
	"learning_rate": 0.0009056566842826385,
	"loss": 6.5178,
	"step": 120500
	},
	{
	"epoch": 4.736739087884126,
	"grad_norm": 1.171875,
	"learning_rate": 0.0009052652182423175,
	"loss": 6.5129,
	"step": 121000
	},
	{
	"epoch": 4.7563123899001765,
	"grad_norm": 11.375,
	"learning_rate": 0.0009048737522019965,
	"loss": 6.5149,
	"step": 121500
	},
	{
	"epoch": 4.775885691916226,
	"grad_norm": 2.375,
	"learning_rate": 0.0009044822861616755,
	"loss": 6.5124,
	"step": 122000
	},
	{
	"epoch": 4.795458993932276,
	"grad_norm": 6.375,
	"learning_rate": 0.0009040908201213545,
	"loss": 6.5112,
	"step": 122500
	},
	{
	"epoch": 4.815032295948327,
	"grad_norm": 0.87109375,
	"learning_rate": 0.0009036993540810336,
	"loss": 6.5083,
	"step": 123000
	},
	{
	"epoch": 4.8346055979643765,
	"grad_norm": 8.0,
	"learning_rate": 0.0009033078880407125,
	"loss": 6.5072,
	"step": 123500
	},
	{
	"epoch": 4.854178899980427,
	"grad_norm": 1.203125,
	"learning_rate": 0.0009029164220003915,
	"loss": 6.5118,
	"step": 124000
	},
	{
	"epoch": 4.873752201996477,
	"grad_norm": 1.15625,
	"learning_rate": 0.0009025249559600705,
	"loss": 6.5117,
	"step": 124500
	},
	{
	"epoch": 4.893325504012527,
	"grad_norm": 1.9296875,
	"learning_rate": 0.0009021334899197496,
	"loss": 6.5099,
	"step": 125000
	},
	{
	"epoch": 4.912898806028577,
	"grad_norm": 2.453125,
	"learning_rate": 0.0009017420238794285,
	"loss": 6.5095,
	"step": 125500
	},
	{
	"epoch": 4.932472108044627,
	"grad_norm": 1.3359375,
	"learning_rate": 0.0009013505578391075,
	"loss": 6.5088,
	"step": 126000
	},
	{
	"epoch": 4.952045410060677,
	"grad_norm": 1.28125,
	"learning_rate": 0.0009009590917987865,
	"loss": 6.5085,
	"step": 126500
	},
	{
	"epoch": 4.971618712076728,
	"grad_norm": 3.75,
	"learning_rate": 0.0009005676257584656,
	"loss": 6.5163,
	"step": 127000
	},
	{
	"epoch": 4.9911920140927775,
	"grad_norm": 3.015625,
	"learning_rate": 0.0009001761597181445,
	"loss": 6.513,
	"step": 127500
	},
	{
	"epoch": 5.0,
	"eval_loss": 6.507379055023193,
	"eval_runtime": 22.1406,
	"eval_samples_per_second": 90.332,
	"eval_steps_per_second": 5.646,
	"step": 127725
	},
	{
	"epoch": 5.010765316108827,
	"grad_norm": 1.6171875,
	"learning_rate": 0.0008997846936778235,
	"loss": 6.5096,
	"step": 128000
	},
	{
	"epoch": 5.030338618124878,
	"grad_norm": 2.203125,
	"learning_rate": 0.0008993932276375024,
	"loss": 6.5089,
	"step": 128500
	},
	{
	"epoch": 5.049911920140928,
	"grad_norm": 2.90625,
	"learning_rate": 0.0008990017615971816,
	"loss": 6.5087,
	"step": 129000
	},
	{
	"epoch": 5.0694852221569775,
	"grad_norm": 2.265625,
	"learning_rate": 0.0008986102955568604,
	"loss": 6.5135,
	"step": 129500
	},
	{
	"epoch": 5.089058524173028,
	"grad_norm": 1.8828125,
	"learning_rate": 0.0008982188295165394,
	"loss": 6.5038,
	"step": 130000
	},
	{
	"epoch": 5.108631826189078,
	"grad_norm": 2.359375,
	"learning_rate": 0.0008978273634762184,
	"loss": 6.5035,
	"step": 130500
	},
	{
	"epoch": 5.128205128205128,
	"grad_norm": 2.15625,
	"learning_rate": 0.0008974358974358974,
	"loss": 6.5167,
	"step": 131000
	},
	{
	"epoch": 5.147778430221178,
	"grad_norm": 2.140625,
	"learning_rate": 0.0008970444313955764,
	"loss": 6.5109,
	"step": 131500
	},
	{
	"epoch": 5.167351732237228,
	"grad_norm": 2.015625,
	"learning_rate": 0.0008966529653552554,
	"loss": 6.5009,
	"step": 132000
	},
	{
	"epoch": 5.186925034253279,
	"grad_norm": 0.75,
	"learning_rate": 0.0008962614993149345,
	"loss": 6.5078,
	"step": 132500
	},
	{
	"epoch": 5.206498336269329,
	"grad_norm": 5.78125,
	"learning_rate": 0.0008958700332746134,
	"loss": 6.5062,
	"step": 133000
	},
	{
	"epoch": 5.2260716382853785,
	"grad_norm": 3.390625,
	"learning_rate": 0.0008954785672342924,
	"loss": 6.5045,
	"step": 133500
	},
	{
	"epoch": 5.245644940301429,
	"grad_norm": 4.09375,
	"learning_rate": 0.0008950871011939714,
	"loss": 6.4964,
	"step": 134000
	},
	{
	"epoch": 5.265218242317479,
	"grad_norm": 1.84375,
	"learning_rate": 0.0008946956351536505,
	"loss": 6.5082,
	"step": 134500
	},
	{
	"epoch": 5.284791544333529,
	"grad_norm": 1.953125,
	"learning_rate": 0.0008943041691133294,
	"loss": 6.5047,
	"step": 135000
	},
	{
	"epoch": 5.304364846349579,
	"grad_norm": 1.09375,
	"learning_rate": 0.0008939127030730084,
	"loss": 6.5025,
	"step": 135500
	},
	{
	"epoch": 5.323938148365629,
	"grad_norm": 2.046875,
	"learning_rate": 0.0008935212370326874,
	"loss": 6.4966,
	"step": 136000
	},
	{
	"epoch": 5.34351145038168,
	"grad_norm": 1.078125,
	"learning_rate": 0.0008931297709923665,
	"loss": 6.503,
	"step": 136500
	},
	{
	"epoch": 5.36308475239773,
	"grad_norm": 5.0625,
	"learning_rate": 0.0008927383049520454,
	"loss": 6.5022,
	"step": 137000
	},
	{
	"epoch": 5.382658054413779,
	"grad_norm": 1.140625,
	"learning_rate": 0.0008923468389117244,
	"loss": 6.5025,
	"step": 137500
	},
	{
	"epoch": 5.40223135642983,
	"grad_norm": 2.4375,
	"learning_rate": 0.0008919553728714034,
	"loss": 6.5053,
	"step": 138000
	},
	{
	"epoch": 5.42180465844588,
	"grad_norm": 1.78125,
	"learning_rate": 0.0008915639068310825,
	"loss": 6.5127,
	"step": 138500
	},
	{
	"epoch": 5.44137796046193,
	"grad_norm": 14.375,
	"learning_rate": 0.0008911724407907614,
	"loss": 6.5019,
	"step": 139000
	},
	{
	"epoch": 5.46095126247798,
	"grad_norm": 4.59375,
	"learning_rate": 0.0008907809747504404,
	"loss": 6.5024,
	"step": 139500
	},
	{
	"epoch": 5.48052456449403,
	"grad_norm": 2.28125,
	"learning_rate": 0.0008903895087101194,
	"loss": 6.5059,
	"step": 140000
	},
	{
	"epoch": 5.50009786651008,
	"grad_norm": 3.84375,
	"learning_rate": 0.0008899980426697985,
	"loss": 6.5027,
	"step": 140500
	},
	{
	"epoch": 5.519671168526131,
	"grad_norm": 6.1875,
	"learning_rate": 0.0008896065766294774,
	"loss": 6.4974,
	"step": 141000
	},
	{
	"epoch": 5.53924447054218,
	"grad_norm": 1.921875,
	"learning_rate": 0.0008892151105891564,
	"loss": 6.4957,
	"step": 141500
	},
	{
	"epoch": 5.55881777255823,
	"grad_norm": 1.78125,
	"learning_rate": 0.0008888236445488354,
	"loss": 6.5043,
	"step": 142000
	},
	{
	"epoch": 5.578391074574281,
	"grad_norm": 1.796875,
	"learning_rate": 0.0008884321785085145,
	"loss": 6.4968,
	"step": 142500
	},
	{
	"epoch": 5.597964376590331,
	"grad_norm": 2.4375,
	"learning_rate": 0.0008880407124681934,
	"loss": 6.5016,
	"step": 143000
	},
	{
	"epoch": 5.61753767860638,
	"grad_norm": 1.078125,
	"learning_rate": 0.0008876492464278724,
	"loss": 6.5012,
	"step": 143500
	},
	{
	"epoch": 5.637110980622431,
	"grad_norm": 3.921875,
	"learning_rate": 0.0008872577803875515,
	"loss": 6.5061,
	"step": 144000
	},
	{
	"epoch": 5.656684282638481,
	"grad_norm": 1.015625,
	"learning_rate": 0.0008868663143472305,
	"loss": 6.5026,
	"step": 144500
	},
	{
	"epoch": 5.676257584654532,
	"grad_norm": 1.484375,
	"learning_rate": 0.0008864748483069094,
	"loss": 6.4981,
	"step": 145000
	},
	{
	"epoch": 5.695830886670581,
	"grad_norm": 1.8359375,
	"learning_rate": 0.0008860833822665884,
	"loss": 6.5063,
	"step": 145500
	},
	{
	"epoch": 5.715404188686631,
	"grad_norm": 1.59375,
	"learning_rate": 0.0008856919162262675,
	"loss": 6.5071,
	"step": 146000
	},
	{
	"epoch": 5.734977490702682,
	"grad_norm": 3.703125,
	"learning_rate": 0.0008853004501859464,
	"loss": 6.5037,
	"step": 146500
	},
	{
	"epoch": 5.754550792718732,
	"grad_norm": 4.1875,
	"learning_rate": 0.0008849089841456254,
	"loss": 6.504,
	"step": 147000
	},
	{
	"epoch": 5.774124094734781,
	"grad_norm": 0.98828125,
	"learning_rate": 0.0008845175181053043,
	"loss": 6.4992,
	"step": 147500
	},
	{
	"epoch": 5.793697396750832,
	"grad_norm": 25.25,
	"learning_rate": 0.0008841260520649835,
	"loss": 6.5052,
	"step": 148000
	},
	{
	"epoch": 5.813270698766882,
	"grad_norm": 1.9765625,
	"learning_rate": 0.0008837345860246623,
	"loss": 6.4979,
	"step": 148500
	},
	{
	"epoch": 5.8328440007829325,
	"grad_norm": 2.03125,
	"learning_rate": 0.0008833431199843413,
	"loss": 6.5023,
	"step": 149000
	},
	{
	"epoch": 5.852417302798982,
	"grad_norm": 1.2890625,
	"learning_rate": 0.0008829516539440203,
	"loss": 6.4971,
	"step": 149500
	},
	{
	"epoch": 5.871990604815032,
	"grad_norm": 1.3125,
	"learning_rate": 0.0008825601879036994,
	"loss": 6.4968,
	"step": 150000
	},
	{
	"epoch": 5.891563906831083,
	"grad_norm": 1.7734375,
	"learning_rate": 0.0008821687218633783,
	"loss": 6.5053,
	"step": 150500
	},
	{
	"epoch": 5.911137208847133,
	"grad_norm": 2.40625,
	"learning_rate": 0.0008817772558230573,
	"loss": 6.4988,
	"step": 151000
	},
	{
	"epoch": 5.930710510863182,
	"grad_norm": 4.25,
	"learning_rate": 0.0008813857897827363,
	"loss": 6.5071,
	"step": 151500
	},
	{
	"epoch": 5.950283812879233,
	"grad_norm": 3.125,
	"learning_rate": 0.0008809943237424154,
	"loss": 6.5014,
	"step": 152000
	},
	{
	"epoch": 5.969857114895283,
	"grad_norm": 1.515625,
	"learning_rate": 0.0008806028577020943,
	"loss": 6.5002,
	"step": 152500
	},
	{
	"epoch": 5.989430416911333,
	"grad_norm": 2.671875,
	"learning_rate": 0.0008802113916617733,
	"loss": 6.4993,
	"step": 153000
	},
	{
	"epoch": 6.0,
	"eval_loss": 6.495845794677734,
	"eval_runtime": 21.9172,
	"eval_samples_per_second": 91.253,
	"eval_steps_per_second": 5.703,
	"step": 153270
	},
	{
	"epoch": 6.009003718927383,
	"grad_norm": 8.25,
	"learning_rate": 0.0008798199256214524,
	"loss": 6.4952,
	"step": 153500
	},
	{
	"epoch": 6.028577020943433,
	"grad_norm": 2.40625,
	"learning_rate": 0.0008794284595811314,
	"loss": 6.4967,
	"step": 154000
	},
	{
	"epoch": 6.048150322959483,
	"grad_norm": 2.25,
	"learning_rate": 0.0008790369935408103,
	"loss": 6.5073,
	"step": 154500
	},
	{
	"epoch": 6.0677236249755335,
	"grad_norm": 1.3515625,
	"learning_rate": 0.0008786455275004893,
	"loss": 6.4969,
	"step": 155000
	},
	{
	"epoch": 6.087296926991583,
	"grad_norm": 0.9921875,
	"learning_rate": 0.0008782540614601684,
	"loss": 6.487,
	"step": 155500
	},
	{
	"epoch": 6.106870229007634,
	"grad_norm": 1.875,
	"learning_rate": 0.0008778625954198474,
	"loss": 6.49,
	"step": 156000
	},
	{
	"epoch": 6.126443531023684,
	"grad_norm": 5.25,
	"learning_rate": 0.0008774711293795263,
	"loss": 6.4948,
	"step": 156500
	},
	{
	"epoch": 6.146016833039734,
	"grad_norm": 14.25,
	"learning_rate": 0.0008770796633392053,
	"loss": 6.4921,
	"step": 157000
	},
	{
	"epoch": 6.165590135055784,
	"grad_norm": 1.1171875,
	"learning_rate": 0.0008766881972988844,
	"loss": 6.4909,
	"step": 157500
	},
	{
	"epoch": 6.185163437071834,
	"grad_norm": 3.375,
	"learning_rate": 0.0008762967312585634,
	"loss": 6.4917,
	"step": 158000
	},
	{
	"epoch": 6.204736739087884,
	"grad_norm": 10.6875,
	"learning_rate": 0.0008759052652182423,
	"loss": 6.494,
	"step": 158500
	},
	{
	"epoch": 6.2243100411039345,
	"grad_norm": 5.0,
	"learning_rate": 0.0008755137991779213,
	"loss": 6.4909,
	"step": 159000
	},
	{
	"epoch": 6.243883343119984,
	"grad_norm": 1.7421875,
	"learning_rate": 0.0008751223331376004,
	"loss": 6.498,
	"step": 159500
	},
	{
	"epoch": 6.263456645136034,
	"grad_norm": 1.7734375,
	"learning_rate": 0.0008747308670972794,
	"loss": 6.4899,
	"step": 160000
	},
	{
	"epoch": 6.283029947152085,
	"grad_norm": 1.5390625,
	"learning_rate": 0.0008743394010569583,
	"loss": 6.4991,
	"step": 160500
	},
	{
	"epoch": 6.3026032491681345,
	"grad_norm": 5.71875,
	"learning_rate": 0.0008739479350166373,
	"loss": 6.4939,
	"step": 161000
	},
	{
	"epoch": 6.322176551184185,
	"grad_norm": 3.6875,
	"learning_rate": 0.0008735564689763164,
	"loss": 6.4888,
	"step": 161500
	},
	{
	"epoch": 6.341749853200235,
	"grad_norm": 3.359375,
	"learning_rate": 0.0008731650029359953,
	"loss": 6.4918,
	"step": 162000
	},
	{
	"epoch": 6.361323155216285,
	"grad_norm": 1.125,
	"learning_rate": 0.0008727735368956743,
	"loss": 6.4992,
	"step": 162500
	},
	{
	"epoch": 6.3808964572323355,
	"grad_norm": 2.625,
	"learning_rate": 0.0008723820708553534,
	"loss": 6.4958,
	"step": 163000
	},
	{
	"epoch": 6.400469759248385,
	"grad_norm": 1.2421875,
	"learning_rate": 0.0008719906048150324,
	"loss": 6.4894,
	"step": 163500
	},
	{
	"epoch": 6.420043061264435,
	"grad_norm": 2.03125,
	"learning_rate": 0.0008715991387747113,
	"loss": 6.4953,
	"step": 164000
	},
	{
	"epoch": 6.439616363280486,
	"grad_norm": 2.03125,
	"learning_rate": 0.0008712076727343903,
	"loss": 6.4929,
	"step": 164500
	},
	{
	"epoch": 6.4591896652965355,
	"grad_norm": 1.1875,
	"learning_rate": 0.0008708162066940694,
	"loss": 6.4848,
	"step": 165000
	},
	{
	"epoch": 6.478762967312585,
	"grad_norm": 1.1015625,
	"learning_rate": 0.0008704247406537484,
	"loss": 6.4871,
	"step": 165500
	},
	{
	"epoch": 6.498336269328636,
	"grad_norm": 3.75,
	"learning_rate": 0.0008700332746134272,
	"loss": 6.4914,
	"step": 166000
	},
	{
	"epoch": 6.517909571344686,
	"grad_norm": 2.1875,
	"learning_rate": 0.0008696418085731062,
	"loss": 6.4888,
	"step": 166500
	},
	{
	"epoch": 6.5374828733607355,
	"grad_norm": 2.84375,
	"learning_rate": 0.0008692503425327854,
	"loss": 6.4932,
	"step": 167000
	},
	{
	"epoch": 6.557056175376786,
	"grad_norm": 2.828125,
	"learning_rate": 0.0008688588764924644,
	"loss": 6.4992,
	"step": 167500
	},
	{
	"epoch": 6.576629477392836,
	"grad_norm": 4.9375,
	"learning_rate": 0.0008684674104521432,
	"loss": 6.4881,
	"step": 168000
	},
	{
	"epoch": 6.596202779408887,
	"grad_norm": 2.796875,
	"learning_rate": 0.0008680759444118222,
	"loss": 6.4944,
	"step": 168500
	},
	{
	"epoch": 6.6157760814249365,
	"grad_norm": 19.0,
	"learning_rate": 0.0008676844783715013,
	"loss": 6.4874,
	"step": 169000
	},
	{
	"epoch": 6.635349383440986,
	"grad_norm": 8.25,
	"learning_rate": 0.0008672930123311803,
	"loss": 6.4871,
	"step": 169500
	},
	{
	"epoch": 6.654922685457037,
	"grad_norm": 1.484375,
	"learning_rate": 0.0008669015462908592,
	"loss": 6.4978,
	"step": 170000
	},
	{
	"epoch": 6.674495987473087,
	"grad_norm": 3.140625,
	"learning_rate": 0.0008665100802505382,
	"loss": 6.4946,
	"step": 170500
	},
	{
	"epoch": 6.6940692894891365,
	"grad_norm": 8.0625,
	"learning_rate": 0.0008661186142102173,
	"loss": 6.4868,
	"step": 171000
	},
	{
	"epoch": 6.713642591505187,
	"grad_norm": 3.265625,
	"learning_rate": 0.0008657271481698963,
	"loss": 6.4876,
	"step": 171500
	},
	{
	"epoch": 6.733215893521237,
	"grad_norm": 1.6015625,
	"learning_rate": 0.0008653356821295752,
	"loss": 6.4887,
	"step": 172000
	},
	{
	"epoch": 6.752789195537288,
	"grad_norm": 3.828125,
	"learning_rate": 0.0008649442160892542,
	"loss": 6.4897,
	"step": 172500
	},
	{
	"epoch": 6.772362497553337,
	"grad_norm": 0.8515625,
	"learning_rate": 0.0008645527500489333,
	"loss": 6.4857,
	"step": 173000
	},
	{
	"epoch": 6.791935799569387,
	"grad_norm": 1.2734375,
	"learning_rate": 0.0008641612840086123,
	"loss": 6.4867,
	"step": 173500
	},
	{
	"epoch": 6.811509101585438,
	"grad_norm": 1.578125,
	"learning_rate": 0.0008637698179682912,
	"loss": 6.4883,
	"step": 174000
	},
	{
	"epoch": 6.831082403601488,
	"grad_norm": 1.875,
	"learning_rate": 0.0008633783519279703,
	"loss": 6.4783,
	"step": 174500
	},
	{
	"epoch": 6.8506557056175374,
	"grad_norm": 0.84765625,
	"learning_rate": 0.0008629868858876493,
	"loss": 6.4862,
	"step": 175000
	},
	{
	"epoch": 6.870229007633588,
	"grad_norm": 20.875,
	"learning_rate": 0.0008625954198473283,
	"loss": 6.486,
	"step": 175500
	},
	{
	"epoch": 6.889802309649638,
	"grad_norm": 1.75,
	"learning_rate": 0.0008622039538070072,
	"loss": 6.4941,
	"step": 176000
	},
	{
	"epoch": 6.909375611665688,
	"grad_norm": 1.46875,
	"learning_rate": 0.0008618124877666863,
	"loss": 6.4904,
	"step": 176500
	},
	{
	"epoch": 6.928948913681738,
	"grad_norm": 2.171875,
	"learning_rate": 0.0008614210217263653,
	"loss": 6.4864,
	"step": 177000
	},
	{
	"epoch": 6.948522215697788,
	"grad_norm": 1.6875,
	"learning_rate": 0.0008610295556860442,
	"loss": 6.4876,
	"step": 177500
	},
	{
	"epoch": 6.968095517713838,
	"grad_norm": 0.94921875,
	"learning_rate": 0.0008606380896457232,
	"loss": 6.4811,
	"step": 178000
	},
	{
	"epoch": 6.987668819729889,
	"grad_norm": 1.46875,
	"learning_rate": 0.0008602466236054023,
	"loss": 6.4881,
	"step": 178500
	},
	{
	"epoch": 7.0,
	"eval_loss": 6.482935905456543,
	"eval_runtime": 22.9737,
	"eval_samples_per_second": 87.056,
	"eval_steps_per_second": 5.441,
	"step": 178815
	},
	{
	"epoch": 7.007242121745938,
	"grad_norm": 1.3515625,
	"learning_rate": 0.0008598551575650813,
	"loss": 6.4776,
	"step": 179000
	},
	{
	"epoch": 7.026815423761989,
	"grad_norm": 1.5078125,
	"learning_rate": 0.0008594636915247602,
	"loss": 6.4777,
	"step": 179500
	},
	{
	"epoch": 7.046388725778039,
	"grad_norm": 2.78125,
	"learning_rate": 0.0008590722254844392,
	"loss": 6.4789,
	"step": 180000
	},
	{
	"epoch": 7.065962027794089,
	"grad_norm": 1.5625,
	"learning_rate": 0.0008586807594441183,
	"loss": 6.4884,
	"step": 180500
	},
	{
	"epoch": 7.085535329810139,
	"grad_norm": 1.671875,
	"learning_rate": 0.0008582892934037973,
	"loss": 6.4847,
	"step": 181000
	},
	{
	"epoch": 7.105108631826189,
	"grad_norm": 1.9140625,
	"learning_rate": 0.0008578978273634762,
	"loss": 6.4811,
	"step": 181500
	},
	{
	"epoch": 7.124681933842239,
	"grad_norm": 1.375,
	"learning_rate": 0.0008575063613231552,
	"loss": 6.4872,
	"step": 182000
	},
	{
	"epoch": 7.14425523585829,
	"grad_norm": 1.375,
	"learning_rate": 0.0008571148952828343,
	"loss": 6.486,
	"step": 182500
	},
	{
	"epoch": 7.163828537874339,
	"grad_norm": 1.921875,
	"learning_rate": 0.0008567234292425133,
	"loss": 6.4848,
	"step": 183000
	},
	{
	"epoch": 7.183401839890389,
	"grad_norm": 2.125,
	"learning_rate": 0.0008563319632021922,
	"loss": 6.4808,
	"step": 183500
	},
	{
	"epoch": 7.20297514190644,
	"grad_norm": 1.0859375,
	"learning_rate": 0.0008559404971618713,
	"loss": 6.4858,
	"step": 184000
	},
	{
	"epoch": 7.22254844392249,
	"grad_norm": 1.7578125,
	"learning_rate": 0.0008555490311215503,
	"loss": 6.4875,
	"step": 184500
	},
	{
	"epoch": 7.242121745938539,
	"grad_norm": 10.375,
	"learning_rate": 0.0008551575650812293,
	"loss": 6.483,
	"step": 185000
	},
	{
	"epoch": 7.26169504795459,
	"grad_norm": 2.0,
	"learning_rate": 0.0008547660990409081,
	"loss": 6.4803,
	"step": 185500
	},
	{
	"epoch": 7.28126834997064,
	"grad_norm": 2.734375,
	"learning_rate": 0.0008543746330005873,
	"loss": 6.4823,
	"step": 186000
	},
	{
	"epoch": 7.3008416519866906,
	"grad_norm": 1.5390625,
	"learning_rate": 0.0008539831669602662,
	"loss": 6.4725,
	"step": 186500
	},
	{
	"epoch": 7.32041495400274,
	"grad_norm": 1.53125,
	"learning_rate": 0.0008535917009199452,
	"loss": 6.4783,
	"step": 187000
	},
	{
	"epoch": 7.33998825601879,
	"grad_norm": 2.25,
	"learning_rate": 0.0008532002348796241,
	"loss": 6.4714,
	"step": 187500
	},
	{
	"epoch": 7.359561558034841,
	"grad_norm": 1.3671875,
	"learning_rate": 0.0008528087688393032,
	"loss": 6.4807,
	"step": 188000
	},
	{
	"epoch": 7.379134860050891,
	"grad_norm": 1.4140625,
	"learning_rate": 0.0008524173027989822,
	"loss": 6.471,
	"step": 188500
	},
	{
	"epoch": 7.39870816206694,
	"grad_norm": 1.234375,
	"learning_rate": 0.0008520258367586612,
	"loss": 6.4799,
	"step": 189000
	},
	{
	"epoch": 7.418281464082991,
	"grad_norm": 1.53125,
	"learning_rate": 0.0008516343707183401,
	"loss": 6.48,
	"step": 189500
	},
	{
	"epoch": 7.437854766099041,
	"grad_norm": 1.1328125,
	"learning_rate": 0.0008512429046780192,
	"loss": 6.4835,
	"step": 190000
	},
	{
	"epoch": 7.457428068115091,
	"grad_norm": 3.90625,
	"learning_rate": 0.0008508514386376982,
	"loss": 6.4747,
	"step": 190500
	},
	{
	"epoch": 7.477001370131141,
	"grad_norm": 1.609375,
	"learning_rate": 0.0008504599725973772,
	"loss": 6.4759,
	"step": 191000
	},
	{
	"epoch": 7.496574672147191,
	"grad_norm": 1.6171875,
	"learning_rate": 0.0008500685065570561,
	"loss": 6.4765,
	"step": 191500
	},
	{
	"epoch": 7.516147974163241,
	"grad_norm": 1.0234375,
	"learning_rate": 0.0008496770405167352,
	"loss": 6.4753,
	"step": 192000
	},
	{
	"epoch": 7.5357212761792916,
	"grad_norm": 1.046875,
	"learning_rate": 0.0008492855744764142,
	"loss": 6.4782,
	"step": 192500
	},
	{
	"epoch": 7.555294578195341,
	"grad_norm": 3.140625,
	"learning_rate": 0.0008488941084360931,
	"loss": 6.4725,
	"step": 193000
	},
	{
	"epoch": 7.574867880211392,
	"grad_norm": 1.703125,
	"learning_rate": 0.0008485026423957722,
	"loss": 6.4825,
	"step": 193500
	},
	{
	"epoch": 7.594441182227442,
	"grad_norm": 2.265625,
	"learning_rate": 0.0008481111763554512,
	"loss": 6.4758,
	"step": 194000
	},
	{
	"epoch": 7.614014484243492,
	"grad_norm": 5.9375,
	"learning_rate": 0.0008477197103151302,
	"loss": 6.4732,
	"step": 194500
	},
	{
	"epoch": 7.633587786259542,
	"grad_norm": 1.125,
	"learning_rate": 0.0008473282442748091,
	"loss": 6.4812,
	"step": 195000
	},
	{
	"epoch": 7.653161088275592,
	"grad_norm": 1.8125,
	"learning_rate": 0.0008469367782344882,
	"loss": 6.4711,
	"step": 195500
	},
	{
	"epoch": 7.672734390291642,
	"grad_norm": 3.421875,
	"learning_rate": 0.0008465453121941672,
	"loss": 6.4718,
	"step": 196000
	},
	{
	"epoch": 7.6923076923076925,
	"grad_norm": 9.625,
	"learning_rate": 0.0008461538461538462,
	"loss": 6.4793,
	"step": 196500
	},
	{
	"epoch": 7.711880994323742,
	"grad_norm": 2.390625,
	"learning_rate": 0.0008457623801135251,
	"loss": 6.4758,
	"step": 197000
	},
	{
	"epoch": 7.731454296339793,
	"grad_norm": 2.125,
	"learning_rate": 0.0008453709140732042,
	"loss": 6.4706,
	"step": 197500
	},
	{
	"epoch": 7.751027598355843,
	"grad_norm": 1.296875,
	"learning_rate": 0.0008449794480328832,
	"loss": 6.4838,
	"step": 198000
	},
	{
	"epoch": 7.7706009003718925,
	"grad_norm": 2.53125,
	"learning_rate": 0.0008445879819925622,
	"loss": 6.475,
	"step": 198500
	},
	{
	"epoch": 7.790174202387943,
	"grad_norm": 2.75,
	"learning_rate": 0.0008441965159522411,
	"loss": 6.4766,
	"step": 199000
	},
	{
	"epoch": 7.809747504403993,
	"grad_norm": 1.84375,
	"learning_rate": 0.0008438050499119202,
	"loss": 6.4833,
	"step": 199500
	},
	{
	"epoch": 7.829320806420043,
	"grad_norm": 1.40625,
	"learning_rate": 0.0008434135838715992,
	"loss": 6.4786,
	"step": 200000
	},
	{
	"epoch": 7.8488941084360935,
	"grad_norm": 1.5546875,
	"learning_rate": 0.0008430221178312782,
	"loss": 6.4747,
	"step": 200500
	},
	{
	"epoch": 7.868467410452143,
	"grad_norm": 2.59375,
	"learning_rate": 0.0008426306517909571,
	"loss": 6.4839,
	"step": 201000
	},
	{
	"epoch": 7.888040712468193,
	"grad_norm": 0.92578125,
	"learning_rate": 0.0008422391857506362,
	"loss": 6.477,
	"step": 201500
	},
	{
	"epoch": 7.907614014484244,
	"grad_norm": 2.40625,
	"learning_rate": 0.0008418477197103152,
	"loss": 6.4823,
	"step": 202000
	},
	{
	"epoch": 7.9271873165002935,
	"grad_norm": 4.9375,
	"learning_rate": 0.0008414562536699942,
	"loss": 6.4666,
	"step": 202500
	},
	{
	"epoch": 7.946760618516343,
	"grad_norm": 1.2421875,
	"learning_rate": 0.000841064787629673,
	"loss": 6.4716,
	"step": 203000
	},
	{
	"epoch": 7.966333920532394,
	"grad_norm": 1.6875,
	"learning_rate": 0.0008406733215893522,
	"loss": 6.4678,
	"step": 203500
	},
	{
	"epoch": 7.985907222548444,
	"grad_norm": 1.109375,
	"learning_rate": 0.0008402818555490312,
	"loss": 6.471,
	"step": 204000
	},
	{
	"epoch": 8.0,
	"eval_loss": 6.472127914428711,
	"eval_runtime": 24.0419,
	"eval_samples_per_second": 83.188,
	"eval_steps_per_second": 5.199,
	"step": 204360
	},
	{
	"epoch": 8.005480524564494,
	"grad_norm": 3.421875,
	"learning_rate": 0.0008398903895087102,
	"loss": 6.4769,
	"step": 204500
	},
	{
	"epoch": 8.025053826580544,
	"grad_norm": 1.3046875,
	"learning_rate": 0.0008394989234683892,
	"loss": 6.4651,
	"step": 205000
	},
	{
	"epoch": 8.044627128596595,
	"grad_norm": 2.359375,
	"learning_rate": 0.0008391074574280681,
	"loss": 6.4746,
	"step": 205500
	},
	{
	"epoch": 8.064200430612644,
	"grad_norm": 1.40625,
	"learning_rate": 0.0008387159913877471,
	"loss": 6.4704,
	"step": 206000
	},
	{
	"epoch": 8.083773732628694,
	"grad_norm": 1.21875,
	"learning_rate": 0.0008383245253474261,
	"loss": 6.4648,
	"step": 206500
	},
	{
	"epoch": 8.103347034644745,
	"grad_norm": 1.21875,
	"learning_rate": 0.0008379330593071051,
	"loss": 6.4735,
	"step": 207000
	},
	{
	"epoch": 8.122920336660794,
	"grad_norm": 17.0,
	"learning_rate": 0.0008375415932667841,
	"loss": 6.474,
	"step": 207500
	},
	{
	"epoch": 8.142493638676845,
	"grad_norm": 6.5,
	"learning_rate": 0.0008371501272264631,
	"loss": 6.4643,
	"step": 208000
	},
	{
	"epoch": 8.162066940692895,
	"grad_norm": 3.0,
	"learning_rate": 0.000836758661186142,
	"loss": 6.4722,
	"step": 208500
	},
	{
	"epoch": 8.181640242708944,
	"grad_norm": 1.3359375,
	"learning_rate": 0.0008363671951458211,
	"loss": 6.4671,
	"step": 209000
	},
	{
	"epoch": 8.201213544724995,
	"grad_norm": 5.0,
	"learning_rate": 0.0008359757291055001,
	"loss": 6.4788,
	"step": 209500
	},
	{
	"epoch": 8.220786846741046,
	"grad_norm": 3.609375,
	"learning_rate": 0.0008355842630651791,
	"loss": 6.4751,
	"step": 210000
	},
	{
	"epoch": 8.240360148757095,
	"grad_norm": 0.93359375,
	"learning_rate": 0.000835192797024858,
	"loss": 6.4759,
	"step": 210500
	},
	{
	"epoch": 8.259933450773145,
	"grad_norm": 12.6875,
	"learning_rate": 0.0008348013309845371,
	"loss": 6.4707,
	"step": 211000
	},
	{
	"epoch": 8.279506752789196,
	"grad_norm": 1.828125,
	"learning_rate": 0.0008344098649442161,
	"loss": 6.4734,
	"step": 211500
	},
	{
	"epoch": 8.299080054805245,
	"grad_norm": 1.625,
	"learning_rate": 0.0008340183989038951,
	"loss": 6.4632,
	"step": 212000
	},
	{
	"epoch": 8.318653356821295,
	"grad_norm": 1.3125,
	"learning_rate": 0.000833626932863574,
	"loss": 6.4708,
	"step": 212500
	},
	{
	"epoch": 8.338226658837346,
	"grad_norm": 1.5390625,
	"learning_rate": 0.0008332354668232531,
	"loss": 6.4614,
	"step": 213000
	},
	{
	"epoch": 8.357799960853397,
	"grad_norm": 1.234375,
	"learning_rate": 0.0008328440007829321,
	"loss": 6.4625,
	"step": 213500
	},
	{
	"epoch": 8.377373262869446,
	"grad_norm": 2.5,
	"learning_rate": 0.0008324525347426111,
	"loss": 6.4605,
	"step": 214000
	},
	{
	"epoch": 8.396946564885496,
	"grad_norm": 8.0,
	"learning_rate": 0.0008320610687022901,
	"loss": 6.4681,
	"step": 214500
	},
	{
	"epoch": 8.416519866901547,
	"grad_norm": 1.6875,
	"learning_rate": 0.0008316696026619691,
	"loss": 6.46,
	"step": 215000
	},
	{
	"epoch": 8.436093168917596,
	"grad_norm": 1.5,
	"learning_rate": 0.0008312781366216481,
	"loss": 6.4718,
	"step": 215500
	},
	{
	"epoch": 8.455666470933647,
	"grad_norm": 1.6015625,
	"learning_rate": 0.0008308866705813271,
	"loss": 6.4647,
	"step": 216000
	},
	{
	"epoch": 8.475239772949697,
	"grad_norm": 1.0859375,
	"learning_rate": 0.0008304952045410061,
	"loss": 6.4723,
	"step": 216500
	},
	{
	"epoch": 8.494813074965746,
	"grad_norm": 1.234375,
	"learning_rate": 0.0008301037385006851,
	"loss": 6.4798,
	"step": 217000
	},
	{
	"epoch": 8.514386376981797,
	"grad_norm": 2.09375,
	"learning_rate": 0.0008297122724603641,
	"loss": 6.468,
	"step": 217500
	},
	{
	"epoch": 8.533959678997848,
	"grad_norm": 1.234375,
	"learning_rate": 0.0008293208064200431,
	"loss": 6.4728,
	"step": 218000
	},
	{
	"epoch": 8.553532981013896,
	"grad_norm": 0.98828125,
	"learning_rate": 0.0008289293403797221,
	"loss": 6.4703,
	"step": 218500
	},
	{
	"epoch": 8.573106283029947,
	"grad_norm": 1.3828125,
	"learning_rate": 0.0008285378743394011,
	"loss": 6.4645,
	"step": 219000
	},
	{
	"epoch": 8.592679585045998,
	"grad_norm": 0.9140625,
	"learning_rate": 0.0008281464082990801,
	"loss": 6.4694,
	"step": 219500
	},
	{
	"epoch": 8.612252887062047,
	"grad_norm": 1.1328125,
	"learning_rate": 0.0008277549422587591,
	"loss": 6.4632,
	"step": 220000
	},
	{
	"epoch": 8.631826189078097,
	"grad_norm": 3.328125,
	"learning_rate": 0.0008273634762184381,
	"loss": 6.4733,
	"step": 220500
	},
	{
	"epoch": 8.651399491094148,
	"grad_norm": 3.25,
	"learning_rate": 0.0008269720101781171,
	"loss": 6.4682,
	"step": 221000
	},
	{
	"epoch": 8.670972793110197,
	"grad_norm": 1.0859375,
	"learning_rate": 0.0008265805441377961,
	"loss": 6.4654,
	"step": 221500
	},
	{
	"epoch": 8.690546095126248,
	"grad_norm": 2.890625,
	"learning_rate": 0.0008261890780974751,
	"loss": 6.4569,
	"step": 222000
	},
	{
	"epoch": 8.710119397142298,
	"grad_norm": 0.9921875,
	"learning_rate": 0.0008257976120571541,
	"loss": 6.4643,
	"step": 222500
	},
	{
	"epoch": 8.729692699158347,
	"grad_norm": 0.890625,
	"learning_rate": 0.0008254061460168331,
	"loss": 6.4544,
	"step": 223000
	},
	{
	"epoch": 8.749266001174398,
	"grad_norm": 1.234375,
	"learning_rate": 0.000825014679976512,
	"loss": 6.4667,
	"step": 223500
	},
	{
	"epoch": 8.768839303190449,
	"grad_norm": 0.98046875,
	"learning_rate": 0.0008246232139361912,
	"loss": 6.458,
	"step": 224000
	},
	{
	"epoch": 8.7884126052065,
	"grad_norm": 1.6796875,
	"learning_rate": 0.00082423174789587,
	"loss": 6.4643,
	"step": 224500
	},
	{
	"epoch": 8.807985907222548,
	"grad_norm": 0.94140625,
	"learning_rate": 0.000823840281855549,
	"loss": 6.4635,
	"step": 225000
	},
	{
	"epoch": 8.827559209238599,
	"grad_norm": 1.5703125,
	"learning_rate": 0.000823448815815228,
	"loss": 6.458,
	"step": 225500
	},
	{
	"epoch": 8.84713251125465,
	"grad_norm": 1.0625,
	"learning_rate": 0.000823057349774907,
	"loss": 6.4666,
	"step": 226000
	},
	{
	"epoch": 8.866705813270698,
	"grad_norm": 1.859375,
	"learning_rate": 0.000822665883734586,
	"loss": 6.4582,
	"step": 226500
	},
	{
	"epoch": 8.886279115286749,
	"grad_norm": 2.515625,
	"learning_rate": 0.000822274417694265,
	"loss": 6.4728,
	"step": 227000
	},
	{
	"epoch": 8.9058524173028,
	"grad_norm": 1.7734375,
	"learning_rate": 0.000821882951653944,
	"loss": 6.4735,
	"step": 227500
	},
	{
	"epoch": 8.925425719318849,
	"grad_norm": 1.3125,
	"learning_rate": 0.000821491485613623,
	"loss": 6.4586,
	"step": 228000
	},
	{
	"epoch": 8.9449990213349,
	"grad_norm": 0.93359375,
	"learning_rate": 0.000821100019573302,
	"loss": 6.4698,
	"step": 228500
	},
	{
	"epoch": 8.96457232335095,
	"grad_norm": 1.1484375,
	"learning_rate": 0.000820708553532981,
	"loss": 6.469,
	"step": 229000
	},
	{
	"epoch": 8.984145625366999,
	"grad_norm": 2.046875,
	"learning_rate": 0.00082031708749266,
	"loss": 6.4725,
	"step": 229500
	},
	{
	"epoch": 9.0,
	"eval_loss": 6.4647536277771,
	"eval_runtime": 21.362,
	"eval_samples_per_second": 93.624,
	"eval_steps_per_second": 5.852,
	"step": 229905
	},
	{
	"epoch": 9.00371892738305,
	"grad_norm": 1.5859375,
	"learning_rate": 0.000819925621452339,
	"loss": 6.4643,
	"step": 230000
	},
	{
	"epoch": 9.0232922293991,
	"grad_norm": 2.828125,
	"learning_rate": 0.000819534155412018,
	"loss": 6.4632,
	"step": 230500
	},
	{
	"epoch": 9.04286553141515,
	"grad_norm": 1.390625,
	"learning_rate": 0.000819142689371697,
	"loss": 6.4633,
	"step": 231000
	},
	{
	"epoch": 9.0624388334312,
	"grad_norm": 2.296875,
	"learning_rate": 0.000818751223331376,
	"loss": 6.4673,
	"step": 231500
	},
	{
	"epoch": 9.08201213544725,
	"grad_norm": 3.40625,
	"learning_rate": 0.000818359757291055,
	"loss": 6.469,
	"step": 232000
	},
	{
	"epoch": 9.1015854374633,
	"grad_norm": 1.28125,
	"learning_rate": 0.000817968291250734,
	"loss": 6.4532,
	"step": 232500
	},
	{
	"epoch": 9.12115873947935,
	"grad_norm": 1.1953125,
	"learning_rate": 0.000817576825210413,
	"loss": 6.4608,
	"step": 233000
	},
	{
	"epoch": 9.1407320414954,
	"grad_norm": 1.046875,
	"learning_rate": 0.000817185359170092,
	"loss": 6.4537,
	"step": 233500
	},
	{
	"epoch": 9.16030534351145,
	"grad_norm": 2.90625,
	"learning_rate": 0.000816793893129771,
	"loss": 6.444,
	"step": 234000
	},
	{
	"epoch": 9.1798786455275,
	"grad_norm": 2.40625,
	"learning_rate": 0.00081640242708945,
	"loss": 6.4606,
	"step": 234500
	},
	{
	"epoch": 9.199451947543551,
	"grad_norm": 1.3046875,
	"learning_rate": 0.000816010961049129,
	"loss": 6.4578,
	"step": 235000
	},
	{
	"epoch": 9.2190252495596,
	"grad_norm": 3.359375,
	"learning_rate": 0.0008156194950088081,
	"loss": 6.4648,
	"step": 235500
	},
	{
	"epoch": 9.23859855157565,
	"grad_norm": 1.3359375,
	"learning_rate": 0.000815228028968487,
	"loss": 6.4649,
	"step": 236000
	},
	{
	"epoch": 9.258171853591701,
	"grad_norm": 1.6796875,
	"learning_rate": 0.000814836562928166,
	"loss": 6.4617,
	"step": 236500
	},
	{
	"epoch": 9.27774515560775,
	"grad_norm": 5.34375,
	"learning_rate": 0.000814445096887845,
	"loss": 6.4598,
	"step": 237000
	},
	{
	"epoch": 9.2973184576238,
	"grad_norm": 7.15625,
	"learning_rate": 0.0008140536308475241,
	"loss": 6.4565,
	"step": 237500
	},
	{
	"epoch": 9.316891759639852,
	"grad_norm": 2.546875,
	"learning_rate": 0.000813662164807203,
	"loss": 6.4612,
	"step": 238000
	},
	{
	"epoch": 9.336465061655902,
	"grad_norm": 1.375,
	"learning_rate": 0.000813270698766882,
	"loss": 6.4583,
	"step": 238500
	},
	{
	"epoch": 9.356038363671951,
	"grad_norm": 18.5,
	"learning_rate": 0.000812879232726561,
	"loss": 6.4549,
	"step": 239000
	},
	{
	"epoch": 9.375611665688002,
	"grad_norm": 5.25,
	"learning_rate": 0.0008124877666862401,
	"loss": 6.4607,
	"step": 239500
	},
	{
	"epoch": 9.395184967704052,
	"grad_norm": 1.2890625,
	"learning_rate": 0.000812096300645919,
	"loss": 6.4573,
	"step": 240000
	},
	{
	"epoch": 9.414758269720101,
	"grad_norm": 1.03125,
	"learning_rate": 0.000811704834605598,
	"loss": 6.4706,
	"step": 240500
	},
	{
	"epoch": 9.434331571736152,
	"grad_norm": 7.3125,
	"learning_rate": 0.000811313368565277,
	"loss": 6.4632,
	"step": 241000
	},
	{
	"epoch": 9.453904873752203,
	"grad_norm": 5.28125,
	"learning_rate": 0.000810921902524956,
	"loss": 6.4549,
	"step": 241500
	},
	{
	"epoch": 9.473478175768252,
	"grad_norm": 3.546875,
	"learning_rate": 0.000810530436484635,
	"loss": 6.4705,
	"step": 242000
	},
	{
	"epoch": 9.493051477784302,
	"grad_norm": 2.125,
	"learning_rate": 0.000810138970444314,
	"loss": 6.4479,
	"step": 242500
	},
	{
	"epoch": 9.512624779800353,
	"grad_norm": 1.5390625,
	"learning_rate": 0.000809747504403993,
	"loss": 6.4602,
	"step": 243000
	},
	{
	"epoch": 9.532198081816402,
	"grad_norm": 1.1484375,
	"learning_rate": 0.000809356038363672,
	"loss": 6.469,
	"step": 243500
	},
	{
	"epoch": 9.551771383832452,
	"grad_norm": 5.71875,
	"learning_rate": 0.0008089645723233509,
	"loss": 6.464,
	"step": 244000
	},
	{
	"epoch": 9.571344685848503,
	"grad_norm": 2.609375,
	"learning_rate": 0.0008085731062830299,
	"loss": 6.4604,
	"step": 244500
	},
	{
	"epoch": 9.590917987864552,
	"grad_norm": 1.7265625,
	"learning_rate": 0.000808181640242709,
	"loss": 6.4589,
	"step": 245000
	},
	{
	"epoch": 9.610491289880603,
	"grad_norm": 1.15625,
	"learning_rate": 0.0008077901742023879,
	"loss": 6.4551,
	"step": 245500
	},
	{
	"epoch": 9.630064591896653,
	"grad_norm": 1.6796875,
	"learning_rate": 0.0008073987081620669,
	"loss": 6.4583,
	"step": 246000
	},
	{
	"epoch": 9.649637893912702,
	"grad_norm": 2.265625,
	"learning_rate": 0.0008070072421217459,
	"loss": 6.4529,
	"step": 246500
	},
	{
	"epoch": 9.669211195928753,
	"grad_norm": 1.2734375,
	"learning_rate": 0.000806615776081425,
	"loss": 6.457,
	"step": 247000
	},
	{
	"epoch": 9.688784497944804,
	"grad_norm": 1.5390625,
	"learning_rate": 0.0008062243100411039,
	"loss": 6.4537,
	"step": 247500
	},
	{
	"epoch": 9.708357799960853,
	"grad_norm": 1.3671875,
	"learning_rate": 0.0008058328440007829,
	"loss": 6.4652,
	"step": 248000
	},
	{
	"epoch": 9.727931101976903,
	"grad_norm": 1.390625,
	"learning_rate": 0.0008054413779604619,
	"loss": 6.4547,
	"step": 248500
	},
	{
	"epoch": 9.747504403992954,
	"grad_norm": 1.5625,
	"learning_rate": 0.000805049911920141,
	"loss": 6.467,
	"step": 249000
	},
	{
	"epoch": 9.767077706009005,
	"grad_norm": 1.4453125,
	"learning_rate": 0.0008046584458798199,
	"loss": 6.4568,
	"step": 249500
	},
	{
	"epoch": 9.786651008025053,
	"grad_norm": 1.75,
	"learning_rate": 0.0008042669798394989,
	"loss": 6.4616,
	"step": 250000
	},
	{
	"epoch": 9.806224310041104,
	"grad_norm": 1.046875,
	"learning_rate": 0.0008038755137991779,
	"loss": 6.455,
	"step": 250500
	},
	{
	"epoch": 9.825797612057155,
	"grad_norm": 1.625,
	"learning_rate": 0.000803484047758857,
	"loss": 6.4547,
	"step": 251000
	},
	{
	"epoch": 9.845370914073204,
	"grad_norm": 0.95703125,
	"learning_rate": 0.0008030925817185359,
	"loss": 6.4668,
	"step": 251500
	},
	{
	"epoch": 9.864944216089254,
	"grad_norm": 1.515625,
	"learning_rate": 0.0008027011156782149,
	"loss": 6.4458,
	"step": 252000
	},
	{
	"epoch": 9.884517518105305,
	"grad_norm": 2.171875,
	"learning_rate": 0.0008023096496378939,
	"loss": 6.4636,
	"step": 252500
	},
	{
	"epoch": 9.904090820121354,
	"grad_norm": 1.9140625,
	"learning_rate": 0.000801918183597573,
	"loss": 6.4622,
	"step": 253000
	},
	{
	"epoch": 9.923664122137405,
	"grad_norm": 1.7734375,
	"learning_rate": 0.0008015267175572519,
	"loss": 6.4557,
	"step": 253500
	},
	{
	"epoch": 9.943237424153455,
	"grad_norm": 2.015625,
	"learning_rate": 0.0008011352515169309,
	"loss": 6.4513,
	"step": 254000
	},
	{
	"epoch": 9.962810726169504,
	"grad_norm": 1.0859375,
	"learning_rate": 0.00080074378547661,
	"loss": 6.4529,
	"step": 254500
	},
	{
	"epoch": 9.982384028185555,
	"grad_norm": 1.3046875,
	"learning_rate": 0.000800352319436289,
	"loss": 6.4559,
	"step": 255000
	},
	{
	"epoch": 10.0,
	"eval_loss": 6.455629825592041,
	"eval_runtime": 21.377,
	"eval_samples_per_second": 93.559,
	"eval_steps_per_second": 5.847,
	"step": 255450
	},
	{
	"epoch": 10.001957330201606,
	"grad_norm": 0.984375,
	"learning_rate": 0.0007999608533959679,
	"loss": 6.454,
	"step": 255500
	},
	{
	"epoch": 10.021530632217654,
	"grad_norm": 1.78125,
	"learning_rate": 0.0007995693873556469,
	"loss": 6.4444,
	"step": 256000
	},
	{
	"epoch": 10.041103934233705,
	"grad_norm": 3.0625,
	"learning_rate": 0.000799177921315326,
	"loss": 6.4606,
	"step": 256500
	},
	{
	"epoch": 10.060677236249756,
	"grad_norm": 1.09375,
	"learning_rate": 0.000798786455275005,
	"loss": 6.4541,
	"step": 257000
	},
	{
	"epoch": 10.080250538265805,
	"grad_norm": 2.59375,
	"learning_rate": 0.0007983949892346839,
	"loss": 6.4583,
	"step": 257500
	},
	{
	"epoch": 10.099823840281855,
	"grad_norm": 8.6875,
	"learning_rate": 0.0007980035231943629,
	"loss": 6.4542,
	"step": 258000
	},
	{
	"epoch": 10.119397142297906,
	"grad_norm": 1.0390625,
	"learning_rate": 0.000797612057154042,
	"loss": 6.4503,
	"step": 258500
	},
	{
	"epoch": 10.138970444313955,
	"grad_norm": 1.2890625,
	"learning_rate": 0.0007972205911137209,
	"loss": 6.4531,
	"step": 259000
	},
	{
	"epoch": 10.158543746330006,
	"grad_norm": 2.03125,
	"learning_rate": 0.0007968291250733999,
	"loss": 6.4552,
	"step": 259500
	},
	{
	"epoch": 10.178117048346056,
	"grad_norm": 2.71875,
	"learning_rate": 0.0007964376590330789,
	"loss": 6.4557,
	"step": 260000
	},
	{
	"epoch": 10.197690350362105,
	"grad_norm": 2.359375,
	"learning_rate": 0.000796046192992758,
	"loss": 6.4519,
	"step": 260500
	},
	{
	"epoch": 10.217263652378156,
	"grad_norm": 1.546875,
	"learning_rate": 0.0007956547269524369,
	"loss": 6.4584,
	"step": 261000
	},
	{
	"epoch": 10.236836954394207,
	"grad_norm": 1.2421875,
	"learning_rate": 0.0007952632609121159,
	"loss": 6.4519,
	"step": 261500
	},
	{
	"epoch": 10.256410256410255,
	"grad_norm": 2.46875,
	"learning_rate": 0.0007948717948717948,
	"loss": 6.4576,
	"step": 262000
	},
	{
	"epoch": 10.275983558426306,
	"grad_norm": 1.1015625,
	"learning_rate": 0.000794480328831474,
	"loss": 6.4455,
	"step": 262500
	},
	{
	"epoch": 10.295556860442357,
	"grad_norm": 2.671875,
	"learning_rate": 0.0007940888627911528,
	"loss": 6.4499,
	"step": 263000
	},
	{
	"epoch": 10.315130162458408,
	"grad_norm": 1.4453125,
	"learning_rate": 0.0007936973967508318,
	"loss": 6.4572,
	"step": 263500
	},
	{
	"epoch": 10.334703464474456,
	"grad_norm": 1.0390625,
	"learning_rate": 0.0007933059307105108,
	"loss": 6.4513,
	"step": 264000
	},
	{
	"epoch": 10.354276766490507,
	"grad_norm": 1.140625,
	"learning_rate": 0.0007929144646701899,
	"loss": 6.4472,
	"step": 264500
	},
	{
	"epoch": 10.373850068506558,
	"grad_norm": 1.953125,
	"learning_rate": 0.0007925229986298688,
	"loss": 6.4385,
	"step": 265000
	},
	{
	"epoch": 10.393423370522607,
	"grad_norm": 1.1484375,
	"learning_rate": 0.0007921315325895478,
	"loss": 6.4558,
	"step": 265500
	},
	{
	"epoch": 10.412996672538657,
	"grad_norm": 2.46875,
	"learning_rate": 0.0007917400665492269,
	"loss": 6.4503,
	"step": 266000
	},
	{
	"epoch": 10.432569974554708,
	"grad_norm": 1.359375,
	"learning_rate": 0.0007913486005089059,
	"loss": 6.4402,
	"step": 266500
	},
	{
	"epoch": 10.452143276570757,
	"grad_norm": 1.046875,
	"learning_rate": 0.0007909571344685848,
	"loss": 6.4552,
	"step": 267000
	},
	{
	"epoch": 10.471716578586808,
	"grad_norm": 1.25,
	"learning_rate": 0.0007905656684282638,
	"loss": 6.4488,
	"step": 267500
	},
	{
	"epoch": 10.491289880602858,
	"grad_norm": 1.3515625,
	"learning_rate": 0.0007901742023879429,
	"loss": 6.4577,
	"step": 268000
	},
	{
	"epoch": 10.510863182618907,
	"grad_norm": 2.546875,
	"learning_rate": 0.0007897827363476219,
	"loss": 6.4526,
	"step": 268500
	},
	{
	"epoch": 10.530436484634958,
	"grad_norm": 3.65625,
	"learning_rate": 0.0007893912703073008,
	"loss": 6.4473,
	"step": 269000
	},
	{
	"epoch": 10.550009786651009,
	"grad_norm": 1.15625,
	"learning_rate": 0.0007889998042669798,
	"loss": 6.4555,
	"step": 269500
	},
	{
	"epoch": 10.569583088667057,
	"grad_norm": 1.609375,
	"learning_rate": 0.0007886083382266589,
	"loss": 6.4522,
	"step": 270000
	},
	{
	"epoch": 10.589156390683108,
	"grad_norm": 2.171875,
	"learning_rate": 0.0007882168721863379,
	"loss": 6.4481,
	"step": 270500
	},
	{
	"epoch": 10.608729692699159,
	"grad_norm": 1.234375,
	"learning_rate": 0.0007878254061460168,
	"loss": 6.4498,
	"step": 271000
	},
	{
	"epoch": 10.628302994715208,
	"grad_norm": 1.015625,
	"learning_rate": 0.0007874339401056958,
	"loss": 6.4581,
	"step": 271500
	},
	{
	"epoch": 10.647876296731258,
	"grad_norm": 4.0,
	"learning_rate": 0.0007870424740653749,
	"loss": 6.4554,
	"step": 272000
	},
	{
	"epoch": 10.667449598747309,
	"grad_norm": 1.625,
	"learning_rate": 0.0007866510080250539,
	"loss": 6.4506,
	"step": 272500
	},
	{
	"epoch": 10.68702290076336,
	"grad_norm": 1.1484375,
	"learning_rate": 0.0007862595419847328,
	"loss": 6.4586,
	"step": 273000
	},
	{
	"epoch": 10.706596202779409,
	"grad_norm": 2.453125,
	"learning_rate": 0.0007858680759444118,
	"loss": 6.4467,
	"step": 273500
	},
	{
	"epoch": 10.72616950479546,
	"grad_norm": 1.5703125,
	"learning_rate": 0.0007854766099040909,
	"loss": 6.4449,
	"step": 274000
	},
	{
	"epoch": 10.74574280681151,
	"grad_norm": 2.71875,
	"learning_rate": 0.0007850851438637698,
	"loss": 6.4576,
	"step": 274500
	},
	{
	"epoch": 10.765316108827559,
	"grad_norm": 2.515625,
	"learning_rate": 0.0007846936778234488,
	"loss": 6.4427,
	"step": 275000
	},
	{
	"epoch": 10.78488941084361,
	"grad_norm": 1.328125,
	"learning_rate": 0.0007843022117831279,
	"loss": 6.4571,
	"step": 275500
	},
	{
	"epoch": 10.80446271285966,
	"grad_norm": 1.5703125,
	"learning_rate": 0.0007839107457428069,
	"loss": 6.4507,
	"step": 276000
	},
	{
	"epoch": 10.824036014875709,
	"grad_norm": 4.875,
	"learning_rate": 0.0007835192797024858,
	"loss": 6.4542,
	"step": 276500
	},
	{
	"epoch": 10.84360931689176,
	"grad_norm": 18.125,
	"learning_rate": 0.0007831278136621648,
	"loss": 6.4592,
	"step": 277000
	},
	{
	"epoch": 10.86318261890781,
	"grad_norm": 1.046875,
	"learning_rate": 0.0007827363476218439,
	"loss": 6.4503,
	"step": 277500
	},
	{
	"epoch": 10.88275592092386,
	"grad_norm": 1.265625,
	"learning_rate": 0.0007823448815815229,
	"loss": 6.461,
	"step": 278000
	},
	{
	"epoch": 10.90232922293991,
	"grad_norm": 4.1875,
	"learning_rate": 0.0007819534155412018,
	"loss": 6.4549,
	"step": 278500
	},
	{
	"epoch": 10.92190252495596,
	"grad_norm": 26.375,
	"learning_rate": 0.0007815619495008808,
	"loss": 6.4469,
	"step": 279000
	},
	{
	"epoch": 10.94147582697201,
	"grad_norm": 0.98828125,
	"learning_rate": 0.0007811704834605599,
	"loss": 6.453,
	"step": 279500
	},
	{
	"epoch": 10.96104912898806,
	"grad_norm": 25.5,
	"learning_rate": 0.0007807790174202389,
	"loss": 6.4485,
	"step": 280000
	},
	{
	"epoch": 10.980622431004111,
	"grad_norm": 2.90625,
	"learning_rate": 0.0007803875513799178,
	"loss": 6.4544,
	"step": 280500
	},
	{
	"epoch": 11.0,
	"eval_loss": 6.449069499969482,
	"eval_runtime": 22.9095,
	"eval_samples_per_second": 87.3,
	"eval_steps_per_second": 5.456,
	"step": 280995
	},
	{
	"epoch": 11.00019573302016,
	"grad_norm": 10.125,
	"learning_rate": 0.0007799960853395967,
	"loss": 6.4525,
	"step": 281000
	},
	{
	"epoch": 11.01976903503621,
	"grad_norm": 1.3984375,
	"learning_rate": 0.0007796046192992759,
	"loss": 6.4456,
	"step": 281500
	},
	{
	"epoch": 11.039342337052261,
	"grad_norm": 7.28125,
	"learning_rate": 0.0007792131532589549,
	"loss": 6.4479,
	"step": 282000
	},
	{
	"epoch": 11.05891563906831,
	"grad_norm": 1.234375,
	"learning_rate": 0.0007788216872186337,
	"loss": 6.4415,
	"step": 282500
	},
	{
	"epoch": 11.07848894108436,
	"grad_norm": 1.234375,
	"learning_rate": 0.0007784302211783127,
	"loss": 6.4438,
	"step": 283000
	},
	{
	"epoch": 11.098062243100411,
	"grad_norm": 1.5703125,
	"learning_rate": 0.0007780387551379918,
	"loss": 6.4485,
	"step": 283500
	},
	{
	"epoch": 11.11763554511646,
	"grad_norm": 2.171875,
	"learning_rate": 0.0007776472890976708,
	"loss": 6.4491,
	"step": 284000
	},
	{
	"epoch": 11.137208847132511,
	"grad_norm": 1.2890625,
	"learning_rate": 0.0007772558230573497,
	"loss": 6.449,
	"step": 284500
	},
	{
	"epoch": 11.156782149148562,
	"grad_norm": 3.046875,
	"learning_rate": 0.0007768643570170288,
	"loss": 6.4526,
	"step": 285000
	},
	{
	"epoch": 11.17635545116461,
	"grad_norm": 3.859375,
	"learning_rate": 0.0007764728909767078,
	"loss": 6.4408,
	"step": 285500
	},
	{
	"epoch": 11.195928753180661,
	"grad_norm": 1.21875,
	"learning_rate": 0.0007760814249363868,
	"loss": 6.4384,
	"step": 286000
	},
	{
	"epoch": 11.215502055196712,
	"grad_norm": 1.4453125,
	"learning_rate": 0.0007756899588960657,
	"loss": 6.4557,
	"step": 286500
	},
	{
	"epoch": 11.235075357212763,
	"grad_norm": 0.9375,
	"learning_rate": 0.0007752984928557448,
	"loss": 6.4432,
	"step": 287000
	},
	{
	"epoch": 11.254648659228812,
	"grad_norm": 1.5859375,
	"learning_rate": 0.0007749070268154238,
	"loss": 6.4451,
	"step": 287500
	},
	{
	"epoch": 11.274221961244862,
	"grad_norm": 2.734375,
	"learning_rate": 0.0007745155607751028,
	"loss": 6.4532,
	"step": 288000
	},
	{
	"epoch": 11.293795263260913,
	"grad_norm": 2.234375,
	"learning_rate": 0.0007741240947347817,
	"loss": 6.4489,
	"step": 288500
	},
	{
	"epoch": 11.313368565276962,
	"grad_norm": 1.2734375,
	"learning_rate": 0.0007737326286944608,
	"loss": 6.4448,
	"step": 289000
	},
	{
	"epoch": 11.332941867293012,
	"grad_norm": 1.5859375,
	"learning_rate": 0.0007733411626541398,
	"loss": 6.4421,
	"step": 289500
	},
	{
	"epoch": 11.352515169309063,
	"grad_norm": 1.2109375,
	"learning_rate": 0.0007729496966138187,
	"loss": 6.4408,
	"step": 290000
	},
	{
	"epoch": 11.372088471325112,
	"grad_norm": 1.125,
	"learning_rate": 0.0007725582305734977,
	"loss": 6.4487,
	"step": 290500
	},
	{
	"epoch": 11.391661773341163,
	"grad_norm": 1.171875,
	"learning_rate": 0.0007721667645331768,
	"loss": 6.4488,
	"step": 291000
	},
	{
	"epoch": 11.411235075357213,
	"grad_norm": 1.5625,
	"learning_rate": 0.0007717752984928558,
	"loss": 6.4394,
	"step": 291500
	},
	{
	"epoch": 11.430808377373262,
	"grad_norm": 1.40625,
	"learning_rate": 0.0007713838324525347,
	"loss": 6.4548,
	"step": 292000
	},
	{
	"epoch": 11.450381679389313,
	"grad_norm": 1.4375,
	"learning_rate": 0.0007709923664122137,
	"loss": 6.454,
	"step": 292500
	},
	{
	"epoch": 11.469954981405364,
	"grad_norm": 1.9375,
	"learning_rate": 0.0007706009003718928,
	"loss": 6.4516,
	"step": 293000
	},
	{
	"epoch": 11.489528283421413,
	"grad_norm": 1.2109375,
	"learning_rate": 0.0007702094343315718,
	"loss": 6.4482,
	"step": 293500
	},
	{
	"epoch": 11.509101585437463,
	"grad_norm": 2.40625,
	"learning_rate": 0.0007698179682912507,
	"loss": 6.4602,
	"step": 294000
	},
	{
	"epoch": 11.528674887453514,
	"grad_norm": 1.453125,
	"learning_rate": 0.0007694265022509297,
	"loss": 6.4459,
	"step": 294500
	},
	{
	"epoch": 11.548248189469563,
	"grad_norm": 1.4375,
	"learning_rate": 0.0007690350362106088,
	"loss": 6.4508,
	"step": 295000
	},
	{
	"epoch": 11.567821491485613,
	"grad_norm": 1.8203125,
	"learning_rate": 0.0007686435701702878,
	"loss": 6.4459,
	"step": 295500
	},
	{
	"epoch": 11.587394793501664,
	"grad_norm": 4.78125,
	"learning_rate": 0.0007682521041299667,
	"loss": 6.4517,
	"step": 296000
	},
	{
	"epoch": 11.606968095517713,
	"grad_norm": 1.3125,
	"learning_rate": 0.0007678606380896458,
	"loss": 6.4519,
	"step": 296500
	},
	{
	"epoch": 11.626541397533764,
	"grad_norm": 1.3515625,
	"learning_rate": 0.0007674691720493248,
	"loss": 6.4474,
	"step": 297000
	},
	{
	"epoch": 11.646114699549814,
	"grad_norm": 1.078125,
	"learning_rate": 0.0007670777060090038,
	"loss": 6.4506,
	"step": 297500
	},
	{
	"epoch": 11.665688001565865,
	"grad_norm": 0.9296875,
	"learning_rate": 0.0007666862399686827,
	"loss": 6.4396,
	"step": 298000
	},
	{
	"epoch": 11.685261303581914,
	"grad_norm": 1.0703125,
	"learning_rate": 0.0007662947739283618,
	"loss": 6.4453,
	"step": 298500
	},
	{
	"epoch": 11.704834605597965,
	"grad_norm": 1.9296875,
	"learning_rate": 0.0007659033078880408,
	"loss": 6.4414,
	"step": 299000
	},
	{
	"epoch": 11.724407907614015,
	"grad_norm": 1.46875,
	"learning_rate": 0.0007655118418477198,
	"loss": 6.4513,
	"step": 299500
	},
	{
	"epoch": 11.743981209630064,
	"grad_norm": 3.53125,
	"learning_rate": 0.0007651203758073986,
	"loss": 6.4501,
	"step": 300000
	},
	{
	"epoch": 11.763554511646115,
	"grad_norm": 1.4765625,
	"learning_rate": 0.0007647289097670778,
	"loss": 6.4471,
	"step": 300500
	},
	{
	"epoch": 11.783127813662166,
	"grad_norm": 2.3125,
	"learning_rate": 0.0007643374437267568,
	"loss": 6.4567,
	"step": 301000
	},
	{
	"epoch": 11.802701115678214,
	"grad_norm": 1.59375,
	"learning_rate": 0.0007639459776864357,
	"loss": 6.4509,
	"step": 301500
	},
	{
	"epoch": 11.822274417694265,
	"grad_norm": 1.140625,
	"learning_rate": 0.0007635545116461146,
	"loss": 6.4451,
	"step": 302000
	},
	{
	"epoch": 11.841847719710316,
	"grad_norm": 1.7421875,
	"learning_rate": 0.0007631630456057937,
	"loss": 6.4524,
	"step": 302500
	},
	{
	"epoch": 11.861421021726365,
	"grad_norm": 12.8125,
	"learning_rate": 0.0007627715795654727,
	"loss": 6.4502,
	"step": 303000
	},
	{
	"epoch": 11.880994323742415,
	"grad_norm": 1.8203125,
	"learning_rate": 0.0007623801135251517,
	"loss": 6.4476,
	"step": 303500
	},
	{
	"epoch": 11.900567625758466,
	"grad_norm": 1.421875,
	"learning_rate": 0.0007619886474848306,
	"loss": 6.4338,
	"step": 304000
	},
	{
	"epoch": 11.920140927774515,
	"grad_norm": 1.9296875,
	"learning_rate": 0.0007615971814445097,
	"loss": 6.4472,
	"step": 304500
	},
	{
	"epoch": 11.939714229790566,
	"grad_norm": 2.78125,
	"learning_rate": 0.0007612057154041887,
	"loss": 6.4465,
	"step": 305000
	},
	{
	"epoch": 11.959287531806616,
	"grad_norm": 1.2734375,
	"learning_rate": 0.0007608142493638676,
	"loss": 6.4529,
	"step": 305500
	},
	{
	"epoch": 11.978860833822665,
	"grad_norm": 1.375,
	"learning_rate": 0.0007604227833235467,
	"loss": 6.4456,
	"step": 306000
	},
	{
	"epoch": 11.998434135838716,
	"grad_norm": 2.015625,
	"learning_rate": 0.0007600313172832257,
	"loss": 6.4525,
	"step": 306500
	},
	{
	"epoch": 12.0,
	"eval_loss": 6.446938514709473,
	"eval_runtime": 23.9647,
	"eval_samples_per_second": 83.456,
	"eval_steps_per_second": 5.216,
	"step": 306540
	},
	{
	"epoch": 12.018007437854767,
	"grad_norm": 1.4453125,
	"learning_rate": 0.0007596398512429047,
	"loss": 6.4458,
	"step": 307000
	},
	{
	"epoch": 12.037580739870815,
	"grad_norm": 1.734375,
	"learning_rate": 0.0007592483852025836,
	"loss": 6.4423,
	"step": 307500
	},
	{
	"epoch": 12.057154041886866,
	"grad_norm": 11.3125,
	"learning_rate": 0.0007588569191622627,
	"loss": 6.4446,
	"step": 308000
	},
	{
	"epoch": 12.076727343902917,
	"grad_norm": 1.3828125,
	"learning_rate": 0.0007584654531219417,
	"loss": 6.4461,
	"step": 308500
	},
	{
	"epoch": 12.096300645918966,
	"grad_norm": 1.84375,
	"learning_rate": 0.0007580739870816207,
	"loss": 6.4431,
	"step": 309000
	},
	{
	"epoch": 12.115873947935016,
	"grad_norm": 2.421875,
	"learning_rate": 0.0007576825210412996,
	"loss": 6.4439,
	"step": 309500
	},
	{
	"epoch": 12.135447249951067,
	"grad_norm": 3.03125,
	"learning_rate": 0.0007572910550009787,
	"loss": 6.4428,
	"step": 310000
	},
	{
	"epoch": 12.155020551967118,
	"grad_norm": 1.046875,
	"learning_rate": 0.0007568995889606577,
	"loss": 6.4456,
	"step": 310500
	},
	{
	"epoch": 12.174593853983167,
	"grad_norm": 1.0390625,
	"learning_rate": 0.0007565081229203367,
	"loss": 6.4479,
	"step": 311000
	},
	{
	"epoch": 12.194167155999217,
	"grad_norm": 2.640625,
	"learning_rate": 0.0007561166568800156,
	"loss": 6.4457,
	"step": 311500
	},
	{
	"epoch": 12.213740458015268,
	"grad_norm": 2.015625,
	"learning_rate": 0.0007557251908396947,
	"loss": 6.4405,
	"step": 312000
	},
	{
	"epoch": 12.233313760031317,
	"grad_norm": 2.21875,
	"learning_rate": 0.0007553337247993737,
	"loss": 6.4557,
	"step": 312500
	},
	{
	"epoch": 12.252887062047368,
	"grad_norm": 1.28125,
	"learning_rate": 0.0007549422587590527,
	"loss": 6.4407,
	"step": 313000
	},
	{
	"epoch": 12.272460364063418,
	"grad_norm": 1.421875,
	"learning_rate": 0.0007545507927187316,
	"loss": 6.4457,
	"step": 313500
	},
	{
	"epoch": 12.292033666079467,
	"grad_norm": 1.1484375,
	"learning_rate": 0.0007541593266784107,
	"loss": 6.4471,
	"step": 314000
	},
	{
	"epoch": 12.311606968095518,
	"grad_norm": 1.4765625,
	"learning_rate": 0.0007537678606380897,
	"loss": 6.4473,
	"step": 314500
	},
	{
	"epoch": 12.331180270111568,
	"grad_norm": 3.03125,
	"learning_rate": 0.0007533763945977687,
	"loss": 6.4451,
	"step": 315000
	},
	{
	"epoch": 12.350753572127617,
	"grad_norm": 1.1171875,
	"learning_rate": 0.0007529849285574477,
	"loss": 6.4336,
	"step": 315500
	},
	{
	"epoch": 12.370326874143668,
	"grad_norm": 1.1875,
	"learning_rate": 0.0007525934625171267,
	"loss": 6.4454,
	"step": 316000
	},
	{
	"epoch": 12.389900176159719,
	"grad_norm": 1.9609375,
	"learning_rate": 0.0007522019964768057,
	"loss": 6.4481,
	"step": 316500
	},
	{
	"epoch": 12.409473478175768,
	"grad_norm": 1.796875,
	"learning_rate": 0.0007518105304364847,
	"loss": 6.4485,
	"step": 317000
	},
	{
	"epoch": 12.429046780191818,
	"grad_norm": 1.5390625,
	"learning_rate": 0.0007514190643961637,
	"loss": 6.4553,
	"step": 317500
	},
	{
	"epoch": 12.448620082207869,
	"grad_norm": 1.421875,
	"learning_rate": 0.0007510275983558427,
	"loss": 6.4435,
	"step": 318000
	},
	{
	"epoch": 12.468193384223918,
	"grad_norm": 1.8046875,
	"learning_rate": 0.0007506361323155217,
	"loss": 6.4435,
	"step": 318500
	},
	{
	"epoch": 12.487766686239969,
	"grad_norm": 2.578125,
	"learning_rate": 0.0007502446662752007,
	"loss": 6.4451,
	"step": 319000
	},
	{
	"epoch": 12.50733998825602,
	"grad_norm": 1.6953125,
	"learning_rate": 0.0007498532002348797,
	"loss": 6.4511,
	"step": 319500
	},
	{
	"epoch": 12.526913290272068,
	"grad_norm": 1.671875,
	"learning_rate": 0.0007494617341945587,
	"loss": 6.4384,
	"step": 320000
	},
	{
	"epoch": 12.546486592288119,
	"grad_norm": 2.09375,
	"learning_rate": 0.0007490702681542376,
	"loss": 6.4448,
	"step": 320500
	},
	{
	"epoch": 12.56605989430417,
	"grad_norm": 2.03125,
	"learning_rate": 0.0007486788021139165,
	"loss": 6.4514,
	"step": 321000
	},
	{
	"epoch": 12.58563319632022,
	"grad_norm": 1.0390625,
	"learning_rate": 0.0007482873360735956,
	"loss": 6.4437,
	"step": 321500
	},
	{
	"epoch": 12.605206498336269,
	"grad_norm": 1.3671875,
	"learning_rate": 0.0007478958700332746,
	"loss": 6.4439,
	"step": 322000
	},
	{
	"epoch": 12.62477980035232,
	"grad_norm": 1.1953125,
	"learning_rate": 0.0007475044039929536,
	"loss": 6.4455,
	"step": 322500
	},
	{
	"epoch": 12.64435310236837,
	"grad_norm": 0.875,
	"learning_rate": 0.0007471129379526325,
	"loss": 6.4413,
	"step": 323000
	},
	{
	"epoch": 12.66392640438442,
	"grad_norm": 1.8125,
	"learning_rate": 0.0007467214719123116,
	"loss": 6.4366,
	"step": 323500
	},
	{
	"epoch": 12.68349970640047,
	"grad_norm": 1.0234375,
	"learning_rate": 0.0007463300058719906,
	"loss": 6.4511,
	"step": 324000
	},
	{
	"epoch": 12.70307300841652,
	"grad_norm": 1.625,
	"learning_rate": 0.0007459385398316696,
	"loss": 6.4384,
	"step": 324500
	},
	{
	"epoch": 12.72264631043257,
	"grad_norm": 0.8203125,
	"learning_rate": 0.0007455470737913485,
	"loss": 6.4402,
	"step": 325000
	},
	{
	"epoch": 12.74221961244862,
	"grad_norm": 4.0625,
	"learning_rate": 0.0007451556077510276,
	"loss": 6.4542,
	"step": 325500
	},
	{
	"epoch": 12.761792914464671,
	"grad_norm": 2.328125,
	"learning_rate": 0.0007447641417107066,
	"loss": 6.4417,
	"step": 326000
	},
	{
	"epoch": 12.78136621648072,
	"grad_norm": 5.4375,
	"learning_rate": 0.0007443726756703856,
	"loss": 6.4429,
	"step": 326500
	},
	{
	"epoch": 12.80093951849677,
	"grad_norm": 1.375,
	"learning_rate": 0.0007439812096300646,
	"loss": 6.45,
	"step": 327000
	},
	{
	"epoch": 12.820512820512821,
	"grad_norm": 1.703125,
	"learning_rate": 0.0007435897435897436,
	"loss": 6.4472,
	"step": 327500
	},
	{
	"epoch": 12.84008612252887,
	"grad_norm": 1.9453125,
	"learning_rate": 0.0007431982775494226,
	"loss": 6.438,
	"step": 328000
	},
	{
	"epoch": 12.85965942454492,
	"grad_norm": 2.234375,
	"learning_rate": 0.0007428068115091016,
	"loss": 6.451,
	"step": 328500
	},
	{
	"epoch": 12.879232726560971,
	"grad_norm": 1.53125,
	"learning_rate": 0.0007424153454687806,
	"loss": 6.4495,
	"step": 329000
	},
	{
	"epoch": 12.89880602857702,
	"grad_norm": 8.375,
	"learning_rate": 0.0007420238794284596,
	"loss": 6.4412,
	"step": 329500
	},
	{
	"epoch": 12.918379330593071,
	"grad_norm": 1.1640625,
	"learning_rate": 0.0007416324133881386,
	"loss": 6.4584,
	"step": 330000
	},
	{
	"epoch": 12.937952632609122,
	"grad_norm": 1.71875,
	"learning_rate": 0.0007412409473478176,
	"loss": 6.4446,
	"step": 330500
	},
	{
	"epoch": 12.95752593462517,
	"grad_norm": 1.8828125,
	"learning_rate": 0.0007408494813074966,
	"loss": 6.4465,
	"step": 331000
	},
	{
	"epoch": 12.977099236641221,
	"grad_norm": 1.890625,
	"learning_rate": 0.0007404580152671756,
	"loss": 6.4441,
	"step": 331500
	},
	{
	"epoch": 12.996672538657272,
	"grad_norm": 2.453125,
	"learning_rate": 0.0007400665492268546,
	"loss": 6.4464,
	"step": 332000
	},
	{
	"epoch": 13.0,
	"eval_loss": 6.443148612976074,
	"eval_runtime": 21.9848,
	"eval_samples_per_second": 90.972,
	"eval_steps_per_second": 5.686,
	"step": 332085
	},
	{
	"epoch": 13.01624584067332,
	"grad_norm": 3.203125,
	"learning_rate": 0.0007396750831865336,
	"loss": 6.4378,
	"step": 332500
	},
	{
	"epoch": 13.035819142689371,
	"grad_norm": 1.34375,
	"learning_rate": 0.0007392836171462126,
	"loss": 6.4393,
	"step": 333000
	},
	{
	"epoch": 13.055392444705422,
	"grad_norm": 1.1328125,
	"learning_rate": 0.0007388921511058916,
	"loss": 6.441,
	"step": 333500
	},
	{
	"epoch": 13.074965746721471,
	"grad_norm": 4.875,
	"learning_rate": 0.0007385006850655706,
	"loss": 6.4441,
	"step": 334000
	},
	{
	"epoch": 13.094539048737522,
	"grad_norm": 1.0,
	"learning_rate": 0.0007381092190252496,
	"loss": 6.4412,
	"step": 334500
	},
	{
	"epoch": 13.114112350753572,
	"grad_norm": 1.4296875,
	"learning_rate": 0.0007377177529849286,
	"loss": 6.4431,
	"step": 335000
	},
	{
	"epoch": 13.133685652769623,
	"grad_norm": 1.9921875,
	"learning_rate": 0.0007373262869446076,
	"loss": 6.4336,
	"step": 335500
	},
	{
	"epoch": 13.153258954785672,
	"grad_norm": 1.015625,
	"learning_rate": 0.0007369348209042866,
	"loss": 6.4395,
	"step": 336000
	},
	{
	"epoch": 13.172832256801723,
	"grad_norm": 2.046875,
	"learning_rate": 0.0007365433548639657,
	"loss": 6.4369,
	"step": 336500
	},
	{
	"epoch": 13.192405558817773,
	"grad_norm": 1.1875,
	"learning_rate": 0.0007361518888236446,
	"loss": 6.4482,
	"step": 337000
	},
	{
	"epoch": 13.211978860833822,
	"grad_norm": 4.46875,
	"learning_rate": 0.0007357604227833236,
	"loss": 6.45,
	"step": 337500
	},
	{
	"epoch": 13.231552162849873,
	"grad_norm": 1.6484375,
	"learning_rate": 0.0007353689567430026,
	"loss": 6.4423,
	"step": 338000
	},
	{
	"epoch": 13.251125464865924,
	"grad_norm": 1.59375,
	"learning_rate": 0.0007349774907026816,
	"loss": 6.4455,
	"step": 338500
	},
	{
	"epoch": 13.270698766881972,
	"grad_norm": 1.6640625,
	"learning_rate": 0.0007345860246623605,
	"loss": 6.4393,
	"step": 339000
	},
	{
	"epoch": 13.290272068898023,
	"grad_norm": 1.0,
	"learning_rate": 0.0007341945586220395,
	"loss": 6.4441,
	"step": 339500
	},
	{
	"epoch": 13.309845370914074,
	"grad_norm": 1.4375,
	"learning_rate": 0.0007338030925817185,
	"loss": 6.4395,
	"step": 340000
	},
	{
	"epoch": 13.329418672930123,
	"grad_norm": 1.5703125,
	"learning_rate": 0.0007334116265413975,
	"loss": 6.4375,
	"step": 340500
	},
	{
	"epoch": 13.348991974946173,
	"grad_norm": 1.46875,
	"learning_rate": 0.0007330201605010765,
	"loss": 6.438,
	"step": 341000
	},
	{
	"epoch": 13.368565276962224,
	"grad_norm": 1.6015625,
	"learning_rate": 0.0007326286944607555,
	"loss": 6.4392,
	"step": 341500
	},
	{
	"epoch": 13.388138578978273,
	"grad_norm": 1.3359375,
	"learning_rate": 0.0007322372284204345,
	"loss": 6.4433,
	"step": 342000
	},
	{
	"epoch": 13.407711880994324,
	"grad_norm": 1.46875,
	"learning_rate": 0.0007318457623801135,
	"loss": 6.4467,
	"step": 342500
	},
	{
	"epoch": 13.427285183010374,
	"grad_norm": 0.87890625,
	"learning_rate": 0.0007314542963397925,
	"loss": 6.4401,
	"step": 343000
	},
	{
	"epoch": 13.446858485026423,
	"grad_norm": 0.87109375,
	"learning_rate": 0.0007310628302994715,
	"loss": 6.4414,
	"step": 343500
	},
	{
	"epoch": 13.466431787042474,
	"grad_norm": 0.98046875,
	"learning_rate": 0.0007306713642591505,
	"loss": 6.4451,
	"step": 344000
	},
	{
	"epoch": 13.486005089058525,
	"grad_norm": 2.921875,
	"learning_rate": 0.0007302798982188295,
	"loss": 6.4419,
	"step": 344500
	},
	{
	"epoch": 13.505578391074573,
	"grad_norm": 2.296875,
	"learning_rate": 0.0007298884321785085,
	"loss": 6.439,
	"step": 345000
	},
	{
	"epoch": 13.525151693090624,
	"grad_norm": 14.0625,
	"learning_rate": 0.0007294969661381875,
	"loss": 6.4437,
	"step": 345500
	},
	{
	"epoch": 13.544724995106675,
	"grad_norm": 1.2578125,
	"learning_rate": 0.0007291055000978665,
	"loss": 6.4399,
	"step": 346000
	},
	{
	"epoch": 13.564298297122726,
	"grad_norm": 11.5625,
	"learning_rate": 0.0007287140340575455,
	"loss": 6.4447,
	"step": 346500
	},
	{
	"epoch": 13.583871599138774,
	"grad_norm": 0.91796875,
	"learning_rate": 0.0007283225680172245,
	"loss": 6.4373,
	"step": 347000
	},
	{
	"epoch": 13.603444901154825,
	"grad_norm": 1.9375,
	"learning_rate": 0.0007279311019769035,
	"loss": 6.4484,
	"step": 347500
	},
	{
	"epoch": 13.623018203170876,
	"grad_norm": 1.734375,
	"learning_rate": 0.0007275396359365826,
	"loss": 6.4486,
	"step": 348000
	},
	{
	"epoch": 13.642591505186925,
	"grad_norm": 1.4765625,
	"learning_rate": 0.0007271481698962615,
	"loss": 6.4417,
	"step": 348500
	},
	{
	"epoch": 13.662164807202975,
	"grad_norm": 0.88671875,
	"learning_rate": 0.0007267567038559405,
	"loss": 6.4397,
	"step": 349000
	},
	{
	"epoch": 13.681738109219026,
	"grad_norm": 1.84375,
	"learning_rate": 0.0007263652378156195,
	"loss": 6.4328,
	"step": 349500
	},
	{
	"epoch": 13.701311411235075,
	"grad_norm": 1.1171875,
	"learning_rate": 0.0007259737717752986,
	"loss": 6.4462,
	"step": 350000
	},
	{
	"epoch": 13.720884713251126,
	"grad_norm": 4.15625,
	"learning_rate": 0.0007255823057349775,
	"loss": 6.4394,
	"step": 350500
	},
	{
	"epoch": 13.740458015267176,
	"grad_norm": 1.40625,
	"learning_rate": 0.0007251908396946565,
	"loss": 6.4434,
	"step": 351000
	},
	{
	"epoch": 13.760031317283225,
	"grad_norm": 1.6328125,
	"learning_rate": 0.0007247993736543355,
	"loss": 6.4437,
	"step": 351500
	},
	{
	"epoch": 13.779604619299276,
	"grad_norm": 1.5859375,
	"learning_rate": 0.0007244079076140146,
	"loss": 6.4386,
	"step": 352000
	},
	{
	"epoch": 13.799177921315327,
	"grad_norm": 1.4609375,
	"learning_rate": 0.0007240164415736935,
	"loss": 6.4476,
	"step": 352500
	},
	{
	"epoch": 13.818751223331375,
	"grad_norm": 2.515625,
	"learning_rate": 0.0007236249755333725,
	"loss": 6.4442,
	"step": 353000
	},
	{
	"epoch": 13.838324525347426,
	"grad_norm": 2.203125,
	"learning_rate": 0.0007232335094930515,
	"loss": 6.44,
	"step": 353500
	},
	{
	"epoch": 13.857897827363477,
	"grad_norm": 0.99609375,
	"learning_rate": 0.0007228420434527305,
	"loss": 6.4395,
	"step": 354000
	},
	{
	"epoch": 13.877471129379526,
	"grad_norm": 2.75,
	"learning_rate": 0.0007224505774124095,
	"loss": 6.4392,
	"step": 354500
	},
	{
	"epoch": 13.897044431395576,
	"grad_norm": 0.9140625,
	"learning_rate": 0.0007220591113720885,
	"loss": 6.4484,
	"step": 355000
	},
	{
	"epoch": 13.916617733411627,
	"grad_norm": 1.3203125,
	"learning_rate": 0.0007216676453317675,
	"loss": 6.4449,
	"step": 355500
	},
	{
	"epoch": 13.936191035427676,
	"grad_norm": 1.390625,
	"learning_rate": 0.0007212761792914465,
	"loss": 6.4444,
	"step": 356000
	},
	{
	"epoch": 13.955764337443727,
	"grad_norm": 3.921875,
	"learning_rate": 0.0007208847132511255,
	"loss": 6.4438,
	"step": 356500
	},
	{
	"epoch": 13.975337639459777,
	"grad_norm": 4.71875,
	"learning_rate": 0.0007204932472108045,
	"loss": 6.4417,
	"step": 357000
	},
	{
	"epoch": 13.994910941475826,
	"grad_norm": 3.65625,
	"learning_rate": 0.0007201017811704836,
	"loss": 6.4479,
	"step": 357500
	},
	{
	"epoch": 14.0,
	"eval_loss": 6.441241264343262,
	"eval_runtime": 23.2496,
	"eval_samples_per_second": 86.023,
	"eval_steps_per_second": 5.376,
	"step": 357630
	},
	{
	"epoch": 14.014484243491877,
	"grad_norm": 1.4296875,
	"learning_rate": 0.0007197103151301624,
	"loss": 6.4372,
	"step": 358000
	},
	{
	"epoch": 14.034057545507928,
	"grad_norm": 0.9375,
	"learning_rate": 0.0007193188490898414,
	"loss": 6.4488,
	"step": 358500
	},
	{
	"epoch": 14.053630847523978,
	"grad_norm": 1.234375,
	"learning_rate": 0.0007189273830495204,
	"loss": 6.441,
	"step": 359000
	},
	{
	"epoch": 14.073204149540027,
	"grad_norm": 0.890625,
	"learning_rate": 0.0007185359170091995,
	"loss": 6.4405,
	"step": 359500
	},
	{
	"epoch": 14.092777451556078,
	"grad_norm": 1.46875,
	"learning_rate": 0.0007181444509688784,
	"loss": 6.4363,
	"step": 360000
	},
	{
	"epoch": 14.112350753572128,
	"grad_norm": 1.421875,
	"learning_rate": 0.0007177529849285574,
	"loss": 6.4307,
	"step": 360500
	},
	{
	"epoch": 14.131924055588177,
	"grad_norm": 1.0078125,
	"learning_rate": 0.0007173615188882364,
	"loss": 6.4421,
	"step": 361000
	},
	{
	"epoch": 14.151497357604228,
	"grad_norm": 2.703125,
	"learning_rate": 0.0007169700528479155,
	"loss": 6.4308,
	"step": 361500
	},
	{
	"epoch": 14.171070659620279,
	"grad_norm": 1.59375,
	"learning_rate": 0.0007165785868075944,
	"loss": 6.445,
	"step": 362000
	},
	{
	"epoch": 14.190643961636328,
	"grad_norm": 1.015625,
	"learning_rate": 0.0007161871207672734,
	"loss": 6.4366,
	"step": 362500
	},
	{
	"epoch": 14.210217263652378,
	"grad_norm": 8.3125,
	"learning_rate": 0.0007157956547269524,
	"loss": 6.4377,
	"step": 363000
	},
	{
	"epoch": 14.229790565668429,
	"grad_norm": 1.578125,
	"learning_rate": 0.0007154041886866315,
	"loss": 6.4332,
	"step": 363500
	},
	{
	"epoch": 14.249363867684478,
	"grad_norm": 20.75,
	"learning_rate": 0.0007150127226463104,
	"loss": 6.4339,
	"step": 364000
	},
	{
	"epoch": 14.268937169700529,
	"grad_norm": 1.5703125,
	"learning_rate": 0.0007146212566059894,
	"loss": 6.4443,
	"step": 364500
	},
	{
	"epoch": 14.28851047171658,
	"grad_norm": 1.265625,
	"learning_rate": 0.0007142297905656684,
	"loss": 6.4381,
	"step": 365000
	},
	{
	"epoch": 14.308083773732628,
	"grad_norm": 0.9765625,
	"learning_rate": 0.0007138383245253475,
	"loss": 6.4398,
	"step": 365500
	},
	{
	"epoch": 14.327657075748679,
	"grad_norm": 1.3125,
	"learning_rate": 0.0007134468584850264,
	"loss": 6.4347,
	"step": 366000
	},
	{
	"epoch": 14.34723037776473,
	"grad_norm": 1.2578125,
	"learning_rate": 0.0007130553924447054,
	"loss": 6.4376,
	"step": 366500
	},
	{
	"epoch": 14.366803679780778,
	"grad_norm": 2.3125,
	"learning_rate": 0.0007126639264043845,
	"loss": 6.4392,
	"step": 367000
	},
	{
	"epoch": 14.386376981796829,
	"grad_norm": 2.5,
	"learning_rate": 0.0007122724603640635,
	"loss": 6.4388,
	"step": 367500
	},
	{
	"epoch": 14.40595028381288,
	"grad_norm": 0.93359375,
	"learning_rate": 0.0007118809943237424,
	"loss": 6.4346,
	"step": 368000
	},
	{
	"epoch": 14.425523585828929,
	"grad_norm": 1.34375,
	"learning_rate": 0.0007114895282834214,
	"loss": 6.4427,
	"step": 368500
	},
	{
	"epoch": 14.44509688784498,
	"grad_norm": 1.015625,
	"learning_rate": 0.0007110980622431005,
	"loss": 6.4425,
	"step": 369000
	},
	{
	"epoch": 14.46467018986103,
	"grad_norm": 1.9921875,
	"learning_rate": 0.0007107065962027795,
	"loss": 6.4497,
	"step": 369500
	},
	{
	"epoch": 14.484243491877079,
	"grad_norm": 1.4140625,
	"learning_rate": 0.0007103151301624584,
	"loss": 6.4378,
	"step": 370000
	},
	{
	"epoch": 14.50381679389313,
	"grad_norm": 1.109375,
	"learning_rate": 0.0007099236641221374,
	"loss": 6.4414,
	"step": 370500
	},
	{
	"epoch": 14.52339009590918,
	"grad_norm": 1.1015625,
	"learning_rate": 0.0007095321980818165,
	"loss": 6.4258,
	"step": 371000
	},
	{
	"epoch": 14.54296339792523,
	"grad_norm": 4.8125,
	"learning_rate": 0.0007091407320414954,
	"loss": 6.4274,
	"step": 371500
	},
	{
	"epoch": 14.56253669994128,
	"grad_norm": 4.5625,
	"learning_rate": 0.0007087492660011744,
	"loss": 6.4458,
	"step": 372000
	},
	{
	"epoch": 14.58211000195733,
	"grad_norm": 1.8671875,
	"learning_rate": 0.0007083577999608534,
	"loss": 6.4381,
	"step": 372500
	},
	{
	"epoch": 14.601683303973381,
	"grad_norm": 4.125,
	"learning_rate": 0.0007079663339205325,
	"loss": 6.441,
	"step": 373000
	},
	{
	"epoch": 14.62125660598943,
	"grad_norm": 1.09375,
	"learning_rate": 0.0007075748678802114,
	"loss": 6.4338,
	"step": 373500
	},
	{
	"epoch": 14.64082990800548,
	"grad_norm": 1.953125,
	"learning_rate": 0.0007071834018398904,
	"loss": 6.4328,
	"step": 374000
	},
	{
	"epoch": 14.660403210021531,
	"grad_norm": 3.375,
	"learning_rate": 0.0007067919357995694,
	"loss": 6.4386,
	"step": 374500
	},
	{
	"epoch": 14.67997651203758,
	"grad_norm": 4.6875,
	"learning_rate": 0.0007064004697592485,
	"loss": 6.4317,
	"step": 375000
	},
	{
	"epoch": 14.699549814053631,
	"grad_norm": 1.0234375,
	"learning_rate": 0.0007060090037189274,
	"loss": 6.4334,
	"step": 375500
	},
	{
	"epoch": 14.719123116069682,
	"grad_norm": 2.296875,
	"learning_rate": 0.0007056175376786064,
	"loss": 6.4464,
	"step": 376000
	},
	{
	"epoch": 14.73869641808573,
	"grad_norm": 0.90625,
	"learning_rate": 0.0007052260716382854,
	"loss": 6.4376,
	"step": 376500
	},
	{
	"epoch": 14.758269720101781,
	"grad_norm": 3.546875,
	"learning_rate": 0.0007048346055979645,
	"loss": 6.4439,
	"step": 377000
	},
	{
	"epoch": 14.777843022117832,
	"grad_norm": 1.6171875,
	"learning_rate": 0.0007044431395576433,
	"loss": 6.4408,
	"step": 377500
	},
	{
	"epoch": 14.79741632413388,
	"grad_norm": 2.015625,
	"learning_rate": 0.0007040516735173223,
	"loss": 6.434,
	"step": 378000
	},
	{
	"epoch": 14.816989626149931,
	"grad_norm": 1.8203125,
	"learning_rate": 0.0007036602074770014,
	"loss": 6.4404,
	"step": 378500
	},
	{
	"epoch": 14.836562928165982,
	"grad_norm": 3.484375,
	"learning_rate": 0.0007032687414366804,
	"loss": 6.4377,
	"step": 379000
	},
	{
	"epoch": 14.856136230182031,
	"grad_norm": 1.890625,
	"learning_rate": 0.0007028772753963593,
	"loss": 6.4332,
	"step": 379500
	},
	{
	"epoch": 14.875709532198082,
	"grad_norm": 3.625,
	"learning_rate": 0.0007024858093560383,
	"loss": 6.4384,
	"step": 380000
	},
	{
	"epoch": 14.895282834214132,
	"grad_norm": 1.328125,
	"learning_rate": 0.0007020943433157174,
	"loss": 6.4439,
	"step": 380500
	},
	{
	"epoch": 14.914856136230181,
	"grad_norm": 6.625,
	"learning_rate": 0.0007017028772753964,
	"loss": 6.439,
	"step": 381000
	},
	{
	"epoch": 14.934429438246232,
	"grad_norm": 3.28125,
	"learning_rate": 0.0007013114112350753,
	"loss": 6.4396,
	"step": 381500
	},
	{
	"epoch": 14.954002740262283,
	"grad_norm": 0.828125,
	"learning_rate": 0.0007009199451947543,
	"loss": 6.4498,
	"step": 382000
	},
	{
	"epoch": 14.973576042278331,
	"grad_norm": 1.4140625,
	"learning_rate": 0.0007005284791544334,
	"loss": 6.4371,
	"step": 382500
	},
	{
	"epoch": 14.993149344294382,
	"grad_norm": 24.375,
	"learning_rate": 0.0007001370131141124,
	"loss": 6.4382,
	"step": 383000
	},
	{
	"epoch": 15.0,
	"eval_loss": 6.4391045570373535,
	"eval_runtime": 20.2509,
	"eval_samples_per_second": 98.761,
	"eval_steps_per_second": 6.173,
	"step": 383175
	},
	{
	"epoch": 15.012722646310433,
	"grad_norm": 4.21875,
	"learning_rate": 0.0006997455470737913,
	"loss": 6.4283,
	"step": 383500
	},
	{
	"epoch": 15.032295948326484,
	"grad_norm": 1.484375,
	"learning_rate": 0.0006993540810334703,
	"loss": 6.4405,
	"step": 384000
	},
	{
	"epoch": 15.051869250342532,
	"grad_norm": 1.1328125,
	"learning_rate": 0.0006989626149931494,
	"loss": 6.4427,
	"step": 384500
	},
	{
	"epoch": 15.071442552358583,
	"grad_norm": 4.625,
	"learning_rate": 0.0006985711489528284,
	"loss": 6.4322,
	"step": 385000
	},
	{
	"epoch": 15.091015854374634,
	"grad_norm": 1.125,
	"learning_rate": 0.0006981796829125073,
	"loss": 6.4296,
	"step": 385500
	},
	{
	"epoch": 15.110589156390683,
	"grad_norm": 2.296875,
	"learning_rate": 0.0006977882168721863,
	"loss": 6.437,
	"step": 386000
	},
	{
	"epoch": 15.130162458406733,
	"grad_norm": 2.078125,
	"learning_rate": 0.0006973967508318654,
	"loss": 6.4392,
	"step": 386500
	},
	{
	"epoch": 15.149735760422784,
	"grad_norm": 4.5625,
	"learning_rate": 0.0006970052847915443,
	"loss": 6.4383,
	"step": 387000
	},
	{
	"epoch": 15.169309062438833,
	"grad_norm": 1.453125,
	"learning_rate": 0.0006966138187512233,
	"loss": 6.4385,
	"step": 387500
	},
	{
	"epoch": 15.188882364454884,
	"grad_norm": 6.0,
	"learning_rate": 0.0006962223527109024,
	"loss": 6.4358,
	"step": 388000
	},
	{
	"epoch": 15.208455666470934,
	"grad_norm": 1.5234375,
	"learning_rate": 0.0006958308866705814,
	"loss": 6.4298,
	"step": 388500
	},
	{
	"epoch": 15.228028968486983,
	"grad_norm": 2.796875,
	"learning_rate": 0.0006954394206302603,
	"loss": 6.4386,
	"step": 389000
	},
	{
	"epoch": 15.247602270503034,
	"grad_norm": 1.546875,
	"learning_rate": 0.0006950479545899393,
	"loss": 6.4419,
	"step": 389500
	},
	{
	"epoch": 15.267175572519085,
	"grad_norm": 0.80859375,
	"learning_rate": 0.0006946564885496184,
	"loss": 6.4326,
	"step": 390000
	},
	{
	"epoch": 15.286748874535133,
	"grad_norm": 1.3046875,
	"learning_rate": 0.0006942650225092974,
	"loss": 6.4367,
	"step": 390500
	},
	{
	"epoch": 15.306322176551184,
	"grad_norm": 1.40625,
	"learning_rate": 0.0006938735564689763,
	"loss": 6.4375,
	"step": 391000
	},
	{
	"epoch": 15.325895478567235,
	"grad_norm": 1.4921875,
	"learning_rate": 0.0006934820904286553,
	"loss": 6.4316,
	"step": 391500
	},
	{
	"epoch": 15.345468780583284,
	"grad_norm": 9.875,
	"learning_rate": 0.0006930906243883344,
	"loss": 6.4386,
	"step": 392000
	},
	{
	"epoch": 15.365042082599334,
	"grad_norm": 1.421875,
	"learning_rate": 0.0006926991583480134,
	"loss": 6.4268,
	"step": 392500
	},
	{
	"epoch": 15.384615384615385,
	"grad_norm": 0.92578125,
	"learning_rate": 0.0006923076923076923,
	"loss": 6.4301,
	"step": 393000
	},
	{
	"epoch": 15.404188686631434,
	"grad_norm": 0.92578125,
	"learning_rate": 0.0006919162262673713,
	"loss": 6.4374,
	"step": 393500
	},
	{
	"epoch": 15.423761988647485,
	"grad_norm": 2.0625,
	"learning_rate": 0.0006915247602270504,
	"loss": 6.4423,
	"step": 394000
	},
	{
	"epoch": 15.443335290663535,
	"grad_norm": 1.5390625,
	"learning_rate": 0.0006911332941867294,
	"loss": 6.4376,
	"step": 394500
	},
	{
	"epoch": 15.462908592679586,
	"grad_norm": 4.34375,
	"learning_rate": 0.0006907418281464083,
	"loss": 6.4384,
	"step": 395000
	},
	{
	"epoch": 15.482481894695635,
	"grad_norm": 5.375,
	"learning_rate": 0.0006903503621060873,
	"loss": 6.4293,
	"step": 395500
	},
	{
	"epoch": 15.502055196711686,
	"grad_norm": 2.203125,
	"learning_rate": 0.0006899588960657664,
	"loss": 6.4331,
	"step": 396000
	},
	{
	"epoch": 15.521628498727736,
	"grad_norm": 1.7734375,
	"learning_rate": 0.0006895674300254454,
	"loss": 6.4326,
	"step": 396500
	},
	{
	"epoch": 15.541201800743785,
	"grad_norm": 1.890625,
	"learning_rate": 0.0006891759639851242,
	"loss": 6.4296,
	"step": 397000
	},
	{
	"epoch": 15.560775102759836,
	"grad_norm": 1.015625,
	"learning_rate": 0.0006887844979448033,
	"loss": 6.4363,
	"step": 397500
	},
	{
	"epoch": 15.580348404775886,
	"grad_norm": 1.4453125,
	"learning_rate": 0.0006883930319044823,
	"loss": 6.4393,
	"step": 398000
	},
	{
	"epoch": 15.599921706791935,
	"grad_norm": 9.6875,
	"learning_rate": 0.0006880015658641613,
	"loss": 6.4373,
	"step": 398500
	},
	{
	"epoch": 15.619495008807986,
	"grad_norm": 2.953125,
	"learning_rate": 0.0006876100998238402,
	"loss": 6.4404,
	"step": 399000
	},
	{
	"epoch": 15.639068310824037,
	"grad_norm": 1.421875,
	"learning_rate": 0.0006872186337835193,
	"loss": 6.4434,
	"step": 399500
	},
	{
	"epoch": 15.658641612840086,
	"grad_norm": 1.40625,
	"learning_rate": 0.0006868271677431983,
	"loss": 6.4329,
	"step": 400000
	},
	{
	"epoch": 15.678214914856136,
	"grad_norm": 1.046875,
	"learning_rate": 0.0006864357017028773,
	"loss": 6.4316,
	"step": 400500
	},
	{
	"epoch": 15.697788216872187,
	"grad_norm": 3.109375,
	"learning_rate": 0.0006860442356625562,
	"loss": 6.4376,
	"step": 401000
	},
	{
	"epoch": 15.717361518888236,
	"grad_norm": 0.875,
	"learning_rate": 0.0006856527696222353,
	"loss": 6.4376,
	"step": 401500
	},
	{
	"epoch": 15.736934820904287,
	"grad_norm": 1.421875,
	"learning_rate": 0.0006852613035819143,
	"loss": 6.434,
	"step": 402000
	},
	{
	"epoch": 15.756508122920337,
	"grad_norm": 1.8359375,
	"learning_rate": 0.0006848698375415932,
	"loss": 6.441,
	"step": 402500
	},
	{
	"epoch": 15.776081424936386,
	"grad_norm": 1.5546875,
	"learning_rate": 0.0006844783715012722,
	"loss": 6.4375,
	"step": 403000
	},
	{
	"epoch": 15.795654726952437,
	"grad_norm": 15.9375,
	"learning_rate": 0.0006840869054609513,
	"loss": 6.431,
	"step": 403500
	},
	{
	"epoch": 15.815228028968487,
	"grad_norm": 1.453125,
	"learning_rate": 0.0006836954394206303,
	"loss": 6.4348,
	"step": 404000
	},
	{
	"epoch": 15.834801330984536,
	"grad_norm": 1.9140625,
	"learning_rate": 0.0006833039733803092,
	"loss": 6.4251,
	"step": 404500
	},
	{
	"epoch": 15.854374633000587,
	"grad_norm": 1.453125,
	"learning_rate": 0.0006829125073399882,
	"loss": 6.4409,
	"step": 405000
	},
	{
	"epoch": 15.873947935016638,
	"grad_norm": 1.3125,
	"learning_rate": 0.0006825210412996673,
	"loss": 6.4516,
	"step": 405500
	},
	{
	"epoch": 15.893521237032687,
	"grad_norm": 2.65625,
	"learning_rate": 0.0006821295752593463,
	"loss": 6.4334,
	"step": 406000
	},
	{
	"epoch": 15.913094539048737,
	"grad_norm": 2.203125,
	"learning_rate": 0.0006817381092190252,
	"loss": 6.4318,
	"step": 406500
	},
	{
	"epoch": 15.932667841064788,
	"grad_norm": 1.3828125,
	"learning_rate": 0.0006813466431787042,
	"loss": 6.4306,
	"step": 407000
	},
	{
	"epoch": 15.952241143080837,
	"grad_norm": 1.1015625,
	"learning_rate": 0.0006809551771383833,
	"loss": 6.437,
	"step": 407500
	},
	{
	"epoch": 15.971814445096888,
	"grad_norm": 0.9375,
	"learning_rate": 0.0006805637110980623,
	"loss": 6.4377,
	"step": 408000
	},
	{
	"epoch": 15.991387747112938,
	"grad_norm": 4.25,
	"learning_rate": 0.0006801722450577412,
	"loss": 6.4369,
	"step": 408500
	},
	{
	"epoch": 16.0,
	"eval_loss": 6.43704080581665,
	"eval_runtime": 20.4936,
	"eval_samples_per_second": 97.592,
	"eval_steps_per_second": 6.099,
	"step": 408720
	},
	{
	"epoch": 16.010961049128987,
	"grad_norm": 2.109375,
	"learning_rate": 0.0006797807790174203,
	"loss": 6.427,
	"step": 409000
	},
	{
	"epoch": 16.03053435114504,
	"grad_norm": 1.1953125,
	"learning_rate": 0.0006793893129770993,
	"loss": 6.4358,
	"step": 409500
	},
	{
	"epoch": 16.05010765316109,
	"grad_norm": 1.1796875,
	"learning_rate": 0.0006789978469367783,
	"loss": 6.4409,
	"step": 410000
	},
	{
	"epoch": 16.069680955177137,
	"grad_norm": 1.3828125,
	"learning_rate": 0.0006786063808964572,
	"loss": 6.439,
	"step": 410500
	},
	{
	"epoch": 16.08925425719319,
	"grad_norm": 2.203125,
	"learning_rate": 0.0006782149148561363,
	"loss": 6.4372,
	"step": 411000
	},
	{
	"epoch": 16.10882755920924,
	"grad_norm": 3.09375,
	"learning_rate": 0.0006778234488158153,
	"loss": 6.4322,
	"step": 411500
	},
	{
	"epoch": 16.128400861225288,
	"grad_norm": 1.046875,
	"learning_rate": 0.0006774319827754943,
	"loss": 6.4346,
	"step": 412000
	},
	{
	"epoch": 16.14797416324134,
	"grad_norm": 1.0390625,
	"learning_rate": 0.0006770405167351732,
	"loss": 6.433,
	"step": 412500
	},
	{
	"epoch": 16.16754746525739,
	"grad_norm": 1.5390625,
	"learning_rate": 0.0006766490506948523,
	"loss": 6.4358,
	"step": 413000
	},
	{
	"epoch": 16.187120767273438,
	"grad_norm": 1.9921875,
	"learning_rate": 0.0006762575846545313,
	"loss": 6.4389,
	"step": 413500
	},
	{
	"epoch": 16.20669406928949,
	"grad_norm": 1.03125,
	"learning_rate": 0.0006758661186142103,
	"loss": 6.4403,
	"step": 414000
	},
	{
	"epoch": 16.22626737130554,
	"grad_norm": 5.75,
	"learning_rate": 0.0006754746525738891,
	"loss": 6.4404,
	"step": 414500
	},
	{
	"epoch": 16.245840673321588,
	"grad_norm": 1.5546875,
	"learning_rate": 0.0006750831865335683,
	"loss": 6.439,
	"step": 415000
	},
	{
	"epoch": 16.26541397533764,
	"grad_norm": 3.125,
	"learning_rate": 0.0006746917204932473,
	"loss": 6.4303,
	"step": 415500
	},
	{
	"epoch": 16.28498727735369,
	"grad_norm": 4.40625,
	"learning_rate": 0.0006743002544529263,
	"loss": 6.4322,
	"step": 416000
	},
	{
	"epoch": 16.30456057936974,
	"grad_norm": 2.0625,
	"learning_rate": 0.0006739087884126051,
	"loss": 6.4349,
	"step": 416500
	},
	{
	"epoch": 16.32413388138579,
	"grad_norm": 1.1796875,
	"learning_rate": 0.0006735173223722842,
	"loss": 6.4351,
	"step": 417000
	},
	{
	"epoch": 16.34370718340184,
	"grad_norm": 2.0625,
	"learning_rate": 0.0006731258563319632,
	"loss": 6.4387,
	"step": 417500
	},
	{
	"epoch": 16.36328048541789,
	"grad_norm": 1.46875,
	"learning_rate": 0.0006727343902916421,
	"loss": 6.4356,
	"step": 418000
	},
	{
	"epoch": 16.38285378743394,
	"grad_norm": 1.59375,
	"learning_rate": 0.0006723429242513212,
	"loss": 6.4408,
	"step": 418500
	},
	{
	"epoch": 16.40242708944999,
	"grad_norm": 1.953125,
	"learning_rate": 0.0006719514582110002,
	"loss": 6.4244,
	"step": 419000
	},
	{
	"epoch": 16.42200039146604,
	"grad_norm": 1.1640625,
	"learning_rate": 0.0006715599921706792,
	"loss": 6.4338,
	"step": 419500
	},
	{
	"epoch": 16.44157369348209,
	"grad_norm": 2.25,
	"learning_rate": 0.0006711685261303581,
	"loss": 6.435,
	"step": 420000
	},
	{
	"epoch": 16.46114699549814,
	"grad_norm": 1.125,
	"learning_rate": 0.0006707770600900372,
	"loss": 6.4414,
	"step": 420500
	},
	{
	"epoch": 16.48072029751419,
	"grad_norm": 2.234375,
	"learning_rate": 0.0006703855940497162,
	"loss": 6.4342,
	"step": 421000
	},
	{
	"epoch": 16.50029359953024,
	"grad_norm": 2.5,
	"learning_rate": 0.0006699941280093952,
	"loss": 6.4382,
	"step": 421500
	},
	{
	"epoch": 16.51986690154629,
	"grad_norm": 1.2734375,
	"learning_rate": 0.0006696026619690741,
	"loss": 6.433,
	"step": 422000
	},
	{
	"epoch": 16.53944020356234,
	"grad_norm": 1.4609375,
	"learning_rate": 0.0006692111959287532,
	"loss": 6.4282,
	"step": 422500
	},
	{
	"epoch": 16.559013505578392,
	"grad_norm": 1.0546875,
	"learning_rate": 0.0006688197298884322,
	"loss": 6.4268,
	"step": 423000
	},
	{
	"epoch": 16.57858680759444,
	"grad_norm": 2.5,
	"learning_rate": 0.0006684282638481112,
	"loss": 6.429,
	"step": 423500
	},
	{
	"epoch": 16.59816010961049,
	"grad_norm": 0.9609375,
	"learning_rate": 0.0006680367978077901,
	"loss": 6.4419,
	"step": 424000
	},
	{
	"epoch": 16.617733411626542,
	"grad_norm": 1.234375,
	"learning_rate": 0.0006676453317674692,
	"loss": 6.4278,
	"step": 424500
	},
	{
	"epoch": 16.63730671364259,
	"grad_norm": 1.2265625,
	"learning_rate": 0.0006672538657271482,
	"loss": 6.4343,
	"step": 425000
	},
	{
	"epoch": 16.656880015658643,
	"grad_norm": 1.015625,
	"learning_rate": 0.0006668623996868272,
	"loss": 6.4376,
	"step": 425500
	},
	{
	"epoch": 16.676453317674692,
	"grad_norm": 10.6875,
	"learning_rate": 0.0006664709336465061,
	"loss": 6.4388,
	"step": 426000
	},
	{
	"epoch": 16.69602661969074,
	"grad_norm": 1.015625,
	"learning_rate": 0.0006660794676061852,
	"loss": 6.434,
	"step": 426500
	},
	{
	"epoch": 16.715599921706794,
	"grad_norm": 1.4140625,
	"learning_rate": 0.0006656880015658642,
	"loss": 6.4432,
	"step": 427000
	},
	{
	"epoch": 16.735173223722843,
	"grad_norm": 1.09375,
	"learning_rate": 0.0006652965355255432,
	"loss": 6.4351,
	"step": 427500
	},
	{
	"epoch": 16.75474652573889,
	"grad_norm": 1.484375,
	"learning_rate": 0.0006649050694852222,
	"loss": 6.4306,
	"step": 428000
	},
	{
	"epoch": 16.774319827754944,
	"grad_norm": 1.2421875,
	"learning_rate": 0.0006645136034449012,
	"loss": 6.4337,
	"step": 428500
	},
	{
	"epoch": 16.793893129770993,
	"grad_norm": 1.6640625,
	"learning_rate": 0.0006641221374045802,
	"loss": 6.4353,
	"step": 429000
	},
	{
	"epoch": 16.81346643178704,
	"grad_norm": 1.421875,
	"learning_rate": 0.0006637306713642592,
	"loss": 6.4256,
	"step": 429500
	},
	{
	"epoch": 16.833039733803094,
	"grad_norm": 1.6796875,
	"learning_rate": 0.0006633392053239382,
	"loss": 6.4321,
	"step": 430000
	},
	{
	"epoch": 16.852613035819143,
	"grad_norm": 1.8671875,
	"learning_rate": 0.0006629477392836172,
	"loss": 6.4416,
	"step": 430500
	},
	{
	"epoch": 16.872186337835192,
	"grad_norm": 17.625,
	"learning_rate": 0.0006625562732432962,
	"loss": 6.4376,
	"step": 431000
	},
	{
	"epoch": 16.891759639851244,
	"grad_norm": 1.2109375,
	"learning_rate": 0.0006621648072029752,
	"loss": 6.4386,
	"step": 431500
	},
	{
	"epoch": 16.911332941867293,
	"grad_norm": 2.578125,
	"learning_rate": 0.0006617733411626542,
	"loss": 6.4389,
	"step": 432000
	},
	{
	"epoch": 16.930906243883342,
	"grad_norm": 2.59375,
	"learning_rate": 0.0006613818751223332,
	"loss": 6.4396,
	"step": 432500
	},
	{
	"epoch": 16.950479545899395,
	"grad_norm": 4.40625,
	"learning_rate": 0.0006609904090820122,
	"loss": 6.4354,
	"step": 433000
	},
	{
	"epoch": 16.970052847915444,
	"grad_norm": 1.359375,
	"learning_rate": 0.000660598943041691,
	"loss": 6.4352,
	"step": 433500
	},
	{
	"epoch": 16.989626149931492,
	"grad_norm": 1.109375,
	"learning_rate": 0.0006602074770013702,
	"loss": 6.4347,
	"step": 434000
	},
	{
	"epoch": 17.0,
	"eval_loss": 6.436838150024414,
	"eval_runtime": 20.9495,
	"eval_samples_per_second": 95.467,
	"eval_steps_per_second": 5.967,
	"step": 434265
	}
	],
	"logging_steps": 500,
	"max_steps": 1277250,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 50,
	"save_steps": 500,
	"stateful_callbacks": {
	"EarlyStoppingCallback": {
	"args": {
	"early_stopping_patience": 3,
	"early_stopping_threshold": 0.0
	},
	"attributes": {
	"early_stopping_patience_counter": 0
	}
	},
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 1.3275457063057981e+18,
	"train_batch_size": 16,
	"trial_name": null,
	"trial_params": null
	}