Model save

498e960 verified about 2 months ago

106 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.9967051070840198,
	"eval_steps": 500,
	"global_step": 606,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0032948929159802307,
	"grad_norm": 12.442080297711913,
	"learning_rate": 1.639344262295082e-07,
	"loss": 0.383,
	"step": 1
	},
	{
	"epoch": 0.006589785831960461,
	"grad_norm": 13.440096974039598,
	"learning_rate": 3.278688524590164e-07,
	"loss": 0.3663,
	"step": 2
	},
	{
	"epoch": 0.009884678747940691,
	"grad_norm": 13.796855251219549,
	"learning_rate": 4.918032786885246e-07,
	"loss": 0.3663,
	"step": 3
	},
	{
	"epoch": 0.013179571663920923,
	"grad_norm": 12.70572090942759,
	"learning_rate": 6.557377049180328e-07,
	"loss": 0.3061,
	"step": 4
	},
	{
	"epoch": 0.016474464579901153,
	"grad_norm": 11.468076158597158,
	"learning_rate": 8.196721311475409e-07,
	"loss": 0.3387,
	"step": 5
	},
	{
	"epoch": 0.019769357495881382,
	"grad_norm": 10.302737632617346,
	"learning_rate": 9.836065573770493e-07,
	"loss": 0.2814,
	"step": 6
	},
	{
	"epoch": 0.023064250411861616,
	"grad_norm": 9.415064505565756,
	"learning_rate": 1.1475409836065575e-06,
	"loss": 0.2815,
	"step": 7
	},
	{
	"epoch": 0.026359143327841845,
	"grad_norm": 8.420756675130125,
	"learning_rate": 1.3114754098360657e-06,
	"loss": 0.2483,
	"step": 8
	},
	{
	"epoch": 0.029654036243822075,
	"grad_norm": 5.932373113068906,
	"learning_rate": 1.4754098360655739e-06,
	"loss": 0.1744,
	"step": 9
	},
	{
	"epoch": 0.032948929159802305,
	"grad_norm": 4.602925255551132,
	"learning_rate": 1.6393442622950819e-06,
	"loss": 0.1821,
	"step": 10
	},
	{
	"epoch": 0.036243822075782535,
	"grad_norm": 4.1437512962542025,
	"learning_rate": 1.8032786885245903e-06,
	"loss": 0.1557,
	"step": 11
	},
	{
	"epoch": 0.039538714991762765,
	"grad_norm": 4.1008407646409495,
	"learning_rate": 1.9672131147540985e-06,
	"loss": 0.1901,
	"step": 12
	},
	{
	"epoch": 0.042833607907743,
	"grad_norm": 3.2895218176449177,
	"learning_rate": 2.1311475409836067e-06,
	"loss": 0.1695,
	"step": 13
	},
	{
	"epoch": 0.04612850082372323,
	"grad_norm": 2.578808113814672,
	"learning_rate": 2.295081967213115e-06,
	"loss": 0.1431,
	"step": 14
	},
	{
	"epoch": 0.04942339373970346,
	"grad_norm": 2.0925168309074804,
	"learning_rate": 2.459016393442623e-06,
	"loss": 0.1459,
	"step": 15
	},
	{
	"epoch": 0.05271828665568369,
	"grad_norm": 5.776302012227753,
	"learning_rate": 2.6229508196721314e-06,
	"loss": 0.2116,
	"step": 16
	},
	{
	"epoch": 0.05601317957166392,
	"grad_norm": 4.863535909815622,
	"learning_rate": 2.786885245901639e-06,
	"loss": 0.157,
	"step": 17
	},
	{
	"epoch": 0.05930807248764415,
	"grad_norm": 2.709665323729833,
	"learning_rate": 2.9508196721311478e-06,
	"loss": 0.1463,
	"step": 18
	},
	{
	"epoch": 0.06260296540362438,
	"grad_norm": 2.911144968708877,
	"learning_rate": 3.114754098360656e-06,
	"loss": 0.1283,
	"step": 19
	},
	{
	"epoch": 0.06589785831960461,
	"grad_norm": 2.4985115549367873,
	"learning_rate": 3.2786885245901638e-06,
	"loss": 0.13,
	"step": 20
	},
	{
	"epoch": 0.06919275123558484,
	"grad_norm": 2.158826062926261,
	"learning_rate": 3.4426229508196724e-06,
	"loss": 0.1135,
	"step": 21
	},
	{
	"epoch": 0.07248764415156507,
	"grad_norm": 1.8839820680217123,
	"learning_rate": 3.6065573770491806e-06,
	"loss": 0.1196,
	"step": 22
	},
	{
	"epoch": 0.0757825370675453,
	"grad_norm": 2.208880925801888,
	"learning_rate": 3.7704918032786884e-06,
	"loss": 0.1642,
	"step": 23
	},
	{
	"epoch": 0.07907742998352553,
	"grad_norm": 1.948969438238695,
	"learning_rate": 3.934426229508197e-06,
	"loss": 0.1057,
	"step": 24
	},
	{
	"epoch": 0.08237232289950576,
	"grad_norm": 1.5855531759235064,
	"learning_rate": 4.098360655737705e-06,
	"loss": 0.0908,
	"step": 25
	},
	{
	"epoch": 0.085667215815486,
	"grad_norm": 1.7484734055235995,
	"learning_rate": 4.2622950819672135e-06,
	"loss": 0.1088,
	"step": 26
	},
	{
	"epoch": 0.08896210873146623,
	"grad_norm": 1.7763409124600038,
	"learning_rate": 4.426229508196722e-06,
	"loss": 0.1264,
	"step": 27
	},
	{
	"epoch": 0.09225700164744646,
	"grad_norm": 1.943799751354267,
	"learning_rate": 4.59016393442623e-06,
	"loss": 0.1204,
	"step": 28
	},
	{
	"epoch": 0.09555189456342669,
	"grad_norm": 2.0024112586646723,
	"learning_rate": 4.754098360655738e-06,
	"loss": 0.132,
	"step": 29
	},
	{
	"epoch": 0.09884678747940692,
	"grad_norm": 1.927718117469908,
	"learning_rate": 4.918032786885246e-06,
	"loss": 0.0988,
	"step": 30
	},
	{
	"epoch": 0.10214168039538715,
	"grad_norm": 1.8175857487104838,
	"learning_rate": 5.0819672131147545e-06,
	"loss": 0.0997,
	"step": 31
	},
	{
	"epoch": 0.10543657331136738,
	"grad_norm": 1.1821292523186457,
	"learning_rate": 5.245901639344263e-06,
	"loss": 0.0874,
	"step": 32
	},
	{
	"epoch": 0.10873146622734761,
	"grad_norm": 1.6925074350020268,
	"learning_rate": 5.409836065573772e-06,
	"loss": 0.115,
	"step": 33
	},
	{
	"epoch": 0.11202635914332784,
	"grad_norm": 1.4637368762611331,
	"learning_rate": 5.573770491803278e-06,
	"loss": 0.0916,
	"step": 34
	},
	{
	"epoch": 0.11532125205930807,
	"grad_norm": 1.4814671153620174,
	"learning_rate": 5.737704918032787e-06,
	"loss": 0.0853,
	"step": 35
	},
	{
	"epoch": 0.1186161449752883,
	"grad_norm": 1.243594463126339,
	"learning_rate": 5.9016393442622956e-06,
	"loss": 0.0903,
	"step": 36
	},
	{
	"epoch": 0.12191103789126853,
	"grad_norm": 1.2713537957193175,
	"learning_rate": 6.065573770491804e-06,
	"loss": 0.1271,
	"step": 37
	},
	{
	"epoch": 0.12520593080724876,
	"grad_norm": 2.2092835366807893,
	"learning_rate": 6.229508196721312e-06,
	"loss": 0.1137,
	"step": 38
	},
	{
	"epoch": 0.128500823723229,
	"grad_norm": 1.1846569097593065,
	"learning_rate": 6.393442622950821e-06,
	"loss": 0.0714,
	"step": 39
	},
	{
	"epoch": 0.13179571663920922,
	"grad_norm": 3.001321928490275,
	"learning_rate": 6.5573770491803276e-06,
	"loss": 0.1129,
	"step": 40
	},
	{
	"epoch": 0.13509060955518945,
	"grad_norm": 1.8758843455974739,
	"learning_rate": 6.721311475409837e-06,
	"loss": 0.1021,
	"step": 41
	},
	{
	"epoch": 0.13838550247116968,
	"grad_norm": 2.993102960488022,
	"learning_rate": 6.885245901639345e-06,
	"loss": 0.1155,
	"step": 42
	},
	{
	"epoch": 0.1416803953871499,
	"grad_norm": 1.8441651337946723,
	"learning_rate": 7.049180327868853e-06,
	"loss": 0.1004,
	"step": 43
	},
	{
	"epoch": 0.14497528830313014,
	"grad_norm": 1.495517808358825,
	"learning_rate": 7.213114754098361e-06,
	"loss": 0.0868,
	"step": 44
	},
	{
	"epoch": 0.14827018121911037,
	"grad_norm": 1.8953155374136303,
	"learning_rate": 7.3770491803278695e-06,
	"loss": 0.1371,
	"step": 45
	},
	{
	"epoch": 0.1515650741350906,
	"grad_norm": 1.702133714045992,
	"learning_rate": 7.540983606557377e-06,
	"loss": 0.1597,
	"step": 46
	},
	{
	"epoch": 0.15485996705107083,
	"grad_norm": 1.0196937438072402,
	"learning_rate": 7.704918032786886e-06,
	"loss": 0.0892,
	"step": 47
	},
	{
	"epoch": 0.15815485996705106,
	"grad_norm": 1.2171514922994324,
	"learning_rate": 7.868852459016394e-06,
	"loss": 0.0778,
	"step": 48
	},
	{
	"epoch": 0.1614497528830313,
	"grad_norm": 1.0680772396455713,
	"learning_rate": 8.032786885245902e-06,
	"loss": 0.084,
	"step": 49
	},
	{
	"epoch": 0.16474464579901152,
	"grad_norm": 2.9252478676320557,
	"learning_rate": 8.19672131147541e-06,
	"loss": 0.1275,
	"step": 50
	},
	{
	"epoch": 0.16803953871499178,
	"grad_norm": 2.422192715088673,
	"learning_rate": 8.360655737704919e-06,
	"loss": 0.1473,
	"step": 51
	},
	{
	"epoch": 0.171334431630972,
	"grad_norm": 1.8804479896519768,
	"learning_rate": 8.524590163934427e-06,
	"loss": 0.1036,
	"step": 52
	},
	{
	"epoch": 0.17462932454695224,
	"grad_norm": 1.568191135105415,
	"learning_rate": 8.688524590163935e-06,
	"loss": 0.1109,
	"step": 53
	},
	{
	"epoch": 0.17792421746293247,
	"grad_norm": 1.7822383034585774,
	"learning_rate": 8.852459016393443e-06,
	"loss": 0.1138,
	"step": 54
	},
	{
	"epoch": 0.1812191103789127,
	"grad_norm": 2.39128847516323,
	"learning_rate": 9.016393442622952e-06,
	"loss": 0.0995,
	"step": 55
	},
	{
	"epoch": 0.18451400329489293,
	"grad_norm": 2.005472201286874,
	"learning_rate": 9.18032786885246e-06,
	"loss": 0.1071,
	"step": 56
	},
	{
	"epoch": 0.18780889621087316,
	"grad_norm": 1.771963789348757,
	"learning_rate": 9.344262295081968e-06,
	"loss": 0.1194,
	"step": 57
	},
	{
	"epoch": 0.19110378912685339,
	"grad_norm": 1.9883587282426103,
	"learning_rate": 9.508196721311476e-06,
	"loss": 0.1263,
	"step": 58
	},
	{
	"epoch": 0.19439868204283361,
	"grad_norm": 1.869337708289752,
	"learning_rate": 9.672131147540984e-06,
	"loss": 0.0906,
	"step": 59
	},
	{
	"epoch": 0.19769357495881384,
	"grad_norm": 1.95284840649176,
	"learning_rate": 9.836065573770493e-06,
	"loss": 0.0941,
	"step": 60
	},
	{
	"epoch": 0.20098846787479407,
	"grad_norm": 0.9408728760921459,
	"learning_rate": 1e-05,
	"loss": 0.0892,
	"step": 61
	},
	{
	"epoch": 0.2042833607907743,
	"grad_norm": 1.4827130661563888,
	"learning_rate": 9.999916929744365e-06,
	"loss": 0.0897,
	"step": 62
	},
	{
	"epoch": 0.20757825370675453,
	"grad_norm": 1.7548705917176584,
	"learning_rate": 9.999667721737726e-06,
	"loss": 0.1052,
	"step": 63
	},
	{
	"epoch": 0.21087314662273476,
	"grad_norm": 1.5160957230364678,
	"learning_rate": 9.999252384260794e-06,
	"loss": 0.0959,
	"step": 64
	},
	{
	"epoch": 0.214168039538715,
	"grad_norm": 1.4961421846399192,
	"learning_rate": 9.998670931114443e-06,
	"loss": 0.0738,
	"step": 65
	},
	{
	"epoch": 0.21746293245469522,
	"grad_norm": 1.6241097546909007,
	"learning_rate": 9.997923381619257e-06,
	"loss": 0.1057,
	"step": 66
	},
	{
	"epoch": 0.22075782537067545,
	"grad_norm": 1.3354496262353763,
	"learning_rate": 9.99700976061489e-06,
	"loss": 0.0951,
	"step": 67
	},
	{
	"epoch": 0.22405271828665568,
	"grad_norm": 1.0847564491580965,
	"learning_rate": 9.99593009845923e-06,
	"loss": 0.0863,
	"step": 68
	},
	{
	"epoch": 0.2273476112026359,
	"grad_norm": 1.6871231023520186,
	"learning_rate": 9.994684431027407e-06,
	"loss": 0.0804,
	"step": 69
	},
	{
	"epoch": 0.23064250411861614,
	"grad_norm": 1.428280535176863,
	"learning_rate": 9.99327279971058e-06,
	"loss": 0.0865,
	"step": 70
	},
	{
	"epoch": 0.23393739703459637,
	"grad_norm": 1.1179352637786575,
	"learning_rate": 9.991695251414584e-06,
	"loss": 0.0734,
	"step": 71
	},
	{
	"epoch": 0.2372322899505766,
	"grad_norm": 1.2033588488413391,
	"learning_rate": 9.989951838558352e-06,
	"loss": 0.105,
	"step": 72
	},
	{
	"epoch": 0.24052718286655683,
	"grad_norm": 1.465169988779563,
	"learning_rate": 9.988042619072185e-06,
	"loss": 0.0729,
	"step": 73
	},
	{
	"epoch": 0.24382207578253706,
	"grad_norm": 0.8979589269956051,
	"learning_rate": 9.985967656395823e-06,
	"loss": 0.0802,
	"step": 74
	},
	{
	"epoch": 0.2471169686985173,
	"grad_norm": 1.733084591549866,
	"learning_rate": 9.98372701947634e-06,
	"loss": 0.1105,
	"step": 75
	},
	{
	"epoch": 0.2504118616144975,
	"grad_norm": 1.3264470296840676,
	"learning_rate": 9.981320782765847e-06,
	"loss": 0.0994,
	"step": 76
	},
	{
	"epoch": 0.25370675453047775,
	"grad_norm": 1.6544247928428517,
	"learning_rate": 9.978749026219023e-06,
	"loss": 0.0729,
	"step": 77
	},
	{
	"epoch": 0.257001647446458,
	"grad_norm": 1.7379037158314299,
	"learning_rate": 9.976011835290457e-06,
	"loss": 0.1084,
	"step": 78
	},
	{
	"epoch": 0.2602965403624382,
	"grad_norm": 2.1898271902712465,
	"learning_rate": 9.973109300931813e-06,
	"loss": 0.14,
	"step": 79
	},
	{
	"epoch": 0.26359143327841844,
	"grad_norm": 1.5180418313244188,
	"learning_rate": 9.970041519588797e-06,
	"loss": 0.1032,
	"step": 80
	},
	{
	"epoch": 0.26688632619439867,
	"grad_norm": 0.9058107350669203,
	"learning_rate": 9.966808593197959e-06,
	"loss": 0.0659,
	"step": 81
	},
	{
	"epoch": 0.2701812191103789,
	"grad_norm": 1.6740173453146032,
	"learning_rate": 9.963410629183311e-06,
	"loss": 0.0903,
	"step": 82
	},
	{
	"epoch": 0.27347611202635913,
	"grad_norm": 1.6927879596763102,
	"learning_rate": 9.959847740452746e-06,
	"loss": 0.1011,
	"step": 83
	},
	{
	"epoch": 0.27677100494233936,
	"grad_norm": 1.1858716785831125,
	"learning_rate": 9.956120045394297e-06,
	"loss": 0.1001,
	"step": 84
	},
	{
	"epoch": 0.2800658978583196,
	"grad_norm": 1.7472793459338325,
	"learning_rate": 9.952227667872197e-06,
	"loss": 0.0999,
	"step": 85
	},
	{
	"epoch": 0.2833607907742998,
	"grad_norm": 1.3355726739748197,
	"learning_rate": 9.948170737222763e-06,
	"loss": 0.0869,
	"step": 86
	},
	{
	"epoch": 0.28665568369028005,
	"grad_norm": 1.6554862377061288,
	"learning_rate": 9.943949388250102e-06,
	"loss": 0.0956,
	"step": 87
	},
	{
	"epoch": 0.2899505766062603,
	"grad_norm": 1.4959889750287383,
	"learning_rate": 9.939563761221628e-06,
	"loss": 0.1011,
	"step": 88
	},
	{
	"epoch": 0.2932454695222405,
	"grad_norm": 1.90960683038771,
	"learning_rate": 9.935014001863405e-06,
	"loss": 0.086,
	"step": 89
	},
	{
	"epoch": 0.29654036243822074,
	"grad_norm": 1.33889912510083,
	"learning_rate": 9.930300261355305e-06,
	"loss": 0.0884,
	"step": 90
	},
	{
	"epoch": 0.29983525535420097,
	"grad_norm": 1.8364942381661888,
	"learning_rate": 9.925422696325976e-06,
	"loss": 0.1198,
	"step": 91
	},
	{
	"epoch": 0.3031301482701812,
	"grad_norm": 0.9853906443215683,
	"learning_rate": 9.920381468847648e-06,
	"loss": 0.0805,
	"step": 92
	},
	{
	"epoch": 0.30642504118616143,
	"grad_norm": 1.802022784884664,
	"learning_rate": 9.915176746430746e-06,
	"loss": 0.1,
	"step": 93
	},
	{
	"epoch": 0.30971993410214166,
	"grad_norm": 1.6019896189177425,
	"learning_rate": 9.909808702018315e-06,
	"loss": 0.1063,
	"step": 94
	},
	{
	"epoch": 0.3130148270181219,
	"grad_norm": 1.7270522226909808,
	"learning_rate": 9.904277513980285e-06,
	"loss": 0.1009,
	"step": 95
	},
	{
	"epoch": 0.3163097199341021,
	"grad_norm": 1.355594119054743,
	"learning_rate": 9.898583366107539e-06,
	"loss": 0.0875,
	"step": 96
	},
	{
	"epoch": 0.31960461285008235,
	"grad_norm": 1.8076099955595957,
	"learning_rate": 9.892726447605803e-06,
	"loss": 0.1236,
	"step": 97
	},
	{
	"epoch": 0.3228995057660626,
	"grad_norm": 1.6099906623254512,
	"learning_rate": 9.886706953089364e-06,
	"loss": 0.0873,
	"step": 98
	},
	{
	"epoch": 0.3261943986820428,
	"grad_norm": 1.1035445355215792,
	"learning_rate": 9.880525082574604e-06,
	"loss": 0.0869,
	"step": 99
	},
	{
	"epoch": 0.32948929159802304,
	"grad_norm": 1.4670801213842743,
	"learning_rate": 9.874181041473344e-06,
	"loss": 0.1076,
	"step": 100
	},
	{
	"epoch": 0.33278418451400327,
	"grad_norm": 1.1434779708887954,
	"learning_rate": 9.867675040586035e-06,
	"loss": 0.0987,
	"step": 101
	},
	{
	"epoch": 0.33607907742998355,
	"grad_norm": 1.2329688966692105,
	"learning_rate": 9.861007296094736e-06,
	"loss": 0.0685,
	"step": 102
	},
	{
	"epoch": 0.3393739703459638,
	"grad_norm": 1.33973829264815,
	"learning_rate": 9.854178029555945e-06,
	"loss": 0.0926,
	"step": 103
	},
	{
	"epoch": 0.342668863261944,
	"grad_norm": 2.4442395017358565,
	"learning_rate": 9.847187467893228e-06,
	"loss": 0.0942,
	"step": 104
	},
	{
	"epoch": 0.34596375617792424,
	"grad_norm": 1.5545572705565789,
	"learning_rate": 9.840035843389684e-06,
	"loss": 0.0849,
	"step": 105
	},
	{
	"epoch": 0.34925864909390447,
	"grad_norm": 0.8361181058922856,
	"learning_rate": 9.832723393680222e-06,
	"loss": 0.0678,
	"step": 106
	},
	{
	"epoch": 0.3525535420098847,
	"grad_norm": 1.1875767399598742,
	"learning_rate": 9.825250361743667e-06,
	"loss": 0.0922,
	"step": 107
	},
	{
	"epoch": 0.35584843492586493,
	"grad_norm": 1.018855526493989,
	"learning_rate": 9.817616995894694e-06,
	"loss": 0.0893,
	"step": 108
	},
	{
	"epoch": 0.35914332784184516,
	"grad_norm": 0.8793948272396893,
	"learning_rate": 9.809823549775559e-06,
	"loss": 0.0816,
	"step": 109
	},
	{
	"epoch": 0.3624382207578254,
	"grad_norm": 1.1843731418180148,
	"learning_rate": 9.801870282347686e-06,
	"loss": 0.0815,
	"step": 110
	},
	{
	"epoch": 0.3657331136738056,
	"grad_norm": 1.3513059654506845,
	"learning_rate": 9.793757457883062e-06,
	"loss": 0.0838,
	"step": 111
	},
	{
	"epoch": 0.36902800658978585,
	"grad_norm": 0.9877986179117915,
	"learning_rate": 9.785485345955446e-06,
	"loss": 0.0873,
	"step": 112
	},
	{
	"epoch": 0.3723228995057661,
	"grad_norm": 0.8970818631280407,
	"learning_rate": 9.777054221431418e-06,
	"loss": 0.0611,
	"step": 113
	},
	{
	"epoch": 0.3756177924217463,
	"grad_norm": 0.9226544421763598,
	"learning_rate": 9.768464364461248e-06,
	"loss": 0.078,
	"step": 114
	},
	{
	"epoch": 0.37891268533772654,
	"grad_norm": 1.4766754423858683,
	"learning_rate": 9.75971606046958e-06,
	"loss": 0.0858,
	"step": 115
	},
	{
	"epoch": 0.38220757825370677,
	"grad_norm": 1.320312770948565,
	"learning_rate": 9.750809600145955e-06,
	"loss": 0.0872,
	"step": 116
	},
	{
	"epoch": 0.385502471169687,
	"grad_norm": 0.9205622576015271,
	"learning_rate": 9.741745279435144e-06,
	"loss": 0.0855,
	"step": 117
	},
	{
	"epoch": 0.38879736408566723,
	"grad_norm": 2.1130956623266384,
	"learning_rate": 9.732523399527328e-06,
	"loss": 0.0869,
	"step": 118
	},
	{
	"epoch": 0.39209225700164746,
	"grad_norm": 1.346773242530782,
	"learning_rate": 9.723144266848073e-06,
	"loss": 0.0891,
	"step": 119
	},
	{
	"epoch": 0.3953871499176277,
	"grad_norm": 0.954418724615336,
	"learning_rate": 9.713608193048156e-06,
	"loss": 0.0927,
	"step": 120
	},
	{
	"epoch": 0.3986820428336079,
	"grad_norm": 1.1613672266850283,
	"learning_rate": 9.703915494993215e-06,
	"loss": 0.0946,
	"step": 121
	},
	{
	"epoch": 0.40197693574958815,
	"grad_norm": 0.9668677562255413,
	"learning_rate": 9.694066494753211e-06,
	"loss": 0.0828,
	"step": 122
	},
	{
	"epoch": 0.4052718286655684,
	"grad_norm": 1.1556457477946604,
	"learning_rate": 9.684061519591734e-06,
	"loss": 0.0926,
	"step": 123
	},
	{
	"epoch": 0.4085667215815486,
	"grad_norm": 1.0348616873807939,
	"learning_rate": 9.673900901955118e-06,
	"loss": 0.0942,
	"step": 124
	},
	{
	"epoch": 0.41186161449752884,
	"grad_norm": 0.954839683053947,
	"learning_rate": 9.663584979461407e-06,
	"loss": 0.0841,
	"step": 125
	},
	{
	"epoch": 0.41515650741350907,
	"grad_norm": 0.8951987570639582,
	"learning_rate": 9.653114094889128e-06,
	"loss": 0.082,
	"step": 126
	},
	{
	"epoch": 0.4184514003294893,
	"grad_norm": 0.5582851260265275,
	"learning_rate": 9.642488596165903e-06,
	"loss": 0.0579,
	"step": 127
	},
	{
	"epoch": 0.42174629324546953,
	"grad_norm": 0.7282031291743011,
	"learning_rate": 9.631708836356893e-06,
	"loss": 0.0686,
	"step": 128
	},
	{
	"epoch": 0.42504118616144976,
	"grad_norm": 0.7341380700784487,
	"learning_rate": 9.620775173653055e-06,
	"loss": 0.0581,
	"step": 129
	},
	{
	"epoch": 0.42833607907743,
	"grad_norm": 1.0426311808706392,
	"learning_rate": 9.609687971359254e-06,
	"loss": 0.0863,
	"step": 130
	},
	{
	"epoch": 0.4316309719934102,
	"grad_norm": 0.7221932362532579,
	"learning_rate": 9.598447597882181e-06,
	"loss": 0.0904,
	"step": 131
	},
	{
	"epoch": 0.43492586490939045,
	"grad_norm": 1.057905146517346,
	"learning_rate": 9.587054426718117e-06,
	"loss": 0.087,
	"step": 132
	},
	{
	"epoch": 0.4382207578253707,
	"grad_norm": 1.0654844742045295,
	"learning_rate": 9.575508836440516e-06,
	"loss": 0.0833,
	"step": 133
	},
	{
	"epoch": 0.4415156507413509,
	"grad_norm": 0.9708392842496616,
	"learning_rate": 9.563811210687433e-06,
	"loss": 0.07,
	"step": 134
	},
	{
	"epoch": 0.44481054365733114,
	"grad_norm": 0.869842645454385,
	"learning_rate": 9.551961938148772e-06,
	"loss": 0.0798,
	"step": 135
	},
	{
	"epoch": 0.44810543657331137,
	"grad_norm": 0.9291669588809491,
	"learning_rate": 9.539961412553375e-06,
	"loss": 0.0717,
	"step": 136
	},
	{
	"epoch": 0.4514003294892916,
	"grad_norm": 0.971502019921878,
	"learning_rate": 9.52781003265593e-06,
	"loss": 0.0936,
	"step": 137
	},
	{
	"epoch": 0.4546952224052718,
	"grad_norm": 0.7797238947376094,
	"learning_rate": 9.515508202223735e-06,
	"loss": 0.0711,
	"step": 138
	},
	{
	"epoch": 0.45799011532125206,
	"grad_norm": 1.0743726394776476,
	"learning_rate": 9.503056330023267e-06,
	"loss": 0.0755,
	"step": 139
	},
	{
	"epoch": 0.4612850082372323,
	"grad_norm": 1.1954773475892864,
	"learning_rate": 9.490454829806609e-06,
	"loss": 0.1304,
	"step": 140
	},
	{
	"epoch": 0.4645799011532125,
	"grad_norm": 0.5763939890921029,
	"learning_rate": 9.477704120297698e-06,
	"loss": 0.0614,
	"step": 141
	},
	{
	"epoch": 0.46787479406919275,
	"grad_norm": 0.9472151466304063,
	"learning_rate": 9.464804625178414e-06,
	"loss": 0.0712,
	"step": 142
	},
	{
	"epoch": 0.471169686985173,
	"grad_norm": 0.886844022382936,
	"learning_rate": 9.4517567730745e-06,
	"loss": 0.0797,
	"step": 143
	},
	{
	"epoch": 0.4744645799011532,
	"grad_norm": 1.0134166748412918,
	"learning_rate": 9.438560997541319e-06,
	"loss": 0.0899,
	"step": 144
	},
	{
	"epoch": 0.47775947281713343,
	"grad_norm": 0.8070690603660651,
	"learning_rate": 9.425217737049452e-06,
	"loss": 0.0826,
	"step": 145
	},
	{
	"epoch": 0.48105436573311366,
	"grad_norm": 0.8619994488550511,
	"learning_rate": 9.411727434970121e-06,
	"loss": 0.086,
	"step": 146
	},
	{
	"epoch": 0.4843492586490939,
	"grad_norm": 0.8778816857460797,
	"learning_rate": 9.398090539560465e-06,
	"loss": 0.0854,
	"step": 147
	},
	{
	"epoch": 0.4876441515650741,
	"grad_norm": 1.1118672558694775,
	"learning_rate": 9.384307503948637e-06,
	"loss": 0.1105,
	"step": 148
	},
	{
	"epoch": 0.49093904448105435,
	"grad_norm": 1.032735807082786,
	"learning_rate": 9.370378786118755e-06,
	"loss": 0.0783,
	"step": 149
	},
	{
	"epoch": 0.4942339373970346,
	"grad_norm": 1.0495708384737894,
	"learning_rate": 9.356304848895676e-06,
	"loss": 0.0815,
	"step": 150
	},
	{
	"epoch": 0.4975288303130148,
	"grad_norm": 1.0945068947939716,
	"learning_rate": 9.342086159929629e-06,
	"loss": 0.0875,
	"step": 151
	},
	{
	"epoch": 0.500823723228995,
	"grad_norm": 1.1286751183737302,
	"learning_rate": 9.327723191680666e-06,
	"loss": 0.0545,
	"step": 152
	},
	{
	"epoch": 0.5041186161449753,
	"grad_norm": 0.9183247855730471,
	"learning_rate": 9.31321642140296e-06,
	"loss": 0.0757,
	"step": 153
	},
	{
	"epoch": 0.5074135090609555,
	"grad_norm": 1.0502035656993673,
	"learning_rate": 9.29856633112896e-06,
	"loss": 0.0809,
	"step": 154
	},
	{
	"epoch": 0.5107084019769358,
	"grad_norm": 0.8738749178267629,
	"learning_rate": 9.283773407653363e-06,
	"loss": 0.0562,
	"step": 155
	},
	{
	"epoch": 0.514003294892916,
	"grad_norm": 1.0813438666782247,
	"learning_rate": 9.268838142516943e-06,
	"loss": 0.085,
	"step": 156
	},
	{
	"epoch": 0.5172981878088962,
	"grad_norm": 1.0115574109758954,
	"learning_rate": 9.253761031990218e-06,
	"loss": 0.0749,
	"step": 157
	},
	{
	"epoch": 0.5205930807248764,
	"grad_norm": 1.375042365212545,
	"learning_rate": 9.238542577056957e-06,
	"loss": 0.078,
	"step": 158
	},
	{
	"epoch": 0.5238879736408567,
	"grad_norm": 1.59130187611513,
	"learning_rate": 9.223183283397538e-06,
	"loss": 0.1029,
	"step": 159
	},
	{
	"epoch": 0.5271828665568369,
	"grad_norm": 1.1395752837101527,
	"learning_rate": 9.20768366137214e-06,
	"loss": 0.1128,
	"step": 160
	},
	{
	"epoch": 0.5304777594728172,
	"grad_norm": 0.8079597092244131,
	"learning_rate": 9.19204422600379e-06,
	"loss": 0.0527,
	"step": 161
	},
	{
	"epoch": 0.5337726523887973,
	"grad_norm": 1.0336684369348528,
	"learning_rate": 9.176265496961242e-06,
	"loss": 0.0828,
	"step": 162
	},
	{
	"epoch": 0.5370675453047776,
	"grad_norm": 0.8656528491730779,
	"learning_rate": 9.160347998541722e-06,
	"loss": 0.0704,
	"step": 163
	},
	{
	"epoch": 0.5403624382207578,
	"grad_norm": 2.086614798853126,
	"learning_rate": 9.144292259653493e-06,
	"loss": 0.104,
	"step": 164
	},
	{
	"epoch": 0.5436573311367381,
	"grad_norm": 1.5779000987891205,
	"learning_rate": 9.128098813798291e-06,
	"loss": 0.0996,
	"step": 165
	},
	{
	"epoch": 0.5469522240527183,
	"grad_norm": 0.7283818376854391,
	"learning_rate": 9.111768199053588e-06,
	"loss": 0.0621,
	"step": 166
	},
	{
	"epoch": 0.5502471169686985,
	"grad_norm": 1.2155979859224575,
	"learning_rate": 9.095300958054722e-06,
	"loss": 0.0653,
	"step": 167
	},
	{
	"epoch": 0.5535420098846787,
	"grad_norm": 1.3669964434695867,
	"learning_rate": 9.078697637976861e-06,
	"loss": 0.1071,
	"step": 168
	},
	{
	"epoch": 0.556836902800659,
	"grad_norm": 0.659337598200629,
	"learning_rate": 9.061958790516821e-06,
	"loss": 0.101,
	"step": 169
	},
	{
	"epoch": 0.5601317957166392,
	"grad_norm": 3.064428601730586,
	"learning_rate": 9.045084971874738e-06,
	"loss": 0.0631,
	"step": 170
	},
	{
	"epoch": 0.5634266886326195,
	"grad_norm": 1.8617437169334994,
	"learning_rate": 9.028076742735583e-06,
	"loss": 0.1062,
	"step": 171
	},
	{
	"epoch": 0.5667215815485996,
	"grad_norm": 1.005975190266642,
	"learning_rate": 9.010934668250533e-06,
	"loss": 0.0706,
	"step": 172
	},
	{
	"epoch": 0.5700164744645799,
	"grad_norm": 1.2704133524125742,
	"learning_rate": 8.993659318018191e-06,
	"loss": 0.1047,
	"step": 173
	},
	{
	"epoch": 0.5733113673805601,
	"grad_norm": 1.5091840035688024,
	"learning_rate": 8.976251266065663e-06,
	"loss": 0.0915,
	"step": 174
	},
	{
	"epoch": 0.5766062602965404,
	"grad_norm": 0.9983867645520093,
	"learning_rate": 8.958711090829477e-06,
	"loss": 0.0868,
	"step": 175
	},
	{
	"epoch": 0.5799011532125206,
	"grad_norm": 0.9695191782522918,
	"learning_rate": 8.94103937513637e-06,
	"loss": 0.0782,
	"step": 176
	},
	{
	"epoch": 0.5831960461285008,
	"grad_norm": 1.485821220772562,
	"learning_rate": 8.923236706183923e-06,
	"loss": 0.088,
	"step": 177
	},
	{
	"epoch": 0.586490939044481,
	"grad_norm": 0.8778171297271887,
	"learning_rate": 8.905303675521031e-06,
	"loss": 0.0675,
	"step": 178
	},
	{
	"epoch": 0.5897858319604613,
	"grad_norm": 1.4148551976101613,
	"learning_rate": 8.887240879028276e-06,
	"loss": 0.0968,
	"step": 179
	},
	{
	"epoch": 0.5930807248764415,
	"grad_norm": 1.2313668213255908,
	"learning_rate": 8.869048916898109e-06,
	"loss": 0.0885,
	"step": 180
	},
	{
	"epoch": 0.5963756177924218,
	"grad_norm": 0.7935552297095103,
	"learning_rate": 8.850728393614903e-06,
	"loss": 0.0919,
	"step": 181
	},
	{
	"epoch": 0.5996705107084019,
	"grad_norm": 0.6219191194067725,
	"learning_rate": 8.832279917934881e-06,
	"loss": 0.0495,
	"step": 182
	},
	{
	"epoch": 0.6029654036243822,
	"grad_norm": 0.891323405042387,
	"learning_rate": 8.813704102865881e-06,
	"loss": 0.1036,
	"step": 183
	},
	{
	"epoch": 0.6062602965403624,
	"grad_norm": 0.7672391951678563,
	"learning_rate": 8.795001565646983e-06,
	"loss": 0.0728,
	"step": 184
	},
	{
	"epoch": 0.6095551894563427,
	"grad_norm": 0.9915439152928615,
	"learning_rate": 8.776172927728008e-06,
	"loss": 0.0744,
	"step": 185
	},
	{
	"epoch": 0.6128500823723229,
	"grad_norm": 0.7415850366120278,
	"learning_rate": 8.75721881474886e-06,
	"loss": 0.0999,
	"step": 186
	},
	{
	"epoch": 0.6161449752883031,
	"grad_norm": 0.7803751476377428,
	"learning_rate": 8.738139856518746e-06,
	"loss": 0.084,
	"step": 187
	},
	{
	"epoch": 0.6194398682042833,
	"grad_norm": 0.6444369328111929,
	"learning_rate": 8.718936686995239e-06,
	"loss": 0.0632,
	"step": 188
	},
	{
	"epoch": 0.6227347611202636,
	"grad_norm": 1.063336491675898,
	"learning_rate": 8.699609944263219e-06,
	"loss": 0.0854,
	"step": 189
	},
	{
	"epoch": 0.6260296540362438,
	"grad_norm": 0.5254825539939502,
	"learning_rate": 8.680160270513671e-06,
	"loss": 0.0658,
	"step": 190
	},
	{
	"epoch": 0.6293245469522241,
	"grad_norm": 2.1957036152343097,
	"learning_rate": 8.660588312022345e-06,
	"loss": 0.0767,
	"step": 191
	},
	{
	"epoch": 0.6326194398682042,
	"grad_norm": 1.1425043272398887,
	"learning_rate": 8.640894719128274e-06,
	"loss": 0.1092,
	"step": 192
	},
	{
	"epoch": 0.6359143327841845,
	"grad_norm": 0.6811077233527263,
	"learning_rate": 8.621080146212181e-06,
	"loss": 0.0552,
	"step": 193
	},
	{
	"epoch": 0.6392092257001647,
	"grad_norm": 1.0217179933628129,
	"learning_rate": 8.601145251674718e-06,
	"loss": 0.0749,
	"step": 194
	},
	{
	"epoch": 0.642504118616145,
	"grad_norm": 0.9919309113126284,
	"learning_rate": 8.581090697914602e-06,
	"loss": 0.0929,
	"step": 195
	},
	{
	"epoch": 0.6457990115321252,
	"grad_norm": 1.178486792691301,
	"learning_rate": 8.560917151306594e-06,
	"loss": 0.1023,
	"step": 196
	},
	{
	"epoch": 0.6490939044481054,
	"grad_norm": 1.155779967707836,
	"learning_rate": 8.540625282179364e-06,
	"loss": 0.0821,
	"step": 197
	},
	{
	"epoch": 0.6523887973640856,
	"grad_norm": 1.0278193202776953,
	"learning_rate": 8.520215764793214e-06,
	"loss": 0.0739,
	"step": 198
	},
	{
	"epoch": 0.6556836902800659,
	"grad_norm": 5.872968813903652,
	"learning_rate": 8.499689277317675e-06,
	"loss": 0.0763,
	"step": 199
	},
	{
	"epoch": 0.6589785831960461,
	"grad_norm": 1.4949053388183082,
	"learning_rate": 8.479046501808971e-06,
	"loss": 0.0696,
	"step": 200
	},
	{
	"epoch": 0.6622734761120264,
	"grad_norm": 0.9342591652212858,
	"learning_rate": 8.45828812418736e-06,
	"loss": 0.0629,
	"step": 201
	},
	{
	"epoch": 0.6655683690280065,
	"grad_norm": 0.5142904539906094,
	"learning_rate": 8.437414834214333e-06,
	"loss": 0.0653,
	"step": 202
	},
	{
	"epoch": 0.6688632619439868,
	"grad_norm": 1.3243894037794444,
	"learning_rate": 8.416427325469705e-06,
	"loss": 0.1095,
	"step": 203
	},
	{
	"epoch": 0.6721581548599671,
	"grad_norm": 1.3555237832265656,
	"learning_rate": 8.395326295328562e-06,
	"loss": 0.1028,
	"step": 204
	},
	{
	"epoch": 0.6754530477759473,
	"grad_norm": 0.818855723195901,
	"learning_rate": 8.374112444938094e-06,
	"loss": 0.088,
	"step": 205
	},
	{
	"epoch": 0.6787479406919276,
	"grad_norm": 0.8852074571699485,
	"learning_rate": 8.352786479194288e-06,
	"loss": 0.0526,
	"step": 206
	},
	{
	"epoch": 0.6820428336079077,
	"grad_norm": 1.372137747701387,
	"learning_rate": 8.331349106718515e-06,
	"loss": 0.0957,
	"step": 207
	},
	{
	"epoch": 0.685337726523888,
	"grad_norm": 0.8727917319312107,
	"learning_rate": 8.309801039833978e-06,
	"loss": 0.0895,
	"step": 208
	},
	{
	"epoch": 0.6886326194398682,
	"grad_norm": 1.0509761315988109,
	"learning_rate": 8.28814299454205e-06,
	"loss": 0.0996,
	"step": 209
	},
	{
	"epoch": 0.6919275123558485,
	"grad_norm": 0.8839477803791086,
	"learning_rate": 8.266375690498475e-06,
	"loss": 0.0865,
	"step": 210
	},
	{
	"epoch": 0.6952224052718287,
	"grad_norm": 0.7064553470448757,
	"learning_rate": 8.244499850989453e-06,
	"loss": 0.0728,
	"step": 211
	},
	{
	"epoch": 0.6985172981878089,
	"grad_norm": 0.9694201547278781,
	"learning_rate": 8.22251620290762e-06,
	"loss": 0.0581,
	"step": 212
	},
	{
	"epoch": 0.7018121911037891,
	"grad_norm": 0.724783690835583,
	"learning_rate": 8.20042547672788e-06,
	"loss": 0.0828,
	"step": 213
	},
	{
	"epoch": 0.7051070840197694,
	"grad_norm": 0.7137797204098316,
	"learning_rate": 8.178228406483145e-06,
	"loss": 0.0707,
	"step": 214
	},
	{
	"epoch": 0.7084019769357496,
	"grad_norm": 0.4606523745916078,
	"learning_rate": 8.15592572973993e-06,
	"loss": 0.044,
	"step": 215
	},
	{
	"epoch": 0.7116968698517299,
	"grad_norm": 0.6640092591585782,
	"learning_rate": 8.133518187573864e-06,
	"loss": 0.0561,
	"step": 216
	},
	{
	"epoch": 0.71499176276771,
	"grad_norm": 0.8170937626114954,
	"learning_rate": 8.111006524545043e-06,
	"loss": 0.0823,
	"step": 217
	},
	{
	"epoch": 0.7182866556836903,
	"grad_norm": 0.6372182616249538,
	"learning_rate": 8.088391488673313e-06,
	"loss": 0.066,
	"step": 218
	},
	{
	"epoch": 0.7215815485996705,
	"grad_norm": 0.6375067936631406,
	"learning_rate": 8.065673831413396e-06,
	"loss": 0.0506,
	"step": 219
	},
	{
	"epoch": 0.7248764415156508,
	"grad_norm": 0.6423309999365212,
	"learning_rate": 8.042854307629932e-06,
	"loss": 0.0629,
	"step": 220
	},
	{
	"epoch": 0.728171334431631,
	"grad_norm": 0.752582677343103,
	"learning_rate": 8.019933675572389e-06,
	"loss": 0.0722,
	"step": 221
	},
	{
	"epoch": 0.7314662273476112,
	"grad_norm": 0.8112402585396246,
	"learning_rate": 7.996912696849873e-06,
	"loss": 0.0842,
	"step": 222
	},
	{
	"epoch": 0.7347611202635914,
	"grad_norm": 0.6919487336036387,
	"learning_rate": 7.97379213640582e-06,
	"loss": 0.0684,
	"step": 223
	},
	{
	"epoch": 0.7380560131795717,
	"grad_norm": 0.7434807539917022,
	"learning_rate": 7.950572762492577e-06,
	"loss": 0.0682,
	"step": 224
	},
	{
	"epoch": 0.7413509060955519,
	"grad_norm": 0.6848656249105235,
	"learning_rate": 7.927255346645872e-06,
	"loss": 0.0546,
	"step": 225
	},
	{
	"epoch": 0.7446457990115322,
	"grad_norm": 0.7826479624770332,
	"learning_rate": 7.903840663659186e-06,
	"loss": 0.0684,
	"step": 226
	},
	{
	"epoch": 0.7479406919275123,
	"grad_norm": 0.6927518800734283,
	"learning_rate": 7.880329491557996e-06,
	"loss": 0.079,
	"step": 227
	},
	{
	"epoch": 0.7512355848434926,
	"grad_norm": 0.8763045243203113,
	"learning_rate": 7.856722611573938e-06,
	"loss": 0.1068,
	"step": 228
	},
	{
	"epoch": 0.7545304777594728,
	"grad_norm": 0.8300681217056403,
	"learning_rate": 7.83302080811883e-06,
	"loss": 0.0667,
	"step": 229
	},
	{
	"epoch": 0.7578253706754531,
	"grad_norm": 0.5437395859594083,
	"learning_rate": 7.809224868758621e-06,
	"loss": 0.0671,
	"step": 230
	},
	{
	"epoch": 0.7611202635914333,
	"grad_norm": 0.7134167417475868,
	"learning_rate": 7.78533558418722e-06,
	"loss": 0.079,
	"step": 231
	},
	{
	"epoch": 0.7644151565074135,
	"grad_norm": 0.8367162252369527,
	"learning_rate": 7.761353748200213e-06,
	"loss": 0.075,
	"step": 232
	},
	{
	"epoch": 0.7677100494233937,
	"grad_norm": 0.6993381735068975,
	"learning_rate": 7.737280157668503e-06,
	"loss": 0.0665,
	"step": 233
	},
	{
	"epoch": 0.771004942339374,
	"grad_norm": 0.644489745443266,
	"learning_rate": 7.713115612511815e-06,
	"loss": 0.0704,
	"step": 234
	},
	{
	"epoch": 0.7742998352553542,
	"grad_norm": 0.6337392482963783,
	"learning_rate": 7.688860915672129e-06,
	"loss": 0.0487,
	"step": 235
	},
	{
	"epoch": 0.7775947281713345,
	"grad_norm": 0.4306575759208823,
	"learning_rate": 7.664516873086987e-06,
	"loss": 0.0498,
	"step": 236
	},
	{
	"epoch": 0.7808896210873146,
	"grad_norm": 0.6371209076121114,
	"learning_rate": 7.640084293662731e-06,
	"loss": 0.0581,
	"step": 237
	},
	{
	"epoch": 0.7841845140032949,
	"grad_norm": 0.809205628205596,
	"learning_rate": 7.615563989247604e-06,
	"loss": 0.0886,
	"step": 238
	},
	{
	"epoch": 0.7874794069192751,
	"grad_norm": 0.6807826450879982,
	"learning_rate": 7.590956774604791e-06,
	"loss": 0.0824,
	"step": 239
	},
	{
	"epoch": 0.7907742998352554,
	"grad_norm": 0.9092838195300236,
	"learning_rate": 7.566263467385335e-06,
	"loss": 0.0703,
	"step": 240
	},
	{
	"epoch": 0.7940691927512356,
	"grad_norm": 0.736565350841279,
	"learning_rate": 7.541484888100974e-06,
	"loss": 0.0695,
	"step": 241
	},
	{
	"epoch": 0.7973640856672158,
	"grad_norm": 0.7220288466907268,
	"learning_rate": 7.516621860096873e-06,
	"loss": 0.0707,
	"step": 242
	},
	{
	"epoch": 0.800658978583196,
	"grad_norm": 0.6829838831547227,
	"learning_rate": 7.491675209524272e-06,
	"loss": 0.0666,
	"step": 243
	},
	{
	"epoch": 0.8039538714991763,
	"grad_norm": 0.8226949141177504,
	"learning_rate": 7.466645765313023e-06,
	"loss": 0.0752,
	"step": 244
	},
	{
	"epoch": 0.8072487644151565,
	"grad_norm": 0.5909405519820083,
	"learning_rate": 7.4415343591440604e-06,
	"loss": 0.0582,
	"step": 245
	},
	{
	"epoch": 0.8105436573311368,
	"grad_norm": 0.7318765147109815,
	"learning_rate": 7.416341825421755e-06,
	"loss": 0.078,
	"step": 246
	},
	{
	"epoch": 0.8138385502471169,
	"grad_norm": 0.7063912838195767,
	"learning_rate": 7.391069001246193e-06,
	"loss": 0.0868,
	"step": 247
	},
	{
	"epoch": 0.8171334431630972,
	"grad_norm": 0.6799477779267012,
	"learning_rate": 7.365716726385361e-06,
	"loss": 0.0681,
	"step": 248
	},
	{
	"epoch": 0.8204283360790774,
	"grad_norm": 0.8516971338664023,
	"learning_rate": 7.3402858432472416e-06,
	"loss": 0.0761,
	"step": 249
	},
	{
	"epoch": 0.8237232289950577,
	"grad_norm": 0.8051104503646311,
	"learning_rate": 7.3147771968518175e-06,
	"loss": 0.077,
	"step": 250
	},
	{
	"epoch": 0.8270181219110379,
	"grad_norm": 0.8417638265928152,
	"learning_rate": 7.289191634803002e-06,
	"loss": 0.0721,
	"step": 251
	},
	{
	"epoch": 0.8303130148270181,
	"grad_norm": 0.9280576906426667,
	"learning_rate": 7.263530007260466e-06,
	"loss": 0.0839,
	"step": 252
	},
	{
	"epoch": 0.8336079077429983,
	"grad_norm": 0.8205604877193189,
	"learning_rate": 7.2377931669113934e-06,
	"loss": 0.084,
	"step": 253
	},
	{
	"epoch": 0.8369028006589786,
	"grad_norm": 0.7347246169190605,
	"learning_rate": 7.211981968942147e-06,
	"loss": 0.0508,
	"step": 254
	},
	{
	"epoch": 0.8401976935749588,
	"grad_norm": 0.7727540137134915,
	"learning_rate": 7.186097271009852e-06,
	"loss": 0.0504,
	"step": 255
	},
	{
	"epoch": 0.8434925864909391,
	"grad_norm": 0.6116838823458901,
	"learning_rate": 7.160139933213899e-06,
	"loss": 0.0533,
	"step": 256
	},
	{
	"epoch": 0.8467874794069192,
	"grad_norm": 0.8518782068127816,
	"learning_rate": 7.134110818067361e-06,
	"loss": 0.0775,
	"step": 257
	},
	{
	"epoch": 0.8500823723228995,
	"grad_norm": 0.9449160515812749,
	"learning_rate": 7.1080107904683405e-06,
	"loss": 0.0721,
	"step": 258
	},
	{
	"epoch": 0.8533772652388797,
	"grad_norm": 0.6964873142430633,
	"learning_rate": 7.08184071767122e-06,
	"loss": 0.0673,
	"step": 259
	},
	{
	"epoch": 0.85667215815486,
	"grad_norm": 0.768104304709271,
	"learning_rate": 7.0556014692578554e-06,
	"loss": 0.0749,
	"step": 260
	},
	{
	"epoch": 0.8599670510708401,
	"grad_norm": 0.7599189113700034,
	"learning_rate": 7.029293917108678e-06,
	"loss": 0.0684,
	"step": 261
	},
	{
	"epoch": 0.8632619439868204,
	"grad_norm": 0.777387517223909,
	"learning_rate": 7.0029189353737195e-06,
	"loss": 0.0656,
	"step": 262
	},
	{
	"epoch": 0.8665568369028006,
	"grad_norm": 0.7045793540209936,
	"learning_rate": 6.9764774004435685e-06,
	"loss": 0.0619,
	"step": 263
	},
	{
	"epoch": 0.8698517298187809,
	"grad_norm": 0.6234760268316166,
	"learning_rate": 6.949970190920255e-06,
	"loss": 0.0708,
	"step": 264
	},
	{
	"epoch": 0.8731466227347611,
	"grad_norm": 0.7124980322892176,
	"learning_rate": 6.9233981875880416e-06,
	"loss": 0.0521,
	"step": 265
	},
	{
	"epoch": 0.8764415156507414,
	"grad_norm": 0.8490902000387839,
	"learning_rate": 6.896762273384179e-06,
	"loss": 0.0632,
	"step": 266
	},
	{
	"epoch": 0.8797364085667215,
	"grad_norm": 0.6944201065528963,
	"learning_rate": 6.870063333369543e-06,
	"loss": 0.0716,
	"step": 267
	},
	{
	"epoch": 0.8830313014827018,
	"grad_norm": 0.758349126043532,
	"learning_rate": 6.8433022546992444e-06,
	"loss": 0.0596,
	"step": 268
	},
	{
	"epoch": 0.886326194398682,
	"grad_norm": 1.2664444257431744,
	"learning_rate": 6.81647992659314e-06,
	"loss": 0.0628,
	"step": 269
	},
	{
	"epoch": 0.8896210873146623,
	"grad_norm": 0.8379324844684077,
	"learning_rate": 6.789597240306295e-06,
	"loss": 0.0674,
	"step": 270
	},
	{
	"epoch": 0.8929159802306426,
	"grad_norm": 0.8462600835900949,
	"learning_rate": 6.762655089099353e-06,
	"loss": 0.0659,
	"step": 271
	},
	{
	"epoch": 0.8962108731466227,
	"grad_norm": 0.9094387161179498,
	"learning_rate": 6.735654368208875e-06,
	"loss": 0.0623,
	"step": 272
	},
	{
	"epoch": 0.899505766062603,
	"grad_norm": 0.7877875224066865,
	"learning_rate": 6.7085959748175685e-06,
	"loss": 0.0696,
	"step": 273
	},
	{
	"epoch": 0.9028006589785832,
	"grad_norm": 0.6514864513423558,
	"learning_rate": 6.681480808024503e-06,
	"loss": 0.0766,
	"step": 274
	},
	{
	"epoch": 0.9060955518945635,
	"grad_norm": 1.148236164352365,
	"learning_rate": 6.654309768815208e-06,
	"loss": 0.0903,
	"step": 275
	},
	{
	"epoch": 0.9093904448105437,
	"grad_norm": 0.7078109102899715,
	"learning_rate": 6.627083760031755e-06,
	"loss": 0.0607,
	"step": 276
	},
	{
	"epoch": 0.9126853377265239,
	"grad_norm": 0.613094345393223,
	"learning_rate": 6.599803686342748e-06,
	"loss": 0.0655,
	"step": 277
	},
	{
	"epoch": 0.9159802306425041,
	"grad_norm": 0.6642339763695972,
	"learning_rate": 6.572470454213266e-06,
	"loss": 0.0731,
	"step": 278
	},
	{
	"epoch": 0.9192751235584844,
	"grad_norm": 0.6971630112819691,
	"learning_rate": 6.545084971874738e-06,
	"loss": 0.0473,
	"step": 279
	},
	{
	"epoch": 0.9225700164744646,
	"grad_norm": 0.7592858638911076,
	"learning_rate": 6.517648149294774e-06,
	"loss": 0.0581,
	"step": 280
	},
	{
	"epoch": 0.9258649093904449,
	"grad_norm": 0.7189143571066544,
	"learning_rate": 6.490160898146919e-06,
	"loss": 0.0733,
	"step": 281
	},
	{
	"epoch": 0.929159802306425,
	"grad_norm": 0.8305599945381572,
	"learning_rate": 6.4626241317803665e-06,
	"loss": 0.0807,
	"step": 282
	},
	{
	"epoch": 0.9324546952224053,
	"grad_norm": 0.8787944618632045,
	"learning_rate": 6.4350387651896025e-06,
	"loss": 0.0648,
	"step": 283
	},
	{
	"epoch": 0.9357495881383855,
	"grad_norm": 0.649270561331511,
	"learning_rate": 6.407405714984011e-06,
	"loss": 0.0921,
	"step": 284
	},
	{
	"epoch": 0.9390444810543658,
	"grad_norm": 0.9873611661857511,
	"learning_rate": 6.379725899357408e-06,
	"loss": 0.0847,
	"step": 285
	},
	{
	"epoch": 0.942339373970346,
	"grad_norm": 0.8338719043181901,
	"learning_rate": 6.3520002380575395e-06,
	"loss": 0.0673,
	"step": 286
	},
	{
	"epoch": 0.9456342668863262,
	"grad_norm": 0.8390156519820746,
	"learning_rate": 6.324229652355513e-06,
	"loss": 0.0626,
	"step": 287
	},
	{
	"epoch": 0.9489291598023064,
	"grad_norm": 0.7197773939188823,
	"learning_rate": 6.29641506501519e-06,
	"loss": 0.0864,
	"step": 288
	},
	{
	"epoch": 0.9522240527182867,
	"grad_norm": 0.942984980454084,
	"learning_rate": 6.2685574002625235e-06,
	"loss": 0.0686,
	"step": 289
	},
	{
	"epoch": 0.9555189456342669,
	"grad_norm": 0.9649936636393807,
	"learning_rate": 6.2406575837548455e-06,
	"loss": 0.0599,
	"step": 290
	},
	{
	"epoch": 0.9588138385502472,
	"grad_norm": 0.6889881534410974,
	"learning_rate": 6.212716542550112e-06,
	"loss": 0.101,
	"step": 291
	},
	{
	"epoch": 0.9621087314662273,
	"grad_norm": 0.9632795509211302,
	"learning_rate": 6.184735205076097e-06,
	"loss": 0.0773,
	"step": 292
	},
	{
	"epoch": 0.9654036243822076,
	"grad_norm": 1.0400767819370376,
	"learning_rate": 6.156714501099544e-06,
	"loss": 0.0638,
	"step": 293
	},
	{
	"epoch": 0.9686985172981878,
	"grad_norm": 1.0147243725605253,
	"learning_rate": 6.1286553616952705e-06,
	"loss": 0.0593,
	"step": 294
	},
	{
	"epoch": 0.9719934102141681,
	"grad_norm": 0.6613193470791487,
	"learning_rate": 6.100558719215228e-06,
	"loss": 0.0632,
	"step": 295
	},
	{
	"epoch": 0.9752883031301482,
	"grad_norm": 1.0408938474730054,
	"learning_rate": 6.072425507257528e-06,
	"loss": 0.0876,
	"step": 296
	},
	{
	"epoch": 0.9785831960461285,
	"grad_norm": 0.712701647042842,
	"learning_rate": 6.044256660635412e-06,
	"loss": 0.0733,
	"step": 297
	},
	{
	"epoch": 0.9818780889621087,
	"grad_norm": 0.6397491114376809,
	"learning_rate": 6.016053115346197e-06,
	"loss": 0.0561,
	"step": 298
	},
	{
	"epoch": 0.985172981878089,
	"grad_norm": 0.7191102659386986,
	"learning_rate": 5.987815808540169e-06,
	"loss": 0.0791,
	"step": 299
	},
	{
	"epoch": 0.9884678747940692,
	"grad_norm": 0.4709712102337363,
	"learning_rate": 5.959545678489447e-06,
	"loss": 0.0475,
	"step": 300
	},
	{
	"epoch": 0.9917627677100495,
	"grad_norm": 0.8715274588578796,
	"learning_rate": 5.931243664556803e-06,
	"loss": 0.0771,
	"step": 301
	},
	{
	"epoch": 0.9950576606260296,
	"grad_norm": 0.7017524340447387,
	"learning_rate": 5.902910707164449e-06,
	"loss": 0.0712,
	"step": 302
	},
	{
	"epoch": 0.9983525535420099,
	"grad_norm": 0.7619744594259967,
	"learning_rate": 5.874547747762792e-06,
	"loss": 0.0585,
	"step": 303
	},
	{
	"epoch": 0.9983525535420099,
	"eval_loss": 0.07007648050785065,
	"eval_runtime": 143.0638,
	"eval_samples_per_second": 35.683,
	"eval_steps_per_second": 1.118,
	"step": 303
	},
	{
	"epoch": 1.00164744645799,
	"grad_norm": 0.5917774055195716,
	"learning_rate": 5.8461557287991455e-06,
	"loss": 0.0686,
	"step": 304
	},
	{
	"epoch": 1.0049423393739703,
	"grad_norm": 0.4973762275932349,
	"learning_rate": 5.81773559368642e-06,
	"loss": 0.0524,
	"step": 305
	},
	{
	"epoch": 1.0082372322899507,
	"grad_norm": 0.5021975231329254,
	"learning_rate": 5.7892882867717705e-06,
	"loss": 0.0577,
	"step": 306
	},
	{
	"epoch": 1.0115321252059308,
	"grad_norm": 0.704352626743678,
	"learning_rate": 5.7608147533052194e-06,
	"loss": 0.0509,
	"step": 307
	},
	{
	"epoch": 1.014827018121911,
	"grad_norm": 1.189723828759097,
	"learning_rate": 5.732315939408251e-06,
	"loss": 0.0815,
	"step": 308
	},
	{
	"epoch": 1.0181219110378912,
	"grad_norm": 0.6036027009145574,
	"learning_rate": 5.703792792042363e-06,
	"loss": 0.0556,
	"step": 309
	},
	{
	"epoch": 1.0214168039538716,
	"grad_norm": 0.5342904909103813,
	"learning_rate": 5.675246258977617e-06,
	"loss": 0.0487,
	"step": 310
	},
	{
	"epoch": 1.0247116968698518,
	"grad_norm": 0.46763620767148034,
	"learning_rate": 5.646677288761132e-06,
	"loss": 0.0491,
	"step": 311
	},
	{
	"epoch": 1.028006589785832,
	"grad_norm": 0.5696375911949768,
	"learning_rate": 5.618086830685569e-06,
	"loss": 0.047,
	"step": 312
	},
	{
	"epoch": 1.031301482701812,
	"grad_norm": 0.38600791899244996,
	"learning_rate": 5.589475834757595e-06,
	"loss": 0.032,
	"step": 313
	},
	{
	"epoch": 1.0345963756177925,
	"grad_norm": 1.0072710877393638,
	"learning_rate": 5.560845251666307e-06,
	"loss": 0.063,
	"step": 314
	},
	{
	"epoch": 1.0378912685337727,
	"grad_norm": 0.663725882779124,
	"learning_rate": 5.532196032751647e-06,
	"loss": 0.0563,
	"step": 315
	},
	{
	"epoch": 1.0411861614497528,
	"grad_norm": 0.6135177621912624,
	"learning_rate": 5.503529129972792e-06,
	"loss": 0.0514,
	"step": 316
	},
	{
	"epoch": 1.044481054365733,
	"grad_norm": 0.7549455934476204,
	"learning_rate": 5.474845495876518e-06,
	"loss": 0.0563,
	"step": 317
	},
	{
	"epoch": 1.0477759472817134,
	"grad_norm": 0.8244910748727189,
	"learning_rate": 5.4461460835655535e-06,
	"loss": 0.0804,
	"step": 318
	},
	{
	"epoch": 1.0510708401976936,
	"grad_norm": 0.604488079236042,
	"learning_rate": 5.417431846666903e-06,
	"loss": 0.0679,
	"step": 319
	},
	{
	"epoch": 1.0543657331136738,
	"grad_norm": 0.5136265587955748,
	"learning_rate": 5.388703739300167e-06,
	"loss": 0.0388,
	"step": 320
	},
	{
	"epoch": 1.057660626029654,
	"grad_norm": 0.6007478171198604,
	"learning_rate": 5.359962716045836e-06,
	"loss": 0.0632,
	"step": 321
	},
	{
	"epoch": 1.0609555189456343,
	"grad_norm": 0.4928892879154173,
	"learning_rate": 5.331209731913568e-06,
	"loss": 0.058,
	"step": 322
	},
	{
	"epoch": 1.0642504118616145,
	"grad_norm": 0.5300520318408385,
	"learning_rate": 5.30244574231046e-06,
	"loss": 0.0528,
	"step": 323
	},
	{
	"epoch": 1.0675453047775947,
	"grad_norm": 0.49159187140329286,
	"learning_rate": 5.273671703009301e-06,
	"loss": 0.046,
	"step": 324
	},
	{
	"epoch": 1.0708401976935749,
	"grad_norm": 0.804620211006138,
	"learning_rate": 5.2448885701168094e-06,
	"loss": 0.0601,
	"step": 325
	},
	{
	"epoch": 1.0741350906095553,
	"grad_norm": 0.4648011852930538,
	"learning_rate": 5.21609730004187e-06,
	"loss": 0.0438,
	"step": 326
	},
	{
	"epoch": 1.0774299835255354,
	"grad_norm": 0.5362596735899865,
	"learning_rate": 5.187298849463748e-06,
	"loss": 0.0507,
	"step": 327
	},
	{
	"epoch": 1.0807248764415156,
	"grad_norm": 0.5443586783585722,
	"learning_rate": 5.158494175300304e-06,
	"loss": 0.053,
	"step": 328
	},
	{
	"epoch": 1.084019769357496,
	"grad_norm": 0.6076056192307563,
	"learning_rate": 5.129684234676195e-06,
	"loss": 0.0594,
	"step": 329
	},
	{
	"epoch": 1.0873146622734762,
	"grad_norm": 0.9033252357763137,
	"learning_rate": 5.100869984891077e-06,
	"loss": 0.06,
	"step": 330
	},
	{
	"epoch": 1.0906095551894563,
	"grad_norm": 0.454480847306655,
	"learning_rate": 5.072052383387787e-06,
	"loss": 0.0424,
	"step": 331
	},
	{
	"epoch": 1.0939044481054365,
	"grad_norm": 0.46517988927206794,
	"learning_rate": 5.043232387720532e-06,
	"loss": 0.0443,
	"step": 332
	},
	{
	"epoch": 1.0971993410214167,
	"grad_norm": 0.4148720401510593,
	"learning_rate": 5.014410955523079e-06,
	"loss": 0.0387,
	"step": 333
	},
	{
	"epoch": 1.100494233937397,
	"grad_norm": 0.5146539821704307,
	"learning_rate": 4.9855890444769226e-06,
	"loss": 0.0563,
	"step": 334
	},
	{
	"epoch": 1.1037891268533773,
	"grad_norm": 0.5267211782218569,
	"learning_rate": 4.956767612279468e-06,
	"loss": 0.044,
	"step": 335
	},
	{
	"epoch": 1.1070840197693574,
	"grad_norm": 0.5731696810590752,
	"learning_rate": 4.927947616612216e-06,
	"loss": 0.0469,
	"step": 336
	},
	{
	"epoch": 1.1103789126853378,
	"grad_norm": 0.4606767989043497,
	"learning_rate": 4.899130015108923e-06,
	"loss": 0.0556,
	"step": 337
	},
	{
	"epoch": 1.113673805601318,
	"grad_norm": 0.5591348812226693,
	"learning_rate": 4.8703157653238055e-06,
	"loss": 0.0526,
	"step": 338
	},
	{
	"epoch": 1.1169686985172982,
	"grad_norm": 0.5103079438074868,
	"learning_rate": 4.841505824699697e-06,
	"loss": 0.0651,
	"step": 339
	},
	{
	"epoch": 1.1202635914332784,
	"grad_norm": 0.6163138349681117,
	"learning_rate": 4.812701150536254e-06,
	"loss": 0.0509,
	"step": 340
	},
	{
	"epoch": 1.1235584843492585,
	"grad_norm": 0.4842115475256147,
	"learning_rate": 4.78390269995813e-06,
	"loss": 0.035,
	"step": 341
	},
	{
	"epoch": 1.126853377265239,
	"grad_norm": 0.4047877822645327,
	"learning_rate": 4.755111429883191e-06,
	"loss": 0.0342,
	"step": 342
	},
	{
	"epoch": 1.130148270181219,
	"grad_norm": 0.5782935405242332,
	"learning_rate": 4.726328296990699e-06,
	"loss": 0.0416,
	"step": 343
	},
	{
	"epoch": 1.1334431630971993,
	"grad_norm": 0.5846524401590787,
	"learning_rate": 4.697554257689541e-06,
	"loss": 0.0419,
	"step": 344
	},
	{
	"epoch": 1.1367380560131797,
	"grad_norm": 0.5096985328650335,
	"learning_rate": 4.668790268086432e-06,
	"loss": 0.044,
	"step": 345
	},
	{
	"epoch": 1.1400329489291599,
	"grad_norm": 0.5796683420196656,
	"learning_rate": 4.640037283954165e-06,
	"loss": 0.0634,
	"step": 346
	},
	{
	"epoch": 1.14332784184514,
	"grad_norm": 0.5897186824110954,
	"learning_rate": 4.611296260699833e-06,
	"loss": 0.0511,
	"step": 347
	},
	{
	"epoch": 1.1466227347611202,
	"grad_norm": 0.5043407904517478,
	"learning_rate": 4.582568153333098e-06,
	"loss": 0.0474,
	"step": 348
	},
	{
	"epoch": 1.1499176276771004,
	"grad_norm": 0.49203813884361564,
	"learning_rate": 4.553853916434448e-06,
	"loss": 0.0399,
	"step": 349
	},
	{
	"epoch": 1.1532125205930808,
	"grad_norm": 0.6380533145833258,
	"learning_rate": 4.525154504123483e-06,
	"loss": 0.0628,
	"step": 350
	},
	{
	"epoch": 1.156507413509061,
	"grad_norm": 0.6307435685302706,
	"learning_rate": 4.496470870027209e-06,
	"loss": 0.0544,
	"step": 351
	},
	{
	"epoch": 1.1598023064250411,
	"grad_norm": 0.58051661483701,
	"learning_rate": 4.467803967248354e-06,
	"loss": 0.0549,
	"step": 352
	},
	{
	"epoch": 1.1630971993410215,
	"grad_norm": 0.45506940053593953,
	"learning_rate": 4.439154748333695e-06,
	"loss": 0.0455,
	"step": 353
	},
	{
	"epoch": 1.1663920922570017,
	"grad_norm": 0.4477960561383021,
	"learning_rate": 4.410524165242407e-06,
	"loss": 0.0417,
	"step": 354
	},
	{
	"epoch": 1.1696869851729819,
	"grad_norm": 0.5024790404868378,
	"learning_rate": 4.381913169314432e-06,
	"loss": 0.0483,
	"step": 355
	},
	{
	"epoch": 1.172981878088962,
	"grad_norm": 0.43352510094853813,
	"learning_rate": 4.3533227112388694e-06,
	"loss": 0.0381,
	"step": 356
	},
	{
	"epoch": 1.1762767710049424,
	"grad_norm": 0.8015757322992388,
	"learning_rate": 4.324753741022383e-06,
	"loss": 0.0589,
	"step": 357
	},
	{
	"epoch": 1.1795716639209226,
	"grad_norm": 0.554923192898479,
	"learning_rate": 4.296207207957638e-06,
	"loss": 0.0469,
	"step": 358
	},
	{
	"epoch": 1.1828665568369028,
	"grad_norm": 0.4540612599730088,
	"learning_rate": 4.26768406059175e-06,
	"loss": 0.0469,
	"step": 359
	},
	{
	"epoch": 1.186161449752883,
	"grad_norm": 0.4977016265485015,
	"learning_rate": 4.239185246694781e-06,
	"loss": 0.0486,
	"step": 360
	},
	{
	"epoch": 1.1894563426688634,
	"grad_norm": 0.5773178206107633,
	"learning_rate": 4.21071171322823e-06,
	"loss": 0.0588,
	"step": 361
	},
	{
	"epoch": 1.1927512355848435,
	"grad_norm": 0.5714806332591411,
	"learning_rate": 4.182264406313582e-06,
	"loss": 0.0473,
	"step": 362
	},
	{
	"epoch": 1.1960461285008237,
	"grad_norm": 0.5399317568380463,
	"learning_rate": 4.1538442712008545e-06,
	"loss": 0.0515,
	"step": 363
	},
	{
	"epoch": 1.1993410214168039,
	"grad_norm": 0.5077736606662918,
	"learning_rate": 4.12545225223721e-06,
	"loss": 0.0473,
	"step": 364
	},
	{
	"epoch": 1.2026359143327843,
	"grad_norm": 0.65833510309246,
	"learning_rate": 4.097089292835551e-06,
	"loss": 0.0574,
	"step": 365
	},
	{
	"epoch": 1.2059308072487644,
	"grad_norm": 0.5750314764693017,
	"learning_rate": 4.0687563354431986e-06,
	"loss": 0.033,
	"step": 366
	},
	{
	"epoch": 1.2092257001647446,
	"grad_norm": 0.6672168173906087,
	"learning_rate": 4.040454321510554e-06,
	"loss": 0.0507,
	"step": 367
	},
	{
	"epoch": 1.2125205930807248,
	"grad_norm": 0.46572043828398524,
	"learning_rate": 4.012184191459832e-06,
	"loss": 0.0448,
	"step": 368
	},
	{
	"epoch": 1.2158154859967052,
	"grad_norm": 0.5294456067061011,
	"learning_rate": 3.983946884653804e-06,
	"loss": 0.0421,
	"step": 369
	},
	{
	"epoch": 1.2191103789126854,
	"grad_norm": 0.7181848630920071,
	"learning_rate": 3.95574333936459e-06,
	"loss": 0.0609,
	"step": 370
	},
	{
	"epoch": 1.2224052718286655,
	"grad_norm": 0.4872681980462519,
	"learning_rate": 3.927574492742473e-06,
	"loss": 0.0332,
	"step": 371
	},
	{
	"epoch": 1.2257001647446457,
	"grad_norm": 0.5978073219647344,
	"learning_rate": 3.899441280784773e-06,
	"loss": 0.0557,
	"step": 372
	},
	{
	"epoch": 1.2289950576606261,
	"grad_norm": 0.49268040219816195,
	"learning_rate": 3.8713446383047295e-06,
	"loss": 0.0539,
	"step": 373
	},
	{
	"epoch": 1.2322899505766063,
	"grad_norm": 0.553488767277818,
	"learning_rate": 3.843285498900457e-06,
	"loss": 0.0438,
	"step": 374
	},
	{
	"epoch": 1.2355848434925865,
	"grad_norm": 0.5769809240481462,
	"learning_rate": 3.815264794923903e-06,
	"loss": 0.0438,
	"step": 375
	},
	{
	"epoch": 1.2388797364085666,
	"grad_norm": 0.4680099999633115,
	"learning_rate": 3.7872834574498894e-06,
	"loss": 0.0391,
	"step": 376
	},
	{
	"epoch": 1.242174629324547,
	"grad_norm": 0.4990397184455205,
	"learning_rate": 3.7593424162451553e-06,
	"loss": 0.0513,
	"step": 377
	},
	{
	"epoch": 1.2454695222405272,
	"grad_norm": 0.5670279278262034,
	"learning_rate": 3.731442599737478e-06,
	"loss": 0.0611,
	"step": 378
	},
	{
	"epoch": 1.2487644151565074,
	"grad_norm": 0.4178810778744549,
	"learning_rate": 3.70358493498481e-06,
	"loss": 0.0461,
	"step": 379
	},
	{
	"epoch": 1.2520593080724876,
	"grad_norm": 0.5498450231361147,
	"learning_rate": 3.6757703476444885e-06,
	"loss": 0.0372,
	"step": 380
	},
	{
	"epoch": 1.255354200988468,
	"grad_norm": 0.45367014770072983,
	"learning_rate": 3.6479997619424605e-06,
	"loss": 0.0423,
	"step": 381
	},
	{
	"epoch": 1.2586490939044481,
	"grad_norm": 0.4294200611194709,
	"learning_rate": 3.620274100642593e-06,
	"loss": 0.0552,
	"step": 382
	},
	{
	"epoch": 1.2619439868204283,
	"grad_norm": 0.6276700882265509,
	"learning_rate": 3.5925942850159895e-06,
	"loss": 0.0659,
	"step": 383
	},
	{
	"epoch": 1.2652388797364087,
	"grad_norm": 0.7113783547292587,
	"learning_rate": 3.564961234810399e-06,
	"loss": 0.067,
	"step": 384
	},
	{
	"epoch": 1.2685337726523889,
	"grad_norm": 0.6367177743488461,
	"learning_rate": 3.5373758682196347e-06,
	"loss": 0.0626,
	"step": 385
	},
	{
	"epoch": 1.271828665568369,
	"grad_norm": 0.6068919065481327,
	"learning_rate": 3.509839101853082e-06,
	"loss": 0.0546,
	"step": 386
	},
	{
	"epoch": 1.2751235584843492,
	"grad_norm": 0.742600911574775,
	"learning_rate": 3.4823518507052277e-06,
	"loss": 0.061,
	"step": 387
	},
	{
	"epoch": 1.2784184514003294,
	"grad_norm": 0.4142179254874713,
	"learning_rate": 3.4549150281252635e-06,
	"loss": 0.0405,
	"step": 388
	},
	{
	"epoch": 1.2817133443163098,
	"grad_norm": 0.7545310044049625,
	"learning_rate": 3.427529545786736e-06,
	"loss": 0.055,
	"step": 389
	},
	{
	"epoch": 1.28500823723229,
	"grad_norm": 0.5556958907162003,
	"learning_rate": 3.400196313657253e-06,
	"loss": 0.0469,
	"step": 390
	},
	{
	"epoch": 1.2883031301482701,
	"grad_norm": 0.5082442265119059,
	"learning_rate": 3.372916239968246e-06,
	"loss": 0.048,
	"step": 391
	},
	{
	"epoch": 1.2915980230642505,
	"grad_norm": 0.5683891171997948,
	"learning_rate": 3.345690231184794e-06,
	"loss": 0.0413,
	"step": 392
	},
	{
	"epoch": 1.2948929159802307,
	"grad_norm": 0.6720011431709395,
	"learning_rate": 3.318519191975499e-06,
	"loss": 0.0604,
	"step": 393
	},
	{
	"epoch": 1.2981878088962109,
	"grad_norm": 0.5633138961258451,
	"learning_rate": 3.291404025182432e-06,
	"loss": 0.065,
	"step": 394
	},
	{
	"epoch": 1.301482701812191,
	"grad_norm": 0.7184125904469478,
	"learning_rate": 3.264345631791127e-06,
	"loss": 0.0653,
	"step": 395
	},
	{
	"epoch": 1.3047775947281712,
	"grad_norm": 0.6249487221408845,
	"learning_rate": 3.2373449109006476e-06,
	"loss": 0.0476,
	"step": 396
	},
	{
	"epoch": 1.3080724876441516,
	"grad_norm": 0.8032427870564648,
	"learning_rate": 3.210402759693706e-06,
	"loss": 0.0731,
	"step": 397
	},
	{
	"epoch": 1.3113673805601318,
	"grad_norm": 0.56609919677685,
	"learning_rate": 3.1835200734068604e-06,
	"loss": 0.0484,
	"step": 398
	},
	{
	"epoch": 1.314662273476112,
	"grad_norm": 0.6259799233731378,
	"learning_rate": 3.1566977453007564e-06,
	"loss": 0.0621,
	"step": 399
	},
	{
	"epoch": 1.3179571663920924,
	"grad_norm": 0.5571126132586377,
	"learning_rate": 3.1299366666304586e-06,
	"loss": 0.0536,
	"step": 400
	},
	{
	"epoch": 1.3212520593080725,
	"grad_norm": 0.7177292111816991,
	"learning_rate": 3.103237726615822e-06,
	"loss": 0.0634,
	"step": 401
	},
	{
	"epoch": 1.3245469522240527,
	"grad_norm": 0.4655411649268851,
	"learning_rate": 3.076601812411959e-06,
	"loss": 0.0386,
	"step": 402
	},
	{
	"epoch": 1.327841845140033,
	"grad_norm": 0.5171630532203868,
	"learning_rate": 3.0500298090797465e-06,
	"loss": 0.0483,
	"step": 403
	},
	{
	"epoch": 1.331136738056013,
	"grad_norm": 0.624563937797765,
	"learning_rate": 3.0235225995564323e-06,
	"loss": 0.0556,
	"step": 404
	},
	{
	"epoch": 1.3344316309719935,
	"grad_norm": 0.5622033908392009,
	"learning_rate": 2.9970810646262805e-06,
	"loss": 0.0478,
	"step": 405
	},
	{
	"epoch": 1.3377265238879736,
	"grad_norm": 0.4858535947041361,
	"learning_rate": 2.9707060828913226e-06,
	"loss": 0.0478,
	"step": 406
	},
	{
	"epoch": 1.3410214168039538,
	"grad_norm": 0.40196887575712115,
	"learning_rate": 2.944398530742144e-06,
	"loss": 0.0462,
	"step": 407
	},
	{
	"epoch": 1.3443163097199342,
	"grad_norm": 0.5650818660979695,
	"learning_rate": 2.9181592823287807e-06,
	"loss": 0.0655,
	"step": 408
	},
	{
	"epoch": 1.3476112026359144,
	"grad_norm": 0.5475272072919456,
	"learning_rate": 2.8919892095316616e-06,
	"loss": 0.0519,
	"step": 409
	},
	{
	"epoch": 1.3509060955518946,
	"grad_norm": 0.6655092099152591,
	"learning_rate": 2.865889181932639e-06,
	"loss": 0.0416,
	"step": 410
	},
	{
	"epoch": 1.3542009884678747,
	"grad_norm": 0.8536644782226072,
	"learning_rate": 2.8398600667861032e-06,
	"loss": 0.0669,
	"step": 411
	},
	{
	"epoch": 1.357495881383855,
	"grad_norm": 0.48323829394508544,
	"learning_rate": 2.813902728990149e-06,
	"loss": 0.0367,
	"step": 412
	},
	{
	"epoch": 1.3607907742998353,
	"grad_norm": 0.6949809437868909,
	"learning_rate": 2.7880180310578546e-06,
	"loss": 0.0523,
	"step": 413
	},
	{
	"epoch": 1.3640856672158155,
	"grad_norm": 0.43770382604271224,
	"learning_rate": 2.762206833088608e-06,
	"loss": 0.0527,
	"step": 414
	},
	{
	"epoch": 1.3673805601317957,
	"grad_norm": 0.5081547664603686,
	"learning_rate": 2.7364699927395355e-06,
	"loss": 0.0613,
	"step": 415
	},
	{
	"epoch": 1.370675453047776,
	"grad_norm": 0.6539834762026684,
	"learning_rate": 2.710808365197e-06,
	"loss": 0.0555,
	"step": 416
	},
	{
	"epoch": 1.3739703459637562,
	"grad_norm": 0.39905302203795334,
	"learning_rate": 2.6852228031481837e-06,
	"loss": 0.0408,
	"step": 417
	},
	{
	"epoch": 1.3772652388797364,
	"grad_norm": 0.45958447904532335,
	"learning_rate": 2.6597141567527614e-06,
	"loss": 0.0503,
	"step": 418
	},
	{
	"epoch": 1.3805601317957166,
	"grad_norm": 0.4995326285015215,
	"learning_rate": 2.6342832736146403e-06,
	"loss": 0.0605,
	"step": 419
	},
	{
	"epoch": 1.3838550247116967,
	"grad_norm": 0.4884609849725302,
	"learning_rate": 2.608930998753809e-06,
	"loss": 0.0602,
	"step": 420
	},
	{
	"epoch": 1.3871499176276771,
	"grad_norm": 0.48846990238806653,
	"learning_rate": 2.5836581745782474e-06,
	"loss": 0.0429,
	"step": 421
	},
	{
	"epoch": 1.3904448105436573,
	"grad_norm": 0.5807005137969414,
	"learning_rate": 2.558465640855943e-06,
	"loss": 0.052,
	"step": 422
	},
	{
	"epoch": 1.3937397034596375,
	"grad_norm": 0.3856666040192254,
	"learning_rate": 2.533354234686979e-06,
	"loss": 0.0422,
	"step": 423
	},
	{
	"epoch": 1.3970345963756179,
	"grad_norm": 0.3701363763937253,
	"learning_rate": 2.508324790475731e-06,
	"loss": 0.0449,
	"step": 424
	},
	{
	"epoch": 1.400329489291598,
	"grad_norm": 0.5283156125790535,
	"learning_rate": 2.4833781399031275e-06,
	"loss": 0.0583,
	"step": 425
	},
	{
	"epoch": 1.4036243822075782,
	"grad_norm": 0.5143083208475716,
	"learning_rate": 2.4585151118990286e-06,
	"loss": 0.0582,
	"step": 426
	},
	{
	"epoch": 1.4069192751235584,
	"grad_norm": 0.4580082823859306,
	"learning_rate": 2.433736532614666e-06,
	"loss": 0.0503,
	"step": 427
	},
	{
	"epoch": 1.4102141680395386,
	"grad_norm": 0.4733586276806861,
	"learning_rate": 2.4090432253952113e-06,
	"loss": 0.0595,
	"step": 428
	},
	{
	"epoch": 1.413509060955519,
	"grad_norm": 0.46027613089003067,
	"learning_rate": 2.3844360107523973e-06,
	"loss": 0.0334,
	"step": 429
	},
	{
	"epoch": 1.4168039538714992,
	"grad_norm": 0.618163403358967,
	"learning_rate": 2.3599157063372712e-06,
	"loss": 0.0505,
	"step": 430
	},
	{
	"epoch": 1.4200988467874793,
	"grad_norm": 0.5692914543756001,
	"learning_rate": 2.3354831269130133e-06,
	"loss": 0.047,
	"step": 431
	},
	{
	"epoch": 1.4233937397034597,
	"grad_norm": 0.5569933619176715,
	"learning_rate": 2.3111390843278743e-06,
	"loss": 0.0506,
	"step": 432
	},
	{
	"epoch": 1.42668863261944,
	"grad_norm": 0.4384099356121434,
	"learning_rate": 2.2868843874881856e-06,
	"loss": 0.0453,
	"step": 433
	},
	{
	"epoch": 1.42998352553542,
	"grad_norm": 0.5320473584418453,
	"learning_rate": 2.2627198423314988e-06,
	"loss": 0.0547,
	"step": 434
	},
	{
	"epoch": 1.4332784184514002,
	"grad_norm": 0.4951776816150561,
	"learning_rate": 2.238646251799787e-06,
	"loss": 0.0517,
	"step": 435
	},
	{
	"epoch": 1.4365733113673804,
	"grad_norm": 0.5305051346570233,
	"learning_rate": 2.2146644158127827e-06,
	"loss": 0.0508,
	"step": 436
	},
	{
	"epoch": 1.4398682042833608,
	"grad_norm": 0.48235120417487776,
	"learning_rate": 2.1907751312413793e-06,
	"loss": 0.0498,
	"step": 437
	},
	{
	"epoch": 1.443163097199341,
	"grad_norm": 0.7575565682766872,
	"learning_rate": 2.1669791918811724e-06,
	"loss": 0.0482,
	"step": 438
	},
	{
	"epoch": 1.4464579901153214,
	"grad_norm": 0.6122464829305898,
	"learning_rate": 2.1432773884260627e-06,
	"loss": 0.0661,
	"step": 439
	},
	{
	"epoch": 1.4497528830313016,
	"grad_norm": 0.49382428143445756,
	"learning_rate": 2.119670508442004e-06,
	"loss": 0.0372,
	"step": 440
	},
	{
	"epoch": 1.4530477759472817,
	"grad_norm": 0.6113296705934868,
	"learning_rate": 2.0961593363408154e-06,
	"loss": 0.0489,
	"step": 441
	},
	{
	"epoch": 1.456342668863262,
	"grad_norm": 0.4764803472849658,
	"learning_rate": 2.0727446533541302e-06,
	"loss": 0.0426,
	"step": 442
	},
	{
	"epoch": 1.459637561779242,
	"grad_norm": 0.5321931460957434,
	"learning_rate": 2.0494272375074247e-06,
	"loss": 0.0428,
	"step": 443
	},
	{
	"epoch": 1.4629324546952225,
	"grad_norm": 0.43368533141343174,
	"learning_rate": 2.0262078635941818e-06,
	"loss": 0.0377,
	"step": 444
	},
	{
	"epoch": 1.4662273476112027,
	"grad_norm": 0.5227900476116077,
	"learning_rate": 2.0030873031501274e-06,
	"loss": 0.048,
	"step": 445
	},
	{
	"epoch": 1.4695222405271828,
	"grad_norm": 0.40044438580877817,
	"learning_rate": 1.980066324427613e-06,
	"loss": 0.0367,
	"step": 446
	},
	{
	"epoch": 1.4728171334431632,
	"grad_norm": 0.42569057497544066,
	"learning_rate": 1.9571456923700696e-06,
	"loss": 0.0485,
	"step": 447
	},
	{
	"epoch": 1.4761120263591434,
	"grad_norm": 0.5011955876540544,
	"learning_rate": 1.9343261685866054e-06,
	"loss": 0.0684,
	"step": 448
	},
	{
	"epoch": 1.4794069192751236,
	"grad_norm": 0.5257059685422952,
	"learning_rate": 1.911608511326688e-06,
	"loss": 0.0469,
	"step": 449
	},
	{
	"epoch": 1.4827018121911038,
	"grad_norm": 0.5330212717649231,
	"learning_rate": 1.8889934754549583e-06,
	"loss": 0.0615,
	"step": 450
	},
	{
	"epoch": 1.485996705107084,
	"grad_norm": 0.4377288880184422,
	"learning_rate": 1.8664818124261375e-06,
	"loss": 0.04,
	"step": 451
	},
	{
	"epoch": 1.4892915980230643,
	"grad_norm": 0.4821221712040424,
	"learning_rate": 1.8440742702600706e-06,
	"loss": 0.0496,
	"step": 452
	},
	{
	"epoch": 1.4925864909390445,
	"grad_norm": 0.42358079608202237,
	"learning_rate": 1.8217715935168562e-06,
	"loss": 0.0446,
	"step": 453
	},
	{
	"epoch": 1.4958813838550247,
	"grad_norm": 0.6521628225316723,
	"learning_rate": 1.7995745232721207e-06,
	"loss": 0.0665,
	"step": 454
	},
	{
	"epoch": 1.499176276771005,
	"grad_norm": 0.5512352891912379,
	"learning_rate": 1.777483797092381e-06,
	"loss": 0.0527,
	"step": 455
	},
	{
	"epoch": 1.5024711696869852,
	"grad_norm": 0.4132207895248971,
	"learning_rate": 1.755500149010549e-06,
	"loss": 0.0369,
	"step": 456
	},
	{
	"epoch": 1.5057660626029654,
	"grad_norm": 0.5452488198197322,
	"learning_rate": 1.7336243095015271e-06,
	"loss": 0.0457,
	"step": 457
	},
	{
	"epoch": 1.5090609555189456,
	"grad_norm": 1.8013972479013802,
	"learning_rate": 1.7118570054579508e-06,
	"loss": 0.0788,
	"step": 458
	},
	{
	"epoch": 1.5123558484349258,
	"grad_norm": 0.6158971711077378,
	"learning_rate": 1.6901989601660224e-06,
	"loss": 0.0577,
	"step": 459
	},
	{
	"epoch": 1.515650741350906,
	"grad_norm": 0.6402888520963839,
	"learning_rate": 1.6686508932814871e-06,
	"loss": 0.0426,
	"step": 460
	},
	{
	"epoch": 1.5189456342668863,
	"grad_norm": 0.5815365915637473,
	"learning_rate": 1.6472135208057128e-06,
	"loss": 0.0526,
	"step": 461
	},
	{
	"epoch": 1.5222405271828665,
	"grad_norm": 0.5219074399966507,
	"learning_rate": 1.625887555061907e-06,
	"loss": 0.0428,
	"step": 462
	},
	{
	"epoch": 1.525535420098847,
	"grad_norm": 0.5007230705662209,
	"learning_rate": 1.6046737046714366e-06,
	"loss": 0.0386,
	"step": 463
	},
	{
	"epoch": 1.528830313014827,
	"grad_norm": 0.492364769802372,
	"learning_rate": 1.5835726745302953e-06,
	"loss": 0.0364,
	"step": 464
	},
	{
	"epoch": 1.5321252059308073,
	"grad_norm": 0.5652000556154251,
	"learning_rate": 1.5625851657856666e-06,
	"loss": 0.0546,
	"step": 465
	},
	{
	"epoch": 1.5354200988467874,
	"grad_norm": 0.5993897339775979,
	"learning_rate": 1.5417118758126408e-06,
	"loss": 0.0579,
	"step": 466
	},
	{
	"epoch": 1.5387149917627676,
	"grad_norm": 1.3251444571487765,
	"learning_rate": 1.520953498191028e-06,
	"loss": 0.0747,
	"step": 467
	},
	{
	"epoch": 1.5420098846787478,
	"grad_norm": 0.440371155414081,
	"learning_rate": 1.5003107226823255e-06,
	"loss": 0.0495,
	"step": 468
	},
	{
	"epoch": 1.5453047775947282,
	"grad_norm": 0.5274460518323345,
	"learning_rate": 1.479784235206786e-06,
	"loss": 0.0457,
	"step": 469
	},
	{
	"epoch": 1.5485996705107083,
	"grad_norm": 0.4509159507608483,
	"learning_rate": 1.459374717820637e-06,
	"loss": 0.0441,
	"step": 470
	},
	{
	"epoch": 1.5518945634266887,
	"grad_norm": 0.5787329784185842,
	"learning_rate": 1.439082848693406e-06,
	"loss": 0.0455,
	"step": 471
	},
	{
	"epoch": 1.555189456342669,
	"grad_norm": 0.9428413760935695,
	"learning_rate": 1.4189093020853989e-06,
	"loss": 0.0635,
	"step": 472
	},
	{
	"epoch": 1.558484349258649,
	"grad_norm": 0.5810607886116554,
	"learning_rate": 1.3988547483252812e-06,
	"loss": 0.0591,
	"step": 473
	},
	{
	"epoch": 1.5617792421746293,
	"grad_norm": 0.5621586581333317,
	"learning_rate": 1.3789198537878202e-06,
	"loss": 0.048,
	"step": 474
	},
	{
	"epoch": 1.5650741350906094,
	"grad_norm": 0.614476271893997,
	"learning_rate": 1.3591052808717258e-06,
	"loss": 0.0574,
	"step": 475
	},
	{
	"epoch": 1.5683690280065898,
	"grad_norm": 0.4366280882804736,
	"learning_rate": 1.339411687977657e-06,
	"loss": 0.0387,
	"step": 476
	},
	{
	"epoch": 1.57166392092257,
	"grad_norm": 1.654229386447125,
	"learning_rate": 1.3198397294863285e-06,
	"loss": 0.0525,
	"step": 477
	},
	{
	"epoch": 1.5749588138385504,
	"grad_norm": 0.5124984935464315,
	"learning_rate": 1.3003900557367816e-06,
	"loss": 0.0586,
	"step": 478
	},
	{
	"epoch": 1.5782537067545306,
	"grad_norm": 0.5039902746309534,
	"learning_rate": 1.281063313004761e-06,
	"loss": 0.0409,
	"step": 479
	},
	{
	"epoch": 1.5815485996705108,
	"grad_norm": 0.4453799136874429,
	"learning_rate": 1.261860143481255e-06,
	"loss": 0.0437,
	"step": 480
	},
	{
	"epoch": 1.584843492586491,
	"grad_norm": 0.44736265726220936,
	"learning_rate": 1.2427811852511396e-06,
	"loss": 0.05,
	"step": 481
	},
	{
	"epoch": 1.588138385502471,
	"grad_norm": 0.5751552043472024,
	"learning_rate": 1.223827072271993e-06,
	"loss": 0.0513,
	"step": 482
	},
	{
	"epoch": 1.5914332784184513,
	"grad_norm": 0.4854076213664054,
	"learning_rate": 1.204998434353018e-06,
	"loss": 0.0434,
	"step": 483
	},
	{
	"epoch": 1.5947281713344317,
	"grad_norm": 0.5304616858985192,
	"learning_rate": 1.1862958971341199e-06,
	"loss": 0.0537,
	"step": 484
	},
	{
	"epoch": 1.5980230642504119,
	"grad_norm": 0.5357970833666896,
	"learning_rate": 1.1677200820651197e-06,
	"loss": 0.049,
	"step": 485
	},
	{
	"epoch": 1.6013179571663922,
	"grad_norm": 0.6703644083736745,
	"learning_rate": 1.1492716063850973e-06,
	"loss": 0.0553,
	"step": 486
	},
	{
	"epoch": 1.6046128500823724,
	"grad_norm": 0.5104289346948437,
	"learning_rate": 1.1309510831018927e-06,
	"loss": 0.0484,
	"step": 487
	},
	{
	"epoch": 1.6079077429983526,
	"grad_norm": 0.791691486031595,
	"learning_rate": 1.112759120971723e-06,
	"loss": 0.0516,
	"step": 488
	},
	{
	"epoch": 1.6112026359143328,
	"grad_norm": 0.5044446696201748,
	"learning_rate": 1.09469632447897e-06,
	"loss": 0.0412,
	"step": 489
	},
	{
	"epoch": 1.614497528830313,
	"grad_norm": 0.44744812374789733,
	"learning_rate": 1.0767632938160787e-06,
	"loss": 0.0441,
	"step": 490
	},
	{
	"epoch": 1.6177924217462931,
	"grad_norm": 0.689652904031741,
	"learning_rate": 1.0589606248636291e-06,
	"loss": 0.0468,
	"step": 491
	},
	{
	"epoch": 1.6210873146622735,
	"grad_norm": 0.4644587386351254,
	"learning_rate": 1.0412889091705242e-06,
	"loss": 0.0356,
	"step": 492
	},
	{
	"epoch": 1.6243822075782537,
	"grad_norm": 0.6499107202235256,
	"learning_rate": 1.0237487339343382e-06,
	"loss": 0.0574,
	"step": 493
	},
	{
	"epoch": 1.627677100494234,
	"grad_norm": 0.4542177117918383,
	"learning_rate": 1.0063406819818106e-06,
	"loss": 0.0443,
	"step": 494
	},
	{
	"epoch": 1.6309719934102143,
	"grad_norm": 0.6343789726555299,
	"learning_rate": 9.890653317494686e-07,
	"loss": 0.0524,
	"step": 495
	},
	{
	"epoch": 1.6342668863261944,
	"grad_norm": 0.4208852075289343,
	"learning_rate": 9.719232572644189e-07,
	"loss": 0.0407,
	"step": 496
	},
	{
	"epoch": 1.6375617792421746,
	"grad_norm": 0.45018417664569393,
	"learning_rate": 9.549150281252633e-07,
	"loss": 0.0382,
	"step": 497
	},
	{
	"epoch": 1.6408566721581548,
	"grad_norm": 0.4664038740894182,
	"learning_rate": 9.380412094831809e-07,
	"loss": 0.0413,
	"step": 498
	},
	{
	"epoch": 1.644151565074135,
	"grad_norm": 0.5658115763517576,
	"learning_rate": 9.213023620231404e-07,
	"loss": 0.055,
	"step": 499
	},
	{
	"epoch": 1.6474464579901154,
	"grad_norm": 0.42505631586549236,
	"learning_rate": 9.046990419452795e-07,
	"loss": 0.0374,
	"step": 500
	},
	{
	"epoch": 1.6507413509060955,
	"grad_norm": 0.5554370313066022,
	"learning_rate": 8.882318009464124e-07,
	"loss": 0.0758,
	"step": 501
	},
	{
	"epoch": 1.654036243822076,
	"grad_norm": 0.6820183163387327,
	"learning_rate": 8.719011862017108e-07,
	"loss": 0.067,
	"step": 502
	},
	{
	"epoch": 1.657331136738056,
	"grad_norm": 0.8815741831945997,
	"learning_rate": 8.557077403465069e-07,
	"loss": 0.0635,
	"step": 503
	},
	{
	"epoch": 1.6606260296540363,
	"grad_norm": 0.6530261534927284,
	"learning_rate": 8.396520014582798e-07,
	"loss": 0.0564,
	"step": 504
	},
	{
	"epoch": 1.6639209225700164,
	"grad_norm": 0.5563910425802013,
	"learning_rate": 8.237345030387589e-07,
	"loss": 0.0568,
	"step": 505
	},
	{
	"epoch": 1.6672158154859966,
	"grad_norm": 1.6616538016948608,
	"learning_rate": 8.079557739962129e-07,
	"loss": 0.0433,
	"step": 506
	},
	{
	"epoch": 1.6705107084019768,
	"grad_norm": 0.4729743527848457,
	"learning_rate": 7.923163386278615e-07,
	"loss": 0.0477,
	"step": 507
	},
	{
	"epoch": 1.6738056013179572,
	"grad_norm": 0.484207261501026,
	"learning_rate": 7.768167166024637e-07,
	"loss": 0.0393,
	"step": 508
	},
	{
	"epoch": 1.6771004942339374,
	"grad_norm": 0.4347790202564516,
	"learning_rate": 7.614574229430432e-07,
	"loss": 0.0348,
	"step": 509
	},
	{
	"epoch": 1.6803953871499178,
	"grad_norm": 0.5159230901740568,
	"learning_rate": 7.462389680097831e-07,
	"loss": 0.0511,
	"step": 510
	},
	{
	"epoch": 1.683690280065898,
	"grad_norm": 0.7846302974584749,
	"learning_rate": 7.31161857483057e-07,
	"loss": 0.0428,
	"step": 511
	},
	{
	"epoch": 1.6869851729818781,
	"grad_norm": 0.5154541689981792,
	"learning_rate": 7.162265923466383e-07,
	"loss": 0.0481,
	"step": 512
	},
	{
	"epoch": 1.6902800658978583,
	"grad_norm": 0.5103769113667321,
	"learning_rate": 7.014336688710411e-07,
	"loss": 0.0559,
	"step": 513
	},
	{
	"epoch": 1.6935749588138385,
	"grad_norm": 0.5601518054326986,
	"learning_rate": 6.867835785970417e-07,
	"loss": 0.0383,
	"step": 514
	},
	{
	"epoch": 1.6968698517298186,
	"grad_norm": 0.452690076025677,
	"learning_rate": 6.722768083193354e-07,
	"loss": 0.0393,
	"step": 515
	},
	{
	"epoch": 1.700164744645799,
	"grad_norm": 0.46134612749678455,
	"learning_rate": 6.579138400703716e-07,
	"loss": 0.0515,
	"step": 516
	},
	{
	"epoch": 1.7034596375617792,
	"grad_norm": 0.41746324511751276,
	"learning_rate": 6.436951511043243e-07,
	"loss": 0.0445,
	"step": 517
	},
	{
	"epoch": 1.7067545304777596,
	"grad_norm": 0.45014253067830906,
	"learning_rate": 6.296212138812474e-07,
	"loss": 0.0438,
	"step": 518
	},
	{
	"epoch": 1.7100494233937398,
	"grad_norm": 0.49892377023307155,
	"learning_rate": 6.156924960513638e-07,
	"loss": 0.0452,
	"step": 519
	},
	{
	"epoch": 1.71334431630972,
	"grad_norm": 0.47105725038366275,
	"learning_rate": 6.019094604395359e-07,
	"loss": 0.054,
	"step": 520
	},
	{
	"epoch": 1.7166392092257001,
	"grad_norm": 0.4259013974972623,
	"learning_rate": 5.882725650298787e-07,
	"loss": 0.0377,
	"step": 521
	},
	{
	"epoch": 1.7199341021416803,
	"grad_norm": 0.7122055487087868,
	"learning_rate": 5.747822629505484e-07,
	"loss": 0.0606,
	"step": 522
	},
	{
	"epoch": 1.7232289950576605,
	"grad_norm": 0.6463022317948001,
	"learning_rate": 5.614390024586808e-07,
	"loss": 0.0948,
	"step": 523
	},
	{
	"epoch": 1.7265238879736409,
	"grad_norm": 0.6557315175026269,
	"learning_rate": 5.482432269255011e-07,
	"loss": 0.0594,
	"step": 524
	},
	{
	"epoch": 1.729818780889621,
	"grad_norm": 0.48159732485479767,
	"learning_rate": 5.351953748215872e-07,
	"loss": 0.0562,
	"step": 525
	},
	{
	"epoch": 1.7331136738056014,
	"grad_norm": 0.5429610524246544,
	"learning_rate": 5.222958797023036e-07,
	"loss": 0.0469,
	"step": 526
	},
	{
	"epoch": 1.7364085667215816,
	"grad_norm": 0.4703329992162841,
	"learning_rate": 5.095451701933923e-07,
	"loss": 0.0495,
	"step": 527
	},
	{
	"epoch": 1.7397034596375618,
	"grad_norm": 0.4436763771779832,
	"learning_rate": 4.969436699767344e-07,
	"loss": 0.0354,
	"step": 528
	},
	{
	"epoch": 1.742998352553542,
	"grad_norm": 0.5025190325700492,
	"learning_rate": 4.844917977762653e-07,
	"loss": 0.056,
	"step": 529
	},
	{
	"epoch": 1.7462932454695221,
	"grad_norm": 0.661761525862607,
	"learning_rate": 4.721899673440694e-07,
	"loss": 0.0436,
	"step": 530
	},
	{
	"epoch": 1.7495881383855023,
	"grad_norm": 0.5762138308981635,
	"learning_rate": 4.6003858744662564e-07,
	"loss": 0.0552,
	"step": 531
	},
	{
	"epoch": 1.7528830313014827,
	"grad_norm": 0.5387051088420545,
	"learning_rate": 4.4803806185122866e-07,
	"loss": 0.0479,
	"step": 532
	},
	{
	"epoch": 1.7561779242174629,
	"grad_norm": 0.537079178923195,
	"learning_rate": 4.361887893125677e-07,
	"loss": 0.0565,
	"step": 533
	},
	{
	"epoch": 1.7594728171334433,
	"grad_norm": 0.5780295144664594,
	"learning_rate": 4.244911635594856e-07,
	"loss": 0.0555,
	"step": 534
	},
	{
	"epoch": 1.7627677100494235,
	"grad_norm": 0.6971174595241891,
	"learning_rate": 4.1294557328188376e-07,
	"loss": 0.0468,
	"step": 535
	},
	{
	"epoch": 1.7660626029654036,
	"grad_norm": 0.5714544842706962,
	"learning_rate": 4.0155240211781966e-07,
	"loss": 0.069,
	"step": 536
	},
	{
	"epoch": 1.7693574958813838,
	"grad_norm": 0.5560933792076089,
	"learning_rate": 3.9031202864074634e-07,
	"loss": 0.0526,
	"step": 537
	},
	{
	"epoch": 1.772652388797364,
	"grad_norm": 0.5076535062447541,
	"learning_rate": 3.7922482634694667e-07,
	"loss": 0.0495,
	"step": 538
	},
	{
	"epoch": 1.7759472817133442,
	"grad_norm": 0.4733107950145234,
	"learning_rate": 3.6829116364310914e-07,
	"loss": 0.048,
	"step": 539
	},
	{
	"epoch": 1.7792421746293245,
	"grad_norm": 0.5645137566585913,
	"learning_rate": 3.575114038340977e-07,
	"loss": 0.0503,
	"step": 540
	},
	{
	"epoch": 1.782537067545305,
	"grad_norm": 0.5224355605212421,
	"learning_rate": 3.4688590511087304e-07,
	"loss": 0.0553,
	"step": 541
	},
	{
	"epoch": 1.7858319604612851,
	"grad_norm": 0.495152224806279,
	"learning_rate": 3.3641502053859355e-07,
	"loss": 0.0304,
	"step": 542
	},
	{
	"epoch": 1.7891268533772653,
	"grad_norm": 0.40973303317244536,
	"learning_rate": 3.2609909804488195e-07,
	"loss": 0.0313,
	"step": 543
	},
	{
	"epoch": 1.7924217462932455,
	"grad_norm": 0.47058046777642437,
	"learning_rate": 3.159384804082666e-07,
	"loss": 0.0526,
	"step": 544
	},
	{
	"epoch": 1.7957166392092256,
	"grad_norm": 0.4838577514212764,
	"learning_rate": 3.0593350524678823e-07,
	"loss": 0.0371,
	"step": 545
	},
	{
	"epoch": 1.7990115321252058,
	"grad_norm": 0.6690590772761237,
	"learning_rate": 2.9608450500678566e-07,
	"loss": 0.0604,
	"step": 546
	},
	{
	"epoch": 1.8023064250411862,
	"grad_norm": 0.4109056760035354,
	"learning_rate": 2.863918069518451e-07,
	"loss": 0.0331,
	"step": 547
	},
	{
	"epoch": 1.8056013179571664,
	"grad_norm": 0.7159007380510568,
	"learning_rate": 2.7685573315192895e-07,
	"loss": 0.0721,
	"step": 548
	},
	{
	"epoch": 1.8088962108731468,
	"grad_norm": 0.4865674890840018,
	"learning_rate": 2.67476600472672e-07,
	"loss": 0.0451,
	"step": 549
	},
	{
	"epoch": 1.812191103789127,
	"grad_norm": 0.5942738860891101,
	"learning_rate": 2.5825472056485556e-07,
	"loss": 0.062,
	"step": 550
	},
	{
	"epoch": 1.8154859967051071,
	"grad_norm": 0.5357536121944303,
	"learning_rate": 2.4919039985404626e-07,
	"loss": 0.0609,
	"step": 551
	},
	{
	"epoch": 1.8187808896210873,
	"grad_norm": 0.3866866163849165,
	"learning_rate": 2.4028393953042074e-07,
	"loss": 0.0296,
	"step": 552
	},
	{
	"epoch": 1.8220757825370675,
	"grad_norm": 0.49750309911350266,
	"learning_rate": 2.315356355387527e-07,
	"loss": 0.0444,
	"step": 553
	},
	{
	"epoch": 1.8253706754530477,
	"grad_norm": 0.6734726196583376,
	"learning_rate": 2.2294577856858236e-07,
	"loss": 0.0552,
	"step": 554
	},
	{
	"epoch": 1.828665568369028,
	"grad_norm": 0.4599661443293077,
	"learning_rate": 2.1451465404455473e-07,
	"loss": 0.041,
	"step": 555
	},
	{
	"epoch": 1.8319604612850082,
	"grad_norm": 0.691277736971953,
	"learning_rate": 2.0624254211693894e-07,
	"loss": 0.061,
	"step": 556
	},
	{
	"epoch": 1.8352553542009886,
	"grad_norm": 0.42780093096680555,
	"learning_rate": 1.9812971765231394e-07,
	"loss": 0.0364,
	"step": 557
	},
	{
	"epoch": 1.8385502471169688,
	"grad_norm": 0.578589972444535,
	"learning_rate": 1.901764502244424e-07,
	"loss": 0.0613,
	"step": 558
	},
	{
	"epoch": 1.841845140032949,
	"grad_norm": 0.4763862013898226,
	"learning_rate": 1.823830041053065e-07,
	"loss": 0.0437,
	"step": 559
	},
	{
	"epoch": 1.8451400329489291,
	"grad_norm": 0.45718093901396817,
	"learning_rate": 1.7474963825633185e-07,
	"loss": 0.043,
	"step": 560
	},
	{
	"epoch": 1.8484349258649093,
	"grad_norm": 0.6366482024659451,
	"learning_rate": 1.6727660631977894e-07,
	"loss": 0.0556,
	"step": 561
	},
	{
	"epoch": 1.8517298187808895,
	"grad_norm": 0.7471772626827173,
	"learning_rate": 1.5996415661031662e-07,
	"loss": 0.0425,
	"step": 562
	},
	{
	"epoch": 1.8550247116968699,
	"grad_norm": 0.3521582825319659,
	"learning_rate": 1.528125321067725e-07,
	"loss": 0.0382,
	"step": 563
	},
	{
	"epoch": 1.85831960461285,
	"grad_norm": 0.5973061078363581,
	"learning_rate": 1.4582197044405556e-07,
	"loss": 0.0509,
	"step": 564
	},
	{
	"epoch": 1.8616144975288305,
	"grad_norm": 0.5093523377380892,
	"learning_rate": 1.389927039052652e-07,
	"loss": 0.0444,
	"step": 565
	},
	{
	"epoch": 1.8649093904448106,
	"grad_norm": 0.44171165477963154,
	"learning_rate": 1.323249594139664e-07,
	"loss": 0.0468,
	"step": 566
	},
	{
	"epoch": 1.8682042833607908,
	"grad_norm": 0.44675757705445573,
	"learning_rate": 1.2581895852665671e-07,
	"loss": 0.0374,
	"step": 567
	},
	{
	"epoch": 1.871499176276771,
	"grad_norm": 0.6020514933209717,
	"learning_rate": 1.1947491742539841e-07,
	"loss": 0.0503,
	"step": 568
	},
	{
	"epoch": 1.8747940691927512,
	"grad_norm": 0.42586058680868216,
	"learning_rate": 1.1329304691063692e-07,
	"loss": 0.0392,
	"step": 569
	},
	{
	"epoch": 1.8780889621087313,
	"grad_norm": 0.4423611658945744,
	"learning_rate": 1.0727355239419868e-07,
	"loss": 0.0469,
	"step": 570
	},
	{
	"epoch": 1.8813838550247117,
	"grad_norm": 0.424883733072018,
	"learning_rate": 1.014166338924627e-07,
	"loss": 0.0475,
	"step": 571
	},
	{
	"epoch": 1.884678747940692,
	"grad_norm": 0.508275043696402,
	"learning_rate": 9.572248601971646e-08,
	"loss": 0.0588,
	"step": 572
	},
	{
	"epoch": 1.8879736408566723,
	"grad_norm": 0.532268589710946,
	"learning_rate": 9.019129798168658e-08,
	"loss": 0.0413,
	"step": 573
	},
	{
	"epoch": 1.8912685337726525,
	"grad_norm": 0.49075007985093444,
	"learning_rate": 8.482325356925614e-08,
	"loss": 0.0438,
	"step": 574
	},
	{
	"epoch": 1.8945634266886326,
	"grad_norm": 0.6405783999237776,
	"learning_rate": 7.96185311523523e-08,
	"loss": 0.0517,
	"step": 575
	},
	{
	"epoch": 1.8978583196046128,
	"grad_norm": 0.4374824821968711,
	"learning_rate": 7.45773036740255e-08,
	"loss": 0.0594,
	"step": 576
	},
	{
	"epoch": 1.901153212520593,
	"grad_norm": 0.4881691605292657,
	"learning_rate": 6.969973864469626e-08,
	"loss": 0.0478,
	"step": 577
	},
	{
	"epoch": 1.9044481054365732,
	"grad_norm": 0.4169109199296669,
	"learning_rate": 6.498599813659524e-08,
	"loss": 0.0329,
	"step": 578
	},
	{
	"epoch": 1.9077429983525536,
	"grad_norm": 0.7757102581030492,
	"learning_rate": 6.043623877837301e-08,
	"loss": 0.0459,
	"step": 579
	},
	{
	"epoch": 1.9110378912685337,
	"grad_norm": 0.6871632648014142,
	"learning_rate": 5.6050611749899896e-08,
	"loss": 0.0499,
	"step": 580
	},
	{
	"epoch": 1.9143327841845141,
	"grad_norm": 0.4909555169664079,
	"learning_rate": 5.182926277723821e-08,
	"loss": 0.0439,
	"step": 581
	},
	{
	"epoch": 1.9176276771004943,
	"grad_norm": 0.5085351517406403,
	"learning_rate": 4.777233212780396e-08,
	"loss": 0.043,
	"step": 582
	},
	{
	"epoch": 1.9209225700164745,
	"grad_norm": 0.4133261269232907,
	"learning_rate": 4.387995460570282e-08,
	"loss": 0.0422,
	"step": 583
	},
	{
	"epoch": 1.9242174629324547,
	"grad_norm": 0.3457486280213094,
	"learning_rate": 4.015225954725421e-08,
	"loss": 0.0302,
	"step": 584
	},
	{
	"epoch": 1.9275123558484348,
	"grad_norm": 0.5306123017488412,
	"learning_rate": 3.658937081669034e-08,
	"loss": 0.0347,
	"step": 585
	},
	{
	"epoch": 1.930807248764415,
	"grad_norm": 0.6170841106215647,
	"learning_rate": 3.3191406802041693e-08,
	"loss": 0.0427,
	"step": 586
	},
	{
	"epoch": 1.9341021416803954,
	"grad_norm": 0.45743745755641063,
	"learning_rate": 2.9958480411204086e-08,
	"loss": 0.0487,
	"step": 587
	},
	{
	"epoch": 1.9373970345963756,
	"grad_norm": 0.7985516650647139,
	"learning_rate": 2.6890699068187197e-08,
	"loss": 0.0598,
	"step": 588
	},
	{
	"epoch": 1.940691927512356,
	"grad_norm": 0.969435591211712,
	"learning_rate": 2.3988164709542462e-08,
	"loss": 0.046,
	"step": 589
	},
	{
	"epoch": 1.9439868204283361,
	"grad_norm": 0.5530499902423203,
	"learning_rate": 2.1250973780977957e-08,
	"loss": 0.0626,
	"step": 590
	},
	{
	"epoch": 1.9472817133443163,
	"grad_norm": 0.4726855774076432,
	"learning_rate": 1.8679217234154335e-08,
	"loss": 0.0442,
	"step": 591
	},
	{
	"epoch": 1.9505766062602965,
	"grad_norm": 0.5910043256950622,
	"learning_rate": 1.627298052366111e-08,
	"loss": 0.0533,
	"step": 592
	},
	{
	"epoch": 1.9538714991762767,
	"grad_norm": 0.37046514170506584,
	"learning_rate": 1.4032343604177267e-08,
	"loss": 0.0436,
	"step": 593
	},
	{
	"epoch": 1.9571663920922568,
	"grad_norm": 0.45020576348906904,
	"learning_rate": 1.1957380927816176e-08,
	"loss": 0.0392,
	"step": 594
	},
	{
	"epoch": 1.9604612850082372,
	"grad_norm": 0.4456283814258553,
	"learning_rate": 1.0048161441649217e-08,
	"loss": 0.0464,
	"step": 595
	},
	{
	"epoch": 1.9637561779242174,
	"grad_norm": 0.5191136185767354,
	"learning_rate": 8.304748585417077e-09,
	"loss": 0.0432,
	"step": 596
	},
	{
	"epoch": 1.9670510708401978,
	"grad_norm": 0.7541935440652175,
	"learning_rate": 6.72720028942031e-09,
	"loss": 0.0417,
	"step": 597
	},
	{
	"epoch": 1.970345963756178,
	"grad_norm": 0.4930059149169314,
	"learning_rate": 5.315568972594775e-09,
	"loss": 0.0522,
	"step": 598
	},
	{
	"epoch": 1.9736408566721582,
	"grad_norm": 0.43182626877243907,
	"learning_rate": 4.0699015407702495e-09,
	"loss": 0.0426,
	"step": 599
	},
	{
	"epoch": 1.9769357495881383,
	"grad_norm": 0.5518177594295087,
	"learning_rate": 2.990239385112226e-09,
	"loss": 0.0565,
	"step": 600
	},
	{
	"epoch": 1.9802306425041185,
	"grad_norm": 0.5188892218788691,
	"learning_rate": 2.076618380744133e-09,
	"loss": 0.0684,
	"step": 601
	},
	{
	"epoch": 1.9835255354200987,
	"grad_norm": 0.43199397069665996,
	"learning_rate": 1.3290688855588374e-09,
	"loss": 0.0396,
	"step": 602
	},
	{
	"epoch": 1.986820428336079,
	"grad_norm": 0.4470921544911916,
	"learning_rate": 7.476157392072303e-10,
	"loss": 0.0385,
	"step": 603
	},
	{
	"epoch": 1.9901153212520593,
	"grad_norm": 0.5332848840635471,
	"learning_rate": 3.322782622738885e-10,
	"loss": 0.0585,
	"step": 604
	},
	{
	"epoch": 1.9934102141680397,
	"grad_norm": 0.6284366325020901,
	"learning_rate": 8.307025563536464e-11,
	"loss": 0.0517,
	"step": 605
	},
	{
	"epoch": 1.9967051070840198,
	"grad_norm": 0.6056246452486423,
	"learning_rate": 0.0,
	"loss": 0.048,
	"step": 606
	},
	{
	"epoch": 1.9967051070840198,
	"eval_loss": 0.0587012954056263,
	"eval_runtime": 144.0131,
	"eval_samples_per_second": 35.448,
	"eval_steps_per_second": 1.111,
	"step": 606
	},
	{
	"epoch": 1.9967051070840198,
	"step": 606,
	"total_flos": 1.811911707237417e+17,
	"train_loss": 0.0716345354195426,
	"train_runtime": 6724.9995,
	"train_samples_per_second": 11.537,
	"train_steps_per_second": 0.09
	}
	],
	"logging_steps": 1,
	"max_steps": 606,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1.811911707237417e+17,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}