Training in progress, step 350, checkpoint

feaef42 verified 1 day ago

62.7 kB

	{
	"best_metric": 0.32943063974380493,
	"best_model_checkpoint": "miner_id_24/checkpoint-350",
	"epoch": 2.908713692946058,
	"eval_steps": 50,
	"global_step": 350,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.008298755186721992,
	"grad_norm": 11.30918025970459,
	"learning_rate": 1e-05,
	"loss": 4.6137,
	"step": 1
	},
	{
	"epoch": 0.008298755186721992,
	"eval_loss": 5.352054595947266,
	"eval_runtime": 7.0594,
	"eval_samples_per_second": 28.756,
	"eval_steps_per_second": 7.224,
	"step": 1
	},
	{
	"epoch": 0.016597510373443983,
	"grad_norm": 13.656156539916992,
	"learning_rate": 2e-05,
	"loss": 4.4637,
	"step": 2
	},
	{
	"epoch": 0.024896265560165973,
	"grad_norm": 12.059760093688965,
	"learning_rate": 3e-05,
	"loss": 4.3758,
	"step": 3
	},
	{
	"epoch": 0.03319502074688797,
	"grad_norm": 10.070697784423828,
	"learning_rate": 4e-05,
	"loss": 4.6825,
	"step": 4
	},
	{
	"epoch": 0.04149377593360996,
	"grad_norm": 10.277752876281738,
	"learning_rate": 5e-05,
	"loss": 4.4531,
	"step": 5
	},
	{
	"epoch": 0.04979253112033195,
	"grad_norm": 8.195782661437988,
	"learning_rate": 6e-05,
	"loss": 3.9268,
	"step": 6
	},
	{
	"epoch": 0.058091286307053944,
	"grad_norm": 9.387673377990723,
	"learning_rate": 7e-05,
	"loss": 3.7347,
	"step": 7
	},
	{
	"epoch": 0.06639004149377593,
	"grad_norm": 8.870927810668945,
	"learning_rate": 8e-05,
	"loss": 3.4846,
	"step": 8
	},
	{
	"epoch": 0.07468879668049792,
	"grad_norm": 6.948357582092285,
	"learning_rate": 9e-05,
	"loss": 3.3592,
	"step": 9
	},
	{
	"epoch": 0.08298755186721991,
	"grad_norm": 5.063608169555664,
	"learning_rate": 0.0001,
	"loss": 2.8956,
	"step": 10
	},
	{
	"epoch": 0.0912863070539419,
	"grad_norm": 14.618287086486816,
	"learning_rate": 9.999799726899262e-05,
	"loss": 2.92,
	"step": 11
	},
	{
	"epoch": 0.0995850622406639,
	"grad_norm": 18.60139274597168,
	"learning_rate": 9.999198923640774e-05,
	"loss": 3.0395,
	"step": 12
	},
	{
	"epoch": 0.1078838174273859,
	"grad_norm": 16.003385543823242,
	"learning_rate": 9.998197638354428e-05,
	"loss": 2.8771,
	"step": 13
	},
	{
	"epoch": 0.11618257261410789,
	"grad_norm": 7.36771297454834,
	"learning_rate": 9.996795951252427e-05,
	"loss": 2.5778,
	"step": 14
	},
	{
	"epoch": 0.12448132780082988,
	"grad_norm": 7.226404190063477,
	"learning_rate": 9.994993974622862e-05,
	"loss": 2.9167,
	"step": 15
	},
	{
	"epoch": 0.13278008298755187,
	"grad_norm": 9.766325950622559,
	"learning_rate": 9.992791852820709e-05,
	"loss": 2.9431,
	"step": 16
	},
	{
	"epoch": 0.14107883817427386,
	"grad_norm": 5.852901935577393,
	"learning_rate": 9.990189762256276e-05,
	"loss": 2.3363,
	"step": 17
	},
	{
	"epoch": 0.14937759336099585,
	"grad_norm": 5.548067569732666,
	"learning_rate": 9.987187911381059e-05,
	"loss": 2.237,
	"step": 18
	},
	{
	"epoch": 0.15767634854771784,
	"grad_norm": 6.030773639678955,
	"learning_rate": 9.983786540671051e-05,
	"loss": 2.1454,
	"step": 19
	},
	{
	"epoch": 0.16597510373443983,
	"grad_norm": 5.069052696228027,
	"learning_rate": 9.979985922607475e-05,
	"loss": 1.971,
	"step": 20
	},
	{
	"epoch": 0.17427385892116182,
	"grad_norm": 5.834778308868408,
	"learning_rate": 9.97578636165496e-05,
	"loss": 2.5553,
	"step": 21
	},
	{
	"epoch": 0.1825726141078838,
	"grad_norm": 4.660792350769043,
	"learning_rate": 9.97118819423714e-05,
	"loss": 2.2076,
	"step": 22
	},
	{
	"epoch": 0.1908713692946058,
	"grad_norm": 4.532413959503174,
	"learning_rate": 9.966191788709716e-05,
	"loss": 2.1984,
	"step": 23
	},
	{
	"epoch": 0.1991701244813278,
	"grad_norm": 6.078835964202881,
	"learning_rate": 9.960797545330936e-05,
	"loss": 2.5873,
	"step": 24
	},
	{
	"epoch": 0.2074688796680498,
	"grad_norm": 5.118812084197998,
	"learning_rate": 9.955005896229543e-05,
	"loss": 2.7898,
	"step": 25
	},
	{
	"epoch": 0.2157676348547718,
	"grad_norm": 5.2867231369018555,
	"learning_rate": 9.948817305370143e-05,
	"loss": 2.2812,
	"step": 26
	},
	{
	"epoch": 0.22406639004149378,
	"grad_norm": 4.749370098114014,
	"learning_rate": 9.94223226851605e-05,
	"loss": 2.4715,
	"step": 27
	},
	{
	"epoch": 0.23236514522821577,
	"grad_norm": 4.7184977531433105,
	"learning_rate": 9.935251313189564e-05,
	"loss": 2.3676,
	"step": 28
	},
	{
	"epoch": 0.24066390041493776,
	"grad_norm": 5.203877925872803,
	"learning_rate": 9.927874998629714e-05,
	"loss": 2.4597,
	"step": 29
	},
	{
	"epoch": 0.24896265560165975,
	"grad_norm": 7.009748935699463,
	"learning_rate": 9.92010391574745e-05,
	"loss": 2.7419,
	"step": 30
	},
	{
	"epoch": 0.2572614107883817,
	"grad_norm": 4.794604301452637,
	"learning_rate": 9.911938687078324e-05,
	"loss": 2.4883,
	"step": 31
	},
	{
	"epoch": 0.26556016597510373,
	"grad_norm": 4.864479064941406,
	"learning_rate": 9.9033799667326e-05,
	"loss": 2.2448,
	"step": 32
	},
	{
	"epoch": 0.27385892116182575,
	"grad_norm": 4.177216529846191,
	"learning_rate": 9.89442844034286e-05,
	"loss": 2.1125,
	"step": 33
	},
	{
	"epoch": 0.2821576763485477,
	"grad_norm": 3.661107063293457,
	"learning_rate": 9.885084825009086e-05,
	"loss": 1.8155,
	"step": 34
	},
	{
	"epoch": 0.29045643153526973,
	"grad_norm": 4.322318077087402,
	"learning_rate": 9.875349869241201e-05,
	"loss": 2.1389,
	"step": 35
	},
	{
	"epoch": 0.2987551867219917,
	"grad_norm": 4.690096378326416,
	"learning_rate": 9.865224352899119e-05,
	"loss": 2.0913,
	"step": 36
	},
	{
	"epoch": 0.3070539419087137,
	"grad_norm": 4.660186767578125,
	"learning_rate": 9.85470908713026e-05,
	"loss": 2.1136,
	"step": 37
	},
	{
	"epoch": 0.3153526970954357,
	"grad_norm": 4.324281215667725,
	"learning_rate": 9.843804914304577e-05,
	"loss": 2.2243,
	"step": 38
	},
	{
	"epoch": 0.3236514522821577,
	"grad_norm": 4.355935096740723,
	"learning_rate": 9.83251270794707e-05,
	"loss": 2.0655,
	"step": 39
	},
	{
	"epoch": 0.33195020746887965,
	"grad_norm": 4.537855625152588,
	"learning_rate": 9.820833372667812e-05,
	"loss": 2.4219,
	"step": 40
	},
	{
	"epoch": 0.34024896265560167,
	"grad_norm": 3.879166603088379,
	"learning_rate": 9.80876784408948e-05,
	"loss": 2.0775,
	"step": 41
	},
	{
	"epoch": 0.34854771784232363,
	"grad_norm": 4.542738437652588,
	"learning_rate": 9.796317088772403e-05,
	"loss": 2.3691,
	"step": 42
	},
	{
	"epoch": 0.35684647302904565,
	"grad_norm": 3.76499342918396,
	"learning_rate": 9.783482104137127e-05,
	"loss": 1.6421,
	"step": 43
	},
	{
	"epoch": 0.3651452282157676,
	"grad_norm": 4.638901233673096,
	"learning_rate": 9.770263918384524e-05,
	"loss": 2.1609,
	"step": 44
	},
	{
	"epoch": 0.37344398340248963,
	"grad_norm": 4.964886665344238,
	"learning_rate": 9.75666359041341e-05,
	"loss": 1.5742,
	"step": 45
	},
	{
	"epoch": 0.3817427385892116,
	"grad_norm": 4.453831672668457,
	"learning_rate": 9.742682209735727e-05,
	"loss": 2.2456,
	"step": 46
	},
	{
	"epoch": 0.3900414937759336,
	"grad_norm": 5.158775806427002,
	"learning_rate": 9.728320896389263e-05,
	"loss": 2.1847,
	"step": 47
	},
	{
	"epoch": 0.3983402489626556,
	"grad_norm": 5.11721134185791,
	"learning_rate": 9.713580800847916e-05,
	"loss": 1.7405,
	"step": 48
	},
	{
	"epoch": 0.4066390041493776,
	"grad_norm": 5.306658744812012,
	"learning_rate": 9.698463103929542e-05,
	"loss": 1.6412,
	"step": 49
	},
	{
	"epoch": 0.4149377593360996,
	"grad_norm": 5.626243591308594,
	"learning_rate": 9.682969016701358e-05,
	"loss": 1.9538,
	"step": 50
	},
	{
	"epoch": 0.4149377593360996,
	"eval_loss": 1.9951374530792236,
	"eval_runtime": 7.1371,
	"eval_samples_per_second": 28.443,
	"eval_steps_per_second": 7.146,
	"step": 50
	},
	{
	"epoch": 0.42323651452282157,
	"grad_norm": 5.736331462860107,
	"learning_rate": 9.66709978038292e-05,
	"loss": 2.2465,
	"step": 51
	},
	{
	"epoch": 0.4315352697095436,
	"grad_norm": 5.308639049530029,
	"learning_rate": 9.650856666246693e-05,
	"loss": 2.1472,
	"step": 52
	},
	{
	"epoch": 0.43983402489626555,
	"grad_norm": 4.070306301116943,
	"learning_rate": 9.634240975516209e-05,
	"loss": 1.5106,
	"step": 53
	},
	{
	"epoch": 0.44813278008298757,
	"grad_norm": 4.719001293182373,
	"learning_rate": 9.617254039261834e-05,
	"loss": 1.5839,
	"step": 54
	},
	{
	"epoch": 0.45643153526970953,
	"grad_norm": 8.284409523010254,
	"learning_rate": 9.599897218294122e-05,
	"loss": 1.9048,
	"step": 55
	},
	{
	"epoch": 0.46473029045643155,
	"grad_norm": 5.499932765960693,
	"learning_rate": 9.582171903054816e-05,
	"loss": 2.0164,
	"step": 56
	},
	{
	"epoch": 0.4730290456431535,
	"grad_norm": 4.232677936553955,
	"learning_rate": 9.564079513505455e-05,
	"loss": 1.6968,
	"step": 57
	},
	{
	"epoch": 0.48132780082987553,
	"grad_norm": 6.6102776527404785,
	"learning_rate": 9.54562149901362e-05,
	"loss": 2.1707,
	"step": 58
	},
	{
	"epoch": 0.4896265560165975,
	"grad_norm": 5.499170303344727,
	"learning_rate": 9.526799338236827e-05,
	"loss": 2.1749,
	"step": 59
	},
	{
	"epoch": 0.4979253112033195,
	"grad_norm": 6.410165309906006,
	"learning_rate": 9.507614539004082e-05,
	"loss": 2.0269,
	"step": 60
	},
	{
	"epoch": 0.5062240663900415,
	"grad_norm": 4.395339488983154,
	"learning_rate": 9.48806863819507e-05,
	"loss": 1.5799,
	"step": 61
	},
	{
	"epoch": 0.5145228215767634,
	"grad_norm": 5.214993953704834,
	"learning_rate": 9.468163201617062e-05,
	"loss": 1.4865,
	"step": 62
	},
	{
	"epoch": 0.5228215767634855,
	"grad_norm": 7.040699005126953,
	"learning_rate": 9.447899823879456e-05,
	"loss": 2.0153,
	"step": 63
	},
	{
	"epoch": 0.5311203319502075,
	"grad_norm": 5.472765922546387,
	"learning_rate": 9.42728012826605e-05,
	"loss": 1.9123,
	"step": 64
	},
	{
	"epoch": 0.5394190871369294,
	"grad_norm": 5.13813591003418,
	"learning_rate": 9.406305766604995e-05,
	"loss": 1.8829,
	"step": 65
	},
	{
	"epoch": 0.5477178423236515,
	"grad_norm": 5.717247486114502,
	"learning_rate": 9.384978419136468e-05,
	"loss": 2.0948,
	"step": 66
	},
	{
	"epoch": 0.5560165975103735,
	"grad_norm": 5.990386962890625,
	"learning_rate": 9.363299794378073e-05,
	"loss": 1.8932,
	"step": 67
	},
	{
	"epoch": 0.5643153526970954,
	"grad_norm": 7.660478591918945,
	"learning_rate": 9.341271628987968e-05,
	"loss": 2.3816,
	"step": 68
	},
	{
	"epoch": 0.5726141078838174,
	"grad_norm": 4.8774027824401855,
	"learning_rate": 9.318895687625751e-05,
	"loss": 1.6324,
	"step": 69
	},
	{
	"epoch": 0.5809128630705395,
	"grad_norm": 5.0475568771362305,
	"learning_rate": 9.296173762811085e-05,
	"loss": 1.5918,
	"step": 70
	},
	{
	"epoch": 0.5892116182572614,
	"grad_norm": 4.739609718322754,
	"learning_rate": 9.273107674780102e-05,
	"loss": 1.3994,
	"step": 71
	},
	{
	"epoch": 0.5975103734439834,
	"grad_norm": 6.396079063415527,
	"learning_rate": 9.249699271339593e-05,
	"loss": 1.8884,
	"step": 72
	},
	{
	"epoch": 0.6058091286307054,
	"grad_norm": 6.702268600463867,
	"learning_rate": 9.225950427718975e-05,
	"loss": 2.0607,
	"step": 73
	},
	{
	"epoch": 0.6141078838174274,
	"grad_norm": 4.683436393737793,
	"learning_rate": 9.201863046420065e-05,
	"loss": 1.458,
	"step": 74
	},
	{
	"epoch": 0.6224066390041494,
	"grad_norm": 5.798123359680176,
	"learning_rate": 9.177439057064683e-05,
	"loss": 1.9928,
	"step": 75
	},
	{
	"epoch": 0.6307053941908713,
	"grad_norm": 6.20752477645874,
	"learning_rate": 9.152680416240059e-05,
	"loss": 2.0453,
	"step": 76
	},
	{
	"epoch": 0.6390041493775933,
	"grad_norm": 4.803196430206299,
	"learning_rate": 9.1275891073421e-05,
	"loss": 1.6836,
	"step": 77
	},
	{
	"epoch": 0.6473029045643154,
	"grad_norm": 5.217916011810303,
	"learning_rate": 9.102167140416503e-05,
	"loss": 1.5624,
	"step": 78
	},
	{
	"epoch": 0.6556016597510373,
	"grad_norm": 5.689030170440674,
	"learning_rate": 9.076416551997721e-05,
	"loss": 1.2365,
	"step": 79
	},
	{
	"epoch": 0.6639004149377593,
	"grad_norm": 5.20029878616333,
	"learning_rate": 9.050339404945833e-05,
	"loss": 1.5095,
	"step": 80
	},
	{
	"epoch": 0.6721991701244814,
	"grad_norm": 7.432442665100098,
	"learning_rate": 9.023937788281278e-05,
	"loss": 2.1264,
	"step": 81
	},
	{
	"epoch": 0.6804979253112033,
	"grad_norm": 5.681693077087402,
	"learning_rate": 8.997213817017507e-05,
	"loss": 1.5059,
	"step": 82
	},
	{
	"epoch": 0.6887966804979253,
	"grad_norm": 6.367238521575928,
	"learning_rate": 8.970169631991556e-05,
	"loss": 1.5183,
	"step": 83
	},
	{
	"epoch": 0.6970954356846473,
	"grad_norm": 7.021786212921143,
	"learning_rate": 8.942807399692543e-05,
	"loss": 1.8657,
	"step": 84
	},
	{
	"epoch": 0.7053941908713693,
	"grad_norm": 6.1124587059021,
	"learning_rate": 8.915129312088112e-05,
	"loss": 1.7342,
	"step": 85
	},
	{
	"epoch": 0.7136929460580913,
	"grad_norm": 6.746445655822754,
	"learning_rate": 8.88713758644883e-05,
	"loss": 1.7254,
	"step": 86
	},
	{
	"epoch": 0.7219917012448133,
	"grad_norm": 5.889866828918457,
	"learning_rate": 8.858834465170576e-05,
	"loss": 1.6482,
	"step": 87
	},
	{
	"epoch": 0.7302904564315352,
	"grad_norm": 6.273972511291504,
	"learning_rate": 8.83022221559489e-05,
	"loss": 1.5594,
	"step": 88
	},
	{
	"epoch": 0.7385892116182573,
	"grad_norm": 8.849343299865723,
	"learning_rate": 8.801303129827352e-05,
	"loss": 1.4801,
	"step": 89
	},
	{
	"epoch": 0.7468879668049793,
	"grad_norm": 6.7875566482543945,
	"learning_rate": 8.772079524553951e-05,
	"loss": 1.6455,
	"step": 90
	},
	{
	"epoch": 0.7551867219917012,
	"grad_norm": 5.853145599365234,
	"learning_rate": 8.742553740855506e-05,
	"loss": 1.3349,
	"step": 91
	},
	{
	"epoch": 0.7634854771784232,
	"grad_norm": 7.308794021606445,
	"learning_rate": 8.712728144020118e-05,
	"loss": 1.8087,
	"step": 92
	},
	{
	"epoch": 0.7717842323651453,
	"grad_norm": 7.031892776489258,
	"learning_rate": 8.682605123353685e-05,
	"loss": 1.3419,
	"step": 93
	},
	{
	"epoch": 0.7800829875518672,
	"grad_norm": 6.652479648590088,
	"learning_rate": 8.652187091988517e-05,
	"loss": 1.645,
	"step": 94
	},
	{
	"epoch": 0.7883817427385892,
	"grad_norm": 8.24259090423584,
	"learning_rate": 8.621476486689992e-05,
	"loss": 1.6243,
	"step": 95
	},
	{
	"epoch": 0.7966804979253111,
	"grad_norm": 5.5381975173950195,
	"learning_rate": 8.59047576766137e-05,
	"loss": 1.282,
	"step": 96
	},
	{
	"epoch": 0.8049792531120332,
	"grad_norm": 6.3423309326171875,
	"learning_rate": 8.559187418346703e-05,
	"loss": 1.3701,
	"step": 97
	},
	{
	"epoch": 0.8132780082987552,
	"grad_norm": 6.963042736053467,
	"learning_rate": 8.527613945231885e-05,
	"loss": 1.1813,
	"step": 98
	},
	{
	"epoch": 0.8215767634854771,
	"grad_norm": 8.486031532287598,
	"learning_rate": 8.495757877643858e-05,
	"loss": 1.5802,
	"step": 99
	},
	{
	"epoch": 0.8298755186721992,
	"grad_norm": 8.076821327209473,
	"learning_rate": 8.463621767547998e-05,
	"loss": 1.6718,
	"step": 100
	},
	{
	"epoch": 0.8298755186721992,
	"eval_loss": 1.3937488794326782,
	"eval_runtime": 7.2083,
	"eval_samples_per_second": 28.162,
	"eval_steps_per_second": 7.075,
	"step": 100
	},
	{
	"epoch": 0.8381742738589212,
	"grad_norm": 4.582700252532959,
	"learning_rate": 8.43120818934367e-05,
	"loss": 1.2412,
	"step": 101
	},
	{
	"epoch": 0.8464730290456431,
	"grad_norm": 11.859997749328613,
	"learning_rate": 8.398519739657996e-05,
	"loss": 1.9913,
	"step": 102
	},
	{
	"epoch": 0.8547717842323651,
	"grad_norm": 7.4468841552734375,
	"learning_rate": 8.365559037137852e-05,
	"loss": 1.9243,
	"step": 103
	},
	{
	"epoch": 0.8630705394190872,
	"grad_norm": 7.206920146942139,
	"learning_rate": 8.332328722240073e-05,
	"loss": 1.7109,
	"step": 104
	},
	{
	"epoch": 0.8713692946058091,
	"grad_norm": 6.83170223236084,
	"learning_rate": 8.298831457019942e-05,
	"loss": 1.3447,
	"step": 105
	},
	{
	"epoch": 0.8796680497925311,
	"grad_norm": 7.21415376663208,
	"learning_rate": 8.265069924917925e-05,
	"loss": 1.4393,
	"step": 106
	},
	{
	"epoch": 0.8879668049792531,
	"grad_norm": 9.88570785522461,
	"learning_rate": 8.231046830544716e-05,
	"loss": 2.0253,
	"step": 107
	},
	{
	"epoch": 0.8962655601659751,
	"grad_norm": 6.444344520568848,
	"learning_rate": 8.196764899464551e-05,
	"loss": 1.3066,
	"step": 108
	},
	{
	"epoch": 0.9045643153526971,
	"grad_norm": 5.2003326416015625,
	"learning_rate": 8.162226877976887e-05,
	"loss": 0.9973,
	"step": 109
	},
	{
	"epoch": 0.9128630705394191,
	"grad_norm": 5.82247257232666,
	"learning_rate": 8.127435532896388e-05,
	"loss": 1.2795,
	"step": 110
	},
	{
	"epoch": 0.921161825726141,
	"grad_norm": 8.667819023132324,
	"learning_rate": 8.092393651331275e-05,
	"loss": 1.9045,
	"step": 111
	},
	{
	"epoch": 0.9294605809128631,
	"grad_norm": 7.90700626373291,
	"learning_rate": 8.057104040460062e-05,
	"loss": 1.3316,
	"step": 112
	},
	{
	"epoch": 0.9377593360995851,
	"grad_norm": 5.512808322906494,
	"learning_rate": 8.021569527306662e-05,
	"loss": 1.0711,
	"step": 113
	},
	{
	"epoch": 0.946058091286307,
	"grad_norm": 8.198836326599121,
	"learning_rate": 7.985792958513931e-05,
	"loss": 1.7327,
	"step": 114
	},
	{
	"epoch": 0.9543568464730291,
	"grad_norm": 9.416217803955078,
	"learning_rate": 7.949777200115616e-05,
	"loss": 1.6381,
	"step": 115
	},
	{
	"epoch": 0.9626556016597511,
	"grad_norm": 7.902495384216309,
	"learning_rate": 7.913525137306756e-05,
	"loss": 1.4719,
	"step": 116
	},
	{
	"epoch": 0.970954356846473,
	"grad_norm": 6.16163444519043,
	"learning_rate": 7.877039674212569e-05,
	"loss": 1.1846,
	"step": 117
	},
	{
	"epoch": 0.979253112033195,
	"grad_norm": 7.932492256164551,
	"learning_rate": 7.840323733655778e-05,
	"loss": 1.3338,
	"step": 118
	},
	{
	"epoch": 0.9875518672199171,
	"grad_norm": 6.864604949951172,
	"learning_rate": 7.803380256922495e-05,
	"loss": 1.2608,
	"step": 119
	},
	{
	"epoch": 0.995850622406639,
	"grad_norm": 8.558213233947754,
	"learning_rate": 7.76621220352657e-05,
	"loss": 1.271,
	"step": 120
	},
	{
	"epoch": 1.0062240663900415,
	"grad_norm": 14.87498664855957,
	"learning_rate": 7.728822550972523e-05,
	"loss": 1.9047,
	"step": 121
	},
	{
	"epoch": 1.0145228215767634,
	"grad_norm": 4.546281337738037,
	"learning_rate": 7.69121429451702e-05,
	"loss": 0.6296,
	"step": 122
	},
	{
	"epoch": 1.0228215767634854,
	"grad_norm": 5.022426128387451,
	"learning_rate": 7.653390446928909e-05,
	"loss": 0.7982,
	"step": 123
	},
	{
	"epoch": 1.0311203319502074,
	"grad_norm": 6.32510232925415,
	"learning_rate": 7.615354038247888e-05,
	"loss": 0.895,
	"step": 124
	},
	{
	"epoch": 1.0394190871369295,
	"grad_norm": 5.873676300048828,
	"learning_rate": 7.577108115541761e-05,
	"loss": 0.7959,
	"step": 125
	},
	{
	"epoch": 1.0477178423236515,
	"grad_norm": 6.671182632446289,
	"learning_rate": 7.53865574266234e-05,
	"loss": 0.7174,
	"step": 126
	},
	{
	"epoch": 1.0560165975103735,
	"grad_norm": 5.916552543640137,
	"learning_rate": 7.500000000000001e-05,
	"loss": 0.516,
	"step": 127
	},
	{
	"epoch": 1.0643153526970954,
	"grad_norm": 5.885247230529785,
	"learning_rate": 7.461143984236924e-05,
	"loss": 0.5581,
	"step": 128
	},
	{
	"epoch": 1.0726141078838174,
	"grad_norm": 5.941064834594727,
	"learning_rate": 7.422090808099014e-05,
	"loss": 0.5006,
	"step": 129
	},
	{
	"epoch": 1.0809128630705394,
	"grad_norm": 6.601113319396973,
	"learning_rate": 7.38284360010654e-05,
	"loss": 0.8121,
	"step": 130
	},
	{
	"epoch": 1.0892116182572613,
	"grad_norm": 6.470757484436035,
	"learning_rate": 7.343405504323519e-05,
	"loss": 0.7346,
	"step": 131
	},
	{
	"epoch": 1.0975103734439835,
	"grad_norm": 5.690014839172363,
	"learning_rate": 7.303779680105843e-05,
	"loss": 0.5846,
	"step": 132
	},
	{
	"epoch": 1.1058091286307055,
	"grad_norm": 7.497930526733398,
	"learning_rate": 7.263969301848188e-05,
	"loss": 1.1355,
	"step": 133
	},
	{
	"epoch": 1.1141078838174274,
	"grad_norm": 5.633259296417236,
	"learning_rate": 7.223977558729706e-05,
	"loss": 0.4784,
	"step": 134
	},
	{
	"epoch": 1.1224066390041494,
	"grad_norm": 5.755221843719482,
	"learning_rate": 7.183807654458564e-05,
	"loss": 0.6109,
	"step": 135
	},
	{
	"epoch": 1.1307053941908713,
	"grad_norm": 5.960432052612305,
	"learning_rate": 7.143462807015271e-05,
	"loss": 0.7443,
	"step": 136
	},
	{
	"epoch": 1.1390041493775933,
	"grad_norm": 6.3896403312683105,
	"learning_rate": 7.102946248394909e-05,
	"loss": 0.7038,
	"step": 137
	},
	{
	"epoch": 1.1473029045643153,
	"grad_norm": 4.847652435302734,
	"learning_rate": 7.062261224348203e-05,
	"loss": 0.4339,
	"step": 138
	},
	{
	"epoch": 1.1556016597510372,
	"grad_norm": 3.1685574054718018,
	"learning_rate": 7.021410994121525e-05,
	"loss": 0.2151,
	"step": 139
	},
	{
	"epoch": 1.1639004149377594,
	"grad_norm": 4.961888790130615,
	"learning_rate": 6.980398830195785e-05,
	"loss": 0.4,
	"step": 140
	},
	{
	"epoch": 1.1721991701244814,
	"grad_norm": 5.239101886749268,
	"learning_rate": 6.939228018024275e-05,
	"loss": 0.6228,
	"step": 141
	},
	{
	"epoch": 1.1804979253112033,
	"grad_norm": 5.622098922729492,
	"learning_rate": 6.897901855769483e-05,
	"loss": 0.3817,
	"step": 142
	},
	{
	"epoch": 1.1887966804979253,
	"grad_norm": 4.465243816375732,
	"learning_rate": 6.856423654038868e-05,
	"loss": 0.4005,
	"step": 143
	},
	{
	"epoch": 1.1970954356846473,
	"grad_norm": 6.165435791015625,
	"learning_rate": 6.814796735619663e-05,
	"loss": 0.4155,
	"step": 144
	},
	{
	"epoch": 1.2053941908713692,
	"grad_norm": 8.859424591064453,
	"learning_rate": 6.773024435212678e-05,
	"loss": 0.8074,
	"step": 145
	},
	{
	"epoch": 1.2136929460580912,
	"grad_norm": 6.36492919921875,
	"learning_rate": 6.731110099165164e-05,
	"loss": 0.4823,
	"step": 146
	},
	{
	"epoch": 1.2219917012448134,
	"grad_norm": 5.6012678146362305,
	"learning_rate": 6.689057085202737e-05,
	"loss": 0.4968,
	"step": 147
	},
	{
	"epoch": 1.2302904564315353,
	"grad_norm": 7.916935920715332,
	"learning_rate": 6.646868762160399e-05,
	"loss": 0.5695,
	"step": 148
	},
	{
	"epoch": 1.2385892116182573,
	"grad_norm": 5.010058403015137,
	"learning_rate": 6.604548509712658e-05,
	"loss": 0.3488,
	"step": 149
	},
	{
	"epoch": 1.2468879668049793,
	"grad_norm": 9.163707733154297,
	"learning_rate": 6.562099718102788e-05,
	"loss": 0.6332,
	"step": 150
	},
	{
	"epoch": 1.2468879668049793,
	"eval_loss": 0.9936810731887817,
	"eval_runtime": 7.1349,
	"eval_samples_per_second": 28.452,
	"eval_steps_per_second": 7.148,
	"step": 150
	},
	{
	"epoch": 1.2551867219917012,
	"grad_norm": 7.536319255828857,
	"learning_rate": 6.519525787871235e-05,
	"loss": 0.6467,
	"step": 151
	},
	{
	"epoch": 1.2634854771784232,
	"grad_norm": 7.516266345977783,
	"learning_rate": 6.476830129583206e-05,
	"loss": 0.5713,
	"step": 152
	},
	{
	"epoch": 1.2717842323651452,
	"grad_norm": 7.401801109313965,
	"learning_rate": 6.434016163555452e-05,
	"loss": 0.6164,
	"step": 153
	},
	{
	"epoch": 1.2800829875518671,
	"grad_norm": 6.253715515136719,
	"learning_rate": 6.391087319582264e-05,
	"loss": 0.5391,
	"step": 154
	},
	{
	"epoch": 1.288381742738589,
	"grad_norm": 6.459432125091553,
	"learning_rate": 6.34804703666072e-05,
	"loss": 0.3725,
	"step": 155
	},
	{
	"epoch": 1.2966804979253113,
	"grad_norm": 8.033556938171387,
	"learning_rate": 6.304898762715186e-05,
	"loss": 0.578,
	"step": 156
	},
	{
	"epoch": 1.3049792531120332,
	"grad_norm": 6.300682067871094,
	"learning_rate": 6.261645954321109e-05,
	"loss": 0.4584,
	"step": 157
	},
	{
	"epoch": 1.3132780082987552,
	"grad_norm": 6.387180328369141,
	"learning_rate": 6.21829207642811e-05,
	"loss": 0.4923,
	"step": 158
	},
	{
	"epoch": 1.3215767634854771,
	"grad_norm": 7.160585880279541,
	"learning_rate": 6.174840602082412e-05,
	"loss": 0.5705,
	"step": 159
	},
	{
	"epoch": 1.329875518672199,
	"grad_norm": 6.173452854156494,
	"learning_rate": 6.131295012148612e-05,
	"loss": 0.4962,
	"step": 160
	},
	{
	"epoch": 1.3381742738589213,
	"grad_norm": 4.847928047180176,
	"learning_rate": 6.087658795030837e-05,
	"loss": 0.3703,
	"step": 161
	},
	{
	"epoch": 1.3464730290456433,
	"grad_norm": 7.544972896575928,
	"learning_rate": 6.043935446393294e-05,
	"loss": 0.433,
	"step": 162
	},
	{
	"epoch": 1.3547717842323652,
	"grad_norm": 6.9235358238220215,
	"learning_rate": 6.0001284688802226e-05,
	"loss": 0.6781,
	"step": 163
	},
	{
	"epoch": 1.3630705394190872,
	"grad_norm": 7.10660457611084,
	"learning_rate": 5.956241371835312e-05,
	"loss": 0.5983,
	"step": 164
	},
	{
	"epoch": 1.3713692946058091,
	"grad_norm": 4.3860955238342285,
	"learning_rate": 5.912277671020564e-05,
	"loss": 0.3219,
	"step": 165
	},
	{
	"epoch": 1.379668049792531,
	"grad_norm": 6.816618919372559,
	"learning_rate": 5.868240888334653e-05,
	"loss": 0.4972,
	"step": 166
	},
	{
	"epoch": 1.387966804979253,
	"grad_norm": 5.665396690368652,
	"learning_rate": 5.824134551530783e-05,
	"loss": 0.4513,
	"step": 167
	},
	{
	"epoch": 1.396265560165975,
	"grad_norm": 8.053374290466309,
	"learning_rate": 5.7799621939340896e-05,
	"loss": 0.3688,
	"step": 168
	},
	{
	"epoch": 1.404564315352697,
	"grad_norm": 5.979791164398193,
	"learning_rate": 5.735727354158581e-05,
	"loss": 0.3598,
	"step": 169
	},
	{
	"epoch": 1.412863070539419,
	"grad_norm": 4.926863193511963,
	"learning_rate": 5.691433575823666e-05,
	"loss": 0.3195,
	"step": 170
	},
	{
	"epoch": 1.4211618257261411,
	"grad_norm": 6.836885452270508,
	"learning_rate": 5.6470844072702764e-05,
	"loss": 0.6218,
	"step": 171
	},
	{
	"epoch": 1.429460580912863,
	"grad_norm": 7.920914649963379,
	"learning_rate": 5.602683401276615e-05,
	"loss": 0.4448,
	"step": 172
	},
	{
	"epoch": 1.437759336099585,
	"grad_norm": 3.9926419258117676,
	"learning_rate": 5.55823411477354e-05,
	"loss": 0.208,
	"step": 173
	},
	{
	"epoch": 1.446058091286307,
	"grad_norm": 5.798760414123535,
	"learning_rate": 5.513740108559622e-05,
	"loss": 0.3248,
	"step": 174
	},
	{
	"epoch": 1.454356846473029,
	"grad_norm": 7.048202991485596,
	"learning_rate": 5.469204947015897e-05,
	"loss": 0.4915,
	"step": 175
	},
	{
	"epoch": 1.4626556016597512,
	"grad_norm": 4.450428485870361,
	"learning_rate": 5.424632197820324e-05,
	"loss": 0.2565,
	"step": 176
	},
	{
	"epoch": 1.4709543568464731,
	"grad_norm": 7.559440612792969,
	"learning_rate": 5.3800254316619806e-05,
	"loss": 0.5286,
	"step": 177
	},
	{
	"epoch": 1.479253112033195,
	"grad_norm": 7.2518086433410645,
	"learning_rate": 5.335388221955012e-05,
	"loss": 0.5451,
	"step": 178
	},
	{
	"epoch": 1.487551867219917,
	"grad_norm": 5.655428886413574,
	"learning_rate": 5.290724144552379e-05,
	"loss": 0.3642,
	"step": 179
	},
	{
	"epoch": 1.495850622406639,
	"grad_norm": 6.303919792175293,
	"learning_rate": 5.246036777459391e-05,
	"loss": 0.4304,
	"step": 180
	},
	{
	"epoch": 1.504149377593361,
	"grad_norm": 9.382453918457031,
	"learning_rate": 5.201329700547076e-05,
	"loss": 0.5932,
	"step": 181
	},
	{
	"epoch": 1.512448132780083,
	"grad_norm": 5.657342910766602,
	"learning_rate": 5.1566064952654014e-05,
	"loss": 0.431,
	"step": 182
	},
	{
	"epoch": 1.520746887966805,
	"grad_norm": 5.608704566955566,
	"learning_rate": 5.1118707443563665e-05,
	"loss": 0.4258,
	"step": 183
	},
	{
	"epoch": 1.5290456431535269,
	"grad_norm": 6.01896333694458,
	"learning_rate": 5.0671260315669875e-05,
	"loss": 0.3907,
	"step": 184
	},
	{
	"epoch": 1.5373443983402488,
	"grad_norm": 8.329726219177246,
	"learning_rate": 5.022375941362217e-05,
	"loss": 0.3328,
	"step": 185
	},
	{
	"epoch": 1.5456431535269708,
	"grad_norm": 6.260307788848877,
	"learning_rate": 4.977624058637783e-05,
	"loss": 0.3374,
	"step": 186
	},
	{
	"epoch": 1.553941908713693,
	"grad_norm": 6.407407760620117,
	"learning_rate": 4.9328739684330137e-05,
	"loss": 0.432,
	"step": 187
	},
	{
	"epoch": 1.562240663900415,
	"grad_norm": 5.673023700714111,
	"learning_rate": 4.8881292556436354e-05,
	"loss": 0.2581,
	"step": 188
	},
	{
	"epoch": 1.570539419087137,
	"grad_norm": 6.290989875793457,
	"learning_rate": 4.8433935047346e-05,
	"loss": 0.387,
	"step": 189
	},
	{
	"epoch": 1.578838174273859,
	"grad_norm": 5.269549369812012,
	"learning_rate": 4.798670299452926e-05,
	"loss": 0.3035,
	"step": 190
	},
	{
	"epoch": 1.587136929460581,
	"grad_norm": 7.64688777923584,
	"learning_rate": 4.7539632225406095e-05,
	"loss": 0.3908,
	"step": 191
	},
	{
	"epoch": 1.595435684647303,
	"grad_norm": 11.037405014038086,
	"learning_rate": 4.709275855447621e-05,
	"loss": 0.8535,
	"step": 192
	},
	{
	"epoch": 1.603734439834025,
	"grad_norm": 5.834881782531738,
	"learning_rate": 4.6646117780449876e-05,
	"loss": 0.2963,
	"step": 193
	},
	{
	"epoch": 1.612033195020747,
	"grad_norm": 5.2544403076171875,
	"learning_rate": 4.6199745683380206e-05,
	"loss": 0.2959,
	"step": 194
	},
	{
	"epoch": 1.620331950207469,
	"grad_norm": 8.141179084777832,
	"learning_rate": 4.5753678021796755e-05,
	"loss": 0.634,
	"step": 195
	},
	{
	"epoch": 1.6286307053941909,
	"grad_norm": 4.7402191162109375,
	"learning_rate": 4.530795052984104e-05,
	"loss": 0.2887,
	"step": 196
	},
	{
	"epoch": 1.6369294605809128,
	"grad_norm": 6.756740093231201,
	"learning_rate": 4.48625989144038e-05,
	"loss": 0.4239,
	"step": 197
	},
	{
	"epoch": 1.6452282157676348,
	"grad_norm": 6.466264247894287,
	"learning_rate": 4.4417658852264614e-05,
	"loss": 0.2381,
	"step": 198
	},
	{
	"epoch": 1.6535269709543567,
	"grad_norm": 5.09955358505249,
	"learning_rate": 4.397316598723385e-05,
	"loss": 0.3166,
	"step": 199
	},
	{
	"epoch": 1.6618257261410787,
	"grad_norm": 5.525445461273193,
	"learning_rate": 4.352915592729723e-05,
	"loss": 0.3016,
	"step": 200
	},
	{
	"epoch": 1.6618257261410787,
	"eval_loss": 0.6099563241004944,
	"eval_runtime": 7.1625,
	"eval_samples_per_second": 28.342,
	"eval_steps_per_second": 7.12,
	"step": 200
	},
	{
	"epoch": 1.6701244813278007,
	"grad_norm": 7.207304954528809,
	"learning_rate": 4.308566424176336e-05,
	"loss": 0.5757,
	"step": 201
	},
	{
	"epoch": 1.6784232365145229,
	"grad_norm": 8.592957496643066,
	"learning_rate": 4.264272645841419e-05,
	"loss": 0.487,
	"step": 202
	},
	{
	"epoch": 1.6867219917012448,
	"grad_norm": 4.523548603057861,
	"learning_rate": 4.2200378060659116e-05,
	"loss": 0.1985,
	"step": 203
	},
	{
	"epoch": 1.6950207468879668,
	"grad_norm": 3.577657699584961,
	"learning_rate": 4.1758654484692186e-05,
	"loss": 0.217,
	"step": 204
	},
	{
	"epoch": 1.703319502074689,
	"grad_norm": 5.221662998199463,
	"learning_rate": 4.131759111665349e-05,
	"loss": 0.3242,
	"step": 205
	},
	{
	"epoch": 1.711618257261411,
	"grad_norm": 4.403975009918213,
	"learning_rate": 4.087722328979438e-05,
	"loss": 0.2363,
	"step": 206
	},
	{
	"epoch": 1.7199170124481329,
	"grad_norm": 4.955993175506592,
	"learning_rate": 4.043758628164688e-05,
	"loss": 0.4589,
	"step": 207
	},
	{
	"epoch": 1.7282157676348548,
	"grad_norm": 5.290609836578369,
	"learning_rate": 3.9998715311197785e-05,
	"loss": 0.304,
	"step": 208
	},
	{
	"epoch": 1.7365145228215768,
	"grad_norm": 4.659958362579346,
	"learning_rate": 3.956064553606708e-05,
	"loss": 0.1433,
	"step": 209
	},
	{
	"epoch": 1.7448132780082988,
	"grad_norm": 6.113132953643799,
	"learning_rate": 3.912341204969164e-05,
	"loss": 0.2607,
	"step": 210
	},
	{
	"epoch": 1.7531120331950207,
	"grad_norm": 7.161942005157471,
	"learning_rate": 3.86870498785139e-05,
	"loss": 0.5274,
	"step": 211
	},
	{
	"epoch": 1.7614107883817427,
	"grad_norm": 7.1513671875,
	"learning_rate": 3.825159397917589e-05,
	"loss": 0.4634,
	"step": 212
	},
	{
	"epoch": 1.7697095435684647,
	"grad_norm": 5.32570219039917,
	"learning_rate": 3.781707923571891e-05,
	"loss": 0.1875,
	"step": 213
	},
	{
	"epoch": 1.7780082987551866,
	"grad_norm": 4.187331199645996,
	"learning_rate": 3.738354045678891e-05,
	"loss": 0.1516,
	"step": 214
	},
	{
	"epoch": 1.7863070539419086,
	"grad_norm": 7.296047687530518,
	"learning_rate": 3.695101237284815e-05,
	"loss": 0.3847,
	"step": 215
	},
	{
	"epoch": 1.7946058091286305,
	"grad_norm": 5.951739311218262,
	"learning_rate": 3.651952963339282e-05,
	"loss": 0.2656,
	"step": 216
	},
	{
	"epoch": 1.8029045643153527,
	"grad_norm": 6.873353958129883,
	"learning_rate": 3.608912680417737e-05,
	"loss": 0.165,
	"step": 217
	},
	{
	"epoch": 1.8112033195020747,
	"grad_norm": 6.497419834136963,
	"learning_rate": 3.5659838364445505e-05,
	"loss": 0.2504,
	"step": 218
	},
	{
	"epoch": 1.8195020746887967,
	"grad_norm": 7.605969429016113,
	"learning_rate": 3.523169870416795e-05,
	"loss": 0.3794,
	"step": 219
	},
	{
	"epoch": 1.8278008298755186,
	"grad_norm": 7.117875576019287,
	"learning_rate": 3.480474212128766e-05,
	"loss": 0.3687,
	"step": 220
	},
	{
	"epoch": 1.8360995850622408,
	"grad_norm": 4.442015647888184,
	"learning_rate": 3.4379002818972124e-05,
	"loss": 0.2042,
	"step": 221
	},
	{
	"epoch": 1.8443983402489628,
	"grad_norm": 8.238639831542969,
	"learning_rate": 3.3954514902873425e-05,
	"loss": 0.5648,
	"step": 222
	},
	{
	"epoch": 1.8526970954356847,
	"grad_norm": 7.620614051818848,
	"learning_rate": 3.3531312378396026e-05,
	"loss": 0.3973,
	"step": 223
	},
	{
	"epoch": 1.8609958506224067,
	"grad_norm": 5.214080333709717,
	"learning_rate": 3.310942914797265e-05,
	"loss": 0.2133,
	"step": 224
	},
	{
	"epoch": 1.8692946058091287,
	"grad_norm": 5.911538600921631,
	"learning_rate": 3.2688899008348386e-05,
	"loss": 0.219,
	"step": 225
	},
	{
	"epoch": 1.8775933609958506,
	"grad_norm": 10.658268928527832,
	"learning_rate": 3.226975564787322e-05,
	"loss": 0.338,
	"step": 226
	},
	{
	"epoch": 1.8858921161825726,
	"grad_norm": 6.180187702178955,
	"learning_rate": 3.185203264380338e-05,
	"loss": 0.2234,
	"step": 227
	},
	{
	"epoch": 1.8941908713692945,
	"grad_norm": 5.702350616455078,
	"learning_rate": 3.143576345961132e-05,
	"loss": 0.2215,
	"step": 228
	},
	{
	"epoch": 1.9024896265560165,
	"grad_norm": 2.7787413597106934,
	"learning_rate": 3.1020981442305184e-05,
	"loss": 0.0856,
	"step": 229
	},
	{
	"epoch": 1.9107883817427385,
	"grad_norm": 5.721746921539307,
	"learning_rate": 3.060771981975726e-05,
	"loss": 0.3339,
	"step": 230
	},
	{
	"epoch": 1.9190871369294604,
	"grad_norm": 6.0323567390441895,
	"learning_rate": 3.019601169804216e-05,
	"loss": 0.1757,
	"step": 231
	},
	{
	"epoch": 1.9273858921161826,
	"grad_norm": 8.973467826843262,
	"learning_rate": 2.978589005878476e-05,
	"loss": 0.262,
	"step": 232
	},
	{
	"epoch": 1.9356846473029046,
	"grad_norm": 3.4507062435150146,
	"learning_rate": 2.9377387756517982e-05,
	"loss": 0.1235,
	"step": 233
	},
	{
	"epoch": 1.9439834024896265,
	"grad_norm": 5.919799327850342,
	"learning_rate": 2.897053751605093e-05,
	"loss": 0.2862,
	"step": 234
	},
	{
	"epoch": 1.9522821576763485,
	"grad_norm": 4.9692487716674805,
	"learning_rate": 2.8565371929847284e-05,
	"loss": 0.1764,
	"step": 235
	},
	{
	"epoch": 1.9605809128630707,
	"grad_norm": 5.740837574005127,
	"learning_rate": 2.8161923455414367e-05,
	"loss": 0.1705,
	"step": 236
	},
	{
	"epoch": 1.9688796680497926,
	"grad_norm": 5.595933437347412,
	"learning_rate": 2.776022441270295e-05,
	"loss": 0.2613,
	"step": 237
	},
	{
	"epoch": 1.9771784232365146,
	"grad_norm": 4.591209888458252,
	"learning_rate": 2.7360306981518146e-05,
	"loss": 0.1906,
	"step": 238
	},
	{
	"epoch": 1.9854771784232366,
	"grad_norm": 7.699284553527832,
	"learning_rate": 2.6962203198941587e-05,
	"loss": 0.4312,
	"step": 239
	},
	{
	"epoch": 1.9937759336099585,
	"grad_norm": 6.995236873626709,
	"learning_rate": 2.656594495676482e-05,
	"loss": 0.3351,
	"step": 240
	},
	{
	"epoch": 2.004149377593361,
	"grad_norm": 6.956718921661377,
	"learning_rate": 2.6171563998934605e-05,
	"loss": 0.2213,
	"step": 241
	},
	{
	"epoch": 2.012448132780083,
	"grad_norm": 3.839200258255005,
	"learning_rate": 2.5779091919009877e-05,
	"loss": 0.2139,
	"step": 242
	},
	{
	"epoch": 2.020746887966805,
	"grad_norm": 1.65491783618927,
	"learning_rate": 2.5388560157630765e-05,
	"loss": 0.0616,
	"step": 243
	},
	{
	"epoch": 2.029045643153527,
	"grad_norm": 3.041247606277466,
	"learning_rate": 2.500000000000001e-05,
	"loss": 0.0922,
	"step": 244
	},
	{
	"epoch": 2.037344398340249,
	"grad_norm": 1.837149739265442,
	"learning_rate": 2.461344257337662e-05,
	"loss": 0.0552,
	"step": 245
	},
	{
	"epoch": 2.045643153526971,
	"grad_norm": 3.2361204624176025,
	"learning_rate": 2.422891884458241e-05,
	"loss": 0.0536,
	"step": 246
	},
	{
	"epoch": 2.0539419087136928,
	"grad_norm": 4.026633262634277,
	"learning_rate": 2.3846459617521128e-05,
	"loss": 0.2692,
	"step": 247
	},
	{
	"epoch": 2.0622406639004147,
	"grad_norm": 3.3415215015411377,
	"learning_rate": 2.346609553071093e-05,
	"loss": 0.0902,
	"step": 248
	},
	{
	"epoch": 2.070539419087137,
	"grad_norm": 0.9877287745475769,
	"learning_rate": 2.308785705482982e-05,
	"loss": 0.0222,
	"step": 249
	},
	{
	"epoch": 2.078838174273859,
	"grad_norm": 1.6253547668457031,
	"learning_rate": 2.2711774490274766e-05,
	"loss": 0.0311,
	"step": 250
	},
	{
	"epoch": 2.078838174273859,
	"eval_loss": 0.4097523093223572,
	"eval_runtime": 7.1697,
	"eval_samples_per_second": 28.314,
	"eval_steps_per_second": 7.113,
	"step": 250
	},
	{
	"epoch": 2.087136929460581,
	"grad_norm": 4.143763065338135,
	"learning_rate": 2.233787796473432e-05,
	"loss": 0.0556,
	"step": 251
	},
	{
	"epoch": 2.095435684647303,
	"grad_norm": 4.3261847496032715,
	"learning_rate": 2.1966197430775053e-05,
	"loss": 0.1249,
	"step": 252
	},
	{
	"epoch": 2.103734439834025,
	"grad_norm": 4.310375690460205,
	"learning_rate": 2.1596762663442218e-05,
	"loss": 0.0994,
	"step": 253
	},
	{
	"epoch": 2.112033195020747,
	"grad_norm": 1.23174250125885,
	"learning_rate": 2.122960325787432e-05,
	"loss": 0.0315,
	"step": 254
	},
	{
	"epoch": 2.120331950207469,
	"grad_norm": 1.8426965475082397,
	"learning_rate": 2.086474862693244e-05,
	"loss": 0.0491,
	"step": 255
	},
	{
	"epoch": 2.128630705394191,
	"grad_norm": 3.062448501586914,
	"learning_rate": 2.050222799884387e-05,
	"loss": 0.0968,
	"step": 256
	},
	{
	"epoch": 2.136929460580913,
	"grad_norm": 2.411597967147827,
	"learning_rate": 2.0142070414860704e-05,
	"loss": 0.0283,
	"step": 257
	},
	{
	"epoch": 2.145228215767635,
	"grad_norm": 2.3557469844818115,
	"learning_rate": 1.9784304726933383e-05,
	"loss": 0.0897,
	"step": 258
	},
	{
	"epoch": 2.1535269709543567,
	"grad_norm": 8.79699420928955,
	"learning_rate": 1.942895959539939e-05,
	"loss": 0.0328,
	"step": 259
	},
	{
	"epoch": 2.1618257261410787,
	"grad_norm": 1.4276204109191895,
	"learning_rate": 1.9076063486687256e-05,
	"loss": 0.016,
	"step": 260
	},
	{
	"epoch": 2.1701244813278007,
	"grad_norm": 2.912771701812744,
	"learning_rate": 1.8725644671036126e-05,
	"loss": 0.1233,
	"step": 261
	},
	{
	"epoch": 2.1784232365145226,
	"grad_norm": 4.887458801269531,
	"learning_rate": 1.837773122023114e-05,
	"loss": 0.0717,
	"step": 262
	},
	{
	"epoch": 2.186721991701245,
	"grad_norm": 1.242602825164795,
	"learning_rate": 1.803235100535452e-05,
	"loss": 0.0208,
	"step": 263
	},
	{
	"epoch": 2.195020746887967,
	"grad_norm": 0.9755971431732178,
	"learning_rate": 1.7689531694552863e-05,
	"loss": 0.0192,
	"step": 264
	},
	{
	"epoch": 2.203319502074689,
	"grad_norm": 2.5533509254455566,
	"learning_rate": 1.734930075082076e-05,
	"loss": 0.0384,
	"step": 265
	},
	{
	"epoch": 2.211618257261411,
	"grad_norm": 0.9231969118118286,
	"learning_rate": 1.7011685429800595e-05,
	"loss": 0.0152,
	"step": 266
	},
	{
	"epoch": 2.219917012448133,
	"grad_norm": 1.7765648365020752,
	"learning_rate": 1.6676712777599273e-05,
	"loss": 0.041,
	"step": 267
	},
	{
	"epoch": 2.228215767634855,
	"grad_norm": 2.0227739810943604,
	"learning_rate": 1.6344409628621484e-05,
	"loss": 0.1056,
	"step": 268
	},
	{
	"epoch": 2.236514522821577,
	"grad_norm": 1.8746280670166016,
	"learning_rate": 1.6014802603420044e-05,
	"loss": 0.0542,
	"step": 269
	},
	{
	"epoch": 2.2448132780082988,
	"grad_norm": 1.8291066884994507,
	"learning_rate": 1.5687918106563326e-05,
	"loss": 0.0206,
	"step": 270
	},
	{
	"epoch": 2.2531120331950207,
	"grad_norm": 7.360498905181885,
	"learning_rate": 1.536378232452003e-05,
	"loss": 0.1436,
	"step": 271
	},
	{
	"epoch": 2.2614107883817427,
	"grad_norm": 4.359367847442627,
	"learning_rate": 1.5042421223561432e-05,
	"loss": 0.075,
	"step": 272
	},
	{
	"epoch": 2.2697095435684647,
	"grad_norm": 1.2709429264068604,
	"learning_rate": 1.4723860547681162e-05,
	"loss": 0.0172,
	"step": 273
	},
	{
	"epoch": 2.2780082987551866,
	"grad_norm": 3.57598876953125,
	"learning_rate": 1.440812581653298e-05,
	"loss": 0.0619,
	"step": 274
	},
	{
	"epoch": 2.2863070539419086,
	"grad_norm": 1.036085605621338,
	"learning_rate": 1.4095242323386303e-05,
	"loss": 0.0604,
	"step": 275
	},
	{
	"epoch": 2.2946058091286305,
	"grad_norm": 2.2307868003845215,
	"learning_rate": 1.3785235133100088e-05,
	"loss": 0.037,
	"step": 276
	},
	{
	"epoch": 2.3029045643153525,
	"grad_norm": 1.6419095993041992,
	"learning_rate": 1.3478129080114848e-05,
	"loss": 0.0735,
	"step": 277
	},
	{
	"epoch": 2.3112033195020745,
	"grad_norm": 2.744889259338379,
	"learning_rate": 1.3173948766463145e-05,
	"loss": 0.0294,
	"step": 278
	},
	{
	"epoch": 2.3195020746887964,
	"grad_norm": 3.0023012161254883,
	"learning_rate": 1.2872718559798853e-05,
	"loss": 0.0446,
	"step": 279
	},
	{
	"epoch": 2.327800829875519,
	"grad_norm": 4.369894027709961,
	"learning_rate": 1.257446259144494e-05,
	"loss": 0.0467,
	"step": 280
	},
	{
	"epoch": 2.336099585062241,
	"grad_norm": 1.3997019529342651,
	"learning_rate": 1.2279204754460493e-05,
	"loss": 0.0205,
	"step": 281
	},
	{
	"epoch": 2.3443983402489628,
	"grad_norm": 3.3227059841156006,
	"learning_rate": 1.1986968701726491e-05,
	"loss": 0.083,
	"step": 282
	},
	{
	"epoch": 2.3526970954356847,
	"grad_norm": 2.5781474113464355,
	"learning_rate": 1.1697777844051105e-05,
	"loss": 0.0682,
	"step": 283
	},
	{
	"epoch": 2.3609958506224067,
	"grad_norm": 0.8888638019561768,
	"learning_rate": 1.1411655348294247e-05,
	"loss": 0.0169,
	"step": 284
	},
	{
	"epoch": 2.3692946058091287,
	"grad_norm": 3.076343059539795,
	"learning_rate": 1.1128624135511712e-05,
	"loss": 0.0746,
	"step": 285
	},
	{
	"epoch": 2.3775933609958506,
	"grad_norm": 2.557579755783081,
	"learning_rate": 1.0848706879118892e-05,
	"loss": 0.0715,
	"step": 286
	},
	{
	"epoch": 2.3858921161825726,
	"grad_norm": 3.306203842163086,
	"learning_rate": 1.0571926003074561e-05,
	"loss": 0.063,
	"step": 287
	},
	{
	"epoch": 2.3941908713692945,
	"grad_norm": 1.7703243494033813,
	"learning_rate": 1.0298303680084448e-05,
	"loss": 0.0303,
	"step": 288
	},
	{
	"epoch": 2.4024896265560165,
	"grad_norm": 3.1793651580810547,
	"learning_rate": 1.0027861829824952e-05,
	"loss": 0.0253,
	"step": 289
	},
	{
	"epoch": 2.4107883817427385,
	"grad_norm": 2.1019341945648193,
	"learning_rate": 9.760622117187235e-06,
	"loss": 0.0759,
	"step": 290
	},
	{
	"epoch": 2.4190871369294604,
	"grad_norm": 1.9458683729171753,
	"learning_rate": 9.496605950541676e-06,
	"loss": 0.0259,
	"step": 291
	},
	{
	"epoch": 2.4273858921161824,
	"grad_norm": 3.2663235664367676,
	"learning_rate": 9.235834480022787e-06,
	"loss": 0.071,
	"step": 292
	},
	{
	"epoch": 2.435684647302905,
	"grad_norm": 2.9131743907928467,
	"learning_rate": 8.978328595834984e-06,
	"loss": 0.0265,
	"step": 293
	},
	{
	"epoch": 2.4439834024896268,
	"grad_norm": 4.122836589813232,
	"learning_rate": 8.724108926578999e-06,
	"loss": 0.0449,
	"step": 294
	},
	{
	"epoch": 2.4522821576763487,
	"grad_norm": 2.857977867126465,
	"learning_rate": 8.473195837599418e-06,
	"loss": 0.0248,
	"step": 295
	},
	{
	"epoch": 2.4605809128630707,
	"grad_norm": 4.170780181884766,
	"learning_rate": 8.225609429353187e-06,
	"loss": 0.0373,
	"step": 296
	},
	{
	"epoch": 2.4688796680497926,
	"grad_norm": 2.490182638168335,
	"learning_rate": 7.981369535799354e-06,
	"loss": 0.0751,
	"step": 297
	},
	{
	"epoch": 2.4771784232365146,
	"grad_norm": 3.713991165161133,
	"learning_rate": 7.740495722810271e-06,
	"loss": 0.0964,
	"step": 298
	},
	{
	"epoch": 2.4854771784232366,
	"grad_norm": 3.0123841762542725,
	"learning_rate": 7.503007286604069e-06,
	"loss": 0.0414,
	"step": 299
	},
	{
	"epoch": 2.4937759336099585,
	"grad_norm": 4.080419063568115,
	"learning_rate": 7.268923252198989e-06,
	"loss": 0.1049,
	"step": 300
	},
	{
	"epoch": 2.4937759336099585,
	"eval_loss": 0.3370027542114258,
	"eval_runtime": 7.1786,
	"eval_samples_per_second": 28.278,
	"eval_steps_per_second": 7.104,
	"step": 300
	},
	{
	"epoch": 2.5020746887966805,
	"grad_norm": 5.102431774139404,
	"learning_rate": 7.038262371889159e-06,
	"loss": 0.1422,
	"step": 301
	},
	{
	"epoch": 2.5103734439834025,
	"grad_norm": 1.8823308944702148,
	"learning_rate": 6.811043123742494e-06,
	"loss": 0.0404,
	"step": 302
	},
	{
	"epoch": 2.5186721991701244,
	"grad_norm": 1.6759247779846191,
	"learning_rate": 6.587283710120324e-06,
	"loss": 0.0273,
	"step": 303
	},
	{
	"epoch": 2.5269709543568464,
	"grad_norm": 1.534498929977417,
	"learning_rate": 6.367002056219284e-06,
	"loss": 0.0274,
	"step": 304
	},
	{
	"epoch": 2.5352697095435683,
	"grad_norm": 1.8221664428710938,
	"learning_rate": 6.150215808635335e-06,
	"loss": 0.1055,
	"step": 305
	},
	{
	"epoch": 2.5435684647302903,
	"grad_norm": 2.2624080181121826,
	"learning_rate": 5.936942333950063e-06,
	"loss": 0.0522,
	"step": 306
	},
	{
	"epoch": 2.5518672199170123,
	"grad_norm": 1.1444363594055176,
	"learning_rate": 5.727198717339511e-06,
	"loss": 0.0714,
	"step": 307
	},
	{
	"epoch": 2.5601659751037342,
	"grad_norm": 1.0299466848373413,
	"learning_rate": 5.521001761205441e-06,
	"loss": 0.017,
	"step": 308
	},
	{
	"epoch": 2.568464730290456,
	"grad_norm": 1.962306022644043,
	"learning_rate": 5.318367983829392e-06,
	"loss": 0.0308,
	"step": 309
	},
	{
	"epoch": 2.576763485477178,
	"grad_norm": 1.333689570426941,
	"learning_rate": 5.1193136180493095e-06,
	"loss": 0.0488,
	"step": 310
	},
	{
	"epoch": 2.5850622406639006,
	"grad_norm": 1.2325903177261353,
	"learning_rate": 4.9238546099592e-06,
	"loss": 0.0345,
	"step": 311
	},
	{
	"epoch": 2.5933609958506225,
	"grad_norm": 1.9375916719436646,
	"learning_rate": 4.732006617631729e-06,
	"loss": 0.0257,
	"step": 312
	},
	{
	"epoch": 2.6016597510373445,
	"grad_norm": 7.875622749328613,
	"learning_rate": 4.54378500986381e-06,
	"loss": 0.2938,
	"step": 313
	},
	{
	"epoch": 2.6099585062240664,
	"grad_norm": 1.0272877216339111,
	"learning_rate": 4.3592048649454594e-06,
	"loss": 0.0183,
	"step": 314
	},
	{
	"epoch": 2.6182572614107884,
	"grad_norm": 3.053288459777832,
	"learning_rate": 4.178280969451853e-06,
	"loss": 0.0555,
	"step": 315
	},
	{
	"epoch": 2.6265560165975104,
	"grad_norm": 1.3870058059692383,
	"learning_rate": 4.001027817058789e-06,
	"loss": 0.0233,
	"step": 316
	},
	{
	"epoch": 2.6348547717842323,
	"grad_norm": 2.4694643020629883,
	"learning_rate": 3.827459607381678e-06,
	"loss": 0.0883,
	"step": 317
	},
	{
	"epoch": 2.6431535269709543,
	"grad_norm": 1.914157748222351,
	"learning_rate": 3.6575902448379105e-06,
	"loss": 0.0428,
	"step": 318
	},
	{
	"epoch": 2.6514522821576763,
	"grad_norm": 2.42271089553833,
	"learning_rate": 3.4914333375330898e-06,
	"loss": 0.0574,
	"step": 319
	},
	{
	"epoch": 2.659751037344398,
	"grad_norm": 1.2127854824066162,
	"learning_rate": 3.329002196170816e-06,
	"loss": 0.0504,
	"step": 320
	},
	{
	"epoch": 2.66804979253112,
	"grad_norm": 2.0530266761779785,
	"learning_rate": 3.1703098329864233e-06,
	"loss": 0.0504,
	"step": 321
	},
	{
	"epoch": 2.6763485477178426,
	"grad_norm": 1.7026387453079224,
	"learning_rate": 3.0153689607045845e-06,
	"loss": 0.1294,
	"step": 322
	},
	{
	"epoch": 2.6846473029045645,
	"grad_norm": 2.17067813873291,
	"learning_rate": 2.864191991520848e-06,
	"loss": 0.0188,
	"step": 323
	},
	{
	"epoch": 2.6929460580912865,
	"grad_norm": 0.5803589820861816,
	"learning_rate": 2.71679103610738e-06,
	"loss": 0.0468,
	"step": 324
	},
	{
	"epoch": 2.7012448132780085,
	"grad_norm": 2.2889926433563232,
	"learning_rate": 2.573177902642726e-06,
	"loss": 0.1123,
	"step": 325
	},
	{
	"epoch": 2.7095435684647304,
	"grad_norm": 1.7318047285079956,
	"learning_rate": 2.4333640958659143e-06,
	"loss": 0.027,
	"step": 326
	},
	{
	"epoch": 2.7178423236514524,
	"grad_norm": 2.7389817237854004,
	"learning_rate": 2.2973608161547753e-06,
	"loss": 0.08,
	"step": 327
	},
	{
	"epoch": 2.7261410788381744,
	"grad_norm": 1.5119000673294067,
	"learning_rate": 2.1651789586287442e-06,
	"loss": 0.1249,
	"step": 328
	},
	{
	"epoch": 2.7344398340248963,
	"grad_norm": 0.7453382015228271,
	"learning_rate": 2.03682911227599e-06,
	"loss": 0.0185,
	"step": 329
	},
	{
	"epoch": 2.7427385892116183,
	"grad_norm": 1.6104263067245483,
	"learning_rate": 1.9123215591052013e-06,
	"loss": 0.0319,
	"step": 330
	},
	{
	"epoch": 2.7510373443983402,
	"grad_norm": 2.6384763717651367,
	"learning_rate": 1.7916662733218847e-06,
	"loss": 0.1004,
	"step": 331
	},
	{
	"epoch": 2.759336099585062,
	"grad_norm": 4.27977180480957,
	"learning_rate": 1.6748729205293023e-06,
	"loss": 0.1176,
	"step": 332
	},
	{
	"epoch": 2.767634854771784,
	"grad_norm": 2.4761962890625,
	"learning_rate": 1.5619508569542363e-06,
	"loss": 0.0396,
	"step": 333
	},
	{
	"epoch": 2.775933609958506,
	"grad_norm": 2.1308181285858154,
	"learning_rate": 1.4529091286973995e-06,
	"loss": 0.0385,
	"step": 334
	},
	{
	"epoch": 2.784232365145228,
	"grad_norm": 1.79630446434021,
	"learning_rate": 1.3477564710088098e-06,
	"loss": 0.0193,
	"step": 335
	},
	{
	"epoch": 2.79253112033195,
	"grad_norm": 6.298658847808838,
	"learning_rate": 1.2465013075879883e-06,
	"loss": 0.0399,
	"step": 336
	},
	{
	"epoch": 2.800829875518672,
	"grad_norm": 1.5001986026763916,
	"learning_rate": 1.1491517499091498e-06,
	"loss": 0.0225,
	"step": 337
	},
	{
	"epoch": 2.809128630705394,
	"grad_norm": 1.3318809270858765,
	"learning_rate": 1.055715596571405e-06,
	"loss": 0.0212,
	"step": 338
	},
	{
	"epoch": 2.817427385892116,
	"grad_norm": 0.8632059693336487,
	"learning_rate": 9.662003326740166e-07,
	"loss": 0.0136,
	"step": 339
	},
	{
	"epoch": 2.825726141078838,
	"grad_norm": 2.7577383518218994,
	"learning_rate": 8.806131292167618e-07,
	"loss": 0.068,
	"step": 340
	},
	{
	"epoch": 2.8340248962655603,
	"grad_norm": 1.1640796661376953,
	"learning_rate": 7.989608425254924e-07,
	"loss": 0.0268,
	"step": 341
	},
	{
	"epoch": 2.8423236514522823,
	"grad_norm": 2.3888018131256104,
	"learning_rate": 7.212500137028788e-07,
	"loss": 0.0754,
	"step": 342
	},
	{
	"epoch": 2.8506224066390042,
	"grad_norm": 3.372357130050659,
	"learning_rate": 6.474868681043578e-07,
	"loss": 0.1583,
	"step": 343
	},
	{
	"epoch": 2.858921161825726,
	"grad_norm": 0.9823101162910461,
	"learning_rate": 5.776773148394976e-07,
	"loss": 0.0163,
	"step": 344
	},
	{
	"epoch": 2.867219917012448,
	"grad_norm": 1.4585671424865723,
	"learning_rate": 5.118269462985714e-07,
	"loss": 0.0248,
	"step": 345
	},
	{
	"epoch": 2.87551867219917,
	"grad_norm": 2.173081636428833,
	"learning_rate": 4.4994103770457653e-07,
	"loss": 0.0443,
	"step": 346
	},
	{
	"epoch": 2.883817427385892,
	"grad_norm": 1.831309199333191,
	"learning_rate": 3.920245466906391e-07,
	"loss": 0.0713,
	"step": 347
	},
	{
	"epoch": 2.892116182572614,
	"grad_norm": 1.361579179763794,
	"learning_rate": 3.380821129028489e-07,
	"loss": 0.0208,
	"step": 348
	},
	{
	"epoch": 2.900414937759336,
	"grad_norm": 1.126133680343628,
	"learning_rate": 2.8811805762860576e-07,
	"loss": 0.01,
	"step": 349
	},
	{
	"epoch": 2.908713692946058,
	"grad_norm": 0.6526811122894287,
	"learning_rate": 2.421363834504087e-07,
	"loss": 0.0093,
	"step": 350
	},
	{
	"epoch": 2.908713692946058,
	"eval_loss": 0.32943063974380493,
	"eval_runtime": 7.1396,
	"eval_samples_per_second": 28.433,
	"eval_steps_per_second": 7.143,
	"step": 350
	}
	],
	"logging_steps": 1,
	"max_steps": 361,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 4,
	"save_steps": 50,
	"stateful_callbacks": {
	"EarlyStoppingCallback": {
	"args": {
	"early_stopping_patience": 5,
	"early_stopping_threshold": 0.0
	},
	"attributes": {
	"early_stopping_patience_counter": 0
	}
	},
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 1.390780807643136e+17,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}