Training in progress, step 500, checkpoint

7ed5bfb verified about 1 month ago

32.2 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.4144271570014144,
	"eval_steps": 42,
	"global_step": 500,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.002828854314002829,
	"eval_loss": 11.916790962219238,
	"eval_runtime": 6.6784,
	"eval_samples_per_second": 89.243,
	"eval_steps_per_second": 11.23,
	"step": 1
	},
	{
	"epoch": 0.008486562942008486,
	"grad_norm": 0.5188692212104797,
	"learning_rate": 3e-05,
	"loss": 11.92,
	"step": 3
	},
	{
	"epoch": 0.016973125884016973,
	"grad_norm": 0.48136115074157715,
	"learning_rate": 6e-05,
	"loss": 11.9198,
	"step": 6
	},
	{
	"epoch": 0.02545968882602546,
	"grad_norm": 0.5018041729927063,
	"learning_rate": 9e-05,
	"loss": 11.9077,
	"step": 9
	},
	{
	"epoch": 0.033946251768033946,
	"grad_norm": 0.6158789992332458,
	"learning_rate": 9.999588943391597e-05,
	"loss": 11.9074,
	"step": 12
	},
	{
	"epoch": 0.042432814710042434,
	"grad_norm": 0.6823853850364685,
	"learning_rate": 9.99743108100344e-05,
	"loss": 11.9042,
	"step": 15
	},
	{
	"epoch": 0.05091937765205092,
	"grad_norm": 0.8695465922355652,
	"learning_rate": 9.993424445916923e-05,
	"loss": 11.8991,
	"step": 18
	},
	{
	"epoch": 0.0594059405940594,
	"grad_norm": 0.9028195142745972,
	"learning_rate": 9.987570520365104e-05,
	"loss": 11.8853,
	"step": 21
	},
	{
	"epoch": 0.06789250353606789,
	"grad_norm": 0.9360626935958862,
	"learning_rate": 9.979871469976196e-05,
	"loss": 11.8781,
	"step": 24
	},
	{
	"epoch": 0.07637906647807638,
	"grad_norm": 0.8196120858192444,
	"learning_rate": 9.970330142972401e-05,
	"loss": 11.8677,
	"step": 27
	},
	{
	"epoch": 0.08486562942008487,
	"grad_norm": 0.7162870168685913,
	"learning_rate": 9.95895006911623e-05,
	"loss": 11.8614,
	"step": 30
	},
	{
	"epoch": 0.09335219236209336,
	"grad_norm": 0.5132609605789185,
	"learning_rate": 9.945735458404681e-05,
	"loss": 11.8498,
	"step": 33
	},
	{
	"epoch": 0.10183875530410184,
	"grad_norm": 0.4584226608276367,
	"learning_rate": 9.930691199511775e-05,
	"loss": 11.8467,
	"step": 36
	},
	{
	"epoch": 0.11032531824611033,
	"grad_norm": 0.29786884784698486,
	"learning_rate": 9.91382285798002e-05,
	"loss": 11.8511,
	"step": 39
	},
	{
	"epoch": 0.1188118811881188,
	"grad_norm": 0.2889010012149811,
	"learning_rate": 9.895136674161465e-05,
	"loss": 11.8408,
	"step": 42
	},
	{
	"epoch": 0.1188118811881188,
	"eval_loss": 11.839421272277832,
	"eval_runtime": 6.332,
	"eval_samples_per_second": 94.125,
	"eval_steps_per_second": 11.845,
	"step": 42
	},
	{
	"epoch": 0.1272984441301273,
	"grad_norm": 0.20692946016788483,
	"learning_rate": 9.874639560909117e-05,
	"loss": 11.8396,
	"step": 45
	},
	{
	"epoch": 0.13578500707213578,
	"grad_norm": 0.23685254156589508,
	"learning_rate": 9.852339101019574e-05,
	"loss": 11.8316,
	"step": 48
	},
	{
	"epoch": 0.14427157001414428,
	"grad_norm": 0.2432631552219391,
	"learning_rate": 9.828243544427796e-05,
	"loss": 11.8341,
	"step": 51
	},
	{
	"epoch": 0.15275813295615276,
	"grad_norm": 0.11745542287826538,
	"learning_rate": 9.802361805155097e-05,
	"loss": 11.8301,
	"step": 54
	},
	{
	"epoch": 0.16124469589816123,
	"grad_norm": 0.134097158908844,
	"learning_rate": 9.774703458011453e-05,
	"loss": 11.8359,
	"step": 57
	},
	{
	"epoch": 0.16973125884016974,
	"grad_norm": 0.19680051505565643,
	"learning_rate": 9.745278735053343e-05,
	"loss": 11.8378,
	"step": 60
	},
	{
	"epoch": 0.1782178217821782,
	"grad_norm": 0.10566498339176178,
	"learning_rate": 9.714098521798465e-05,
	"loss": 11.832,
	"step": 63
	},
	{
	"epoch": 0.1867043847241867,
	"grad_norm": 0.1530551165342331,
	"learning_rate": 9.681174353198687e-05,
	"loss": 11.8363,
	"step": 66
	},
	{
	"epoch": 0.19519094766619519,
	"grad_norm": 0.1929464042186737,
	"learning_rate": 9.64651840937276e-05,
	"loss": 11.8284,
	"step": 69
	},
	{
	"epoch": 0.2036775106082037,
	"grad_norm": 0.17411480844020844,
	"learning_rate": 9.610143511100354e-05,
	"loss": 11.8314,
	"step": 72
	},
	{
	"epoch": 0.21216407355021216,
	"grad_norm": 0.14971987903118134,
	"learning_rate": 9.572063115079063e-05,
	"loss": 11.832,
	"step": 75
	},
	{
	"epoch": 0.22065063649222066,
	"grad_norm": 0.18370923399925232,
	"learning_rate": 9.53229130894619e-05,
	"loss": 11.8275,
	"step": 78
	},
	{
	"epoch": 0.22913719943422914,
	"grad_norm": 0.26103201508522034,
	"learning_rate": 9.490842806067095e-05,
	"loss": 11.8278,
	"step": 81
	},
	{
	"epoch": 0.2376237623762376,
	"grad_norm": 0.21483545005321503,
	"learning_rate": 9.44773294009206e-05,
	"loss": 11.825,
	"step": 84
	},
	{
	"epoch": 0.2376237623762376,
	"eval_loss": 11.825268745422363,
	"eval_runtime": 6.402,
	"eval_samples_per_second": 93.097,
	"eval_steps_per_second": 11.715,
	"step": 84
	},
	{
	"epoch": 0.24611032531824611,
	"grad_norm": 0.28861185908317566,
	"learning_rate": 9.40297765928369e-05,
	"loss": 11.8219,
	"step": 87
	},
	{
	"epoch": 0.2545968882602546,
	"grad_norm": 0.13039568066596985,
	"learning_rate": 9.356593520616948e-05,
	"loss": 11.8245,
	"step": 90
	},
	{
	"epoch": 0.26308345120226306,
	"grad_norm": 0.1711033284664154,
	"learning_rate": 9.308597683653975e-05,
	"loss": 11.8246,
	"step": 93
	},
	{
	"epoch": 0.27157001414427157,
	"grad_norm": 0.2108013778924942,
	"learning_rate": 9.259007904196023e-05,
	"loss": 11.8228,
	"step": 96
	},
	{
	"epoch": 0.28005657708628007,
	"grad_norm": 0.1204076036810875,
	"learning_rate": 9.207842527714767e-05,
	"loss": 11.82,
	"step": 99
	},
	{
	"epoch": 0.28854314002828857,
	"grad_norm": 0.1477670669555664,
	"learning_rate": 9.155120482565521e-05,
	"loss": 11.8189,
	"step": 102
	},
	{
	"epoch": 0.297029702970297,
	"grad_norm": 0.10705884546041489,
	"learning_rate": 9.10086127298478e-05,
	"loss": 11.8169,
	"step": 105
	},
	{
	"epoch": 0.3055162659123055,
	"grad_norm": 0.29956066608428955,
	"learning_rate": 9.045084971874738e-05,
	"loss": 11.8205,
	"step": 108
	},
	{
	"epoch": 0.314002828854314,
	"grad_norm": 0.13027921319007874,
	"learning_rate": 8.987812213377424e-05,
	"loss": 11.8168,
	"step": 111
	},
	{
	"epoch": 0.32248939179632247,
	"grad_norm": 0.13590934872627258,
	"learning_rate": 8.929064185241213e-05,
	"loss": 11.819,
	"step": 114
	},
	{
	"epoch": 0.33097595473833097,
	"grad_norm": 0.09333682060241699,
	"learning_rate": 8.868862620982534e-05,
	"loss": 11.8267,
	"step": 117
	},
	{
	"epoch": 0.33946251768033947,
	"grad_norm": 0.12400602549314499,
	"learning_rate": 8.807229791845673e-05,
	"loss": 11.818,
	"step": 120
	},
	{
	"epoch": 0.347949080622348,
	"grad_norm": 0.12071343511343002,
	"learning_rate": 8.744188498563641e-05,
	"loss": 11.8166,
	"step": 123
	},
	{
	"epoch": 0.3564356435643564,
	"grad_norm": 0.1693616658449173,
	"learning_rate": 8.679762062923175e-05,
	"loss": 11.8183,
	"step": 126
	},
	{
	"epoch": 0.3564356435643564,
	"eval_loss": 11.819117546081543,
	"eval_runtime": 6.7651,
	"eval_samples_per_second": 88.1,
	"eval_steps_per_second": 11.086,
	"step": 126
	},
	{
	"epoch": 0.3649222065063649,
	"grad_norm": 0.17696824669837952,
	"learning_rate": 8.613974319136958e-05,
	"loss": 11.8171,
	"step": 129
	},
	{
	"epoch": 0.3734087694483734,
	"grad_norm": 0.11144156008958817,
	"learning_rate": 8.54684960502629e-05,
	"loss": 11.815,
	"step": 132
	},
	{
	"epoch": 0.38189533239038187,
	"grad_norm": 0.16119325160980225,
	"learning_rate": 8.478412753017433e-05,
	"loss": 11.8134,
	"step": 135
	},
	{
	"epoch": 0.39038189533239037,
	"grad_norm": 0.10234789550304413,
	"learning_rate": 8.408689080954998e-05,
	"loss": 11.8138,
	"step": 138
	},
	{
	"epoch": 0.3988684582743989,
	"grad_norm": 0.12111084908246994,
	"learning_rate": 8.33770438273574e-05,
	"loss": 11.8152,
	"step": 141
	},
	{
	"epoch": 0.4073550212164074,
	"grad_norm": 0.07516127824783325,
	"learning_rate": 8.265484918766243e-05,
	"loss": 11.8128,
	"step": 144
	},
	{
	"epoch": 0.4158415841584158,
	"grad_norm": 0.23707596957683563,
	"learning_rate": 8.192057406248028e-05,
	"loss": 11.8202,
	"step": 147
	},
	{
	"epoch": 0.4243281471004243,
	"grad_norm": 0.1228451356291771,
	"learning_rate": 8.117449009293668e-05,
	"loss": 11.8201,
	"step": 150
	},
	{
	"epoch": 0.4328147100424328,
	"grad_norm": 0.16358840465545654,
	"learning_rate": 8.041687328877567e-05,
	"loss": 11.8141,
	"step": 153
	},
	{
	"epoch": 0.44130127298444133,
	"grad_norm": 0.10192089527845383,
	"learning_rate": 7.964800392625129e-05,
	"loss": 11.8128,
	"step": 156
	},
	{
	"epoch": 0.4497878359264498,
	"grad_norm": 0.07679455727338791,
	"learning_rate": 7.886816644444098e-05,
	"loss": 11.8124,
	"step": 159
	},
	{
	"epoch": 0.4582743988684583,
	"grad_norm": 0.10075189918279648,
	"learning_rate": 7.807764934001874e-05,
	"loss": 11.8119,
	"step": 162
	},
	{
	"epoch": 0.4667609618104668,
	"grad_norm": 0.1872919499874115,
	"learning_rate": 7.727674506052743e-05,
	"loss": 11.8203,
	"step": 165
	},
	{
	"epoch": 0.4752475247524752,
	"grad_norm": 0.12166598439216614,
	"learning_rate": 7.646574989618938e-05,
	"loss": 11.8202,
	"step": 168
	},
	{
	"epoch": 0.4752475247524752,
	"eval_loss": 11.818514823913574,
	"eval_runtime": 6.4158,
	"eval_samples_per_second": 92.895,
	"eval_steps_per_second": 11.69,
	"step": 168
	},
	{
	"epoch": 0.4837340876944837,
	"grad_norm": 0.13749000430107117,
	"learning_rate": 7.564496387029532e-05,
	"loss": 11.8156,
	"step": 171
	},
	{
	"epoch": 0.49222065063649223,
	"grad_norm": 0.07802052795886993,
	"learning_rate": 7.481469062821252e-05,
	"loss": 11.8182,
	"step": 174
	},
	{
	"epoch": 0.5007072135785007,
	"grad_norm": 0.150814950466156,
	"learning_rate": 7.39752373250527e-05,
	"loss": 11.8179,
	"step": 177
	},
	{
	"epoch": 0.5091937765205092,
	"grad_norm": 0.1514790952205658,
	"learning_rate": 7.312691451204178e-05,
	"loss": 11.8099,
	"step": 180
	},
	{
	"epoch": 0.5176803394625177,
	"grad_norm": 0.13362684845924377,
	"learning_rate": 7.227003602163295e-05,
	"loss": 11.8172,
	"step": 183
	},
	{
	"epoch": 0.5261669024045261,
	"grad_norm": 0.09337490051984787,
	"learning_rate": 7.14049188514063e-05,
	"loss": 11.8184,
	"step": 186
	},
	{
	"epoch": 0.5346534653465347,
	"grad_norm": 0.08015663921833038,
	"learning_rate": 7.05318830467969e-05,
	"loss": 11.8158,
	"step": 189
	},
	{
	"epoch": 0.5431400282885431,
	"grad_norm": 0.16405069828033447,
	"learning_rate": 6.965125158269619e-05,
	"loss": 11.816,
	"step": 192
	},
	{
	"epoch": 0.5516265912305516,
	"grad_norm": 0.14057497680187225,
	"learning_rate": 6.876335024396872e-05,
	"loss": 11.8147,
	"step": 195
	},
	{
	"epoch": 0.5601131541725601,
	"grad_norm": 0.1409187614917755,
	"learning_rate": 6.786850750493006e-05,
	"loss": 11.8157,
	"step": 198
	},
	{
	"epoch": 0.5685997171145686,
	"grad_norm": 0.1987845003604889,
	"learning_rate": 6.696705440782938e-05,
	"loss": 11.8185,
	"step": 201
	},
	{
	"epoch": 0.5770862800565771,
	"grad_norm": 0.10339465737342834,
	"learning_rate": 6.605932444038229e-05,
	"loss": 11.815,
	"step": 204
	},
	{
	"epoch": 0.5855728429985856,
	"grad_norm": 0.12926329672336578,
	"learning_rate": 6.514565341239861e-05,
	"loss": 11.818,
	"step": 207
	},
	{
	"epoch": 0.594059405940594,
	"grad_norm": 0.07949727028608322,
	"learning_rate": 6.422637933155162e-05,
	"loss": 11.8151,
	"step": 210
	},
	{
	"epoch": 0.594059405940594,
	"eval_loss": 11.818094253540039,
	"eval_runtime": 6.6444,
	"eval_samples_per_second": 89.7,
	"eval_steps_per_second": 11.288,
	"step": 210
	},
	{
	"epoch": 0.6025459688826026,
	"grad_norm": 0.18179267644882202,
	"learning_rate": 6.330184227833376e-05,
	"loss": 11.8178,
	"step": 213
	},
	{
	"epoch": 0.611032531824611,
	"grad_norm": 0.12221992760896683,
	"learning_rate": 6.237238428024572e-05,
	"loss": 11.8145,
	"step": 216
	},
	{
	"epoch": 0.6195190947666195,
	"grad_norm": 0.07228324562311172,
	"learning_rate": 6.143834918526527e-05,
	"loss": 11.8137,
	"step": 219
	},
	{
	"epoch": 0.628005657708628,
	"grad_norm": 0.11851081997156143,
	"learning_rate": 6.0500082534642464e-05,
	"loss": 11.8156,
	"step": 222
	},
	{
	"epoch": 0.6364922206506365,
	"grad_norm": 0.08459550887346268,
	"learning_rate": 5.955793143506863e-05,
	"loss": 11.8108,
	"step": 225
	},
	{
	"epoch": 0.6449787835926449,
	"grad_norm": 0.07968215644359589,
	"learning_rate": 5.861224443026595e-05,
	"loss": 11.8181,
	"step": 228
	},
	{
	"epoch": 0.6534653465346535,
	"grad_norm": 0.1503295600414276,
	"learning_rate": 5.766337137204579e-05,
	"loss": 11.8167,
	"step": 231
	},
	{
	"epoch": 0.6619519094766619,
	"grad_norm": 0.08652139455080032,
	"learning_rate": 5.6711663290882776e-05,
	"loss": 11.8122,
	"step": 234
	},
	{
	"epoch": 0.6704384724186704,
	"grad_norm": 0.08518210798501968,
	"learning_rate": 5.575747226605298e-05,
	"loss": 11.8164,
	"step": 237
	},
	{
	"epoch": 0.6789250353606789,
	"grad_norm": 0.12115988880395889,
	"learning_rate": 5.480115129538409e-05,
	"loss": 11.8114,
	"step": 240
	},
	{
	"epoch": 0.6874115983026874,
	"grad_norm": 0.13773323595523834,
	"learning_rate": 5.384305416466584e-05,
	"loss": 11.815,
	"step": 243
	},
	{
	"epoch": 0.695898161244696,
	"grad_norm": 0.10262436419725418,
	"learning_rate": 5.288353531676873e-05,
	"loss": 11.8163,
	"step": 246
	},
	{
	"epoch": 0.7043847241867044,
	"grad_norm": 0.12103616446256638,
	"learning_rate": 5.192294972051992e-05,
	"loss": 11.8176,
	"step": 249
	},
	{
	"epoch": 0.7128712871287128,
	"grad_norm": 0.09017164260149002,
	"learning_rate": 5.0961652739384356e-05,
	"loss": 11.8221,
	"step": 252
	},
	{
	"epoch": 0.7128712871287128,
	"eval_loss": 11.818002700805664,
	"eval_runtime": 6.3716,
	"eval_samples_per_second": 93.539,
	"eval_steps_per_second": 11.771,
	"step": 252
	},
	{
	"epoch": 0.7213578500707214,
	"grad_norm": 0.050791915506124496,
	"learning_rate": 5e-05,
	"loss": 11.8143,
	"step": 255
	},
	{
	"epoch": 0.7298444130127298,
	"grad_norm": 0.1059621125459671,
	"learning_rate": 4.903834726061565e-05,
	"loss": 11.8175,
	"step": 258
	},
	{
	"epoch": 0.7383309759547383,
	"grad_norm": 0.07910209894180298,
	"learning_rate": 4.807705027948008e-05,
	"loss": 11.8104,
	"step": 261
	},
	{
	"epoch": 0.7468175388967468,
	"grad_norm": 0.11326657980680466,
	"learning_rate": 4.711646468323129e-05,
	"loss": 11.8178,
	"step": 264
	},
	{
	"epoch": 0.7553041018387553,
	"grad_norm": 0.15818099677562714,
	"learning_rate": 4.6156945835334184e-05,
	"loss": 11.8152,
	"step": 267
	},
	{
	"epoch": 0.7637906647807637,
	"grad_norm": 0.08803381770849228,
	"learning_rate": 4.5198848704615914e-05,
	"loss": 11.8165,
	"step": 270
	},
	{
	"epoch": 0.7722772277227723,
	"grad_norm": 0.13214413821697235,
	"learning_rate": 4.424252773394704e-05,
	"loss": 11.8183,
	"step": 273
	},
	{
	"epoch": 0.7807637906647807,
	"grad_norm": 0.0714588537812233,
	"learning_rate": 4.328833670911724e-05,
	"loss": 11.8207,
	"step": 276
	},
	{
	"epoch": 0.7892503536067893,
	"grad_norm": 0.3612169325351715,
	"learning_rate": 4.23366286279542e-05,
	"loss": 11.81,
	"step": 279
	},
	{
	"epoch": 0.7977369165487977,
	"grad_norm": 0.10489798337221146,
	"learning_rate": 4.138775556973406e-05,
	"loss": 11.8155,
	"step": 282
	},
	{
	"epoch": 0.8062234794908062,
	"grad_norm": 0.07869977504014969,
	"learning_rate": 4.04420685649314e-05,
	"loss": 11.8183,
	"step": 285
	},
	{
	"epoch": 0.8147100424328148,
	"grad_norm": 0.1785990297794342,
	"learning_rate": 3.9499917465357534e-05,
	"loss": 11.8151,
	"step": 288
	},
	{
	"epoch": 0.8231966053748232,
	"grad_norm": 0.08096058666706085,
	"learning_rate": 3.856165081473474e-05,
	"loss": 11.8138,
	"step": 291
	},
	{
	"epoch": 0.8316831683168316,
	"grad_norm": 0.11269628256559372,
	"learning_rate": 3.762761571975429e-05,
	"loss": 11.8173,
	"step": 294
	},
	{
	"epoch": 0.8316831683168316,
	"eval_loss": 11.817937850952148,
	"eval_runtime": 6.604,
	"eval_samples_per_second": 90.248,
	"eval_steps_per_second": 11.357,
	"step": 294
	},
	{
	"epoch": 0.8401697312588402,
	"grad_norm": 0.11685353517532349,
	"learning_rate": 3.6698157721666246e-05,
	"loss": 11.8211,
	"step": 297
	},
	{
	"epoch": 0.8486562942008486,
	"grad_norm": 0.10467521101236343,
	"learning_rate": 3.5773620668448384e-05,
	"loss": 11.8131,
	"step": 300
	},
	{
	"epoch": 0.8571428571428571,
	"grad_norm": 0.08696059882640839,
	"learning_rate": 3.48543465876014e-05,
	"loss": 11.8151,
	"step": 303
	},
	{
	"epoch": 0.8656294200848657,
	"grad_norm": 0.21422286331653595,
	"learning_rate": 3.3940675559617724e-05,
	"loss": 11.817,
	"step": 306
	},
	{
	"epoch": 0.8741159830268741,
	"grad_norm": 0.09098684042692184,
	"learning_rate": 3.303294559217063e-05,
	"loss": 11.8177,
	"step": 309
	},
	{
	"epoch": 0.8826025459688827,
	"grad_norm": 0.11003749072551727,
	"learning_rate": 3.213149249506997e-05,
	"loss": 11.8127,
	"step": 312
	},
	{
	"epoch": 0.8910891089108911,
	"grad_norm": 0.10718018561601639,
	"learning_rate": 3.12366497560313e-05,
	"loss": 11.8152,
	"step": 315
	},
	{
	"epoch": 0.8995756718528995,
	"grad_norm": 0.058545950800180435,
	"learning_rate": 3.0348748417303823e-05,
	"loss": 11.8117,
	"step": 318
	},
	{
	"epoch": 0.9080622347949081,
	"grad_norm": 0.15917275846004486,
	"learning_rate": 2.9468116953203107e-05,
	"loss": 11.816,
	"step": 321
	},
	{
	"epoch": 0.9165487977369166,
	"grad_norm": 0.08903782814741135,
	"learning_rate": 2.8595081148593738e-05,
	"loss": 11.8119,
	"step": 324
	},
	{
	"epoch": 0.925035360678925,
	"grad_norm": 0.10488823056221008,
	"learning_rate": 2.772996397836704e-05,
	"loss": 11.8185,
	"step": 327
	},
	{
	"epoch": 0.9335219236209336,
	"grad_norm": 0.09897799789905548,
	"learning_rate": 2.687308548795825e-05,
	"loss": 11.8194,
	"step": 330
	},
	{
	"epoch": 0.942008486562942,
	"grad_norm": 0.10232014954090118,
	"learning_rate": 2.6024762674947313e-05,
	"loss": 11.8139,
	"step": 333
	},
	{
	"epoch": 0.9504950495049505,
	"grad_norm": 0.07098989188671112,
	"learning_rate": 2.5185309371787513e-05,
	"loss": 11.8159,
	"step": 336
	},
	{
	"epoch": 0.9504950495049505,
	"eval_loss": 11.817768096923828,
	"eval_runtime": 6.6321,
	"eval_samples_per_second": 89.866,
	"eval_steps_per_second": 11.309,
	"step": 336
	},
	{
	"epoch": 0.958981612446959,
	"grad_norm": 0.1141035333275795,
	"learning_rate": 2.43550361297047e-05,
	"loss": 11.8135,
	"step": 339
	},
	{
	"epoch": 0.9674681753889675,
	"grad_norm": 0.15841831266880035,
	"learning_rate": 2.353425010381063e-05,
	"loss": 11.8191,
	"step": 342
	},
	{
	"epoch": 0.9759547383309759,
	"grad_norm": 0.1034071147441864,
	"learning_rate": 2.272325493947257e-05,
	"loss": 11.8196,
	"step": 345
	},
	{
	"epoch": 0.9844413012729845,
	"grad_norm": 0.1345403790473938,
	"learning_rate": 2.192235065998126e-05,
	"loss": 11.8162,
	"step": 348
	},
	{
	"epoch": 0.9929278642149929,
	"grad_norm": 0.06921133399009705,
	"learning_rate": 2.1131833555559037e-05,
	"loss": 11.8178,
	"step": 351
	},
	{
	"epoch": 1.0014144271570014,
	"grad_norm": 0.22766686975955963,
	"learning_rate": 2.0351996073748713e-05,
	"loss": 13.7864,
	"step": 354
	},
	{
	"epoch": 1.00990099009901,
	"grad_norm": 0.15477143228054047,
	"learning_rate": 1.9583126711224343e-05,
	"loss": 11.817,
	"step": 357
	},
	{
	"epoch": 1.0183875530410185,
	"grad_norm": 0.23170539736747742,
	"learning_rate": 1.8825509907063327e-05,
	"loss": 11.8147,
	"step": 360
	},
	{
	"epoch": 1.0268741159830268,
	"grad_norm": 0.06929183006286621,
	"learning_rate": 1.807942593751973e-05,
	"loss": 11.8198,
	"step": 363
	},
	{
	"epoch": 1.0353606789250354,
	"grad_norm": 0.15376947820186615,
	"learning_rate": 1.7345150812337564e-05,
	"loss": 11.8151,
	"step": 366
	},
	{
	"epoch": 1.043847241867044,
	"grad_norm": 0.2093440443277359,
	"learning_rate": 1.66229561726426e-05,
	"loss": 11.8205,
	"step": 369
	},
	{
	"epoch": 1.0523338048090523,
	"grad_norm": 0.1123834103345871,
	"learning_rate": 1.5913109190450032e-05,
	"loss": 11.8159,
	"step": 372
	},
	{
	"epoch": 1.0608203677510608,
	"grad_norm": 0.22159625589847565,
	"learning_rate": 1.5215872469825682e-05,
	"loss": 11.8144,
	"step": 375
	},
	{
	"epoch": 1.0693069306930694,
	"grad_norm": 0.12495719641447067,
	"learning_rate": 1.4531503949737108e-05,
	"loss": 11.8175,
	"step": 378
	},
	{
	"epoch": 1.0693069306930694,
	"eval_loss": 11.817733764648438,
	"eval_runtime": 6.6332,
	"eval_samples_per_second": 89.851,
	"eval_steps_per_second": 11.307,
	"step": 378
	},
	{
	"epoch": 1.0777934936350777,
	"grad_norm": 0.12858428061008453,
	"learning_rate": 1.3860256808630428e-05,
	"loss": 11.8168,
	"step": 381
	},
	{
	"epoch": 1.0862800565770863,
	"grad_norm": 0.1034870445728302,
	"learning_rate": 1.3202379370768252e-05,
	"loss": 11.8184,
	"step": 384
	},
	{
	"epoch": 1.0947666195190948,
	"grad_norm": 0.19289083778858185,
	"learning_rate": 1.2558115014363592e-05,
	"loss": 11.8211,
	"step": 387
	},
	{
	"epoch": 1.1032531824611032,
	"grad_norm": 0.15419146418571472,
	"learning_rate": 1.1927702081543279e-05,
	"loss": 11.8142,
	"step": 390
	},
	{
	"epoch": 1.1117397454031117,
	"grad_norm": 0.15567056834697723,
	"learning_rate": 1.1311373790174657e-05,
	"loss": 11.8155,
	"step": 393
	},
	{
	"epoch": 1.1202263083451203,
	"grad_norm": 0.13290712237358093,
	"learning_rate": 1.0709358147587884e-05,
	"loss": 11.8208,
	"step": 396
	},
	{
	"epoch": 1.1287128712871288,
	"grad_norm": 0.09749293327331543,
	"learning_rate": 1.0121877866225781e-05,
	"loss": 11.8177,
	"step": 399
	},
	{
	"epoch": 1.1371994342291372,
	"grad_norm": 0.120842345058918,
	"learning_rate": 9.549150281252633e-06,
	"loss": 11.8156,
	"step": 402
	},
	{
	"epoch": 1.1456859971711457,
	"grad_norm": 0.09248703718185425,
	"learning_rate": 8.991387270152201e-06,
	"loss": 11.8186,
	"step": 405
	},
	{
	"epoch": 1.154172560113154,
	"grad_norm": 0.12557213008403778,
	"learning_rate": 8.448795174344804e-06,
	"loss": 11.8199,
	"step": 408
	},
	{
	"epoch": 1.1626591230551626,
	"grad_norm": 0.17817071080207825,
	"learning_rate": 7.921574722852343e-06,
	"loss": 11.8154,
	"step": 411
	},
	{
	"epoch": 1.1711456859971712,
	"grad_norm": 0.10258757323026657,
	"learning_rate": 7.409920958039795e-06,
	"loss": 11.8124,
	"step": 414
	},
	{
	"epoch": 1.1796322489391797,
	"grad_norm": 0.16313178837299347,
	"learning_rate": 6.9140231634602485e-06,
	"loss": 11.815,
	"step": 417
	},
	{
	"epoch": 1.188118811881188,
	"grad_norm": 0.10050709545612335,
	"learning_rate": 6.43406479383053e-06,
	"loss": 11.8149,
	"step": 420
	},
	{
	"epoch": 1.188118811881188,
	"eval_loss": 11.817734718322754,
	"eval_runtime": 6.4421,
	"eval_samples_per_second": 92.516,
	"eval_steps_per_second": 11.642,
	"step": 420
	},
	{
	"epoch": 1.1966053748231966,
	"grad_norm": 0.09405164420604706,
	"learning_rate": 5.9702234071631e-06,
	"loss": 11.8103,
	"step": 423
	},
	{
	"epoch": 1.2050919377652052,
	"grad_norm": 0.07892228662967682,
	"learning_rate": 5.5226705990794155e-06,
	"loss": 11.8166,
	"step": 426
	},
	{
	"epoch": 1.2135785007072135,
	"grad_norm": 0.09944994747638702,
	"learning_rate": 5.091571939329048e-06,
	"loss": 11.8157,
	"step": 429
	},
	{
	"epoch": 1.222065063649222,
	"grad_norm": 0.09870926290750504,
	"learning_rate": 4.677086910538092e-06,
	"loss": 11.8141,
	"step": 432
	},
	{
	"epoch": 1.2305516265912306,
	"grad_norm": 0.16009728610515594,
	"learning_rate": 4.279368849209381e-06,
	"loss": 11.8126,
	"step": 435
	},
	{
	"epoch": 1.239038189533239,
	"grad_norm": 0.10148247331380844,
	"learning_rate": 3.898564888996476e-06,
	"loss": 11.8173,
	"step": 438
	},
	{
	"epoch": 1.2475247524752475,
	"grad_norm": 0.057802699506282806,
	"learning_rate": 3.534815906272404e-06,
	"loss": 11.8136,
	"step": 441
	},
	{
	"epoch": 1.256011315417256,
	"grad_norm": 0.059853699058294296,
	"learning_rate": 3.18825646801314e-06,
	"loss": 11.8178,
	"step": 444
	},
	{
	"epoch": 1.2644978783592644,
	"grad_norm": 0.11142271012067795,
	"learning_rate": 2.8590147820153513e-06,
	"loss": 11.8121,
	"step": 447
	},
	{
	"epoch": 1.272984441301273,
	"grad_norm": 0.12580835819244385,
	"learning_rate": 2.547212649466568e-06,
	"loss": 11.8092,
	"step": 450
	},
	{
	"epoch": 1.2814710042432815,
	"grad_norm": 0.09984395653009415,
	"learning_rate": 2.2529654198854835e-06,
	"loss": 11.8177,
	"step": 453
	},
	{
	"epoch": 1.28995756718529,
	"grad_norm": 0.06916932761669159,
	"learning_rate": 1.9763819484490355e-06,
	"loss": 11.8155,
	"step": 456
	},
	{
	"epoch": 1.2984441301272984,
	"grad_norm": 0.15921108424663544,
	"learning_rate": 1.7175645557220566e-06,
	"loss": 11.813,
	"step": 459
	},
	{
	"epoch": 1.306930693069307,
	"grad_norm": 0.08516174554824829,
	"learning_rate": 1.4766089898042678e-06,
	"loss": 11.81,
	"step": 462
	},
	{
	"epoch": 1.306930693069307,
	"eval_loss": 11.817733764648438,
	"eval_runtime": 6.4426,
	"eval_samples_per_second": 92.509,
	"eval_steps_per_second": 11.641,
	"step": 462
	},
	{
	"epoch": 1.3154172560113153,
	"grad_norm": 0.09070340543985367,
	"learning_rate": 1.2536043909088191e-06,
	"loss": 11.8145,
	"step": 465
	},
	{
	"epoch": 1.3239038189533239,
	"grad_norm": 0.0519736111164093,
	"learning_rate": 1.0486332583853563e-06,
	"loss": 11.8139,
	"step": 468
	},
	{
	"epoch": 1.3323903818953324,
	"grad_norm": 0.09727457165718079,
	"learning_rate": 8.617714201998084e-07,
	"loss": 11.8145,
	"step": 471
	},
	{
	"epoch": 1.340876944837341,
	"grad_norm": 0.0795770063996315,
	"learning_rate": 6.93088004882253e-07,
	"loss": 11.8154,
	"step": 474
	},
	{
	"epoch": 1.3493635077793493,
	"grad_norm": 0.09474173188209534,
	"learning_rate": 5.426454159531913e-07,
	"loss": 11.8169,
	"step": 477
	},
	{
	"epoch": 1.3578500707213579,
	"grad_norm": 0.13217829167842865,
	"learning_rate": 4.104993088376974e-07,
	"loss": 11.8165,
	"step": 480
	},
	{
	"epoch": 1.3663366336633662,
	"grad_norm": 0.11465727537870407,
	"learning_rate": 2.966985702759828e-07,
	"loss": 11.8173,
	"step": 483
	},
	{
	"epoch": 1.3748231966053748,
	"grad_norm": 0.12922833859920502,
	"learning_rate": 2.012853002380466e-07,
	"loss": 11.8154,
	"step": 486
	},
	{
	"epoch": 1.3833097595473833,
	"grad_norm": 0.05712132155895233,
	"learning_rate": 1.2429479634897267e-07,
	"loss": 11.814,
	"step": 489
	},
	{
	"epoch": 1.391796322489392,
	"grad_norm": 0.09231238812208176,
	"learning_rate": 6.575554083078084e-08,
	"loss": 11.8135,
	"step": 492
	},
	{
	"epoch": 1.4002828854314002,
	"grad_norm": 0.08613143861293793,
	"learning_rate": 2.568918996560532e-08,
	"loss": 11.819,
	"step": 495
	},
	{
	"epoch": 1.4087694483734088,
	"grad_norm": 0.11459596455097198,
	"learning_rate": 4.110566084036816e-09,
	"loss": 11.8119,
	"step": 498
	}
	],
	"logging_steps": 3,
	"max_steps": 500,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 42,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 3067553218560.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}