Model save

df90a4e verified 11 days ago

29.4 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 2.0,
	"eval_steps": 500,
	"global_step": 808,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0024752475247524753,
	"grad_norm": 38.88609991114745,
	"learning_rate": 2.469135802469136e-07,
	"loss": 1.8604,
	"step": 1
	},
	{
	"epoch": 0.012376237623762377,
	"grad_norm": 41.27939914036261,
	"learning_rate": 1.234567901234568e-06,
	"loss": 1.8561,
	"step": 5
	},
	{
	"epoch": 0.024752475247524754,
	"grad_norm": 5.095317934955837,
	"learning_rate": 2.469135802469136e-06,
	"loss": 1.6195,
	"step": 10
	},
	{
	"epoch": 0.03712871287128713,
	"grad_norm": 2.761116338631256,
	"learning_rate": 3.7037037037037037e-06,
	"loss": 1.3811,
	"step": 15
	},
	{
	"epoch": 0.04950495049504951,
	"grad_norm": 1.6927067748367093,
	"learning_rate": 4.938271604938272e-06,
	"loss": 1.1736,
	"step": 20
	},
	{
	"epoch": 0.06188118811881188,
	"grad_norm": 1.637997489475765,
	"learning_rate": 6.17283950617284e-06,
	"loss": 1.0247,
	"step": 25
	},
	{
	"epoch": 0.07425742574257425,
	"grad_norm": 0.9921453622709451,
	"learning_rate": 7.4074074074074075e-06,
	"loss": 1.0275,
	"step": 30
	},
	{
	"epoch": 0.08663366336633663,
	"grad_norm": 0.9409275181475548,
	"learning_rate": 8.641975308641975e-06,
	"loss": 0.9832,
	"step": 35
	},
	{
	"epoch": 0.09900990099009901,
	"grad_norm": 1.0325275844641013,
	"learning_rate": 9.876543209876543e-06,
	"loss": 0.9685,
	"step": 40
	},
	{
	"epoch": 0.11138613861386139,
	"grad_norm": 1.1218773632200145,
	"learning_rate": 1.1111111111111113e-05,
	"loss": 0.9528,
	"step": 45
	},
	{
	"epoch": 0.12376237623762376,
	"grad_norm": 0.9572180193224005,
	"learning_rate": 1.234567901234568e-05,
	"loss": 0.9201,
	"step": 50
	},
	{
	"epoch": 0.13613861386138615,
	"grad_norm": 1.0009650827934435,
	"learning_rate": 1.3580246913580248e-05,
	"loss": 0.9542,
	"step": 55
	},
	{
	"epoch": 0.1485148514851485,
	"grad_norm": 1.3065165374147407,
	"learning_rate": 1.4814814814814815e-05,
	"loss": 0.9437,
	"step": 60
	},
	{
	"epoch": 0.1608910891089109,
	"grad_norm": 1.0022123167697776,
	"learning_rate": 1.6049382716049385e-05,
	"loss": 0.9228,
	"step": 65
	},
	{
	"epoch": 0.17326732673267325,
	"grad_norm": 1.2184130543835685,
	"learning_rate": 1.728395061728395e-05,
	"loss": 0.9772,
	"step": 70
	},
	{
	"epoch": 0.18564356435643564,
	"grad_norm": 0.9408942641640691,
	"learning_rate": 1.851851851851852e-05,
	"loss": 0.9284,
	"step": 75
	},
	{
	"epoch": 0.19801980198019803,
	"grad_norm": 0.9712584145776969,
	"learning_rate": 1.9753086419753087e-05,
	"loss": 0.9484,
	"step": 80
	},
	{
	"epoch": 0.2103960396039604,
	"grad_norm": 0.9980192527761912,
	"learning_rate": 1.999850613931615e-05,
	"loss": 0.9536,
	"step": 85
	},
	{
	"epoch": 0.22277227722772278,
	"grad_norm": 0.9890748697192007,
	"learning_rate": 1.9992438095219886e-05,
	"loss": 0.9539,
	"step": 90
	},
	{
	"epoch": 0.23514851485148514,
	"grad_norm": 0.9155960993755162,
	"learning_rate": 1.9981705331953295e-05,
	"loss": 0.936,
	"step": 95
	},
	{
	"epoch": 0.24752475247524752,
	"grad_norm": 0.8051611539712368,
	"learning_rate": 1.996631285983779e-05,
	"loss": 0.9456,
	"step": 100
	},
	{
	"epoch": 0.2599009900990099,
	"grad_norm": 0.9230091255662991,
	"learning_rate": 1.9946267864463027e-05,
	"loss": 0.9136,
	"step": 105
	},
	{
	"epoch": 0.2722772277227723,
	"grad_norm": 0.8382334460112006,
	"learning_rate": 1.9921579703332475e-05,
	"loss": 0.93,
	"step": 110
	},
	{
	"epoch": 0.28465346534653463,
	"grad_norm": 0.8774240428827245,
	"learning_rate": 1.989225990149512e-05,
	"loss": 0.9245,
	"step": 115
	},
	{
	"epoch": 0.297029702970297,
	"grad_norm": 0.8987251464829349,
	"learning_rate": 1.9858322146165272e-05,
	"loss": 0.9341,
	"step": 120
	},
	{
	"epoch": 0.3094059405940594,
	"grad_norm": 0.9049306018652525,
	"learning_rate": 1.981978228033304e-05,
	"loss": 0.9257,
	"step": 125
	},
	{
	"epoch": 0.3217821782178218,
	"grad_norm": 0.9029524926074908,
	"learning_rate": 1.977665829536842e-05,
	"loss": 0.916,
	"step": 130
	},
	{
	"epoch": 0.3341584158415842,
	"grad_norm": 0.8591727043131795,
	"learning_rate": 1.9728970322622485e-05,
	"loss": 0.9168,
	"step": 135
	},
	{
	"epoch": 0.3465346534653465,
	"grad_norm": 0.8712548282993846,
	"learning_rate": 1.9676740624029566e-05,
	"loss": 0.9347,
	"step": 140
	},
	{
	"epoch": 0.3589108910891089,
	"grad_norm": 0.8442378198048982,
	"learning_rate": 1.961999358171482e-05,
	"loss": 0.9286,
	"step": 145
	},
	{
	"epoch": 0.3712871287128713,
	"grad_norm": 0.8448891617644472,
	"learning_rate": 1.955875568661206e-05,
	"loss": 0.9247,
	"step": 150
	},
	{
	"epoch": 0.38366336633663367,
	"grad_norm": 0.8506188708401377,
	"learning_rate": 1.94930555260971e-05,
	"loss": 0.9089,
	"step": 155
	},
	{
	"epoch": 0.39603960396039606,
	"grad_norm": 0.7615649650166222,
	"learning_rate": 1.9422923770642494e-05,
	"loss": 0.9121,
	"step": 160
	},
	{
	"epoch": 0.4084158415841584,
	"grad_norm": 0.8438076926475072,
	"learning_rate": 1.934839315949976e-05,
	"loss": 0.9133,
	"step": 165
	},
	{
	"epoch": 0.4207920792079208,
	"grad_norm": 0.9246754527016784,
	"learning_rate": 1.9269498485415897e-05,
	"loss": 0.9298,
	"step": 170
	},
	{
	"epoch": 0.43316831683168316,
	"grad_norm": 0.9627433039386685,
	"learning_rate": 1.9186276578391268e-05,
	"loss": 0.9421,
	"step": 175
	},
	{
	"epoch": 0.44554455445544555,
	"grad_norm": 0.8087976752191404,
	"learning_rate": 1.9098766288486426e-05,
	"loss": 0.9261,
	"step": 180
	},
	{
	"epoch": 0.45792079207920794,
	"grad_norm": 0.774521835464554,
	"learning_rate": 1.9007008467685947e-05,
	"loss": 0.9328,
	"step": 185
	},
	{
	"epoch": 0.47029702970297027,
	"grad_norm": 0.7725284205468596,
	"learning_rate": 1.8911045950827693e-05,
	"loss": 0.9093,
	"step": 190
	},
	{
	"epoch": 0.48267326732673266,
	"grad_norm": 0.8054030551821266,
	"learning_rate": 1.881092353560646e-05,
	"loss": 0.9013,
	"step": 195
	},
	{
	"epoch": 0.49504950495049505,
	"grad_norm": 0.7758400337225813,
	"learning_rate": 1.870668796166129e-05,
	"loss": 0.9142,
	"step": 200
	},
	{
	"epoch": 0.5074257425742574,
	"grad_norm": 0.8158556574805117,
	"learning_rate": 1.8598387888756224e-05,
	"loss": 0.9222,
	"step": 205
	},
	{
	"epoch": 0.5198019801980198,
	"grad_norm": 0.7595417385088049,
	"learning_rate": 1.8486073874064745e-05,
	"loss": 0.9061,
	"step": 210
	},
	{
	"epoch": 0.5321782178217822,
	"grad_norm": 0.7472799231884507,
	"learning_rate": 1.8369798348568403e-05,
	"loss": 0.9083,
	"step": 215
	},
	{
	"epoch": 0.5445544554455446,
	"grad_norm": 0.7606289538163604,
	"learning_rate": 1.8249615592580733e-05,
	"loss": 0.9328,
	"step": 220
	},
	{
	"epoch": 0.556930693069307,
	"grad_norm": 0.805186253739664,
	"learning_rate": 1.8125581710407864e-05,
	"loss": 0.9138,
	"step": 225
	},
	{
	"epoch": 0.5693069306930693,
	"grad_norm": 0.767139039892534,
	"learning_rate": 1.7997754604157607e-05,
	"loss": 0.9075,
	"step": 230
	},
	{
	"epoch": 0.5816831683168316,
	"grad_norm": 0.7674924368854081,
	"learning_rate": 1.786619394670933e-05,
	"loss": 0.9094,
	"step": 235
	},
	{
	"epoch": 0.594059405940594,
	"grad_norm": 0.7416157345263308,
	"learning_rate": 1.7730961153857155e-05,
	"loss": 0.9146,
	"step": 240
	},
	{
	"epoch": 0.6064356435643564,
	"grad_norm": 0.7972512834290945,
	"learning_rate": 1.7592119355639545e-05,
	"loss": 0.8986,
	"step": 245
	},
	{
	"epoch": 0.6188118811881188,
	"grad_norm": 0.7413943937305464,
	"learning_rate": 1.744973336686862e-05,
	"loss": 0.9261,
	"step": 250
	},
	{
	"epoch": 0.6311881188118812,
	"grad_norm": 0.7288799636758897,
	"learning_rate": 1.7303869656872994e-05,
	"loss": 0.9004,
	"step": 255
	},
	{
	"epoch": 0.6435643564356436,
	"grad_norm": 0.7554557666231643,
	"learning_rate": 1.715459631846824e-05,
	"loss": 0.9097,
	"step": 260
	},
	{
	"epoch": 0.655940594059406,
	"grad_norm": 0.7267320540898269,
	"learning_rate": 1.700198303616944e-05,
	"loss": 0.902,
	"step": 265
	},
	{
	"epoch": 0.6683168316831684,
	"grad_norm": 0.6823040717527771,
	"learning_rate": 1.684610105366076e-05,
	"loss": 0.8913,
	"step": 270
	},
	{
	"epoch": 0.6806930693069307,
	"grad_norm": 0.6787438356187852,
	"learning_rate": 1.6687023140537082e-05,
	"loss": 0.882,
	"step": 275
	},
	{
	"epoch": 0.693069306930693,
	"grad_norm": 0.7420049831517054,
	"learning_rate": 1.6524823558333362e-05,
	"loss": 0.8985,
	"step": 280
	},
	{
	"epoch": 0.7054455445544554,
	"grad_norm": 0.7627405635266166,
	"learning_rate": 1.6359578025857495e-05,
	"loss": 0.8836,
	"step": 285
	},
	{
	"epoch": 0.7178217821782178,
	"grad_norm": 0.8778998231303615,
	"learning_rate": 1.6191363683842883e-05,
	"loss": 0.8871,
	"step": 290
	},
	{
	"epoch": 0.7301980198019802,
	"grad_norm": 0.8167069067691852,
	"learning_rate": 1.6020259058937228e-05,
	"loss": 0.8866,
	"step": 295
	},
	{
	"epoch": 0.7425742574257426,
	"grad_norm": 0.7980390861743758,
	"learning_rate": 1.5846344027044307e-05,
	"loss": 0.9047,
	"step": 300
	},
	{
	"epoch": 0.754950495049505,
	"grad_norm": 0.7563819762216695,
	"learning_rate": 1.5669699776035958e-05,
	"loss": 0.921,
	"step": 305
	},
	{
	"epoch": 0.7673267326732673,
	"grad_norm": 0.7797762078681911,
	"learning_rate": 1.5490408767851506e-05,
	"loss": 0.8869,
	"step": 310
	},
	{
	"epoch": 0.7797029702970297,
	"grad_norm": 0.7666252485199382,
	"learning_rate": 1.530855470000251e-05,
	"loss": 0.9151,
	"step": 315
	},
	{
	"epoch": 0.7920792079207921,
	"grad_norm": 0.7051563046414802,
	"learning_rate": 1.5124222466500665e-05,
	"loss": 0.9024,
	"step": 320
	},
	{
	"epoch": 0.8044554455445545,
	"grad_norm": 0.7203691895762679,
	"learning_rate": 1.4937498118227156e-05,
	"loss": 0.9098,
	"step": 325
	},
	{
	"epoch": 0.8168316831683168,
	"grad_norm": 0.7125293698622911,
	"learning_rate": 1.4748468822761974e-05,
	"loss": 0.9076,
	"step": 330
	},
	{
	"epoch": 0.8292079207920792,
	"grad_norm": 0.7428102709759479,
	"learning_rate": 1.4557222823691913e-05,
	"loss": 0.9082,
	"step": 335
	},
	{
	"epoch": 0.8415841584158416,
	"grad_norm": 0.7230219909417678,
	"learning_rate": 1.4363849399416254e-05,
	"loss": 0.9004,
	"step": 340
	},
	{
	"epoch": 0.8539603960396039,
	"grad_norm": 0.788928114591889,
	"learning_rate": 1.4168438821469402e-05,
	"loss": 0.8845,
	"step": 345
	},
	{
	"epoch": 0.8663366336633663,
	"grad_norm": 0.7456926963995498,
	"learning_rate": 1.3971082312379864e-05,
	"loss": 0.9013,
	"step": 350
	},
	{
	"epoch": 0.8787128712871287,
	"grad_norm": 0.7757067249831519,
	"learning_rate": 1.3771872003085315e-05,
	"loss": 0.8913,
	"step": 355
	},
	{
	"epoch": 0.8910891089108911,
	"grad_norm": 0.7040237849520753,
	"learning_rate": 1.3570900889923566e-05,
	"loss": 0.9178,
	"step": 360
	},
	{
	"epoch": 0.9034653465346535,
	"grad_norm": 0.7028463213970978,
	"learning_rate": 1.3368262791219568e-05,
	"loss": 0.8864,
	"step": 365
	},
	{
	"epoch": 0.9158415841584159,
	"grad_norm": 0.6865489126472716,
	"learning_rate": 1.3164052303488673e-05,
	"loss": 0.8958,
	"step": 370
	},
	{
	"epoch": 0.9282178217821783,
	"grad_norm": 0.7124826316517546,
	"learning_rate": 1.2958364757276616e-05,
	"loss": 0.8927,
	"step": 375
	},
	{
	"epoch": 0.9405940594059405,
	"grad_norm": 0.71875227320249,
	"learning_rate": 1.2751296172656862e-05,
	"loss": 0.897,
	"step": 380
	},
	{
	"epoch": 0.9529702970297029,
	"grad_norm": 0.7298632107047348,
	"learning_rate": 1.2542943214406012e-05,
	"loss": 0.9051,
	"step": 385
	},
	{
	"epoch": 0.9653465346534653,
	"grad_norm": 0.6885898822393058,
	"learning_rate": 1.23334031468783e-05,
	"loss": 0.8546,
	"step": 390
	},
	{
	"epoch": 0.9777227722772277,
	"grad_norm": 0.7078778884772863,
	"learning_rate": 1.2122773788600164e-05,
	"loss": 0.9019,
	"step": 395
	},
	{
	"epoch": 0.9900990099009901,
	"grad_norm": 0.7533302944336393,
	"learning_rate": 1.1911153466606105e-05,
	"loss": 0.895,
	"step": 400
	},
	{
	"epoch": 1.0,
	"eval_loss": 1.06302809715271,
	"eval_runtime": 43.2706,
	"eval_samples_per_second": 75.871,
	"eval_steps_per_second": 1.202,
	"step": 404
	},
	{
	"epoch": 1.0024752475247525,
	"grad_norm": 1.3960472434954319,
	"learning_rate": 1.1698640970537195e-05,
	"loss": 0.8479,
	"step": 405
	},
	{
	"epoch": 1.0148514851485149,
	"grad_norm": 0.8222898474391185,
	"learning_rate": 1.14853355065236e-05,
	"loss": 0.7492,
	"step": 410
	},
	{
	"epoch": 1.0272277227722773,
	"grad_norm": 1.146533181549737,
	"learning_rate": 1.1271336650872687e-05,
	"loss": 0.7352,
	"step": 415
	},
	{
	"epoch": 1.0396039603960396,
	"grad_norm": 1.2500390362477898,
	"learning_rate": 1.1056744303584322e-05,
	"loss": 0.7107,
	"step": 420
	},
	{
	"epoch": 1.051980198019802,
	"grad_norm": 0.8882156471951722,
	"learning_rate": 1.0841658641715064e-05,
	"loss": 0.7027,
	"step": 425
	},
	{
	"epoch": 1.0643564356435644,
	"grad_norm": 0.8783518588023339,
	"learning_rate": 1.0626180072613011e-05,
	"loss": 0.7199,
	"step": 430
	},
	{
	"epoch": 1.0767326732673268,
	"grad_norm": 0.7956936034755372,
	"learning_rate": 1.0410409187045145e-05,
	"loss": 0.6972,
	"step": 435
	},
	{
	"epoch": 1.0891089108910892,
	"grad_norm": 0.7957451930016578,
	"learning_rate": 1.0194446712239076e-05,
	"loss": 0.7194,
	"step": 440
	},
	{
	"epoch": 1.1014851485148516,
	"grad_norm": 0.8085539993808099,
	"learning_rate": 9.978393464861036e-06,
	"loss": 0.7085,
	"step": 445
	},
	{
	"epoch": 1.113861386138614,
	"grad_norm": 0.7629426599829563,
	"learning_rate": 9.76235030395215e-06,
	"loss": 0.7221,
	"step": 450
	},
	{
	"epoch": 1.1262376237623761,
	"grad_norm": 0.7099439929036686,
	"learning_rate": 9.546418083844944e-06,
	"loss": 0.7228,
	"step": 455
	},
	{
	"epoch": 1.1386138613861387,
	"grad_norm": 0.768143602885412,
	"learning_rate": 9.330697607081995e-06,
	"loss": 0.7055,
	"step": 460
	},
	{
	"epoch": 1.150990099009901,
	"grad_norm": 0.7399932448725586,
	"learning_rate": 9.115289577358826e-06,
	"loss": 0.7126,
	"step": 465
	},
	{
	"epoch": 1.1633663366336633,
	"grad_norm": 0.7720020506192959,
	"learning_rate": 8.900294552512878e-06,
	"loss": 0.7095,
	"step": 470
	},
	{
	"epoch": 1.1757425742574257,
	"grad_norm": 0.7452407090275405,
	"learning_rate": 8.68581289758063e-06,
	"loss": 0.7028,
	"step": 475
	},
	{
	"epoch": 1.188118811881188,
	"grad_norm": 0.7571246453363882,
	"learning_rate": 8.471944737944687e-06,
	"loss": 0.7184,
	"step": 480
	},
	{
	"epoch": 1.2004950495049505,
	"grad_norm": 0.7494453898237526,
	"learning_rate": 8.25878991259276e-06,
	"loss": 0.6982,
	"step": 485
	},
	{
	"epoch": 1.2128712871287128,
	"grad_norm": 0.7254138409040641,
	"learning_rate": 8.046447927510335e-06,
	"loss": 0.7175,
	"step": 490
	},
	{
	"epoch": 1.2252475247524752,
	"grad_norm": 0.7709180774648441,
	"learning_rate": 7.835017909228801e-06,
	"loss": 0.7075,
	"step": 495
	},
	{
	"epoch": 1.2376237623762376,
	"grad_norm": 0.760113272357165,
	"learning_rate": 7.624598558550707e-06,
	"loss": 0.7224,
	"step": 500
	},
	{
	"epoch": 1.25,
	"grad_norm": 0.7251746178009261,
	"learning_rate": 7.415288104473774e-06,
	"loss": 0.7059,
	"step": 505
	},
	{
	"epoch": 1.2623762376237624,
	"grad_norm": 0.7604221994294873,
	"learning_rate": 7.207184258335163e-06,
	"loss": 0.7022,
	"step": 510
	},
	{
	"epoch": 1.2747524752475248,
	"grad_norm": 0.7947902441474564,
	"learning_rate": 7.000384168197354e-06,
	"loss": 0.7076,
	"step": 515
	},
	{
	"epoch": 1.2871287128712872,
	"grad_norm": 0.7054449499686205,
	"learning_rate": 6.7949843734970475e-06,
	"loss": 0.7133,
	"step": 520
	},
	{
	"epoch": 1.2995049504950495,
	"grad_norm": 0.708545411017501,
	"learning_rate": 6.5910807599781135e-06,
	"loss": 0.7106,
	"step": 525
	},
	{
	"epoch": 1.311881188118812,
	"grad_norm": 0.7262363459114348,
	"learning_rate": 6.388768514929768e-06,
	"loss": 0.7114,
	"step": 530
	},
	{
	"epoch": 1.3242574257425743,
	"grad_norm": 0.6998186137578639,
	"learning_rate": 6.18814208275075e-06,
	"loss": 0.7122,
	"step": 535
	},
	{
	"epoch": 1.3366336633663367,
	"grad_norm": 0.7095860494984699,
	"learning_rate": 5.989295120860334e-06,
	"loss": 0.7252,
	"step": 540
	},
	{
	"epoch": 1.349009900990099,
	"grad_norm": 0.6915165561447487,
	"learning_rate": 5.792320455976714e-06,
	"loss": 0.7048,
	"step": 545
	},
	{
	"epoch": 1.3613861386138613,
	"grad_norm": 0.7119909691342722,
	"learning_rate": 5.597310040783161e-06,
	"loss": 0.6962,
	"step": 550
	},
	{
	"epoch": 1.3737623762376239,
	"grad_norm": 0.7504970044336818,
	"learning_rate": 5.404354911002243e-06,
	"loss": 0.707,
	"step": 555
	},
	{
	"epoch": 1.386138613861386,
	"grad_norm": 0.7146866752363458,
	"learning_rate": 5.213545142898061e-06,
	"loss": 0.7223,
	"step": 560
	},
	{
	"epoch": 1.3985148514851486,
	"grad_norm": 0.7356980622491117,
	"learning_rate": 5.024969811226419e-06,
	"loss": 0.6998,
	"step": 565
	},
	{
	"epoch": 1.4108910891089108,
	"grad_norm": 0.7061674308512749,
	"learning_rate": 4.838716947652485e-06,
	"loss": 0.6958,
	"step": 570
	},
	{
	"epoch": 1.4232673267326732,
	"grad_norm": 0.7284088021218859,
	"learning_rate": 4.654873499655449e-06,
	"loss": 0.6964,
	"step": 575
	},
	{
	"epoch": 1.4356435643564356,
	"grad_norm": 0.6886931942419792,
	"learning_rate": 4.4735252899392335e-06,
	"loss": 0.7023,
	"step": 580
	},
	{
	"epoch": 1.448019801980198,
	"grad_norm": 0.7166576506174707,
	"learning_rate": 4.294756976368351e-06,
	"loss": 0.7069,
	"step": 585
	},
	{
	"epoch": 1.4603960396039604,
	"grad_norm": 0.7032864356512767,
	"learning_rate": 4.118652012447486e-06,
	"loss": 0.7211,
	"step": 590
	},
	{
	"epoch": 1.4727722772277227,
	"grad_norm": 0.7242483728321348,
	"learning_rate": 3.945292608363312e-06,
	"loss": 0.7119,
	"step": 595
	},
	{
	"epoch": 1.4851485148514851,
	"grad_norm": 0.6918844982337927,
	"learning_rate": 3.7747596926067485e-06,
	"loss": 0.7221,
	"step": 600
	},
	{
	"epoch": 1.4975247524752475,
	"grad_norm": 0.7132050642871574,
	"learning_rate": 3.6071328741934985e-06,
	"loss": 0.7022,
	"step": 605
	},
	{
	"epoch": 1.50990099009901,
	"grad_norm": 0.7347264550601227,
	"learning_rate": 3.442490405500598e-06,
	"loss": 0.6975,
	"step": 610
	},
	{
	"epoch": 1.5222772277227723,
	"grad_norm": 0.6602507777994507,
	"learning_rate": 3.2809091457362464e-06,
	"loss": 0.7065,
	"step": 615
	},
	{
	"epoch": 1.5346534653465347,
	"grad_norm": 0.6740627682629335,
	"learning_rate": 3.122464525060013e-06,
	"loss": 0.6978,
	"step": 620
	},
	{
	"epoch": 1.547029702970297,
	"grad_norm": 0.7142221920558823,
	"learning_rate": 2.96723050937015e-06,
	"loss": 0.709,
	"step": 625
	},
	{
	"epoch": 1.5594059405940595,
	"grad_norm": 0.7335799725765082,
	"learning_rate": 2.8152795657744882e-06,
	"loss": 0.6893,
	"step": 630
	},
	{
	"epoch": 1.5717821782178216,
	"grad_norm": 0.7032104638603995,
	"learning_rate": 2.666682628760958e-06,
	"loss": 0.6961,
	"step": 635
	},
	{
	"epoch": 1.5841584158415842,
	"grad_norm": 0.6921897923437655,
	"learning_rate": 2.521509067083631e-06,
	"loss": 0.6938,
	"step": 640
	},
	{
	"epoch": 1.5965346534653464,
	"grad_norm": 0.6863228632248336,
	"learning_rate": 2.379826651379632e-06,
	"loss": 0.7033,
	"step": 645
	},
	{
	"epoch": 1.608910891089109,
	"grad_norm": 0.6778666475373859,
	"learning_rate": 2.241701522532136e-06,
	"loss": 0.7077,
	"step": 650
	},
	{
	"epoch": 1.6212871287128712,
	"grad_norm": 0.978566748682469,
	"learning_rate": 2.107198160794136e-06,
	"loss": 0.7102,
	"step": 655
	},
	{
	"epoch": 1.6336633663366338,
	"grad_norm": 0.7103004954900359,
	"learning_rate": 1.9763793556874655e-06,
	"loss": 0.6983,
	"step": 660
	},
	{
	"epoch": 1.646039603960396,
	"grad_norm": 0.676195777058198,
	"learning_rate": 1.849306176691088e-06,
	"loss": 0.7176,
	"step": 665
	},
	{
	"epoch": 1.6584158415841586,
	"grad_norm": 0.7079808939239,
	"learning_rate": 1.7260379447323327e-06,
	"loss": 0.6998,
	"step": 670
	},
	{
	"epoch": 1.6707920792079207,
	"grad_norm": 0.6910118308885802,
	"learning_rate": 1.6066322044944126e-06,
	"loss": 0.6847,
	"step": 675
	},
	{
	"epoch": 1.6831683168316833,
	"grad_norm": 0.6904569392825494,
	"learning_rate": 1.4911446975531329e-06,
	"loss": 0.7014,
	"step": 680
	},
	{
	"epoch": 1.6955445544554455,
	"grad_norm": 0.6979836145792466,
	"learning_rate": 1.3796293363553259e-06,
	"loss": 0.7252,
	"step": 685
	},
	{
	"epoch": 1.7079207920792079,
	"grad_norm": 0.6898195721719471,
	"learning_rate": 1.2721381790511832e-06,
	"loss": 0.7096,
	"step": 690
	},
	{
	"epoch": 1.7202970297029703,
	"grad_norm": 0.7872710836498652,
	"learning_rate": 1.168721405192218e-06,
	"loss": 0.7118,
	"step": 695
	},
	{
	"epoch": 1.7326732673267327,
	"grad_norm": 0.6351928901398578,
	"learning_rate": 1.0694272923061933e-06,
	"loss": 0.7073,
	"step": 700
	},
	{
	"epoch": 1.745049504950495,
	"grad_norm": 0.6550150479810684,
	"learning_rate": 9.743021933599695e-07,
	"loss": 0.6879,
	"step": 705
	},
	{
	"epoch": 1.7574257425742574,
	"grad_norm": 0.6762595095414403,
	"learning_rate": 8.833905151207833e-07,
	"loss": 0.6972,
	"step": 710
	},
	{
	"epoch": 1.7698019801980198,
	"grad_norm": 0.7046793104440422,
	"learning_rate": 7.967346974260626e-07,
	"loss": 0.7119,
	"step": 715
	},
	{
	"epoch": 1.7821782178217822,
	"grad_norm": 0.6803563399348503,
	"learning_rate": 7.143751933714583e-07,
	"loss": 0.7064,
	"step": 720
	},
	{
	"epoch": 1.7945544554455446,
	"grad_norm": 0.6569063272572411,
	"learning_rate": 6.363504504263207e-07,
	"loss": 0.694,
	"step": 725
	},
	{
	"epoch": 1.806930693069307,
	"grad_norm": 0.672487356470194,
	"learning_rate": 5.626968924854714e-07,
	"loss": 0.7133,
	"step": 730
	},
	{
	"epoch": 1.8193069306930694,
	"grad_norm": 0.6612411849360775,
	"learning_rate": 4.934489028656164e-07,
	"loss": 0.6933,
	"step": 735
	},
	{
	"epoch": 1.8316831683168315,
	"grad_norm": 0.7156254594176831,
	"learning_rate": 4.2863880825435687e-07,
	"loss": 0.7057,
	"step": 740
	},
	{
	"epoch": 1.8440594059405941,
	"grad_norm": 0.6833411888683371,
	"learning_rate": 3.682968636192863e-07,
	"loss": 0.7112,
	"step": 745
	},
	{
	"epoch": 1.8564356435643563,
	"grad_norm": 0.6969326586876218,
	"learning_rate": 3.124512380842204e-07,
	"loss": 0.6912,
	"step": 750
	},
	{
	"epoch": 1.868811881188119,
	"grad_norm": 0.6742873155450232,
	"learning_rate": 2.61128001779144e-07,
	"loss": 0.6823,
	"step": 755
	},
	{
	"epoch": 1.881188118811881,
	"grad_norm": 0.6414949104474531,
	"learning_rate": 2.1435111367002826e-07,
	"loss": 0.7126,
	"step": 760
	},
	{
	"epoch": 1.8935643564356437,
	"grad_norm": 0.6525583867438978,
	"learning_rate": 1.7214241037418312e-07,
	"loss": 0.6969,
	"step": 765
	},
	{
	"epoch": 1.9059405940594059,
	"grad_norm": 0.65521211994519,
	"learning_rate": 1.345215959663837e-07,
	"loss": 0.6903,
	"step": 770
	},
	{
	"epoch": 1.9183168316831685,
	"grad_norm": 0.6944361037558262,
	"learning_rate": 1.0150623278051719e-07,
	"loss": 0.6912,
	"step": 775
	},
	{
	"epoch": 1.9306930693069306,
	"grad_norm": 0.648743159889204,
	"learning_rate": 7.311173321104648e-08,
	"loss": 0.683,
	"step": 780
	},
	{
	"epoch": 1.943069306930693,
	"grad_norm": 0.6925205112702544,
	"learning_rate": 4.935135251811995e-08,
	"loss": 0.6934,
	"step": 785
	},
	{
	"epoch": 1.9554455445544554,
	"grad_norm": 0.6504666964480196,
	"learning_rate": 3.023618263968797e-08,
	"loss": 0.7186,
	"step": 790
	},
	{
	"epoch": 1.9678217821782178,
	"grad_norm": 0.7265261251377658,
	"learning_rate": 1.577514701350591e-08,
	"loss": 0.7216,
	"step": 795
	},
	{
	"epoch": 1.9801980198019802,
	"grad_norm": 0.6739382260611008,
	"learning_rate": 5.97499641145416e-09,
	"loss": 0.6928,
	"step": 800
	},
	{
	"epoch": 1.9925742574257426,
	"grad_norm": 0.6660006595388417,
	"learning_rate": 8.403057881067877e-10,
	"loss": 0.6941,
	"step": 805
	},
	{
	"epoch": 2.0,
	"eval_loss": 1.07817542552948,
	"eval_runtime": 43.2932,
	"eval_samples_per_second": 75.832,
	"eval_steps_per_second": 1.201,
	"step": 808
	},
	{
	"epoch": 2.0,
	"step": 808,
	"total_flos": 169178761789440.0,
	"train_loss": 0.8271688128461933,
	"train_runtime": 2411.6836,
	"train_samples_per_second": 21.427,
	"train_steps_per_second": 0.335
	}
	],
	"logging_steps": 5,
	"max_steps": 808,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": false,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 169178761789440.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}