pretrain_utg4java_220m_seq1024 / trainer_state.json

Upload files model pretrain_utg4java_220m_seq1024

82c2c15 verified 4 months ago

33.6 kB

	{
	"best_metric": 0.23903648555278778,
	"best_model_checkpoint": "/root/pretrain_executions/pretrain_utg4java_220m_seq1024/checkpoint-38422",
	"epoch": 49.992029332058024,
	"eval_steps": 500,
	"global_step": 39200,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.3953451299218875,
	"grad_norm": 0.6701709628105164,
	"learning_rate": 7.908163265306123e-05,
	"loss": 0.5421,
	"step": 310
	},
	{
	"epoch": 0.790690259843775,
	"grad_norm": 0.7041985988616943,
	"learning_rate": 0.00015816326530612246,
	"loss": 0.517,
	"step": 620
	},
	{
	"epoch": 0.9998405866411605,
	"eval_loss": 0.4792475402355194,
	"eval_runtime": 146.6334,
	"eval_samples_per_second": 85.567,
	"eval_steps_per_second": 2.68,
	"step": 784
	},
	{
	"epoch": 1.1860353897656624,
	"grad_norm": 0.7499191164970398,
	"learning_rate": 0.00019924510620574761,
	"loss": 0.5394,
	"step": 930
	},
	{
	"epoch": 1.5813805196875497,
	"grad_norm": 0.6494282484054565,
	"learning_rate": 0.00019763119533527698,
	"loss": 0.5327,
	"step": 1240
	},
	{
	"epoch": 1.9767256496094374,
	"grad_norm": 0.5610156059265137,
	"learning_rate": 0.00019601728446480633,
	"loss": 0.518,
	"step": 1550
	},
	{
	"epoch": 1.9996811732823212,
	"eval_loss": 0.45565617084503174,
	"eval_runtime": 146.6648,
	"eval_samples_per_second": 85.549,
	"eval_steps_per_second": 2.68,
	"step": 1568
	},
	{
	"epoch": 2.3720707795313247,
	"grad_norm": 0.6261674761772156,
	"learning_rate": 0.00019440337359433573,
	"loss": 0.5076,
	"step": 1860
	},
	{
	"epoch": 2.767415909453212,
	"grad_norm": 0.5601200461387634,
	"learning_rate": 0.00019278946272386507,
	"loss": 0.4972,
	"step": 2170
	},
	{
	"epoch": 2.9995217599234816,
	"eval_loss": 0.4429556429386139,
	"eval_runtime": 146.6472,
	"eval_samples_per_second": 85.559,
	"eval_steps_per_second": 2.68,
	"step": 2352
	},
	{
	"epoch": 3.1627610393751,
	"grad_norm": 0.6102643609046936,
	"learning_rate": 0.00019117555185339441,
	"loss": 0.4957,
	"step": 2480
	},
	{
	"epoch": 3.558106169296987,
	"grad_norm": 0.6246281266212463,
	"learning_rate": 0.00018956164098292379,
	"loss": 0.4827,
	"step": 2790
	},
	{
	"epoch": 3.9534512992188744,
	"grad_norm": 0.6781056523323059,
	"learning_rate": 0.00018794773011245316,
	"loss": 0.4736,
	"step": 3100
	},
	{
	"epoch": 3.999362346564642,
	"eval_loss": 0.42357587814331055,
	"eval_runtime": 146.7171,
	"eval_samples_per_second": 85.518,
	"eval_steps_per_second": 2.679,
	"step": 3136
	},
	{
	"epoch": 4.348796429140762,
	"grad_norm": 0.5225201845169067,
	"learning_rate": 0.00018633381924198253,
	"loss": 0.4686,
	"step": 3410
	},
	{
	"epoch": 4.7441415590626494,
	"grad_norm": 0.5367516279220581,
	"learning_rate": 0.00018471990837151187,
	"loss": 0.4575,
	"step": 3720
	},
	{
	"epoch": 4.999202933205803,
	"eval_loss": 0.4168592095375061,
	"eval_runtime": 146.7474,
	"eval_samples_per_second": 85.501,
	"eval_steps_per_second": 2.678,
	"step": 3920
	},
	{
	"epoch": 5.139486688984537,
	"grad_norm": 0.5979415774345398,
	"learning_rate": 0.00018310599750104124,
	"loss": 0.4591,
	"step": 4030
	},
	{
	"epoch": 5.534831818906424,
	"grad_norm": 0.6041168570518494,
	"learning_rate": 0.0001814920866305706,
	"loss": 0.4506,
	"step": 4340
	},
	{
	"epoch": 5.930176948828311,
	"grad_norm": 0.5398473739624023,
	"learning_rate": 0.00017987817576009998,
	"loss": 0.4499,
	"step": 4650
	},
	{
	"epoch": 5.999043519846963,
	"eval_loss": 0.3998393714427948,
	"eval_runtime": 146.7067,
	"eval_samples_per_second": 85.524,
	"eval_steps_per_second": 2.679,
	"step": 4704
	},
	{
	"epoch": 6.3255220787502,
	"grad_norm": 0.5446251630783081,
	"learning_rate": 0.00017826426488962933,
	"loss": 0.4444,
	"step": 4960
	},
	{
	"epoch": 6.720867208672087,
	"grad_norm": 0.564083993434906,
	"learning_rate": 0.00017665556018325697,
	"loss": 0.4401,
	"step": 5270
	},
	{
	"epoch": 6.9988841064881235,
	"eval_loss": 0.3943786323070526,
	"eval_runtime": 146.7223,
	"eval_samples_per_second": 85.515,
	"eval_steps_per_second": 2.679,
	"step": 5488
	},
	{
	"epoch": 7.116212338593974,
	"grad_norm": 0.5197238326072693,
	"learning_rate": 0.00017504164931278634,
	"loss": 0.4349,
	"step": 5580
	},
	{
	"epoch": 7.5115574685158615,
	"grad_norm": 0.5063862204551697,
	"learning_rate": 0.0001734277384423157,
	"loss": 0.4274,
	"step": 5890
	},
	{
	"epoch": 7.906902598437749,
	"grad_norm": 0.8238950371742249,
	"learning_rate": 0.00017181382757184508,
	"loss": 0.4275,
	"step": 6200
	},
	{
	"epoch": 8.0,
	"eval_loss": 0.38801178336143494,
	"eval_runtime": 146.7154,
	"eval_samples_per_second": 85.519,
	"eval_steps_per_second": 2.679,
	"step": 6273
	},
	{
	"epoch": 8.302247728359637,
	"grad_norm": 0.4785802662372589,
	"learning_rate": 0.00017019991670137442,
	"loss": 0.4218,
	"step": 6510
	},
	{
	"epoch": 8.697592858281524,
	"grad_norm": 0.5460196137428284,
	"learning_rate": 0.0001685860058309038,
	"loss": 0.4165,
	"step": 6820
	},
	{
	"epoch": 8.999840586641161,
	"eval_loss": 0.3786679804325104,
	"eval_runtime": 146.6889,
	"eval_samples_per_second": 85.535,
	"eval_steps_per_second": 2.679,
	"step": 7057
	},
	{
	"epoch": 9.092937988203412,
	"grad_norm": 0.5532106161117554,
	"learning_rate": 0.00016697209496043317,
	"loss": 0.4147,
	"step": 7130
	},
	{
	"epoch": 9.488283118125299,
	"grad_norm": 0.5270036458969116,
	"learning_rate": 0.00016535818408996254,
	"loss": 0.4054,
	"step": 7440
	},
	{
	"epoch": 9.883628248047186,
	"grad_norm": 0.5107512474060059,
	"learning_rate": 0.00016374427321949188,
	"loss": 0.407,
	"step": 7750
	},
	{
	"epoch": 9.99968117328232,
	"eval_loss": 0.3678111732006073,
	"eval_runtime": 146.7168,
	"eval_samples_per_second": 85.519,
	"eval_steps_per_second": 2.679,
	"step": 7841
	},
	{
	"epoch": 10.278973377969074,
	"grad_norm": 0.4663056433200836,
	"learning_rate": 0.00016213036234902125,
	"loss": 0.4001,
	"step": 8060
	},
	{
	"epoch": 10.67431850789096,
	"grad_norm": 0.5166866183280945,
	"learning_rate": 0.00016051645147855062,
	"loss": 0.4012,
	"step": 8370
	},
	{
	"epoch": 10.999521759923482,
	"eval_loss": 0.36857831478118896,
	"eval_runtime": 146.752,
	"eval_samples_per_second": 85.498,
	"eval_steps_per_second": 2.678,
	"step": 8625
	},
	{
	"epoch": 11.069663637812848,
	"grad_norm": 0.5623896718025208,
	"learning_rate": 0.00015890254060807997,
	"loss": 0.3967,
	"step": 8680
	},
	{
	"epoch": 11.465008767734735,
	"grad_norm": 0.4826233983039856,
	"learning_rate": 0.00015728862973760934,
	"loss": 0.3902,
	"step": 8990
	},
	{
	"epoch": 11.860353897656623,
	"grad_norm": 0.5024587512016296,
	"learning_rate": 0.00015567471886713868,
	"loss": 0.3889,
	"step": 9300
	},
	{
	"epoch": 11.999362346564642,
	"eval_loss": 0.35674843192100525,
	"eval_runtime": 146.7093,
	"eval_samples_per_second": 85.523,
	"eval_steps_per_second": 2.679,
	"step": 9409
	},
	{
	"epoch": 12.255699027578512,
	"grad_norm": 0.4992258846759796,
	"learning_rate": 0.00015406080799666805,
	"loss": 0.3838,
	"step": 9610
	},
	{
	"epoch": 12.6510441575004,
	"grad_norm": 0.4781612455844879,
	"learning_rate": 0.00015244689712619742,
	"loss": 0.3789,
	"step": 9920
	},
	{
	"epoch": 12.999202933205803,
	"eval_loss": 0.35254529118537903,
	"eval_runtime": 146.7424,
	"eval_samples_per_second": 85.504,
	"eval_steps_per_second": 2.678,
	"step": 10193
	},
	{
	"epoch": 13.046389287422286,
	"grad_norm": 0.49535173177719116,
	"learning_rate": 0.0001508329862557268,
	"loss": 0.3775,
	"step": 10230
	},
	{
	"epoch": 13.441734417344174,
	"grad_norm": 0.5237115621566772,
	"learning_rate": 0.00014922428154935443,
	"loss": 0.3734,
	"step": 10540
	},
	{
	"epoch": 13.837079547266061,
	"grad_norm": 0.4549529552459717,
	"learning_rate": 0.0001476155768429821,
	"loss": 0.37,
	"step": 10850
	},
	{
	"epoch": 13.999043519846964,
	"eval_loss": 0.3443816006183624,
	"eval_runtime": 146.6954,
	"eval_samples_per_second": 85.531,
	"eval_steps_per_second": 2.679,
	"step": 10977
	},
	{
	"epoch": 14.232424677187948,
	"grad_norm": 0.520125150680542,
	"learning_rate": 0.00014600166597251147,
	"loss": 0.3647,
	"step": 11160
	},
	{
	"epoch": 14.627769807109836,
	"grad_norm": 0.5332316160202026,
	"learning_rate": 0.00014438775510204084,
	"loss": 0.3678,
	"step": 11470
	},
	{
	"epoch": 14.998884106488124,
	"eval_loss": 0.3436979055404663,
	"eval_runtime": 146.7179,
	"eval_samples_per_second": 85.518,
	"eval_steps_per_second": 2.679,
	"step": 11761
	},
	{
	"epoch": 15.023114937031723,
	"grad_norm": 0.47955256700515747,
	"learning_rate": 0.0001427738442315702,
	"loss": 0.3664,
	"step": 11780
	},
	{
	"epoch": 15.41846006695361,
	"grad_norm": 0.48371678590774536,
	"learning_rate": 0.00014115993336109953,
	"loss": 0.36,
	"step": 12090
	},
	{
	"epoch": 15.813805196875498,
	"grad_norm": 0.4756961166858673,
	"learning_rate": 0.0001395460224906289,
	"loss": 0.3577,
	"step": 12400
	},
	{
	"epoch": 16.0,
	"eval_loss": 0.3342459499835968,
	"eval_runtime": 146.7158,
	"eval_samples_per_second": 85.519,
	"eval_steps_per_second": 2.679,
	"step": 12546
	},
	{
	"epoch": 16.209150326797385,
	"grad_norm": 0.5593659281730652,
	"learning_rate": 0.00013793211162015827,
	"loss": 0.3536,
	"step": 12710
	},
	{
	"epoch": 16.604495456719274,
	"grad_norm": 0.6009001135826111,
	"learning_rate": 0.00013631820074968764,
	"loss": 0.3539,
	"step": 13020
	},
	{
	"epoch": 16.99984058664116,
	"grad_norm": 0.48707565665245056,
	"learning_rate": 0.000134704289879217,
	"loss": 0.3522,
	"step": 13330
	},
	{
	"epoch": 16.99984058664116,
	"eval_loss": 0.33101820945739746,
	"eval_runtime": 146.73,
	"eval_samples_per_second": 85.511,
	"eval_steps_per_second": 2.678,
	"step": 13330
	},
	{
	"epoch": 17.39518571656305,
	"grad_norm": 0.4787095785140991,
	"learning_rate": 0.00013309037900874636,
	"loss": 0.343,
	"step": 13640
	},
	{
	"epoch": 17.790530846484934,
	"grad_norm": 0.4643840789794922,
	"learning_rate": 0.00013147646813827573,
	"loss": 0.3466,
	"step": 13950
	},
	{
	"epoch": 17.999681173282323,
	"eval_loss": 0.3281005620956421,
	"eval_runtime": 146.7108,
	"eval_samples_per_second": 85.522,
	"eval_steps_per_second": 2.679,
	"step": 14114
	},
	{
	"epoch": 18.185875976406823,
	"grad_norm": 0.4819445312023163,
	"learning_rate": 0.0001298625572678051,
	"loss": 0.3415,
	"step": 14260
	},
	{
	"epoch": 18.58122110632871,
	"grad_norm": 0.46530964970588684,
	"learning_rate": 0.00012824864639733444,
	"loss": 0.3393,
	"step": 14570
	},
	{
	"epoch": 18.976566236250598,
	"grad_norm": 0.5159475207328796,
	"learning_rate": 0.00012663473552686382,
	"loss": 0.3377,
	"step": 14880
	},
	{
	"epoch": 18.999521759923482,
	"eval_loss": 0.32132235169410706,
	"eval_runtime": 146.7396,
	"eval_samples_per_second": 85.505,
	"eval_steps_per_second": 2.678,
	"step": 14898
	},
	{
	"epoch": 19.371911366172487,
	"grad_norm": 0.45964986085891724,
	"learning_rate": 0.00012502082465639319,
	"loss": 0.3348,
	"step": 15190
	},
	{
	"epoch": 19.767256496094372,
	"grad_norm": 0.49627387523651123,
	"learning_rate": 0.00012340691378592253,
	"loss": 0.3316,
	"step": 15500
	},
	{
	"epoch": 19.99936234656464,
	"eval_loss": 0.31626757979393005,
	"eval_runtime": 146.7396,
	"eval_samples_per_second": 85.505,
	"eval_steps_per_second": 2.678,
	"step": 15682
	},
	{
	"epoch": 20.16260162601626,
	"grad_norm": 0.48719242215156555,
	"learning_rate": 0.0001217930029154519,
	"loss": 0.3294,
	"step": 15810
	},
	{
	"epoch": 20.557946755938147,
	"grad_norm": 0.5443927049636841,
	"learning_rate": 0.00012017909204498126,
	"loss": 0.3261,
	"step": 16120
	},
	{
	"epoch": 20.953291885860036,
	"grad_norm": 0.4637634754180908,
	"learning_rate": 0.00011856518117451063,
	"loss": 0.3255,
	"step": 16430
	},
	{
	"epoch": 20.9992029332058,
	"eval_loss": 0.31501948833465576,
	"eval_runtime": 146.7591,
	"eval_samples_per_second": 85.494,
	"eval_steps_per_second": 2.678,
	"step": 16466
	},
	{
	"epoch": 21.34863701578192,
	"grad_norm": 0.46018585562705994,
	"learning_rate": 0.00011695127030403999,
	"loss": 0.3198,
	"step": 16740
	},
	{
	"epoch": 21.74398214570381,
	"grad_norm": 0.5096014738082886,
	"learning_rate": 0.00011533735943356936,
	"loss": 0.3226,
	"step": 17050
	},
	{
	"epoch": 21.999043519846964,
	"eval_loss": 0.30657365918159485,
	"eval_runtime": 146.7538,
	"eval_samples_per_second": 85.497,
	"eval_steps_per_second": 2.678,
	"step": 17250
	},
	{
	"epoch": 22.139327275625696,
	"grad_norm": 0.44816407561302185,
	"learning_rate": 0.00011372344856309872,
	"loss": 0.3178,
	"step": 17360
	},
	{
	"epoch": 22.534672405547585,
	"grad_norm": 0.437168151140213,
	"learning_rate": 0.00011211474385672638,
	"loss": 0.3172,
	"step": 17670
	},
	{
	"epoch": 22.93001753546947,
	"grad_norm": 0.5836613774299622,
	"learning_rate": 0.00011050083298625573,
	"loss": 0.3121,
	"step": 17980
	},
	{
	"epoch": 22.998884106488124,
	"eval_loss": 0.30263882875442505,
	"eval_runtime": 146.7108,
	"eval_samples_per_second": 85.522,
	"eval_steps_per_second": 2.679,
	"step": 18034
	},
	{
	"epoch": 23.32536266539136,
	"grad_norm": 0.4829230308532715,
	"learning_rate": 0.00010888692211578508,
	"loss": 0.3079,
	"step": 18290
	},
	{
	"epoch": 23.720707795313245,
	"grad_norm": 0.4485584497451782,
	"learning_rate": 0.00010727821740941275,
	"loss": 0.3105,
	"step": 18600
	},
	{
	"epoch": 24.0,
	"eval_loss": 0.3048921227455139,
	"eval_runtime": 146.8103,
	"eval_samples_per_second": 85.464,
	"eval_steps_per_second": 2.677,
	"step": 18819
	},
	{
	"epoch": 24.116052925235135,
	"grad_norm": 0.5251662135124207,
	"learning_rate": 0.00010566430653894211,
	"loss": 0.3052,
	"step": 18910
	},
	{
	"epoch": 24.511398055157024,
	"grad_norm": 0.4876725971698761,
	"learning_rate": 0.00010405039566847148,
	"loss": 0.3045,
	"step": 19220
	},
	{
	"epoch": 24.90674318507891,
	"grad_norm": 0.5600521564483643,
	"learning_rate": 0.00010243648479800084,
	"loss": 0.3048,
	"step": 19530
	},
	{
	"epoch": 24.99984058664116,
	"eval_loss": 0.2986990809440613,
	"eval_runtime": 146.734,
	"eval_samples_per_second": 85.508,
	"eval_steps_per_second": 2.678,
	"step": 19603
	},
	{
	"epoch": 25.3020883150008,
	"grad_norm": 0.5170055627822876,
	"learning_rate": 0.00010082257392753021,
	"loss": 0.3003,
	"step": 19840
	},
	{
	"epoch": 25.697433444922684,
	"grad_norm": 0.48347124457359314,
	"learning_rate": 9.920866305705956e-05,
	"loss": 0.2983,
	"step": 20150
	},
	{
	"epoch": 25.999681173282323,
	"eval_loss": 0.2916134297847748,
	"eval_runtime": 146.7271,
	"eval_samples_per_second": 85.512,
	"eval_steps_per_second": 2.678,
	"step": 20387
	},
	{
	"epoch": 26.092778574844573,
	"grad_norm": 0.48907041549682617,
	"learning_rate": 9.759475218658892e-05,
	"loss": 0.2959,
	"step": 20460
	},
	{
	"epoch": 26.48812370476646,
	"grad_norm": 0.5060804486274719,
	"learning_rate": 9.598084131611829e-05,
	"loss": 0.2923,
	"step": 20770
	},
	{
	"epoch": 26.883468834688347,
	"grad_norm": 0.4843296706676483,
	"learning_rate": 9.436693044564765e-05,
	"loss": 0.2918,
	"step": 21080
	},
	{
	"epoch": 26.999521759923482,
	"eval_loss": 0.29019656777381897,
	"eval_runtime": 146.6934,
	"eval_samples_per_second": 85.532,
	"eval_steps_per_second": 2.679,
	"step": 21171
	},
	{
	"epoch": 27.278813964610233,
	"grad_norm": 0.42266514897346497,
	"learning_rate": 9.275301957517701e-05,
	"loss": 0.2901,
	"step": 21390
	},
	{
	"epoch": 27.674159094532122,
	"grad_norm": 0.5161967873573303,
	"learning_rate": 9.113910870470638e-05,
	"loss": 0.2889,
	"step": 21700
	},
	{
	"epoch": 27.99936234656464,
	"eval_loss": 0.2833983302116394,
	"eval_runtime": 146.7193,
	"eval_samples_per_second": 85.517,
	"eval_steps_per_second": 2.679,
	"step": 21955
	},
	{
	"epoch": 28.069504224454008,
	"grad_norm": 0.4523755609989166,
	"learning_rate": 8.952519783423574e-05,
	"loss": 0.2871,
	"step": 22010
	},
	{
	"epoch": 28.464849354375897,
	"grad_norm": 0.44348961114883423,
	"learning_rate": 8.791128696376511e-05,
	"loss": 0.2847,
	"step": 22320
	},
	{
	"epoch": 28.860194484297786,
	"grad_norm": 0.6467667818069458,
	"learning_rate": 8.630258225739276e-05,
	"loss": 0.2844,
	"step": 22630
	},
	{
	"epoch": 28.9992029332058,
	"eval_loss": 0.28629302978515625,
	"eval_runtime": 146.7547,
	"eval_samples_per_second": 85.496,
	"eval_steps_per_second": 2.678,
	"step": 22739
	},
	{
	"epoch": 29.25553961421967,
	"grad_norm": 0.4734992980957031,
	"learning_rate": 8.468867138692213e-05,
	"loss": 0.2787,
	"step": 22940
	},
	{
	"epoch": 29.65088474414156,
	"grad_norm": 0.4827498495578766,
	"learning_rate": 8.307476051645148e-05,
	"loss": 0.2787,
	"step": 23250
	},
	{
	"epoch": 29.999043519846964,
	"eval_loss": 0.2794826626777649,
	"eval_runtime": 146.9198,
	"eval_samples_per_second": 85.4,
	"eval_steps_per_second": 2.675,
	"step": 23523
	},
	{
	"epoch": 30.046229874063446,
	"grad_norm": 0.5005486607551575,
	"learning_rate": 8.146084964598085e-05,
	"loss": 0.2758,
	"step": 23560
	},
	{
	"epoch": 30.441575003985335,
	"grad_norm": 0.5253671407699585,
	"learning_rate": 7.98469387755102e-05,
	"loss": 0.2761,
	"step": 23870
	},
	{
	"epoch": 30.83692013390722,
	"grad_norm": 0.472740113735199,
	"learning_rate": 7.823302790503957e-05,
	"loss": 0.2726,
	"step": 24180
	},
	{
	"epoch": 30.998884106488124,
	"eval_loss": 0.2779182493686676,
	"eval_runtime": 146.7777,
	"eval_samples_per_second": 85.483,
	"eval_steps_per_second": 2.678,
	"step": 24307
	},
	{
	"epoch": 31.23226526382911,
	"grad_norm": 0.5228144526481628,
	"learning_rate": 7.661911703456893e-05,
	"loss": 0.2717,
	"step": 24490
	},
	{
	"epoch": 31.627610393750995,
	"grad_norm": 0.47681719064712524,
	"learning_rate": 7.501041232819659e-05,
	"loss": 0.2664,
	"step": 24800
	},
	{
	"epoch": 32.0,
	"eval_loss": 0.27039337158203125,
	"eval_runtime": 146.805,
	"eval_samples_per_second": 85.467,
	"eval_steps_per_second": 2.677,
	"step": 25092
	},
	{
	"epoch": 32.022955523672884,
	"grad_norm": 0.4973162114620209,
	"learning_rate": 7.339650145772596e-05,
	"loss": 0.268,
	"step": 25110
	},
	{
	"epoch": 32.41830065359477,
	"grad_norm": 0.5740240216255188,
	"learning_rate": 7.178259058725531e-05,
	"loss": 0.2668,
	"step": 25420
	},
	{
	"epoch": 32.813645783516655,
	"grad_norm": 0.4842962622642517,
	"learning_rate": 7.016867971678468e-05,
	"loss": 0.2631,
	"step": 25730
	},
	{
	"epoch": 32.99984058664116,
	"eval_loss": 0.2733234763145447,
	"eval_runtime": 146.7109,
	"eval_samples_per_second": 85.522,
	"eval_steps_per_second": 2.679,
	"step": 25876
	},
	{
	"epoch": 33.20899091343855,
	"grad_norm": 0.499452143907547,
	"learning_rate": 6.855476884631404e-05,
	"loss": 0.263,
	"step": 26040
	},
	{
	"epoch": 33.60433604336043,
	"grad_norm": 0.4541178345680237,
	"learning_rate": 6.69408579758434e-05,
	"loss": 0.2603,
	"step": 26350
	},
	{
	"epoch": 33.99968117328232,
	"grad_norm": 0.5029833912849426,
	"learning_rate": 6.532694710537276e-05,
	"loss": 0.258,
	"step": 26660
	},
	{
	"epoch": 33.99968117328232,
	"eval_loss": 0.26625362038612366,
	"eval_runtime": 146.7319,
	"eval_samples_per_second": 85.51,
	"eval_steps_per_second": 2.678,
	"step": 26660
	},
	{
	"epoch": 34.39502630320421,
	"grad_norm": 0.5090352892875671,
	"learning_rate": 6.371303623490213e-05,
	"loss": 0.2544,
	"step": 26970
	},
	{
	"epoch": 34.7903714331261,
	"grad_norm": 0.4605717360973358,
	"learning_rate": 6.209912536443149e-05,
	"loss": 0.254,
	"step": 27280
	},
	{
	"epoch": 34.99952175992348,
	"eval_loss": 0.26669949293136597,
	"eval_runtime": 146.7117,
	"eval_samples_per_second": 85.521,
	"eval_steps_per_second": 2.679,
	"step": 27444
	},
	{
	"epoch": 35.18571656304798,
	"grad_norm": 0.46216222643852234,
	"learning_rate": 6.048521449396085e-05,
	"loss": 0.254,
	"step": 27590
	},
	{
	"epoch": 35.58106169296987,
	"grad_norm": 0.49629315733909607,
	"learning_rate": 5.8871303623490214e-05,
	"loss": 0.2521,
	"step": 27900
	},
	{
	"epoch": 35.97640682289176,
	"grad_norm": 0.48311081528663635,
	"learning_rate": 5.725739275301958e-05,
	"loss": 0.2493,
	"step": 28210
	},
	{
	"epoch": 35.999362346564645,
	"eval_loss": 0.26483407616615295,
	"eval_runtime": 146.7384,
	"eval_samples_per_second": 85.506,
	"eval_steps_per_second": 2.678,
	"step": 28228
	},
	{
	"epoch": 36.371751952813646,
	"grad_norm": 0.43428850173950195,
	"learning_rate": 5.564348188254894e-05,
	"loss": 0.2455,
	"step": 28520
	},
	{
	"epoch": 36.76709708273553,
	"grad_norm": 0.4786287844181061,
	"learning_rate": 5.4029571012078306e-05,
	"loss": 0.2454,
	"step": 28830
	},
	{
	"epoch": 36.9992029332058,
	"eval_loss": 0.26446378231048584,
	"eval_runtime": 146.73,
	"eval_samples_per_second": 85.511,
	"eval_steps_per_second": 2.678,
	"step": 29012
	},
	{
	"epoch": 37.16244221265742,
	"grad_norm": 0.5931326746940613,
	"learning_rate": 5.241566014160767e-05,
	"loss": 0.247,
	"step": 29140
	},
	{
	"epoch": 37.55778734257931,
	"grad_norm": 0.5031745433807373,
	"learning_rate": 5.0801749271137035e-05,
	"loss": 0.2425,
	"step": 29450
	},
	{
	"epoch": 37.953132472501196,
	"grad_norm": 0.5432093739509583,
	"learning_rate": 4.918783840066639e-05,
	"loss": 0.2416,
	"step": 29760
	},
	{
	"epoch": 37.999043519846964,
	"eval_loss": 0.2601180672645569,
	"eval_runtime": 146.6811,
	"eval_samples_per_second": 85.539,
	"eval_steps_per_second": 2.679,
	"step": 29796
	},
	{
	"epoch": 38.34847760242308,
	"grad_norm": 0.5319362878799438,
	"learning_rate": 4.7573927530195756e-05,
	"loss": 0.2392,
	"step": 30070
	},
	{
	"epoch": 38.743822732344974,
	"grad_norm": 0.5319586396217346,
	"learning_rate": 4.596001665972512e-05,
	"loss": 0.2368,
	"step": 30380
	},
	{
	"epoch": 38.99888410648813,
	"eval_loss": 0.25446435809135437,
	"eval_runtime": 146.6972,
	"eval_samples_per_second": 85.53,
	"eval_steps_per_second": 2.679,
	"step": 30580
	},
	{
	"epoch": 39.13916786226686,
	"grad_norm": 0.4489250183105469,
	"learning_rate": 4.434610578925448e-05,
	"loss": 0.2368,
	"step": 30690
	},
	{
	"epoch": 39.534512992188745,
	"grad_norm": 0.48287880420684814,
	"learning_rate": 4.273740108288213e-05,
	"loss": 0.2353,
	"step": 31000
	},
	{
	"epoch": 39.92985812211063,
	"grad_norm": 0.49850553274154663,
	"learning_rate": 4.1123490212411495e-05,
	"loss": 0.2321,
	"step": 31310
	},
	{
	"epoch": 40.0,
	"eval_loss": 0.24883659183979034,
	"eval_runtime": 146.7363,
	"eval_samples_per_second": 85.507,
	"eval_steps_per_second": 2.678,
	"step": 31365
	},
	{
	"epoch": 40.32520325203252,
	"grad_norm": 0.4667394161224365,
	"learning_rate": 3.9514785506039155e-05,
	"loss": 0.2337,
	"step": 31620
	},
	{
	"epoch": 40.72054838195441,
	"grad_norm": 0.5053902864456177,
	"learning_rate": 3.790087463556852e-05,
	"loss": 0.2284,
	"step": 31930
	},
	{
	"epoch": 40.99984058664116,
	"eval_loss": 0.2544113099575043,
	"eval_runtime": 146.7257,
	"eval_samples_per_second": 85.513,
	"eval_steps_per_second": 2.678,
	"step": 32149
	},
	{
	"epoch": 41.115893511876294,
	"grad_norm": 0.47476327419281006,
	"learning_rate": 3.628696376509788e-05,
	"loss": 0.2286,
	"step": 32240
	},
	{
	"epoch": 41.51123864179818,
	"grad_norm": 0.5025794506072998,
	"learning_rate": 3.467305289462724e-05,
	"loss": 0.2292,
	"step": 32550
	},
	{
	"epoch": 41.90658377172007,
	"grad_norm": 0.4553293287754059,
	"learning_rate": 3.3059142024156605e-05,
	"loss": 0.225,
	"step": 32860
	},
	{
	"epoch": 41.99968117328232,
	"eval_loss": 0.24568869173526764,
	"eval_runtime": 146.7316,
	"eval_samples_per_second": 85.51,
	"eval_steps_per_second": 2.678,
	"step": 32933
	},
	{
	"epoch": 42.30192890164196,
	"grad_norm": 0.4845215678215027,
	"learning_rate": 3.144523115368597e-05,
	"loss": 0.2236,
	"step": 33170
	},
	{
	"epoch": 42.69727403156384,
	"grad_norm": 0.5739601850509644,
	"learning_rate": 2.983132028321533e-05,
	"loss": 0.2234,
	"step": 33480
	},
	{
	"epoch": 42.99952175992348,
	"eval_loss": 0.24620206654071808,
	"eval_runtime": 146.7264,
	"eval_samples_per_second": 85.513,
	"eval_steps_per_second": 2.678,
	"step": 33717
	},
	{
	"epoch": 43.092619161485736,
	"grad_norm": 0.4569677412509918,
	"learning_rate": 2.8217409412744688e-05,
	"loss": 0.2213,
	"step": 33790
	},
	{
	"epoch": 43.48796429140762,
	"grad_norm": 0.5146024227142334,
	"learning_rate": 2.6603498542274052e-05,
	"loss": 0.2188,
	"step": 34100
	},
	{
	"epoch": 43.88330942132951,
	"grad_norm": 0.47475871443748474,
	"learning_rate": 2.4989587671803416e-05,
	"loss": 0.2206,
	"step": 34410
	},
	{
	"epoch": 43.999362346564645,
	"eval_loss": 0.2445935159921646,
	"eval_runtime": 146.7897,
	"eval_samples_per_second": 85.476,
	"eval_steps_per_second": 2.677,
	"step": 34501
	},
	{
	"epoch": 44.27865455125139,
	"grad_norm": 0.45915085077285767,
	"learning_rate": 2.337567680133278e-05,
	"loss": 0.217,
	"step": 34720
	},
	{
	"epoch": 44.673999681173285,
	"grad_norm": 0.4429190456867218,
	"learning_rate": 2.176176593086214e-05,
	"loss": 0.2165,
	"step": 35030
	},
	{
	"epoch": 44.9992029332058,
	"eval_loss": 0.24302400648593903,
	"eval_runtime": 146.7631,
	"eval_samples_per_second": 85.492,
	"eval_steps_per_second": 2.678,
	"step": 35285
	},
	{
	"epoch": 45.06934481109517,
	"grad_norm": 0.5038246512413025,
	"learning_rate": 2.0147855060391505e-05,
	"loss": 0.217,
	"step": 35340
	},
	{
	"epoch": 45.464689941017056,
	"grad_norm": 0.4302615523338318,
	"learning_rate": 1.8539150354019162e-05,
	"loss": 0.2137,
	"step": 35650
	},
	{
	"epoch": 45.86003507093894,
	"grad_norm": 0.5075607299804688,
	"learning_rate": 1.6925239483548523e-05,
	"loss": 0.2145,
	"step": 35960
	},
	{
	"epoch": 45.999043519846964,
	"eval_loss": 0.24222899973392487,
	"eval_runtime": 146.735,
	"eval_samples_per_second": 85.508,
	"eval_steps_per_second": 2.678,
	"step": 36069
	},
	{
	"epoch": 46.255380200860834,
	"grad_norm": 0.4777955114841461,
	"learning_rate": 1.531653477717618e-05,
	"loss": 0.2126,
	"step": 36270
	},
	{
	"epoch": 46.65072533078272,
	"grad_norm": 0.48974084854125977,
	"learning_rate": 1.3702623906705539e-05,
	"loss": 0.2112,
	"step": 36580
	},
	{
	"epoch": 46.99888410648813,
	"eval_loss": 0.2432757019996643,
	"eval_runtime": 146.7494,
	"eval_samples_per_second": 85.499,
	"eval_steps_per_second": 2.678,
	"step": 36853
	},
	{
	"epoch": 47.046070460704605,
	"grad_norm": 0.46624037623405457,
	"learning_rate": 1.2088713036234903e-05,
	"loss": 0.2089,
	"step": 36890
	},
	{
	"epoch": 47.44141559062649,
	"grad_norm": 0.4808659553527832,
	"learning_rate": 1.0474802165764265e-05,
	"loss": 0.2085,
	"step": 37200
	},
	{
	"epoch": 47.836760720548384,
	"grad_norm": 0.4421006143093109,
	"learning_rate": 8.86089129529363e-06,
	"loss": 0.2087,
	"step": 37510
	},
	{
	"epoch": 48.0,
	"eval_loss": 0.24061799049377441,
	"eval_runtime": 146.7785,
	"eval_samples_per_second": 85.483,
	"eval_steps_per_second": 2.678,
	"step": 37638
	},
	{
	"epoch": 48.23210585047027,
	"grad_norm": 0.4642196297645569,
	"learning_rate": 7.246980424822991e-06,
	"loss": 0.208,
	"step": 37820
	},
	{
	"epoch": 48.627450980392155,
	"grad_norm": 0.47141027450561523,
	"learning_rate": 5.633069554352354e-06,
	"loss": 0.2067,
	"step": 38130
	},
	{
	"epoch": 48.99984058664116,
	"eval_loss": 0.23903648555278778,
	"eval_runtime": 146.7908,
	"eval_samples_per_second": 85.475,
	"eval_steps_per_second": 2.677,
	"step": 38422
	},
	{
	"epoch": 49.02279611031405,
	"grad_norm": 0.45030030608177185,
	"learning_rate": 4.019158683881716e-06,
	"loss": 0.2062,
	"step": 38440
	},
	{
	"epoch": 49.41814124023593,
	"grad_norm": 0.48792940378189087,
	"learning_rate": 2.4052478134110786e-06,
	"loss": 0.2062,
	"step": 38750
	},
	{
	"epoch": 49.81348637015782,
	"grad_norm": 0.40084025263786316,
	"learning_rate": 7.913369429404415e-07,
	"loss": 0.2055,
	"step": 39060
	},
	{
	"epoch": 49.992029332058024,
	"eval_loss": 0.23992499709129333,
	"eval_runtime": 146.7718,
	"eval_samples_per_second": 85.486,
	"eval_steps_per_second": 2.678,
	"step": 39200
	},
	{
	"epoch": 49.992029332058024,
	"step": 39200,
	"total_flos": 6.111014223347712e+18,
	"train_loss": 0.31974333125717785,
	"train_runtime": 145458.5548,
	"train_samples_per_second": 34.503,
	"train_steps_per_second": 0.269
	}
	],
	"logging_steps": 310,
	"max_steps": 39200,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 50,
	"save_steps": 500,
	"total_flos": 6.111014223347712e+18,
	"train_batch_size": 16,
	"trial_name": null,
	"trial_params": null
	}