Training in progress, step 200, checkpoint

7aff449 verified 10 days ago

37.8 kB

	{
	"best_metric": 0.587491512298584,
	"best_model_checkpoint": "miner_id_24/checkpoint-200",
	"epoch": 0.03306741619476708,
	"eval_steps": 25,
	"global_step": 200,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0001653370809738354,
	"grad_norm": 1.1458706855773926,
	"learning_rate": 2.9999999999999997e-05,
	"loss": 0.9686,
	"step": 1
	},
	{
	"epoch": 0.0001653370809738354,
	"eval_loss": 1.4532192945480347,
	"eval_runtime": 1.8909,
	"eval_samples_per_second": 26.443,
	"eval_steps_per_second": 3.702,
	"step": 1
	},
	{
	"epoch": 0.0003306741619476708,
	"grad_norm": 1.2934821844100952,
	"learning_rate": 5.9999999999999995e-05,
	"loss": 1.1419,
	"step": 2
	},
	{
	"epoch": 0.0004960112429215062,
	"grad_norm": 1.3526453971862793,
	"learning_rate": 8.999999999999999e-05,
	"loss": 1.1456,
	"step": 3
	},
	{
	"epoch": 0.0006613483238953416,
	"grad_norm": 1.4010525941848755,
	"learning_rate": 0.00011999999999999999,
	"loss": 1.2078,
	"step": 4
	},
	{
	"epoch": 0.000826685404869177,
	"grad_norm": 1.1631656885147095,
	"learning_rate": 0.00015,
	"loss": 1.0343,
	"step": 5
	},
	{
	"epoch": 0.0009920224858430125,
	"grad_norm": 0.9487802982330322,
	"learning_rate": 0.00017999999999999998,
	"loss": 1.0424,
	"step": 6
	},
	{
	"epoch": 0.0011573595668168477,
	"grad_norm": 0.6479355096817017,
	"learning_rate": 0.00020999999999999998,
	"loss": 0.9562,
	"step": 7
	},
	{
	"epoch": 0.0013226966477906832,
	"grad_norm": 1.1392258405685425,
	"learning_rate": 0.00023999999999999998,
	"loss": 0.8981,
	"step": 8
	},
	{
	"epoch": 0.0014880337287645187,
	"grad_norm": 1.2654004096984863,
	"learning_rate": 0.00027,
	"loss": 0.9577,
	"step": 9
	},
	{
	"epoch": 0.001653370809738354,
	"grad_norm": 0.9595345258712769,
	"learning_rate": 0.0003,
	"loss": 0.8777,
	"step": 10
	},
	{
	"epoch": 0.0018187078907121895,
	"grad_norm": 0.5911861062049866,
	"learning_rate": 0.0002999794957488703,
	"loss": 0.8749,
	"step": 11
	},
	{
	"epoch": 0.001984044971686025,
	"grad_norm": 0.46297988295555115,
	"learning_rate": 0.0002999179886011389,
	"loss": 0.7729,
	"step": 12
	},
	{
	"epoch": 0.0021493820526598604,
	"grad_norm": 0.5073149800300598,
	"learning_rate": 0.0002998154953722457,
	"loss": 0.8461,
	"step": 13
	},
	{
	"epoch": 0.0023147191336336955,
	"grad_norm": 0.5063093900680542,
	"learning_rate": 0.00029967204408281613,
	"loss": 0.7949,
	"step": 14
	},
	{
	"epoch": 0.002480056214607531,
	"grad_norm": 0.4964233934879303,
	"learning_rate": 0.00029948767395100045,
	"loss": 0.8145,
	"step": 15
	},
	{
	"epoch": 0.0026453932955813665,
	"grad_norm": 0.46869364380836487,
	"learning_rate": 0.0002992624353817517,
	"loss": 0.7973,
	"step": 16
	},
	{
	"epoch": 0.002810730376555202,
	"grad_norm": 0.48064351081848145,
	"learning_rate": 0.0002989963899530457,
	"loss": 0.7762,
	"step": 17
	},
	{
	"epoch": 0.0029760674575290374,
	"grad_norm": 0.4655352532863617,
	"learning_rate": 0.00029868961039904624,
	"loss": 0.8017,
	"step": 18
	},
	{
	"epoch": 0.003141404538502873,
	"grad_norm": 0.4899359345436096,
	"learning_rate": 0.00029834218059022024,
	"loss": 0.7672,
	"step": 19
	},
	{
	"epoch": 0.003306741619476708,
	"grad_norm": 0.49928662180900574,
	"learning_rate": 0.00029795419551040833,
	"loss": 0.7774,
	"step": 20
	},
	{
	"epoch": 0.0034720787004505435,
	"grad_norm": 0.5411067008972168,
	"learning_rate": 0.00029752576123085736,
	"loss": 0.7915,
	"step": 21
	},
	{
	"epoch": 0.003637415781424379,
	"grad_norm": 0.49483177065849304,
	"learning_rate": 0.0002970569948812214,
	"loss": 0.81,
	"step": 22
	},
	{
	"epoch": 0.0038027528623982144,
	"grad_norm": 0.477321594953537,
	"learning_rate": 0.0002965480246175399,
	"loss": 0.7135,
	"step": 23
	},
	{
	"epoch": 0.00396808994337205,
	"grad_norm": 0.5247819423675537,
	"learning_rate": 0.0002959989895872009,
	"loss": 0.7725,
	"step": 24
	},
	{
	"epoch": 0.004133427024345885,
	"grad_norm": 0.5035298466682434,
	"learning_rate": 0.0002954100398908995,
	"loss": 0.6796,
	"step": 25
	},
	{
	"epoch": 0.004133427024345885,
	"eval_loss": 0.740797221660614,
	"eval_runtime": 1.8714,
	"eval_samples_per_second": 26.719,
	"eval_steps_per_second": 3.741,
	"step": 25
	},
	{
	"epoch": 0.004298764105319721,
	"grad_norm": 0.5274375081062317,
	"learning_rate": 0.0002947813365416023,
	"loss": 0.7499,
	"step": 26
	},
	{
	"epoch": 0.004464101186293556,
	"grad_norm": 0.5270937085151672,
	"learning_rate": 0.0002941130514205272,
	"loss": 0.72,
	"step": 27
	},
	{
	"epoch": 0.004629438267267391,
	"grad_norm": 0.5450596213340759,
	"learning_rate": 0.0002934053672301536,
	"loss": 0.7604,
	"step": 28
	},
	{
	"epoch": 0.004794775348241227,
	"grad_norm": 0.5546329021453857,
	"learning_rate": 0.00029265847744427303,
	"loss": 0.7516,
	"step": 29
	},
	{
	"epoch": 0.004960112429215062,
	"grad_norm": 0.5378047823905945,
	"learning_rate": 0.00029187258625509513,
	"loss": 0.7325,
	"step": 30
	},
	{
	"epoch": 0.005125449510188898,
	"grad_norm": 0.5384945869445801,
	"learning_rate": 0.00029104790851742417,
	"loss": 0.7204,
	"step": 31
	},
	{
	"epoch": 0.005290786591162733,
	"grad_norm": 0.564714252948761,
	"learning_rate": 0.0002901846696899191,
	"loss": 0.7475,
	"step": 32
	},
	{
	"epoch": 0.005456123672136569,
	"grad_norm": 0.5964205861091614,
	"learning_rate": 0.00028928310577345606,
	"loss": 0.7079,
	"step": 33
	},
	{
	"epoch": 0.005621460753110404,
	"grad_norm": 0.5732771754264832,
	"learning_rate": 0.0002883434632466077,
	"loss": 0.6735,
	"step": 34
	},
	{
	"epoch": 0.005786797834084239,
	"grad_norm": 0.5388650298118591,
	"learning_rate": 0.00028736599899825856,
	"loss": 0.6702,
	"step": 35
	},
	{
	"epoch": 0.005952134915058075,
	"grad_norm": 0.5706294775009155,
	"learning_rate": 0.00028635098025737434,
	"loss": 0.6716,
	"step": 36
	},
	{
	"epoch": 0.00611747199603191,
	"grad_norm": 0.5575750470161438,
	"learning_rate": 0.00028529868451994384,
	"loss": 0.6672,
	"step": 37
	},
	{
	"epoch": 0.006282809077005746,
	"grad_norm": 0.6226919889450073,
	"learning_rate": 0.0002842093994731145,
	"loss": 0.669,
	"step": 38
	},
	{
	"epoch": 0.006448146157979581,
	"grad_norm": 0.6209577322006226,
	"learning_rate": 0.00028308342291654174,
	"loss": 0.6994,
	"step": 39
	},
	{
	"epoch": 0.006613483238953416,
	"grad_norm": 0.5951119065284729,
	"learning_rate": 0.00028192106268097334,
	"loss": 0.6644,
	"step": 40
	},
	{
	"epoch": 0.006778820319927252,
	"grad_norm": 0.6036494374275208,
	"learning_rate": 0.00028072263654409154,
	"loss": 0.6463,
	"step": 41
	},
	{
	"epoch": 0.006944157400901087,
	"grad_norm": 0.6368991136550903,
	"learning_rate": 0.0002794884721436361,
	"loss": 0.63,
	"step": 42
	},
	{
	"epoch": 0.007109494481874923,
	"grad_norm": 0.6688757538795471,
	"learning_rate": 0.00027821890688783083,
	"loss": 0.6476,
	"step": 43
	},
	{
	"epoch": 0.007274831562848758,
	"grad_norm": 0.6986092329025269,
	"learning_rate": 0.0002769142878631403,
	"loss": 0.7047,
	"step": 44
	},
	{
	"epoch": 0.007440168643822593,
	"grad_norm": 0.7855607867240906,
	"learning_rate": 0.00027557497173937923,
	"loss": 0.6652,
	"step": 45
	},
	{
	"epoch": 0.007605505724796429,
	"grad_norm": 0.7658830881118774,
	"learning_rate": 0.000274201324672203,
	"loss": 0.705,
	"step": 46
	},
	{
	"epoch": 0.007770842805770264,
	"grad_norm": 0.7558281421661377,
	"learning_rate": 0.00027279372220300385,
	"loss": 0.6567,
	"step": 47
	},
	{
	"epoch": 0.0079361798867441,
	"grad_norm": 0.8528456687927246,
	"learning_rate": 0.0002713525491562421,
	"loss": 0.6641,
	"step": 48
	},
	{
	"epoch": 0.008101516967717935,
	"grad_norm": 0.8852099180221558,
	"learning_rate": 0.00026987819953423867,
	"loss": 0.6517,
	"step": 49
	},
	{
	"epoch": 0.00826685404869177,
	"grad_norm": 1.2807631492614746,
	"learning_rate": 0.00026837107640945905,
	"loss": 0.7514,
	"step": 50
	},
	{
	"epoch": 0.00826685404869177,
	"eval_loss": 0.7300238013267517,
	"eval_runtime": 1.8747,
	"eval_samples_per_second": 26.671,
	"eval_steps_per_second": 3.734,
	"step": 50
	},
	{
	"epoch": 0.008432191129665605,
	"grad_norm": 0.662638783454895,
	"learning_rate": 0.0002668315918143169,
	"loss": 0.5879,
	"step": 51
	},
	{
	"epoch": 0.008597528210639442,
	"grad_norm": 0.6220346689224243,
	"learning_rate": 0.00026526016662852886,
	"loss": 0.6805,
	"step": 52
	},
	{
	"epoch": 0.008762865291613277,
	"grad_norm": 0.4488891065120697,
	"learning_rate": 0.00026365723046405023,
	"loss": 0.6268,
	"step": 53
	},
	{
	"epoch": 0.008928202372587112,
	"grad_norm": 0.45153406262397766,
	"learning_rate": 0.0002620232215476231,
	"loss": 0.6505,
	"step": 54
	},
	{
	"epoch": 0.009093539453560947,
	"grad_norm": 0.4724684953689575,
	"learning_rate": 0.0002603585866009697,
	"loss": 0.618,
	"step": 55
	},
	{
	"epoch": 0.009258876534534782,
	"grad_norm": 0.44388478994369507,
	"learning_rate": 0.00025866378071866334,
	"loss": 0.628,
	"step": 56
	},
	{
	"epoch": 0.009424213615508619,
	"grad_norm": 0.4252602159976959,
	"learning_rate": 0.00025693926724370956,
	"loss": 0.6648,
	"step": 57
	},
	{
	"epoch": 0.009589550696482454,
	"grad_norm": 0.44454148411750793,
	"learning_rate": 0.00025518551764087326,
	"loss": 0.7274,
	"step": 58
	},
	{
	"epoch": 0.009754887777456289,
	"grad_norm": 0.4203338325023651,
	"learning_rate": 0.00025340301136778483,
	"loss": 0.6249,
	"step": 59
	},
	{
	"epoch": 0.009920224858430124,
	"grad_norm": 0.4334009885787964,
	"learning_rate": 0.00025159223574386114,
	"loss": 0.626,
	"step": 60
	},
	{
	"epoch": 0.010085561939403959,
	"grad_norm": 0.4594862163066864,
	"learning_rate": 0.0002497536858170772,
	"loss": 0.7358,
	"step": 61
	},
	{
	"epoch": 0.010250899020377796,
	"grad_norm": 0.4198598563671112,
	"learning_rate": 0.00024788786422862526,
	"loss": 0.6522,
	"step": 62
	},
	{
	"epoch": 0.01041623610135163,
	"grad_norm": 0.47395503520965576,
	"learning_rate": 0.00024599528107549745,
	"loss": 0.6878,
	"step": 63
	},
	{
	"epoch": 0.010581573182325466,
	"grad_norm": 0.42716339230537415,
	"learning_rate": 0.00024407645377103054,
	"loss": 0.662,
	"step": 64
	},
	{
	"epoch": 0.010746910263299301,
	"grad_norm": 0.40592852234840393,
	"learning_rate": 0.00024213190690345018,
	"loss": 0.692,
	"step": 65
	},
	{
	"epoch": 0.010912247344273138,
	"grad_norm": 0.4136260747909546,
	"learning_rate": 0.00024016217209245374,
	"loss": 0.6462,
	"step": 66
	},
	{
	"epoch": 0.011077584425246973,
	"grad_norm": 0.43495914340019226,
	"learning_rate": 0.00023816778784387094,
	"loss": 0.672,
	"step": 67
	},
	{
	"epoch": 0.011242921506220808,
	"grad_norm": 0.4204349219799042,
	"learning_rate": 0.0002361492994024415,
	"loss": 0.6677,
	"step": 68
	},
	{
	"epoch": 0.011408258587194643,
	"grad_norm": 0.41397807002067566,
	"learning_rate": 0.0002341072586027509,
	"loss": 0.6314,
	"step": 69
	},
	{
	"epoch": 0.011573595668168478,
	"grad_norm": 0.4293558895587921,
	"learning_rate": 0.00023204222371836405,
	"loss": 0.6423,
	"step": 70
	},
	{
	"epoch": 0.011738932749142315,
	"grad_norm": 0.41890963912010193,
	"learning_rate": 0.00022995475930919905,
	"loss": 0.5675,
	"step": 71
	},
	{
	"epoch": 0.01190426983011615,
	"grad_norm": 0.4755418002605438,
	"learning_rate": 0.00022784543606718227,
	"loss": 0.7091,
	"step": 72
	},
	{
	"epoch": 0.012069606911089985,
	"grad_norm": 0.4745832085609436,
	"learning_rate": 0.00022571483066022657,
	"loss": 0.6212,
	"step": 73
	},
	{
	"epoch": 0.01223494399206382,
	"grad_norm": 0.48046061396598816,
	"learning_rate": 0.0002235635255745762,
	"loss": 0.6447,
	"step": 74
	},
	{
	"epoch": 0.012400281073037655,
	"grad_norm": 0.48077794909477234,
	"learning_rate": 0.00022139210895556104,
	"loss": 0.6251,
	"step": 75
	},
	{
	"epoch": 0.012400281073037655,
	"eval_loss": 0.6494519114494324,
	"eval_runtime": 1.8961,
	"eval_samples_per_second": 26.37,
	"eval_steps_per_second": 3.692,
	"step": 75
	},
	{
	"epoch": 0.012565618154011492,
	"grad_norm": 0.518615186214447,
	"learning_rate": 0.00021920117444680317,
	"loss": 0.6074,
	"step": 76
	},
	{
	"epoch": 0.012730955234985327,
	"grad_norm": 0.5402657985687256,
	"learning_rate": 0.00021699132102792097,
	"loss": 0.6575,
	"step": 77
	},
	{
	"epoch": 0.012896292315959162,
	"grad_norm": 0.5036848783493042,
	"learning_rate": 0.0002147631528507739,
	"loss": 0.6517,
	"step": 78
	},
	{
	"epoch": 0.013061629396932997,
	"grad_norm": 0.517012894153595,
	"learning_rate": 0.00021251727907429355,
	"loss": 0.6246,
	"step": 79
	},
	{
	"epoch": 0.013226966477906832,
	"grad_norm": 0.4987259805202484,
	"learning_rate": 0.0002102543136979454,
	"loss": 0.5903,
	"step": 80
	},
	{
	"epoch": 0.013392303558880669,
	"grad_norm": 0.5765737295150757,
	"learning_rate": 0.0002079748753938678,
	"loss": 0.6795,
	"step": 81
	},
	{
	"epoch": 0.013557640639854504,
	"grad_norm": 0.5101305246353149,
	"learning_rate": 0.0002056795873377331,
	"loss": 0.5953,
	"step": 82
	},
	{
	"epoch": 0.013722977720828339,
	"grad_norm": 0.5157580375671387,
	"learning_rate": 0.00020336907703837748,
	"loss": 0.6183,
	"step": 83
	},
	{
	"epoch": 0.013888314801802174,
	"grad_norm": 0.5230023860931396,
	"learning_rate": 0.00020104397616624645,
	"loss": 0.6494,
	"step": 84
	},
	{
	"epoch": 0.014053651882776009,
	"grad_norm": 0.6248013973236084,
	"learning_rate": 0.00019870492038070252,
	"loss": 0.6383,
	"step": 85
	},
	{
	"epoch": 0.014218988963749846,
	"grad_norm": 0.5421463847160339,
	"learning_rate": 0.0001963525491562421,
	"loss": 0.5986,
	"step": 86
	},
	{
	"epoch": 0.01438432604472368,
	"grad_norm": 0.5650635957717896,
	"learning_rate": 0.0001939875056076697,
	"loss": 0.6032,
	"step": 87
	},
	{
	"epoch": 0.014549663125697516,
	"grad_norm": 0.5500821471214294,
	"learning_rate": 0.00019161043631427666,
	"loss": 0.5598,
	"step": 88
	},
	{
	"epoch": 0.01471500020667135,
	"grad_norm": 0.6109346151351929,
	"learning_rate": 0.00018922199114307294,
	"loss": 0.696,
	"step": 89
	},
	{
	"epoch": 0.014880337287645186,
	"grad_norm": 0.5851466059684753,
	"learning_rate": 0.00018682282307111987,
	"loss": 0.5489,
	"step": 90
	},
	{
	"epoch": 0.015045674368619023,
	"grad_norm": 0.585314929485321,
	"learning_rate": 0.00018441358800701273,
	"loss": 0.5473,
	"step": 91
	},
	{
	"epoch": 0.015211011449592858,
	"grad_norm": 0.6997946500778198,
	"learning_rate": 0.00018199494461156203,
	"loss": 0.6722,
	"step": 92
	},
	{
	"epoch": 0.015376348530566693,
	"grad_norm": 0.6760852336883545,
	"learning_rate": 0.000179567554117722,
	"loss": 0.5968,
	"step": 93
	},
	{
	"epoch": 0.015541685611540528,
	"grad_norm": 0.6954542994499207,
	"learning_rate": 0.00017713208014981648,
	"loss": 0.6346,
	"step": 94
	},
	{
	"epoch": 0.015707022692514363,
	"grad_norm": 0.706315279006958,
	"learning_rate": 0.00017468918854211007,
	"loss": 0.6147,
	"step": 95
	},
	{
	"epoch": 0.0158723597734882,
	"grad_norm": 0.7285186052322388,
	"learning_rate": 0.00017223954715677627,
	"loss": 0.6042,
	"step": 96
	},
	{
	"epoch": 0.016037696854462033,
	"grad_norm": 0.7623412013053894,
	"learning_rate": 0.00016978382570131034,
	"loss": 0.645,
	"step": 97
	},
	{
	"epoch": 0.01620303393543587,
	"grad_norm": 0.8401342630386353,
	"learning_rate": 0.00016732269554543794,
	"loss": 0.596,
	"step": 98
	},
	{
	"epoch": 0.016368371016409707,
	"grad_norm": 0.8520634174346924,
	"learning_rate": 0.00016485682953756942,
	"loss": 0.5435,
	"step": 99
	},
	{
	"epoch": 0.01653370809738354,
	"grad_norm": 1.2710648775100708,
	"learning_rate": 0.00016238690182084986,
	"loss": 0.6776,
	"step": 100
	},
	{
	"epoch": 0.01653370809738354,
	"eval_loss": 0.6591371893882751,
	"eval_runtime": 1.8728,
	"eval_samples_per_second": 26.698,
	"eval_steps_per_second": 3.738,
	"step": 100
	},
	{
	"epoch": 0.016699045178357377,
	"grad_norm": 0.5595121383666992,
	"learning_rate": 0.0001599135876488549,
	"loss": 0.529,
	"step": 101
	},
	{
	"epoch": 0.01686438225933121,
	"grad_norm": 0.6090410947799683,
	"learning_rate": 0.00015743756320098332,
	"loss": 0.6318,
	"step": 102
	},
	{
	"epoch": 0.017029719340305047,
	"grad_norm": 0.5462281703948975,
	"learning_rate": 0.0001549595053975962,
	"loss": 0.6279,
	"step": 103
	},
	{
	"epoch": 0.017195056421278884,
	"grad_norm": 0.470628559589386,
	"learning_rate": 0.00015248009171495378,
	"loss": 0.6353,
	"step": 104
	},
	{
	"epoch": 0.017360393502252717,
	"grad_norm": 0.40791985392570496,
	"learning_rate": 0.00015,
	"loss": 0.6027,
	"step": 105
	},
	{
	"epoch": 0.017525730583226554,
	"grad_norm": 0.42699339985847473,
	"learning_rate": 0.00014751990828504622,
	"loss": 0.6589,
	"step": 106
	},
	{
	"epoch": 0.017691067664200387,
	"grad_norm": 0.42080384492874146,
	"learning_rate": 0.00014504049460240375,
	"loss": 0.6261,
	"step": 107
	},
	{
	"epoch": 0.017856404745174224,
	"grad_norm": 0.42046162486076355,
	"learning_rate": 0.00014256243679901663,
	"loss": 0.6235,
	"step": 108
	},
	{
	"epoch": 0.01802174182614806,
	"grad_norm": 0.42919886112213135,
	"learning_rate": 0.00014008641235114508,
	"loss": 0.615,
	"step": 109
	},
	{
	"epoch": 0.018187078907121894,
	"grad_norm": 0.41335728764533997,
	"learning_rate": 0.00013761309817915014,
	"loss": 0.6216,
	"step": 110
	},
	{
	"epoch": 0.01835241598809573,
	"grad_norm": 0.407696396112442,
	"learning_rate": 0.00013514317046243058,
	"loss": 0.6429,
	"step": 111
	},
	{
	"epoch": 0.018517753069069564,
	"grad_norm": 0.4250294864177704,
	"learning_rate": 0.00013267730445456208,
	"loss": 0.6084,
	"step": 112
	},
	{
	"epoch": 0.0186830901500434,
	"grad_norm": 0.40817221999168396,
	"learning_rate": 0.00013021617429868963,
	"loss": 0.6541,
	"step": 113
	},
	{
	"epoch": 0.018848427231017238,
	"grad_norm": 0.43035033345222473,
	"learning_rate": 0.00012776045284322368,
	"loss": 0.6516,
	"step": 114
	},
	{
	"epoch": 0.01901376431199107,
	"grad_norm": 0.40453994274139404,
	"learning_rate": 0.00012531081145788987,
	"loss": 0.6025,
	"step": 115
	},
	{
	"epoch": 0.019179101392964908,
	"grad_norm": 0.39926087856292725,
	"learning_rate": 0.00012286791985018355,
	"loss": 0.5548,
	"step": 116
	},
	{
	"epoch": 0.01934443847393874,
	"grad_norm": 0.43014204502105713,
	"learning_rate": 0.00012043244588227796,
	"loss": 0.5593,
	"step": 117
	},
	{
	"epoch": 0.019509775554912578,
	"grad_norm": 0.4401710629463196,
	"learning_rate": 0.00011800505538843798,
	"loss": 0.6202,
	"step": 118
	},
	{
	"epoch": 0.019675112635886415,
	"grad_norm": 0.4146181344985962,
	"learning_rate": 0.00011558641199298727,
	"loss": 0.5496,
	"step": 119
	},
	{
	"epoch": 0.019840449716860248,
	"grad_norm": 0.4258963167667389,
	"learning_rate": 0.00011317717692888012,
	"loss": 0.5361,
	"step": 120
	},
	{
	"epoch": 0.020005786797834085,
	"grad_norm": 0.45607423782348633,
	"learning_rate": 0.00011077800885692702,
	"loss": 0.5844,
	"step": 121
	},
	{
	"epoch": 0.020171123878807918,
	"grad_norm": 0.445334255695343,
	"learning_rate": 0.00010838956368572334,
	"loss": 0.5698,
	"step": 122
	},
	{
	"epoch": 0.020336460959781755,
	"grad_norm": 0.4584890604019165,
	"learning_rate": 0.0001060124943923303,
	"loss": 0.5761,
	"step": 123
	},
	{
	"epoch": 0.02050179804075559,
	"grad_norm": 0.4687618911266327,
	"learning_rate": 0.0001036474508437579,
	"loss": 0.6092,
	"step": 124
	},
	{
	"epoch": 0.020667135121729425,
	"grad_norm": 0.4850897192955017,
	"learning_rate": 0.00010129507961929748,
	"loss": 0.6443,
	"step": 125
	},
	{
	"epoch": 0.020667135121729425,
	"eval_loss": 0.6090381145477295,
	"eval_runtime": 1.8935,
	"eval_samples_per_second": 26.406,
	"eval_steps_per_second": 3.697,
	"step": 125
	},
	{
	"epoch": 0.02083247220270326,
	"grad_norm": 0.474062979221344,
	"learning_rate": 9.895602383375353e-05,
	"loss": 0.6096,
	"step": 126
	},
	{
	"epoch": 0.0209978092836771,
	"grad_norm": 0.5057529211044312,
	"learning_rate": 9.663092296162251e-05,
	"loss": 0.6463,
	"step": 127
	},
	{
	"epoch": 0.02116314636465093,
	"grad_norm": 0.4857181906700134,
	"learning_rate": 9.432041266226686e-05,
	"loss": 0.5901,
	"step": 128
	},
	{
	"epoch": 0.02132848344562477,
	"grad_norm": 0.48144418001174927,
	"learning_rate": 9.202512460613219e-05,
	"loss": 0.5829,
	"step": 129
	},
	{
	"epoch": 0.021493820526598602,
	"grad_norm": 0.500487744808197,
	"learning_rate": 8.97456863020546e-05,
	"loss": 0.4955,
	"step": 130
	},
	{
	"epoch": 0.02165915760757244,
	"grad_norm": 0.5146012902259827,
	"learning_rate": 8.748272092570646e-05,
	"loss": 0.6286,
	"step": 131
	},
	{
	"epoch": 0.021824494688546275,
	"grad_norm": 0.48560625314712524,
	"learning_rate": 8.523684714922608e-05,
	"loss": 0.5786,
	"step": 132
	},
	{
	"epoch": 0.02198983176952011,
	"grad_norm": 0.4935201108455658,
	"learning_rate": 8.300867897207903e-05,
	"loss": 0.5155,
	"step": 133
	},
	{
	"epoch": 0.022155168850493945,
	"grad_norm": 0.5251325964927673,
	"learning_rate": 8.079882555319684e-05,
	"loss": 0.618,
	"step": 134
	},
	{
	"epoch": 0.02232050593146778,
	"grad_norm": 0.5414552092552185,
	"learning_rate": 7.860789104443896e-05,
	"loss": 0.5664,
	"step": 135
	},
	{
	"epoch": 0.022485843012441616,
	"grad_norm": 0.5745555758476257,
	"learning_rate": 7.643647442542382e-05,
	"loss": 0.597,
	"step": 136
	},
	{
	"epoch": 0.022651180093415452,
	"grad_norm": 0.5867097973823547,
	"learning_rate": 7.428516933977347e-05,
	"loss": 0.6112,
	"step": 137
	},
	{
	"epoch": 0.022816517174389286,
	"grad_norm": 0.617051362991333,
	"learning_rate": 7.215456393281776e-05,
	"loss": 0.5667,
	"step": 138
	},
	{
	"epoch": 0.022981854255363122,
	"grad_norm": 0.6218559741973877,
	"learning_rate": 7.004524069080096e-05,
	"loss": 0.5878,
	"step": 139
	},
	{
	"epoch": 0.023147191336336956,
	"grad_norm": 0.5842517614364624,
	"learning_rate": 6.795777628163599e-05,
	"loss": 0.5362,
	"step": 140
	},
	{
	"epoch": 0.023312528417310793,
	"grad_norm": 0.6078557968139648,
	"learning_rate": 6.58927413972491e-05,
	"loss": 0.561,
	"step": 141
	},
	{
	"epoch": 0.02347786549828463,
	"grad_norm": 0.6673625111579895,
	"learning_rate": 6.385070059755846e-05,
	"loss": 0.5567,
	"step": 142
	},
	{
	"epoch": 0.023643202579258463,
	"grad_norm": 0.6668835282325745,
	"learning_rate": 6.183221215612904e-05,
	"loss": 0.5856,
	"step": 143
	},
	{
	"epoch": 0.0238085396602323,
	"grad_norm": 0.6619709730148315,
	"learning_rate": 5.983782790754623e-05,
	"loss": 0.5695,
	"step": 144
	},
	{
	"epoch": 0.023973876741206133,
	"grad_norm": 0.7347633838653564,
	"learning_rate": 5.786809309654982e-05,
	"loss": 0.6575,
	"step": 145
	},
	{
	"epoch": 0.02413921382217997,
	"grad_norm": 0.681242823600769,
	"learning_rate": 5.592354622896944e-05,
	"loss": 0.4653,
	"step": 146
	},
	{
	"epoch": 0.024304550903153806,
	"grad_norm": 0.6918179988861084,
	"learning_rate": 5.40047189245025e-05,
	"loss": 0.4623,
	"step": 147
	},
	{
	"epoch": 0.02446988798412764,
	"grad_norm": 0.8781294226646423,
	"learning_rate": 5.211213577137469e-05,
	"loss": 0.6373,
	"step": 148
	},
	{
	"epoch": 0.024635225065101476,
	"grad_norm": 0.8795979619026184,
	"learning_rate": 5.024631418292274e-05,
	"loss": 0.5014,
	"step": 149
	},
	{
	"epoch": 0.02480056214607531,
	"grad_norm": 1.1492856740951538,
	"learning_rate": 4.840776425613886e-05,
	"loss": 0.5911,
	"step": 150
	},
	{
	"epoch": 0.02480056214607531,
	"eval_loss": 0.6090312004089355,
	"eval_runtime": 1.8777,
	"eval_samples_per_second": 26.628,
	"eval_steps_per_second": 3.728,
	"step": 150
	},
	{
	"epoch": 0.024965899227049147,
	"grad_norm": 0.3518829047679901,
	"learning_rate": 4.659698863221513e-05,
	"loss": 0.4504,
	"step": 151
	},
	{
	"epoch": 0.025131236308022983,
	"grad_norm": 0.3778611719608307,
	"learning_rate": 4.481448235912671e-05,
	"loss": 0.5729,
	"step": 152
	},
	{
	"epoch": 0.025296573388996817,
	"grad_norm": 0.4172021448612213,
	"learning_rate": 4.306073275629044e-05,
	"loss": 0.5852,
	"step": 153
	},
	{
	"epoch": 0.025461910469970653,
	"grad_norm": 0.4507042169570923,
	"learning_rate": 4.133621928133665e-05,
	"loss": 0.6136,
	"step": 154
	},
	{
	"epoch": 0.025627247550944487,
	"grad_norm": 0.45023030042648315,
	"learning_rate": 3.964141339903026e-05,
	"loss": 0.6059,
	"step": 155
	},
	{
	"epoch": 0.025792584631918324,
	"grad_norm": 0.4398917257785797,
	"learning_rate": 3.797677845237696e-05,
	"loss": 0.611,
	"step": 156
	},
	{
	"epoch": 0.02595792171289216,
	"grad_norm": 0.426236629486084,
	"learning_rate": 3.634276953594982e-05,
	"loss": 0.5538,
	"step": 157
	},
	{
	"epoch": 0.026123258793865994,
	"grad_norm": 0.4280710816383362,
	"learning_rate": 3.473983337147118e-05,
	"loss": 0.6121,
	"step": 158
	},
	{
	"epoch": 0.02628859587483983,
	"grad_norm": 0.39926227927207947,
	"learning_rate": 3.316840818568315e-05,
	"loss": 0.5853,
	"step": 159
	},
	{
	"epoch": 0.026453932955813664,
	"grad_norm": 0.3878289759159088,
	"learning_rate": 3.162892359054098e-05,
	"loss": 0.5152,
	"step": 160
	},
	{
	"epoch": 0.0266192700367875,
	"grad_norm": 0.42500802874565125,
	"learning_rate": 3.0121800465761293e-05,
	"loss": 0.6141,
	"step": 161
	},
	{
	"epoch": 0.026784607117761337,
	"grad_norm": 0.42845767736434937,
	"learning_rate": 2.8647450843757897e-05,
	"loss": 0.5855,
	"step": 162
	},
	{
	"epoch": 0.02694994419873517,
	"grad_norm": 0.4272685647010803,
	"learning_rate": 2.7206277796996144e-05,
	"loss": 0.5931,
	"step": 163
	},
	{
	"epoch": 0.027115281279709007,
	"grad_norm": 0.44554266333580017,
	"learning_rate": 2.5798675327796993e-05,
	"loss": 0.6541,
	"step": 164
	},
	{
	"epoch": 0.02728061836068284,
	"grad_norm": 0.44582295417785645,
	"learning_rate": 2.4425028260620715e-05,
	"loss": 0.63,
	"step": 165
	},
	{
	"epoch": 0.027445955441656678,
	"grad_norm": 0.4189260005950928,
	"learning_rate": 2.3085712136859668e-05,
	"loss": 0.5798,
	"step": 166
	},
	{
	"epoch": 0.027611292522630514,
	"grad_norm": 0.41501569747924805,
	"learning_rate": 2.178109311216913e-05,
	"loss": 0.5838,
	"step": 167
	},
	{
	"epoch": 0.027776629603604348,
	"grad_norm": 0.4392796754837036,
	"learning_rate": 2.0511527856363912e-05,
	"loss": 0.5914,
	"step": 168
	},
	{
	"epoch": 0.027941966684578184,
	"grad_norm": 0.4092908501625061,
	"learning_rate": 1.927736345590839e-05,
	"loss": 0.5392,
	"step": 169
	},
	{
	"epoch": 0.028107303765552018,
	"grad_norm": 0.4480851888656616,
	"learning_rate": 1.8078937319026654e-05,
	"loss": 0.5967,
	"step": 170
	},
	{
	"epoch": 0.028272640846525855,
	"grad_norm": 0.45969000458717346,
	"learning_rate": 1.6916577083458228e-05,
	"loss": 0.6781,
	"step": 171
	},
	{
	"epoch": 0.02843797792749969,
	"grad_norm": 0.4783402979373932,
	"learning_rate": 1.579060052688548e-05,
	"loss": 0.6911,
	"step": 172
	},
	{
	"epoch": 0.028603315008473525,
	"grad_norm": 0.4612955152988434,
	"learning_rate": 1.4701315480056164e-05,
	"loss": 0.5574,
	"step": 173
	},
	{
	"epoch": 0.02876865208944736,
	"grad_norm": 0.45882025361061096,
	"learning_rate": 1.3649019742625623e-05,
	"loss": 0.5463,
	"step": 174
	},
	{
	"epoch": 0.028933989170421195,
	"grad_norm": 0.4618784189224243,
	"learning_rate": 1.2634001001741373e-05,
	"loss": 0.5609,
	"step": 175
	},
	{
	"epoch": 0.028933989170421195,
	"eval_loss": 0.5873807668685913,
	"eval_runtime": 1.8942,
	"eval_samples_per_second": 26.397,
	"eval_steps_per_second": 3.696,
	"step": 175
	},
	{
	"epoch": 0.02909932625139503,
	"grad_norm": 0.4690948724746704,
	"learning_rate": 1.1656536753392287e-05,
	"loss": 0.5743,
	"step": 176
	},
	{
	"epoch": 0.02926466333236887,
	"grad_norm": 0.4852280914783478,
	"learning_rate": 1.0716894226543953e-05,
	"loss": 0.6567,
	"step": 177
	},
	{
	"epoch": 0.0294300004133427,
	"grad_norm": 0.47134000062942505,
	"learning_rate": 9.815330310080887e-06,
	"loss": 0.5788,
	"step": 178
	},
	{
	"epoch": 0.02959533749431654,
	"grad_norm": 0.4749037027359009,
	"learning_rate": 8.952091482575824e-06,
	"loss": 0.5837,
	"step": 179
	},
	{
	"epoch": 0.029760674575290372,
	"grad_norm": 0.48075568675994873,
	"learning_rate": 8.127413744904804e-06,
	"loss": 0.5929,
	"step": 180
	},
	{
	"epoch": 0.02992601165626421,
	"grad_norm": 0.49417707324028015,
	"learning_rate": 7.34152255572697e-06,
	"loss": 0.5795,
	"step": 181
	},
	{
	"epoch": 0.030091348737238045,
	"grad_norm": 0.49787455797195435,
	"learning_rate": 6.594632769846353e-06,
	"loss": 0.5481,
	"step": 182
	},
	{
	"epoch": 0.03025668581821188,
	"grad_norm": 0.5144615173339844,
	"learning_rate": 5.886948579472778e-06,
	"loss": 0.5726,
	"step": 183
	},
	{
	"epoch": 0.030422022899185715,
	"grad_norm": 0.5090218186378479,
	"learning_rate": 5.218663458397715e-06,
	"loss": 0.5759,
	"step": 184
	},
	{
	"epoch": 0.03058735998015955,
	"grad_norm": 0.499025821685791,
	"learning_rate": 4.589960109100444e-06,
	"loss": 0.5272,
	"step": 185
	},
	{
	"epoch": 0.030752697061133386,
	"grad_norm": 0.5264498591423035,
	"learning_rate": 4.001010412799138e-06,
	"loss": 0.5944,
	"step": 186
	},
	{
	"epoch": 0.030918034142107222,
	"grad_norm": 0.5010021328926086,
	"learning_rate": 3.451975382460109e-06,
	"loss": 0.5202,
	"step": 187
	},
	{
	"epoch": 0.031083371223081056,
	"grad_norm": 0.5727500319480896,
	"learning_rate": 2.9430051187785962e-06,
	"loss": 0.6056,
	"step": 188
	},
	{
	"epoch": 0.031248708304054892,
	"grad_norm": 0.5564864873886108,
	"learning_rate": 2.4742387691426445e-06,
	"loss": 0.5835,
	"step": 189
	},
	{
	"epoch": 0.031414045385028726,
	"grad_norm": 0.5777730941772461,
	"learning_rate": 2.0458044895916513e-06,
	"loss": 0.5449,
	"step": 190
	},
	{
	"epoch": 0.031579382466002566,
	"grad_norm": 0.6091128587722778,
	"learning_rate": 1.6578194097797258e-06,
	"loss": 0.6131,
	"step": 191
	},
	{
	"epoch": 0.0317447195469764,
	"grad_norm": 0.596784770488739,
	"learning_rate": 1.3103896009537207e-06,
	"loss": 0.5658,
	"step": 192
	},
	{
	"epoch": 0.03191005662795023,
	"grad_norm": 0.6246776580810547,
	"learning_rate": 1.0036100469542786e-06,
	"loss": 0.5655,
	"step": 193
	},
	{
	"epoch": 0.032075393708924066,
	"grad_norm": 0.6081706285476685,
	"learning_rate": 7.375646182482875e-07,
	"loss": 0.5007,
	"step": 194
	},
	{
	"epoch": 0.032240730789897906,
	"grad_norm": 0.6714624166488647,
	"learning_rate": 5.123260489995229e-07,
	"loss": 0.5301,
	"step": 195
	},
	{
	"epoch": 0.03240606787087174,
	"grad_norm": 0.731858491897583,
	"learning_rate": 3.2795591718381975e-07,
	"loss": 0.5636,
	"step": 196
	},
	{
	"epoch": 0.03257140495184557,
	"grad_norm": 0.7109096050262451,
	"learning_rate": 1.8450462775428942e-07,
	"loss": 0.5681,
	"step": 197
	},
	{
	"epoch": 0.03273674203281941,
	"grad_norm": 0.6945204138755798,
	"learning_rate": 8.201139886109264e-08,
	"loss": 0.4689,
	"step": 198
	},
	{
	"epoch": 0.032902079113793246,
	"grad_norm": 0.8688917756080627,
	"learning_rate": 2.0504251129649374e-08,
	"loss": 0.5341,
	"step": 199
	},
	{
	"epoch": 0.03306741619476708,
	"grad_norm": 1.1077585220336914,
	"learning_rate": 0.0,
	"loss": 0.6469,
	"step": 200
	},
	{
	"epoch": 0.03306741619476708,
	"eval_loss": 0.587491512298584,
	"eval_runtime": 1.8735,
	"eval_samples_per_second": 26.688,
	"eval_steps_per_second": 3.736,
	"step": 200
	}
	],
	"logging_steps": 1,
	"max_steps": 200,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 50,
	"stateful_callbacks": {
	"EarlyStoppingCallback": {
	"args": {
	"early_stopping_patience": 1,
	"early_stopping_threshold": 0.0
	},
	"attributes": {
	"early_stopping_patience_counter": 0
	}
	},
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 8.466616566153216e+16,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}