883k_finetune_model / trainer_state.json

Update model files

4b025d2 about 2 months ago

22.3 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0,
	"eval_steps": 500,
	"global_step": 6135,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.008149959250203748,
	"grad_norm": 0.18579324653121165,
	"learning_rate": 0.0007999910290180627,
	"loss": 0.6628,
	"step": 50
	},
	{
	"epoch": 0.016299918500407497,
	"grad_norm": 0.17807681860788138,
	"learning_rate": 0.0007997893323384012,
	"loss": 0.5165,
	"step": 100
	},
	{
	"epoch": 0.02444987775061125,
	"grad_norm": 0.19350751669754768,
	"learning_rate": 0.0007993223754535443,
	"loss": 0.4975,
	"step": 150
	},
	{
	"epoch": 0.032599837000814993,
	"grad_norm": 0.1628741338405071,
	"learning_rate": 0.0007985904681893655,
	"loss": 0.4859,
	"step": 200
	},
	{
	"epoch": 0.040749796251018745,
	"grad_norm": 0.1692654309709468,
	"learning_rate": 0.0007975940961663036,
	"loss": 0.4698,
	"step": 250
	},
	{
	"epoch": 0.0488997555012225,
	"grad_norm": 0.16755101172401649,
	"learning_rate": 0.0007963339204771541,
	"loss": 0.4584,
	"step": 300
	},
	{
	"epoch": 0.05704971475142624,
	"grad_norm": 0.16981406073926134,
	"learning_rate": 0.0007948107772484337,
	"loss": 0.4497,
	"step": 350
	},
	{
	"epoch": 0.06519967400162999,
	"grad_norm": 0.13393142327752477,
	"learning_rate": 0.0007930256770856106,
	"loss": 0.435,
	"step": 400
	},
	{
	"epoch": 0.07334963325183375,
	"grad_norm": 0.14862318790293866,
	"learning_rate": 0.000790979804402568,
	"loss": 0.4379,
	"step": 450
	},
	{
	"epoch": 0.08149959250203749,
	"grad_norm": 0.14157872785652958,
	"learning_rate": 0.0007886745166357449,
	"loss": 0.4389,
	"step": 500
	},
	{
	"epoch": 0.08964955175224124,
	"grad_norm": 0.14597403141832885,
	"learning_rate": 0.0007861113433434774,
	"loss": 0.4248,
	"step": 550
	},
	{
	"epoch": 0.097799511002445,
	"grad_norm": 0.14439776167516288,
	"learning_rate": 0.0007832919851911376,
	"loss": 0.4316,
	"step": 600
	},
	{
	"epoch": 0.10594947025264874,
	"grad_norm": 0.2043224587005451,
	"learning_rate": 0.0007802183128227408,
	"loss": 0.4168,
	"step": 650
	},
	{
	"epoch": 0.11409942950285248,
	"grad_norm": 0.13509782410904447,
	"learning_rate": 0.0007768923656197741,
	"loss": 0.4198,
	"step": 700
	},
	{
	"epoch": 0.12224938875305623,
	"grad_norm": 0.21692882701447652,
	"learning_rate": 0.0007734641630410531,
	"loss": 0.4286,
	"step": 750
	},
	{
	"epoch": 0.13039934800325997,
	"grad_norm": 0.18392281414572664,
	"learning_rate": 0.000769650312579427,
	"loss": 0.4466,
	"step": 800
	},
	{
	"epoch": 0.13854930725346373,
	"grad_norm": 0.17037687429265078,
	"learning_rate": 0.000765591199150948,
	"loss": 0.4376,
	"step": 850
	},
	{
	"epoch": 0.1466992665036675,
	"grad_norm": 0.17552399857385595,
	"learning_rate": 0.0007612895159772056,
	"loss": 0.4264,
	"step": 900
	},
	{
	"epoch": 0.15484922575387122,
	"grad_norm": 0.1438151353983127,
	"learning_rate": 0.0007567481172248043,
	"loss": 0.41,
	"step": 950
	},
	{
	"epoch": 0.16299918500407498,
	"grad_norm": 0.1447417216259079,
	"learning_rate": 0.0007519700161116256,
	"loss": 0.4119,
	"step": 1000
	},
	{
	"epoch": 0.17114914425427874,
	"grad_norm": 0.15199420470790867,
	"learning_rate": 0.000746958382907557,
	"loss": 0.412,
	"step": 1050
	},
	{
	"epoch": 0.17929910350448247,
	"grad_norm": 0.14727418743789575,
	"learning_rate": 0.0007417165428310189,
	"loss": 0.3946,
	"step": 1100
	},
	{
	"epoch": 0.18744906275468623,
	"grad_norm": 0.34678998038165904,
	"learning_rate": 0.000736471024768781,
	"loss": 0.393,
	"step": 1150
	},
	{
	"epoch": 0.19559902200489,
	"grad_norm": 0.1482936724234658,
	"learning_rate": 0.0007307882077545133,
	"loss": 0.3992,
	"step": 1200
	},
	{
	"epoch": 0.20374898125509372,
	"grad_norm": 0.14346039255661802,
	"learning_rate": 0.00072488591277831,
	"loss": 0.39,
	"step": 1250
	},
	{
	"epoch": 0.21189894050529748,
	"grad_norm": 0.14534505858629046,
	"learning_rate": 0.0007187680560126396,
	"loss": 0.3878,
	"step": 1300
	},
	{
	"epoch": 0.2200488997555012,
	"grad_norm": 0.1388631218472249,
	"learning_rate": 0.0007124386966552088,
	"loss": 0.3746,
	"step": 1350
	},
	{
	"epoch": 0.22819885900570497,
	"grad_norm": 0.15086917327804153,
	"learning_rate": 0.0007059020342356855,
	"loss": 0.3859,
	"step": 1400
	},
	{
	"epoch": 0.23634881825590873,
	"grad_norm": 0.15384912931521313,
	"learning_rate": 0.0006991624058293096,
	"loss": 0.3731,
	"step": 1450
	},
	{
	"epoch": 0.24449877750611246,
	"grad_norm": 0.15914151929826,
	"learning_rate": 0.000692224283179246,
	"loss": 0.3754,
	"step": 1500
	},
	{
	"epoch": 0.2526487367563162,
	"grad_norm": 0.11506887001881892,
	"learning_rate": 0.0006850922697295807,
	"loss": 0.3666,
	"step": 1550
	},
	{
	"epoch": 0.26079869600651995,
	"grad_norm": 0.13052208168058513,
	"learning_rate": 0.0006777710975709381,
	"loss": 0.3766,
	"step": 1600
	},
	{
	"epoch": 0.26894865525672373,
	"grad_norm": 0.11941691123999496,
	"learning_rate": 0.0006702656243007372,
	"loss": 0.3602,
	"step": 1650
	},
	{
	"epoch": 0.27709861450692747,
	"grad_norm": 0.11925894836007636,
	"learning_rate": 0.0006625808298001773,
	"loss": 0.3612,
	"step": 1700
	},
	{
	"epoch": 0.2852485737571312,
	"grad_norm": 0.14308144825812302,
	"learning_rate": 0.0006547218129300866,
	"loss": 0.3609,
	"step": 1750
	},
	{
	"epoch": 0.293398533007335,
	"grad_norm": 0.14967189995049074,
	"learning_rate": 0.0006466937881478278,
	"loss": 0.3561,
	"step": 1800
	},
	{
	"epoch": 0.3015484922575387,
	"grad_norm": 0.13228828753052413,
	"learning_rate": 0.0006385020820475062,
	"loss": 0.348,
	"step": 1850
	},
	{
	"epoch": 0.30969845150774244,
	"grad_norm": 0.13322170574643283,
	"learning_rate": 0.000630152129825775,
	"loss": 0.3697,
	"step": 1900
	},
	{
	"epoch": 0.31784841075794623,
	"grad_norm": 0.12720122919651028,
	"learning_rate": 0.0006216494716755822,
	"loss": 0.3448,
	"step": 1950
	},
	{
	"epoch": 0.32599837000814996,
	"grad_norm": 0.13582416923221627,
	"learning_rate": 0.0006129997491102531,
	"loss": 0.3567,
	"step": 2000
	},
	{
	"epoch": 0.3341483292583537,
	"grad_norm": 0.14925459708686192,
	"learning_rate": 0.000604208701220346,
	"loss": 0.3484,
	"step": 2050
	},
	{
	"epoch": 0.3422982885085575,
	"grad_norm": 0.1243721342991605,
	"learning_rate": 0.000595282160865766,
	"loss": 0.3484,
	"step": 2100
	},
	{
	"epoch": 0.3504482477587612,
	"grad_norm": 0.11953241203626794,
	"learning_rate": 0.0005862260508056631,
	"loss": 0.3458,
	"step": 2150
	},
	{
	"epoch": 0.35859820700896494,
	"grad_norm": 0.11268782331878287,
	"learning_rate": 0.0005770463797686815,
	"loss": 0.339,
	"step": 2200
	},
	{
	"epoch": 0.36674816625916873,
	"grad_norm": 0.11687380056427817,
	"learning_rate": 0.0005677492384661679,
	"loss": 0.3337,
	"step": 2250
	},
	{
	"epoch": 0.37489812550937246,
	"grad_norm": 0.12673741702704472,
	"learning_rate": 0.0005583407955509861,
	"loss": 0.3346,
	"step": 2300
	},
	{
	"epoch": 0.3830480847595762,
	"grad_norm": 0.11915610120268014,
	"learning_rate": 0.0005488272935246143,
	"loss": 0.333,
	"step": 2350
	},
	{
	"epoch": 0.39119804400978,
	"grad_norm": 0.13402357429565842,
	"learning_rate": 0.0005392150445952471,
	"loss": 0.3305,
	"step": 2400
	},
	{
	"epoch": 0.3993480032599837,
	"grad_norm": 0.1160573866470615,
	"learning_rate": 0.0005295104264896449,
	"loss": 0.34,
	"step": 2450
	},
	{
	"epoch": 0.40749796251018744,
	"grad_norm": 0.11766125729550878,
	"learning_rate": 0.0005197198782215126,
	"loss": 0.3282,
	"step": 2500
	},
	{
	"epoch": 0.4156479217603912,
	"grad_norm": 0.10590606446287697,
	"learning_rate": 0.0005098498958192145,
	"loss": 0.3299,
	"step": 2550
	},
	{
	"epoch": 0.42379788101059496,
	"grad_norm": 0.11241439393785868,
	"learning_rate": 0.0004999070280156597,
	"loss": 0.3298,
	"step": 2600
	},
	{
	"epoch": 0.4319478402607987,
	"grad_norm": 0.11125810401522715,
	"learning_rate": 0.0004898978719032175,
	"loss": 0.3215,
	"step": 2650
	},
	{
	"epoch": 0.4400977995110024,
	"grad_norm": 0.11191318960071489,
	"learning_rate": 0.0004798290685565476,
	"loss": 0.3249,
	"step": 2700
	},
	{
	"epoch": 0.4482477587612062,
	"grad_norm": 0.1287365840788498,
	"learning_rate": 0.0004697072986262474,
	"loss": 0.3161,
	"step": 2750
	},
	{
	"epoch": 0.45639771801140994,
	"grad_norm": 0.11552326003349313,
	"learning_rate": 0.00045953927790623976,
	"loss": 0.3124,
	"step": 2800
	},
	{
	"epoch": 0.46454767726161367,
	"grad_norm": 0.11748617144150195,
	"learning_rate": 0.0004493317528778449,
	"loss": 0.3218,
	"step": 2850
	},
	{
	"epoch": 0.47269763651181745,
	"grad_norm": 0.10367103487291035,
	"learning_rate": 0.00043909149623349,
	"loss": 0.3038,
	"step": 2900
	},
	{
	"epoch": 0.4808475957620212,
	"grad_norm": 0.13997935598004313,
	"learning_rate": 0.00042882530238302793,
	"loss": 0.3079,
	"step": 2950
	},
	{
	"epoch": 0.4889975550122249,
	"grad_norm": 0.11405505781771122,
	"learning_rate": 0.000418539982945647,
	"loss": 0.3161,
	"step": 3000
	},
	{
	"epoch": 0.4971475142624287,
	"grad_norm": 0.10244350957803788,
	"learning_rate": 0.000408242362230361,
	"loss": 0.3121,
	"step": 3050
	},
	{
	"epoch": 0.5052974735126324,
	"grad_norm": 0.11487103054153286,
	"learning_rate": 0.0003979392727080819,
	"loss": 0.3048,
	"step": 3100
	},
	{
	"epoch": 0.5134474327628362,
	"grad_norm": 0.1105131381250625,
	"learning_rate": 0.0003876375504782742,
	"loss": 0.2951,
	"step": 3150
	},
	{
	"epoch": 0.5215973920130399,
	"grad_norm": 0.1114339713919424,
	"learning_rate": 0.00037734403073320455,
	"loss": 0.2978,
	"step": 3200
	},
	{
	"epoch": 0.5297473512632437,
	"grad_norm": 0.12439423946252776,
	"learning_rate": 0.0003670655432227906,
	"loss": 0.2977,
	"step": 3250
	},
	{
	"epoch": 0.5378973105134475,
	"grad_norm": 0.10946864392870362,
	"learning_rate": 0.0003568089077230634,
	"loss": 0.2966,
	"step": 3300
	},
	{
	"epoch": 0.5460472697636511,
	"grad_norm": 0.09312964606321276,
	"learning_rate": 0.00034658092951124573,
	"loss": 0.2877,
	"step": 3350
	},
	{
	"epoch": 0.5541972290138549,
	"grad_norm": 0.1251440088268339,
	"learning_rate": 0.00033638839485045124,
	"loss": 0.2953,
	"step": 3400
	},
	{
	"epoch": 0.5623471882640587,
	"grad_norm": 0.11260490319865255,
	"learning_rate": 0.00032623806648699865,
	"loss": 0.2836,
	"step": 3450
	},
	{
	"epoch": 0.5704971475142624,
	"grad_norm": 0.10260196893419725,
	"learning_rate": 0.00031613667916333013,
	"loss": 0.2883,
	"step": 3500
	},
	{
	"epoch": 0.5786471067644662,
	"grad_norm": 0.11067247135798225,
	"learning_rate": 0.0003060909351495104,
	"loss": 0.2919,
	"step": 3550
	},
	{
	"epoch": 0.58679706601467,
	"grad_norm": 0.13049869044328746,
	"learning_rate": 0.00029610749979627,
	"loss": 0.2801,
	"step": 3600
	},
	{
	"epoch": 0.5949470252648736,
	"grad_norm": 0.0994668923515135,
	"learning_rate": 0.0002861929971125462,
	"loss": 0.2764,
	"step": 3650
	},
	{
	"epoch": 0.6030969845150774,
	"grad_norm": 0.12787979565602525,
	"learning_rate": 0.0002763540053704528,
	"loss": 0.2828,
	"step": 3700
	},
	{
	"epoch": 0.6112469437652812,
	"grad_norm": 0.11702233580318924,
	"learning_rate": 0.0002665970527405966,
	"loss": 0.275,
	"step": 3750
	},
	{
	"epoch": 0.6193969030154849,
	"grad_norm": 0.12216378448453033,
	"learning_rate": 0.0002569286129606376,
	"loss": 0.2781,
	"step": 3800
	},
	{
	"epoch": 0.6275468622656887,
	"grad_norm": 0.11991224657683039,
	"learning_rate": 0.00024735510103996296,
	"loss": 0.2779,
	"step": 3850
	},
	{
	"epoch": 0.6356968215158925,
	"grad_norm": 0.11355699073704052,
	"learning_rate": 0.00023788286900332977,
	"loss": 0.278,
	"step": 3900
	},
	{
	"epoch": 0.6438467807660961,
	"grad_norm": 0.10548043571718951,
	"learning_rate": 0.00022851820167629582,
	"loss": 0.2737,
	"step": 3950
	},
	{
	"epoch": 0.6519967400162999,
	"grad_norm": 0.10359945452094396,
	"learning_rate": 0.0002192673125152389,
	"loss": 0.2724,
	"step": 4000
	},
	{
	"epoch": 0.6601466992665037,
	"grad_norm": 0.11760044543664713,
	"learning_rate": 0.0002101363394847284,
	"loss": 0.2629,
	"step": 4050
	},
	{
	"epoch": 0.6682966585167074,
	"grad_norm": 0.1061394336514801,
	"learning_rate": 0.00020113134098498586,
	"loss": 0.2686,
	"step": 4100
	},
	{
	"epoch": 0.6764466177669112,
	"grad_norm": 0.12584575464846712,
	"learning_rate": 0.00019225829183213756,
	"loss": 0.2699,
	"step": 4150
	},
	{
	"epoch": 0.684596577017115,
	"grad_norm": 0.11274050205692296,
	"learning_rate": 0.00018352307929392337,
	"loss": 0.26,
	"step": 4200
	},
	{
	"epoch": 0.6927465362673186,
	"grad_norm": 0.10624178207114862,
	"learning_rate": 0.0001749314991834945,
	"loss": 0.2676,
	"step": 4250
	},
	{
	"epoch": 0.7008964955175224,
	"grad_norm": 0.10585200267430328,
	"learning_rate": 0.00016648925201389348,
	"loss": 0.2699,
	"step": 4300
	},
	{
	"epoch": 0.7090464547677262,
	"grad_norm": 0.1036684915414757,
	"learning_rate": 0.00015820193921576214,
	"loss": 0.266,
	"step": 4350
	},
	{
	"epoch": 0.7171964140179299,
	"grad_norm": 0.11470877255663611,
	"learning_rate": 0.00015007505942079362,
	"loss": 0.2574,
	"step": 4400
	},
	{
	"epoch": 0.7253463732681337,
	"grad_norm": 0.11442215173910815,
	"learning_rate": 0.00014211400481339013,
	"loss": 0.2536,
	"step": 4450
	},
	{
	"epoch": 0.7334963325183375,
	"grad_norm": 0.10579448760201741,
	"learning_rate": 0.00013432405755294893,
	"loss": 0.2518,
	"step": 4500
	},
	{
	"epoch": 0.7416462917685411,
	"grad_norm": 0.11019413291456029,
	"learning_rate": 0.0001267103862691497,
	"loss": 0.2528,
	"step": 4550
	},
	{
	"epoch": 0.7497962510187449,
	"grad_norm": 0.1237941013535732,
	"learning_rate": 0.00011927804263256903,
	"loss": 0.2506,
	"step": 4600
	},
	{
	"epoch": 0.7579462102689487,
	"grad_norm": 0.11747893253572085,
	"learning_rate": 0.0001120319580028975,
	"loss": 0.2432,
	"step": 4650
	},
	{
	"epoch": 0.7660961695191524,
	"grad_norm": 0.13243835140024088,
	"learning_rate": 0.00010497694015698214,
	"loss": 0.2502,
	"step": 4700
	},
	{
	"epoch": 0.7742461287693562,
	"grad_norm": 0.12096359907685643,
	"learning_rate": 9.811767009886681e-05,
	"loss": 0.2515,
	"step": 4750
	},
	{
	"epoch": 0.78239608801956,
	"grad_norm": 0.1010867422514499,
	"learning_rate": 9.145869895394685e-05,
	"loss": 0.2471,
	"step": 4800
	},
	{
	"epoch": 0.7905460472697636,
	"grad_norm": 0.12108612955883465,
	"learning_rate": 8.500444494929692e-05,
	"loss": 0.2508,
	"step": 4850
	},
	{
	"epoch": 0.7986960065199674,
	"grad_norm": 0.11827129819048823,
	"learning_rate": 7.875919048217753e-05,
	"loss": 0.2421,
	"step": 4900
	},
	{
	"epoch": 0.8068459657701712,
	"grad_norm": 0.10889141696060357,
	"learning_rate": 7.272707927866531e-05,
	"loss": 0.2444,
	"step": 4950
	},
	{
	"epoch": 0.8149959250203749,
	"grad_norm": 0.11478478031330713,
	"learning_rate": 6.691211364428989e-05,
	"loss": 0.239,
	"step": 5000
	},
	{
	"epoch": 0.8231458842705787,
	"grad_norm": 0.12806490540385113,
	"learning_rate": 6.131815180850508e-05,
	"loss": 0.2429,
	"step": 5050
	},
	{
	"epoch": 0.8312958435207825,
	"grad_norm": 0.10357727349126965,
	"learning_rate": 5.5948905364753945e-05,
	"loss": 0.2467,
	"step": 5100
	},
	{
	"epoch": 0.8394458027709861,
	"grad_norm": 0.1101292515864723,
	"learning_rate": 5.080793680782607e-05,
	"loss": 0.2405,
	"step": 5150
	},
	{
	"epoch": 0.8475957620211899,
	"grad_norm": 0.10144980764898691,
	"learning_rate": 4.5898657170142746e-05,
	"loss": 0.235,
	"step": 5200
	},
	{
	"epoch": 0.8557457212713936,
	"grad_norm": 0.11277819168557472,
	"learning_rate": 4.1224323758537155e-05,
	"loss": 0.2341,
	"step": 5250
	},
	{
	"epoch": 0.8638956805215974,
	"grad_norm": 0.10800888686256803,
	"learning_rate": 3.678803799303134e-05,
	"loss": 0.24,
	"step": 5300
	},
	{
	"epoch": 0.8720456397718012,
	"grad_norm": 0.11901575566402685,
	"learning_rate": 3.2592743349044186e-05,
	"loss": 0.2341,
	"step": 5350
	},
	{
	"epoch": 0.8801955990220048,
	"grad_norm": 0.12444346139158177,
	"learning_rate": 2.8641223404395524e-05,
	"loss": 0.2291,
	"step": 5400
	},
	{
	"epoch": 0.8883455582722086,
	"grad_norm": 0.10818161109308624,
	"learning_rate": 2.4936099992402606e-05,
	"loss": 0.2357,
	"step": 5450
	},
	{
	"epoch": 0.8964955175224124,
	"grad_norm": 0.12545021889499927,
	"learning_rate": 2.1479831462293265e-05,
	"loss": 0.2349,
	"step": 5500
	},
	{
	"epoch": 0.9046454767726161,
	"grad_norm": 0.14021615830916254,
	"learning_rate": 1.8274711048092084e-05,
	"loss": 0.2306,
	"step": 5550
	},
	{
	"epoch": 0.9127954360228199,
	"grad_norm": 0.10349748867815296,
	"learning_rate": 1.5322865347059044e-05,
	"loss": 0.2243,
	"step": 5600
	},
	{
	"epoch": 0.9209453952730237,
	"grad_norm": 0.11963300064608776,
	"learning_rate": 1.2626252908692638e-05,
	"loss": 0.2333,
	"step": 5650
	},
	{
	"epoch": 0.9290953545232273,
	"grad_norm": 0.10953396833548994,
	"learning_rate": 1.0186662935232384e-05,
	"loss": 0.2339,
	"step": 5700
	},
	{
	"epoch": 0.9372453137734311,
	"grad_norm": 0.1224263724970897,
	"learning_rate": 8.00571409452302e-06,
	"loss": 0.2313,
	"step": 5750
	},
	{
	"epoch": 0.9453952730236349,
	"grad_norm": 0.12352858513849092,
	"learning_rate": 6.084853446028671e-06,
	"loss": 0.2296,
	"step": 5800
	},
	{
	"epoch": 0.9535452322738386,
	"grad_norm": 0.12633679586576274,
	"learning_rate": 4.425355480708859e-06,
	"loss": 0.2354,
	"step": 5850
	},
	{
	"epoch": 0.9616951915240424,
	"grad_norm": 0.10627066652464928,
	"learning_rate": 3.028321275393786e-06,
	"loss": 0.2332,
	"step": 5900
	},
	{
	"epoch": 0.9698451507742462,
	"grad_norm": 0.12495472546410136,
	"learning_rate": 1.8946777622199652e-06,
	"loss": 0.2297,
	"step": 5950
	},
	{
	"epoch": 0.9779951100244498,
	"grad_norm": 0.11479937267870474,
	"learning_rate": 1.0251771136106314e-06,
	"loss": 0.2372,
	"step": 6000
	},
	{
	"epoch": 0.9861450692746536,
	"grad_norm": 0.1274989460799885,
	"learning_rate": 4.203962432096642e-07,
	"loss": 0.2316,
	"step": 6050
	},
	{
	"epoch": 0.9942950285248574,
	"grad_norm": 0.10997701182931913,
	"learning_rate": 8.073642309907036e-08,
	"loss": 0.2289,
	"step": 6100
	},
	{
	"epoch": 1.0,
	"step": 6135,
	"total_flos": 307270109495296.0,
	"train_loss": 0.320441021565606,
	"train_runtime": 141453.5974,
	"train_samples_per_second": 6.245,
	"train_steps_per_second": 0.043
	}
	],
	"logging_steps": 50,
	"max_steps": 6135,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 307270109495296.0,
	"train_batch_size": 18,
	"trial_name": null,
	"trial_params": null
	}