Nllb-en-2-ta-translation / trainer_state.json

Upload folder using huggingface_hub

0d05307 verified about 1 month ago

41.7 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 10.0,
	"eval_steps": 500,
	"global_step": 112500,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.044444444444444446,
	"grad_norm": 2.7033166885375977,
	"learning_rate": 1.9911644444444447e-05,
	"loss": 2.2268,
	"step": 500
	},
	{
	"epoch": 0.08888888888888889,
	"grad_norm": 2.958282232284546,
	"learning_rate": 1.9822755555555557e-05,
	"loss": 2.0732,
	"step": 1000
	},
	{
	"epoch": 0.13333333333333333,
	"grad_norm": 3.01822829246521,
	"learning_rate": 1.9733866666666668e-05,
	"loss": 2.0296,
	"step": 1500
	},
	{
	"epoch": 0.17777777777777778,
	"grad_norm": 2.8041861057281494,
	"learning_rate": 1.9644977777777778e-05,
	"loss": 2.0176,
	"step": 2000
	},
	{
	"epoch": 0.2222222222222222,
	"grad_norm": 2.194178342819214,
	"learning_rate": 1.9556088888888892e-05,
	"loss": 2.0181,
	"step": 2500
	},
	{
	"epoch": 0.26666666666666666,
	"grad_norm": 2.7587132453918457,
	"learning_rate": 1.9467200000000002e-05,
	"loss": 1.9864,
	"step": 3000
	},
	{
	"epoch": 0.3111111111111111,
	"grad_norm": 2.8509016036987305,
	"learning_rate": 1.9378311111111113e-05,
	"loss": 1.9701,
	"step": 3500
	},
	{
	"epoch": 0.35555555555555557,
	"grad_norm": 2.180856704711914,
	"learning_rate": 1.9289422222222223e-05,
	"loss": 1.936,
	"step": 4000
	},
	{
	"epoch": 0.4,
	"grad_norm": 2.2034873962402344,
	"learning_rate": 1.9200533333333337e-05,
	"loss": 1.9455,
	"step": 4500
	},
	{
	"epoch": 0.4444444444444444,
	"grad_norm": 3.1408488750457764,
	"learning_rate": 1.9111644444444447e-05,
	"loss": 1.9438,
	"step": 5000
	},
	{
	"epoch": 0.4888888888888889,
	"grad_norm": 3.070190191268921,
	"learning_rate": 1.9022755555555558e-05,
	"loss": 1.9491,
	"step": 5500
	},
	{
	"epoch": 0.5333333333333333,
	"grad_norm": 2.0312423706054688,
	"learning_rate": 1.893386666666667e-05,
	"loss": 1.9236,
	"step": 6000
	},
	{
	"epoch": 0.5777777777777777,
	"grad_norm": 2.183950424194336,
	"learning_rate": 1.884497777777778e-05,
	"loss": 1.9111,
	"step": 6500
	},
	{
	"epoch": 0.6222222222222222,
	"grad_norm": 2.13474702835083,
	"learning_rate": 1.875608888888889e-05,
	"loss": 1.9158,
	"step": 7000
	},
	{
	"epoch": 0.6666666666666666,
	"grad_norm": 2.055859327316284,
	"learning_rate": 1.866737777777778e-05,
	"loss": 1.8952,
	"step": 7500
	},
	{
	"epoch": 0.7111111111111111,
	"grad_norm": 2.280942916870117,
	"learning_rate": 1.857848888888889e-05,
	"loss": 1.9023,
	"step": 8000
	},
	{
	"epoch": 0.7555555555555555,
	"grad_norm": 3.20082426071167,
	"learning_rate": 1.84896e-05,
	"loss": 1.8711,
	"step": 8500
	},
	{
	"epoch": 0.8,
	"grad_norm": 2.5550222396850586,
	"learning_rate": 1.8400711111111114e-05,
	"loss": 1.8865,
	"step": 9000
	},
	{
	"epoch": 0.8444444444444444,
	"grad_norm": 3.101032018661499,
	"learning_rate": 1.8311822222222224e-05,
	"loss": 1.8942,
	"step": 9500
	},
	{
	"epoch": 0.8888888888888888,
	"grad_norm": 1.9913034439086914,
	"learning_rate": 1.8222933333333335e-05,
	"loss": 1.8823,
	"step": 10000
	},
	{
	"epoch": 0.9333333333333333,
	"grad_norm": 1.8786649703979492,
	"learning_rate": 1.8134044444444445e-05,
	"loss": 1.8903,
	"step": 10500
	},
	{
	"epoch": 0.9777777777777777,
	"grad_norm": 2.1240804195404053,
	"learning_rate": 1.804515555555556e-05,
	"loss": 1.8759,
	"step": 11000
	},
	{
	"epoch": 1.0,
	"eval_Sacrebleu": 10.927683654987915,
	"eval_loss": 1.7730144262313843,
	"eval_runtime": 5155.9444,
	"eval_samples_per_second": 1.94,
	"eval_steps_per_second": 0.242,
	"step": 11250
	},
	{
	"epoch": 1.0222222222222221,
	"grad_norm": 3.4717421531677246,
	"learning_rate": 1.795626666666667e-05,
	"loss": 1.809,
	"step": 11500
	},
	{
	"epoch": 1.0666666666666667,
	"grad_norm": 2.8455264568328857,
	"learning_rate": 1.786755555555556e-05,
	"loss": 1.7839,
	"step": 12000
	},
	{
	"epoch": 1.1111111111111112,
	"grad_norm": 2.3160150051116943,
	"learning_rate": 1.7778844444444446e-05,
	"loss": 1.7898,
	"step": 12500
	},
	{
	"epoch": 1.1555555555555554,
	"grad_norm": 2.7126030921936035,
	"learning_rate": 1.768995555555556e-05,
	"loss": 1.7653,
	"step": 13000
	},
	{
	"epoch": 1.2,
	"grad_norm": 2.833963394165039,
	"learning_rate": 1.760106666666667e-05,
	"loss": 1.7937,
	"step": 13500
	},
	{
	"epoch": 1.2444444444444445,
	"grad_norm": 2.582491159439087,
	"learning_rate": 1.751217777777778e-05,
	"loss": 1.7672,
	"step": 14000
	},
	{
	"epoch": 1.2888888888888888,
	"grad_norm": 2.6020431518554688,
	"learning_rate": 1.742346666666667e-05,
	"loss": 1.7788,
	"step": 14500
	},
	{
	"epoch": 1.3333333333333333,
	"grad_norm": 2.6280031204223633,
	"learning_rate": 1.733457777777778e-05,
	"loss": 1.7617,
	"step": 15000
	},
	{
	"epoch": 1.3777777777777778,
	"grad_norm": 2.258315324783325,
	"learning_rate": 1.724568888888889e-05,
	"loss": 1.7603,
	"step": 15500
	},
	{
	"epoch": 1.4222222222222223,
	"grad_norm": 2.546867847442627,
	"learning_rate": 1.71568e-05,
	"loss": 1.7639,
	"step": 16000
	},
	{
	"epoch": 1.4666666666666668,
	"grad_norm": 2.596524715423584,
	"learning_rate": 1.7067911111111112e-05,
	"loss": 1.7787,
	"step": 16500
	},
	{
	"epoch": 1.511111111111111,
	"grad_norm": 2.728980541229248,
	"learning_rate": 1.6979022222222222e-05,
	"loss": 1.7728,
	"step": 17000
	},
	{
	"epoch": 1.5555555555555556,
	"grad_norm": 1.9743603467941284,
	"learning_rate": 1.6890133333333333e-05,
	"loss": 1.7436,
	"step": 17500
	},
	{
	"epoch": 1.6,
	"grad_norm": 2.306102991104126,
	"learning_rate": 1.6801422222222223e-05,
	"loss": 1.7593,
	"step": 18000
	},
	{
	"epoch": 1.6444444444444444,
	"grad_norm": 2.595468282699585,
	"learning_rate": 1.6712533333333333e-05,
	"loss": 1.7587,
	"step": 18500
	},
	{
	"epoch": 1.6888888888888889,
	"grad_norm": 1.8225383758544922,
	"learning_rate": 1.6623644444444447e-05,
	"loss": 1.7852,
	"step": 19000
	},
	{
	"epoch": 1.7333333333333334,
	"grad_norm": 2.581843852996826,
	"learning_rate": 1.6534755555555557e-05,
	"loss": 1.7582,
	"step": 19500
	},
	{
	"epoch": 1.7777777777777777,
	"grad_norm": 1.9384685754776,
	"learning_rate": 1.6445866666666668e-05,
	"loss": 1.7544,
	"step": 20000
	},
	{
	"epoch": 1.8222222222222222,
	"grad_norm": 2.542980670928955,
	"learning_rate": 1.6356977777777778e-05,
	"loss": 1.7592,
	"step": 20500
	},
	{
	"epoch": 1.8666666666666667,
	"grad_norm": 2.4207804203033447,
	"learning_rate": 1.6268088888888892e-05,
	"loss": 1.7685,
	"step": 21000
	},
	{
	"epoch": 1.911111111111111,
	"grad_norm": 2.7720110416412354,
	"learning_rate": 1.617937777777778e-05,
	"loss": 1.7654,
	"step": 21500
	},
	{
	"epoch": 1.9555555555555557,
	"grad_norm": 2.8182454109191895,
	"learning_rate": 1.6090488888888892e-05,
	"loss": 1.7577,
	"step": 22000
	},
	{
	"epoch": 2.0,
	"grad_norm": 2.3921427726745605,
	"learning_rate": 1.6001600000000003e-05,
	"loss": 1.7666,
	"step": 22500
	},
	{
	"epoch": 2.0,
	"eval_Sacrebleu": 11.504795316238502,
	"eval_loss": 1.7359962463378906,
	"eval_runtime": 4723.0089,
	"eval_samples_per_second": 2.117,
	"eval_steps_per_second": 0.265,
	"step": 22500
	},
	{
	"epoch": 2.0444444444444443,
	"grad_norm": 2.5132415294647217,
	"learning_rate": 1.5912711111111113e-05,
	"loss": 1.6699,
	"step": 23000
	},
	{
	"epoch": 2.088888888888889,
	"grad_norm": 2.244852066040039,
	"learning_rate": 1.5823822222222224e-05,
	"loss": 1.6636,
	"step": 23500
	},
	{
	"epoch": 2.1333333333333333,
	"grad_norm": 2.456984281539917,
	"learning_rate": 1.5734933333333334e-05,
	"loss": 1.6812,
	"step": 24000
	},
	{
	"epoch": 2.1777777777777776,
	"grad_norm": 2.611400842666626,
	"learning_rate": 1.5646044444444445e-05,
	"loss": 1.6813,
	"step": 24500
	},
	{
	"epoch": 2.2222222222222223,
	"grad_norm": 2.504777431488037,
	"learning_rate": 1.5557155555555555e-05,
	"loss": 1.6698,
	"step": 25000
	},
	{
	"epoch": 2.2666666666666666,
	"grad_norm": 1.9886395931243896,
	"learning_rate": 1.5468444444444445e-05,
	"loss": 1.6649,
	"step": 25500
	},
	{
	"epoch": 2.311111111111111,
	"grad_norm": 2.4218804836273193,
	"learning_rate": 1.5379555555555555e-05,
	"loss": 1.6827,
	"step": 26000
	},
	{
	"epoch": 2.3555555555555556,
	"grad_norm": 2.380363941192627,
	"learning_rate": 1.5290666666666666e-05,
	"loss": 1.6821,
	"step": 26500
	},
	{
	"epoch": 2.4,
	"grad_norm": 2.9390811920166016,
	"learning_rate": 1.520177777777778e-05,
	"loss": 1.6517,
	"step": 27000
	},
	{
	"epoch": 2.4444444444444446,
	"grad_norm": 2.278156042098999,
	"learning_rate": 1.511288888888889e-05,
	"loss": 1.6551,
	"step": 27500
	},
	{
	"epoch": 2.488888888888889,
	"grad_norm": 2.5583651065826416,
	"learning_rate": 1.5024e-05,
	"loss": 1.6386,
	"step": 28000
	},
	{
	"epoch": 2.533333333333333,
	"grad_norm": 2.4227840900421143,
	"learning_rate": 1.493528888888889e-05,
	"loss": 1.6808,
	"step": 28500
	},
	{
	"epoch": 2.5777777777777775,
	"grad_norm": 2.4636645317077637,
	"learning_rate": 1.48464e-05,
	"loss": 1.6675,
	"step": 29000
	},
	{
	"epoch": 2.6222222222222222,
	"grad_norm": 1.932691216468811,
	"learning_rate": 1.4757511111111111e-05,
	"loss": 1.6649,
	"step": 29500
	},
	{
	"epoch": 2.6666666666666665,
	"grad_norm": 2.324248790740967,
	"learning_rate": 1.4668622222222223e-05,
	"loss": 1.641,
	"step": 30000
	},
	{
	"epoch": 2.7111111111111112,
	"grad_norm": 2.5001227855682373,
	"learning_rate": 1.4579733333333335e-05,
	"loss": 1.6593,
	"step": 30500
	},
	{
	"epoch": 2.7555555555555555,
	"grad_norm": 2.053122043609619,
	"learning_rate": 1.4490844444444446e-05,
	"loss": 1.6679,
	"step": 31000
	},
	{
	"epoch": 2.8,
	"grad_norm": 2.3404734134674072,
	"learning_rate": 1.4401955555555556e-05,
	"loss": 1.6705,
	"step": 31500
	},
	{
	"epoch": 2.8444444444444446,
	"grad_norm": 1.811047911643982,
	"learning_rate": 1.4313066666666669e-05,
	"loss": 1.6573,
	"step": 32000
	},
	{
	"epoch": 2.888888888888889,
	"grad_norm": 2.5269010066986084,
	"learning_rate": 1.4224355555555555e-05,
	"loss": 1.6659,
	"step": 32500
	},
	{
	"epoch": 2.9333333333333336,
	"grad_norm": 3.2324156761169434,
	"learning_rate": 1.4135466666666669e-05,
	"loss": 1.6509,
	"step": 33000
	},
	{
	"epoch": 2.977777777777778,
	"grad_norm": 2.910116195678711,
	"learning_rate": 1.404657777777778e-05,
	"loss": 1.6799,
	"step": 33500
	},
	{
	"epoch": 3.0,
	"eval_Sacrebleu": 11.461615098924428,
	"eval_loss": 1.7215642929077148,
	"eval_runtime": 4737.4626,
	"eval_samples_per_second": 2.111,
	"eval_steps_per_second": 0.264,
	"step": 33750
	},
	{
	"epoch": 3.022222222222222,
	"grad_norm": 2.388887643814087,
	"learning_rate": 1.395768888888889e-05,
	"loss": 1.6205,
	"step": 34000
	},
	{
	"epoch": 3.066666666666667,
	"grad_norm": 2.422229290008545,
	"learning_rate": 1.38688e-05,
	"loss": 1.5935,
	"step": 34500
	},
	{
	"epoch": 3.111111111111111,
	"grad_norm": 2.689824104309082,
	"learning_rate": 1.378008888888889e-05,
	"loss": 1.5677,
	"step": 35000
	},
	{
	"epoch": 3.1555555555555554,
	"grad_norm": 2.5040597915649414,
	"learning_rate": 1.369137777777778e-05,
	"loss": 1.5982,
	"step": 35500
	},
	{
	"epoch": 3.2,
	"grad_norm": 2.0994420051574707,
	"learning_rate": 1.360248888888889e-05,
	"loss": 1.6006,
	"step": 36000
	},
	{
	"epoch": 3.2444444444444445,
	"grad_norm": 2.4700512886047363,
	"learning_rate": 1.35136e-05,
	"loss": 1.594,
	"step": 36500
	},
	{
	"epoch": 3.2888888888888888,
	"grad_norm": 2.679499864578247,
	"learning_rate": 1.3424711111111113e-05,
	"loss": 1.5901,
	"step": 37000
	},
	{
	"epoch": 3.3333333333333335,
	"grad_norm": 2.6343369483947754,
	"learning_rate": 1.3335822222222223e-05,
	"loss": 1.5875,
	"step": 37500
	},
	{
	"epoch": 3.3777777777777778,
	"grad_norm": 2.5335209369659424,
	"learning_rate": 1.3247111111111113e-05,
	"loss": 1.6139,
	"step": 38000
	},
	{
	"epoch": 3.422222222222222,
	"grad_norm": 2.9107964038848877,
	"learning_rate": 1.3158222222222223e-05,
	"loss": 1.6033,
	"step": 38500
	},
	{
	"epoch": 3.466666666666667,
	"grad_norm": 2.534843921661377,
	"learning_rate": 1.3069333333333334e-05,
	"loss": 1.584,
	"step": 39000
	},
	{
	"epoch": 3.511111111111111,
	"grad_norm": 2.409266710281372,
	"learning_rate": 1.2980444444444444e-05,
	"loss": 1.5854,
	"step": 39500
	},
	{
	"epoch": 3.5555555555555554,
	"grad_norm": 2.509253740310669,
	"learning_rate": 1.2891555555555556e-05,
	"loss": 1.5809,
	"step": 40000
	},
	{
	"epoch": 3.6,
	"grad_norm": 1.9488080739974976,
	"learning_rate": 1.2802666666666667e-05,
	"loss": 1.5889,
	"step": 40500
	},
	{
	"epoch": 3.6444444444444444,
	"grad_norm": 2.8996152877807617,
	"learning_rate": 1.2713777777777779e-05,
	"loss": 1.5807,
	"step": 41000
	},
	{
	"epoch": 3.688888888888889,
	"grad_norm": 2.444199800491333,
	"learning_rate": 1.2624888888888891e-05,
	"loss": 1.6047,
	"step": 41500
	},
	{
	"epoch": 3.7333333333333334,
	"grad_norm": 2.627521276473999,
	"learning_rate": 1.2536000000000002e-05,
	"loss": 1.582,
	"step": 42000
	},
	{
	"epoch": 3.7777777777777777,
	"grad_norm": 2.4339983463287354,
	"learning_rate": 1.2447288888888891e-05,
	"loss": 1.5887,
	"step": 42500
	},
	{
	"epoch": 3.822222222222222,
	"grad_norm": 2.3496522903442383,
	"learning_rate": 1.2358577777777778e-05,
	"loss": 1.5878,
	"step": 43000
	},
	{
	"epoch": 3.8666666666666667,
	"grad_norm": 2.325495719909668,
	"learning_rate": 1.2269688888888892e-05,
	"loss": 1.5826,
	"step": 43500
	},
	{
	"epoch": 3.911111111111111,
	"grad_norm": 2.1297905445098877,
	"learning_rate": 1.2180800000000002e-05,
	"loss": 1.6244,
	"step": 44000
	},
	{
	"epoch": 3.9555555555555557,
	"grad_norm": 2.5512731075286865,
	"learning_rate": 1.2091911111111112e-05,
	"loss": 1.6075,
	"step": 44500
	},
	{
	"epoch": 4.0,
	"grad_norm": 1.9816246032714844,
	"learning_rate": 1.2003200000000002e-05,
	"loss": 1.5647,
	"step": 45000
	},
	{
	"epoch": 4.0,
	"eval_Sacrebleu": 11.693143227743814,
	"eval_loss": 1.7151726484298706,
	"eval_runtime": 4558.3443,
	"eval_samples_per_second": 2.194,
	"eval_steps_per_second": 0.274,
	"step": 45000
	},
	{
	"epoch": 4.044444444444444,
	"grad_norm": 2.9890973567962646,
	"learning_rate": 1.1914311111111113e-05,
	"loss": 1.5201,
	"step": 45500
	},
	{
	"epoch": 4.088888888888889,
	"grad_norm": 2.128161668777466,
	"learning_rate": 1.1825422222222223e-05,
	"loss": 1.5305,
	"step": 46000
	},
	{
	"epoch": 4.133333333333334,
	"grad_norm": 2.3265063762664795,
	"learning_rate": 1.1736533333333335e-05,
	"loss": 1.5326,
	"step": 46500
	},
	{
	"epoch": 4.177777777777778,
	"grad_norm": 2.2641632556915283,
	"learning_rate": 1.1647644444444446e-05,
	"loss": 1.5413,
	"step": 47000
	},
	{
	"epoch": 4.222222222222222,
	"grad_norm": 2.4255621433258057,
	"learning_rate": 1.1558755555555556e-05,
	"loss": 1.5391,
	"step": 47500
	},
	{
	"epoch": 4.266666666666667,
	"grad_norm": 2.454061269760132,
	"learning_rate": 1.1469866666666667e-05,
	"loss": 1.5202,
	"step": 48000
	},
	{
	"epoch": 4.311111111111111,
	"grad_norm": 2.373842477798462,
	"learning_rate": 1.138097777777778e-05,
	"loss": 1.5369,
	"step": 48500
	},
	{
	"epoch": 4.355555555555555,
	"grad_norm": 2.1090219020843506,
	"learning_rate": 1.1292088888888891e-05,
	"loss": 1.541,
	"step": 49000
	},
	{
	"epoch": 4.4,
	"grad_norm": 2.7172622680664062,
	"learning_rate": 1.1203200000000001e-05,
	"loss": 1.5172,
	"step": 49500
	},
	{
	"epoch": 4.444444444444445,
	"grad_norm": 2.557300329208374,
	"learning_rate": 1.1114311111111112e-05,
	"loss": 1.5325,
	"step": 50000
	},
	{
	"epoch": 4.488888888888889,
	"grad_norm": 2.321272850036621,
	"learning_rate": 1.1025422222222224e-05,
	"loss": 1.5424,
	"step": 50500
	},
	{
	"epoch": 4.533333333333333,
	"grad_norm": 2.1814475059509277,
	"learning_rate": 1.0936533333333334e-05,
	"loss": 1.5219,
	"step": 51000
	},
	{
	"epoch": 4.5777777777777775,
	"grad_norm": 2.5891165733337402,
	"learning_rate": 1.0847822222222224e-05,
	"loss": 1.5294,
	"step": 51500
	},
	{
	"epoch": 4.622222222222222,
	"grad_norm": 2.655404567718506,
	"learning_rate": 1.0758933333333335e-05,
	"loss": 1.5272,
	"step": 52000
	},
	{
	"epoch": 4.666666666666667,
	"grad_norm": 2.0418145656585693,
	"learning_rate": 1.0670044444444445e-05,
	"loss": 1.5323,
	"step": 52500
	},
	{
	"epoch": 4.711111111111111,
	"grad_norm": 2.315140962600708,
	"learning_rate": 1.0581155555555556e-05,
	"loss": 1.5201,
	"step": 53000
	},
	{
	"epoch": 4.7555555555555555,
	"grad_norm": 2.4892210960388184,
	"learning_rate": 1.0492266666666668e-05,
	"loss": 1.5065,
	"step": 53500
	},
	{
	"epoch": 4.8,
	"grad_norm": 3.2457361221313477,
	"learning_rate": 1.0403555555555556e-05,
	"loss": 1.531,
	"step": 54000
	},
	{
	"epoch": 4.844444444444444,
	"grad_norm": 2.579188346862793,
	"learning_rate": 1.0314666666666668e-05,
	"loss": 1.5093,
	"step": 54500
	},
	{
	"epoch": 4.888888888888889,
	"grad_norm": 2.9643566608428955,
	"learning_rate": 1.0225777777777778e-05,
	"loss": 1.5394,
	"step": 55000
	},
	{
	"epoch": 4.933333333333334,
	"grad_norm": 2.824070930480957,
	"learning_rate": 1.0136888888888889e-05,
	"loss": 1.5352,
	"step": 55500
	},
	{
	"epoch": 4.977777777777778,
	"grad_norm": 2.714317560195923,
	"learning_rate": 1.0048e-05,
	"loss": 1.5055,
	"step": 56000
	},
	{
	"epoch": 5.0,
	"eval_Sacrebleu": 11.699486858073387,
	"eval_loss": 1.7135735750198364,
	"eval_runtime": 6965.0506,
	"eval_samples_per_second": 1.436,
	"eval_steps_per_second": 0.179,
	"step": 56250
	},
	{
	"epoch": 5.022222222222222,
	"grad_norm": 2.3869211673736572,
	"learning_rate": 9.959288888888889e-06,
	"loss": 1.5236,
	"step": 56500
	},
	{
	"epoch": 5.066666666666666,
	"grad_norm": 2.824490785598755,
	"learning_rate": 9.870400000000001e-06,
	"loss": 1.4628,
	"step": 57000
	},
	{
	"epoch": 5.111111111111111,
	"grad_norm": 2.378420829772949,
	"learning_rate": 9.781511111111112e-06,
	"loss": 1.4761,
	"step": 57500
	},
	{
	"epoch": 5.155555555555556,
	"grad_norm": 2.934887647628784,
	"learning_rate": 9.692622222222224e-06,
	"loss": 1.4744,
	"step": 58000
	},
	{
	"epoch": 5.2,
	"grad_norm": 2.5306599140167236,
	"learning_rate": 9.603733333333334e-06,
	"loss": 1.4719,
	"step": 58500
	},
	{
	"epoch": 5.2444444444444445,
	"grad_norm": 2.27069354057312,
	"learning_rate": 9.515022222222224e-06,
	"loss": 1.4717,
	"step": 59000
	},
	{
	"epoch": 5.288888888888889,
	"grad_norm": 2.79362154006958,
	"learning_rate": 9.426133333333335e-06,
	"loss": 1.4671,
	"step": 59500
	},
	{
	"epoch": 5.333333333333333,
	"grad_norm": 2.4642298221588135,
	"learning_rate": 9.337244444444445e-06,
	"loss": 1.4962,
	"step": 60000
	},
	{
	"epoch": 5.377777777777778,
	"grad_norm": 2.8472516536712646,
	"learning_rate": 9.248355555555555e-06,
	"loss": 1.4997,
	"step": 60500
	},
	{
	"epoch": 5.4222222222222225,
	"grad_norm": 2.2296738624572754,
	"learning_rate": 9.159644444444445e-06,
	"loss": 1.4713,
	"step": 61000
	},
	{
	"epoch": 5.466666666666667,
	"grad_norm": 2.8742563724517822,
	"learning_rate": 9.070755555555556e-06,
	"loss": 1.4629,
	"step": 61500
	},
	{
	"epoch": 5.511111111111111,
	"grad_norm": 2.6657145023345947,
	"learning_rate": 8.982044444444445e-06,
	"loss": 1.4653,
	"step": 62000
	},
	{
	"epoch": 5.555555555555555,
	"grad_norm": 2.7092838287353516,
	"learning_rate": 8.893155555555556e-06,
	"loss": 1.4888,
	"step": 62500
	},
	{
	"epoch": 5.6,
	"grad_norm": 2.277348041534424,
	"learning_rate": 8.804266666666668e-06,
	"loss": 1.4786,
	"step": 63000
	},
	{
	"epoch": 5.644444444444445,
	"grad_norm": 1.995211124420166,
	"learning_rate": 8.715377777777778e-06,
	"loss": 1.4685,
	"step": 63500
	},
	{
	"epoch": 5.688888888888889,
	"grad_norm": 2.569850444793701,
	"learning_rate": 8.62648888888889e-06,
	"loss": 1.4687,
	"step": 64000
	},
	{
	"epoch": 5.733333333333333,
	"grad_norm": 2.3745999336242676,
	"learning_rate": 8.537600000000001e-06,
	"loss": 1.4949,
	"step": 64500
	},
	{
	"epoch": 5.777777777777778,
	"grad_norm": 2.3172736167907715,
	"learning_rate": 8.448711111111112e-06,
	"loss": 1.4807,
	"step": 65000
	},
	{
	"epoch": 5.822222222222222,
	"grad_norm": 2.316258192062378,
	"learning_rate": 8.359822222222222e-06,
	"loss": 1.4994,
	"step": 65500
	},
	{
	"epoch": 5.866666666666667,
	"grad_norm": 2.303201913833618,
	"learning_rate": 8.270933333333334e-06,
	"loss": 1.4887,
	"step": 66000
	},
	{
	"epoch": 5.911111111111111,
	"grad_norm": 2.1658709049224854,
	"learning_rate": 8.182222222222222e-06,
	"loss": 1.4751,
	"step": 66500
	},
	{
	"epoch": 5.955555555555556,
	"grad_norm": 2.177354574203491,
	"learning_rate": 8.093333333333334e-06,
	"loss": 1.4751,
	"step": 67000
	},
	{
	"epoch": 6.0,
	"grad_norm": 2.559067726135254,
	"learning_rate": 8.004444444444445e-06,
	"loss": 1.4748,
	"step": 67500
	},
	{
	"epoch": 6.0,
	"eval_Sacrebleu": 11.844348456691092,
	"eval_loss": 1.7136952877044678,
	"eval_runtime": 4383.3868,
	"eval_samples_per_second": 2.281,
	"eval_steps_per_second": 0.285,
	"step": 67500
	},
	{
	"epoch": 6.044444444444444,
	"grad_norm": 2.618431329727173,
	"learning_rate": 7.915555555555557e-06,
	"loss": 1.4243,
	"step": 68000
	},
	{
	"epoch": 6.088888888888889,
	"grad_norm": 2.2536802291870117,
	"learning_rate": 7.826666666666667e-06,
	"loss": 1.4415,
	"step": 68500
	},
	{
	"epoch": 6.133333333333334,
	"grad_norm": 2.866265058517456,
	"learning_rate": 7.737777777777778e-06,
	"loss": 1.429,
	"step": 69000
	},
	{
	"epoch": 6.177777777777778,
	"grad_norm": 2.799807071685791,
	"learning_rate": 7.648888888888888e-06,
	"loss": 1.4456,
	"step": 69500
	},
	{
	"epoch": 6.222222222222222,
	"grad_norm": 2.6799798011779785,
	"learning_rate": 7.5600000000000005e-06,
	"loss": 1.4302,
	"step": 70000
	},
	{
	"epoch": 6.266666666666667,
	"grad_norm": 2.8705008029937744,
	"learning_rate": 7.471288888888889e-06,
	"loss": 1.4334,
	"step": 70500
	},
	{
	"epoch": 6.311111111111111,
	"grad_norm": 2.6502320766448975,
	"learning_rate": 7.382400000000001e-06,
	"loss": 1.4338,
	"step": 71000
	},
	{
	"epoch": 6.355555555555555,
	"grad_norm": 2.9277572631835938,
	"learning_rate": 7.293511111111111e-06,
	"loss": 1.4364,
	"step": 71500
	},
	{
	"epoch": 6.4,
	"grad_norm": 2.3213584423065186,
	"learning_rate": 7.2046222222222224e-06,
	"loss": 1.4258,
	"step": 72000
	},
	{
	"epoch": 6.444444444444445,
	"grad_norm": 3.05753231048584,
	"learning_rate": 7.115911111111111e-06,
	"loss": 1.4159,
	"step": 72500
	},
	{
	"epoch": 6.488888888888889,
	"grad_norm": 2.879302978515625,
	"learning_rate": 7.027022222222223e-06,
	"loss": 1.4575,
	"step": 73000
	},
	{
	"epoch": 6.533333333333333,
	"grad_norm": 2.283719539642334,
	"learning_rate": 6.938133333333333e-06,
	"loss": 1.4355,
	"step": 73500
	},
	{
	"epoch": 6.5777777777777775,
	"grad_norm": 2.5252952575683594,
	"learning_rate": 6.849422222222223e-06,
	"loss": 1.4346,
	"step": 74000
	},
	{
	"epoch": 6.622222222222222,
	"grad_norm": 2.6116600036621094,
	"learning_rate": 6.760533333333333e-06,
	"loss": 1.4646,
	"step": 74500
	},
	{
	"epoch": 6.666666666666667,
	"grad_norm": 2.494943380355835,
	"learning_rate": 6.671644444444445e-06,
	"loss": 1.4385,
	"step": 75000
	},
	{
	"epoch": 6.711111111111111,
	"grad_norm": 2.3194327354431152,
	"learning_rate": 6.582755555555556e-06,
	"loss": 1.4508,
	"step": 75500
	},
	{
	"epoch": 6.7555555555555555,
	"grad_norm": 2.8426125049591064,
	"learning_rate": 6.494044444444445e-06,
	"loss": 1.4412,
	"step": 76000
	},
	{
	"epoch": 6.8,
	"grad_norm": 3.0324361324310303,
	"learning_rate": 6.405155555555555e-06,
	"loss": 1.423,
	"step": 76500
	},
	{
	"epoch": 6.844444444444444,
	"grad_norm": 2.176151990890503,
	"learning_rate": 6.3162666666666674e-06,
	"loss": 1.4474,
	"step": 77000
	},
	{
	"epoch": 6.888888888888889,
	"grad_norm": 2.6893413066864014,
	"learning_rate": 6.227377777777778e-06,
	"loss": 1.4415,
	"step": 77500
	},
	{
	"epoch": 6.933333333333334,
	"grad_norm": 2.657773017883301,
	"learning_rate": 6.138488888888889e-06,
	"loss": 1.4257,
	"step": 78000
	},
	{
	"epoch": 6.977777777777778,
	"grad_norm": 2.4668519496917725,
	"learning_rate": 6.049600000000001e-06,
	"loss": 1.424,
	"step": 78500
	},
	{
	"epoch": 7.0,
	"eval_Sacrebleu": 11.861485151142872,
	"eval_loss": 1.7204111814498901,
	"eval_runtime": 4008.7534,
	"eval_samples_per_second": 2.495,
	"eval_steps_per_second": 0.312,
	"step": 78750
	},
	{
	"epoch": 7.022222222222222,
	"grad_norm": 3.0832223892211914,
	"learning_rate": 5.960711111111112e-06,
	"loss": 1.4192,
	"step": 79000
	},
	{
	"epoch": 7.066666666666666,
	"grad_norm": 2.553757667541504,
	"learning_rate": 5.871822222222223e-06,
	"loss": 1.4091,
	"step": 79500
	},
	{
	"epoch": 7.111111111111111,
	"grad_norm": 2.9473392963409424,
	"learning_rate": 5.7829333333333336e-06,
	"loss": 1.4289,
	"step": 80000
	},
	{
	"epoch": 7.155555555555556,
	"grad_norm": 3.1997127532958984,
	"learning_rate": 5.694044444444446e-06,
	"loss": 1.3862,
	"step": 80500
	},
	{
	"epoch": 7.2,
	"grad_norm": 3.077010154724121,
	"learning_rate": 5.605155555555556e-06,
	"loss": 1.4042,
	"step": 81000
	},
	{
	"epoch": 7.2444444444444445,
	"grad_norm": 3.0450375080108643,
	"learning_rate": 5.5162666666666675e-06,
	"loss": 1.4109,
	"step": 81500
	},
	{
	"epoch": 7.288888888888889,
	"grad_norm": 2.3486075401306152,
	"learning_rate": 5.4275555555555555e-06,
	"loss": 1.3827,
	"step": 82000
	},
	{
	"epoch": 7.333333333333333,
	"grad_norm": 1.9607141017913818,
	"learning_rate": 5.338666666666668e-06,
	"loss": 1.4181,
	"step": 82500
	},
	{
	"epoch": 7.377777777777778,
	"grad_norm": 2.3723082542419434,
	"learning_rate": 5.249777777777778e-06,
	"loss": 1.386,
	"step": 83000
	},
	{
	"epoch": 7.4222222222222225,
	"grad_norm": 3.01910138130188,
	"learning_rate": 5.1608888888888894e-06,
	"loss": 1.4034,
	"step": 83500
	},
	{
	"epoch": 7.466666666666667,
	"grad_norm": 3.99428129196167,
	"learning_rate": 5.072e-06,
	"loss": 1.4088,
	"step": 84000
	},
	{
	"epoch": 7.511111111111111,
	"grad_norm": 2.6704437732696533,
	"learning_rate": 4.983111111111111e-06,
	"loss": 1.4215,
	"step": 84500
	},
	{
	"epoch": 7.555555555555555,
	"grad_norm": 2.2187724113464355,
	"learning_rate": 4.8944e-06,
	"loss": 1.4019,
	"step": 85000
	},
	{
	"epoch": 7.6,
	"grad_norm": 2.6798274517059326,
	"learning_rate": 4.805511111111111e-06,
	"loss": 1.4033,
	"step": 85500
	},
	{
	"epoch": 7.644444444444445,
	"grad_norm": 2.2254135608673096,
	"learning_rate": 4.716622222222223e-06,
	"loss": 1.3873,
	"step": 86000
	},
	{
	"epoch": 7.688888888888889,
	"grad_norm": 3.0042669773101807,
	"learning_rate": 4.627733333333333e-06,
	"loss": 1.3814,
	"step": 86500
	},
	{
	"epoch": 7.733333333333333,
	"grad_norm": 2.9878363609313965,
	"learning_rate": 4.539022222222222e-06,
	"loss": 1.4171,
	"step": 87000
	},
	{
	"epoch": 7.777777777777778,
	"grad_norm": 2.8947293758392334,
	"learning_rate": 4.450133333333333e-06,
	"loss": 1.3992,
	"step": 87500
	},
	{
	"epoch": 7.822222222222222,
	"grad_norm": 2.1072092056274414,
	"learning_rate": 4.361422222222222e-06,
	"loss": 1.4128,
	"step": 88000
	},
	{
	"epoch": 7.866666666666667,
	"grad_norm": 2.7761893272399902,
	"learning_rate": 4.272533333333334e-06,
	"loss": 1.4229,
	"step": 88500
	},
	{
	"epoch": 7.911111111111111,
	"grad_norm": 2.724802255630493,
	"learning_rate": 4.183644444444445e-06,
	"loss": 1.4147,
	"step": 89000
	},
	{
	"epoch": 7.955555555555556,
	"grad_norm": 2.1179940700531006,
	"learning_rate": 4.094755555555555e-06,
	"loss": 1.4154,
	"step": 89500
	},
	{
	"epoch": 8.0,
	"grad_norm": 2.6914615631103516,
	"learning_rate": 4.005866666666667e-06,
	"loss": 1.4058,
	"step": 90000
	},
	{
	"epoch": 8.0,
	"eval_Sacrebleu": 11.669051917717454,
	"eval_loss": 1.7239112854003906,
	"eval_runtime": 3810.4584,
	"eval_samples_per_second": 2.624,
	"eval_steps_per_second": 0.328,
	"step": 90000
	},
	{
	"epoch": 8.044444444444444,
	"grad_norm": 2.054410457611084,
	"learning_rate": 3.916977777777778e-06,
	"loss": 1.3687,
	"step": 90500
	},
	{
	"epoch": 8.088888888888889,
	"grad_norm": 3.7907662391662598,
	"learning_rate": 3.828088888888889e-06,
	"loss": 1.3839,
	"step": 91000
	},
	{
	"epoch": 8.133333333333333,
	"grad_norm": 2.704850435256958,
	"learning_rate": 3.7392e-06,
	"loss": 1.3677,
	"step": 91500
	},
	{
	"epoch": 8.177777777777777,
	"grad_norm": 2.888054132461548,
	"learning_rate": 3.650311111111111e-06,
	"loss": 1.382,
	"step": 92000
	},
	{
	"epoch": 8.222222222222221,
	"grad_norm": 3.2732253074645996,
	"learning_rate": 3.5616e-06,
	"loss": 1.4076,
	"step": 92500
	},
	{
	"epoch": 8.266666666666667,
	"grad_norm": 2.5939693450927734,
	"learning_rate": 3.4727111111111112e-06,
	"loss": 1.376,
	"step": 93000
	},
	{
	"epoch": 8.311111111111112,
	"grad_norm": 3.650665760040283,
	"learning_rate": 3.383822222222222e-06,
	"loss": 1.3869,
	"step": 93500
	},
	{
	"epoch": 8.355555555555556,
	"grad_norm": 2.4687626361846924,
	"learning_rate": 3.294933333333334e-06,
	"loss": 1.3643,
	"step": 94000
	},
	{
	"epoch": 8.4,
	"grad_norm": 2.497544765472412,
	"learning_rate": 3.206044444444445e-06,
	"loss": 1.3783,
	"step": 94500
	},
	{
	"epoch": 8.444444444444445,
	"grad_norm": 2.620575189590454,
	"learning_rate": 3.117333333333333e-06,
	"loss": 1.3929,
	"step": 95000
	},
	{
	"epoch": 8.488888888888889,
	"grad_norm": 1.9510403871536255,
	"learning_rate": 3.028444444444445e-06,
	"loss": 1.3757,
	"step": 95500
	},
	{
	"epoch": 8.533333333333333,
	"grad_norm": 2.253645896911621,
	"learning_rate": 2.9395555555555562e-06,
	"loss": 1.3843,
	"step": 96000
	},
	{
	"epoch": 8.577777777777778,
	"grad_norm": 2.5692851543426514,
	"learning_rate": 2.850666666666667e-06,
	"loss": 1.3617,
	"step": 96500
	},
	{
	"epoch": 8.622222222222222,
	"grad_norm": 2.7318949699401855,
	"learning_rate": 2.761955555555556e-06,
	"loss": 1.3965,
	"step": 97000
	},
	{
	"epoch": 8.666666666666666,
	"grad_norm": 2.397948741912842,
	"learning_rate": 2.6730666666666673e-06,
	"loss": 1.3901,
	"step": 97500
	},
	{
	"epoch": 8.71111111111111,
	"grad_norm": 2.227858781814575,
	"learning_rate": 2.584177777777778e-06,
	"loss": 1.3631,
	"step": 98000
	},
	{
	"epoch": 8.755555555555556,
	"grad_norm": 2.7916066646575928,
	"learning_rate": 2.495288888888889e-06,
	"loss": 1.3957,
	"step": 98500
	},
	{
	"epoch": 8.8,
	"grad_norm": 3.0856597423553467,
	"learning_rate": 2.4064e-06,
	"loss": 1.3941,
	"step": 99000
	},
	{
	"epoch": 8.844444444444445,
	"grad_norm": 2.253394603729248,
	"learning_rate": 2.317688888888889e-06,
	"loss": 1.3731,
	"step": 99500
	},
	{
	"epoch": 8.88888888888889,
	"grad_norm": 2.375483274459839,
	"learning_rate": 2.2288e-06,
	"loss": 1.4075,
	"step": 100000
	},
	{
	"epoch": 8.933333333333334,
	"grad_norm": 2.5208873748779297,
	"learning_rate": 2.139911111111111e-06,
	"loss": 1.36,
	"step": 100500
	},
	{
	"epoch": 8.977777777777778,
	"grad_norm": 2.9750773906707764,
	"learning_rate": 2.0510222222222223e-06,
	"loss": 1.3803,
	"step": 101000
	},
	{
	"epoch": 9.0,
	"eval_Sacrebleu": 11.812893236671785,
	"eval_loss": 1.7298730611801147,
	"eval_runtime": 3842.5674,
	"eval_samples_per_second": 2.602,
	"eval_steps_per_second": 0.325,
	"step": 101250
	},
	{
	"epoch": 9.022222222222222,
	"grad_norm": 2.893308162689209,
	"learning_rate": 1.9621333333333332e-06,
	"loss": 1.3477,
	"step": 101500
	},
	{
	"epoch": 9.066666666666666,
	"grad_norm": 2.4525198936462402,
	"learning_rate": 1.8732444444444445e-06,
	"loss": 1.3894,
	"step": 102000
	},
	{
	"epoch": 9.11111111111111,
	"grad_norm": 2.138702392578125,
	"learning_rate": 1.7843555555555556e-06,
	"loss": 1.3871,
	"step": 102500
	},
	{
	"epoch": 9.155555555555555,
	"grad_norm": 2.6823806762695312,
	"learning_rate": 1.6956444444444445e-06,
	"loss": 1.3678,
	"step": 103000
	},
	{
	"epoch": 9.2,
	"grad_norm": 3.6477270126342773,
	"learning_rate": 1.6067555555555556e-06,
	"loss": 1.3709,
	"step": 103500
	},
	{
	"epoch": 9.244444444444444,
	"grad_norm": 2.2082371711730957,
	"learning_rate": 1.5182222222222223e-06,
	"loss": 1.376,
	"step": 104000
	},
	{
	"epoch": 9.28888888888889,
	"grad_norm": 2.7231674194335938,
	"learning_rate": 1.4293333333333334e-06,
	"loss": 1.3372,
	"step": 104500
	},
	{
	"epoch": 9.333333333333334,
	"grad_norm": 2.383312940597534,
	"learning_rate": 1.3404444444444445e-06,
	"loss": 1.3507,
	"step": 105000
	},
	{
	"epoch": 9.377777777777778,
	"grad_norm": 2.908069610595703,
	"learning_rate": 1.2515555555555556e-06,
	"loss": 1.371,
	"step": 105500
	},
	{
	"epoch": 9.422222222222222,
	"grad_norm": 2.7813098430633545,
	"learning_rate": 1.1626666666666667e-06,
	"loss": 1.355,
	"step": 106000
	},
	{
	"epoch": 9.466666666666667,
	"grad_norm": 2.4911601543426514,
	"learning_rate": 1.0737777777777778e-06,
	"loss": 1.3662,
	"step": 106500
	},
	{
	"epoch": 9.511111111111111,
	"grad_norm": 2.429072856903076,
	"learning_rate": 9.85066666666667e-07,
	"loss": 1.3643,
	"step": 107000
	},
	{
	"epoch": 9.555555555555555,
	"grad_norm": 2.832702875137329,
	"learning_rate": 8.961777777777779e-07,
	"loss": 1.3664,
	"step": 107500
	},
	{
	"epoch": 9.6,
	"grad_norm": 2.4679746627807617,
	"learning_rate": 8.07288888888889e-07,
	"loss": 1.3599,
	"step": 108000
	},
	{
	"epoch": 9.644444444444444,
	"grad_norm": 2.522490978240967,
	"learning_rate": 7.184000000000001e-07,
	"loss": 1.3691,
	"step": 108500
	},
	{
	"epoch": 9.688888888888888,
	"grad_norm": 2.7089273929595947,
	"learning_rate": 6.295111111111112e-07,
	"loss": 1.373,
	"step": 109000
	},
	{
	"epoch": 9.733333333333333,
	"grad_norm": 2.0823116302490234,
	"learning_rate": 5.406222222222223e-07,
	"loss": 1.369,
	"step": 109500
	},
	{
	"epoch": 9.777777777777779,
	"grad_norm": 1.9741628170013428,
	"learning_rate": 4.517333333333334e-07,
	"loss": 1.3559,
	"step": 110000
	},
	{
	"epoch": 9.822222222222223,
	"grad_norm": 2.4756247997283936,
	"learning_rate": 3.628444444444445e-07,
	"loss": 1.379,
	"step": 110500
	},
	{
	"epoch": 9.866666666666667,
	"grad_norm": 2.6208088397979736,
	"learning_rate": 2.739555555555556e-07,
	"loss": 1.3585,
	"step": 111000
	},
	{
	"epoch": 9.911111111111111,
	"grad_norm": 3.2721610069274902,
	"learning_rate": 1.8506666666666668e-07,
	"loss": 1.3772,
	"step": 111500
	},
	{
	"epoch": 9.955555555555556,
	"grad_norm": 2.5334367752075195,
	"learning_rate": 9.617777777777777e-08,
	"loss": 1.3576,
	"step": 112000
	},
	{
	"epoch": 10.0,
	"grad_norm": 2.59663987159729,
	"learning_rate": 7.288888888888889e-09,
	"loss": 1.3678,
	"step": 112500
	}
	],
	"logging_steps": 500,
	"max_steps": 112500,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 10,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 2.437992677376e+17,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}