Nllb-en-2-ta-translation / trainer_state.json
Logii33's picture
Upload folder using huggingface_hub
0d05307 verified
raw
history blame
41.7 kB
{
"best_metric": null,
"best_model_checkpoint": null,
"epoch": 10.0,
"eval_steps": 500,
"global_step": 112500,
"is_hyper_param_search": false,
"is_local_process_zero": true,
"is_world_process_zero": true,
"log_history": [
{
"epoch": 0.044444444444444446,
"grad_norm": 2.7033166885375977,
"learning_rate": 1.9911644444444447e-05,
"loss": 2.2268,
"step": 500
},
{
"epoch": 0.08888888888888889,
"grad_norm": 2.958282232284546,
"learning_rate": 1.9822755555555557e-05,
"loss": 2.0732,
"step": 1000
},
{
"epoch": 0.13333333333333333,
"grad_norm": 3.01822829246521,
"learning_rate": 1.9733866666666668e-05,
"loss": 2.0296,
"step": 1500
},
{
"epoch": 0.17777777777777778,
"grad_norm": 2.8041861057281494,
"learning_rate": 1.9644977777777778e-05,
"loss": 2.0176,
"step": 2000
},
{
"epoch": 0.2222222222222222,
"grad_norm": 2.194178342819214,
"learning_rate": 1.9556088888888892e-05,
"loss": 2.0181,
"step": 2500
},
{
"epoch": 0.26666666666666666,
"grad_norm": 2.7587132453918457,
"learning_rate": 1.9467200000000002e-05,
"loss": 1.9864,
"step": 3000
},
{
"epoch": 0.3111111111111111,
"grad_norm": 2.8509016036987305,
"learning_rate": 1.9378311111111113e-05,
"loss": 1.9701,
"step": 3500
},
{
"epoch": 0.35555555555555557,
"grad_norm": 2.180856704711914,
"learning_rate": 1.9289422222222223e-05,
"loss": 1.936,
"step": 4000
},
{
"epoch": 0.4,
"grad_norm": 2.2034873962402344,
"learning_rate": 1.9200533333333337e-05,
"loss": 1.9455,
"step": 4500
},
{
"epoch": 0.4444444444444444,
"grad_norm": 3.1408488750457764,
"learning_rate": 1.9111644444444447e-05,
"loss": 1.9438,
"step": 5000
},
{
"epoch": 0.4888888888888889,
"grad_norm": 3.070190191268921,
"learning_rate": 1.9022755555555558e-05,
"loss": 1.9491,
"step": 5500
},
{
"epoch": 0.5333333333333333,
"grad_norm": 2.0312423706054688,
"learning_rate": 1.893386666666667e-05,
"loss": 1.9236,
"step": 6000
},
{
"epoch": 0.5777777777777777,
"grad_norm": 2.183950424194336,
"learning_rate": 1.884497777777778e-05,
"loss": 1.9111,
"step": 6500
},
{
"epoch": 0.6222222222222222,
"grad_norm": 2.13474702835083,
"learning_rate": 1.875608888888889e-05,
"loss": 1.9158,
"step": 7000
},
{
"epoch": 0.6666666666666666,
"grad_norm": 2.055859327316284,
"learning_rate": 1.866737777777778e-05,
"loss": 1.8952,
"step": 7500
},
{
"epoch": 0.7111111111111111,
"grad_norm": 2.280942916870117,
"learning_rate": 1.857848888888889e-05,
"loss": 1.9023,
"step": 8000
},
{
"epoch": 0.7555555555555555,
"grad_norm": 3.20082426071167,
"learning_rate": 1.84896e-05,
"loss": 1.8711,
"step": 8500
},
{
"epoch": 0.8,
"grad_norm": 2.5550222396850586,
"learning_rate": 1.8400711111111114e-05,
"loss": 1.8865,
"step": 9000
},
{
"epoch": 0.8444444444444444,
"grad_norm": 3.101032018661499,
"learning_rate": 1.8311822222222224e-05,
"loss": 1.8942,
"step": 9500
},
{
"epoch": 0.8888888888888888,
"grad_norm": 1.9913034439086914,
"learning_rate": 1.8222933333333335e-05,
"loss": 1.8823,
"step": 10000
},
{
"epoch": 0.9333333333333333,
"grad_norm": 1.8786649703979492,
"learning_rate": 1.8134044444444445e-05,
"loss": 1.8903,
"step": 10500
},
{
"epoch": 0.9777777777777777,
"grad_norm": 2.1240804195404053,
"learning_rate": 1.804515555555556e-05,
"loss": 1.8759,
"step": 11000
},
{
"epoch": 1.0,
"eval_Sacrebleu": 10.927683654987915,
"eval_loss": 1.7730144262313843,
"eval_runtime": 5155.9444,
"eval_samples_per_second": 1.94,
"eval_steps_per_second": 0.242,
"step": 11250
},
{
"epoch": 1.0222222222222221,
"grad_norm": 3.4717421531677246,
"learning_rate": 1.795626666666667e-05,
"loss": 1.809,
"step": 11500
},
{
"epoch": 1.0666666666666667,
"grad_norm": 2.8455264568328857,
"learning_rate": 1.786755555555556e-05,
"loss": 1.7839,
"step": 12000
},
{
"epoch": 1.1111111111111112,
"grad_norm": 2.3160150051116943,
"learning_rate": 1.7778844444444446e-05,
"loss": 1.7898,
"step": 12500
},
{
"epoch": 1.1555555555555554,
"grad_norm": 2.7126030921936035,
"learning_rate": 1.768995555555556e-05,
"loss": 1.7653,
"step": 13000
},
{
"epoch": 1.2,
"grad_norm": 2.833963394165039,
"learning_rate": 1.760106666666667e-05,
"loss": 1.7937,
"step": 13500
},
{
"epoch": 1.2444444444444445,
"grad_norm": 2.582491159439087,
"learning_rate": 1.751217777777778e-05,
"loss": 1.7672,
"step": 14000
},
{
"epoch": 1.2888888888888888,
"grad_norm": 2.6020431518554688,
"learning_rate": 1.742346666666667e-05,
"loss": 1.7788,
"step": 14500
},
{
"epoch": 1.3333333333333333,
"grad_norm": 2.6280031204223633,
"learning_rate": 1.733457777777778e-05,
"loss": 1.7617,
"step": 15000
},
{
"epoch": 1.3777777777777778,
"grad_norm": 2.258315324783325,
"learning_rate": 1.724568888888889e-05,
"loss": 1.7603,
"step": 15500
},
{
"epoch": 1.4222222222222223,
"grad_norm": 2.546867847442627,
"learning_rate": 1.71568e-05,
"loss": 1.7639,
"step": 16000
},
{
"epoch": 1.4666666666666668,
"grad_norm": 2.596524715423584,
"learning_rate": 1.7067911111111112e-05,
"loss": 1.7787,
"step": 16500
},
{
"epoch": 1.511111111111111,
"grad_norm": 2.728980541229248,
"learning_rate": 1.6979022222222222e-05,
"loss": 1.7728,
"step": 17000
},
{
"epoch": 1.5555555555555556,
"grad_norm": 1.9743603467941284,
"learning_rate": 1.6890133333333333e-05,
"loss": 1.7436,
"step": 17500
},
{
"epoch": 1.6,
"grad_norm": 2.306102991104126,
"learning_rate": 1.6801422222222223e-05,
"loss": 1.7593,
"step": 18000
},
{
"epoch": 1.6444444444444444,
"grad_norm": 2.595468282699585,
"learning_rate": 1.6712533333333333e-05,
"loss": 1.7587,
"step": 18500
},
{
"epoch": 1.6888888888888889,
"grad_norm": 1.8225383758544922,
"learning_rate": 1.6623644444444447e-05,
"loss": 1.7852,
"step": 19000
},
{
"epoch": 1.7333333333333334,
"grad_norm": 2.581843852996826,
"learning_rate": 1.6534755555555557e-05,
"loss": 1.7582,
"step": 19500
},
{
"epoch": 1.7777777777777777,
"grad_norm": 1.9384685754776,
"learning_rate": 1.6445866666666668e-05,
"loss": 1.7544,
"step": 20000
},
{
"epoch": 1.8222222222222222,
"grad_norm": 2.542980670928955,
"learning_rate": 1.6356977777777778e-05,
"loss": 1.7592,
"step": 20500
},
{
"epoch": 1.8666666666666667,
"grad_norm": 2.4207804203033447,
"learning_rate": 1.6268088888888892e-05,
"loss": 1.7685,
"step": 21000
},
{
"epoch": 1.911111111111111,
"grad_norm": 2.7720110416412354,
"learning_rate": 1.617937777777778e-05,
"loss": 1.7654,
"step": 21500
},
{
"epoch": 1.9555555555555557,
"grad_norm": 2.8182454109191895,
"learning_rate": 1.6090488888888892e-05,
"loss": 1.7577,
"step": 22000
},
{
"epoch": 2.0,
"grad_norm": 2.3921427726745605,
"learning_rate": 1.6001600000000003e-05,
"loss": 1.7666,
"step": 22500
},
{
"epoch": 2.0,
"eval_Sacrebleu": 11.504795316238502,
"eval_loss": 1.7359962463378906,
"eval_runtime": 4723.0089,
"eval_samples_per_second": 2.117,
"eval_steps_per_second": 0.265,
"step": 22500
},
{
"epoch": 2.0444444444444443,
"grad_norm": 2.5132415294647217,
"learning_rate": 1.5912711111111113e-05,
"loss": 1.6699,
"step": 23000
},
{
"epoch": 2.088888888888889,
"grad_norm": 2.244852066040039,
"learning_rate": 1.5823822222222224e-05,
"loss": 1.6636,
"step": 23500
},
{
"epoch": 2.1333333333333333,
"grad_norm": 2.456984281539917,
"learning_rate": 1.5734933333333334e-05,
"loss": 1.6812,
"step": 24000
},
{
"epoch": 2.1777777777777776,
"grad_norm": 2.611400842666626,
"learning_rate": 1.5646044444444445e-05,
"loss": 1.6813,
"step": 24500
},
{
"epoch": 2.2222222222222223,
"grad_norm": 2.504777431488037,
"learning_rate": 1.5557155555555555e-05,
"loss": 1.6698,
"step": 25000
},
{
"epoch": 2.2666666666666666,
"grad_norm": 1.9886395931243896,
"learning_rate": 1.5468444444444445e-05,
"loss": 1.6649,
"step": 25500
},
{
"epoch": 2.311111111111111,
"grad_norm": 2.4218804836273193,
"learning_rate": 1.5379555555555555e-05,
"loss": 1.6827,
"step": 26000
},
{
"epoch": 2.3555555555555556,
"grad_norm": 2.380363941192627,
"learning_rate": 1.5290666666666666e-05,
"loss": 1.6821,
"step": 26500
},
{
"epoch": 2.4,
"grad_norm": 2.9390811920166016,
"learning_rate": 1.520177777777778e-05,
"loss": 1.6517,
"step": 27000
},
{
"epoch": 2.4444444444444446,
"grad_norm": 2.278156042098999,
"learning_rate": 1.511288888888889e-05,
"loss": 1.6551,
"step": 27500
},
{
"epoch": 2.488888888888889,
"grad_norm": 2.5583651065826416,
"learning_rate": 1.5024e-05,
"loss": 1.6386,
"step": 28000
},
{
"epoch": 2.533333333333333,
"grad_norm": 2.4227840900421143,
"learning_rate": 1.493528888888889e-05,
"loss": 1.6808,
"step": 28500
},
{
"epoch": 2.5777777777777775,
"grad_norm": 2.4636645317077637,
"learning_rate": 1.48464e-05,
"loss": 1.6675,
"step": 29000
},
{
"epoch": 2.6222222222222222,
"grad_norm": 1.932691216468811,
"learning_rate": 1.4757511111111111e-05,
"loss": 1.6649,
"step": 29500
},
{
"epoch": 2.6666666666666665,
"grad_norm": 2.324248790740967,
"learning_rate": 1.4668622222222223e-05,
"loss": 1.641,
"step": 30000
},
{
"epoch": 2.7111111111111112,
"grad_norm": 2.5001227855682373,
"learning_rate": 1.4579733333333335e-05,
"loss": 1.6593,
"step": 30500
},
{
"epoch": 2.7555555555555555,
"grad_norm": 2.053122043609619,
"learning_rate": 1.4490844444444446e-05,
"loss": 1.6679,
"step": 31000
},
{
"epoch": 2.8,
"grad_norm": 2.3404734134674072,
"learning_rate": 1.4401955555555556e-05,
"loss": 1.6705,
"step": 31500
},
{
"epoch": 2.8444444444444446,
"grad_norm": 1.811047911643982,
"learning_rate": 1.4313066666666669e-05,
"loss": 1.6573,
"step": 32000
},
{
"epoch": 2.888888888888889,
"grad_norm": 2.5269010066986084,
"learning_rate": 1.4224355555555555e-05,
"loss": 1.6659,
"step": 32500
},
{
"epoch": 2.9333333333333336,
"grad_norm": 3.2324156761169434,
"learning_rate": 1.4135466666666669e-05,
"loss": 1.6509,
"step": 33000
},
{
"epoch": 2.977777777777778,
"grad_norm": 2.910116195678711,
"learning_rate": 1.404657777777778e-05,
"loss": 1.6799,
"step": 33500
},
{
"epoch": 3.0,
"eval_Sacrebleu": 11.461615098924428,
"eval_loss": 1.7215642929077148,
"eval_runtime": 4737.4626,
"eval_samples_per_second": 2.111,
"eval_steps_per_second": 0.264,
"step": 33750
},
{
"epoch": 3.022222222222222,
"grad_norm": 2.388887643814087,
"learning_rate": 1.395768888888889e-05,
"loss": 1.6205,
"step": 34000
},
{
"epoch": 3.066666666666667,
"grad_norm": 2.422229290008545,
"learning_rate": 1.38688e-05,
"loss": 1.5935,
"step": 34500
},
{
"epoch": 3.111111111111111,
"grad_norm": 2.689824104309082,
"learning_rate": 1.378008888888889e-05,
"loss": 1.5677,
"step": 35000
},
{
"epoch": 3.1555555555555554,
"grad_norm": 2.5040597915649414,
"learning_rate": 1.369137777777778e-05,
"loss": 1.5982,
"step": 35500
},
{
"epoch": 3.2,
"grad_norm": 2.0994420051574707,
"learning_rate": 1.360248888888889e-05,
"loss": 1.6006,
"step": 36000
},
{
"epoch": 3.2444444444444445,
"grad_norm": 2.4700512886047363,
"learning_rate": 1.35136e-05,
"loss": 1.594,
"step": 36500
},
{
"epoch": 3.2888888888888888,
"grad_norm": 2.679499864578247,
"learning_rate": 1.3424711111111113e-05,
"loss": 1.5901,
"step": 37000
},
{
"epoch": 3.3333333333333335,
"grad_norm": 2.6343369483947754,
"learning_rate": 1.3335822222222223e-05,
"loss": 1.5875,
"step": 37500
},
{
"epoch": 3.3777777777777778,
"grad_norm": 2.5335209369659424,
"learning_rate": 1.3247111111111113e-05,
"loss": 1.6139,
"step": 38000
},
{
"epoch": 3.422222222222222,
"grad_norm": 2.9107964038848877,
"learning_rate": 1.3158222222222223e-05,
"loss": 1.6033,
"step": 38500
},
{
"epoch": 3.466666666666667,
"grad_norm": 2.534843921661377,
"learning_rate": 1.3069333333333334e-05,
"loss": 1.584,
"step": 39000
},
{
"epoch": 3.511111111111111,
"grad_norm": 2.409266710281372,
"learning_rate": 1.2980444444444444e-05,
"loss": 1.5854,
"step": 39500
},
{
"epoch": 3.5555555555555554,
"grad_norm": 2.509253740310669,
"learning_rate": 1.2891555555555556e-05,
"loss": 1.5809,
"step": 40000
},
{
"epoch": 3.6,
"grad_norm": 1.9488080739974976,
"learning_rate": 1.2802666666666667e-05,
"loss": 1.5889,
"step": 40500
},
{
"epoch": 3.6444444444444444,
"grad_norm": 2.8996152877807617,
"learning_rate": 1.2713777777777779e-05,
"loss": 1.5807,
"step": 41000
},
{
"epoch": 3.688888888888889,
"grad_norm": 2.444199800491333,
"learning_rate": 1.2624888888888891e-05,
"loss": 1.6047,
"step": 41500
},
{
"epoch": 3.7333333333333334,
"grad_norm": 2.627521276473999,
"learning_rate": 1.2536000000000002e-05,
"loss": 1.582,
"step": 42000
},
{
"epoch": 3.7777777777777777,
"grad_norm": 2.4339983463287354,
"learning_rate": 1.2447288888888891e-05,
"loss": 1.5887,
"step": 42500
},
{
"epoch": 3.822222222222222,
"grad_norm": 2.3496522903442383,
"learning_rate": 1.2358577777777778e-05,
"loss": 1.5878,
"step": 43000
},
{
"epoch": 3.8666666666666667,
"grad_norm": 2.325495719909668,
"learning_rate": 1.2269688888888892e-05,
"loss": 1.5826,
"step": 43500
},
{
"epoch": 3.911111111111111,
"grad_norm": 2.1297905445098877,
"learning_rate": 1.2180800000000002e-05,
"loss": 1.6244,
"step": 44000
},
{
"epoch": 3.9555555555555557,
"grad_norm": 2.5512731075286865,
"learning_rate": 1.2091911111111112e-05,
"loss": 1.6075,
"step": 44500
},
{
"epoch": 4.0,
"grad_norm": 1.9816246032714844,
"learning_rate": 1.2003200000000002e-05,
"loss": 1.5647,
"step": 45000
},
{
"epoch": 4.0,
"eval_Sacrebleu": 11.693143227743814,
"eval_loss": 1.7151726484298706,
"eval_runtime": 4558.3443,
"eval_samples_per_second": 2.194,
"eval_steps_per_second": 0.274,
"step": 45000
},
{
"epoch": 4.044444444444444,
"grad_norm": 2.9890973567962646,
"learning_rate": 1.1914311111111113e-05,
"loss": 1.5201,
"step": 45500
},
{
"epoch": 4.088888888888889,
"grad_norm": 2.128161668777466,
"learning_rate": 1.1825422222222223e-05,
"loss": 1.5305,
"step": 46000
},
{
"epoch": 4.133333333333334,
"grad_norm": 2.3265063762664795,
"learning_rate": 1.1736533333333335e-05,
"loss": 1.5326,
"step": 46500
},
{
"epoch": 4.177777777777778,
"grad_norm": 2.2641632556915283,
"learning_rate": 1.1647644444444446e-05,
"loss": 1.5413,
"step": 47000
},
{
"epoch": 4.222222222222222,
"grad_norm": 2.4255621433258057,
"learning_rate": 1.1558755555555556e-05,
"loss": 1.5391,
"step": 47500
},
{
"epoch": 4.266666666666667,
"grad_norm": 2.454061269760132,
"learning_rate": 1.1469866666666667e-05,
"loss": 1.5202,
"step": 48000
},
{
"epoch": 4.311111111111111,
"grad_norm": 2.373842477798462,
"learning_rate": 1.138097777777778e-05,
"loss": 1.5369,
"step": 48500
},
{
"epoch": 4.355555555555555,
"grad_norm": 2.1090219020843506,
"learning_rate": 1.1292088888888891e-05,
"loss": 1.541,
"step": 49000
},
{
"epoch": 4.4,
"grad_norm": 2.7172622680664062,
"learning_rate": 1.1203200000000001e-05,
"loss": 1.5172,
"step": 49500
},
{
"epoch": 4.444444444444445,
"grad_norm": 2.557300329208374,
"learning_rate": 1.1114311111111112e-05,
"loss": 1.5325,
"step": 50000
},
{
"epoch": 4.488888888888889,
"grad_norm": 2.321272850036621,
"learning_rate": 1.1025422222222224e-05,
"loss": 1.5424,
"step": 50500
},
{
"epoch": 4.533333333333333,
"grad_norm": 2.1814475059509277,
"learning_rate": 1.0936533333333334e-05,
"loss": 1.5219,
"step": 51000
},
{
"epoch": 4.5777777777777775,
"grad_norm": 2.5891165733337402,
"learning_rate": 1.0847822222222224e-05,
"loss": 1.5294,
"step": 51500
},
{
"epoch": 4.622222222222222,
"grad_norm": 2.655404567718506,
"learning_rate": 1.0758933333333335e-05,
"loss": 1.5272,
"step": 52000
},
{
"epoch": 4.666666666666667,
"grad_norm": 2.0418145656585693,
"learning_rate": 1.0670044444444445e-05,
"loss": 1.5323,
"step": 52500
},
{
"epoch": 4.711111111111111,
"grad_norm": 2.315140962600708,
"learning_rate": 1.0581155555555556e-05,
"loss": 1.5201,
"step": 53000
},
{
"epoch": 4.7555555555555555,
"grad_norm": 2.4892210960388184,
"learning_rate": 1.0492266666666668e-05,
"loss": 1.5065,
"step": 53500
},
{
"epoch": 4.8,
"grad_norm": 3.2457361221313477,
"learning_rate": 1.0403555555555556e-05,
"loss": 1.531,
"step": 54000
},
{
"epoch": 4.844444444444444,
"grad_norm": 2.579188346862793,
"learning_rate": 1.0314666666666668e-05,
"loss": 1.5093,
"step": 54500
},
{
"epoch": 4.888888888888889,
"grad_norm": 2.9643566608428955,
"learning_rate": 1.0225777777777778e-05,
"loss": 1.5394,
"step": 55000
},
{
"epoch": 4.933333333333334,
"grad_norm": 2.824070930480957,
"learning_rate": 1.0136888888888889e-05,
"loss": 1.5352,
"step": 55500
},
{
"epoch": 4.977777777777778,
"grad_norm": 2.714317560195923,
"learning_rate": 1.0048e-05,
"loss": 1.5055,
"step": 56000
},
{
"epoch": 5.0,
"eval_Sacrebleu": 11.699486858073387,
"eval_loss": 1.7135735750198364,
"eval_runtime": 6965.0506,
"eval_samples_per_second": 1.436,
"eval_steps_per_second": 0.179,
"step": 56250
},
{
"epoch": 5.022222222222222,
"grad_norm": 2.3869211673736572,
"learning_rate": 9.959288888888889e-06,
"loss": 1.5236,
"step": 56500
},
{
"epoch": 5.066666666666666,
"grad_norm": 2.824490785598755,
"learning_rate": 9.870400000000001e-06,
"loss": 1.4628,
"step": 57000
},
{
"epoch": 5.111111111111111,
"grad_norm": 2.378420829772949,
"learning_rate": 9.781511111111112e-06,
"loss": 1.4761,
"step": 57500
},
{
"epoch": 5.155555555555556,
"grad_norm": 2.934887647628784,
"learning_rate": 9.692622222222224e-06,
"loss": 1.4744,
"step": 58000
},
{
"epoch": 5.2,
"grad_norm": 2.5306599140167236,
"learning_rate": 9.603733333333334e-06,
"loss": 1.4719,
"step": 58500
},
{
"epoch": 5.2444444444444445,
"grad_norm": 2.27069354057312,
"learning_rate": 9.515022222222224e-06,
"loss": 1.4717,
"step": 59000
},
{
"epoch": 5.288888888888889,
"grad_norm": 2.79362154006958,
"learning_rate": 9.426133333333335e-06,
"loss": 1.4671,
"step": 59500
},
{
"epoch": 5.333333333333333,
"grad_norm": 2.4642298221588135,
"learning_rate": 9.337244444444445e-06,
"loss": 1.4962,
"step": 60000
},
{
"epoch": 5.377777777777778,
"grad_norm": 2.8472516536712646,
"learning_rate": 9.248355555555555e-06,
"loss": 1.4997,
"step": 60500
},
{
"epoch": 5.4222222222222225,
"grad_norm": 2.2296738624572754,
"learning_rate": 9.159644444444445e-06,
"loss": 1.4713,
"step": 61000
},
{
"epoch": 5.466666666666667,
"grad_norm": 2.8742563724517822,
"learning_rate": 9.070755555555556e-06,
"loss": 1.4629,
"step": 61500
},
{
"epoch": 5.511111111111111,
"grad_norm": 2.6657145023345947,
"learning_rate": 8.982044444444445e-06,
"loss": 1.4653,
"step": 62000
},
{
"epoch": 5.555555555555555,
"grad_norm": 2.7092838287353516,
"learning_rate": 8.893155555555556e-06,
"loss": 1.4888,
"step": 62500
},
{
"epoch": 5.6,
"grad_norm": 2.277348041534424,
"learning_rate": 8.804266666666668e-06,
"loss": 1.4786,
"step": 63000
},
{
"epoch": 5.644444444444445,
"grad_norm": 1.995211124420166,
"learning_rate": 8.715377777777778e-06,
"loss": 1.4685,
"step": 63500
},
{
"epoch": 5.688888888888889,
"grad_norm": 2.569850444793701,
"learning_rate": 8.62648888888889e-06,
"loss": 1.4687,
"step": 64000
},
{
"epoch": 5.733333333333333,
"grad_norm": 2.3745999336242676,
"learning_rate": 8.537600000000001e-06,
"loss": 1.4949,
"step": 64500
},
{
"epoch": 5.777777777777778,
"grad_norm": 2.3172736167907715,
"learning_rate": 8.448711111111112e-06,
"loss": 1.4807,
"step": 65000
},
{
"epoch": 5.822222222222222,
"grad_norm": 2.316258192062378,
"learning_rate": 8.359822222222222e-06,
"loss": 1.4994,
"step": 65500
},
{
"epoch": 5.866666666666667,
"grad_norm": 2.303201913833618,
"learning_rate": 8.270933333333334e-06,
"loss": 1.4887,
"step": 66000
},
{
"epoch": 5.911111111111111,
"grad_norm": 2.1658709049224854,
"learning_rate": 8.182222222222222e-06,
"loss": 1.4751,
"step": 66500
},
{
"epoch": 5.955555555555556,
"grad_norm": 2.177354574203491,
"learning_rate": 8.093333333333334e-06,
"loss": 1.4751,
"step": 67000
},
{
"epoch": 6.0,
"grad_norm": 2.559067726135254,
"learning_rate": 8.004444444444445e-06,
"loss": 1.4748,
"step": 67500
},
{
"epoch": 6.0,
"eval_Sacrebleu": 11.844348456691092,
"eval_loss": 1.7136952877044678,
"eval_runtime": 4383.3868,
"eval_samples_per_second": 2.281,
"eval_steps_per_second": 0.285,
"step": 67500
},
{
"epoch": 6.044444444444444,
"grad_norm": 2.618431329727173,
"learning_rate": 7.915555555555557e-06,
"loss": 1.4243,
"step": 68000
},
{
"epoch": 6.088888888888889,
"grad_norm": 2.2536802291870117,
"learning_rate": 7.826666666666667e-06,
"loss": 1.4415,
"step": 68500
},
{
"epoch": 6.133333333333334,
"grad_norm": 2.866265058517456,
"learning_rate": 7.737777777777778e-06,
"loss": 1.429,
"step": 69000
},
{
"epoch": 6.177777777777778,
"grad_norm": 2.799807071685791,
"learning_rate": 7.648888888888888e-06,
"loss": 1.4456,
"step": 69500
},
{
"epoch": 6.222222222222222,
"grad_norm": 2.6799798011779785,
"learning_rate": 7.5600000000000005e-06,
"loss": 1.4302,
"step": 70000
},
{
"epoch": 6.266666666666667,
"grad_norm": 2.8705008029937744,
"learning_rate": 7.471288888888889e-06,
"loss": 1.4334,
"step": 70500
},
{
"epoch": 6.311111111111111,
"grad_norm": 2.6502320766448975,
"learning_rate": 7.382400000000001e-06,
"loss": 1.4338,
"step": 71000
},
{
"epoch": 6.355555555555555,
"grad_norm": 2.9277572631835938,
"learning_rate": 7.293511111111111e-06,
"loss": 1.4364,
"step": 71500
},
{
"epoch": 6.4,
"grad_norm": 2.3213584423065186,
"learning_rate": 7.2046222222222224e-06,
"loss": 1.4258,
"step": 72000
},
{
"epoch": 6.444444444444445,
"grad_norm": 3.05753231048584,
"learning_rate": 7.115911111111111e-06,
"loss": 1.4159,
"step": 72500
},
{
"epoch": 6.488888888888889,
"grad_norm": 2.879302978515625,
"learning_rate": 7.027022222222223e-06,
"loss": 1.4575,
"step": 73000
},
{
"epoch": 6.533333333333333,
"grad_norm": 2.283719539642334,
"learning_rate": 6.938133333333333e-06,
"loss": 1.4355,
"step": 73500
},
{
"epoch": 6.5777777777777775,
"grad_norm": 2.5252952575683594,
"learning_rate": 6.849422222222223e-06,
"loss": 1.4346,
"step": 74000
},
{
"epoch": 6.622222222222222,
"grad_norm": 2.6116600036621094,
"learning_rate": 6.760533333333333e-06,
"loss": 1.4646,
"step": 74500
},
{
"epoch": 6.666666666666667,
"grad_norm": 2.494943380355835,
"learning_rate": 6.671644444444445e-06,
"loss": 1.4385,
"step": 75000
},
{
"epoch": 6.711111111111111,
"grad_norm": 2.3194327354431152,
"learning_rate": 6.582755555555556e-06,
"loss": 1.4508,
"step": 75500
},
{
"epoch": 6.7555555555555555,
"grad_norm": 2.8426125049591064,
"learning_rate": 6.494044444444445e-06,
"loss": 1.4412,
"step": 76000
},
{
"epoch": 6.8,
"grad_norm": 3.0324361324310303,
"learning_rate": 6.405155555555555e-06,
"loss": 1.423,
"step": 76500
},
{
"epoch": 6.844444444444444,
"grad_norm": 2.176151990890503,
"learning_rate": 6.3162666666666674e-06,
"loss": 1.4474,
"step": 77000
},
{
"epoch": 6.888888888888889,
"grad_norm": 2.6893413066864014,
"learning_rate": 6.227377777777778e-06,
"loss": 1.4415,
"step": 77500
},
{
"epoch": 6.933333333333334,
"grad_norm": 2.657773017883301,
"learning_rate": 6.138488888888889e-06,
"loss": 1.4257,
"step": 78000
},
{
"epoch": 6.977777777777778,
"grad_norm": 2.4668519496917725,
"learning_rate": 6.049600000000001e-06,
"loss": 1.424,
"step": 78500
},
{
"epoch": 7.0,
"eval_Sacrebleu": 11.861485151142872,
"eval_loss": 1.7204111814498901,
"eval_runtime": 4008.7534,
"eval_samples_per_second": 2.495,
"eval_steps_per_second": 0.312,
"step": 78750
},
{
"epoch": 7.022222222222222,
"grad_norm": 3.0832223892211914,
"learning_rate": 5.960711111111112e-06,
"loss": 1.4192,
"step": 79000
},
{
"epoch": 7.066666666666666,
"grad_norm": 2.553757667541504,
"learning_rate": 5.871822222222223e-06,
"loss": 1.4091,
"step": 79500
},
{
"epoch": 7.111111111111111,
"grad_norm": 2.9473392963409424,
"learning_rate": 5.7829333333333336e-06,
"loss": 1.4289,
"step": 80000
},
{
"epoch": 7.155555555555556,
"grad_norm": 3.1997127532958984,
"learning_rate": 5.694044444444446e-06,
"loss": 1.3862,
"step": 80500
},
{
"epoch": 7.2,
"grad_norm": 3.077010154724121,
"learning_rate": 5.605155555555556e-06,
"loss": 1.4042,
"step": 81000
},
{
"epoch": 7.2444444444444445,
"grad_norm": 3.0450375080108643,
"learning_rate": 5.5162666666666675e-06,
"loss": 1.4109,
"step": 81500
},
{
"epoch": 7.288888888888889,
"grad_norm": 2.3486075401306152,
"learning_rate": 5.4275555555555555e-06,
"loss": 1.3827,
"step": 82000
},
{
"epoch": 7.333333333333333,
"grad_norm": 1.9607141017913818,
"learning_rate": 5.338666666666668e-06,
"loss": 1.4181,
"step": 82500
},
{
"epoch": 7.377777777777778,
"grad_norm": 2.3723082542419434,
"learning_rate": 5.249777777777778e-06,
"loss": 1.386,
"step": 83000
},
{
"epoch": 7.4222222222222225,
"grad_norm": 3.01910138130188,
"learning_rate": 5.1608888888888894e-06,
"loss": 1.4034,
"step": 83500
},
{
"epoch": 7.466666666666667,
"grad_norm": 3.99428129196167,
"learning_rate": 5.072e-06,
"loss": 1.4088,
"step": 84000
},
{
"epoch": 7.511111111111111,
"grad_norm": 2.6704437732696533,
"learning_rate": 4.983111111111111e-06,
"loss": 1.4215,
"step": 84500
},
{
"epoch": 7.555555555555555,
"grad_norm": 2.2187724113464355,
"learning_rate": 4.8944e-06,
"loss": 1.4019,
"step": 85000
},
{
"epoch": 7.6,
"grad_norm": 2.6798274517059326,
"learning_rate": 4.805511111111111e-06,
"loss": 1.4033,
"step": 85500
},
{
"epoch": 7.644444444444445,
"grad_norm": 2.2254135608673096,
"learning_rate": 4.716622222222223e-06,
"loss": 1.3873,
"step": 86000
},
{
"epoch": 7.688888888888889,
"grad_norm": 3.0042669773101807,
"learning_rate": 4.627733333333333e-06,
"loss": 1.3814,
"step": 86500
},
{
"epoch": 7.733333333333333,
"grad_norm": 2.9878363609313965,
"learning_rate": 4.539022222222222e-06,
"loss": 1.4171,
"step": 87000
},
{
"epoch": 7.777777777777778,
"grad_norm": 2.8947293758392334,
"learning_rate": 4.450133333333333e-06,
"loss": 1.3992,
"step": 87500
},
{
"epoch": 7.822222222222222,
"grad_norm": 2.1072092056274414,
"learning_rate": 4.361422222222222e-06,
"loss": 1.4128,
"step": 88000
},
{
"epoch": 7.866666666666667,
"grad_norm": 2.7761893272399902,
"learning_rate": 4.272533333333334e-06,
"loss": 1.4229,
"step": 88500
},
{
"epoch": 7.911111111111111,
"grad_norm": 2.724802255630493,
"learning_rate": 4.183644444444445e-06,
"loss": 1.4147,
"step": 89000
},
{
"epoch": 7.955555555555556,
"grad_norm": 2.1179940700531006,
"learning_rate": 4.094755555555555e-06,
"loss": 1.4154,
"step": 89500
},
{
"epoch": 8.0,
"grad_norm": 2.6914615631103516,
"learning_rate": 4.005866666666667e-06,
"loss": 1.4058,
"step": 90000
},
{
"epoch": 8.0,
"eval_Sacrebleu": 11.669051917717454,
"eval_loss": 1.7239112854003906,
"eval_runtime": 3810.4584,
"eval_samples_per_second": 2.624,
"eval_steps_per_second": 0.328,
"step": 90000
},
{
"epoch": 8.044444444444444,
"grad_norm": 2.054410457611084,
"learning_rate": 3.916977777777778e-06,
"loss": 1.3687,
"step": 90500
},
{
"epoch": 8.088888888888889,
"grad_norm": 3.7907662391662598,
"learning_rate": 3.828088888888889e-06,
"loss": 1.3839,
"step": 91000
},
{
"epoch": 8.133333333333333,
"grad_norm": 2.704850435256958,
"learning_rate": 3.7392e-06,
"loss": 1.3677,
"step": 91500
},
{
"epoch": 8.177777777777777,
"grad_norm": 2.888054132461548,
"learning_rate": 3.650311111111111e-06,
"loss": 1.382,
"step": 92000
},
{
"epoch": 8.222222222222221,
"grad_norm": 3.2732253074645996,
"learning_rate": 3.5616e-06,
"loss": 1.4076,
"step": 92500
},
{
"epoch": 8.266666666666667,
"grad_norm": 2.5939693450927734,
"learning_rate": 3.4727111111111112e-06,
"loss": 1.376,
"step": 93000
},
{
"epoch": 8.311111111111112,
"grad_norm": 3.650665760040283,
"learning_rate": 3.383822222222222e-06,
"loss": 1.3869,
"step": 93500
},
{
"epoch": 8.355555555555556,
"grad_norm": 2.4687626361846924,
"learning_rate": 3.294933333333334e-06,
"loss": 1.3643,
"step": 94000
},
{
"epoch": 8.4,
"grad_norm": 2.497544765472412,
"learning_rate": 3.206044444444445e-06,
"loss": 1.3783,
"step": 94500
},
{
"epoch": 8.444444444444445,
"grad_norm": 2.620575189590454,
"learning_rate": 3.117333333333333e-06,
"loss": 1.3929,
"step": 95000
},
{
"epoch": 8.488888888888889,
"grad_norm": 1.9510403871536255,
"learning_rate": 3.028444444444445e-06,
"loss": 1.3757,
"step": 95500
},
{
"epoch": 8.533333333333333,
"grad_norm": 2.253645896911621,
"learning_rate": 2.9395555555555562e-06,
"loss": 1.3843,
"step": 96000
},
{
"epoch": 8.577777777777778,
"grad_norm": 2.5692851543426514,
"learning_rate": 2.850666666666667e-06,
"loss": 1.3617,
"step": 96500
},
{
"epoch": 8.622222222222222,
"grad_norm": 2.7318949699401855,
"learning_rate": 2.761955555555556e-06,
"loss": 1.3965,
"step": 97000
},
{
"epoch": 8.666666666666666,
"grad_norm": 2.397948741912842,
"learning_rate": 2.6730666666666673e-06,
"loss": 1.3901,
"step": 97500
},
{
"epoch": 8.71111111111111,
"grad_norm": 2.227858781814575,
"learning_rate": 2.584177777777778e-06,
"loss": 1.3631,
"step": 98000
},
{
"epoch": 8.755555555555556,
"grad_norm": 2.7916066646575928,
"learning_rate": 2.495288888888889e-06,
"loss": 1.3957,
"step": 98500
},
{
"epoch": 8.8,
"grad_norm": 3.0856597423553467,
"learning_rate": 2.4064e-06,
"loss": 1.3941,
"step": 99000
},
{
"epoch": 8.844444444444445,
"grad_norm": 2.253394603729248,
"learning_rate": 2.317688888888889e-06,
"loss": 1.3731,
"step": 99500
},
{
"epoch": 8.88888888888889,
"grad_norm": 2.375483274459839,
"learning_rate": 2.2288e-06,
"loss": 1.4075,
"step": 100000
},
{
"epoch": 8.933333333333334,
"grad_norm": 2.5208873748779297,
"learning_rate": 2.139911111111111e-06,
"loss": 1.36,
"step": 100500
},
{
"epoch": 8.977777777777778,
"grad_norm": 2.9750773906707764,
"learning_rate": 2.0510222222222223e-06,
"loss": 1.3803,
"step": 101000
},
{
"epoch": 9.0,
"eval_Sacrebleu": 11.812893236671785,
"eval_loss": 1.7298730611801147,
"eval_runtime": 3842.5674,
"eval_samples_per_second": 2.602,
"eval_steps_per_second": 0.325,
"step": 101250
},
{
"epoch": 9.022222222222222,
"grad_norm": 2.893308162689209,
"learning_rate": 1.9621333333333332e-06,
"loss": 1.3477,
"step": 101500
},
{
"epoch": 9.066666666666666,
"grad_norm": 2.4525198936462402,
"learning_rate": 1.8732444444444445e-06,
"loss": 1.3894,
"step": 102000
},
{
"epoch": 9.11111111111111,
"grad_norm": 2.138702392578125,
"learning_rate": 1.7843555555555556e-06,
"loss": 1.3871,
"step": 102500
},
{
"epoch": 9.155555555555555,
"grad_norm": 2.6823806762695312,
"learning_rate": 1.6956444444444445e-06,
"loss": 1.3678,
"step": 103000
},
{
"epoch": 9.2,
"grad_norm": 3.6477270126342773,
"learning_rate": 1.6067555555555556e-06,
"loss": 1.3709,
"step": 103500
},
{
"epoch": 9.244444444444444,
"grad_norm": 2.2082371711730957,
"learning_rate": 1.5182222222222223e-06,
"loss": 1.376,
"step": 104000
},
{
"epoch": 9.28888888888889,
"grad_norm": 2.7231674194335938,
"learning_rate": 1.4293333333333334e-06,
"loss": 1.3372,
"step": 104500
},
{
"epoch": 9.333333333333334,
"grad_norm": 2.383312940597534,
"learning_rate": 1.3404444444444445e-06,
"loss": 1.3507,
"step": 105000
},
{
"epoch": 9.377777777777778,
"grad_norm": 2.908069610595703,
"learning_rate": 1.2515555555555556e-06,
"loss": 1.371,
"step": 105500
},
{
"epoch": 9.422222222222222,
"grad_norm": 2.7813098430633545,
"learning_rate": 1.1626666666666667e-06,
"loss": 1.355,
"step": 106000
},
{
"epoch": 9.466666666666667,
"grad_norm": 2.4911601543426514,
"learning_rate": 1.0737777777777778e-06,
"loss": 1.3662,
"step": 106500
},
{
"epoch": 9.511111111111111,
"grad_norm": 2.429072856903076,
"learning_rate": 9.85066666666667e-07,
"loss": 1.3643,
"step": 107000
},
{
"epoch": 9.555555555555555,
"grad_norm": 2.832702875137329,
"learning_rate": 8.961777777777779e-07,
"loss": 1.3664,
"step": 107500
},
{
"epoch": 9.6,
"grad_norm": 2.4679746627807617,
"learning_rate": 8.07288888888889e-07,
"loss": 1.3599,
"step": 108000
},
{
"epoch": 9.644444444444444,
"grad_norm": 2.522490978240967,
"learning_rate": 7.184000000000001e-07,
"loss": 1.3691,
"step": 108500
},
{
"epoch": 9.688888888888888,
"grad_norm": 2.7089273929595947,
"learning_rate": 6.295111111111112e-07,
"loss": 1.373,
"step": 109000
},
{
"epoch": 9.733333333333333,
"grad_norm": 2.0823116302490234,
"learning_rate": 5.406222222222223e-07,
"loss": 1.369,
"step": 109500
},
{
"epoch": 9.777777777777779,
"grad_norm": 1.9741628170013428,
"learning_rate": 4.517333333333334e-07,
"loss": 1.3559,
"step": 110000
},
{
"epoch": 9.822222222222223,
"grad_norm": 2.4756247997283936,
"learning_rate": 3.628444444444445e-07,
"loss": 1.379,
"step": 110500
},
{
"epoch": 9.866666666666667,
"grad_norm": 2.6208088397979736,
"learning_rate": 2.739555555555556e-07,
"loss": 1.3585,
"step": 111000
},
{
"epoch": 9.911111111111111,
"grad_norm": 3.2721610069274902,
"learning_rate": 1.8506666666666668e-07,
"loss": 1.3772,
"step": 111500
},
{
"epoch": 9.955555555555556,
"grad_norm": 2.5334367752075195,
"learning_rate": 9.617777777777777e-08,
"loss": 1.3576,
"step": 112000
},
{
"epoch": 10.0,
"grad_norm": 2.59663987159729,
"learning_rate": 7.288888888888889e-09,
"loss": 1.3678,
"step": 112500
}
],
"logging_steps": 500,
"max_steps": 112500,
"num_input_tokens_seen": 0,
"num_train_epochs": 10,
"save_steps": 500,
"stateful_callbacks": {
"TrainerControl": {
"args": {
"should_epoch_stop": false,
"should_evaluate": false,
"should_log": false,
"should_save": true,
"should_training_stop": true
},
"attributes": {}
}
},
"total_flos": 2.437992677376e+17,
"train_batch_size": 8,
"trial_name": null,
"trial_params": null
}