{ "best_metric": null, "best_model_checkpoint": null, "epoch": 10.0, "eval_steps": 500, "global_step": 112500, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.044444444444444446, "grad_norm": 2.7033166885375977, "learning_rate": 1.9911644444444447e-05, "loss": 2.2268, "step": 500 }, { "epoch": 0.08888888888888889, "grad_norm": 2.958282232284546, "learning_rate": 1.9822755555555557e-05, "loss": 2.0732, "step": 1000 }, { "epoch": 0.13333333333333333, "grad_norm": 3.01822829246521, "learning_rate": 1.9733866666666668e-05, "loss": 2.0296, "step": 1500 }, { "epoch": 0.17777777777777778, "grad_norm": 2.8041861057281494, "learning_rate": 1.9644977777777778e-05, "loss": 2.0176, "step": 2000 }, { "epoch": 0.2222222222222222, "grad_norm": 2.194178342819214, "learning_rate": 1.9556088888888892e-05, "loss": 2.0181, "step": 2500 }, { "epoch": 0.26666666666666666, "grad_norm": 2.7587132453918457, "learning_rate": 1.9467200000000002e-05, "loss": 1.9864, "step": 3000 }, { "epoch": 0.3111111111111111, "grad_norm": 2.8509016036987305, "learning_rate": 1.9378311111111113e-05, "loss": 1.9701, "step": 3500 }, { "epoch": 0.35555555555555557, "grad_norm": 2.180856704711914, "learning_rate": 1.9289422222222223e-05, "loss": 1.936, "step": 4000 }, { "epoch": 0.4, "grad_norm": 2.2034873962402344, "learning_rate": 1.9200533333333337e-05, "loss": 1.9455, "step": 4500 }, { "epoch": 0.4444444444444444, "grad_norm": 3.1408488750457764, "learning_rate": 1.9111644444444447e-05, "loss": 1.9438, "step": 5000 }, { "epoch": 0.4888888888888889, "grad_norm": 3.070190191268921, "learning_rate": 1.9022755555555558e-05, "loss": 1.9491, "step": 5500 }, { "epoch": 0.5333333333333333, "grad_norm": 2.0312423706054688, "learning_rate": 1.893386666666667e-05, "loss": 1.9236, "step": 6000 }, { "epoch": 0.5777777777777777, "grad_norm": 2.183950424194336, "learning_rate": 1.884497777777778e-05, "loss": 1.9111, "step": 6500 }, { "epoch": 0.6222222222222222, "grad_norm": 2.13474702835083, "learning_rate": 1.875608888888889e-05, "loss": 1.9158, "step": 7000 }, { "epoch": 0.6666666666666666, "grad_norm": 2.055859327316284, "learning_rate": 1.866737777777778e-05, "loss": 1.8952, "step": 7500 }, { "epoch": 0.7111111111111111, "grad_norm": 2.280942916870117, "learning_rate": 1.857848888888889e-05, "loss": 1.9023, "step": 8000 }, { "epoch": 0.7555555555555555, "grad_norm": 3.20082426071167, "learning_rate": 1.84896e-05, "loss": 1.8711, "step": 8500 }, { "epoch": 0.8, "grad_norm": 2.5550222396850586, "learning_rate": 1.8400711111111114e-05, "loss": 1.8865, "step": 9000 }, { "epoch": 0.8444444444444444, "grad_norm": 3.101032018661499, "learning_rate": 1.8311822222222224e-05, "loss": 1.8942, "step": 9500 }, { "epoch": 0.8888888888888888, "grad_norm": 1.9913034439086914, "learning_rate": 1.8222933333333335e-05, "loss": 1.8823, "step": 10000 }, { "epoch": 0.9333333333333333, "grad_norm": 1.8786649703979492, "learning_rate": 1.8134044444444445e-05, "loss": 1.8903, "step": 10500 }, { "epoch": 0.9777777777777777, "grad_norm": 2.1240804195404053, "learning_rate": 1.804515555555556e-05, "loss": 1.8759, "step": 11000 }, { "epoch": 1.0, "eval_Sacrebleu": 10.927683654987915, "eval_loss": 1.7730144262313843, "eval_runtime": 5155.9444, "eval_samples_per_second": 1.94, "eval_steps_per_second": 0.242, "step": 11250 }, { "epoch": 1.0222222222222221, "grad_norm": 3.4717421531677246, "learning_rate": 1.795626666666667e-05, "loss": 1.809, "step": 11500 }, { "epoch": 1.0666666666666667, "grad_norm": 2.8455264568328857, "learning_rate": 1.786755555555556e-05, "loss": 1.7839, "step": 12000 }, { "epoch": 1.1111111111111112, "grad_norm": 2.3160150051116943, "learning_rate": 1.7778844444444446e-05, "loss": 1.7898, "step": 12500 }, { "epoch": 1.1555555555555554, "grad_norm": 2.7126030921936035, "learning_rate": 1.768995555555556e-05, "loss": 1.7653, "step": 13000 }, { "epoch": 1.2, "grad_norm": 2.833963394165039, "learning_rate": 1.760106666666667e-05, "loss": 1.7937, "step": 13500 }, { "epoch": 1.2444444444444445, "grad_norm": 2.582491159439087, "learning_rate": 1.751217777777778e-05, "loss": 1.7672, "step": 14000 }, { "epoch": 1.2888888888888888, "grad_norm": 2.6020431518554688, "learning_rate": 1.742346666666667e-05, "loss": 1.7788, "step": 14500 }, { "epoch": 1.3333333333333333, "grad_norm": 2.6280031204223633, "learning_rate": 1.733457777777778e-05, "loss": 1.7617, "step": 15000 }, { "epoch": 1.3777777777777778, "grad_norm": 2.258315324783325, "learning_rate": 1.724568888888889e-05, "loss": 1.7603, "step": 15500 }, { "epoch": 1.4222222222222223, "grad_norm": 2.546867847442627, "learning_rate": 1.71568e-05, "loss": 1.7639, "step": 16000 }, { "epoch": 1.4666666666666668, "grad_norm": 2.596524715423584, "learning_rate": 1.7067911111111112e-05, "loss": 1.7787, "step": 16500 }, { "epoch": 1.511111111111111, "grad_norm": 2.728980541229248, "learning_rate": 1.6979022222222222e-05, "loss": 1.7728, "step": 17000 }, { "epoch": 1.5555555555555556, "grad_norm": 1.9743603467941284, "learning_rate": 1.6890133333333333e-05, "loss": 1.7436, "step": 17500 }, { "epoch": 1.6, "grad_norm": 2.306102991104126, "learning_rate": 1.6801422222222223e-05, "loss": 1.7593, "step": 18000 }, { "epoch": 1.6444444444444444, "grad_norm": 2.595468282699585, "learning_rate": 1.6712533333333333e-05, "loss": 1.7587, "step": 18500 }, { "epoch": 1.6888888888888889, "grad_norm": 1.8225383758544922, "learning_rate": 1.6623644444444447e-05, "loss": 1.7852, "step": 19000 }, { "epoch": 1.7333333333333334, "grad_norm": 2.581843852996826, "learning_rate": 1.6534755555555557e-05, "loss": 1.7582, "step": 19500 }, { "epoch": 1.7777777777777777, "grad_norm": 1.9384685754776, "learning_rate": 1.6445866666666668e-05, "loss": 1.7544, "step": 20000 }, { "epoch": 1.8222222222222222, "grad_norm": 2.542980670928955, "learning_rate": 1.6356977777777778e-05, "loss": 1.7592, "step": 20500 }, { "epoch": 1.8666666666666667, "grad_norm": 2.4207804203033447, "learning_rate": 1.6268088888888892e-05, "loss": 1.7685, "step": 21000 }, { "epoch": 1.911111111111111, "grad_norm": 2.7720110416412354, "learning_rate": 1.617937777777778e-05, "loss": 1.7654, "step": 21500 }, { "epoch": 1.9555555555555557, "grad_norm": 2.8182454109191895, "learning_rate": 1.6090488888888892e-05, "loss": 1.7577, "step": 22000 }, { "epoch": 2.0, "grad_norm": 2.3921427726745605, "learning_rate": 1.6001600000000003e-05, "loss": 1.7666, "step": 22500 }, { "epoch": 2.0, "eval_Sacrebleu": 11.504795316238502, "eval_loss": 1.7359962463378906, "eval_runtime": 4723.0089, "eval_samples_per_second": 2.117, "eval_steps_per_second": 0.265, "step": 22500 }, { "epoch": 2.0444444444444443, "grad_norm": 2.5132415294647217, "learning_rate": 1.5912711111111113e-05, "loss": 1.6699, "step": 23000 }, { "epoch": 2.088888888888889, "grad_norm": 2.244852066040039, "learning_rate": 1.5823822222222224e-05, "loss": 1.6636, "step": 23500 }, { "epoch": 2.1333333333333333, "grad_norm": 2.456984281539917, "learning_rate": 1.5734933333333334e-05, "loss": 1.6812, "step": 24000 }, { "epoch": 2.1777777777777776, "grad_norm": 2.611400842666626, "learning_rate": 1.5646044444444445e-05, "loss": 1.6813, "step": 24500 }, { "epoch": 2.2222222222222223, "grad_norm": 2.504777431488037, "learning_rate": 1.5557155555555555e-05, "loss": 1.6698, "step": 25000 }, { "epoch": 2.2666666666666666, "grad_norm": 1.9886395931243896, "learning_rate": 1.5468444444444445e-05, "loss": 1.6649, "step": 25500 }, { "epoch": 2.311111111111111, "grad_norm": 2.4218804836273193, "learning_rate": 1.5379555555555555e-05, "loss": 1.6827, "step": 26000 }, { "epoch": 2.3555555555555556, "grad_norm": 2.380363941192627, "learning_rate": 1.5290666666666666e-05, "loss": 1.6821, "step": 26500 }, { "epoch": 2.4, "grad_norm": 2.9390811920166016, "learning_rate": 1.520177777777778e-05, "loss": 1.6517, "step": 27000 }, { "epoch": 2.4444444444444446, "grad_norm": 2.278156042098999, "learning_rate": 1.511288888888889e-05, "loss": 1.6551, "step": 27500 }, { "epoch": 2.488888888888889, "grad_norm": 2.5583651065826416, "learning_rate": 1.5024e-05, "loss": 1.6386, "step": 28000 }, { "epoch": 2.533333333333333, "grad_norm": 2.4227840900421143, "learning_rate": 1.493528888888889e-05, "loss": 1.6808, "step": 28500 }, { "epoch": 2.5777777777777775, "grad_norm": 2.4636645317077637, "learning_rate": 1.48464e-05, "loss": 1.6675, "step": 29000 }, { "epoch": 2.6222222222222222, "grad_norm": 1.932691216468811, "learning_rate": 1.4757511111111111e-05, "loss": 1.6649, "step": 29500 }, { "epoch": 2.6666666666666665, "grad_norm": 2.324248790740967, "learning_rate": 1.4668622222222223e-05, "loss": 1.641, "step": 30000 }, { "epoch": 2.7111111111111112, "grad_norm": 2.5001227855682373, "learning_rate": 1.4579733333333335e-05, "loss": 1.6593, "step": 30500 }, { "epoch": 2.7555555555555555, "grad_norm": 2.053122043609619, "learning_rate": 1.4490844444444446e-05, "loss": 1.6679, "step": 31000 }, { "epoch": 2.8, "grad_norm": 2.3404734134674072, "learning_rate": 1.4401955555555556e-05, "loss": 1.6705, "step": 31500 }, { "epoch": 2.8444444444444446, "grad_norm": 1.811047911643982, "learning_rate": 1.4313066666666669e-05, "loss": 1.6573, "step": 32000 }, { "epoch": 2.888888888888889, "grad_norm": 2.5269010066986084, "learning_rate": 1.4224355555555555e-05, "loss": 1.6659, "step": 32500 }, { "epoch": 2.9333333333333336, "grad_norm": 3.2324156761169434, "learning_rate": 1.4135466666666669e-05, "loss": 1.6509, "step": 33000 }, { "epoch": 2.977777777777778, "grad_norm": 2.910116195678711, "learning_rate": 1.404657777777778e-05, "loss": 1.6799, "step": 33500 }, { "epoch": 3.0, "eval_Sacrebleu": 11.461615098924428, "eval_loss": 1.7215642929077148, "eval_runtime": 4737.4626, "eval_samples_per_second": 2.111, "eval_steps_per_second": 0.264, "step": 33750 }, { "epoch": 3.022222222222222, "grad_norm": 2.388887643814087, "learning_rate": 1.395768888888889e-05, "loss": 1.6205, "step": 34000 }, { "epoch": 3.066666666666667, "grad_norm": 2.422229290008545, "learning_rate": 1.38688e-05, "loss": 1.5935, "step": 34500 }, { "epoch": 3.111111111111111, "grad_norm": 2.689824104309082, "learning_rate": 1.378008888888889e-05, "loss": 1.5677, "step": 35000 }, { "epoch": 3.1555555555555554, "grad_norm": 2.5040597915649414, "learning_rate": 1.369137777777778e-05, "loss": 1.5982, "step": 35500 }, { "epoch": 3.2, "grad_norm": 2.0994420051574707, "learning_rate": 1.360248888888889e-05, "loss": 1.6006, "step": 36000 }, { "epoch": 3.2444444444444445, "grad_norm": 2.4700512886047363, "learning_rate": 1.35136e-05, "loss": 1.594, "step": 36500 }, { "epoch": 3.2888888888888888, "grad_norm": 2.679499864578247, "learning_rate": 1.3424711111111113e-05, "loss": 1.5901, "step": 37000 }, { "epoch": 3.3333333333333335, "grad_norm": 2.6343369483947754, "learning_rate": 1.3335822222222223e-05, "loss": 1.5875, "step": 37500 }, { "epoch": 3.3777777777777778, "grad_norm": 2.5335209369659424, "learning_rate": 1.3247111111111113e-05, "loss": 1.6139, "step": 38000 }, { "epoch": 3.422222222222222, "grad_norm": 2.9107964038848877, "learning_rate": 1.3158222222222223e-05, "loss": 1.6033, "step": 38500 }, { "epoch": 3.466666666666667, "grad_norm": 2.534843921661377, "learning_rate": 1.3069333333333334e-05, "loss": 1.584, "step": 39000 }, { "epoch": 3.511111111111111, "grad_norm": 2.409266710281372, "learning_rate": 1.2980444444444444e-05, "loss": 1.5854, "step": 39500 }, { "epoch": 3.5555555555555554, "grad_norm": 2.509253740310669, "learning_rate": 1.2891555555555556e-05, "loss": 1.5809, "step": 40000 }, { "epoch": 3.6, "grad_norm": 1.9488080739974976, "learning_rate": 1.2802666666666667e-05, "loss": 1.5889, "step": 40500 }, { "epoch": 3.6444444444444444, "grad_norm": 2.8996152877807617, "learning_rate": 1.2713777777777779e-05, "loss": 1.5807, "step": 41000 }, { "epoch": 3.688888888888889, "grad_norm": 2.444199800491333, "learning_rate": 1.2624888888888891e-05, "loss": 1.6047, "step": 41500 }, { "epoch": 3.7333333333333334, "grad_norm": 2.627521276473999, "learning_rate": 1.2536000000000002e-05, "loss": 1.582, "step": 42000 }, { "epoch": 3.7777777777777777, "grad_norm": 2.4339983463287354, "learning_rate": 1.2447288888888891e-05, "loss": 1.5887, "step": 42500 }, { "epoch": 3.822222222222222, "grad_norm": 2.3496522903442383, "learning_rate": 1.2358577777777778e-05, "loss": 1.5878, "step": 43000 }, { "epoch": 3.8666666666666667, "grad_norm": 2.325495719909668, "learning_rate": 1.2269688888888892e-05, "loss": 1.5826, "step": 43500 }, { "epoch": 3.911111111111111, "grad_norm": 2.1297905445098877, "learning_rate": 1.2180800000000002e-05, "loss": 1.6244, "step": 44000 }, { "epoch": 3.9555555555555557, "grad_norm": 2.5512731075286865, "learning_rate": 1.2091911111111112e-05, "loss": 1.6075, "step": 44500 }, { "epoch": 4.0, "grad_norm": 1.9816246032714844, "learning_rate": 1.2003200000000002e-05, "loss": 1.5647, "step": 45000 }, { "epoch": 4.0, "eval_Sacrebleu": 11.693143227743814, "eval_loss": 1.7151726484298706, "eval_runtime": 4558.3443, "eval_samples_per_second": 2.194, "eval_steps_per_second": 0.274, "step": 45000 }, { "epoch": 4.044444444444444, "grad_norm": 2.9890973567962646, "learning_rate": 1.1914311111111113e-05, "loss": 1.5201, "step": 45500 }, { "epoch": 4.088888888888889, "grad_norm": 2.128161668777466, "learning_rate": 1.1825422222222223e-05, "loss": 1.5305, "step": 46000 }, { "epoch": 4.133333333333334, "grad_norm": 2.3265063762664795, "learning_rate": 1.1736533333333335e-05, "loss": 1.5326, "step": 46500 }, { "epoch": 4.177777777777778, "grad_norm": 2.2641632556915283, "learning_rate": 1.1647644444444446e-05, "loss": 1.5413, "step": 47000 }, { "epoch": 4.222222222222222, "grad_norm": 2.4255621433258057, "learning_rate": 1.1558755555555556e-05, "loss": 1.5391, "step": 47500 }, { "epoch": 4.266666666666667, "grad_norm": 2.454061269760132, "learning_rate": 1.1469866666666667e-05, "loss": 1.5202, "step": 48000 }, { "epoch": 4.311111111111111, "grad_norm": 2.373842477798462, "learning_rate": 1.138097777777778e-05, "loss": 1.5369, "step": 48500 }, { "epoch": 4.355555555555555, "grad_norm": 2.1090219020843506, "learning_rate": 1.1292088888888891e-05, "loss": 1.541, "step": 49000 }, { "epoch": 4.4, "grad_norm": 2.7172622680664062, "learning_rate": 1.1203200000000001e-05, "loss": 1.5172, "step": 49500 }, { "epoch": 4.444444444444445, "grad_norm": 2.557300329208374, "learning_rate": 1.1114311111111112e-05, "loss": 1.5325, "step": 50000 }, { "epoch": 4.488888888888889, "grad_norm": 2.321272850036621, "learning_rate": 1.1025422222222224e-05, "loss": 1.5424, "step": 50500 }, { "epoch": 4.533333333333333, "grad_norm": 2.1814475059509277, "learning_rate": 1.0936533333333334e-05, "loss": 1.5219, "step": 51000 }, { "epoch": 4.5777777777777775, "grad_norm": 2.5891165733337402, "learning_rate": 1.0847822222222224e-05, "loss": 1.5294, "step": 51500 }, { "epoch": 4.622222222222222, "grad_norm": 2.655404567718506, "learning_rate": 1.0758933333333335e-05, "loss": 1.5272, "step": 52000 }, { "epoch": 4.666666666666667, "grad_norm": 2.0418145656585693, "learning_rate": 1.0670044444444445e-05, "loss": 1.5323, "step": 52500 }, { "epoch": 4.711111111111111, "grad_norm": 2.315140962600708, "learning_rate": 1.0581155555555556e-05, "loss": 1.5201, "step": 53000 }, { "epoch": 4.7555555555555555, "grad_norm": 2.4892210960388184, "learning_rate": 1.0492266666666668e-05, "loss": 1.5065, "step": 53500 }, { "epoch": 4.8, "grad_norm": 3.2457361221313477, "learning_rate": 1.0403555555555556e-05, "loss": 1.531, "step": 54000 }, { "epoch": 4.844444444444444, "grad_norm": 2.579188346862793, "learning_rate": 1.0314666666666668e-05, "loss": 1.5093, "step": 54500 }, { "epoch": 4.888888888888889, "grad_norm": 2.9643566608428955, "learning_rate": 1.0225777777777778e-05, "loss": 1.5394, "step": 55000 }, { "epoch": 4.933333333333334, "grad_norm": 2.824070930480957, "learning_rate": 1.0136888888888889e-05, "loss": 1.5352, "step": 55500 }, { "epoch": 4.977777777777778, "grad_norm": 2.714317560195923, "learning_rate": 1.0048e-05, "loss": 1.5055, "step": 56000 }, { "epoch": 5.0, "eval_Sacrebleu": 11.699486858073387, "eval_loss": 1.7135735750198364, "eval_runtime": 6965.0506, "eval_samples_per_second": 1.436, "eval_steps_per_second": 0.179, "step": 56250 }, { "epoch": 5.022222222222222, "grad_norm": 2.3869211673736572, "learning_rate": 9.959288888888889e-06, "loss": 1.5236, "step": 56500 }, { "epoch": 5.066666666666666, "grad_norm": 2.824490785598755, "learning_rate": 9.870400000000001e-06, "loss": 1.4628, "step": 57000 }, { "epoch": 5.111111111111111, "grad_norm": 2.378420829772949, "learning_rate": 9.781511111111112e-06, "loss": 1.4761, "step": 57500 }, { "epoch": 5.155555555555556, "grad_norm": 2.934887647628784, "learning_rate": 9.692622222222224e-06, "loss": 1.4744, "step": 58000 }, { "epoch": 5.2, "grad_norm": 2.5306599140167236, "learning_rate": 9.603733333333334e-06, "loss": 1.4719, "step": 58500 }, { "epoch": 5.2444444444444445, "grad_norm": 2.27069354057312, "learning_rate": 9.515022222222224e-06, "loss": 1.4717, "step": 59000 }, { "epoch": 5.288888888888889, "grad_norm": 2.79362154006958, "learning_rate": 9.426133333333335e-06, "loss": 1.4671, "step": 59500 }, { "epoch": 5.333333333333333, "grad_norm": 2.4642298221588135, "learning_rate": 9.337244444444445e-06, "loss": 1.4962, "step": 60000 }, { "epoch": 5.377777777777778, "grad_norm": 2.8472516536712646, "learning_rate": 9.248355555555555e-06, "loss": 1.4997, "step": 60500 }, { "epoch": 5.4222222222222225, "grad_norm": 2.2296738624572754, "learning_rate": 9.159644444444445e-06, "loss": 1.4713, "step": 61000 }, { "epoch": 5.466666666666667, "grad_norm": 2.8742563724517822, "learning_rate": 9.070755555555556e-06, "loss": 1.4629, "step": 61500 }, { "epoch": 5.511111111111111, "grad_norm": 2.6657145023345947, "learning_rate": 8.982044444444445e-06, "loss": 1.4653, "step": 62000 }, { "epoch": 5.555555555555555, "grad_norm": 2.7092838287353516, "learning_rate": 8.893155555555556e-06, "loss": 1.4888, "step": 62500 }, { "epoch": 5.6, "grad_norm": 2.277348041534424, "learning_rate": 8.804266666666668e-06, "loss": 1.4786, "step": 63000 }, { "epoch": 5.644444444444445, "grad_norm": 1.995211124420166, "learning_rate": 8.715377777777778e-06, "loss": 1.4685, "step": 63500 }, { "epoch": 5.688888888888889, "grad_norm": 2.569850444793701, "learning_rate": 8.62648888888889e-06, "loss": 1.4687, "step": 64000 }, { "epoch": 5.733333333333333, "grad_norm": 2.3745999336242676, "learning_rate": 8.537600000000001e-06, "loss": 1.4949, "step": 64500 }, { "epoch": 5.777777777777778, "grad_norm": 2.3172736167907715, "learning_rate": 8.448711111111112e-06, "loss": 1.4807, "step": 65000 }, { "epoch": 5.822222222222222, "grad_norm": 2.316258192062378, "learning_rate": 8.359822222222222e-06, "loss": 1.4994, "step": 65500 }, { "epoch": 5.866666666666667, "grad_norm": 2.303201913833618, "learning_rate": 8.270933333333334e-06, "loss": 1.4887, "step": 66000 }, { "epoch": 5.911111111111111, "grad_norm": 2.1658709049224854, "learning_rate": 8.182222222222222e-06, "loss": 1.4751, "step": 66500 }, { "epoch": 5.955555555555556, "grad_norm": 2.177354574203491, "learning_rate": 8.093333333333334e-06, "loss": 1.4751, "step": 67000 }, { "epoch": 6.0, "grad_norm": 2.559067726135254, "learning_rate": 8.004444444444445e-06, "loss": 1.4748, "step": 67500 }, { "epoch": 6.0, "eval_Sacrebleu": 11.844348456691092, "eval_loss": 1.7136952877044678, "eval_runtime": 4383.3868, "eval_samples_per_second": 2.281, "eval_steps_per_second": 0.285, "step": 67500 }, { "epoch": 6.044444444444444, "grad_norm": 2.618431329727173, "learning_rate": 7.915555555555557e-06, "loss": 1.4243, "step": 68000 }, { "epoch": 6.088888888888889, "grad_norm": 2.2536802291870117, "learning_rate": 7.826666666666667e-06, "loss": 1.4415, "step": 68500 }, { "epoch": 6.133333333333334, "grad_norm": 2.866265058517456, "learning_rate": 7.737777777777778e-06, "loss": 1.429, "step": 69000 }, { "epoch": 6.177777777777778, "grad_norm": 2.799807071685791, "learning_rate": 7.648888888888888e-06, "loss": 1.4456, "step": 69500 }, { "epoch": 6.222222222222222, "grad_norm": 2.6799798011779785, "learning_rate": 7.5600000000000005e-06, "loss": 1.4302, "step": 70000 }, { "epoch": 6.266666666666667, "grad_norm": 2.8705008029937744, "learning_rate": 7.471288888888889e-06, "loss": 1.4334, "step": 70500 }, { "epoch": 6.311111111111111, "grad_norm": 2.6502320766448975, "learning_rate": 7.382400000000001e-06, "loss": 1.4338, "step": 71000 }, { "epoch": 6.355555555555555, "grad_norm": 2.9277572631835938, "learning_rate": 7.293511111111111e-06, "loss": 1.4364, "step": 71500 }, { "epoch": 6.4, "grad_norm": 2.3213584423065186, "learning_rate": 7.2046222222222224e-06, "loss": 1.4258, "step": 72000 }, { "epoch": 6.444444444444445, "grad_norm": 3.05753231048584, "learning_rate": 7.115911111111111e-06, "loss": 1.4159, "step": 72500 }, { "epoch": 6.488888888888889, "grad_norm": 2.879302978515625, "learning_rate": 7.027022222222223e-06, "loss": 1.4575, "step": 73000 }, { "epoch": 6.533333333333333, "grad_norm": 2.283719539642334, "learning_rate": 6.938133333333333e-06, "loss": 1.4355, "step": 73500 }, { "epoch": 6.5777777777777775, "grad_norm": 2.5252952575683594, "learning_rate": 6.849422222222223e-06, "loss": 1.4346, "step": 74000 }, { "epoch": 6.622222222222222, "grad_norm": 2.6116600036621094, "learning_rate": 6.760533333333333e-06, "loss": 1.4646, "step": 74500 }, { "epoch": 6.666666666666667, "grad_norm": 2.494943380355835, "learning_rate": 6.671644444444445e-06, "loss": 1.4385, "step": 75000 }, { "epoch": 6.711111111111111, "grad_norm": 2.3194327354431152, "learning_rate": 6.582755555555556e-06, "loss": 1.4508, "step": 75500 }, { "epoch": 6.7555555555555555, "grad_norm": 2.8426125049591064, "learning_rate": 6.494044444444445e-06, "loss": 1.4412, "step": 76000 }, { "epoch": 6.8, "grad_norm": 3.0324361324310303, "learning_rate": 6.405155555555555e-06, "loss": 1.423, "step": 76500 }, { "epoch": 6.844444444444444, "grad_norm": 2.176151990890503, "learning_rate": 6.3162666666666674e-06, "loss": 1.4474, "step": 77000 }, { "epoch": 6.888888888888889, "grad_norm": 2.6893413066864014, "learning_rate": 6.227377777777778e-06, "loss": 1.4415, "step": 77500 }, { "epoch": 6.933333333333334, "grad_norm": 2.657773017883301, "learning_rate": 6.138488888888889e-06, "loss": 1.4257, "step": 78000 }, { "epoch": 6.977777777777778, "grad_norm": 2.4668519496917725, "learning_rate": 6.049600000000001e-06, "loss": 1.424, "step": 78500 }, { "epoch": 7.0, "eval_Sacrebleu": 11.861485151142872, "eval_loss": 1.7204111814498901, "eval_runtime": 4008.7534, "eval_samples_per_second": 2.495, "eval_steps_per_second": 0.312, "step": 78750 }, { "epoch": 7.022222222222222, "grad_norm": 3.0832223892211914, "learning_rate": 5.960711111111112e-06, "loss": 1.4192, "step": 79000 }, { "epoch": 7.066666666666666, "grad_norm": 2.553757667541504, "learning_rate": 5.871822222222223e-06, "loss": 1.4091, "step": 79500 }, { "epoch": 7.111111111111111, "grad_norm": 2.9473392963409424, "learning_rate": 5.7829333333333336e-06, "loss": 1.4289, "step": 80000 }, { "epoch": 7.155555555555556, "grad_norm": 3.1997127532958984, "learning_rate": 5.694044444444446e-06, "loss": 1.3862, "step": 80500 }, { "epoch": 7.2, "grad_norm": 3.077010154724121, "learning_rate": 5.605155555555556e-06, "loss": 1.4042, "step": 81000 }, { "epoch": 7.2444444444444445, "grad_norm": 3.0450375080108643, "learning_rate": 5.5162666666666675e-06, "loss": 1.4109, "step": 81500 }, { "epoch": 7.288888888888889, "grad_norm": 2.3486075401306152, "learning_rate": 5.4275555555555555e-06, "loss": 1.3827, "step": 82000 }, { "epoch": 7.333333333333333, "grad_norm": 1.9607141017913818, "learning_rate": 5.338666666666668e-06, "loss": 1.4181, "step": 82500 }, { "epoch": 7.377777777777778, "grad_norm": 2.3723082542419434, "learning_rate": 5.249777777777778e-06, "loss": 1.386, "step": 83000 }, { "epoch": 7.4222222222222225, "grad_norm": 3.01910138130188, "learning_rate": 5.1608888888888894e-06, "loss": 1.4034, "step": 83500 }, { "epoch": 7.466666666666667, "grad_norm": 3.99428129196167, "learning_rate": 5.072e-06, "loss": 1.4088, "step": 84000 }, { "epoch": 7.511111111111111, "grad_norm": 2.6704437732696533, "learning_rate": 4.983111111111111e-06, "loss": 1.4215, "step": 84500 }, { "epoch": 7.555555555555555, "grad_norm": 2.2187724113464355, "learning_rate": 4.8944e-06, "loss": 1.4019, "step": 85000 }, { "epoch": 7.6, "grad_norm": 2.6798274517059326, "learning_rate": 4.805511111111111e-06, "loss": 1.4033, "step": 85500 }, { "epoch": 7.644444444444445, "grad_norm": 2.2254135608673096, "learning_rate": 4.716622222222223e-06, "loss": 1.3873, "step": 86000 }, { "epoch": 7.688888888888889, "grad_norm": 3.0042669773101807, "learning_rate": 4.627733333333333e-06, "loss": 1.3814, "step": 86500 }, { "epoch": 7.733333333333333, "grad_norm": 2.9878363609313965, "learning_rate": 4.539022222222222e-06, "loss": 1.4171, "step": 87000 }, { "epoch": 7.777777777777778, "grad_norm": 2.8947293758392334, "learning_rate": 4.450133333333333e-06, "loss": 1.3992, "step": 87500 }, { "epoch": 7.822222222222222, "grad_norm": 2.1072092056274414, "learning_rate": 4.361422222222222e-06, "loss": 1.4128, "step": 88000 }, { "epoch": 7.866666666666667, "grad_norm": 2.7761893272399902, "learning_rate": 4.272533333333334e-06, "loss": 1.4229, "step": 88500 }, { "epoch": 7.911111111111111, "grad_norm": 2.724802255630493, "learning_rate": 4.183644444444445e-06, "loss": 1.4147, "step": 89000 }, { "epoch": 7.955555555555556, "grad_norm": 2.1179940700531006, "learning_rate": 4.094755555555555e-06, "loss": 1.4154, "step": 89500 }, { "epoch": 8.0, "grad_norm": 2.6914615631103516, "learning_rate": 4.005866666666667e-06, "loss": 1.4058, "step": 90000 }, { "epoch": 8.0, "eval_Sacrebleu": 11.669051917717454, "eval_loss": 1.7239112854003906, "eval_runtime": 3810.4584, "eval_samples_per_second": 2.624, "eval_steps_per_second": 0.328, "step": 90000 }, { "epoch": 8.044444444444444, "grad_norm": 2.054410457611084, "learning_rate": 3.916977777777778e-06, "loss": 1.3687, "step": 90500 }, { "epoch": 8.088888888888889, "grad_norm": 3.7907662391662598, "learning_rate": 3.828088888888889e-06, "loss": 1.3839, "step": 91000 }, { "epoch": 8.133333333333333, "grad_norm": 2.704850435256958, "learning_rate": 3.7392e-06, "loss": 1.3677, "step": 91500 }, { "epoch": 8.177777777777777, "grad_norm": 2.888054132461548, "learning_rate": 3.650311111111111e-06, "loss": 1.382, "step": 92000 }, { "epoch": 8.222222222222221, "grad_norm": 3.2732253074645996, "learning_rate": 3.5616e-06, "loss": 1.4076, "step": 92500 }, { "epoch": 8.266666666666667, "grad_norm": 2.5939693450927734, "learning_rate": 3.4727111111111112e-06, "loss": 1.376, "step": 93000 }, { "epoch": 8.311111111111112, "grad_norm": 3.650665760040283, "learning_rate": 3.383822222222222e-06, "loss": 1.3869, "step": 93500 }, { "epoch": 8.355555555555556, "grad_norm": 2.4687626361846924, "learning_rate": 3.294933333333334e-06, "loss": 1.3643, "step": 94000 }, { "epoch": 8.4, "grad_norm": 2.497544765472412, "learning_rate": 3.206044444444445e-06, "loss": 1.3783, "step": 94500 }, { "epoch": 8.444444444444445, "grad_norm": 2.620575189590454, "learning_rate": 3.117333333333333e-06, "loss": 1.3929, "step": 95000 }, { "epoch": 8.488888888888889, "grad_norm": 1.9510403871536255, "learning_rate": 3.028444444444445e-06, "loss": 1.3757, "step": 95500 }, { "epoch": 8.533333333333333, "grad_norm": 2.253645896911621, "learning_rate": 2.9395555555555562e-06, "loss": 1.3843, "step": 96000 }, { "epoch": 8.577777777777778, "grad_norm": 2.5692851543426514, "learning_rate": 2.850666666666667e-06, "loss": 1.3617, "step": 96500 }, { "epoch": 8.622222222222222, "grad_norm": 2.7318949699401855, "learning_rate": 2.761955555555556e-06, "loss": 1.3965, "step": 97000 }, { "epoch": 8.666666666666666, "grad_norm": 2.397948741912842, "learning_rate": 2.6730666666666673e-06, "loss": 1.3901, "step": 97500 }, { "epoch": 8.71111111111111, "grad_norm": 2.227858781814575, "learning_rate": 2.584177777777778e-06, "loss": 1.3631, "step": 98000 }, { "epoch": 8.755555555555556, "grad_norm": 2.7916066646575928, "learning_rate": 2.495288888888889e-06, "loss": 1.3957, "step": 98500 }, { "epoch": 8.8, "grad_norm": 3.0856597423553467, "learning_rate": 2.4064e-06, "loss": 1.3941, "step": 99000 }, { "epoch": 8.844444444444445, "grad_norm": 2.253394603729248, "learning_rate": 2.317688888888889e-06, "loss": 1.3731, "step": 99500 }, { "epoch": 8.88888888888889, "grad_norm": 2.375483274459839, "learning_rate": 2.2288e-06, "loss": 1.4075, "step": 100000 }, { "epoch": 8.933333333333334, "grad_norm": 2.5208873748779297, "learning_rate": 2.139911111111111e-06, "loss": 1.36, "step": 100500 }, { "epoch": 8.977777777777778, "grad_norm": 2.9750773906707764, "learning_rate": 2.0510222222222223e-06, "loss": 1.3803, "step": 101000 }, { "epoch": 9.0, "eval_Sacrebleu": 11.812893236671785, "eval_loss": 1.7298730611801147, "eval_runtime": 3842.5674, "eval_samples_per_second": 2.602, "eval_steps_per_second": 0.325, "step": 101250 }, { "epoch": 9.022222222222222, "grad_norm": 2.893308162689209, "learning_rate": 1.9621333333333332e-06, "loss": 1.3477, "step": 101500 }, { "epoch": 9.066666666666666, "grad_norm": 2.4525198936462402, "learning_rate": 1.8732444444444445e-06, "loss": 1.3894, "step": 102000 }, { "epoch": 9.11111111111111, "grad_norm": 2.138702392578125, "learning_rate": 1.7843555555555556e-06, "loss": 1.3871, "step": 102500 }, { "epoch": 9.155555555555555, "grad_norm": 2.6823806762695312, "learning_rate": 1.6956444444444445e-06, "loss": 1.3678, "step": 103000 }, { "epoch": 9.2, "grad_norm": 3.6477270126342773, "learning_rate": 1.6067555555555556e-06, "loss": 1.3709, "step": 103500 }, { "epoch": 9.244444444444444, "grad_norm": 2.2082371711730957, "learning_rate": 1.5182222222222223e-06, "loss": 1.376, "step": 104000 }, { "epoch": 9.28888888888889, "grad_norm": 2.7231674194335938, "learning_rate": 1.4293333333333334e-06, "loss": 1.3372, "step": 104500 }, { "epoch": 9.333333333333334, "grad_norm": 2.383312940597534, "learning_rate": 1.3404444444444445e-06, "loss": 1.3507, "step": 105000 }, { "epoch": 9.377777777777778, "grad_norm": 2.908069610595703, "learning_rate": 1.2515555555555556e-06, "loss": 1.371, "step": 105500 }, { "epoch": 9.422222222222222, "grad_norm": 2.7813098430633545, "learning_rate": 1.1626666666666667e-06, "loss": 1.355, "step": 106000 }, { "epoch": 9.466666666666667, "grad_norm": 2.4911601543426514, "learning_rate": 1.0737777777777778e-06, "loss": 1.3662, "step": 106500 }, { "epoch": 9.511111111111111, "grad_norm": 2.429072856903076, "learning_rate": 9.85066666666667e-07, "loss": 1.3643, "step": 107000 }, { "epoch": 9.555555555555555, "grad_norm": 2.832702875137329, "learning_rate": 8.961777777777779e-07, "loss": 1.3664, "step": 107500 }, { "epoch": 9.6, "grad_norm": 2.4679746627807617, "learning_rate": 8.07288888888889e-07, "loss": 1.3599, "step": 108000 }, { "epoch": 9.644444444444444, "grad_norm": 2.522490978240967, "learning_rate": 7.184000000000001e-07, "loss": 1.3691, "step": 108500 }, { "epoch": 9.688888888888888, "grad_norm": 2.7089273929595947, "learning_rate": 6.295111111111112e-07, "loss": 1.373, "step": 109000 }, { "epoch": 9.733333333333333, "grad_norm": 2.0823116302490234, "learning_rate": 5.406222222222223e-07, "loss": 1.369, "step": 109500 }, { "epoch": 9.777777777777779, "grad_norm": 1.9741628170013428, "learning_rate": 4.517333333333334e-07, "loss": 1.3559, "step": 110000 }, { "epoch": 9.822222222222223, "grad_norm": 2.4756247997283936, "learning_rate": 3.628444444444445e-07, "loss": 1.379, "step": 110500 }, { "epoch": 9.866666666666667, "grad_norm": 2.6208088397979736, "learning_rate": 2.739555555555556e-07, "loss": 1.3585, "step": 111000 }, { "epoch": 9.911111111111111, "grad_norm": 3.2721610069274902, "learning_rate": 1.8506666666666668e-07, "loss": 1.3772, "step": 111500 }, { "epoch": 9.955555555555556, "grad_norm": 2.5334367752075195, "learning_rate": 9.617777777777777e-08, "loss": 1.3576, "step": 112000 }, { "epoch": 10.0, "grad_norm": 2.59663987159729, "learning_rate": 7.288888888888889e-09, "loss": 1.3678, "step": 112500 } ], "logging_steps": 500, "max_steps": 112500, "num_input_tokens_seen": 0, "num_train_epochs": 10, "save_steps": 500, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 2.437992677376e+17, "train_batch_size": 8, "trial_name": null, "trial_params": null }