|
{ |
|
"best_metric": 3.329162836074829, |
|
"best_model_checkpoint": "/home/co-jai1/rds/hpc-work/centrum_data/data/pretrain-mds/led_pretrain/ver2/gen_model/Centrum_pretrain_large_14-10-22.1/checkpoint-53000", |
|
"epoch": 9.269546276127357, |
|
"global_step": 100000, |
|
"is_hyper_param_search": false, |
|
"is_local_process_zero": true, |
|
"is_world_process_zero": true, |
|
"log_history": [ |
|
{ |
|
"epoch": 0.0, |
|
"learning_rate": 0.0, |
|
"loss": 8.1075, |
|
"step": 1 |
|
}, |
|
{ |
|
"epoch": 0.01, |
|
"learning_rate": 2.76e-07, |
|
"loss": 6.8242, |
|
"step": 100 |
|
}, |
|
{ |
|
"epoch": 0.02, |
|
"learning_rate": 5.76e-07, |
|
"loss": 4.5884, |
|
"step": 200 |
|
}, |
|
{ |
|
"epoch": 0.03, |
|
"learning_rate": 8.760000000000001e-07, |
|
"loss": 3.9591, |
|
"step": 300 |
|
}, |
|
{ |
|
"epoch": 0.04, |
|
"learning_rate": 1.176e-06, |
|
"loss": 3.8298, |
|
"step": 400 |
|
}, |
|
{ |
|
"epoch": 0.05, |
|
"learning_rate": 1.4760000000000001e-06, |
|
"loss": 3.7884, |
|
"step": 500 |
|
}, |
|
{ |
|
"epoch": 0.05, |
|
"eval_loss": 3.705399990081787, |
|
"eval_runtime": 59.1455, |
|
"eval_samples_per_second": 42.641, |
|
"eval_steps_per_second": 2.671, |
|
"step": 500 |
|
}, |
|
{ |
|
"epoch": 0.06, |
|
"learning_rate": 1.776e-06, |
|
"loss": 3.7317, |
|
"step": 600 |
|
}, |
|
{ |
|
"epoch": 0.06, |
|
"learning_rate": 2.076e-06, |
|
"loss": 3.7274, |
|
"step": 700 |
|
}, |
|
{ |
|
"epoch": 0.07, |
|
"learning_rate": 2.376e-06, |
|
"loss": 3.6931, |
|
"step": 800 |
|
}, |
|
{ |
|
"epoch": 0.08, |
|
"learning_rate": 2.6760000000000003e-06, |
|
"loss": 3.6789, |
|
"step": 900 |
|
}, |
|
{ |
|
"epoch": 0.09, |
|
"learning_rate": 2.976e-06, |
|
"loss": 3.6593, |
|
"step": 1000 |
|
}, |
|
{ |
|
"epoch": 0.09, |
|
"eval_loss": 3.6244819164276123, |
|
"eval_runtime": 58.8782, |
|
"eval_samples_per_second": 42.834, |
|
"eval_steps_per_second": 2.684, |
|
"step": 1000 |
|
}, |
|
{ |
|
"epoch": 0.1, |
|
"learning_rate": 3.276e-06, |
|
"loss": 3.6589, |
|
"step": 1100 |
|
}, |
|
{ |
|
"epoch": 0.11, |
|
"learning_rate": 3.576e-06, |
|
"loss": 3.6512, |
|
"step": 1200 |
|
}, |
|
{ |
|
"epoch": 0.12, |
|
"learning_rate": 3.876000000000001e-06, |
|
"loss": 3.6294, |
|
"step": 1300 |
|
}, |
|
{ |
|
"epoch": 0.13, |
|
"learning_rate": 4.1759999999999995e-06, |
|
"loss": 3.6359, |
|
"step": 1400 |
|
}, |
|
{ |
|
"epoch": 0.14, |
|
"learning_rate": 4.476e-06, |
|
"loss": 3.6425, |
|
"step": 1500 |
|
}, |
|
{ |
|
"epoch": 0.14, |
|
"eval_loss": 3.5840981006622314, |
|
"eval_runtime": 58.8851, |
|
"eval_samples_per_second": 42.829, |
|
"eval_steps_per_second": 2.683, |
|
"step": 1500 |
|
}, |
|
{ |
|
"epoch": 0.15, |
|
"learning_rate": 4.7760000000000005e-06, |
|
"loss": 3.6218, |
|
"step": 1600 |
|
}, |
|
{ |
|
"epoch": 0.16, |
|
"learning_rate": 5.076e-06, |
|
"loss": 3.5919, |
|
"step": 1700 |
|
}, |
|
{ |
|
"epoch": 0.17, |
|
"learning_rate": 5.376e-06, |
|
"loss": 3.6104, |
|
"step": 1800 |
|
}, |
|
{ |
|
"epoch": 0.18, |
|
"learning_rate": 5.676e-06, |
|
"loss": 3.5892, |
|
"step": 1900 |
|
}, |
|
{ |
|
"epoch": 0.19, |
|
"learning_rate": 5.976e-06, |
|
"loss": 3.6008, |
|
"step": 2000 |
|
}, |
|
{ |
|
"epoch": 0.19, |
|
"eval_loss": 3.5560660362243652, |
|
"eval_runtime": 58.9012, |
|
"eval_samples_per_second": 42.817, |
|
"eval_steps_per_second": 2.682, |
|
"step": 2000 |
|
}, |
|
{ |
|
"epoch": 0.19, |
|
"learning_rate": 6.276e-06, |
|
"loss": 3.5975, |
|
"step": 2100 |
|
}, |
|
{ |
|
"epoch": 0.2, |
|
"learning_rate": 6.576e-06, |
|
"loss": 3.5712, |
|
"step": 2200 |
|
}, |
|
{ |
|
"epoch": 0.21, |
|
"learning_rate": 6.876e-06, |
|
"loss": 3.5795, |
|
"step": 2300 |
|
}, |
|
{ |
|
"epoch": 0.22, |
|
"learning_rate": 7.176e-06, |
|
"loss": 3.5798, |
|
"step": 2400 |
|
}, |
|
{ |
|
"epoch": 0.23, |
|
"learning_rate": 7.476e-06, |
|
"loss": 3.5645, |
|
"step": 2500 |
|
}, |
|
{ |
|
"epoch": 0.23, |
|
"eval_loss": 3.537152051925659, |
|
"eval_runtime": 58.6809, |
|
"eval_samples_per_second": 42.978, |
|
"eval_steps_per_second": 2.693, |
|
"step": 2500 |
|
}, |
|
{ |
|
"epoch": 0.24, |
|
"learning_rate": 7.776e-06, |
|
"loss": 3.577, |
|
"step": 2600 |
|
}, |
|
{ |
|
"epoch": 0.25, |
|
"learning_rate": 8.076e-06, |
|
"loss": 3.5629, |
|
"step": 2700 |
|
}, |
|
{ |
|
"epoch": 0.26, |
|
"learning_rate": 8.376e-06, |
|
"loss": 3.5407, |
|
"step": 2800 |
|
}, |
|
{ |
|
"epoch": 0.27, |
|
"learning_rate": 8.676000000000001e-06, |
|
"loss": 3.5578, |
|
"step": 2900 |
|
}, |
|
{ |
|
"epoch": 0.28, |
|
"learning_rate": 8.976e-06, |
|
"loss": 3.568, |
|
"step": 3000 |
|
}, |
|
{ |
|
"epoch": 0.28, |
|
"eval_loss": 3.518704891204834, |
|
"eval_runtime": 58.8663, |
|
"eval_samples_per_second": 42.843, |
|
"eval_steps_per_second": 2.684, |
|
"step": 3000 |
|
}, |
|
{ |
|
"epoch": 0.29, |
|
"learning_rate": 9.275999999999999e-06, |
|
"loss": 3.5412, |
|
"step": 3100 |
|
}, |
|
{ |
|
"epoch": 0.3, |
|
"learning_rate": 9.576e-06, |
|
"loss": 3.5491, |
|
"step": 3200 |
|
}, |
|
{ |
|
"epoch": 0.31, |
|
"learning_rate": 9.876e-06, |
|
"loss": 3.5435, |
|
"step": 3300 |
|
}, |
|
{ |
|
"epoch": 0.32, |
|
"learning_rate": 1.0176e-05, |
|
"loss": 3.5421, |
|
"step": 3400 |
|
}, |
|
{ |
|
"epoch": 0.32, |
|
"learning_rate": 1.0476000000000001e-05, |
|
"loss": 3.5408, |
|
"step": 3500 |
|
}, |
|
{ |
|
"epoch": 0.32, |
|
"eval_loss": 3.50453782081604, |
|
"eval_runtime": 58.8363, |
|
"eval_samples_per_second": 42.865, |
|
"eval_steps_per_second": 2.685, |
|
"step": 3500 |
|
}, |
|
{ |
|
"epoch": 0.33, |
|
"learning_rate": 1.0776000000000002e-05, |
|
"loss": 3.525, |
|
"step": 3600 |
|
}, |
|
{ |
|
"epoch": 0.34, |
|
"learning_rate": 1.1075999999999999e-05, |
|
"loss": 3.5171, |
|
"step": 3700 |
|
}, |
|
{ |
|
"epoch": 0.35, |
|
"learning_rate": 1.1376e-05, |
|
"loss": 3.5247, |
|
"step": 3800 |
|
}, |
|
{ |
|
"epoch": 0.36, |
|
"learning_rate": 1.1676e-05, |
|
"loss": 3.5076, |
|
"step": 3900 |
|
}, |
|
{ |
|
"epoch": 0.37, |
|
"learning_rate": 1.1976e-05, |
|
"loss": 3.5447, |
|
"step": 4000 |
|
}, |
|
{ |
|
"epoch": 0.37, |
|
"eval_loss": 3.4950661659240723, |
|
"eval_runtime": 58.7353, |
|
"eval_samples_per_second": 42.938, |
|
"eval_steps_per_second": 2.69, |
|
"step": 4000 |
|
}, |
|
{ |
|
"epoch": 0.38, |
|
"learning_rate": 1.2276e-05, |
|
"loss": 3.5166, |
|
"step": 4100 |
|
}, |
|
{ |
|
"epoch": 0.39, |
|
"learning_rate": 1.2576000000000001e-05, |
|
"loss": 3.5147, |
|
"step": 4200 |
|
}, |
|
{ |
|
"epoch": 0.4, |
|
"learning_rate": 1.2876000000000002e-05, |
|
"loss": 3.5393, |
|
"step": 4300 |
|
}, |
|
{ |
|
"epoch": 0.41, |
|
"learning_rate": 1.3175999999999999e-05, |
|
"loss": 3.5461, |
|
"step": 4400 |
|
}, |
|
{ |
|
"epoch": 0.42, |
|
"learning_rate": 1.3476e-05, |
|
"loss": 3.5324, |
|
"step": 4500 |
|
}, |
|
{ |
|
"epoch": 0.42, |
|
"eval_loss": 3.4844582080841064, |
|
"eval_runtime": 59.0772, |
|
"eval_samples_per_second": 42.69, |
|
"eval_steps_per_second": 2.674, |
|
"step": 4500 |
|
}, |
|
{ |
|
"epoch": 0.43, |
|
"learning_rate": 1.3776e-05, |
|
"loss": 3.5082, |
|
"step": 4600 |
|
}, |
|
{ |
|
"epoch": 0.44, |
|
"learning_rate": 1.4076e-05, |
|
"loss": 3.5301, |
|
"step": 4700 |
|
}, |
|
{ |
|
"epoch": 0.44, |
|
"learning_rate": 1.4376000000000001e-05, |
|
"loss": 3.5261, |
|
"step": 4800 |
|
}, |
|
{ |
|
"epoch": 0.45, |
|
"learning_rate": 1.4676000000000001e-05, |
|
"loss": 3.5039, |
|
"step": 4900 |
|
}, |
|
{ |
|
"epoch": 0.46, |
|
"learning_rate": 1.4976e-05, |
|
"loss": 3.5192, |
|
"step": 5000 |
|
}, |
|
{ |
|
"epoch": 0.46, |
|
"eval_loss": 3.4739058017730713, |
|
"eval_runtime": 58.8272, |
|
"eval_samples_per_second": 42.871, |
|
"eval_steps_per_second": 2.686, |
|
"step": 5000 |
|
}, |
|
{ |
|
"epoch": 0.47, |
|
"learning_rate": 1.5276e-05, |
|
"loss": 3.5005, |
|
"step": 5100 |
|
}, |
|
{ |
|
"epoch": 0.48, |
|
"learning_rate": 1.5576e-05, |
|
"loss": 3.4897, |
|
"step": 5200 |
|
}, |
|
{ |
|
"epoch": 0.49, |
|
"learning_rate": 1.5876000000000002e-05, |
|
"loss": 3.4819, |
|
"step": 5300 |
|
}, |
|
{ |
|
"epoch": 0.5, |
|
"learning_rate": 1.6176000000000002e-05, |
|
"loss": 3.4951, |
|
"step": 5400 |
|
}, |
|
{ |
|
"epoch": 0.51, |
|
"learning_rate": 1.6476e-05, |
|
"loss": 3.4841, |
|
"step": 5500 |
|
}, |
|
{ |
|
"epoch": 0.51, |
|
"eval_loss": 3.4683852195739746, |
|
"eval_runtime": 58.8445, |
|
"eval_samples_per_second": 42.859, |
|
"eval_steps_per_second": 2.685, |
|
"step": 5500 |
|
}, |
|
{ |
|
"epoch": 0.52, |
|
"learning_rate": 1.6776e-05, |
|
"loss": 3.4991, |
|
"step": 5600 |
|
}, |
|
{ |
|
"epoch": 0.53, |
|
"learning_rate": 1.7076e-05, |
|
"loss": 3.4948, |
|
"step": 5700 |
|
}, |
|
{ |
|
"epoch": 0.54, |
|
"learning_rate": 1.7376e-05, |
|
"loss": 3.4983, |
|
"step": 5800 |
|
}, |
|
{ |
|
"epoch": 0.55, |
|
"learning_rate": 1.7675999999999998e-05, |
|
"loss": 3.476, |
|
"step": 5900 |
|
}, |
|
{ |
|
"epoch": 0.56, |
|
"learning_rate": 1.7976e-05, |
|
"loss": 3.4703, |
|
"step": 6000 |
|
}, |
|
{ |
|
"epoch": 0.56, |
|
"eval_loss": 3.460430145263672, |
|
"eval_runtime": 58.508, |
|
"eval_samples_per_second": 43.105, |
|
"eval_steps_per_second": 2.7, |
|
"step": 6000 |
|
}, |
|
{ |
|
"epoch": 0.57, |
|
"learning_rate": 1.8276e-05, |
|
"loss": 3.488, |
|
"step": 6100 |
|
}, |
|
{ |
|
"epoch": 0.57, |
|
"learning_rate": 1.8576e-05, |
|
"loss": 3.485, |
|
"step": 6200 |
|
}, |
|
{ |
|
"epoch": 0.58, |
|
"learning_rate": 1.8876e-05, |
|
"loss": 3.4885, |
|
"step": 6300 |
|
}, |
|
{ |
|
"epoch": 0.59, |
|
"learning_rate": 1.9176e-05, |
|
"loss": 3.4629, |
|
"step": 6400 |
|
}, |
|
{ |
|
"epoch": 0.6, |
|
"learning_rate": 1.9476e-05, |
|
"loss": 3.4759, |
|
"step": 6500 |
|
}, |
|
{ |
|
"epoch": 0.6, |
|
"eval_loss": 3.4534072875976562, |
|
"eval_runtime": 58.488, |
|
"eval_samples_per_second": 43.12, |
|
"eval_steps_per_second": 2.701, |
|
"step": 6500 |
|
}, |
|
{ |
|
"epoch": 0.61, |
|
"learning_rate": 1.9776000000000002e-05, |
|
"loss": 3.4589, |
|
"step": 6600 |
|
}, |
|
{ |
|
"epoch": 0.62, |
|
"learning_rate": 2.0076000000000002e-05, |
|
"loss": 3.452, |
|
"step": 6700 |
|
}, |
|
{ |
|
"epoch": 0.63, |
|
"learning_rate": 2.0376000000000003e-05, |
|
"loss": 3.4716, |
|
"step": 6800 |
|
}, |
|
{ |
|
"epoch": 0.64, |
|
"learning_rate": 2.0676e-05, |
|
"loss": 3.4735, |
|
"step": 6900 |
|
}, |
|
{ |
|
"epoch": 0.65, |
|
"learning_rate": 2.0976e-05, |
|
"loss": 3.4647, |
|
"step": 7000 |
|
}, |
|
{ |
|
"epoch": 0.65, |
|
"eval_loss": 3.447575807571411, |
|
"eval_runtime": 58.5671, |
|
"eval_samples_per_second": 43.062, |
|
"eval_steps_per_second": 2.698, |
|
"step": 7000 |
|
}, |
|
{ |
|
"epoch": 0.66, |
|
"learning_rate": 2.1276e-05, |
|
"loss": 3.4624, |
|
"step": 7100 |
|
}, |
|
{ |
|
"epoch": 0.67, |
|
"learning_rate": 2.1575999999999998e-05, |
|
"loss": 3.4752, |
|
"step": 7200 |
|
}, |
|
{ |
|
"epoch": 0.68, |
|
"learning_rate": 2.1876e-05, |
|
"loss": 3.4806, |
|
"step": 7300 |
|
}, |
|
{ |
|
"epoch": 0.69, |
|
"learning_rate": 2.2176e-05, |
|
"loss": 3.4535, |
|
"step": 7400 |
|
}, |
|
{ |
|
"epoch": 0.7, |
|
"learning_rate": 2.2476e-05, |
|
"loss": 3.4726, |
|
"step": 7500 |
|
}, |
|
{ |
|
"epoch": 0.7, |
|
"eval_loss": 3.4399240016937256, |
|
"eval_runtime": 58.4479, |
|
"eval_samples_per_second": 43.15, |
|
"eval_steps_per_second": 2.703, |
|
"step": 7500 |
|
}, |
|
{ |
|
"epoch": 0.7, |
|
"learning_rate": 2.2776e-05, |
|
"loss": 3.4505, |
|
"step": 7600 |
|
}, |
|
{ |
|
"epoch": 0.71, |
|
"learning_rate": 2.3076e-05, |
|
"loss": 3.4571, |
|
"step": 7700 |
|
}, |
|
{ |
|
"epoch": 0.72, |
|
"learning_rate": 2.3376e-05, |
|
"loss": 3.4598, |
|
"step": 7800 |
|
}, |
|
{ |
|
"epoch": 0.73, |
|
"learning_rate": 2.3676e-05, |
|
"loss": 3.4667, |
|
"step": 7900 |
|
}, |
|
{ |
|
"epoch": 0.74, |
|
"learning_rate": 2.3976000000000002e-05, |
|
"loss": 3.4522, |
|
"step": 8000 |
|
}, |
|
{ |
|
"epoch": 0.74, |
|
"eval_loss": 3.4332351684570312, |
|
"eval_runtime": 58.3316, |
|
"eval_samples_per_second": 43.236, |
|
"eval_steps_per_second": 2.709, |
|
"step": 8000 |
|
}, |
|
{ |
|
"epoch": 0.75, |
|
"learning_rate": 2.4276000000000003e-05, |
|
"loss": 3.4544, |
|
"step": 8100 |
|
}, |
|
{ |
|
"epoch": 0.76, |
|
"learning_rate": 2.4573000000000003e-05, |
|
"loss": 3.4492, |
|
"step": 8200 |
|
}, |
|
{ |
|
"epoch": 0.77, |
|
"learning_rate": 2.4873e-05, |
|
"loss": 3.4446, |
|
"step": 8300 |
|
}, |
|
{ |
|
"epoch": 0.78, |
|
"learning_rate": 2.5172999999999998e-05, |
|
"loss": 3.4589, |
|
"step": 8400 |
|
}, |
|
{ |
|
"epoch": 0.79, |
|
"learning_rate": 2.5472999999999998e-05, |
|
"loss": 3.4454, |
|
"step": 8500 |
|
}, |
|
{ |
|
"epoch": 0.79, |
|
"eval_loss": 3.4277095794677734, |
|
"eval_runtime": 59.3257, |
|
"eval_samples_per_second": 42.511, |
|
"eval_steps_per_second": 2.663, |
|
"step": 8500 |
|
}, |
|
{ |
|
"epoch": 0.8, |
|
"learning_rate": 2.5773e-05, |
|
"loss": 3.4594, |
|
"step": 8600 |
|
}, |
|
{ |
|
"epoch": 0.81, |
|
"learning_rate": 2.6073e-05, |
|
"loss": 3.4395, |
|
"step": 8700 |
|
}, |
|
{ |
|
"epoch": 0.82, |
|
"learning_rate": 2.6373e-05, |
|
"loss": 3.4521, |
|
"step": 8800 |
|
}, |
|
{ |
|
"epoch": 0.82, |
|
"learning_rate": 2.6673e-05, |
|
"loss": 3.4483, |
|
"step": 8900 |
|
}, |
|
{ |
|
"epoch": 0.83, |
|
"learning_rate": 2.697e-05, |
|
"loss": 3.4281, |
|
"step": 9000 |
|
}, |
|
{ |
|
"epoch": 0.83, |
|
"eval_loss": 3.4228808879852295, |
|
"eval_runtime": 58.5607, |
|
"eval_samples_per_second": 43.066, |
|
"eval_steps_per_second": 2.698, |
|
"step": 9000 |
|
}, |
|
{ |
|
"epoch": 0.84, |
|
"learning_rate": 2.727e-05, |
|
"loss": 3.4613, |
|
"step": 9100 |
|
}, |
|
{ |
|
"epoch": 0.85, |
|
"learning_rate": 2.7570000000000002e-05, |
|
"loss": 3.4163, |
|
"step": 9200 |
|
}, |
|
{ |
|
"epoch": 0.86, |
|
"learning_rate": 2.7870000000000003e-05, |
|
"loss": 3.4439, |
|
"step": 9300 |
|
}, |
|
{ |
|
"epoch": 0.87, |
|
"learning_rate": 2.817e-05, |
|
"loss": 3.4408, |
|
"step": 9400 |
|
}, |
|
{ |
|
"epoch": 0.88, |
|
"learning_rate": 2.847e-05, |
|
"loss": 3.4341, |
|
"step": 9500 |
|
}, |
|
{ |
|
"epoch": 0.88, |
|
"eval_loss": 3.417263984680176, |
|
"eval_runtime": 58.4694, |
|
"eval_samples_per_second": 43.134, |
|
"eval_steps_per_second": 2.702, |
|
"step": 9500 |
|
}, |
|
{ |
|
"epoch": 0.89, |
|
"learning_rate": 2.877e-05, |
|
"loss": 3.4228, |
|
"step": 9600 |
|
}, |
|
{ |
|
"epoch": 0.9, |
|
"learning_rate": 2.907e-05, |
|
"loss": 3.4255, |
|
"step": 9700 |
|
}, |
|
{ |
|
"epoch": 0.91, |
|
"learning_rate": 2.9370000000000002e-05, |
|
"loss": 3.4118, |
|
"step": 9800 |
|
}, |
|
{ |
|
"epoch": 0.92, |
|
"learning_rate": 2.967e-05, |
|
"loss": 3.4116, |
|
"step": 9900 |
|
}, |
|
{ |
|
"epoch": 0.93, |
|
"learning_rate": 2.997e-05, |
|
"loss": 3.4563, |
|
"step": 10000 |
|
}, |
|
{ |
|
"epoch": 0.93, |
|
"eval_loss": 3.4161062240600586, |
|
"eval_runtime": 58.6507, |
|
"eval_samples_per_second": 43.0, |
|
"eval_steps_per_second": 2.694, |
|
"step": 10000 |
|
}, |
|
{ |
|
"epoch": 0.94, |
|
"learning_rate": 2.997e-05, |
|
"loss": 3.4314, |
|
"step": 10100 |
|
}, |
|
{ |
|
"epoch": 0.95, |
|
"learning_rate": 2.9936666666666667e-05, |
|
"loss": 3.4177, |
|
"step": 10200 |
|
}, |
|
{ |
|
"epoch": 0.95, |
|
"learning_rate": 2.9903333333333332e-05, |
|
"loss": 3.4183, |
|
"step": 10300 |
|
}, |
|
{ |
|
"epoch": 0.96, |
|
"learning_rate": 2.987e-05, |
|
"loss": 3.4267, |
|
"step": 10400 |
|
}, |
|
{ |
|
"epoch": 0.97, |
|
"learning_rate": 2.9836666666666665e-05, |
|
"loss": 3.4188, |
|
"step": 10500 |
|
}, |
|
{ |
|
"epoch": 0.97, |
|
"eval_loss": 3.4094197750091553, |
|
"eval_runtime": 58.6526, |
|
"eval_samples_per_second": 42.999, |
|
"eval_steps_per_second": 2.694, |
|
"step": 10500 |
|
}, |
|
{ |
|
"epoch": 0.98, |
|
"learning_rate": 2.9803333333333333e-05, |
|
"loss": 3.4138, |
|
"step": 10600 |
|
}, |
|
{ |
|
"epoch": 0.99, |
|
"learning_rate": 2.9769999999999998e-05, |
|
"loss": 3.4117, |
|
"step": 10700 |
|
}, |
|
{ |
|
"epoch": 1.0, |
|
"learning_rate": 2.9736666666666666e-05, |
|
"loss": 3.4366, |
|
"step": 10800 |
|
}, |
|
{ |
|
"epoch": 1.01, |
|
"learning_rate": 2.9703666666666668e-05, |
|
"loss": 3.3619, |
|
"step": 10900 |
|
}, |
|
{ |
|
"epoch": 1.02, |
|
"learning_rate": 2.9670333333333333e-05, |
|
"loss": 3.3967, |
|
"step": 11000 |
|
}, |
|
{ |
|
"epoch": 1.02, |
|
"eval_loss": 3.4123129844665527, |
|
"eval_runtime": 58.4581, |
|
"eval_samples_per_second": 43.142, |
|
"eval_steps_per_second": 2.703, |
|
"step": 11000 |
|
}, |
|
{ |
|
"epoch": 1.03, |
|
"learning_rate": 2.9637e-05, |
|
"loss": 3.3574, |
|
"step": 11100 |
|
}, |
|
{ |
|
"epoch": 1.04, |
|
"learning_rate": 2.960366666666667e-05, |
|
"loss": 3.3801, |
|
"step": 11200 |
|
}, |
|
{ |
|
"epoch": 1.05, |
|
"learning_rate": 2.9570333333333334e-05, |
|
"loss": 3.3837, |
|
"step": 11300 |
|
}, |
|
{ |
|
"epoch": 1.06, |
|
"learning_rate": 2.9537000000000002e-05, |
|
"loss": 3.3561, |
|
"step": 11400 |
|
}, |
|
{ |
|
"epoch": 1.07, |
|
"learning_rate": 2.9503666666666667e-05, |
|
"loss": 3.3647, |
|
"step": 11500 |
|
}, |
|
{ |
|
"epoch": 1.07, |
|
"eval_loss": 3.4061245918273926, |
|
"eval_runtime": 58.5572, |
|
"eval_samples_per_second": 43.069, |
|
"eval_steps_per_second": 2.698, |
|
"step": 11500 |
|
}, |
|
{ |
|
"epoch": 1.08, |
|
"learning_rate": 2.9470333333333335e-05, |
|
"loss": 3.3754, |
|
"step": 11600 |
|
}, |
|
{ |
|
"epoch": 1.08, |
|
"learning_rate": 2.9437e-05, |
|
"loss": 3.372, |
|
"step": 11700 |
|
}, |
|
{ |
|
"epoch": 1.09, |
|
"learning_rate": 2.9403666666666668e-05, |
|
"loss": 3.3672, |
|
"step": 11800 |
|
}, |
|
{ |
|
"epoch": 1.1, |
|
"learning_rate": 2.9370333333333336e-05, |
|
"loss": 3.3817, |
|
"step": 11900 |
|
}, |
|
{ |
|
"epoch": 1.11, |
|
"learning_rate": 2.9337e-05, |
|
"loss": 3.3604, |
|
"step": 12000 |
|
}, |
|
{ |
|
"epoch": 1.11, |
|
"eval_loss": 3.4010612964630127, |
|
"eval_runtime": 58.3021, |
|
"eval_samples_per_second": 43.257, |
|
"eval_steps_per_second": 2.71, |
|
"step": 12000 |
|
}, |
|
{ |
|
"epoch": 1.12, |
|
"learning_rate": 2.930366666666667e-05, |
|
"loss": 3.355, |
|
"step": 12100 |
|
}, |
|
{ |
|
"epoch": 1.13, |
|
"learning_rate": 2.9270333333333333e-05, |
|
"loss": 3.367, |
|
"step": 12200 |
|
}, |
|
{ |
|
"epoch": 1.14, |
|
"learning_rate": 2.9237e-05, |
|
"loss": 3.3564, |
|
"step": 12300 |
|
}, |
|
{ |
|
"epoch": 1.15, |
|
"learning_rate": 2.9203666666666666e-05, |
|
"loss": 3.3652, |
|
"step": 12400 |
|
}, |
|
{ |
|
"epoch": 1.16, |
|
"learning_rate": 2.9170333333333334e-05, |
|
"loss": 3.3662, |
|
"step": 12500 |
|
}, |
|
{ |
|
"epoch": 1.16, |
|
"eval_loss": 3.4011123180389404, |
|
"eval_runtime": 58.4535, |
|
"eval_samples_per_second": 43.145, |
|
"eval_steps_per_second": 2.703, |
|
"step": 12500 |
|
}, |
|
{ |
|
"epoch": 1.17, |
|
"learning_rate": 2.9137e-05, |
|
"loss": 3.3773, |
|
"step": 12600 |
|
}, |
|
{ |
|
"epoch": 1.18, |
|
"learning_rate": 2.9103666666666667e-05, |
|
"loss": 3.3574, |
|
"step": 12700 |
|
}, |
|
{ |
|
"epoch": 1.19, |
|
"learning_rate": 2.9070333333333335e-05, |
|
"loss": 3.3373, |
|
"step": 12800 |
|
}, |
|
{ |
|
"epoch": 1.2, |
|
"learning_rate": 2.9037e-05, |
|
"loss": 3.366, |
|
"step": 12900 |
|
}, |
|
{ |
|
"epoch": 1.21, |
|
"learning_rate": 2.9003666666666668e-05, |
|
"loss": 3.3698, |
|
"step": 13000 |
|
}, |
|
{ |
|
"epoch": 1.21, |
|
"eval_loss": 3.3917789459228516, |
|
"eval_runtime": 58.456, |
|
"eval_samples_per_second": 43.144, |
|
"eval_steps_per_second": 2.703, |
|
"step": 13000 |
|
}, |
|
{ |
|
"epoch": 1.21, |
|
"learning_rate": 2.8970333333333333e-05, |
|
"loss": 3.3537, |
|
"step": 13100 |
|
}, |
|
{ |
|
"epoch": 1.22, |
|
"learning_rate": 2.8937e-05, |
|
"loss": 3.356, |
|
"step": 13200 |
|
}, |
|
{ |
|
"epoch": 1.23, |
|
"learning_rate": 2.8903666666666666e-05, |
|
"loss": 3.3748, |
|
"step": 13300 |
|
}, |
|
{ |
|
"epoch": 1.24, |
|
"learning_rate": 2.8870666666666668e-05, |
|
"loss": 3.3568, |
|
"step": 13400 |
|
}, |
|
{ |
|
"epoch": 1.25, |
|
"learning_rate": 2.8837333333333336e-05, |
|
"loss": 3.3558, |
|
"step": 13500 |
|
}, |
|
{ |
|
"epoch": 1.25, |
|
"eval_loss": 3.391026496887207, |
|
"eval_runtime": 58.555, |
|
"eval_samples_per_second": 43.071, |
|
"eval_steps_per_second": 2.698, |
|
"step": 13500 |
|
}, |
|
{ |
|
"epoch": 1.26, |
|
"learning_rate": 2.8804e-05, |
|
"loss": 3.3358, |
|
"step": 13600 |
|
}, |
|
{ |
|
"epoch": 1.27, |
|
"learning_rate": 2.877066666666667e-05, |
|
"loss": 3.3519, |
|
"step": 13700 |
|
}, |
|
{ |
|
"epoch": 1.28, |
|
"learning_rate": 2.8737333333333337e-05, |
|
"loss": 3.3782, |
|
"step": 13800 |
|
}, |
|
{ |
|
"epoch": 1.29, |
|
"learning_rate": 2.8704e-05, |
|
"loss": 3.3569, |
|
"step": 13900 |
|
}, |
|
{ |
|
"epoch": 1.3, |
|
"learning_rate": 2.867066666666667e-05, |
|
"loss": 3.3421, |
|
"step": 14000 |
|
}, |
|
{ |
|
"epoch": 1.3, |
|
"eval_loss": 3.3890912532806396, |
|
"eval_runtime": 58.4284, |
|
"eval_samples_per_second": 43.164, |
|
"eval_steps_per_second": 2.704, |
|
"step": 14000 |
|
}, |
|
{ |
|
"epoch": 1.31, |
|
"learning_rate": 2.8637333333333334e-05, |
|
"loss": 3.3466, |
|
"step": 14100 |
|
}, |
|
{ |
|
"epoch": 1.32, |
|
"learning_rate": 2.8604000000000003e-05, |
|
"loss": 3.3691, |
|
"step": 14200 |
|
}, |
|
{ |
|
"epoch": 1.33, |
|
"learning_rate": 2.8570666666666667e-05, |
|
"loss": 3.3551, |
|
"step": 14300 |
|
}, |
|
{ |
|
"epoch": 1.33, |
|
"learning_rate": 2.8537333333333335e-05, |
|
"loss": 3.3746, |
|
"step": 14400 |
|
}, |
|
{ |
|
"epoch": 1.34, |
|
"learning_rate": 2.8504000000000004e-05, |
|
"loss": 3.3468, |
|
"step": 14500 |
|
}, |
|
{ |
|
"epoch": 1.34, |
|
"eval_loss": 3.389421224594116, |
|
"eval_runtime": 58.7364, |
|
"eval_samples_per_second": 42.938, |
|
"eval_steps_per_second": 2.69, |
|
"step": 14500 |
|
}, |
|
{ |
|
"epoch": 1.35, |
|
"learning_rate": 2.8470666666666668e-05, |
|
"loss": 3.3545, |
|
"step": 14600 |
|
}, |
|
{ |
|
"epoch": 1.36, |
|
"learning_rate": 2.8437333333333336e-05, |
|
"loss": 3.342, |
|
"step": 14700 |
|
}, |
|
{ |
|
"epoch": 1.37, |
|
"learning_rate": 2.8404e-05, |
|
"loss": 3.3597, |
|
"step": 14800 |
|
}, |
|
{ |
|
"epoch": 1.38, |
|
"learning_rate": 2.837066666666667e-05, |
|
"loss": 3.3459, |
|
"step": 14900 |
|
}, |
|
{ |
|
"epoch": 1.39, |
|
"learning_rate": 2.8337333333333334e-05, |
|
"loss": 3.3333, |
|
"step": 15000 |
|
}, |
|
{ |
|
"epoch": 1.39, |
|
"eval_loss": 3.381697654724121, |
|
"eval_runtime": 58.452, |
|
"eval_samples_per_second": 43.147, |
|
"eval_steps_per_second": 2.703, |
|
"step": 15000 |
|
}, |
|
{ |
|
"epoch": 1.4, |
|
"learning_rate": 2.8304000000000002e-05, |
|
"loss": 3.3582, |
|
"step": 15100 |
|
}, |
|
{ |
|
"epoch": 1.41, |
|
"learning_rate": 2.8270666666666667e-05, |
|
"loss": 3.3378, |
|
"step": 15200 |
|
}, |
|
{ |
|
"epoch": 1.42, |
|
"learning_rate": 2.8237333333333335e-05, |
|
"loss": 3.3435, |
|
"step": 15300 |
|
}, |
|
{ |
|
"epoch": 1.43, |
|
"learning_rate": 2.8204000000000003e-05, |
|
"loss": 3.3536, |
|
"step": 15400 |
|
}, |
|
{ |
|
"epoch": 1.44, |
|
"learning_rate": 2.8170666666666668e-05, |
|
"loss": 3.3545, |
|
"step": 15500 |
|
}, |
|
{ |
|
"epoch": 1.44, |
|
"eval_loss": 3.380300283432007, |
|
"eval_runtime": 58.434, |
|
"eval_samples_per_second": 43.16, |
|
"eval_steps_per_second": 2.704, |
|
"step": 15500 |
|
}, |
|
{ |
|
"epoch": 1.45, |
|
"learning_rate": 2.8137333333333336e-05, |
|
"loss": 3.343, |
|
"step": 15600 |
|
}, |
|
{ |
|
"epoch": 1.46, |
|
"learning_rate": 2.8104e-05, |
|
"loss": 3.3492, |
|
"step": 15700 |
|
}, |
|
{ |
|
"epoch": 1.46, |
|
"learning_rate": 2.807066666666667e-05, |
|
"loss": 3.339, |
|
"step": 15800 |
|
}, |
|
{ |
|
"epoch": 1.47, |
|
"learning_rate": 2.8037333333333333e-05, |
|
"loss": 3.3403, |
|
"step": 15900 |
|
}, |
|
{ |
|
"epoch": 1.48, |
|
"learning_rate": 2.8004e-05, |
|
"loss": 3.3411, |
|
"step": 16000 |
|
}, |
|
{ |
|
"epoch": 1.48, |
|
"eval_loss": 3.378385066986084, |
|
"eval_runtime": 58.3674, |
|
"eval_samples_per_second": 43.209, |
|
"eval_steps_per_second": 2.707, |
|
"step": 16000 |
|
}, |
|
{ |
|
"epoch": 1.49, |
|
"learning_rate": 2.797066666666667e-05, |
|
"loss": 3.3512, |
|
"step": 16100 |
|
}, |
|
{ |
|
"epoch": 1.5, |
|
"learning_rate": 2.7937333333333334e-05, |
|
"loss": 3.3313, |
|
"step": 16200 |
|
}, |
|
{ |
|
"epoch": 1.51, |
|
"learning_rate": 2.7904000000000003e-05, |
|
"loss": 3.3308, |
|
"step": 16300 |
|
}, |
|
{ |
|
"epoch": 1.52, |
|
"learning_rate": 2.7870666666666667e-05, |
|
"loss": 3.3396, |
|
"step": 16400 |
|
}, |
|
{ |
|
"epoch": 1.53, |
|
"learning_rate": 2.7837333333333335e-05, |
|
"loss": 3.3338, |
|
"step": 16500 |
|
}, |
|
{ |
|
"epoch": 1.53, |
|
"eval_loss": 3.3781661987304688, |
|
"eval_runtime": 58.4306, |
|
"eval_samples_per_second": 43.162, |
|
"eval_steps_per_second": 2.704, |
|
"step": 16500 |
|
}, |
|
{ |
|
"epoch": 1.54, |
|
"learning_rate": 2.7804e-05, |
|
"loss": 3.354, |
|
"step": 16600 |
|
}, |
|
{ |
|
"epoch": 1.55, |
|
"learning_rate": 2.7770666666666668e-05, |
|
"loss": 3.3221, |
|
"step": 16700 |
|
}, |
|
{ |
|
"epoch": 1.56, |
|
"learning_rate": 2.7737333333333336e-05, |
|
"loss": 3.3186, |
|
"step": 16800 |
|
}, |
|
{ |
|
"epoch": 1.57, |
|
"learning_rate": 2.7704e-05, |
|
"loss": 3.3275, |
|
"step": 16900 |
|
}, |
|
{ |
|
"epoch": 1.58, |
|
"learning_rate": 2.767066666666667e-05, |
|
"loss": 3.3354, |
|
"step": 17000 |
|
}, |
|
{ |
|
"epoch": 1.58, |
|
"eval_loss": 3.374887704849243, |
|
"eval_runtime": 58.4831, |
|
"eval_samples_per_second": 43.124, |
|
"eval_steps_per_second": 2.702, |
|
"step": 17000 |
|
}, |
|
{ |
|
"epoch": 1.59, |
|
"learning_rate": 2.7637333333333334e-05, |
|
"loss": 3.3307, |
|
"step": 17100 |
|
}, |
|
{ |
|
"epoch": 1.59, |
|
"learning_rate": 2.7604000000000002e-05, |
|
"loss": 3.327, |
|
"step": 17200 |
|
}, |
|
{ |
|
"epoch": 1.6, |
|
"learning_rate": 2.7570666666666667e-05, |
|
"loss": 3.3328, |
|
"step": 17300 |
|
}, |
|
{ |
|
"epoch": 1.61, |
|
"learning_rate": 2.7537333333333335e-05, |
|
"loss": 3.348, |
|
"step": 17400 |
|
}, |
|
{ |
|
"epoch": 1.62, |
|
"learning_rate": 2.7504e-05, |
|
"loss": 3.3341, |
|
"step": 17500 |
|
}, |
|
{ |
|
"epoch": 1.62, |
|
"eval_loss": 3.3714194297790527, |
|
"eval_runtime": 58.8552, |
|
"eval_samples_per_second": 42.851, |
|
"eval_steps_per_second": 2.685, |
|
"step": 17500 |
|
}, |
|
{ |
|
"epoch": 1.63, |
|
"learning_rate": 2.7470666666666668e-05, |
|
"loss": 3.3328, |
|
"step": 17600 |
|
}, |
|
{ |
|
"epoch": 1.64, |
|
"learning_rate": 2.7437333333333336e-05, |
|
"loss": 3.3337, |
|
"step": 17700 |
|
}, |
|
{ |
|
"epoch": 1.65, |
|
"learning_rate": 2.7404e-05, |
|
"loss": 3.3318, |
|
"step": 17800 |
|
}, |
|
{ |
|
"epoch": 1.66, |
|
"learning_rate": 2.737066666666667e-05, |
|
"loss": 3.3427, |
|
"step": 17900 |
|
}, |
|
{ |
|
"epoch": 1.67, |
|
"learning_rate": 2.7337333333333333e-05, |
|
"loss": 3.3302, |
|
"step": 18000 |
|
}, |
|
{ |
|
"epoch": 1.67, |
|
"eval_loss": 3.367736577987671, |
|
"eval_runtime": 58.4501, |
|
"eval_samples_per_second": 43.148, |
|
"eval_steps_per_second": 2.703, |
|
"step": 18000 |
|
}, |
|
{ |
|
"epoch": 1.68, |
|
"learning_rate": 2.7304e-05, |
|
"loss": 3.3023, |
|
"step": 18100 |
|
}, |
|
{ |
|
"epoch": 1.69, |
|
"learning_rate": 2.7270666666666666e-05, |
|
"loss": 3.3306, |
|
"step": 18200 |
|
}, |
|
{ |
|
"epoch": 1.7, |
|
"learning_rate": 2.7237333333333334e-05, |
|
"loss": 3.3314, |
|
"step": 18300 |
|
}, |
|
{ |
|
"epoch": 1.71, |
|
"learning_rate": 2.7204000000000002e-05, |
|
"loss": 3.3156, |
|
"step": 18400 |
|
}, |
|
{ |
|
"epoch": 1.71, |
|
"learning_rate": 2.7170666666666667e-05, |
|
"loss": 3.3179, |
|
"step": 18500 |
|
}, |
|
{ |
|
"epoch": 1.71, |
|
"eval_loss": 3.3658902645111084, |
|
"eval_runtime": 58.4715, |
|
"eval_samples_per_second": 43.132, |
|
"eval_steps_per_second": 2.702, |
|
"step": 18500 |
|
}, |
|
{ |
|
"epoch": 1.72, |
|
"learning_rate": 2.7137333333333335e-05, |
|
"loss": 3.3115, |
|
"step": 18600 |
|
}, |
|
{ |
|
"epoch": 1.73, |
|
"learning_rate": 2.7104e-05, |
|
"loss": 3.3114, |
|
"step": 18700 |
|
}, |
|
{ |
|
"epoch": 1.74, |
|
"learning_rate": 2.7070666666666668e-05, |
|
"loss": 3.3313, |
|
"step": 18800 |
|
}, |
|
{ |
|
"epoch": 1.75, |
|
"learning_rate": 2.7037333333333333e-05, |
|
"loss": 3.3132, |
|
"step": 18900 |
|
}, |
|
{ |
|
"epoch": 1.76, |
|
"learning_rate": 2.7004e-05, |
|
"loss": 3.3381, |
|
"step": 19000 |
|
}, |
|
{ |
|
"epoch": 1.76, |
|
"eval_loss": 3.3644754886627197, |
|
"eval_runtime": 58.4668, |
|
"eval_samples_per_second": 43.136, |
|
"eval_steps_per_second": 2.702, |
|
"step": 19000 |
|
}, |
|
{ |
|
"epoch": 1.77, |
|
"learning_rate": 2.6970666666666666e-05, |
|
"loss": 3.3279, |
|
"step": 19100 |
|
}, |
|
{ |
|
"epoch": 1.78, |
|
"learning_rate": 2.6937333333333334e-05, |
|
"loss": 3.3268, |
|
"step": 19200 |
|
}, |
|
{ |
|
"epoch": 1.79, |
|
"learning_rate": 2.6904000000000002e-05, |
|
"loss": 3.3295, |
|
"step": 19300 |
|
}, |
|
{ |
|
"epoch": 1.8, |
|
"learning_rate": 2.6870666666666667e-05, |
|
"loss": 3.3262, |
|
"step": 19400 |
|
}, |
|
{ |
|
"epoch": 1.81, |
|
"learning_rate": 2.6837333333333335e-05, |
|
"loss": 3.3223, |
|
"step": 19500 |
|
}, |
|
{ |
|
"epoch": 1.81, |
|
"eval_loss": 3.3619046211242676, |
|
"eval_runtime": 58.6909, |
|
"eval_samples_per_second": 42.971, |
|
"eval_steps_per_second": 2.692, |
|
"step": 19500 |
|
}, |
|
{ |
|
"epoch": 1.82, |
|
"learning_rate": 2.6804e-05, |
|
"loss": 3.301, |
|
"step": 19600 |
|
}, |
|
{ |
|
"epoch": 1.83, |
|
"learning_rate": 2.6770666666666668e-05, |
|
"loss": 3.314, |
|
"step": 19700 |
|
}, |
|
{ |
|
"epoch": 1.84, |
|
"learning_rate": 2.6737333333333332e-05, |
|
"loss": 3.3262, |
|
"step": 19800 |
|
}, |
|
{ |
|
"epoch": 1.84, |
|
"learning_rate": 2.6704e-05, |
|
"loss": 3.323, |
|
"step": 19900 |
|
}, |
|
{ |
|
"epoch": 1.85, |
|
"learning_rate": 2.667066666666667e-05, |
|
"loss": 3.3079, |
|
"step": 20000 |
|
}, |
|
{ |
|
"epoch": 1.85, |
|
"eval_loss": 3.359276533126831, |
|
"eval_runtime": 58.3373, |
|
"eval_samples_per_second": 43.231, |
|
"eval_steps_per_second": 2.708, |
|
"step": 20000 |
|
}, |
|
{ |
|
"epoch": 1.86, |
|
"learning_rate": 2.6637333333333333e-05, |
|
"loss": 3.3146, |
|
"step": 20100 |
|
}, |
|
{ |
|
"epoch": 1.87, |
|
"learning_rate": 2.6604e-05, |
|
"loss": 3.3245, |
|
"step": 20200 |
|
}, |
|
{ |
|
"epoch": 1.88, |
|
"learning_rate": 2.6570666666666666e-05, |
|
"loss": 3.3325, |
|
"step": 20300 |
|
}, |
|
{ |
|
"epoch": 1.89, |
|
"learning_rate": 2.6537333333333334e-05, |
|
"loss": 3.3245, |
|
"step": 20400 |
|
}, |
|
{ |
|
"epoch": 1.9, |
|
"learning_rate": 2.6504e-05, |
|
"loss": 3.3156, |
|
"step": 20500 |
|
}, |
|
{ |
|
"epoch": 1.9, |
|
"eval_loss": 3.357572078704834, |
|
"eval_runtime": 58.7259, |
|
"eval_samples_per_second": 42.945, |
|
"eval_steps_per_second": 2.69, |
|
"step": 20500 |
|
}, |
|
{ |
|
"epoch": 1.91, |
|
"learning_rate": 2.6470666666666667e-05, |
|
"loss": 3.3022, |
|
"step": 20600 |
|
}, |
|
{ |
|
"epoch": 1.92, |
|
"learning_rate": 2.643766666666667e-05, |
|
"loss": 3.3192, |
|
"step": 20700 |
|
}, |
|
{ |
|
"epoch": 1.93, |
|
"learning_rate": 2.6404333333333334e-05, |
|
"loss": 3.32, |
|
"step": 20800 |
|
}, |
|
{ |
|
"epoch": 1.94, |
|
"learning_rate": 2.6371000000000002e-05, |
|
"loss": 3.3145, |
|
"step": 20900 |
|
}, |
|
{ |
|
"epoch": 1.95, |
|
"learning_rate": 2.633766666666667e-05, |
|
"loss": 3.3056, |
|
"step": 21000 |
|
}, |
|
{ |
|
"epoch": 1.95, |
|
"eval_loss": 3.3581552505493164, |
|
"eval_runtime": 58.4572, |
|
"eval_samples_per_second": 43.143, |
|
"eval_steps_per_second": 2.703, |
|
"step": 21000 |
|
}, |
|
{ |
|
"epoch": 1.96, |
|
"learning_rate": 2.6304333333333335e-05, |
|
"loss": 3.3083, |
|
"step": 21100 |
|
}, |
|
{ |
|
"epoch": 1.97, |
|
"learning_rate": 2.6271000000000003e-05, |
|
"loss": 3.3113, |
|
"step": 21200 |
|
}, |
|
{ |
|
"epoch": 1.97, |
|
"learning_rate": 2.6237666666666668e-05, |
|
"loss": 3.3155, |
|
"step": 21300 |
|
}, |
|
{ |
|
"epoch": 1.98, |
|
"learning_rate": 2.6204333333333336e-05, |
|
"loss": 3.3106, |
|
"step": 21400 |
|
}, |
|
{ |
|
"epoch": 1.99, |
|
"learning_rate": 2.6171e-05, |
|
"loss": 3.3117, |
|
"step": 21500 |
|
}, |
|
{ |
|
"epoch": 1.99, |
|
"eval_loss": 3.355170488357544, |
|
"eval_runtime": 58.4459, |
|
"eval_samples_per_second": 43.151, |
|
"eval_steps_per_second": 2.703, |
|
"step": 21500 |
|
}, |
|
{ |
|
"epoch": 2.0, |
|
"learning_rate": 2.613766666666667e-05, |
|
"loss": 3.3146, |
|
"step": 21600 |
|
}, |
|
{ |
|
"epoch": 2.01, |
|
"learning_rate": 2.6104333333333337e-05, |
|
"loss": 3.253, |
|
"step": 21700 |
|
}, |
|
{ |
|
"epoch": 2.02, |
|
"learning_rate": 2.6071e-05, |
|
"loss": 3.2346, |
|
"step": 21800 |
|
}, |
|
{ |
|
"epoch": 2.03, |
|
"learning_rate": 2.603766666666667e-05, |
|
"loss": 3.2419, |
|
"step": 21900 |
|
}, |
|
{ |
|
"epoch": 2.04, |
|
"learning_rate": 2.6004333333333334e-05, |
|
"loss": 3.2522, |
|
"step": 22000 |
|
}, |
|
{ |
|
"epoch": 2.04, |
|
"eval_loss": 3.355015277862549, |
|
"eval_runtime": 58.4504, |
|
"eval_samples_per_second": 43.148, |
|
"eval_steps_per_second": 2.703, |
|
"step": 22000 |
|
}, |
|
{ |
|
"epoch": 2.05, |
|
"learning_rate": 2.5971000000000003e-05, |
|
"loss": 3.248, |
|
"step": 22100 |
|
}, |
|
{ |
|
"epoch": 2.06, |
|
"learning_rate": 2.5937666666666667e-05, |
|
"loss": 3.2442, |
|
"step": 22200 |
|
}, |
|
{ |
|
"epoch": 2.07, |
|
"learning_rate": 2.5904333333333335e-05, |
|
"loss": 3.2261, |
|
"step": 22300 |
|
}, |
|
{ |
|
"epoch": 2.08, |
|
"learning_rate": 2.5871e-05, |
|
"loss": 3.2503, |
|
"step": 22400 |
|
}, |
|
{ |
|
"epoch": 2.09, |
|
"learning_rate": 2.5837666666666668e-05, |
|
"loss": 3.2522, |
|
"step": 22500 |
|
}, |
|
{ |
|
"epoch": 2.09, |
|
"eval_loss": 3.35856032371521, |
|
"eval_runtime": 58.5385, |
|
"eval_samples_per_second": 43.083, |
|
"eval_steps_per_second": 2.699, |
|
"step": 22500 |
|
}, |
|
{ |
|
"epoch": 2.09, |
|
"learning_rate": 2.5804333333333336e-05, |
|
"loss": 3.251, |
|
"step": 22600 |
|
}, |
|
{ |
|
"epoch": 2.1, |
|
"learning_rate": 2.5771e-05, |
|
"loss": 3.2469, |
|
"step": 22700 |
|
}, |
|
{ |
|
"epoch": 2.11, |
|
"learning_rate": 2.573766666666667e-05, |
|
"loss": 3.2493, |
|
"step": 22800 |
|
}, |
|
{ |
|
"epoch": 2.12, |
|
"learning_rate": 2.5704333333333334e-05, |
|
"loss": 3.244, |
|
"step": 22900 |
|
}, |
|
{ |
|
"epoch": 2.13, |
|
"learning_rate": 2.5671000000000002e-05, |
|
"loss": 3.2386, |
|
"step": 23000 |
|
}, |
|
{ |
|
"epoch": 2.13, |
|
"eval_loss": 3.3548336029052734, |
|
"eval_runtime": 58.4398, |
|
"eval_samples_per_second": 43.156, |
|
"eval_steps_per_second": 2.704, |
|
"step": 23000 |
|
}, |
|
{ |
|
"epoch": 2.14, |
|
"learning_rate": 2.5637666666666667e-05, |
|
"loss": 3.245, |
|
"step": 23100 |
|
}, |
|
{ |
|
"epoch": 2.15, |
|
"learning_rate": 2.5604333333333335e-05, |
|
"loss": 3.2278, |
|
"step": 23200 |
|
}, |
|
{ |
|
"epoch": 2.16, |
|
"learning_rate": 2.5571000000000003e-05, |
|
"loss": 3.2373, |
|
"step": 23300 |
|
}, |
|
{ |
|
"epoch": 2.17, |
|
"learning_rate": 2.5537666666666668e-05, |
|
"loss": 3.2494, |
|
"step": 23400 |
|
}, |
|
{ |
|
"epoch": 2.18, |
|
"learning_rate": 2.5504333333333336e-05, |
|
"loss": 3.2574, |
|
"step": 23500 |
|
}, |
|
{ |
|
"epoch": 2.18, |
|
"eval_loss": 3.3544278144836426, |
|
"eval_runtime": 58.4519, |
|
"eval_samples_per_second": 43.147, |
|
"eval_steps_per_second": 2.703, |
|
"step": 23500 |
|
}, |
|
{ |
|
"epoch": 2.19, |
|
"learning_rate": 2.5471e-05, |
|
"loss": 3.2332, |
|
"step": 23600 |
|
}, |
|
{ |
|
"epoch": 2.2, |
|
"learning_rate": 2.543766666666667e-05, |
|
"loss": 3.246, |
|
"step": 23700 |
|
}, |
|
{ |
|
"epoch": 2.21, |
|
"learning_rate": 2.5404333333333333e-05, |
|
"loss": 3.2394, |
|
"step": 23800 |
|
}, |
|
{ |
|
"epoch": 2.22, |
|
"learning_rate": 2.5371e-05, |
|
"loss": 3.2427, |
|
"step": 23900 |
|
}, |
|
{ |
|
"epoch": 2.22, |
|
"learning_rate": 2.5337666666666666e-05, |
|
"loss": 3.239, |
|
"step": 24000 |
|
}, |
|
{ |
|
"epoch": 2.22, |
|
"eval_loss": 3.3566300868988037, |
|
"eval_runtime": 58.8144, |
|
"eval_samples_per_second": 42.881, |
|
"eval_steps_per_second": 2.686, |
|
"step": 24000 |
|
}, |
|
{ |
|
"epoch": 2.23, |
|
"learning_rate": 2.5304333333333334e-05, |
|
"loss": 3.2215, |
|
"step": 24100 |
|
}, |
|
{ |
|
"epoch": 2.24, |
|
"learning_rate": 2.5271000000000002e-05, |
|
"loss": 3.2454, |
|
"step": 24200 |
|
}, |
|
{ |
|
"epoch": 2.25, |
|
"learning_rate": 2.5237666666666667e-05, |
|
"loss": 3.2297, |
|
"step": 24300 |
|
}, |
|
{ |
|
"epoch": 2.26, |
|
"learning_rate": 2.5204333333333335e-05, |
|
"loss": 3.2366, |
|
"step": 24400 |
|
}, |
|
{ |
|
"epoch": 2.27, |
|
"learning_rate": 2.5171e-05, |
|
"loss": 3.2468, |
|
"step": 24500 |
|
}, |
|
{ |
|
"epoch": 2.27, |
|
"eval_loss": 3.352820873260498, |
|
"eval_runtime": 58.4424, |
|
"eval_samples_per_second": 43.154, |
|
"eval_steps_per_second": 2.704, |
|
"step": 24500 |
|
}, |
|
{ |
|
"epoch": 2.28, |
|
"learning_rate": 2.5137666666666668e-05, |
|
"loss": 3.2524, |
|
"step": 24600 |
|
}, |
|
{ |
|
"epoch": 2.29, |
|
"learning_rate": 2.5104333333333333e-05, |
|
"loss": 3.2533, |
|
"step": 24700 |
|
}, |
|
{ |
|
"epoch": 2.3, |
|
"learning_rate": 2.5071e-05, |
|
"loss": 3.2291, |
|
"step": 24800 |
|
}, |
|
{ |
|
"epoch": 2.31, |
|
"learning_rate": 2.503766666666667e-05, |
|
"loss": 3.2429, |
|
"step": 24900 |
|
}, |
|
{ |
|
"epoch": 2.32, |
|
"learning_rate": 2.5004333333333334e-05, |
|
"loss": 3.2264, |
|
"step": 25000 |
|
}, |
|
{ |
|
"epoch": 2.32, |
|
"eval_loss": 3.3511462211608887, |
|
"eval_runtime": 58.4628, |
|
"eval_samples_per_second": 43.139, |
|
"eval_steps_per_second": 2.703, |
|
"step": 25000 |
|
}, |
|
{ |
|
"epoch": 2.33, |
|
"learning_rate": 2.4971000000000002e-05, |
|
"loss": 3.2242, |
|
"step": 25100 |
|
}, |
|
{ |
|
"epoch": 2.34, |
|
"learning_rate": 2.4937666666666667e-05, |
|
"loss": 3.2563, |
|
"step": 25200 |
|
}, |
|
{ |
|
"epoch": 2.35, |
|
"learning_rate": 2.4904333333333335e-05, |
|
"loss": 3.2223, |
|
"step": 25300 |
|
}, |
|
{ |
|
"epoch": 2.35, |
|
"learning_rate": 2.4871e-05, |
|
"loss": 3.2161, |
|
"step": 25400 |
|
}, |
|
{ |
|
"epoch": 2.36, |
|
"learning_rate": 2.4837666666666668e-05, |
|
"loss": 3.2501, |
|
"step": 25500 |
|
}, |
|
{ |
|
"epoch": 2.36, |
|
"eval_loss": 3.3482284545898438, |
|
"eval_runtime": 58.4232, |
|
"eval_samples_per_second": 43.168, |
|
"eval_steps_per_second": 2.704, |
|
"step": 25500 |
|
}, |
|
{ |
|
"epoch": 2.37, |
|
"learning_rate": 2.4804333333333336e-05, |
|
"loss": 3.2389, |
|
"step": 25600 |
|
}, |
|
{ |
|
"epoch": 2.38, |
|
"learning_rate": 2.4771e-05, |
|
"loss": 3.2502, |
|
"step": 25700 |
|
}, |
|
{ |
|
"epoch": 2.39, |
|
"learning_rate": 2.4738e-05, |
|
"loss": 3.2395, |
|
"step": 25800 |
|
}, |
|
{ |
|
"epoch": 2.4, |
|
"learning_rate": 2.4704666666666667e-05, |
|
"loss": 3.222, |
|
"step": 25900 |
|
}, |
|
{ |
|
"epoch": 2.41, |
|
"learning_rate": 2.4671666666666666e-05, |
|
"loss": 3.2204, |
|
"step": 26000 |
|
}, |
|
{ |
|
"epoch": 2.41, |
|
"eval_loss": 3.3506267070770264, |
|
"eval_runtime": 58.4353, |
|
"eval_samples_per_second": 43.159, |
|
"eval_steps_per_second": 2.704, |
|
"step": 26000 |
|
}, |
|
{ |
|
"epoch": 2.42, |
|
"learning_rate": 2.4638333333333334e-05, |
|
"loss": 3.2346, |
|
"step": 26100 |
|
}, |
|
{ |
|
"epoch": 2.43, |
|
"learning_rate": 2.4605000000000002e-05, |
|
"loss": 3.2247, |
|
"step": 26200 |
|
}, |
|
{ |
|
"epoch": 2.44, |
|
"learning_rate": 2.4571666666666667e-05, |
|
"loss": 3.2337, |
|
"step": 26300 |
|
}, |
|
{ |
|
"epoch": 2.45, |
|
"learning_rate": 2.4538333333333335e-05, |
|
"loss": 3.2216, |
|
"step": 26400 |
|
}, |
|
{ |
|
"epoch": 2.46, |
|
"learning_rate": 2.4505e-05, |
|
"loss": 3.2302, |
|
"step": 26500 |
|
}, |
|
{ |
|
"epoch": 2.46, |
|
"eval_loss": 3.3525521755218506, |
|
"eval_runtime": 58.508, |
|
"eval_samples_per_second": 43.105, |
|
"eval_steps_per_second": 2.7, |
|
"step": 26500 |
|
}, |
|
{ |
|
"epoch": 2.47, |
|
"learning_rate": 2.4471666666666668e-05, |
|
"loss": 3.2433, |
|
"step": 26600 |
|
}, |
|
{ |
|
"epoch": 2.47, |
|
"learning_rate": 2.4438333333333333e-05, |
|
"loss": 3.2586, |
|
"step": 26700 |
|
}, |
|
{ |
|
"epoch": 2.48, |
|
"learning_rate": 2.4405e-05, |
|
"loss": 3.2343, |
|
"step": 26800 |
|
}, |
|
{ |
|
"epoch": 2.49, |
|
"learning_rate": 2.437166666666667e-05, |
|
"loss": 3.2348, |
|
"step": 26900 |
|
}, |
|
{ |
|
"epoch": 2.5, |
|
"learning_rate": 2.4338333333333334e-05, |
|
"loss": 3.2353, |
|
"step": 27000 |
|
}, |
|
{ |
|
"epoch": 2.5, |
|
"eval_loss": 3.349168062210083, |
|
"eval_runtime": 58.3806, |
|
"eval_samples_per_second": 43.199, |
|
"eval_steps_per_second": 2.706, |
|
"step": 27000 |
|
}, |
|
{ |
|
"epoch": 2.51, |
|
"learning_rate": 2.4305000000000002e-05, |
|
"loss": 3.2173, |
|
"step": 27100 |
|
}, |
|
{ |
|
"epoch": 2.52, |
|
"learning_rate": 2.4271666666666667e-05, |
|
"loss": 3.2411, |
|
"step": 27200 |
|
}, |
|
{ |
|
"epoch": 2.53, |
|
"learning_rate": 2.4238333333333335e-05, |
|
"loss": 3.2552, |
|
"step": 27300 |
|
}, |
|
{ |
|
"epoch": 2.54, |
|
"learning_rate": 2.4205e-05, |
|
"loss": 3.2479, |
|
"step": 27400 |
|
}, |
|
{ |
|
"epoch": 2.55, |
|
"learning_rate": 2.4171666666666668e-05, |
|
"loss": 3.2494, |
|
"step": 27500 |
|
}, |
|
{ |
|
"epoch": 2.55, |
|
"eval_loss": 3.345209836959839, |
|
"eval_runtime": 58.4348, |
|
"eval_samples_per_second": 43.159, |
|
"eval_steps_per_second": 2.704, |
|
"step": 27500 |
|
}, |
|
{ |
|
"epoch": 2.56, |
|
"learning_rate": 2.4138333333333336e-05, |
|
"loss": 3.2397, |
|
"step": 27600 |
|
}, |
|
{ |
|
"epoch": 2.57, |
|
"learning_rate": 2.4105e-05, |
|
"loss": 3.2236, |
|
"step": 27700 |
|
}, |
|
{ |
|
"epoch": 2.58, |
|
"learning_rate": 2.407166666666667e-05, |
|
"loss": 3.2366, |
|
"step": 27800 |
|
}, |
|
{ |
|
"epoch": 2.59, |
|
"learning_rate": 2.4038333333333333e-05, |
|
"loss": 3.2433, |
|
"step": 27900 |
|
}, |
|
{ |
|
"epoch": 2.6, |
|
"learning_rate": 2.4005e-05, |
|
"loss": 3.2423, |
|
"step": 28000 |
|
}, |
|
{ |
|
"epoch": 2.6, |
|
"eval_loss": 3.345515012741089, |
|
"eval_runtime": 58.3332, |
|
"eval_samples_per_second": 43.234, |
|
"eval_steps_per_second": 2.709, |
|
"step": 28000 |
|
}, |
|
{ |
|
"epoch": 2.6, |
|
"learning_rate": 2.3971666666666666e-05, |
|
"loss": 3.233, |
|
"step": 28100 |
|
}, |
|
{ |
|
"epoch": 2.61, |
|
"learning_rate": 2.3938333333333334e-05, |
|
"loss": 3.2255, |
|
"step": 28200 |
|
}, |
|
{ |
|
"epoch": 2.62, |
|
"learning_rate": 2.3905e-05, |
|
"loss": 3.2048, |
|
"step": 28300 |
|
}, |
|
{ |
|
"epoch": 2.63, |
|
"learning_rate": 2.3871666666666667e-05, |
|
"loss": 3.2525, |
|
"step": 28400 |
|
}, |
|
{ |
|
"epoch": 2.64, |
|
"learning_rate": 2.3838333333333335e-05, |
|
"loss": 3.2233, |
|
"step": 28500 |
|
}, |
|
{ |
|
"epoch": 2.64, |
|
"eval_loss": 3.344694137573242, |
|
"eval_runtime": 58.4478, |
|
"eval_samples_per_second": 43.15, |
|
"eval_steps_per_second": 2.703, |
|
"step": 28500 |
|
}, |
|
{ |
|
"epoch": 2.65, |
|
"learning_rate": 2.3805e-05, |
|
"loss": 3.2285, |
|
"step": 28600 |
|
}, |
|
{ |
|
"epoch": 2.66, |
|
"learning_rate": 2.3771666666666668e-05, |
|
"loss": 3.2532, |
|
"step": 28700 |
|
}, |
|
{ |
|
"epoch": 2.67, |
|
"learning_rate": 2.3738333333333333e-05, |
|
"loss": 3.2325, |
|
"step": 28800 |
|
}, |
|
{ |
|
"epoch": 2.68, |
|
"learning_rate": 2.3705e-05, |
|
"loss": 3.2183, |
|
"step": 28900 |
|
}, |
|
{ |
|
"epoch": 2.69, |
|
"learning_rate": 2.3671666666666666e-05, |
|
"loss": 3.2498, |
|
"step": 29000 |
|
}, |
|
{ |
|
"epoch": 2.69, |
|
"eval_loss": 3.342014789581299, |
|
"eval_runtime": 58.6201, |
|
"eval_samples_per_second": 43.023, |
|
"eval_steps_per_second": 2.695, |
|
"step": 29000 |
|
}, |
|
{ |
|
"epoch": 2.7, |
|
"learning_rate": 2.3638333333333334e-05, |
|
"loss": 3.2322, |
|
"step": 29100 |
|
}, |
|
{ |
|
"epoch": 2.71, |
|
"learning_rate": 2.3605000000000002e-05, |
|
"loss": 3.239, |
|
"step": 29200 |
|
}, |
|
{ |
|
"epoch": 2.72, |
|
"learning_rate": 2.3571666666666667e-05, |
|
"loss": 3.2583, |
|
"step": 29300 |
|
}, |
|
{ |
|
"epoch": 2.73, |
|
"learning_rate": 2.3538333333333335e-05, |
|
"loss": 3.2237, |
|
"step": 29400 |
|
}, |
|
{ |
|
"epoch": 2.73, |
|
"learning_rate": 2.3505e-05, |
|
"loss": 3.2175, |
|
"step": 29500 |
|
}, |
|
{ |
|
"epoch": 2.73, |
|
"eval_loss": 3.3456621170043945, |
|
"eval_runtime": 58.4896, |
|
"eval_samples_per_second": 43.119, |
|
"eval_steps_per_second": 2.701, |
|
"step": 29500 |
|
}, |
|
{ |
|
"epoch": 2.74, |
|
"learning_rate": 2.3471666666666668e-05, |
|
"loss": 3.2156, |
|
"step": 29600 |
|
}, |
|
{ |
|
"epoch": 2.75, |
|
"learning_rate": 2.3438333333333332e-05, |
|
"loss": 3.2235, |
|
"step": 29700 |
|
}, |
|
{ |
|
"epoch": 2.76, |
|
"learning_rate": 2.3405e-05, |
|
"loss": 3.2362, |
|
"step": 29800 |
|
}, |
|
{ |
|
"epoch": 2.77, |
|
"learning_rate": 2.3371666666666665e-05, |
|
"loss": 3.2287, |
|
"step": 29900 |
|
}, |
|
{ |
|
"epoch": 2.78, |
|
"learning_rate": 2.3338333333333333e-05, |
|
"loss": 3.2398, |
|
"step": 30000 |
|
}, |
|
{ |
|
"epoch": 2.78, |
|
"eval_loss": 3.3401825428009033, |
|
"eval_runtime": 58.5218, |
|
"eval_samples_per_second": 43.095, |
|
"eval_steps_per_second": 2.7, |
|
"step": 30000 |
|
}, |
|
{ |
|
"epoch": 2.79, |
|
"learning_rate": 2.3305e-05, |
|
"loss": 3.2275, |
|
"step": 30100 |
|
}, |
|
{ |
|
"epoch": 2.8, |
|
"learning_rate": 2.3272000000000004e-05, |
|
"loss": 3.2379, |
|
"step": 30200 |
|
}, |
|
{ |
|
"epoch": 2.81, |
|
"learning_rate": 2.3238666666666668e-05, |
|
"loss": 3.2222, |
|
"step": 30300 |
|
}, |
|
{ |
|
"epoch": 2.82, |
|
"learning_rate": 2.3205333333333336e-05, |
|
"loss": 3.2317, |
|
"step": 30400 |
|
}, |
|
{ |
|
"epoch": 2.83, |
|
"learning_rate": 2.3172e-05, |
|
"loss": 3.2242, |
|
"step": 30500 |
|
}, |
|
{ |
|
"epoch": 2.83, |
|
"eval_loss": 3.34212064743042, |
|
"eval_runtime": 58.4655, |
|
"eval_samples_per_second": 43.137, |
|
"eval_steps_per_second": 2.702, |
|
"step": 30500 |
|
}, |
|
{ |
|
"epoch": 2.84, |
|
"learning_rate": 2.313866666666667e-05, |
|
"loss": 3.2229, |
|
"step": 30600 |
|
}, |
|
{ |
|
"epoch": 2.85, |
|
"learning_rate": 2.3105333333333334e-05, |
|
"loss": 3.2323, |
|
"step": 30700 |
|
}, |
|
{ |
|
"epoch": 2.85, |
|
"learning_rate": 2.3072000000000002e-05, |
|
"loss": 3.2037, |
|
"step": 30800 |
|
}, |
|
{ |
|
"epoch": 2.86, |
|
"learning_rate": 2.3038666666666667e-05, |
|
"loss": 3.2235, |
|
"step": 30900 |
|
}, |
|
{ |
|
"epoch": 2.87, |
|
"learning_rate": 2.3005333333333335e-05, |
|
"loss": 3.2185, |
|
"step": 31000 |
|
}, |
|
{ |
|
"epoch": 2.87, |
|
"eval_loss": 3.345749616622925, |
|
"eval_runtime": 58.7269, |
|
"eval_samples_per_second": 42.945, |
|
"eval_steps_per_second": 2.69, |
|
"step": 31000 |
|
}, |
|
{ |
|
"epoch": 2.88, |
|
"learning_rate": 2.2972000000000003e-05, |
|
"loss": 3.2319, |
|
"step": 31100 |
|
}, |
|
{ |
|
"epoch": 2.89, |
|
"learning_rate": 2.2938666666666668e-05, |
|
"loss": 3.2391, |
|
"step": 31200 |
|
}, |
|
{ |
|
"epoch": 2.9, |
|
"learning_rate": 2.2905333333333336e-05, |
|
"loss": 3.2242, |
|
"step": 31300 |
|
}, |
|
{ |
|
"epoch": 2.91, |
|
"learning_rate": 2.2872e-05, |
|
"loss": 3.2279, |
|
"step": 31400 |
|
}, |
|
{ |
|
"epoch": 2.92, |
|
"learning_rate": 2.283866666666667e-05, |
|
"loss": 3.2274, |
|
"step": 31500 |
|
}, |
|
{ |
|
"epoch": 2.92, |
|
"eval_loss": 3.3419015407562256, |
|
"eval_runtime": 58.5701, |
|
"eval_samples_per_second": 43.06, |
|
"eval_steps_per_second": 2.698, |
|
"step": 31500 |
|
}, |
|
{ |
|
"epoch": 2.93, |
|
"learning_rate": 2.2805333333333333e-05, |
|
"loss": 3.2312, |
|
"step": 31600 |
|
}, |
|
{ |
|
"epoch": 2.94, |
|
"learning_rate": 2.2772e-05, |
|
"loss": 3.2386, |
|
"step": 31700 |
|
}, |
|
{ |
|
"epoch": 2.95, |
|
"learning_rate": 2.273866666666667e-05, |
|
"loss": 3.2268, |
|
"step": 31800 |
|
}, |
|
{ |
|
"epoch": 2.96, |
|
"learning_rate": 2.2705333333333334e-05, |
|
"loss": 3.2158, |
|
"step": 31900 |
|
}, |
|
{ |
|
"epoch": 2.97, |
|
"learning_rate": 2.2672000000000002e-05, |
|
"loss": 3.2251, |
|
"step": 32000 |
|
}, |
|
{ |
|
"epoch": 2.97, |
|
"eval_loss": 3.3449418544769287, |
|
"eval_runtime": 58.371, |
|
"eval_samples_per_second": 43.206, |
|
"eval_steps_per_second": 2.707, |
|
"step": 32000 |
|
}, |
|
{ |
|
"epoch": 2.98, |
|
"learning_rate": 2.2638666666666667e-05, |
|
"loss": 3.2331, |
|
"step": 32100 |
|
}, |
|
{ |
|
"epoch": 2.98, |
|
"learning_rate": 2.2605333333333335e-05, |
|
"loss": 3.2297, |
|
"step": 32200 |
|
}, |
|
{ |
|
"epoch": 2.99, |
|
"learning_rate": 2.2572e-05, |
|
"loss": 3.2088, |
|
"step": 32300 |
|
}, |
|
{ |
|
"epoch": 3.0, |
|
"learning_rate": 2.2538666666666668e-05, |
|
"loss": 3.2195, |
|
"step": 32400 |
|
}, |
|
{ |
|
"epoch": 3.01, |
|
"learning_rate": 2.2505333333333336e-05, |
|
"loss": 3.1507, |
|
"step": 32500 |
|
}, |
|
{ |
|
"epoch": 3.01, |
|
"eval_loss": 3.351752281188965, |
|
"eval_runtime": 58.4614, |
|
"eval_samples_per_second": 43.14, |
|
"eval_steps_per_second": 2.703, |
|
"step": 32500 |
|
}, |
|
{ |
|
"epoch": 3.02, |
|
"learning_rate": 2.2472e-05, |
|
"loss": 3.1582, |
|
"step": 32600 |
|
}, |
|
{ |
|
"epoch": 3.03, |
|
"learning_rate": 2.243866666666667e-05, |
|
"loss": 3.1574, |
|
"step": 32700 |
|
}, |
|
{ |
|
"epoch": 3.04, |
|
"learning_rate": 2.2405333333333334e-05, |
|
"loss": 3.1574, |
|
"step": 32800 |
|
}, |
|
{ |
|
"epoch": 3.05, |
|
"learning_rate": 2.2372000000000002e-05, |
|
"loss": 3.1861, |
|
"step": 32900 |
|
}, |
|
{ |
|
"epoch": 3.06, |
|
"learning_rate": 2.2339e-05, |
|
"loss": 3.165, |
|
"step": 33000 |
|
}, |
|
{ |
|
"epoch": 3.06, |
|
"eval_loss": 3.3462374210357666, |
|
"eval_runtime": 59.4393, |
|
"eval_samples_per_second": 42.43, |
|
"eval_steps_per_second": 2.658, |
|
"step": 33000 |
|
}, |
|
{ |
|
"epoch": 3.07, |
|
"learning_rate": 2.2305666666666665e-05, |
|
"loss": 3.16, |
|
"step": 33100 |
|
}, |
|
{ |
|
"epoch": 3.08, |
|
"learning_rate": 2.2272333333333334e-05, |
|
"loss": 3.1716, |
|
"step": 33200 |
|
}, |
|
{ |
|
"epoch": 3.09, |
|
"learning_rate": 2.2239e-05, |
|
"loss": 3.1536, |
|
"step": 33300 |
|
}, |
|
{ |
|
"epoch": 3.1, |
|
"learning_rate": 2.2205666666666666e-05, |
|
"loss": 3.1666, |
|
"step": 33400 |
|
}, |
|
{ |
|
"epoch": 3.11, |
|
"learning_rate": 2.217233333333333e-05, |
|
"loss": 3.1512, |
|
"step": 33500 |
|
}, |
|
{ |
|
"epoch": 3.11, |
|
"eval_loss": 3.3434484004974365, |
|
"eval_runtime": 58.442, |
|
"eval_samples_per_second": 43.154, |
|
"eval_steps_per_second": 2.704, |
|
"step": 33500 |
|
}, |
|
{ |
|
"epoch": 3.11, |
|
"learning_rate": 2.2139e-05, |
|
"loss": 3.1487, |
|
"step": 33600 |
|
}, |
|
{ |
|
"epoch": 3.12, |
|
"learning_rate": 2.2105666666666667e-05, |
|
"loss": 3.1458, |
|
"step": 33700 |
|
}, |
|
{ |
|
"epoch": 3.13, |
|
"learning_rate": 2.2072333333333332e-05, |
|
"loss": 3.1524, |
|
"step": 33800 |
|
}, |
|
{ |
|
"epoch": 3.14, |
|
"learning_rate": 2.2039e-05, |
|
"loss": 3.1793, |
|
"step": 33900 |
|
}, |
|
{ |
|
"epoch": 3.15, |
|
"learning_rate": 2.2005666666666665e-05, |
|
"loss": 3.1598, |
|
"step": 34000 |
|
}, |
|
{ |
|
"epoch": 3.15, |
|
"eval_loss": 3.343330144882202, |
|
"eval_runtime": 58.3667, |
|
"eval_samples_per_second": 43.21, |
|
"eval_steps_per_second": 2.707, |
|
"step": 34000 |
|
}, |
|
{ |
|
"epoch": 3.16, |
|
"learning_rate": 2.1972333333333333e-05, |
|
"loss": 3.1685, |
|
"step": 34100 |
|
}, |
|
{ |
|
"epoch": 3.17, |
|
"learning_rate": 2.1938999999999998e-05, |
|
"loss": 3.1351, |
|
"step": 34200 |
|
}, |
|
{ |
|
"epoch": 3.18, |
|
"learning_rate": 2.1905666666666666e-05, |
|
"loss": 3.171, |
|
"step": 34300 |
|
}, |
|
{ |
|
"epoch": 3.19, |
|
"learning_rate": 2.1872333333333334e-05, |
|
"loss": 3.1512, |
|
"step": 34400 |
|
}, |
|
{ |
|
"epoch": 3.2, |
|
"learning_rate": 2.1839e-05, |
|
"loss": 3.1728, |
|
"step": 34500 |
|
}, |
|
{ |
|
"epoch": 3.2, |
|
"eval_loss": 3.3445212841033936, |
|
"eval_runtime": 58.6682, |
|
"eval_samples_per_second": 42.988, |
|
"eval_steps_per_second": 2.693, |
|
"step": 34500 |
|
}, |
|
{ |
|
"epoch": 3.21, |
|
"learning_rate": 2.1805666666666667e-05, |
|
"loss": 3.1721, |
|
"step": 34600 |
|
}, |
|
{ |
|
"epoch": 3.22, |
|
"learning_rate": 2.177233333333333e-05, |
|
"loss": 3.159, |
|
"step": 34700 |
|
}, |
|
{ |
|
"epoch": 3.23, |
|
"learning_rate": 2.1739e-05, |
|
"loss": 3.1729, |
|
"step": 34800 |
|
}, |
|
{ |
|
"epoch": 3.24, |
|
"learning_rate": 2.1706000000000002e-05, |
|
"loss": 3.1727, |
|
"step": 34900 |
|
}, |
|
{ |
|
"epoch": 3.24, |
|
"learning_rate": 2.1672666666666667e-05, |
|
"loss": 3.1838, |
|
"step": 35000 |
|
}, |
|
{ |
|
"epoch": 3.24, |
|
"eval_loss": 3.345578908920288, |
|
"eval_runtime": 58.4239, |
|
"eval_samples_per_second": 43.167, |
|
"eval_steps_per_second": 2.704, |
|
"step": 35000 |
|
}, |
|
{ |
|
"epoch": 3.25, |
|
"learning_rate": 2.1639333333333335e-05, |
|
"loss": 3.1701, |
|
"step": 35100 |
|
}, |
|
{ |
|
"epoch": 3.26, |
|
"learning_rate": 2.1606e-05, |
|
"loss": 3.156, |
|
"step": 35200 |
|
}, |
|
{ |
|
"epoch": 3.27, |
|
"learning_rate": 2.1572666666666668e-05, |
|
"loss": 3.1749, |
|
"step": 35300 |
|
}, |
|
{ |
|
"epoch": 3.28, |
|
"learning_rate": 2.1539333333333336e-05, |
|
"loss": 3.1675, |
|
"step": 35400 |
|
}, |
|
{ |
|
"epoch": 3.29, |
|
"learning_rate": 2.1506e-05, |
|
"loss": 3.1649, |
|
"step": 35500 |
|
}, |
|
{ |
|
"epoch": 3.29, |
|
"eval_loss": 3.3441596031188965, |
|
"eval_runtime": 58.5557, |
|
"eval_samples_per_second": 43.07, |
|
"eval_steps_per_second": 2.698, |
|
"step": 35500 |
|
}, |
|
{ |
|
"epoch": 3.3, |
|
"learning_rate": 2.147266666666667e-05, |
|
"loss": 3.1617, |
|
"step": 35600 |
|
}, |
|
{ |
|
"epoch": 3.31, |
|
"learning_rate": 2.1439333333333333e-05, |
|
"loss": 3.1796, |
|
"step": 35700 |
|
}, |
|
{ |
|
"epoch": 3.32, |
|
"learning_rate": 2.1406e-05, |
|
"loss": 3.1622, |
|
"step": 35800 |
|
}, |
|
{ |
|
"epoch": 3.33, |
|
"learning_rate": 2.1372666666666666e-05, |
|
"loss": 3.1735, |
|
"step": 35900 |
|
}, |
|
{ |
|
"epoch": 3.34, |
|
"learning_rate": 2.1339333333333334e-05, |
|
"loss": 3.1684, |
|
"step": 36000 |
|
}, |
|
{ |
|
"epoch": 3.34, |
|
"eval_loss": 3.340388059616089, |
|
"eval_runtime": 58.3147, |
|
"eval_samples_per_second": 43.248, |
|
"eval_steps_per_second": 2.709, |
|
"step": 36000 |
|
}, |
|
{ |
|
"epoch": 3.35, |
|
"learning_rate": 2.1306000000000002e-05, |
|
"loss": 3.1666, |
|
"step": 36100 |
|
}, |
|
{ |
|
"epoch": 3.36, |
|
"learning_rate": 2.1272666666666667e-05, |
|
"loss": 3.1554, |
|
"step": 36200 |
|
}, |
|
{ |
|
"epoch": 3.36, |
|
"learning_rate": 2.1239333333333335e-05, |
|
"loss": 3.1697, |
|
"step": 36300 |
|
}, |
|
{ |
|
"epoch": 3.37, |
|
"learning_rate": 2.1206e-05, |
|
"loss": 3.1848, |
|
"step": 36400 |
|
}, |
|
{ |
|
"epoch": 3.38, |
|
"learning_rate": 2.1172666666666668e-05, |
|
"loss": 3.1587, |
|
"step": 36500 |
|
}, |
|
{ |
|
"epoch": 3.38, |
|
"eval_loss": 3.3406460285186768, |
|
"eval_runtime": 58.7371, |
|
"eval_samples_per_second": 42.937, |
|
"eval_steps_per_second": 2.69, |
|
"step": 36500 |
|
}, |
|
{ |
|
"epoch": 3.39, |
|
"learning_rate": 2.1139333333333333e-05, |
|
"loss": 3.1703, |
|
"step": 36600 |
|
}, |
|
{ |
|
"epoch": 3.4, |
|
"learning_rate": 2.1106e-05, |
|
"loss": 3.1574, |
|
"step": 36700 |
|
}, |
|
{ |
|
"epoch": 3.41, |
|
"learning_rate": 2.1072666666666666e-05, |
|
"loss": 3.1522, |
|
"step": 36800 |
|
}, |
|
{ |
|
"epoch": 3.42, |
|
"learning_rate": 2.1039333333333334e-05, |
|
"loss": 3.1668, |
|
"step": 36900 |
|
}, |
|
{ |
|
"epoch": 3.43, |
|
"learning_rate": 2.1006000000000002e-05, |
|
"loss": 3.1586, |
|
"step": 37000 |
|
}, |
|
{ |
|
"epoch": 3.43, |
|
"eval_loss": 3.344248056411743, |
|
"eval_runtime": 58.4551, |
|
"eval_samples_per_second": 43.144, |
|
"eval_steps_per_second": 2.703, |
|
"step": 37000 |
|
}, |
|
{ |
|
"epoch": 3.44, |
|
"learning_rate": 2.0972666666666667e-05, |
|
"loss": 3.1766, |
|
"step": 37100 |
|
}, |
|
{ |
|
"epoch": 3.45, |
|
"learning_rate": 2.0939333333333335e-05, |
|
"loss": 3.1814, |
|
"step": 37200 |
|
}, |
|
{ |
|
"epoch": 3.46, |
|
"learning_rate": 2.0906e-05, |
|
"loss": 3.1741, |
|
"step": 37300 |
|
}, |
|
{ |
|
"epoch": 3.47, |
|
"learning_rate": 2.0872666666666668e-05, |
|
"loss": 3.165, |
|
"step": 37400 |
|
}, |
|
{ |
|
"epoch": 3.48, |
|
"learning_rate": 2.0839333333333332e-05, |
|
"loss": 3.1545, |
|
"step": 37500 |
|
}, |
|
{ |
|
"epoch": 3.48, |
|
"eval_loss": 3.3381314277648926, |
|
"eval_runtime": 58.4574, |
|
"eval_samples_per_second": 43.143, |
|
"eval_steps_per_second": 2.703, |
|
"step": 37500 |
|
}, |
|
{ |
|
"epoch": 3.49, |
|
"learning_rate": 2.0806333333333334e-05, |
|
"loss": 3.1562, |
|
"step": 37600 |
|
}, |
|
{ |
|
"epoch": 3.49, |
|
"learning_rate": 2.0773000000000003e-05, |
|
"loss": 3.1382, |
|
"step": 37700 |
|
}, |
|
{ |
|
"epoch": 3.5, |
|
"learning_rate": 2.0739666666666667e-05, |
|
"loss": 3.1522, |
|
"step": 37800 |
|
}, |
|
{ |
|
"epoch": 3.51, |
|
"learning_rate": 2.0706333333333335e-05, |
|
"loss": 3.1535, |
|
"step": 37900 |
|
}, |
|
{ |
|
"epoch": 3.52, |
|
"learning_rate": 2.0673000000000003e-05, |
|
"loss": 3.1674, |
|
"step": 38000 |
|
}, |
|
{ |
|
"epoch": 3.52, |
|
"eval_loss": 3.34360671043396, |
|
"eval_runtime": 58.4709, |
|
"eval_samples_per_second": 43.133, |
|
"eval_steps_per_second": 2.702, |
|
"step": 38000 |
|
}, |
|
{ |
|
"epoch": 3.53, |
|
"learning_rate": 2.0639666666666668e-05, |
|
"loss": 3.1724, |
|
"step": 38100 |
|
}, |
|
{ |
|
"epoch": 3.54, |
|
"learning_rate": 2.0606333333333336e-05, |
|
"loss": 3.1802, |
|
"step": 38200 |
|
}, |
|
{ |
|
"epoch": 3.55, |
|
"learning_rate": 2.0573e-05, |
|
"loss": 3.1615, |
|
"step": 38300 |
|
}, |
|
{ |
|
"epoch": 3.56, |
|
"learning_rate": 2.053966666666667e-05, |
|
"loss": 3.1604, |
|
"step": 38400 |
|
}, |
|
{ |
|
"epoch": 3.57, |
|
"learning_rate": 2.0506333333333334e-05, |
|
"loss": 3.1717, |
|
"step": 38500 |
|
}, |
|
{ |
|
"epoch": 3.57, |
|
"eval_loss": 3.3373236656188965, |
|
"eval_runtime": 58.6217, |
|
"eval_samples_per_second": 43.022, |
|
"eval_steps_per_second": 2.695, |
|
"step": 38500 |
|
}, |
|
{ |
|
"epoch": 3.58, |
|
"learning_rate": 2.0473000000000002e-05, |
|
"loss": 3.1428, |
|
"step": 38600 |
|
}, |
|
{ |
|
"epoch": 3.59, |
|
"learning_rate": 2.043966666666667e-05, |
|
"loss": 3.1891, |
|
"step": 38700 |
|
}, |
|
{ |
|
"epoch": 3.6, |
|
"learning_rate": 2.0406333333333335e-05, |
|
"loss": 3.181, |
|
"step": 38800 |
|
}, |
|
{ |
|
"epoch": 3.61, |
|
"learning_rate": 2.0373000000000003e-05, |
|
"loss": 3.1619, |
|
"step": 38900 |
|
}, |
|
{ |
|
"epoch": 3.62, |
|
"learning_rate": 2.0339666666666668e-05, |
|
"loss": 3.147, |
|
"step": 39000 |
|
}, |
|
{ |
|
"epoch": 3.62, |
|
"eval_loss": 3.3408203125, |
|
"eval_runtime": 58.5928, |
|
"eval_samples_per_second": 43.043, |
|
"eval_steps_per_second": 2.697, |
|
"step": 39000 |
|
}, |
|
{ |
|
"epoch": 3.62, |
|
"learning_rate": 2.0306333333333336e-05, |
|
"loss": 3.1534, |
|
"step": 39100 |
|
}, |
|
{ |
|
"epoch": 3.63, |
|
"learning_rate": 2.0273e-05, |
|
"loss": 3.1521, |
|
"step": 39200 |
|
}, |
|
{ |
|
"epoch": 3.64, |
|
"learning_rate": 2.023966666666667e-05, |
|
"loss": 3.1536, |
|
"step": 39300 |
|
}, |
|
{ |
|
"epoch": 3.65, |
|
"learning_rate": 2.0206333333333333e-05, |
|
"loss": 3.1751, |
|
"step": 39400 |
|
}, |
|
{ |
|
"epoch": 3.66, |
|
"learning_rate": 2.0173e-05, |
|
"loss": 3.1462, |
|
"step": 39500 |
|
}, |
|
{ |
|
"epoch": 3.66, |
|
"eval_loss": 3.3374409675598145, |
|
"eval_runtime": 58.3881, |
|
"eval_samples_per_second": 43.194, |
|
"eval_steps_per_second": 2.706, |
|
"step": 39500 |
|
}, |
|
{ |
|
"epoch": 3.67, |
|
"learning_rate": 2.013966666666667e-05, |
|
"loss": 3.1487, |
|
"step": 39600 |
|
}, |
|
{ |
|
"epoch": 3.68, |
|
"learning_rate": 2.0106333333333334e-05, |
|
"loss": 3.1644, |
|
"step": 39700 |
|
}, |
|
{ |
|
"epoch": 3.69, |
|
"learning_rate": 2.0073000000000002e-05, |
|
"loss": 3.161, |
|
"step": 39800 |
|
}, |
|
{ |
|
"epoch": 3.7, |
|
"learning_rate": 2.0039666666666667e-05, |
|
"loss": 3.1541, |
|
"step": 39900 |
|
}, |
|
{ |
|
"epoch": 3.71, |
|
"learning_rate": 2.0006666666666666e-05, |
|
"loss": 3.156, |
|
"step": 40000 |
|
}, |
|
{ |
|
"epoch": 3.71, |
|
"eval_loss": 3.338212013244629, |
|
"eval_runtime": 58.2867, |
|
"eval_samples_per_second": 43.269, |
|
"eval_steps_per_second": 2.711, |
|
"step": 40000 |
|
}, |
|
{ |
|
"epoch": 3.72, |
|
"learning_rate": 1.9973333333333334e-05, |
|
"loss": 3.2002, |
|
"step": 40100 |
|
}, |
|
{ |
|
"epoch": 3.73, |
|
"learning_rate": 1.994e-05, |
|
"loss": 3.1627, |
|
"step": 40200 |
|
}, |
|
{ |
|
"epoch": 3.74, |
|
"learning_rate": 1.9906666666666667e-05, |
|
"loss": 3.1381, |
|
"step": 40300 |
|
}, |
|
{ |
|
"epoch": 3.74, |
|
"learning_rate": 1.987333333333333e-05, |
|
"loss": 3.1473, |
|
"step": 40400 |
|
}, |
|
{ |
|
"epoch": 3.75, |
|
"learning_rate": 1.984e-05, |
|
"loss": 3.1354, |
|
"step": 40500 |
|
}, |
|
{ |
|
"epoch": 3.75, |
|
"eval_loss": 3.3366310596466064, |
|
"eval_runtime": 58.4384, |
|
"eval_samples_per_second": 43.157, |
|
"eval_steps_per_second": 2.704, |
|
"step": 40500 |
|
}, |
|
{ |
|
"epoch": 3.76, |
|
"learning_rate": 1.9806666666666668e-05, |
|
"loss": 3.1641, |
|
"step": 40600 |
|
}, |
|
{ |
|
"epoch": 3.77, |
|
"learning_rate": 1.9773333333333333e-05, |
|
"loss": 3.1598, |
|
"step": 40700 |
|
}, |
|
{ |
|
"epoch": 3.78, |
|
"learning_rate": 1.9740666666666665e-05, |
|
"loss": 3.1756, |
|
"step": 40800 |
|
}, |
|
{ |
|
"epoch": 3.79, |
|
"learning_rate": 1.9707333333333334e-05, |
|
"loss": 3.1662, |
|
"step": 40900 |
|
}, |
|
{ |
|
"epoch": 3.8, |
|
"learning_rate": 1.9674000000000002e-05, |
|
"loss": 3.1613, |
|
"step": 41000 |
|
}, |
|
{ |
|
"epoch": 3.8, |
|
"eval_loss": 3.331742286682129, |
|
"eval_runtime": 58.4288, |
|
"eval_samples_per_second": 43.164, |
|
"eval_steps_per_second": 2.704, |
|
"step": 41000 |
|
}, |
|
{ |
|
"epoch": 3.81, |
|
"learning_rate": 1.9640666666666666e-05, |
|
"loss": 3.1538, |
|
"step": 41100 |
|
}, |
|
{ |
|
"epoch": 3.82, |
|
"learning_rate": 1.9607333333333335e-05, |
|
"loss": 3.1565, |
|
"step": 41200 |
|
}, |
|
{ |
|
"epoch": 3.83, |
|
"learning_rate": 1.9574e-05, |
|
"loss": 3.178, |
|
"step": 41300 |
|
}, |
|
{ |
|
"epoch": 3.84, |
|
"learning_rate": 1.9540666666666667e-05, |
|
"loss": 3.1633, |
|
"step": 41400 |
|
}, |
|
{ |
|
"epoch": 3.85, |
|
"learning_rate": 1.9507333333333332e-05, |
|
"loss": 3.143, |
|
"step": 41500 |
|
}, |
|
{ |
|
"epoch": 3.85, |
|
"eval_loss": 3.3347177505493164, |
|
"eval_runtime": 58.6073, |
|
"eval_samples_per_second": 43.032, |
|
"eval_steps_per_second": 2.696, |
|
"step": 41500 |
|
}, |
|
{ |
|
"epoch": 3.86, |
|
"learning_rate": 1.9474e-05, |
|
"loss": 3.1633, |
|
"step": 41600 |
|
}, |
|
{ |
|
"epoch": 3.87, |
|
"learning_rate": 1.944066666666667e-05, |
|
"loss": 3.1441, |
|
"step": 41700 |
|
}, |
|
{ |
|
"epoch": 3.87, |
|
"learning_rate": 1.9407333333333333e-05, |
|
"loss": 3.1551, |
|
"step": 41800 |
|
}, |
|
{ |
|
"epoch": 3.88, |
|
"learning_rate": 1.9374e-05, |
|
"loss": 3.1615, |
|
"step": 41900 |
|
}, |
|
{ |
|
"epoch": 3.89, |
|
"learning_rate": 1.9340666666666666e-05, |
|
"loss": 3.1667, |
|
"step": 42000 |
|
}, |
|
{ |
|
"epoch": 3.89, |
|
"eval_loss": 3.3353171348571777, |
|
"eval_runtime": 58.4495, |
|
"eval_samples_per_second": 43.148, |
|
"eval_steps_per_second": 2.703, |
|
"step": 42000 |
|
}, |
|
{ |
|
"epoch": 3.9, |
|
"learning_rate": 1.9307333333333334e-05, |
|
"loss": 3.1426, |
|
"step": 42100 |
|
}, |
|
{ |
|
"epoch": 3.91, |
|
"learning_rate": 1.9274e-05, |
|
"loss": 3.1646, |
|
"step": 42200 |
|
}, |
|
{ |
|
"epoch": 3.92, |
|
"learning_rate": 1.9240666666666667e-05, |
|
"loss": 3.1395, |
|
"step": 42300 |
|
}, |
|
{ |
|
"epoch": 3.93, |
|
"learning_rate": 1.920733333333333e-05, |
|
"loss": 3.1466, |
|
"step": 42400 |
|
}, |
|
{ |
|
"epoch": 3.94, |
|
"learning_rate": 1.9174e-05, |
|
"loss": 3.1597, |
|
"step": 42500 |
|
}, |
|
{ |
|
"epoch": 3.94, |
|
"eval_loss": 3.3341054916381836, |
|
"eval_runtime": 58.441, |
|
"eval_samples_per_second": 43.155, |
|
"eval_steps_per_second": 2.704, |
|
"step": 42500 |
|
}, |
|
{ |
|
"epoch": 3.95, |
|
"learning_rate": 1.9140666666666668e-05, |
|
"loss": 3.1653, |
|
"step": 42600 |
|
}, |
|
{ |
|
"epoch": 3.96, |
|
"learning_rate": 1.9107333333333333e-05, |
|
"loss": 3.1732, |
|
"step": 42700 |
|
}, |
|
{ |
|
"epoch": 3.97, |
|
"learning_rate": 1.9074e-05, |
|
"loss": 3.1457, |
|
"step": 42800 |
|
}, |
|
{ |
|
"epoch": 3.98, |
|
"learning_rate": 1.9040666666666665e-05, |
|
"loss": 3.1485, |
|
"step": 42900 |
|
}, |
|
{ |
|
"epoch": 3.99, |
|
"learning_rate": 1.9007333333333334e-05, |
|
"loss": 3.1566, |
|
"step": 43000 |
|
}, |
|
{ |
|
"epoch": 3.99, |
|
"eval_loss": 3.3356857299804688, |
|
"eval_runtime": 59.2807, |
|
"eval_samples_per_second": 42.543, |
|
"eval_steps_per_second": 2.665, |
|
"step": 43000 |
|
}, |
|
{ |
|
"epoch": 4.0, |
|
"learning_rate": 1.8973999999999998e-05, |
|
"loss": 3.1463, |
|
"step": 43100 |
|
}, |
|
{ |
|
"epoch": 4.0, |
|
"learning_rate": 1.8940666666666666e-05, |
|
"loss": 3.1458, |
|
"step": 43200 |
|
}, |
|
{ |
|
"epoch": 4.01, |
|
"learning_rate": 1.8907333333333334e-05, |
|
"loss": 3.0823, |
|
"step": 43300 |
|
}, |
|
{ |
|
"epoch": 4.02, |
|
"learning_rate": 1.8874e-05, |
|
"loss": 3.0803, |
|
"step": 43400 |
|
}, |
|
{ |
|
"epoch": 4.03, |
|
"learning_rate": 1.8840666666666667e-05, |
|
"loss": 3.124, |
|
"step": 43500 |
|
}, |
|
{ |
|
"epoch": 4.03, |
|
"eval_loss": 3.341010332107544, |
|
"eval_runtime": 58.5024, |
|
"eval_samples_per_second": 43.109, |
|
"eval_steps_per_second": 2.701, |
|
"step": 43500 |
|
}, |
|
{ |
|
"epoch": 4.04, |
|
"learning_rate": 1.8807333333333332e-05, |
|
"loss": 3.1057, |
|
"step": 43600 |
|
}, |
|
{ |
|
"epoch": 4.05, |
|
"learning_rate": 1.8774e-05, |
|
"loss": 3.0944, |
|
"step": 43700 |
|
}, |
|
{ |
|
"epoch": 4.06, |
|
"learning_rate": 1.8740666666666665e-05, |
|
"loss": 3.1209, |
|
"step": 43800 |
|
}, |
|
{ |
|
"epoch": 4.07, |
|
"learning_rate": 1.8707333333333333e-05, |
|
"loss": 3.1035, |
|
"step": 43900 |
|
}, |
|
{ |
|
"epoch": 4.08, |
|
"learning_rate": 1.8673999999999998e-05, |
|
"loss": 3.1035, |
|
"step": 44000 |
|
}, |
|
{ |
|
"epoch": 4.08, |
|
"eval_loss": 3.343398332595825, |
|
"eval_runtime": 58.3747, |
|
"eval_samples_per_second": 43.204, |
|
"eval_steps_per_second": 2.707, |
|
"step": 44000 |
|
}, |
|
{ |
|
"epoch": 4.09, |
|
"learning_rate": 1.8640666666666666e-05, |
|
"loss": 3.0894, |
|
"step": 44100 |
|
}, |
|
{ |
|
"epoch": 4.1, |
|
"learning_rate": 1.8607333333333334e-05, |
|
"loss": 3.0968, |
|
"step": 44200 |
|
}, |
|
{ |
|
"epoch": 4.11, |
|
"learning_rate": 1.8574e-05, |
|
"loss": 3.1024, |
|
"step": 44300 |
|
}, |
|
{ |
|
"epoch": 4.12, |
|
"learning_rate": 1.8540666666666667e-05, |
|
"loss": 3.0963, |
|
"step": 44400 |
|
}, |
|
{ |
|
"epoch": 4.12, |
|
"learning_rate": 1.850733333333333e-05, |
|
"loss": 3.0881, |
|
"step": 44500 |
|
}, |
|
{ |
|
"epoch": 4.12, |
|
"eval_loss": 3.3410987854003906, |
|
"eval_runtime": 58.5368, |
|
"eval_samples_per_second": 43.084, |
|
"eval_steps_per_second": 2.699, |
|
"step": 44500 |
|
}, |
|
{ |
|
"epoch": 4.13, |
|
"learning_rate": 1.8474e-05, |
|
"loss": 3.103, |
|
"step": 44600 |
|
}, |
|
{ |
|
"epoch": 4.14, |
|
"learning_rate": 1.8440666666666664e-05, |
|
"loss": 3.103, |
|
"step": 44700 |
|
}, |
|
{ |
|
"epoch": 4.15, |
|
"learning_rate": 1.8407333333333332e-05, |
|
"loss": 3.1239, |
|
"step": 44800 |
|
}, |
|
{ |
|
"epoch": 4.16, |
|
"learning_rate": 1.8374e-05, |
|
"loss": 3.0993, |
|
"step": 44900 |
|
}, |
|
{ |
|
"epoch": 4.17, |
|
"learning_rate": 1.8340666666666665e-05, |
|
"loss": 3.1131, |
|
"step": 45000 |
|
}, |
|
{ |
|
"epoch": 4.17, |
|
"eval_loss": 3.337921142578125, |
|
"eval_runtime": 58.4332, |
|
"eval_samples_per_second": 43.16, |
|
"eval_steps_per_second": 2.704, |
|
"step": 45000 |
|
}, |
|
{ |
|
"epoch": 4.18, |
|
"learning_rate": 1.8307333333333333e-05, |
|
"loss": 3.1177, |
|
"step": 45100 |
|
}, |
|
{ |
|
"epoch": 4.19, |
|
"learning_rate": 1.8273999999999998e-05, |
|
"loss": 3.0954, |
|
"step": 45200 |
|
}, |
|
{ |
|
"epoch": 4.2, |
|
"learning_rate": 1.8240666666666666e-05, |
|
"loss": 3.0818, |
|
"step": 45300 |
|
}, |
|
{ |
|
"epoch": 4.21, |
|
"learning_rate": 1.820733333333333e-05, |
|
"loss": 3.0917, |
|
"step": 45400 |
|
}, |
|
{ |
|
"epoch": 4.22, |
|
"learning_rate": 1.8174e-05, |
|
"loss": 3.1191, |
|
"step": 45500 |
|
}, |
|
{ |
|
"epoch": 4.22, |
|
"eval_loss": 3.3468377590179443, |
|
"eval_runtime": 58.4445, |
|
"eval_samples_per_second": 43.152, |
|
"eval_steps_per_second": 2.703, |
|
"step": 45500 |
|
}, |
|
{ |
|
"epoch": 4.23, |
|
"learning_rate": 1.8140666666666667e-05, |
|
"loss": 3.0945, |
|
"step": 45600 |
|
}, |
|
{ |
|
"epoch": 4.24, |
|
"learning_rate": 1.8107333333333332e-05, |
|
"loss": 3.1235, |
|
"step": 45700 |
|
}, |
|
{ |
|
"epoch": 4.25, |
|
"learning_rate": 1.8074e-05, |
|
"loss": 3.1057, |
|
"step": 45800 |
|
}, |
|
{ |
|
"epoch": 4.25, |
|
"learning_rate": 1.8040666666666665e-05, |
|
"loss": 3.0807, |
|
"step": 45900 |
|
}, |
|
{ |
|
"epoch": 4.26, |
|
"learning_rate": 1.8007333333333333e-05, |
|
"loss": 3.1119, |
|
"step": 46000 |
|
}, |
|
{ |
|
"epoch": 4.26, |
|
"eval_loss": 3.335585832595825, |
|
"eval_runtime": 58.4582, |
|
"eval_samples_per_second": 43.142, |
|
"eval_steps_per_second": 2.703, |
|
"step": 46000 |
|
}, |
|
{ |
|
"epoch": 4.27, |
|
"learning_rate": 1.7973999999999998e-05, |
|
"loss": 3.1077, |
|
"step": 46100 |
|
}, |
|
{ |
|
"epoch": 4.28, |
|
"learning_rate": 1.7940666666666666e-05, |
|
"loss": 3.0959, |
|
"step": 46200 |
|
}, |
|
{ |
|
"epoch": 4.29, |
|
"learning_rate": 1.7907333333333334e-05, |
|
"loss": 3.1032, |
|
"step": 46300 |
|
}, |
|
{ |
|
"epoch": 4.3, |
|
"learning_rate": 1.7874000000000002e-05, |
|
"loss": 3.103, |
|
"step": 46400 |
|
}, |
|
{ |
|
"epoch": 4.31, |
|
"learning_rate": 1.784066666666667e-05, |
|
"loss": 3.0957, |
|
"step": 46500 |
|
}, |
|
{ |
|
"epoch": 4.31, |
|
"eval_loss": 3.3416850566864014, |
|
"eval_runtime": 58.4695, |
|
"eval_samples_per_second": 43.134, |
|
"eval_steps_per_second": 2.702, |
|
"step": 46500 |
|
}, |
|
{ |
|
"epoch": 4.32, |
|
"learning_rate": 1.7807333333333335e-05, |
|
"loss": 3.1056, |
|
"step": 46600 |
|
}, |
|
{ |
|
"epoch": 4.33, |
|
"learning_rate": 1.7774000000000003e-05, |
|
"loss": 3.103, |
|
"step": 46700 |
|
}, |
|
{ |
|
"epoch": 4.34, |
|
"learning_rate": 1.7740666666666668e-05, |
|
"loss": 3.0961, |
|
"step": 46800 |
|
}, |
|
{ |
|
"epoch": 4.35, |
|
"learning_rate": 1.7707333333333336e-05, |
|
"loss": 3.0986, |
|
"step": 46900 |
|
}, |
|
{ |
|
"epoch": 4.36, |
|
"learning_rate": 1.7674e-05, |
|
"loss": 3.1024, |
|
"step": 47000 |
|
}, |
|
{ |
|
"epoch": 4.36, |
|
"eval_loss": 3.3379719257354736, |
|
"eval_runtime": 58.5154, |
|
"eval_samples_per_second": 43.1, |
|
"eval_steps_per_second": 2.7, |
|
"step": 47000 |
|
}, |
|
{ |
|
"epoch": 4.37, |
|
"learning_rate": 1.764066666666667e-05, |
|
"loss": 3.1176, |
|
"step": 47100 |
|
}, |
|
{ |
|
"epoch": 4.38, |
|
"learning_rate": 1.7607333333333337e-05, |
|
"loss": 3.0936, |
|
"step": 47200 |
|
}, |
|
{ |
|
"epoch": 4.38, |
|
"learning_rate": 1.7574e-05, |
|
"loss": 3.0992, |
|
"step": 47300 |
|
}, |
|
{ |
|
"epoch": 4.39, |
|
"learning_rate": 1.754066666666667e-05, |
|
"loss": 3.0908, |
|
"step": 47400 |
|
}, |
|
{ |
|
"epoch": 4.4, |
|
"learning_rate": 1.7507333333333334e-05, |
|
"loss": 3.1141, |
|
"step": 47500 |
|
}, |
|
{ |
|
"epoch": 4.4, |
|
"eval_loss": 3.3471622467041016, |
|
"eval_runtime": 58.4444, |
|
"eval_samples_per_second": 43.152, |
|
"eval_steps_per_second": 2.703, |
|
"step": 47500 |
|
}, |
|
{ |
|
"epoch": 4.41, |
|
"learning_rate": 1.7474000000000002e-05, |
|
"loss": 3.1119, |
|
"step": 47600 |
|
}, |
|
{ |
|
"epoch": 4.42, |
|
"learning_rate": 1.7440666666666667e-05, |
|
"loss": 3.1008, |
|
"step": 47700 |
|
}, |
|
{ |
|
"epoch": 4.43, |
|
"learning_rate": 1.7407333333333335e-05, |
|
"loss": 3.109, |
|
"step": 47800 |
|
}, |
|
{ |
|
"epoch": 4.44, |
|
"learning_rate": 1.7374000000000003e-05, |
|
"loss": 3.1021, |
|
"step": 47900 |
|
}, |
|
{ |
|
"epoch": 4.45, |
|
"learning_rate": 1.7340666666666668e-05, |
|
"loss": 3.0851, |
|
"step": 48000 |
|
}, |
|
{ |
|
"epoch": 4.45, |
|
"eval_loss": 3.3512518405914307, |
|
"eval_runtime": 58.3508, |
|
"eval_samples_per_second": 43.221, |
|
"eval_steps_per_second": 2.708, |
|
"step": 48000 |
|
}, |
|
{ |
|
"epoch": 4.46, |
|
"learning_rate": 1.7307333333333336e-05, |
|
"loss": 3.1073, |
|
"step": 48100 |
|
}, |
|
{ |
|
"epoch": 4.47, |
|
"learning_rate": 1.7274e-05, |
|
"loss": 3.107, |
|
"step": 48200 |
|
}, |
|
{ |
|
"epoch": 4.48, |
|
"learning_rate": 1.724066666666667e-05, |
|
"loss": 3.11, |
|
"step": 48300 |
|
}, |
|
{ |
|
"epoch": 4.49, |
|
"learning_rate": 1.7207333333333334e-05, |
|
"loss": 3.1085, |
|
"step": 48400 |
|
}, |
|
{ |
|
"epoch": 4.5, |
|
"learning_rate": 1.7174000000000002e-05, |
|
"loss": 3.1252, |
|
"step": 48500 |
|
}, |
|
{ |
|
"epoch": 4.5, |
|
"eval_loss": 3.3351025581359863, |
|
"eval_runtime": 58.4512, |
|
"eval_samples_per_second": 43.147, |
|
"eval_steps_per_second": 2.703, |
|
"step": 48500 |
|
}, |
|
{ |
|
"epoch": 4.5, |
|
"learning_rate": 1.7141e-05, |
|
"loss": 3.1155, |
|
"step": 48600 |
|
}, |
|
{ |
|
"epoch": 4.51, |
|
"learning_rate": 1.7107666666666665e-05, |
|
"loss": 3.1084, |
|
"step": 48700 |
|
}, |
|
{ |
|
"epoch": 4.52, |
|
"learning_rate": 1.7074333333333334e-05, |
|
"loss": 3.0872, |
|
"step": 48800 |
|
}, |
|
{ |
|
"epoch": 4.53, |
|
"learning_rate": 1.7040999999999998e-05, |
|
"loss": 3.0981, |
|
"step": 48900 |
|
}, |
|
{ |
|
"epoch": 4.54, |
|
"learning_rate": 1.7007666666666666e-05, |
|
"loss": 3.1125, |
|
"step": 49000 |
|
}, |
|
{ |
|
"epoch": 4.54, |
|
"eval_loss": 3.3422746658325195, |
|
"eval_runtime": 58.476, |
|
"eval_samples_per_second": 43.129, |
|
"eval_steps_per_second": 2.702, |
|
"step": 49000 |
|
}, |
|
{ |
|
"epoch": 4.55, |
|
"learning_rate": 1.6974333333333335e-05, |
|
"loss": 3.1125, |
|
"step": 49100 |
|
}, |
|
{ |
|
"epoch": 4.56, |
|
"learning_rate": 1.6941e-05, |
|
"loss": 3.0988, |
|
"step": 49200 |
|
}, |
|
{ |
|
"epoch": 4.57, |
|
"learning_rate": 1.6907666666666667e-05, |
|
"loss": 3.094, |
|
"step": 49300 |
|
}, |
|
{ |
|
"epoch": 4.58, |
|
"learning_rate": 1.6874333333333332e-05, |
|
"loss": 3.1049, |
|
"step": 49400 |
|
}, |
|
{ |
|
"epoch": 4.59, |
|
"learning_rate": 1.6841e-05, |
|
"loss": 3.1019, |
|
"step": 49500 |
|
}, |
|
{ |
|
"epoch": 4.59, |
|
"eval_loss": 3.339646339416504, |
|
"eval_runtime": 58.4354, |
|
"eval_samples_per_second": 43.159, |
|
"eval_steps_per_second": 2.704, |
|
"step": 49500 |
|
}, |
|
{ |
|
"epoch": 4.6, |
|
"learning_rate": 1.6807666666666665e-05, |
|
"loss": 3.1008, |
|
"step": 49600 |
|
}, |
|
{ |
|
"epoch": 4.61, |
|
"learning_rate": 1.6774333333333333e-05, |
|
"loss": 3.1002, |
|
"step": 49700 |
|
}, |
|
{ |
|
"epoch": 4.62, |
|
"learning_rate": 1.6741e-05, |
|
"loss": 3.1218, |
|
"step": 49800 |
|
}, |
|
{ |
|
"epoch": 4.63, |
|
"learning_rate": 1.6707666666666666e-05, |
|
"loss": 3.1005, |
|
"step": 49900 |
|
}, |
|
{ |
|
"epoch": 4.63, |
|
"learning_rate": 1.6674333333333334e-05, |
|
"loss": 3.1185, |
|
"step": 50000 |
|
}, |
|
{ |
|
"epoch": 4.63, |
|
"eval_loss": 3.334904432296753, |
|
"eval_runtime": 58.4528, |
|
"eval_samples_per_second": 43.146, |
|
"eval_steps_per_second": 2.703, |
|
"step": 50000 |
|
}, |
|
{ |
|
"epoch": 4.64, |
|
"learning_rate": 1.6641e-05, |
|
"loss": 3.1012, |
|
"step": 50100 |
|
}, |
|
{ |
|
"epoch": 4.65, |
|
"learning_rate": 1.6607666666666667e-05, |
|
"loss": 3.1011, |
|
"step": 50200 |
|
}, |
|
{ |
|
"epoch": 4.66, |
|
"learning_rate": 1.657433333333333e-05, |
|
"loss": 3.1148, |
|
"step": 50300 |
|
}, |
|
{ |
|
"epoch": 4.67, |
|
"learning_rate": 1.6541e-05, |
|
"loss": 3.1217, |
|
"step": 50400 |
|
}, |
|
{ |
|
"epoch": 4.68, |
|
"learning_rate": 1.6507666666666668e-05, |
|
"loss": 3.1042, |
|
"step": 50500 |
|
}, |
|
{ |
|
"epoch": 4.68, |
|
"eval_loss": 3.3350272178649902, |
|
"eval_runtime": 58.4302, |
|
"eval_samples_per_second": 43.163, |
|
"eval_steps_per_second": 2.704, |
|
"step": 50500 |
|
}, |
|
{ |
|
"epoch": 4.69, |
|
"learning_rate": 1.6474333333333333e-05, |
|
"loss": 3.0853, |
|
"step": 50600 |
|
}, |
|
{ |
|
"epoch": 4.7, |
|
"learning_rate": 1.6441e-05, |
|
"loss": 3.0905, |
|
"step": 50700 |
|
}, |
|
{ |
|
"epoch": 4.71, |
|
"learning_rate": 1.6407666666666665e-05, |
|
"loss": 3.0955, |
|
"step": 50800 |
|
}, |
|
{ |
|
"epoch": 4.72, |
|
"learning_rate": 1.6374333333333333e-05, |
|
"loss": 3.1101, |
|
"step": 50900 |
|
}, |
|
{ |
|
"epoch": 4.73, |
|
"learning_rate": 1.6340999999999998e-05, |
|
"loss": 3.1153, |
|
"step": 51000 |
|
}, |
|
{ |
|
"epoch": 4.73, |
|
"eval_loss": 3.3345048427581787, |
|
"eval_runtime": 58.4293, |
|
"eval_samples_per_second": 43.163, |
|
"eval_steps_per_second": 2.704, |
|
"step": 51000 |
|
}, |
|
{ |
|
"epoch": 4.74, |
|
"learning_rate": 1.6307666666666666e-05, |
|
"loss": 3.1033, |
|
"step": 51100 |
|
}, |
|
{ |
|
"epoch": 4.75, |
|
"learning_rate": 1.627433333333333e-05, |
|
"loss": 3.0736, |
|
"step": 51200 |
|
}, |
|
{ |
|
"epoch": 4.76, |
|
"learning_rate": 1.6241e-05, |
|
"loss": 3.1216, |
|
"step": 51300 |
|
}, |
|
{ |
|
"epoch": 4.76, |
|
"learning_rate": 1.6207666666666667e-05, |
|
"loss": 3.0931, |
|
"step": 51400 |
|
}, |
|
{ |
|
"epoch": 4.77, |
|
"learning_rate": 1.6174333333333332e-05, |
|
"loss": 3.1289, |
|
"step": 51500 |
|
}, |
|
{ |
|
"epoch": 4.77, |
|
"eval_loss": 3.3356144428253174, |
|
"eval_runtime": 58.5612, |
|
"eval_samples_per_second": 43.066, |
|
"eval_steps_per_second": 2.698, |
|
"step": 51500 |
|
}, |
|
{ |
|
"epoch": 4.78, |
|
"learning_rate": 1.6141e-05, |
|
"loss": 3.1059, |
|
"step": 51600 |
|
}, |
|
{ |
|
"epoch": 4.79, |
|
"learning_rate": 1.6107666666666665e-05, |
|
"loss": 3.0854, |
|
"step": 51700 |
|
}, |
|
{ |
|
"epoch": 4.8, |
|
"learning_rate": 1.6074333333333333e-05, |
|
"loss": 3.1078, |
|
"step": 51800 |
|
}, |
|
{ |
|
"epoch": 4.81, |
|
"learning_rate": 1.6040999999999998e-05, |
|
"loss": 3.1003, |
|
"step": 51900 |
|
}, |
|
{ |
|
"epoch": 4.82, |
|
"learning_rate": 1.6007666666666666e-05, |
|
"loss": 3.1075, |
|
"step": 52000 |
|
}, |
|
{ |
|
"epoch": 4.82, |
|
"eval_loss": 3.333493709564209, |
|
"eval_runtime": 58.3497, |
|
"eval_samples_per_second": 43.222, |
|
"eval_steps_per_second": 2.708, |
|
"step": 52000 |
|
}, |
|
{ |
|
"epoch": 4.83, |
|
"learning_rate": 1.5974333333333334e-05, |
|
"loss": 3.1213, |
|
"step": 52100 |
|
}, |
|
{ |
|
"epoch": 4.84, |
|
"learning_rate": 1.5941e-05, |
|
"loss": 3.0983, |
|
"step": 52200 |
|
}, |
|
{ |
|
"epoch": 4.85, |
|
"learning_rate": 1.5907666666666667e-05, |
|
"loss": 3.1087, |
|
"step": 52300 |
|
}, |
|
{ |
|
"epoch": 4.86, |
|
"learning_rate": 1.587433333333333e-05, |
|
"loss": 3.1086, |
|
"step": 52400 |
|
}, |
|
{ |
|
"epoch": 4.87, |
|
"learning_rate": 1.5841666666666664e-05, |
|
"loss": 3.1151, |
|
"step": 52500 |
|
}, |
|
{ |
|
"epoch": 4.87, |
|
"eval_loss": 3.338545799255371, |
|
"eval_runtime": 58.478, |
|
"eval_samples_per_second": 43.127, |
|
"eval_steps_per_second": 2.702, |
|
"step": 52500 |
|
}, |
|
{ |
|
"epoch": 4.88, |
|
"learning_rate": 1.5808333333333332e-05, |
|
"loss": 3.1023, |
|
"step": 52600 |
|
}, |
|
{ |
|
"epoch": 4.89, |
|
"learning_rate": 1.5775e-05, |
|
"loss": 3.0932, |
|
"step": 52700 |
|
}, |
|
{ |
|
"epoch": 4.89, |
|
"learning_rate": 1.5741666666666665e-05, |
|
"loss": 3.0734, |
|
"step": 52800 |
|
}, |
|
{ |
|
"epoch": 4.9, |
|
"learning_rate": 1.5708333333333333e-05, |
|
"loss": 3.1021, |
|
"step": 52900 |
|
}, |
|
{ |
|
"epoch": 4.91, |
|
"learning_rate": 1.5674999999999998e-05, |
|
"loss": 3.094, |
|
"step": 53000 |
|
}, |
|
{ |
|
"epoch": 4.91, |
|
"eval_loss": 3.329162836074829, |
|
"eval_runtime": 58.4384, |
|
"eval_samples_per_second": 43.157, |
|
"eval_steps_per_second": 2.704, |
|
"step": 53000 |
|
}, |
|
{ |
|
"epoch": 4.92, |
|
"learning_rate": 1.5641666666666666e-05, |
|
"loss": 3.1269, |
|
"step": 53100 |
|
}, |
|
{ |
|
"epoch": 4.93, |
|
"learning_rate": 1.560833333333333e-05, |
|
"loss": 3.0819, |
|
"step": 53200 |
|
}, |
|
{ |
|
"epoch": 4.94, |
|
"learning_rate": 1.5575e-05, |
|
"loss": 3.12, |
|
"step": 53300 |
|
}, |
|
{ |
|
"epoch": 4.95, |
|
"learning_rate": 1.5541666666666667e-05, |
|
"loss": 3.0908, |
|
"step": 53400 |
|
}, |
|
{ |
|
"epoch": 4.96, |
|
"learning_rate": 1.5508333333333332e-05, |
|
"loss": 3.1272, |
|
"step": 53500 |
|
}, |
|
{ |
|
"epoch": 4.96, |
|
"eval_loss": 3.334925413131714, |
|
"eval_runtime": 58.4578, |
|
"eval_samples_per_second": 43.142, |
|
"eval_steps_per_second": 2.703, |
|
"step": 53500 |
|
}, |
|
{ |
|
"epoch": 4.97, |
|
"learning_rate": 1.5475e-05, |
|
"loss": 3.1186, |
|
"step": 53600 |
|
}, |
|
{ |
|
"epoch": 4.98, |
|
"learning_rate": 1.5441666666666665e-05, |
|
"loss": 3.1064, |
|
"step": 53700 |
|
}, |
|
{ |
|
"epoch": 4.99, |
|
"learning_rate": 1.5408333333333333e-05, |
|
"loss": 3.0976, |
|
"step": 53800 |
|
}, |
|
{ |
|
"epoch": 5.0, |
|
"learning_rate": 1.5374999999999998e-05, |
|
"loss": 3.1128, |
|
"step": 53900 |
|
}, |
|
{ |
|
"epoch": 5.01, |
|
"learning_rate": 1.5341666666666666e-05, |
|
"loss": 3.0847, |
|
"step": 54000 |
|
}, |
|
{ |
|
"epoch": 5.01, |
|
"eval_loss": 3.3406832218170166, |
|
"eval_runtime": 58.4416, |
|
"eval_samples_per_second": 43.154, |
|
"eval_steps_per_second": 2.704, |
|
"step": 54000 |
|
}, |
|
{ |
|
"epoch": 5.01, |
|
"learning_rate": 1.5308333333333334e-05, |
|
"loss": 3.0535, |
|
"step": 54100 |
|
}, |
|
{ |
|
"epoch": 5.02, |
|
"learning_rate": 1.5275e-05, |
|
"loss": 3.0485, |
|
"step": 54200 |
|
}, |
|
{ |
|
"epoch": 5.03, |
|
"learning_rate": 1.5241666666666668e-05, |
|
"loss": 3.0555, |
|
"step": 54300 |
|
}, |
|
{ |
|
"epoch": 5.04, |
|
"learning_rate": 1.5208333333333333e-05, |
|
"loss": 3.0503, |
|
"step": 54400 |
|
}, |
|
{ |
|
"epoch": 5.05, |
|
"learning_rate": 1.5175000000000001e-05, |
|
"loss": 3.0662, |
|
"step": 54500 |
|
}, |
|
{ |
|
"epoch": 5.05, |
|
"eval_loss": 3.337759017944336, |
|
"eval_runtime": 58.456, |
|
"eval_samples_per_second": 43.144, |
|
"eval_steps_per_second": 2.703, |
|
"step": 54500 |
|
}, |
|
{ |
|
"epoch": 5.06, |
|
"learning_rate": 1.5141666666666666e-05, |
|
"loss": 3.0557, |
|
"step": 54600 |
|
}, |
|
{ |
|
"epoch": 5.07, |
|
"learning_rate": 1.5108333333333334e-05, |
|
"loss": 3.0579, |
|
"step": 54700 |
|
}, |
|
{ |
|
"epoch": 5.08, |
|
"learning_rate": 1.5074999999999999e-05, |
|
"loss": 3.091, |
|
"step": 54800 |
|
}, |
|
{ |
|
"epoch": 5.09, |
|
"learning_rate": 1.5042e-05, |
|
"loss": 3.0414, |
|
"step": 54900 |
|
}, |
|
{ |
|
"epoch": 5.1, |
|
"learning_rate": 1.5008666666666667e-05, |
|
"loss": 3.0345, |
|
"step": 55000 |
|
}, |
|
{ |
|
"epoch": 5.1, |
|
"eval_loss": 3.3481109142303467, |
|
"eval_runtime": 58.4421, |
|
"eval_samples_per_second": 43.154, |
|
"eval_steps_per_second": 2.704, |
|
"step": 55000 |
|
}, |
|
{ |
|
"epoch": 5.11, |
|
"learning_rate": 1.4975333333333334e-05, |
|
"loss": 3.0615, |
|
"step": 55100 |
|
}, |
|
{ |
|
"epoch": 5.12, |
|
"learning_rate": 1.4942e-05, |
|
"loss": 3.0498, |
|
"step": 55200 |
|
}, |
|
{ |
|
"epoch": 5.13, |
|
"learning_rate": 1.4908666666666667e-05, |
|
"loss": 3.0525, |
|
"step": 55300 |
|
}, |
|
{ |
|
"epoch": 5.14, |
|
"learning_rate": 1.4875333333333333e-05, |
|
"loss": 3.0539, |
|
"step": 55400 |
|
}, |
|
{ |
|
"epoch": 5.14, |
|
"learning_rate": 1.4842000000000001e-05, |
|
"loss": 3.0611, |
|
"step": 55500 |
|
}, |
|
{ |
|
"epoch": 5.14, |
|
"eval_loss": 3.340991497039795, |
|
"eval_runtime": 58.4351, |
|
"eval_samples_per_second": 43.159, |
|
"eval_steps_per_second": 2.704, |
|
"step": 55500 |
|
}, |
|
{ |
|
"epoch": 5.15, |
|
"learning_rate": 1.4808666666666668e-05, |
|
"loss": 3.0638, |
|
"step": 55600 |
|
}, |
|
{ |
|
"epoch": 5.16, |
|
"learning_rate": 1.4775333333333334e-05, |
|
"loss": 3.0604, |
|
"step": 55700 |
|
}, |
|
{ |
|
"epoch": 5.17, |
|
"learning_rate": 1.4742e-05, |
|
"loss": 3.068, |
|
"step": 55800 |
|
}, |
|
{ |
|
"epoch": 5.18, |
|
"learning_rate": 1.4708666666666667e-05, |
|
"loss": 3.0614, |
|
"step": 55900 |
|
}, |
|
{ |
|
"epoch": 5.19, |
|
"learning_rate": 1.4675666666666667e-05, |
|
"loss": 3.0566, |
|
"step": 56000 |
|
}, |
|
{ |
|
"epoch": 5.19, |
|
"eval_loss": 3.3424055576324463, |
|
"eval_runtime": 58.346, |
|
"eval_samples_per_second": 43.225, |
|
"eval_steps_per_second": 2.708, |
|
"step": 56000 |
|
}, |
|
{ |
|
"epoch": 5.2, |
|
"learning_rate": 1.4642333333333334e-05, |
|
"loss": 3.0523, |
|
"step": 56100 |
|
}, |
|
{ |
|
"epoch": 5.21, |
|
"learning_rate": 1.4609e-05, |
|
"loss": 3.0567, |
|
"step": 56200 |
|
}, |
|
{ |
|
"epoch": 5.22, |
|
"learning_rate": 1.4575666666666667e-05, |
|
"loss": 3.0581, |
|
"step": 56300 |
|
}, |
|
{ |
|
"epoch": 5.23, |
|
"learning_rate": 1.4542333333333333e-05, |
|
"loss": 3.0679, |
|
"step": 56400 |
|
}, |
|
{ |
|
"epoch": 5.24, |
|
"learning_rate": 1.4509000000000001e-05, |
|
"loss": 3.0413, |
|
"step": 56500 |
|
}, |
|
{ |
|
"epoch": 5.24, |
|
"eval_loss": 3.346630096435547, |
|
"eval_runtime": 58.4536, |
|
"eval_samples_per_second": 43.145, |
|
"eval_steps_per_second": 2.703, |
|
"step": 56500 |
|
}, |
|
{ |
|
"epoch": 5.25, |
|
"learning_rate": 1.4475666666666668e-05, |
|
"loss": 3.0371, |
|
"step": 56600 |
|
}, |
|
{ |
|
"epoch": 5.26, |
|
"learning_rate": 1.4442333333333334e-05, |
|
"loss": 3.0502, |
|
"step": 56700 |
|
}, |
|
{ |
|
"epoch": 5.27, |
|
"learning_rate": 1.4409e-05, |
|
"loss": 3.0641, |
|
"step": 56800 |
|
}, |
|
{ |
|
"epoch": 5.27, |
|
"learning_rate": 1.4375666666666667e-05, |
|
"loss": 3.0395, |
|
"step": 56900 |
|
}, |
|
{ |
|
"epoch": 5.28, |
|
"learning_rate": 1.4342333333333333e-05, |
|
"loss": 3.0291, |
|
"step": 57000 |
|
}, |
|
{ |
|
"epoch": 5.28, |
|
"eval_loss": 3.345341920852661, |
|
"eval_runtime": 58.494, |
|
"eval_samples_per_second": 43.116, |
|
"eval_steps_per_second": 2.701, |
|
"step": 57000 |
|
}, |
|
{ |
|
"epoch": 5.29, |
|
"learning_rate": 1.4309e-05, |
|
"loss": 3.0581, |
|
"step": 57100 |
|
}, |
|
{ |
|
"epoch": 5.3, |
|
"learning_rate": 1.4275666666666666e-05, |
|
"loss": 3.0555, |
|
"step": 57200 |
|
}, |
|
{ |
|
"epoch": 5.31, |
|
"learning_rate": 1.4242333333333334e-05, |
|
"loss": 3.0708, |
|
"step": 57300 |
|
}, |
|
{ |
|
"epoch": 5.32, |
|
"learning_rate": 1.4209e-05, |
|
"loss": 3.0456, |
|
"step": 57400 |
|
}, |
|
{ |
|
"epoch": 5.33, |
|
"learning_rate": 1.4175666666666667e-05, |
|
"loss": 3.0569, |
|
"step": 57500 |
|
}, |
|
{ |
|
"epoch": 5.33, |
|
"eval_loss": 3.3490843772888184, |
|
"eval_runtime": 58.4505, |
|
"eval_samples_per_second": 43.148, |
|
"eval_steps_per_second": 2.703, |
|
"step": 57500 |
|
}, |
|
{ |
|
"epoch": 5.34, |
|
"learning_rate": 1.4142333333333334e-05, |
|
"loss": 3.0416, |
|
"step": 57600 |
|
}, |
|
{ |
|
"epoch": 5.35, |
|
"learning_rate": 1.4109e-05, |
|
"loss": 3.0545, |
|
"step": 57700 |
|
}, |
|
{ |
|
"epoch": 5.36, |
|
"learning_rate": 1.4075666666666666e-05, |
|
"loss": 3.0587, |
|
"step": 57800 |
|
}, |
|
{ |
|
"epoch": 5.37, |
|
"learning_rate": 1.4042333333333333e-05, |
|
"loss": 3.0524, |
|
"step": 57900 |
|
}, |
|
{ |
|
"epoch": 5.38, |
|
"learning_rate": 1.4009e-05, |
|
"loss": 3.0645, |
|
"step": 58000 |
|
}, |
|
{ |
|
"epoch": 5.38, |
|
"eval_loss": 3.337806224822998, |
|
"eval_runtime": 58.4416, |
|
"eval_samples_per_second": 43.154, |
|
"eval_steps_per_second": 2.704, |
|
"step": 58000 |
|
}, |
|
{ |
|
"epoch": 5.39, |
|
"learning_rate": 1.3975666666666667e-05, |
|
"loss": 3.07, |
|
"step": 58100 |
|
}, |
|
{ |
|
"epoch": 5.39, |
|
"learning_rate": 1.3942333333333334e-05, |
|
"loss": 3.0701, |
|
"step": 58200 |
|
}, |
|
{ |
|
"epoch": 5.4, |
|
"learning_rate": 1.3909e-05, |
|
"loss": 3.0608, |
|
"step": 58300 |
|
}, |
|
{ |
|
"epoch": 5.41, |
|
"learning_rate": 1.3875666666666667e-05, |
|
"loss": 3.0818, |
|
"step": 58400 |
|
}, |
|
{ |
|
"epoch": 5.42, |
|
"learning_rate": 1.3842333333333333e-05, |
|
"loss": 3.0646, |
|
"step": 58500 |
|
}, |
|
{ |
|
"epoch": 5.42, |
|
"eval_loss": 3.343388319015503, |
|
"eval_runtime": 58.446, |
|
"eval_samples_per_second": 43.151, |
|
"eval_steps_per_second": 2.703, |
|
"step": 58500 |
|
}, |
|
{ |
|
"epoch": 5.43, |
|
"learning_rate": 1.3809e-05, |
|
"loss": 3.0567, |
|
"step": 58600 |
|
}, |
|
{ |
|
"epoch": 5.44, |
|
"learning_rate": 1.3775666666666666e-05, |
|
"loss": 3.0244, |
|
"step": 58700 |
|
}, |
|
{ |
|
"epoch": 5.45, |
|
"learning_rate": 1.3742333333333332e-05, |
|
"loss": 3.0489, |
|
"step": 58800 |
|
}, |
|
{ |
|
"epoch": 5.46, |
|
"learning_rate": 1.3709e-05, |
|
"loss": 3.0441, |
|
"step": 58900 |
|
}, |
|
{ |
|
"epoch": 5.47, |
|
"learning_rate": 1.3675666666666667e-05, |
|
"loss": 3.045, |
|
"step": 59000 |
|
}, |
|
{ |
|
"epoch": 5.47, |
|
"eval_loss": 3.341829299926758, |
|
"eval_runtime": 58.472, |
|
"eval_samples_per_second": 43.132, |
|
"eval_steps_per_second": 2.702, |
|
"step": 59000 |
|
}, |
|
{ |
|
"epoch": 5.48, |
|
"learning_rate": 1.3642333333333333e-05, |
|
"loss": 3.064, |
|
"step": 59100 |
|
}, |
|
{ |
|
"epoch": 5.49, |
|
"learning_rate": 1.3609e-05, |
|
"loss": 3.0443, |
|
"step": 59200 |
|
}, |
|
{ |
|
"epoch": 5.5, |
|
"learning_rate": 1.3575666666666666e-05, |
|
"loss": 3.0633, |
|
"step": 59300 |
|
}, |
|
{ |
|
"epoch": 5.51, |
|
"learning_rate": 1.3542333333333332e-05, |
|
"loss": 3.0505, |
|
"step": 59400 |
|
}, |
|
{ |
|
"epoch": 5.52, |
|
"learning_rate": 1.3508999999999999e-05, |
|
"loss": 3.0551, |
|
"step": 59500 |
|
}, |
|
{ |
|
"epoch": 5.52, |
|
"eval_loss": 3.3426239490509033, |
|
"eval_runtime": 58.4381, |
|
"eval_samples_per_second": 43.157, |
|
"eval_steps_per_second": 2.704, |
|
"step": 59500 |
|
}, |
|
{ |
|
"epoch": 5.52, |
|
"learning_rate": 1.3475666666666667e-05, |
|
"loss": 3.0685, |
|
"step": 59600 |
|
}, |
|
{ |
|
"epoch": 5.53, |
|
"learning_rate": 1.3442333333333333e-05, |
|
"loss": 3.0724, |
|
"step": 59700 |
|
}, |
|
{ |
|
"epoch": 5.54, |
|
"learning_rate": 1.3409e-05, |
|
"loss": 3.0517, |
|
"step": 59800 |
|
}, |
|
{ |
|
"epoch": 5.55, |
|
"learning_rate": 1.3375666666666668e-05, |
|
"loss": 3.06, |
|
"step": 59900 |
|
}, |
|
{ |
|
"epoch": 5.56, |
|
"learning_rate": 1.3342333333333334e-05, |
|
"loss": 3.0706, |
|
"step": 60000 |
|
}, |
|
{ |
|
"epoch": 5.56, |
|
"eval_loss": 3.337785243988037, |
|
"eval_runtime": 58.341, |
|
"eval_samples_per_second": 43.229, |
|
"eval_steps_per_second": 2.708, |
|
"step": 60000 |
|
}, |
|
{ |
|
"epoch": 5.57, |
|
"learning_rate": 1.3309e-05, |
|
"loss": 3.0521, |
|
"step": 60100 |
|
}, |
|
{ |
|
"epoch": 5.58, |
|
"learning_rate": 1.3275666666666667e-05, |
|
"loss": 3.0552, |
|
"step": 60200 |
|
}, |
|
{ |
|
"epoch": 5.59, |
|
"learning_rate": 1.3242333333333334e-05, |
|
"loss": 3.0545, |
|
"step": 60300 |
|
}, |
|
{ |
|
"epoch": 5.6, |
|
"learning_rate": 1.3209000000000002e-05, |
|
"loss": 3.0445, |
|
"step": 60400 |
|
}, |
|
{ |
|
"epoch": 5.61, |
|
"learning_rate": 1.3175666666666668e-05, |
|
"loss": 3.0556, |
|
"step": 60500 |
|
}, |
|
{ |
|
"epoch": 5.61, |
|
"eval_loss": 3.340733528137207, |
|
"eval_runtime": 58.4465, |
|
"eval_samples_per_second": 43.151, |
|
"eval_steps_per_second": 2.703, |
|
"step": 60500 |
|
}, |
|
{ |
|
"epoch": 5.62, |
|
"learning_rate": 1.3142333333333335e-05, |
|
"loss": 3.0393, |
|
"step": 60600 |
|
}, |
|
{ |
|
"epoch": 5.63, |
|
"learning_rate": 1.3109000000000001e-05, |
|
"loss": 3.0609, |
|
"step": 60700 |
|
}, |
|
{ |
|
"epoch": 5.64, |
|
"learning_rate": 1.3075666666666667e-05, |
|
"loss": 3.0703, |
|
"step": 60800 |
|
}, |
|
{ |
|
"epoch": 5.65, |
|
"learning_rate": 1.3042333333333334e-05, |
|
"loss": 3.0634, |
|
"step": 60900 |
|
}, |
|
{ |
|
"epoch": 5.65, |
|
"learning_rate": 1.3009e-05, |
|
"loss": 3.0743, |
|
"step": 61000 |
|
}, |
|
{ |
|
"epoch": 5.65, |
|
"eval_loss": 3.352006673812866, |
|
"eval_runtime": 58.5114, |
|
"eval_samples_per_second": 43.103, |
|
"eval_steps_per_second": 2.7, |
|
"step": 61000 |
|
}, |
|
{ |
|
"epoch": 5.66, |
|
"learning_rate": 1.2975666666666667e-05, |
|
"loss": 3.042, |
|
"step": 61100 |
|
}, |
|
{ |
|
"epoch": 5.67, |
|
"learning_rate": 1.2942333333333335e-05, |
|
"loss": 3.0747, |
|
"step": 61200 |
|
}, |
|
{ |
|
"epoch": 5.68, |
|
"learning_rate": 1.2909000000000001e-05, |
|
"loss": 3.0629, |
|
"step": 61300 |
|
}, |
|
{ |
|
"epoch": 5.69, |
|
"learning_rate": 1.2875666666666668e-05, |
|
"loss": 3.0674, |
|
"step": 61400 |
|
}, |
|
{ |
|
"epoch": 5.7, |
|
"learning_rate": 1.2842333333333334e-05, |
|
"loss": 3.0764, |
|
"step": 61500 |
|
}, |
|
{ |
|
"epoch": 5.7, |
|
"eval_loss": 3.3319778442382812, |
|
"eval_runtime": 58.7784, |
|
"eval_samples_per_second": 42.907, |
|
"eval_steps_per_second": 2.688, |
|
"step": 61500 |
|
}, |
|
{ |
|
"epoch": 5.71, |
|
"learning_rate": 1.2809e-05, |
|
"loss": 3.0503, |
|
"step": 61600 |
|
}, |
|
{ |
|
"epoch": 5.72, |
|
"learning_rate": 1.2775666666666667e-05, |
|
"loss": 3.0635, |
|
"step": 61700 |
|
}, |
|
{ |
|
"epoch": 5.73, |
|
"learning_rate": 1.2742333333333333e-05, |
|
"loss": 3.0335, |
|
"step": 61800 |
|
}, |
|
{ |
|
"epoch": 5.74, |
|
"learning_rate": 1.2709e-05, |
|
"loss": 3.0729, |
|
"step": 61900 |
|
}, |
|
{ |
|
"epoch": 5.75, |
|
"learning_rate": 1.2675666666666668e-05, |
|
"loss": 3.0723, |
|
"step": 62000 |
|
}, |
|
{ |
|
"epoch": 5.75, |
|
"eval_loss": 3.3352277278900146, |
|
"eval_runtime": 58.4517, |
|
"eval_samples_per_second": 43.147, |
|
"eval_steps_per_second": 2.703, |
|
"step": 62000 |
|
}, |
|
{ |
|
"epoch": 5.76, |
|
"learning_rate": 1.2642333333333334e-05, |
|
"loss": 3.0598, |
|
"step": 62100 |
|
}, |
|
{ |
|
"epoch": 5.77, |
|
"learning_rate": 1.2609e-05, |
|
"loss": 3.0575, |
|
"step": 62200 |
|
}, |
|
{ |
|
"epoch": 5.77, |
|
"learning_rate": 1.2575666666666667e-05, |
|
"loss": 3.0496, |
|
"step": 62300 |
|
}, |
|
{ |
|
"epoch": 5.78, |
|
"learning_rate": 1.2542333333333334e-05, |
|
"loss": 3.0448, |
|
"step": 62400 |
|
}, |
|
{ |
|
"epoch": 5.79, |
|
"learning_rate": 1.2509e-05, |
|
"loss": 3.0716, |
|
"step": 62500 |
|
}, |
|
{ |
|
"epoch": 5.79, |
|
"eval_loss": 3.3327484130859375, |
|
"eval_runtime": 58.4388, |
|
"eval_samples_per_second": 43.156, |
|
"eval_steps_per_second": 2.704, |
|
"step": 62500 |
|
}, |
|
{ |
|
"epoch": 5.8, |
|
"learning_rate": 1.2475666666666666e-05, |
|
"loss": 3.0591, |
|
"step": 62600 |
|
}, |
|
{ |
|
"epoch": 5.81, |
|
"learning_rate": 1.2442333333333335e-05, |
|
"loss": 3.0244, |
|
"step": 62700 |
|
}, |
|
{ |
|
"epoch": 5.82, |
|
"learning_rate": 1.2409000000000001e-05, |
|
"loss": 3.0526, |
|
"step": 62800 |
|
}, |
|
{ |
|
"epoch": 5.83, |
|
"learning_rate": 1.2375666666666667e-05, |
|
"loss": 3.0402, |
|
"step": 62900 |
|
}, |
|
{ |
|
"epoch": 5.84, |
|
"learning_rate": 1.2342333333333334e-05, |
|
"loss": 3.0618, |
|
"step": 63000 |
|
}, |
|
{ |
|
"epoch": 5.84, |
|
"eval_loss": 3.3447413444519043, |
|
"eval_runtime": 58.4521, |
|
"eval_samples_per_second": 43.146, |
|
"eval_steps_per_second": 2.703, |
|
"step": 63000 |
|
}, |
|
{ |
|
"epoch": 5.85, |
|
"learning_rate": 1.2309e-05, |
|
"loss": 3.0597, |
|
"step": 63100 |
|
}, |
|
{ |
|
"epoch": 5.86, |
|
"learning_rate": 1.2275666666666667e-05, |
|
"loss": 3.0553, |
|
"step": 63200 |
|
}, |
|
{ |
|
"epoch": 5.87, |
|
"learning_rate": 1.2242333333333333e-05, |
|
"loss": 3.0608, |
|
"step": 63300 |
|
}, |
|
{ |
|
"epoch": 5.88, |
|
"learning_rate": 1.2209e-05, |
|
"loss": 3.0749, |
|
"step": 63400 |
|
}, |
|
{ |
|
"epoch": 5.89, |
|
"learning_rate": 1.2175666666666668e-05, |
|
"loss": 3.0662, |
|
"step": 63500 |
|
}, |
|
{ |
|
"epoch": 5.89, |
|
"eval_loss": 3.3312034606933594, |
|
"eval_runtime": 58.4655, |
|
"eval_samples_per_second": 43.137, |
|
"eval_steps_per_second": 2.702, |
|
"step": 63500 |
|
}, |
|
{ |
|
"epoch": 5.9, |
|
"learning_rate": 1.2142333333333334e-05, |
|
"loss": 3.0633, |
|
"step": 63600 |
|
}, |
|
{ |
|
"epoch": 5.9, |
|
"learning_rate": 1.2109e-05, |
|
"loss": 3.0347, |
|
"step": 63700 |
|
}, |
|
{ |
|
"epoch": 5.91, |
|
"learning_rate": 1.2075666666666667e-05, |
|
"loss": 3.0735, |
|
"step": 63800 |
|
}, |
|
{ |
|
"epoch": 5.92, |
|
"learning_rate": 1.2042333333333333e-05, |
|
"loss": 3.0722, |
|
"step": 63900 |
|
}, |
|
{ |
|
"epoch": 5.93, |
|
"learning_rate": 1.2009e-05, |
|
"loss": 3.0758, |
|
"step": 64000 |
|
}, |
|
{ |
|
"epoch": 5.93, |
|
"eval_loss": 3.332306146621704, |
|
"eval_runtime": 58.4661, |
|
"eval_samples_per_second": 43.136, |
|
"eval_steps_per_second": 2.702, |
|
"step": 64000 |
|
}, |
|
{ |
|
"epoch": 5.94, |
|
"learning_rate": 1.1975666666666666e-05, |
|
"loss": 3.0666, |
|
"step": 64100 |
|
}, |
|
{ |
|
"epoch": 5.95, |
|
"learning_rate": 1.1942333333333333e-05, |
|
"loss": 3.0518, |
|
"step": 64200 |
|
}, |
|
{ |
|
"epoch": 5.96, |
|
"learning_rate": 1.1909e-05, |
|
"loss": 3.0553, |
|
"step": 64300 |
|
}, |
|
{ |
|
"epoch": 5.97, |
|
"learning_rate": 1.1875666666666667e-05, |
|
"loss": 3.0553, |
|
"step": 64400 |
|
}, |
|
{ |
|
"epoch": 5.98, |
|
"learning_rate": 1.1842333333333334e-05, |
|
"loss": 3.0501, |
|
"step": 64500 |
|
}, |
|
{ |
|
"epoch": 5.98, |
|
"eval_loss": 3.340047836303711, |
|
"eval_runtime": 58.4493, |
|
"eval_samples_per_second": 43.149, |
|
"eval_steps_per_second": 2.703, |
|
"step": 64500 |
|
}, |
|
{ |
|
"epoch": 5.99, |
|
"learning_rate": 1.1809e-05, |
|
"loss": 3.0416, |
|
"step": 64600 |
|
}, |
|
{ |
|
"epoch": 6.0, |
|
"learning_rate": 1.1775666666666666e-05, |
|
"loss": 3.0498, |
|
"step": 64700 |
|
}, |
|
{ |
|
"epoch": 6.01, |
|
"learning_rate": 1.1742666666666667e-05, |
|
"loss": 3.0248, |
|
"step": 64800 |
|
}, |
|
{ |
|
"epoch": 6.02, |
|
"learning_rate": 1.1709333333333333e-05, |
|
"loss": 2.9981, |
|
"step": 64900 |
|
}, |
|
{ |
|
"epoch": 6.03, |
|
"learning_rate": 1.1676e-05, |
|
"loss": 2.978, |
|
"step": 65000 |
|
}, |
|
{ |
|
"epoch": 6.03, |
|
"eval_loss": 3.347320079803467, |
|
"eval_runtime": 58.4349, |
|
"eval_samples_per_second": 43.159, |
|
"eval_steps_per_second": 2.704, |
|
"step": 65000 |
|
}, |
|
{ |
|
"epoch": 6.03, |
|
"learning_rate": 1.1642666666666666e-05, |
|
"loss": 3.0034, |
|
"step": 65100 |
|
}, |
|
{ |
|
"epoch": 6.04, |
|
"learning_rate": 1.1609333333333333e-05, |
|
"loss": 3.0038, |
|
"step": 65200 |
|
}, |
|
{ |
|
"epoch": 6.05, |
|
"learning_rate": 1.1576333333333333e-05, |
|
"loss": 3.0017, |
|
"step": 65300 |
|
}, |
|
{ |
|
"epoch": 6.06, |
|
"learning_rate": 1.1543e-05, |
|
"loss": 3.0203, |
|
"step": 65400 |
|
}, |
|
{ |
|
"epoch": 6.07, |
|
"learning_rate": 1.1509666666666668e-05, |
|
"loss": 3.0131, |
|
"step": 65500 |
|
}, |
|
{ |
|
"epoch": 6.07, |
|
"eval_loss": 3.3440327644348145, |
|
"eval_runtime": 58.3075, |
|
"eval_samples_per_second": 43.253, |
|
"eval_steps_per_second": 2.71, |
|
"step": 65500 |
|
}, |
|
{ |
|
"epoch": 6.08, |
|
"learning_rate": 1.1476333333333334e-05, |
|
"loss": 3.0053, |
|
"step": 65600 |
|
}, |
|
{ |
|
"epoch": 6.09, |
|
"learning_rate": 1.1443e-05, |
|
"loss": 3.0197, |
|
"step": 65700 |
|
}, |
|
{ |
|
"epoch": 6.1, |
|
"learning_rate": 1.1409666666666667e-05, |
|
"loss": 3.0189, |
|
"step": 65800 |
|
}, |
|
{ |
|
"epoch": 6.11, |
|
"learning_rate": 1.1376333333333333e-05, |
|
"loss": 3.0299, |
|
"step": 65900 |
|
}, |
|
{ |
|
"epoch": 6.12, |
|
"learning_rate": 1.1343e-05, |
|
"loss": 3.0212, |
|
"step": 66000 |
|
}, |
|
{ |
|
"epoch": 6.12, |
|
"eval_loss": 3.34014892578125, |
|
"eval_runtime": 58.4758, |
|
"eval_samples_per_second": 43.129, |
|
"eval_steps_per_second": 2.702, |
|
"step": 66000 |
|
}, |
|
{ |
|
"epoch": 6.13, |
|
"learning_rate": 1.1309666666666666e-05, |
|
"loss": 3.0079, |
|
"step": 66100 |
|
}, |
|
{ |
|
"epoch": 6.14, |
|
"learning_rate": 1.1276333333333332e-05, |
|
"loss": 3.0081, |
|
"step": 66200 |
|
}, |
|
{ |
|
"epoch": 6.15, |
|
"learning_rate": 1.1243e-05, |
|
"loss": 3.0104, |
|
"step": 66300 |
|
}, |
|
{ |
|
"epoch": 6.15, |
|
"learning_rate": 1.1209666666666667e-05, |
|
"loss": 3.0133, |
|
"step": 66400 |
|
}, |
|
{ |
|
"epoch": 6.16, |
|
"learning_rate": 1.1176333333333333e-05, |
|
"loss": 3.0095, |
|
"step": 66500 |
|
}, |
|
{ |
|
"epoch": 6.16, |
|
"eval_loss": 3.336056709289551, |
|
"eval_runtime": 59.1524, |
|
"eval_samples_per_second": 42.636, |
|
"eval_steps_per_second": 2.671, |
|
"step": 66500 |
|
}, |
|
{ |
|
"epoch": 6.17, |
|
"learning_rate": 1.1143e-05, |
|
"loss": 3.023, |
|
"step": 66600 |
|
}, |
|
{ |
|
"epoch": 6.18, |
|
"learning_rate": 1.1109666666666666e-05, |
|
"loss": 3.055, |
|
"step": 66700 |
|
}, |
|
{ |
|
"epoch": 6.19, |
|
"learning_rate": 1.1076333333333333e-05, |
|
"loss": 3.0071, |
|
"step": 66800 |
|
}, |
|
{ |
|
"epoch": 6.2, |
|
"learning_rate": 1.1042999999999999e-05, |
|
"loss": 3.0149, |
|
"step": 66900 |
|
}, |
|
{ |
|
"epoch": 6.21, |
|
"learning_rate": 1.1009666666666666e-05, |
|
"loss": 3.0118, |
|
"step": 67000 |
|
}, |
|
{ |
|
"epoch": 6.21, |
|
"eval_loss": 3.335216999053955, |
|
"eval_runtime": 58.463, |
|
"eval_samples_per_second": 43.138, |
|
"eval_steps_per_second": 2.703, |
|
"step": 67000 |
|
}, |
|
{ |
|
"epoch": 6.22, |
|
"learning_rate": 1.0976333333333334e-05, |
|
"loss": 3.0082, |
|
"step": 67100 |
|
}, |
|
{ |
|
"epoch": 6.23, |
|
"learning_rate": 1.0943e-05, |
|
"loss": 3.0147, |
|
"step": 67200 |
|
}, |
|
{ |
|
"epoch": 6.24, |
|
"learning_rate": 1.0909666666666667e-05, |
|
"loss": 3.0044, |
|
"step": 67300 |
|
}, |
|
{ |
|
"epoch": 6.25, |
|
"learning_rate": 1.0876333333333333e-05, |
|
"loss": 3.0247, |
|
"step": 67400 |
|
}, |
|
{ |
|
"epoch": 6.26, |
|
"learning_rate": 1.0843e-05, |
|
"loss": 3.0249, |
|
"step": 67500 |
|
}, |
|
{ |
|
"epoch": 6.26, |
|
"eval_loss": 3.3398003578186035, |
|
"eval_runtime": 58.4448, |
|
"eval_samples_per_second": 43.152, |
|
"eval_steps_per_second": 2.703, |
|
"step": 67500 |
|
}, |
|
{ |
|
"epoch": 6.27, |
|
"learning_rate": 1.0809666666666666e-05, |
|
"loss": 2.995, |
|
"step": 67600 |
|
}, |
|
{ |
|
"epoch": 6.28, |
|
"learning_rate": 1.0776333333333332e-05, |
|
"loss": 3.018, |
|
"step": 67700 |
|
}, |
|
{ |
|
"epoch": 6.28, |
|
"learning_rate": 1.0743e-05, |
|
"loss": 3.0321, |
|
"step": 67800 |
|
}, |
|
{ |
|
"epoch": 6.29, |
|
"learning_rate": 1.0709666666666668e-05, |
|
"loss": 3.0411, |
|
"step": 67900 |
|
}, |
|
{ |
|
"epoch": 6.3, |
|
"learning_rate": 1.0676333333333335e-05, |
|
"loss": 3.0107, |
|
"step": 68000 |
|
}, |
|
{ |
|
"epoch": 6.3, |
|
"eval_loss": 3.3444430828094482, |
|
"eval_runtime": 58.3648, |
|
"eval_samples_per_second": 43.211, |
|
"eval_steps_per_second": 2.707, |
|
"step": 68000 |
|
}, |
|
{ |
|
"epoch": 6.31, |
|
"learning_rate": 1.0643000000000001e-05, |
|
"loss": 2.9951, |
|
"step": 68100 |
|
}, |
|
{ |
|
"epoch": 6.32, |
|
"learning_rate": 1.0609666666666668e-05, |
|
"loss": 3.0019, |
|
"step": 68200 |
|
}, |
|
{ |
|
"epoch": 6.33, |
|
"learning_rate": 1.0576333333333334e-05, |
|
"loss": 3.0063, |
|
"step": 68300 |
|
}, |
|
{ |
|
"epoch": 6.34, |
|
"learning_rate": 1.0543e-05, |
|
"loss": 3.0251, |
|
"step": 68400 |
|
}, |
|
{ |
|
"epoch": 6.35, |
|
"learning_rate": 1.0509666666666667e-05, |
|
"loss": 3.0175, |
|
"step": 68500 |
|
}, |
|
{ |
|
"epoch": 6.35, |
|
"eval_loss": 3.349011182785034, |
|
"eval_runtime": 58.4361, |
|
"eval_samples_per_second": 43.158, |
|
"eval_steps_per_second": 2.704, |
|
"step": 68500 |
|
}, |
|
{ |
|
"epoch": 6.36, |
|
"learning_rate": 1.0476333333333335e-05, |
|
"loss": 3.0039, |
|
"step": 68600 |
|
}, |
|
{ |
|
"epoch": 6.37, |
|
"learning_rate": 1.0443000000000001e-05, |
|
"loss": 3.0072, |
|
"step": 68700 |
|
}, |
|
{ |
|
"epoch": 6.38, |
|
"learning_rate": 1.0409666666666668e-05, |
|
"loss": 2.9973, |
|
"step": 68800 |
|
}, |
|
{ |
|
"epoch": 6.39, |
|
"learning_rate": 1.0376666666666668e-05, |
|
"loss": 2.984, |
|
"step": 68900 |
|
}, |
|
{ |
|
"epoch": 6.4, |
|
"learning_rate": 1.0343333333333335e-05, |
|
"loss": 3.0241, |
|
"step": 69000 |
|
}, |
|
{ |
|
"epoch": 6.4, |
|
"eval_loss": 3.3401811122894287, |
|
"eval_runtime": 58.4723, |
|
"eval_samples_per_second": 43.132, |
|
"eval_steps_per_second": 2.702, |
|
"step": 69000 |
|
}, |
|
{ |
|
"epoch": 6.41, |
|
"learning_rate": 1.0310000000000001e-05, |
|
"loss": 3.0104, |
|
"step": 69100 |
|
}, |
|
{ |
|
"epoch": 6.41, |
|
"learning_rate": 1.0276666666666668e-05, |
|
"loss": 3.0239, |
|
"step": 69200 |
|
}, |
|
{ |
|
"epoch": 6.42, |
|
"learning_rate": 1.0243333333333334e-05, |
|
"loss": 2.9992, |
|
"step": 69300 |
|
}, |
|
{ |
|
"epoch": 6.43, |
|
"learning_rate": 1.021e-05, |
|
"loss": 3.0306, |
|
"step": 69400 |
|
}, |
|
{ |
|
"epoch": 6.44, |
|
"learning_rate": 1.0176666666666667e-05, |
|
"loss": 3.0094, |
|
"step": 69500 |
|
}, |
|
{ |
|
"epoch": 6.44, |
|
"eval_loss": 3.3436567783355713, |
|
"eval_runtime": 58.4709, |
|
"eval_samples_per_second": 43.133, |
|
"eval_steps_per_second": 2.702, |
|
"step": 69500 |
|
}, |
|
{ |
|
"epoch": 6.45, |
|
"learning_rate": 1.0143333333333333e-05, |
|
"loss": 3.0137, |
|
"step": 69600 |
|
}, |
|
{ |
|
"epoch": 6.46, |
|
"learning_rate": 1.0110000000000001e-05, |
|
"loss": 3.0555, |
|
"step": 69700 |
|
}, |
|
{ |
|
"epoch": 6.47, |
|
"learning_rate": 1.0076666666666668e-05, |
|
"loss": 3.0136, |
|
"step": 69800 |
|
}, |
|
{ |
|
"epoch": 6.48, |
|
"learning_rate": 1.0043333333333334e-05, |
|
"loss": 3.0314, |
|
"step": 69900 |
|
}, |
|
{ |
|
"epoch": 6.49, |
|
"learning_rate": 1.001e-05, |
|
"loss": 3.0286, |
|
"step": 70000 |
|
}, |
|
{ |
|
"epoch": 6.49, |
|
"eval_loss": 3.335451602935791, |
|
"eval_runtime": 58.9661, |
|
"eval_samples_per_second": 42.77, |
|
"eval_steps_per_second": 2.68, |
|
"step": 70000 |
|
}, |
|
{ |
|
"epoch": 6.5, |
|
"learning_rate": 9.976666666666667e-06, |
|
"loss": 3.0332, |
|
"step": 70100 |
|
}, |
|
{ |
|
"epoch": 6.51, |
|
"learning_rate": 9.943666666666668e-06, |
|
"loss": 3.0345, |
|
"step": 70200 |
|
}, |
|
{ |
|
"epoch": 6.52, |
|
"learning_rate": 9.910333333333334e-06, |
|
"loss": 3.01, |
|
"step": 70300 |
|
}, |
|
{ |
|
"epoch": 6.53, |
|
"learning_rate": 9.877e-06, |
|
"loss": 3.0254, |
|
"step": 70400 |
|
}, |
|
{ |
|
"epoch": 6.54, |
|
"learning_rate": 9.843666666666667e-06, |
|
"loss": 3.0391, |
|
"step": 70500 |
|
}, |
|
{ |
|
"epoch": 6.54, |
|
"eval_loss": 3.338533401489258, |
|
"eval_runtime": 58.4515, |
|
"eval_samples_per_second": 43.147, |
|
"eval_steps_per_second": 2.703, |
|
"step": 70500 |
|
}, |
|
{ |
|
"epoch": 6.54, |
|
"learning_rate": 9.810333333333333e-06, |
|
"loss": 3.0092, |
|
"step": 70600 |
|
}, |
|
{ |
|
"epoch": 6.55, |
|
"learning_rate": 9.777000000000001e-06, |
|
"loss": 3.0239, |
|
"step": 70700 |
|
}, |
|
{ |
|
"epoch": 6.56, |
|
"learning_rate": 9.743666666666668e-06, |
|
"loss": 3.0284, |
|
"step": 70800 |
|
}, |
|
{ |
|
"epoch": 6.57, |
|
"learning_rate": 9.710333333333334e-06, |
|
"loss": 3.0152, |
|
"step": 70900 |
|
}, |
|
{ |
|
"epoch": 6.58, |
|
"learning_rate": 9.677e-06, |
|
"loss": 3.0243, |
|
"step": 71000 |
|
}, |
|
{ |
|
"epoch": 6.58, |
|
"eval_loss": 3.3395261764526367, |
|
"eval_runtime": 58.5673, |
|
"eval_samples_per_second": 43.062, |
|
"eval_steps_per_second": 2.698, |
|
"step": 71000 |
|
}, |
|
{ |
|
"epoch": 6.59, |
|
"learning_rate": 9.643666666666667e-06, |
|
"loss": 3.0095, |
|
"step": 71100 |
|
}, |
|
{ |
|
"epoch": 6.6, |
|
"learning_rate": 9.610333333333334e-06, |
|
"loss": 3.031, |
|
"step": 71200 |
|
}, |
|
{ |
|
"epoch": 6.61, |
|
"learning_rate": 9.577e-06, |
|
"loss": 3.0225, |
|
"step": 71300 |
|
}, |
|
{ |
|
"epoch": 6.62, |
|
"learning_rate": 9.543666666666666e-06, |
|
"loss": 3.0278, |
|
"step": 71400 |
|
}, |
|
{ |
|
"epoch": 6.63, |
|
"learning_rate": 9.510333333333334e-06, |
|
"loss": 3.0232, |
|
"step": 71500 |
|
}, |
|
{ |
|
"epoch": 6.63, |
|
"eval_loss": 3.336970567703247, |
|
"eval_runtime": 58.4455, |
|
"eval_samples_per_second": 43.151, |
|
"eval_steps_per_second": 2.703, |
|
"step": 71500 |
|
}, |
|
{ |
|
"epoch": 6.64, |
|
"learning_rate": 9.477000000000001e-06, |
|
"loss": 3.0237, |
|
"step": 71600 |
|
}, |
|
{ |
|
"epoch": 6.65, |
|
"learning_rate": 9.443666666666667e-06, |
|
"loss": 3.0327, |
|
"step": 71700 |
|
}, |
|
{ |
|
"epoch": 6.66, |
|
"learning_rate": 9.410333333333334e-06, |
|
"loss": 3.0242, |
|
"step": 71800 |
|
}, |
|
{ |
|
"epoch": 6.66, |
|
"learning_rate": 9.377e-06, |
|
"loss": 3.0159, |
|
"step": 71900 |
|
}, |
|
{ |
|
"epoch": 6.67, |
|
"learning_rate": 9.343666666666667e-06, |
|
"loss": 3.0168, |
|
"step": 72000 |
|
}, |
|
{ |
|
"epoch": 6.67, |
|
"eval_loss": 3.345780611038208, |
|
"eval_runtime": 58.429, |
|
"eval_samples_per_second": 43.164, |
|
"eval_steps_per_second": 2.704, |
|
"step": 72000 |
|
}, |
|
{ |
|
"epoch": 6.68, |
|
"learning_rate": 9.310333333333333e-06, |
|
"loss": 3.0282, |
|
"step": 72100 |
|
}, |
|
{ |
|
"epoch": 6.69, |
|
"learning_rate": 9.277000000000001e-06, |
|
"loss": 3.0153, |
|
"step": 72200 |
|
}, |
|
{ |
|
"epoch": 6.7, |
|
"learning_rate": 9.243666666666668e-06, |
|
"loss": 2.9887, |
|
"step": 72300 |
|
}, |
|
{ |
|
"epoch": 6.71, |
|
"learning_rate": 9.210333333333334e-06, |
|
"loss": 3.0185, |
|
"step": 72400 |
|
}, |
|
{ |
|
"epoch": 6.72, |
|
"learning_rate": 9.177e-06, |
|
"loss": 3.0432, |
|
"step": 72500 |
|
}, |
|
{ |
|
"epoch": 6.72, |
|
"eval_loss": 3.33998966217041, |
|
"eval_runtime": 58.4729, |
|
"eval_samples_per_second": 43.131, |
|
"eval_steps_per_second": 2.702, |
|
"step": 72500 |
|
}, |
|
{ |
|
"epoch": 6.73, |
|
"learning_rate": 9.143666666666667e-06, |
|
"loss": 3.0239, |
|
"step": 72600 |
|
}, |
|
{ |
|
"epoch": 6.74, |
|
"learning_rate": 9.110333333333333e-06, |
|
"loss": 3.0352, |
|
"step": 72700 |
|
}, |
|
{ |
|
"epoch": 6.75, |
|
"learning_rate": 9.077e-06, |
|
"loss": 2.9972, |
|
"step": 72800 |
|
}, |
|
{ |
|
"epoch": 6.76, |
|
"learning_rate": 9.043666666666666e-06, |
|
"loss": 3.0374, |
|
"step": 72900 |
|
}, |
|
{ |
|
"epoch": 6.77, |
|
"learning_rate": 9.010333333333334e-06, |
|
"loss": 3.0121, |
|
"step": 73000 |
|
}, |
|
{ |
|
"epoch": 6.77, |
|
"eval_loss": 3.342031478881836, |
|
"eval_runtime": 58.4387, |
|
"eval_samples_per_second": 43.156, |
|
"eval_steps_per_second": 2.704, |
|
"step": 73000 |
|
}, |
|
{ |
|
"epoch": 6.78, |
|
"learning_rate": 8.977e-06, |
|
"loss": 3.0181, |
|
"step": 73100 |
|
}, |
|
{ |
|
"epoch": 6.79, |
|
"learning_rate": 8.943666666666667e-06, |
|
"loss": 3.0222, |
|
"step": 73200 |
|
}, |
|
{ |
|
"epoch": 6.79, |
|
"learning_rate": 8.910333333333333e-06, |
|
"loss": 3.0365, |
|
"step": 73300 |
|
}, |
|
{ |
|
"epoch": 6.8, |
|
"learning_rate": 8.877e-06, |
|
"loss": 3.0055, |
|
"step": 73400 |
|
}, |
|
{ |
|
"epoch": 6.81, |
|
"learning_rate": 8.843666666666666e-06, |
|
"loss": 3.0137, |
|
"step": 73500 |
|
}, |
|
{ |
|
"epoch": 6.81, |
|
"eval_loss": 3.34355092048645, |
|
"eval_runtime": 58.4474, |
|
"eval_samples_per_second": 43.15, |
|
"eval_steps_per_second": 2.703, |
|
"step": 73500 |
|
}, |
|
{ |
|
"epoch": 6.82, |
|
"learning_rate": 8.810333333333333e-06, |
|
"loss": 3.017, |
|
"step": 73600 |
|
}, |
|
{ |
|
"epoch": 6.83, |
|
"learning_rate": 8.776999999999999e-06, |
|
"loss": 3.0357, |
|
"step": 73700 |
|
}, |
|
{ |
|
"epoch": 6.84, |
|
"learning_rate": 8.743666666666667e-06, |
|
"loss": 3.0012, |
|
"step": 73800 |
|
}, |
|
{ |
|
"epoch": 6.85, |
|
"learning_rate": 8.710333333333334e-06, |
|
"loss": 3.0273, |
|
"step": 73900 |
|
}, |
|
{ |
|
"epoch": 6.86, |
|
"learning_rate": 8.677e-06, |
|
"loss": 3.0333, |
|
"step": 74000 |
|
}, |
|
{ |
|
"epoch": 6.86, |
|
"eval_loss": 3.3361899852752686, |
|
"eval_runtime": 58.7021, |
|
"eval_samples_per_second": 42.963, |
|
"eval_steps_per_second": 2.692, |
|
"step": 74000 |
|
}, |
|
{ |
|
"epoch": 6.87, |
|
"learning_rate": 8.643666666666667e-06, |
|
"loss": 3.0125, |
|
"step": 74100 |
|
}, |
|
{ |
|
"epoch": 6.88, |
|
"learning_rate": 8.610333333333333e-06, |
|
"loss": 3.034, |
|
"step": 74200 |
|
}, |
|
{ |
|
"epoch": 6.89, |
|
"learning_rate": 8.577e-06, |
|
"loss": 3.0204, |
|
"step": 74300 |
|
}, |
|
{ |
|
"epoch": 6.9, |
|
"learning_rate": 8.543666666666666e-06, |
|
"loss": 2.9966, |
|
"step": 74400 |
|
}, |
|
{ |
|
"epoch": 6.91, |
|
"learning_rate": 8.510333333333332e-06, |
|
"loss": 3.0194, |
|
"step": 74500 |
|
}, |
|
{ |
|
"epoch": 6.91, |
|
"eval_loss": 3.3355000019073486, |
|
"eval_runtime": 58.5227, |
|
"eval_samples_per_second": 43.094, |
|
"eval_steps_per_second": 2.7, |
|
"step": 74500 |
|
}, |
|
{ |
|
"epoch": 6.92, |
|
"learning_rate": 8.477e-06, |
|
"loss": 3.0271, |
|
"step": 74600 |
|
}, |
|
{ |
|
"epoch": 6.92, |
|
"learning_rate": 8.443666666666667e-06, |
|
"loss": 3.0311, |
|
"step": 74700 |
|
}, |
|
{ |
|
"epoch": 6.93, |
|
"learning_rate": 8.410333333333333e-06, |
|
"loss": 3.0494, |
|
"step": 74800 |
|
}, |
|
{ |
|
"epoch": 6.94, |
|
"learning_rate": 8.377e-06, |
|
"loss": 3.0271, |
|
"step": 74900 |
|
}, |
|
{ |
|
"epoch": 6.95, |
|
"learning_rate": 8.343666666666666e-06, |
|
"loss": 3.0198, |
|
"step": 75000 |
|
}, |
|
{ |
|
"epoch": 6.95, |
|
"eval_loss": 3.3434014320373535, |
|
"eval_runtime": 59.0815, |
|
"eval_samples_per_second": 42.687, |
|
"eval_steps_per_second": 2.674, |
|
"step": 75000 |
|
}, |
|
{ |
|
"epoch": 6.96, |
|
"learning_rate": 8.310333333333332e-06, |
|
"loss": 3.0081, |
|
"step": 75100 |
|
}, |
|
{ |
|
"epoch": 6.97, |
|
"learning_rate": 8.276999999999999e-06, |
|
"loss": 3.0092, |
|
"step": 75200 |
|
}, |
|
{ |
|
"epoch": 6.98, |
|
"learning_rate": 8.243666666666667e-06, |
|
"loss": 3.0053, |
|
"step": 75300 |
|
}, |
|
{ |
|
"epoch": 6.99, |
|
"learning_rate": 8.210333333333333e-06, |
|
"loss": 3.0322, |
|
"step": 75400 |
|
}, |
|
{ |
|
"epoch": 7.0, |
|
"learning_rate": 8.177e-06, |
|
"loss": 3.0105, |
|
"step": 75500 |
|
}, |
|
{ |
|
"epoch": 7.0, |
|
"eval_loss": 3.334582567214966, |
|
"eval_runtime": 58.5577, |
|
"eval_samples_per_second": 43.069, |
|
"eval_steps_per_second": 2.698, |
|
"step": 75500 |
|
}, |
|
{ |
|
"epoch": 7.01, |
|
"learning_rate": 8.143666666666666e-06, |
|
"loss": 2.9945, |
|
"step": 75600 |
|
}, |
|
{ |
|
"epoch": 7.02, |
|
"learning_rate": 8.110333333333333e-06, |
|
"loss": 2.9728, |
|
"step": 75700 |
|
}, |
|
{ |
|
"epoch": 7.03, |
|
"learning_rate": 8.077e-06, |
|
"loss": 2.9555, |
|
"step": 75800 |
|
}, |
|
{ |
|
"epoch": 7.04, |
|
"learning_rate": 8.043666666666667e-06, |
|
"loss": 3.0193, |
|
"step": 75900 |
|
}, |
|
{ |
|
"epoch": 7.04, |
|
"learning_rate": 8.010333333333334e-06, |
|
"loss": 2.9833, |
|
"step": 76000 |
|
}, |
|
{ |
|
"epoch": 7.04, |
|
"eval_loss": 3.349233865737915, |
|
"eval_runtime": 58.3506, |
|
"eval_samples_per_second": 43.221, |
|
"eval_steps_per_second": 2.708, |
|
"step": 76000 |
|
}, |
|
{ |
|
"epoch": 7.05, |
|
"learning_rate": 7.977333333333332e-06, |
|
"loss": 2.9716, |
|
"step": 76100 |
|
}, |
|
{ |
|
"epoch": 7.06, |
|
"learning_rate": 7.943999999999999e-06, |
|
"loss": 2.9727, |
|
"step": 76200 |
|
}, |
|
{ |
|
"epoch": 7.07, |
|
"learning_rate": 7.910666666666665e-06, |
|
"loss": 2.9814, |
|
"step": 76300 |
|
}, |
|
{ |
|
"epoch": 7.08, |
|
"learning_rate": 7.877333333333333e-06, |
|
"loss": 2.9809, |
|
"step": 76400 |
|
}, |
|
{ |
|
"epoch": 7.09, |
|
"learning_rate": 7.844e-06, |
|
"loss": 2.9876, |
|
"step": 76500 |
|
}, |
|
{ |
|
"epoch": 7.09, |
|
"eval_loss": 3.3351352214813232, |
|
"eval_runtime": 58.4501, |
|
"eval_samples_per_second": 43.148, |
|
"eval_steps_per_second": 2.703, |
|
"step": 76500 |
|
}, |
|
{ |
|
"epoch": 7.1, |
|
"learning_rate": 7.810666666666668e-06, |
|
"loss": 3.0019, |
|
"step": 76600 |
|
}, |
|
{ |
|
"epoch": 7.11, |
|
"learning_rate": 7.777333333333334e-06, |
|
"loss": 3.0185, |
|
"step": 76700 |
|
}, |
|
{ |
|
"epoch": 7.12, |
|
"learning_rate": 7.744e-06, |
|
"loss": 3.004, |
|
"step": 76800 |
|
}, |
|
{ |
|
"epoch": 7.13, |
|
"learning_rate": 7.710666666666667e-06, |
|
"loss": 2.9764, |
|
"step": 76900 |
|
}, |
|
{ |
|
"epoch": 7.14, |
|
"learning_rate": 7.677333333333334e-06, |
|
"loss": 2.9918, |
|
"step": 77000 |
|
}, |
|
{ |
|
"epoch": 7.14, |
|
"eval_loss": 3.3466107845306396, |
|
"eval_runtime": 58.4873, |
|
"eval_samples_per_second": 43.12, |
|
"eval_steps_per_second": 2.701, |
|
"step": 77000 |
|
}, |
|
{ |
|
"epoch": 7.15, |
|
"learning_rate": 7.644000000000002e-06, |
|
"loss": 2.9665, |
|
"step": 77100 |
|
}, |
|
{ |
|
"epoch": 7.16, |
|
"learning_rate": 7.610666666666667e-06, |
|
"loss": 2.996, |
|
"step": 77200 |
|
}, |
|
{ |
|
"epoch": 7.17, |
|
"learning_rate": 7.577333333333334e-06, |
|
"loss": 2.9867, |
|
"step": 77300 |
|
}, |
|
{ |
|
"epoch": 7.17, |
|
"learning_rate": 7.544e-06, |
|
"loss": 2.9906, |
|
"step": 77400 |
|
}, |
|
{ |
|
"epoch": 7.18, |
|
"learning_rate": 7.5106666666666665e-06, |
|
"loss": 2.9983, |
|
"step": 77500 |
|
}, |
|
{ |
|
"epoch": 7.18, |
|
"eval_loss": 3.3421871662139893, |
|
"eval_runtime": 58.4608, |
|
"eval_samples_per_second": 43.14, |
|
"eval_steps_per_second": 2.703, |
|
"step": 77500 |
|
}, |
|
{ |
|
"epoch": 7.19, |
|
"learning_rate": 7.477333333333333e-06, |
|
"loss": 2.9817, |
|
"step": 77600 |
|
}, |
|
{ |
|
"epoch": 7.2, |
|
"learning_rate": 7.444e-06, |
|
"loss": 3.0026, |
|
"step": 77700 |
|
}, |
|
{ |
|
"epoch": 7.21, |
|
"learning_rate": 7.410666666666667e-06, |
|
"loss": 2.9867, |
|
"step": 77800 |
|
}, |
|
{ |
|
"epoch": 7.22, |
|
"learning_rate": 7.377333333333333e-06, |
|
"loss": 2.9828, |
|
"step": 77900 |
|
}, |
|
{ |
|
"epoch": 7.23, |
|
"learning_rate": 7.3439999999999995e-06, |
|
"loss": 2.9893, |
|
"step": 78000 |
|
}, |
|
{ |
|
"epoch": 7.23, |
|
"eval_loss": 3.3364152908325195, |
|
"eval_runtime": 58.5746, |
|
"eval_samples_per_second": 43.056, |
|
"eval_steps_per_second": 2.697, |
|
"step": 78000 |
|
}, |
|
{ |
|
"epoch": 7.24, |
|
"learning_rate": 7.310666666666667e-06, |
|
"loss": 3.0015, |
|
"step": 78100 |
|
}, |
|
{ |
|
"epoch": 7.25, |
|
"learning_rate": 7.277333333333334e-06, |
|
"loss": 2.9713, |
|
"step": 78200 |
|
}, |
|
{ |
|
"epoch": 7.26, |
|
"learning_rate": 7.2440000000000004e-06, |
|
"loss": 2.9809, |
|
"step": 78300 |
|
}, |
|
{ |
|
"epoch": 7.27, |
|
"learning_rate": 7.210666666666667e-06, |
|
"loss": 2.9772, |
|
"step": 78400 |
|
}, |
|
{ |
|
"epoch": 7.28, |
|
"learning_rate": 7.177333333333334e-06, |
|
"loss": 2.9946, |
|
"step": 78500 |
|
}, |
|
{ |
|
"epoch": 7.28, |
|
"eval_loss": 3.33650279045105, |
|
"eval_runtime": 59.0382, |
|
"eval_samples_per_second": 42.718, |
|
"eval_steps_per_second": 2.676, |
|
"step": 78500 |
|
}, |
|
{ |
|
"epoch": 7.29, |
|
"learning_rate": 7.1440000000000005e-06, |
|
"loss": 2.9888, |
|
"step": 78600 |
|
}, |
|
{ |
|
"epoch": 7.3, |
|
"learning_rate": 7.110666666666667e-06, |
|
"loss": 2.9878, |
|
"step": 78700 |
|
}, |
|
{ |
|
"epoch": 7.3, |
|
"learning_rate": 7.077333333333333e-06, |
|
"loss": 2.9913, |
|
"step": 78800 |
|
}, |
|
{ |
|
"epoch": 7.31, |
|
"learning_rate": 7.044000000000001e-06, |
|
"loss": 2.9804, |
|
"step": 78900 |
|
}, |
|
{ |
|
"epoch": 7.32, |
|
"learning_rate": 7.010666666666667e-06, |
|
"loss": 2.9851, |
|
"step": 79000 |
|
}, |
|
{ |
|
"epoch": 7.32, |
|
"eval_loss": 3.340222120285034, |
|
"eval_runtime": 58.8117, |
|
"eval_samples_per_second": 42.883, |
|
"eval_steps_per_second": 2.687, |
|
"step": 79000 |
|
}, |
|
{ |
|
"epoch": 7.33, |
|
"learning_rate": 6.9773333333333335e-06, |
|
"loss": 2.9854, |
|
"step": 79100 |
|
}, |
|
{ |
|
"epoch": 7.34, |
|
"learning_rate": 6.944e-06, |
|
"loss": 2.9957, |
|
"step": 79200 |
|
}, |
|
{ |
|
"epoch": 7.35, |
|
"learning_rate": 6.910666666666667e-06, |
|
"loss": 2.972, |
|
"step": 79300 |
|
}, |
|
{ |
|
"epoch": 7.36, |
|
"learning_rate": 6.877333333333334e-06, |
|
"loss": 2.9743, |
|
"step": 79400 |
|
}, |
|
{ |
|
"epoch": 7.37, |
|
"learning_rate": 6.844e-06, |
|
"loss": 2.9797, |
|
"step": 79500 |
|
}, |
|
{ |
|
"epoch": 7.37, |
|
"eval_loss": 3.34499192237854, |
|
"eval_runtime": 58.7204, |
|
"eval_samples_per_second": 42.949, |
|
"eval_steps_per_second": 2.691, |
|
"step": 79500 |
|
}, |
|
{ |
|
"epoch": 7.38, |
|
"learning_rate": 6.8106666666666665e-06, |
|
"loss": 3.0023, |
|
"step": 79600 |
|
}, |
|
{ |
|
"epoch": 7.39, |
|
"learning_rate": 6.777333333333334e-06, |
|
"loss": 2.9963, |
|
"step": 79700 |
|
}, |
|
{ |
|
"epoch": 7.4, |
|
"learning_rate": 6.744e-06, |
|
"loss": 2.9746, |
|
"step": 79800 |
|
}, |
|
{ |
|
"epoch": 7.41, |
|
"learning_rate": 6.7106666666666666e-06, |
|
"loss": 2.9888, |
|
"step": 79900 |
|
}, |
|
{ |
|
"epoch": 7.42, |
|
"learning_rate": 6.677333333333334e-06, |
|
"loss": 2.9888, |
|
"step": 80000 |
|
}, |
|
{ |
|
"epoch": 7.42, |
|
"eval_loss": 3.3422751426696777, |
|
"eval_runtime": 58.8079, |
|
"eval_samples_per_second": 42.885, |
|
"eval_steps_per_second": 2.687, |
|
"step": 80000 |
|
}, |
|
{ |
|
"epoch": 7.42, |
|
"learning_rate": 6.644e-06, |
|
"loss": 2.9871, |
|
"step": 80100 |
|
}, |
|
{ |
|
"epoch": 7.43, |
|
"learning_rate": 6.610666666666667e-06, |
|
"loss": 2.987, |
|
"step": 80200 |
|
}, |
|
{ |
|
"epoch": 7.44, |
|
"learning_rate": 6.577333333333333e-06, |
|
"loss": 3.0061, |
|
"step": 80300 |
|
}, |
|
{ |
|
"epoch": 7.45, |
|
"learning_rate": 6.544e-06, |
|
"loss": 2.9757, |
|
"step": 80400 |
|
}, |
|
{ |
|
"epoch": 7.46, |
|
"learning_rate": 6.510666666666667e-06, |
|
"loss": 3.0182, |
|
"step": 80500 |
|
}, |
|
{ |
|
"epoch": 7.46, |
|
"eval_loss": 3.34291672706604, |
|
"eval_runtime": 58.8228, |
|
"eval_samples_per_second": 42.874, |
|
"eval_steps_per_second": 2.686, |
|
"step": 80500 |
|
}, |
|
{ |
|
"epoch": 7.47, |
|
"learning_rate": 6.477333333333333e-06, |
|
"loss": 2.9852, |
|
"step": 80600 |
|
}, |
|
{ |
|
"epoch": 7.48, |
|
"learning_rate": 6.444e-06, |
|
"loss": 2.988, |
|
"step": 80700 |
|
}, |
|
{ |
|
"epoch": 7.49, |
|
"learning_rate": 6.410666666666667e-06, |
|
"loss": 2.9814, |
|
"step": 80800 |
|
}, |
|
{ |
|
"epoch": 7.5, |
|
"learning_rate": 6.377333333333333e-06, |
|
"loss": 2.9716, |
|
"step": 80900 |
|
}, |
|
{ |
|
"epoch": 7.51, |
|
"learning_rate": 6.344333333333333e-06, |
|
"loss": 2.983, |
|
"step": 81000 |
|
}, |
|
{ |
|
"epoch": 7.51, |
|
"eval_loss": 3.3345420360565186, |
|
"eval_runtime": 59.2266, |
|
"eval_samples_per_second": 42.582, |
|
"eval_steps_per_second": 2.668, |
|
"step": 81000 |
|
}, |
|
{ |
|
"epoch": 7.52, |
|
"learning_rate": 6.311e-06, |
|
"loss": 2.9853, |
|
"step": 81100 |
|
}, |
|
{ |
|
"epoch": 7.53, |
|
"learning_rate": 6.277666666666667e-06, |
|
"loss": 2.9926, |
|
"step": 81200 |
|
}, |
|
{ |
|
"epoch": 7.54, |
|
"learning_rate": 6.244666666666667e-06, |
|
"loss": 2.985, |
|
"step": 81300 |
|
}, |
|
{ |
|
"epoch": 7.55, |
|
"learning_rate": 6.2113333333333336e-06, |
|
"loss": 2.9772, |
|
"step": 81400 |
|
}, |
|
{ |
|
"epoch": 7.55, |
|
"learning_rate": 6.178e-06, |
|
"loss": 2.9959, |
|
"step": 81500 |
|
}, |
|
{ |
|
"epoch": 7.55, |
|
"eval_loss": 3.339679479598999, |
|
"eval_runtime": 58.7971, |
|
"eval_samples_per_second": 42.893, |
|
"eval_steps_per_second": 2.687, |
|
"step": 81500 |
|
}, |
|
{ |
|
"epoch": 7.56, |
|
"learning_rate": 6.144666666666666e-06, |
|
"loss": 3.0091, |
|
"step": 81600 |
|
}, |
|
{ |
|
"epoch": 7.57, |
|
"learning_rate": 6.111333333333334e-06, |
|
"loss": 2.9896, |
|
"step": 81700 |
|
}, |
|
{ |
|
"epoch": 7.58, |
|
"learning_rate": 6.078e-06, |
|
"loss": 2.9939, |
|
"step": 81800 |
|
}, |
|
{ |
|
"epoch": 7.59, |
|
"learning_rate": 6.0446666666666665e-06, |
|
"loss": 2.995, |
|
"step": 81900 |
|
}, |
|
{ |
|
"epoch": 7.6, |
|
"learning_rate": 6.011333333333333e-06, |
|
"loss": 2.9935, |
|
"step": 82000 |
|
}, |
|
{ |
|
"epoch": 7.6, |
|
"eval_loss": 3.3388760089874268, |
|
"eval_runtime": 58.8198, |
|
"eval_samples_per_second": 42.877, |
|
"eval_steps_per_second": 2.686, |
|
"step": 82000 |
|
}, |
|
{ |
|
"epoch": 7.61, |
|
"learning_rate": 5.978e-06, |
|
"loss": 3.0026, |
|
"step": 82100 |
|
}, |
|
{ |
|
"epoch": 7.62, |
|
"learning_rate": 5.944666666666667e-06, |
|
"loss": 2.9934, |
|
"step": 82200 |
|
}, |
|
{ |
|
"epoch": 7.63, |
|
"learning_rate": 5.911333333333333e-06, |
|
"loss": 2.9797, |
|
"step": 82300 |
|
}, |
|
{ |
|
"epoch": 7.64, |
|
"learning_rate": 5.8779999999999995e-06, |
|
"loss": 2.9878, |
|
"step": 82400 |
|
}, |
|
{ |
|
"epoch": 7.65, |
|
"learning_rate": 5.844666666666667e-06, |
|
"loss": 3.0008, |
|
"step": 82500 |
|
}, |
|
{ |
|
"epoch": 7.65, |
|
"eval_loss": 3.344236373901367, |
|
"eval_runtime": 58.8163, |
|
"eval_samples_per_second": 42.879, |
|
"eval_steps_per_second": 2.686, |
|
"step": 82500 |
|
}, |
|
{ |
|
"epoch": 7.66, |
|
"learning_rate": 5.811333333333333e-06, |
|
"loss": 2.9657, |
|
"step": 82600 |
|
}, |
|
{ |
|
"epoch": 7.67, |
|
"learning_rate": 5.7779999999999996e-06, |
|
"loss": 2.9744, |
|
"step": 82700 |
|
}, |
|
{ |
|
"epoch": 7.68, |
|
"learning_rate": 5.744666666666666e-06, |
|
"loss": 3.0177, |
|
"step": 82800 |
|
}, |
|
{ |
|
"epoch": 7.68, |
|
"learning_rate": 5.711333333333334e-06, |
|
"loss": 3.0139, |
|
"step": 82900 |
|
}, |
|
{ |
|
"epoch": 7.69, |
|
"learning_rate": 5.6780000000000005e-06, |
|
"loss": 2.9898, |
|
"step": 83000 |
|
}, |
|
{ |
|
"epoch": 7.69, |
|
"eval_loss": 3.341789960861206, |
|
"eval_runtime": 58.7852, |
|
"eval_samples_per_second": 42.902, |
|
"eval_steps_per_second": 2.688, |
|
"step": 83000 |
|
}, |
|
{ |
|
"epoch": 7.7, |
|
"learning_rate": 5.644666666666667e-06, |
|
"loss": 2.9834, |
|
"step": 83100 |
|
}, |
|
{ |
|
"epoch": 7.71, |
|
"learning_rate": 5.611333333333334e-06, |
|
"loss": 2.9756, |
|
"step": 83200 |
|
}, |
|
{ |
|
"epoch": 7.72, |
|
"learning_rate": 5.578000000000001e-06, |
|
"loss": 2.9912, |
|
"step": 83300 |
|
}, |
|
{ |
|
"epoch": 7.73, |
|
"learning_rate": 5.544666666666667e-06, |
|
"loss": 2.9926, |
|
"step": 83400 |
|
}, |
|
{ |
|
"epoch": 7.74, |
|
"learning_rate": 5.5113333333333335e-06, |
|
"loss": 2.9989, |
|
"step": 83500 |
|
}, |
|
{ |
|
"epoch": 7.74, |
|
"eval_loss": 3.338747978210449, |
|
"eval_runtime": 58.6599, |
|
"eval_samples_per_second": 42.994, |
|
"eval_steps_per_second": 2.693, |
|
"step": 83500 |
|
}, |
|
{ |
|
"epoch": 7.75, |
|
"learning_rate": 5.478000000000001e-06, |
|
"loss": 2.9927, |
|
"step": 83600 |
|
}, |
|
{ |
|
"epoch": 7.76, |
|
"learning_rate": 5.444666666666667e-06, |
|
"loss": 3.0075, |
|
"step": 83700 |
|
}, |
|
{ |
|
"epoch": 7.77, |
|
"learning_rate": 5.411333333333334e-06, |
|
"loss": 2.9916, |
|
"step": 83800 |
|
}, |
|
{ |
|
"epoch": 7.78, |
|
"learning_rate": 5.378e-06, |
|
"loss": 2.9829, |
|
"step": 83900 |
|
}, |
|
{ |
|
"epoch": 7.79, |
|
"learning_rate": 5.344666666666667e-06, |
|
"loss": 2.985, |
|
"step": 84000 |
|
}, |
|
{ |
|
"epoch": 7.79, |
|
"eval_loss": 3.3482091426849365, |
|
"eval_runtime": 58.808, |
|
"eval_samples_per_second": 42.885, |
|
"eval_steps_per_second": 2.687, |
|
"step": 84000 |
|
}, |
|
{ |
|
"epoch": 7.8, |
|
"learning_rate": 5.311333333333334e-06, |
|
"loss": 2.996, |
|
"step": 84100 |
|
}, |
|
{ |
|
"epoch": 7.8, |
|
"learning_rate": 5.278e-06, |
|
"loss": 2.9882, |
|
"step": 84200 |
|
}, |
|
{ |
|
"epoch": 7.81, |
|
"learning_rate": 5.2446666666666665e-06, |
|
"loss": 2.9571, |
|
"step": 84300 |
|
}, |
|
{ |
|
"epoch": 7.82, |
|
"learning_rate": 5.211333333333334e-06, |
|
"loss": 2.99, |
|
"step": 84400 |
|
}, |
|
{ |
|
"epoch": 7.83, |
|
"learning_rate": 5.178e-06, |
|
"loss": 2.963, |
|
"step": 84500 |
|
}, |
|
{ |
|
"epoch": 7.83, |
|
"eval_loss": 3.336893081665039, |
|
"eval_runtime": 58.7829, |
|
"eval_samples_per_second": 42.904, |
|
"eval_steps_per_second": 2.688, |
|
"step": 84500 |
|
}, |
|
{ |
|
"epoch": 7.84, |
|
"learning_rate": 5.144666666666667e-06, |
|
"loss": 3.0006, |
|
"step": 84600 |
|
}, |
|
{ |
|
"epoch": 7.85, |
|
"learning_rate": 5.111333333333333e-06, |
|
"loss": 2.9778, |
|
"step": 84700 |
|
}, |
|
{ |
|
"epoch": 7.86, |
|
"learning_rate": 5.078e-06, |
|
"loss": 2.9831, |
|
"step": 84800 |
|
}, |
|
{ |
|
"epoch": 7.87, |
|
"learning_rate": 5.044666666666667e-06, |
|
"loss": 2.9826, |
|
"step": 84900 |
|
}, |
|
{ |
|
"epoch": 7.88, |
|
"learning_rate": 5.011333333333333e-06, |
|
"loss": 3.0009, |
|
"step": 85000 |
|
}, |
|
{ |
|
"epoch": 7.88, |
|
"eval_loss": 3.3354852199554443, |
|
"eval_runtime": 58.7637, |
|
"eval_samples_per_second": 42.918, |
|
"eval_steps_per_second": 2.689, |
|
"step": 85000 |
|
}, |
|
{ |
|
"epoch": 7.89, |
|
"learning_rate": 4.978e-06, |
|
"loss": 2.9828, |
|
"step": 85100 |
|
}, |
|
{ |
|
"epoch": 7.9, |
|
"learning_rate": 4.944666666666667e-06, |
|
"loss": 2.9601, |
|
"step": 85200 |
|
}, |
|
{ |
|
"epoch": 7.91, |
|
"learning_rate": 4.911333333333333e-06, |
|
"loss": 2.9907, |
|
"step": 85300 |
|
}, |
|
{ |
|
"epoch": 7.92, |
|
"learning_rate": 4.878e-06, |
|
"loss": 2.9831, |
|
"step": 85400 |
|
}, |
|
{ |
|
"epoch": 7.93, |
|
"learning_rate": 4.844666666666666e-06, |
|
"loss": 2.9925, |
|
"step": 85500 |
|
}, |
|
{ |
|
"epoch": 7.93, |
|
"eval_loss": 3.3433709144592285, |
|
"eval_runtime": 58.875, |
|
"eval_samples_per_second": 42.837, |
|
"eval_steps_per_second": 2.684, |
|
"step": 85500 |
|
}, |
|
{ |
|
"epoch": 7.93, |
|
"learning_rate": 4.811333333333333e-06, |
|
"loss": 2.9983, |
|
"step": 85600 |
|
}, |
|
{ |
|
"epoch": 7.94, |
|
"learning_rate": 4.778e-06, |
|
"loss": 2.9752, |
|
"step": 85700 |
|
}, |
|
{ |
|
"epoch": 7.95, |
|
"learning_rate": 4.744666666666666e-06, |
|
"loss": 2.982, |
|
"step": 85800 |
|
}, |
|
{ |
|
"epoch": 7.96, |
|
"learning_rate": 4.711333333333333e-06, |
|
"loss": 3.0021, |
|
"step": 85900 |
|
}, |
|
{ |
|
"epoch": 7.97, |
|
"learning_rate": 4.678e-06, |
|
"loss": 2.9616, |
|
"step": 86000 |
|
}, |
|
{ |
|
"epoch": 7.97, |
|
"eval_loss": 3.334641933441162, |
|
"eval_runtime": 58.7933, |
|
"eval_samples_per_second": 42.896, |
|
"eval_steps_per_second": 2.687, |
|
"step": 86000 |
|
}, |
|
{ |
|
"epoch": 7.98, |
|
"learning_rate": 4.644666666666667e-06, |
|
"loss": 2.9642, |
|
"step": 86100 |
|
}, |
|
{ |
|
"epoch": 7.99, |
|
"learning_rate": 4.611333333333334e-06, |
|
"loss": 2.9826, |
|
"step": 86200 |
|
}, |
|
{ |
|
"epoch": 8.0, |
|
"learning_rate": 4.578000000000001e-06, |
|
"loss": 2.964, |
|
"step": 86300 |
|
}, |
|
{ |
|
"epoch": 8.01, |
|
"learning_rate": 4.544666666666667e-06, |
|
"loss": 2.9774, |
|
"step": 86400 |
|
}, |
|
{ |
|
"epoch": 8.02, |
|
"learning_rate": 4.511333333333334e-06, |
|
"loss": 2.9769, |
|
"step": 86500 |
|
}, |
|
{ |
|
"epoch": 8.02, |
|
"eval_loss": 3.342970848083496, |
|
"eval_runtime": 58.8227, |
|
"eval_samples_per_second": 42.875, |
|
"eval_steps_per_second": 2.686, |
|
"step": 86500 |
|
}, |
|
{ |
|
"epoch": 8.03, |
|
"learning_rate": 4.478e-06, |
|
"loss": 2.9404, |
|
"step": 86600 |
|
}, |
|
{ |
|
"epoch": 8.04, |
|
"learning_rate": 4.444666666666667e-06, |
|
"loss": 2.9816, |
|
"step": 86700 |
|
}, |
|
{ |
|
"epoch": 8.05, |
|
"learning_rate": 4.411333333333334e-06, |
|
"loss": 2.9675, |
|
"step": 86800 |
|
}, |
|
{ |
|
"epoch": 8.06, |
|
"learning_rate": 4.378e-06, |
|
"loss": 2.9517, |
|
"step": 86900 |
|
}, |
|
{ |
|
"epoch": 8.06, |
|
"learning_rate": 4.345000000000001e-06, |
|
"loss": 2.9663, |
|
"step": 87000 |
|
}, |
|
{ |
|
"epoch": 8.06, |
|
"eval_loss": 3.3406615257263184, |
|
"eval_runtime": 58.7795, |
|
"eval_samples_per_second": 42.906, |
|
"eval_steps_per_second": 2.688, |
|
"step": 87000 |
|
}, |
|
{ |
|
"epoch": 8.07, |
|
"learning_rate": 4.311666666666667e-06, |
|
"loss": 2.988, |
|
"step": 87100 |
|
}, |
|
{ |
|
"epoch": 8.08, |
|
"learning_rate": 4.278333333333334e-06, |
|
"loss": 2.965, |
|
"step": 87200 |
|
}, |
|
{ |
|
"epoch": 8.09, |
|
"learning_rate": 4.245e-06, |
|
"loss": 2.9809, |
|
"step": 87300 |
|
}, |
|
{ |
|
"epoch": 8.1, |
|
"learning_rate": 4.211666666666667e-06, |
|
"loss": 2.9454, |
|
"step": 87400 |
|
}, |
|
{ |
|
"epoch": 8.11, |
|
"learning_rate": 4.178333333333334e-06, |
|
"loss": 2.9872, |
|
"step": 87500 |
|
}, |
|
{ |
|
"epoch": 8.11, |
|
"eval_loss": 3.3447818756103516, |
|
"eval_runtime": 58.6814, |
|
"eval_samples_per_second": 42.978, |
|
"eval_steps_per_second": 2.693, |
|
"step": 87500 |
|
}, |
|
{ |
|
"epoch": 8.12, |
|
"learning_rate": 4.145e-06, |
|
"loss": 2.9563, |
|
"step": 87600 |
|
}, |
|
{ |
|
"epoch": 8.13, |
|
"learning_rate": 4.111666666666667e-06, |
|
"loss": 2.9658, |
|
"step": 87700 |
|
}, |
|
{ |
|
"epoch": 8.14, |
|
"learning_rate": 4.078333333333334e-06, |
|
"loss": 2.9403, |
|
"step": 87800 |
|
}, |
|
{ |
|
"epoch": 8.15, |
|
"learning_rate": 4.045e-06, |
|
"loss": 2.9662, |
|
"step": 87900 |
|
}, |
|
{ |
|
"epoch": 8.16, |
|
"learning_rate": 4.011666666666667e-06, |
|
"loss": 2.9892, |
|
"step": 88000 |
|
}, |
|
{ |
|
"epoch": 8.16, |
|
"eval_loss": 3.335402250289917, |
|
"eval_runtime": 58.7763, |
|
"eval_samples_per_second": 42.908, |
|
"eval_steps_per_second": 2.688, |
|
"step": 88000 |
|
}, |
|
{ |
|
"epoch": 8.17, |
|
"learning_rate": 3.978333333333334e-06, |
|
"loss": 2.9684, |
|
"step": 88100 |
|
}, |
|
{ |
|
"epoch": 8.18, |
|
"learning_rate": 3.945e-06, |
|
"loss": 2.9314, |
|
"step": 88200 |
|
}, |
|
{ |
|
"epoch": 8.19, |
|
"learning_rate": 3.911666666666667e-06, |
|
"loss": 2.9733, |
|
"step": 88300 |
|
}, |
|
{ |
|
"epoch": 8.19, |
|
"learning_rate": 3.878333333333333e-06, |
|
"loss": 2.9678, |
|
"step": 88400 |
|
}, |
|
{ |
|
"epoch": 8.2, |
|
"learning_rate": 3.8450000000000005e-06, |
|
"loss": 2.9526, |
|
"step": 88500 |
|
}, |
|
{ |
|
"epoch": 8.2, |
|
"eval_loss": 3.344485282897949, |
|
"eval_runtime": 58.7827, |
|
"eval_samples_per_second": 42.904, |
|
"eval_steps_per_second": 2.688, |
|
"step": 88500 |
|
}, |
|
{ |
|
"epoch": 8.21, |
|
"learning_rate": 3.812e-06, |
|
"loss": 2.9573, |
|
"step": 88600 |
|
}, |
|
{ |
|
"epoch": 8.22, |
|
"learning_rate": 3.7786666666666665e-06, |
|
"loss": 2.9623, |
|
"step": 88700 |
|
}, |
|
{ |
|
"epoch": 8.23, |
|
"learning_rate": 3.7453333333333334e-06, |
|
"loss": 2.9442, |
|
"step": 88800 |
|
}, |
|
{ |
|
"epoch": 8.24, |
|
"learning_rate": 3.712e-06, |
|
"loss": 2.9698, |
|
"step": 88900 |
|
}, |
|
{ |
|
"epoch": 8.25, |
|
"learning_rate": 3.6786666666666666e-06, |
|
"loss": 2.9426, |
|
"step": 89000 |
|
}, |
|
{ |
|
"epoch": 8.25, |
|
"eval_loss": 3.3404858112335205, |
|
"eval_runtime": 58.8013, |
|
"eval_samples_per_second": 42.89, |
|
"eval_steps_per_second": 2.687, |
|
"step": 89000 |
|
}, |
|
{ |
|
"epoch": 8.26, |
|
"learning_rate": 3.6453333333333335e-06, |
|
"loss": 2.9715, |
|
"step": 89100 |
|
}, |
|
{ |
|
"epoch": 8.27, |
|
"learning_rate": 3.612e-06, |
|
"loss": 2.9601, |
|
"step": 89200 |
|
}, |
|
{ |
|
"epoch": 8.28, |
|
"learning_rate": 3.5786666666666667e-06, |
|
"loss": 2.946, |
|
"step": 89300 |
|
}, |
|
{ |
|
"epoch": 8.29, |
|
"learning_rate": 3.5453333333333336e-06, |
|
"loss": 2.961, |
|
"step": 89400 |
|
}, |
|
{ |
|
"epoch": 8.3, |
|
"learning_rate": 3.512e-06, |
|
"loss": 2.9528, |
|
"step": 89500 |
|
}, |
|
{ |
|
"epoch": 8.3, |
|
"eval_loss": 3.346575975418091, |
|
"eval_runtime": 58.8294, |
|
"eval_samples_per_second": 42.87, |
|
"eval_steps_per_second": 2.686, |
|
"step": 89500 |
|
}, |
|
{ |
|
"epoch": 8.31, |
|
"learning_rate": 3.478666666666667e-06, |
|
"loss": 2.9626, |
|
"step": 89600 |
|
}, |
|
{ |
|
"epoch": 8.31, |
|
"learning_rate": 3.4453333333333333e-06, |
|
"loss": 2.969, |
|
"step": 89700 |
|
}, |
|
{ |
|
"epoch": 8.32, |
|
"learning_rate": 3.412e-06, |
|
"loss": 2.9517, |
|
"step": 89800 |
|
}, |
|
{ |
|
"epoch": 8.33, |
|
"learning_rate": 3.3786666666666665e-06, |
|
"loss": 2.9575, |
|
"step": 89900 |
|
}, |
|
{ |
|
"epoch": 8.34, |
|
"learning_rate": 3.3453333333333334e-06, |
|
"loss": 2.9541, |
|
"step": 90000 |
|
}, |
|
{ |
|
"epoch": 8.34, |
|
"eval_loss": 3.3433806896209717, |
|
"eval_runtime": 58.9549, |
|
"eval_samples_per_second": 42.778, |
|
"eval_steps_per_second": 2.68, |
|
"step": 90000 |
|
}, |
|
{ |
|
"epoch": 8.35, |
|
"learning_rate": 3.3120000000000002e-06, |
|
"loss": 2.9619, |
|
"step": 90100 |
|
}, |
|
{ |
|
"epoch": 8.36, |
|
"learning_rate": 3.278666666666667e-06, |
|
"loss": 2.9673, |
|
"step": 90200 |
|
}, |
|
{ |
|
"epoch": 8.37, |
|
"learning_rate": 3.2453333333333335e-06, |
|
"loss": 2.9709, |
|
"step": 90300 |
|
}, |
|
{ |
|
"epoch": 8.38, |
|
"learning_rate": 3.2120000000000003e-06, |
|
"loss": 2.9687, |
|
"step": 90400 |
|
}, |
|
{ |
|
"epoch": 8.39, |
|
"learning_rate": 3.1786666666666668e-06, |
|
"loss": 2.9643, |
|
"step": 90500 |
|
}, |
|
{ |
|
"epoch": 8.39, |
|
"eval_loss": 3.3475043773651123, |
|
"eval_runtime": 58.9317, |
|
"eval_samples_per_second": 42.795, |
|
"eval_steps_per_second": 2.681, |
|
"step": 90500 |
|
}, |
|
{ |
|
"epoch": 8.4, |
|
"learning_rate": 3.1453333333333336e-06, |
|
"loss": 2.9844, |
|
"step": 90600 |
|
}, |
|
{ |
|
"epoch": 8.41, |
|
"learning_rate": 3.112e-06, |
|
"loss": 2.9647, |
|
"step": 90700 |
|
}, |
|
{ |
|
"epoch": 8.42, |
|
"learning_rate": 3.078666666666667e-06, |
|
"loss": 2.9648, |
|
"step": 90800 |
|
}, |
|
{ |
|
"epoch": 8.43, |
|
"learning_rate": 3.0453333333333333e-06, |
|
"loss": 2.9608, |
|
"step": 90900 |
|
}, |
|
{ |
|
"epoch": 8.44, |
|
"learning_rate": 3.012e-06, |
|
"loss": 2.9893, |
|
"step": 91000 |
|
}, |
|
{ |
|
"epoch": 8.44, |
|
"eval_loss": 3.34340238571167, |
|
"eval_runtime": 58.8211, |
|
"eval_samples_per_second": 42.876, |
|
"eval_steps_per_second": 2.686, |
|
"step": 91000 |
|
}, |
|
{ |
|
"epoch": 8.44, |
|
"learning_rate": 2.9786666666666666e-06, |
|
"loss": 2.974, |
|
"step": 91100 |
|
}, |
|
{ |
|
"epoch": 8.45, |
|
"learning_rate": 2.9453333333333334e-06, |
|
"loss": 2.9603, |
|
"step": 91200 |
|
}, |
|
{ |
|
"epoch": 8.46, |
|
"learning_rate": 2.912e-06, |
|
"loss": 2.9622, |
|
"step": 91300 |
|
}, |
|
{ |
|
"epoch": 8.47, |
|
"learning_rate": 2.8786666666666667e-06, |
|
"loss": 2.981, |
|
"step": 91400 |
|
}, |
|
{ |
|
"epoch": 8.48, |
|
"learning_rate": 2.845333333333333e-06, |
|
"loss": 2.9655, |
|
"step": 91500 |
|
}, |
|
{ |
|
"epoch": 8.48, |
|
"eval_loss": 3.3432605266571045, |
|
"eval_runtime": 58.7071, |
|
"eval_samples_per_second": 42.959, |
|
"eval_steps_per_second": 2.691, |
|
"step": 91500 |
|
}, |
|
{ |
|
"epoch": 8.49, |
|
"learning_rate": 2.812e-06, |
|
"loss": 2.9592, |
|
"step": 91600 |
|
}, |
|
{ |
|
"epoch": 8.5, |
|
"learning_rate": 2.7786666666666668e-06, |
|
"loss": 2.9539, |
|
"step": 91700 |
|
}, |
|
{ |
|
"epoch": 8.51, |
|
"learning_rate": 2.7453333333333336e-06, |
|
"loss": 2.946, |
|
"step": 91800 |
|
}, |
|
{ |
|
"epoch": 8.52, |
|
"learning_rate": 2.7123333333333333e-06, |
|
"loss": 2.9562, |
|
"step": 91900 |
|
}, |
|
{ |
|
"epoch": 8.53, |
|
"learning_rate": 2.679e-06, |
|
"loss": 2.9735, |
|
"step": 92000 |
|
}, |
|
{ |
|
"epoch": 8.53, |
|
"eval_loss": 3.34155535697937, |
|
"eval_runtime": 58.8115, |
|
"eval_samples_per_second": 42.883, |
|
"eval_steps_per_second": 2.687, |
|
"step": 92000 |
|
}, |
|
{ |
|
"epoch": 8.54, |
|
"learning_rate": 2.6456666666666665e-06, |
|
"loss": 2.9816, |
|
"step": 92100 |
|
}, |
|
{ |
|
"epoch": 8.55, |
|
"learning_rate": 2.6123333333333334e-06, |
|
"loss": 2.9513, |
|
"step": 92200 |
|
}, |
|
{ |
|
"epoch": 8.56, |
|
"learning_rate": 2.5789999999999998e-06, |
|
"loss": 2.9597, |
|
"step": 92300 |
|
}, |
|
{ |
|
"epoch": 8.57, |
|
"learning_rate": 2.5456666666666666e-06, |
|
"loss": 2.9422, |
|
"step": 92400 |
|
}, |
|
{ |
|
"epoch": 8.57, |
|
"learning_rate": 2.5123333333333335e-06, |
|
"loss": 2.9722, |
|
"step": 92500 |
|
}, |
|
{ |
|
"epoch": 8.57, |
|
"eval_loss": 3.3442583084106445, |
|
"eval_runtime": 58.8036, |
|
"eval_samples_per_second": 42.889, |
|
"eval_steps_per_second": 2.687, |
|
"step": 92500 |
|
}, |
|
{ |
|
"epoch": 8.58, |
|
"learning_rate": 2.4790000000000003e-06, |
|
"loss": 2.9644, |
|
"step": 92600 |
|
}, |
|
{ |
|
"epoch": 8.59, |
|
"learning_rate": 2.4456666666666667e-06, |
|
"loss": 2.9772, |
|
"step": 92700 |
|
}, |
|
{ |
|
"epoch": 8.6, |
|
"learning_rate": 2.4123333333333336e-06, |
|
"loss": 2.9719, |
|
"step": 92800 |
|
}, |
|
{ |
|
"epoch": 8.61, |
|
"learning_rate": 2.379e-06, |
|
"loss": 2.9755, |
|
"step": 92900 |
|
}, |
|
{ |
|
"epoch": 8.62, |
|
"learning_rate": 2.345666666666667e-06, |
|
"loss": 2.9639, |
|
"step": 93000 |
|
}, |
|
{ |
|
"epoch": 8.62, |
|
"eval_loss": 3.341038703918457, |
|
"eval_runtime": 59.0328, |
|
"eval_samples_per_second": 42.722, |
|
"eval_steps_per_second": 2.676, |
|
"step": 93000 |
|
}, |
|
{ |
|
"epoch": 8.63, |
|
"learning_rate": 2.3123333333333333e-06, |
|
"loss": 2.9544, |
|
"step": 93100 |
|
}, |
|
{ |
|
"epoch": 8.64, |
|
"learning_rate": 2.279e-06, |
|
"loss": 2.9492, |
|
"step": 93200 |
|
}, |
|
{ |
|
"epoch": 8.65, |
|
"learning_rate": 2.2456666666666665e-06, |
|
"loss": 2.946, |
|
"step": 93300 |
|
}, |
|
{ |
|
"epoch": 8.66, |
|
"learning_rate": 2.2123333333333334e-06, |
|
"loss": 2.9871, |
|
"step": 93400 |
|
}, |
|
{ |
|
"epoch": 8.67, |
|
"learning_rate": 2.179e-06, |
|
"loss": 2.972, |
|
"step": 93500 |
|
}, |
|
{ |
|
"epoch": 8.67, |
|
"eval_loss": 3.34065580368042, |
|
"eval_runtime": 58.9384, |
|
"eval_samples_per_second": 42.79, |
|
"eval_steps_per_second": 2.681, |
|
"step": 93500 |
|
}, |
|
{ |
|
"epoch": 8.68, |
|
"learning_rate": 2.1456666666666666e-06, |
|
"loss": 2.9653, |
|
"step": 93600 |
|
}, |
|
{ |
|
"epoch": 8.69, |
|
"learning_rate": 2.112333333333333e-06, |
|
"loss": 2.958, |
|
"step": 93700 |
|
}, |
|
{ |
|
"epoch": 8.69, |
|
"learning_rate": 2.079e-06, |
|
"loss": 2.9378, |
|
"step": 93800 |
|
}, |
|
{ |
|
"epoch": 8.7, |
|
"learning_rate": 2.0456666666666663e-06, |
|
"loss": 2.9351, |
|
"step": 93900 |
|
}, |
|
{ |
|
"epoch": 8.71, |
|
"learning_rate": 2.012333333333333e-06, |
|
"loss": 2.9586, |
|
"step": 94000 |
|
}, |
|
{ |
|
"epoch": 8.71, |
|
"eval_loss": 3.339259386062622, |
|
"eval_runtime": 58.7723, |
|
"eval_samples_per_second": 42.911, |
|
"eval_steps_per_second": 2.688, |
|
"step": 94000 |
|
}, |
|
{ |
|
"epoch": 8.72, |
|
"learning_rate": 1.9790000000000004e-06, |
|
"loss": 2.9755, |
|
"step": 94100 |
|
}, |
|
{ |
|
"epoch": 8.73, |
|
"learning_rate": 1.945666666666667e-06, |
|
"loss": 2.9855, |
|
"step": 94200 |
|
}, |
|
{ |
|
"epoch": 8.74, |
|
"learning_rate": 1.9123333333333337e-06, |
|
"loss": 2.9475, |
|
"step": 94300 |
|
}, |
|
{ |
|
"epoch": 8.75, |
|
"learning_rate": 1.879e-06, |
|
"loss": 2.9594, |
|
"step": 94400 |
|
}, |
|
{ |
|
"epoch": 8.76, |
|
"learning_rate": 1.8456666666666668e-06, |
|
"loss": 2.9591, |
|
"step": 94500 |
|
}, |
|
{ |
|
"epoch": 8.76, |
|
"eval_loss": 3.34123158454895, |
|
"eval_runtime": 58.6197, |
|
"eval_samples_per_second": 43.023, |
|
"eval_steps_per_second": 2.695, |
|
"step": 94500 |
|
}, |
|
{ |
|
"epoch": 8.77, |
|
"learning_rate": 1.8123333333333334e-06, |
|
"loss": 2.9736, |
|
"step": 94600 |
|
}, |
|
{ |
|
"epoch": 8.78, |
|
"learning_rate": 1.779e-06, |
|
"loss": 2.9952, |
|
"step": 94700 |
|
}, |
|
{ |
|
"epoch": 8.79, |
|
"learning_rate": 1.7456666666666667e-06, |
|
"loss": 2.9835, |
|
"step": 94800 |
|
}, |
|
{ |
|
"epoch": 8.8, |
|
"learning_rate": 1.7123333333333333e-06, |
|
"loss": 2.9721, |
|
"step": 94900 |
|
}, |
|
{ |
|
"epoch": 8.81, |
|
"learning_rate": 1.679e-06, |
|
"loss": 2.9523, |
|
"step": 95000 |
|
}, |
|
{ |
|
"epoch": 8.81, |
|
"eval_loss": 3.3411006927490234, |
|
"eval_runtime": 58.8077, |
|
"eval_samples_per_second": 42.886, |
|
"eval_steps_per_second": 2.687, |
|
"step": 95000 |
|
}, |
|
{ |
|
"epoch": 8.82, |
|
"learning_rate": 1.6456666666666666e-06, |
|
"loss": 2.9514, |
|
"step": 95100 |
|
}, |
|
{ |
|
"epoch": 8.82, |
|
"learning_rate": 1.6123333333333332e-06, |
|
"loss": 2.9633, |
|
"step": 95200 |
|
}, |
|
{ |
|
"epoch": 8.83, |
|
"learning_rate": 1.579e-06, |
|
"loss": 2.9649, |
|
"step": 95300 |
|
}, |
|
{ |
|
"epoch": 8.84, |
|
"learning_rate": 1.5456666666666667e-06, |
|
"loss": 2.9715, |
|
"step": 95400 |
|
}, |
|
{ |
|
"epoch": 8.85, |
|
"learning_rate": 1.5123333333333333e-06, |
|
"loss": 2.9572, |
|
"step": 95500 |
|
}, |
|
{ |
|
"epoch": 8.85, |
|
"eval_loss": 3.3393239974975586, |
|
"eval_runtime": 58.7937, |
|
"eval_samples_per_second": 42.896, |
|
"eval_steps_per_second": 2.687, |
|
"step": 95500 |
|
}, |
|
{ |
|
"epoch": 8.86, |
|
"learning_rate": 1.479e-06, |
|
"loss": 2.966, |
|
"step": 95600 |
|
}, |
|
{ |
|
"epoch": 8.87, |
|
"learning_rate": 1.4456666666666668e-06, |
|
"loss": 2.9756, |
|
"step": 95700 |
|
}, |
|
{ |
|
"epoch": 8.88, |
|
"learning_rate": 1.4123333333333334e-06, |
|
"loss": 2.9595, |
|
"step": 95800 |
|
}, |
|
{ |
|
"epoch": 8.89, |
|
"learning_rate": 1.379e-06, |
|
"loss": 2.964, |
|
"step": 95900 |
|
}, |
|
{ |
|
"epoch": 8.9, |
|
"learning_rate": 1.3456666666666667e-06, |
|
"loss": 2.9435, |
|
"step": 96000 |
|
}, |
|
{ |
|
"epoch": 8.9, |
|
"eval_loss": 3.3414018154144287, |
|
"eval_runtime": 58.8155, |
|
"eval_samples_per_second": 42.88, |
|
"eval_steps_per_second": 2.686, |
|
"step": 96000 |
|
}, |
|
{ |
|
"epoch": 8.91, |
|
"learning_rate": 1.3123333333333335e-06, |
|
"loss": 2.9617, |
|
"step": 96100 |
|
}, |
|
{ |
|
"epoch": 8.92, |
|
"learning_rate": 1.2790000000000002e-06, |
|
"loss": 2.9852, |
|
"step": 96200 |
|
}, |
|
{ |
|
"epoch": 8.93, |
|
"learning_rate": 1.2456666666666668e-06, |
|
"loss": 2.9547, |
|
"step": 96300 |
|
}, |
|
{ |
|
"epoch": 8.94, |
|
"learning_rate": 1.2123333333333334e-06, |
|
"loss": 2.9694, |
|
"step": 96400 |
|
}, |
|
{ |
|
"epoch": 8.95, |
|
"learning_rate": 1.179e-06, |
|
"loss": 2.9667, |
|
"step": 96500 |
|
}, |
|
{ |
|
"epoch": 8.95, |
|
"eval_loss": 3.339236259460449, |
|
"eval_runtime": 58.8107, |
|
"eval_samples_per_second": 42.883, |
|
"eval_steps_per_second": 2.687, |
|
"step": 96500 |
|
}, |
|
{ |
|
"epoch": 8.95, |
|
"learning_rate": 1.146e-06, |
|
"loss": 2.9546, |
|
"step": 96600 |
|
}, |
|
{ |
|
"epoch": 8.96, |
|
"learning_rate": 1.1126666666666665e-06, |
|
"loss": 2.9477, |
|
"step": 96700 |
|
}, |
|
{ |
|
"epoch": 8.97, |
|
"learning_rate": 1.0793333333333332e-06, |
|
"loss": 2.9888, |
|
"step": 96800 |
|
}, |
|
{ |
|
"epoch": 8.98, |
|
"learning_rate": 1.046e-06, |
|
"loss": 2.96, |
|
"step": 96900 |
|
}, |
|
{ |
|
"epoch": 8.99, |
|
"learning_rate": 1.0126666666666667e-06, |
|
"loss": 2.9824, |
|
"step": 97000 |
|
}, |
|
{ |
|
"epoch": 8.99, |
|
"eval_loss": 3.342782735824585, |
|
"eval_runtime": 58.7905, |
|
"eval_samples_per_second": 42.898, |
|
"eval_steps_per_second": 2.688, |
|
"step": 97000 |
|
}, |
|
{ |
|
"epoch": 9.0, |
|
"learning_rate": 9.793333333333333e-07, |
|
"loss": 2.9915, |
|
"step": 97100 |
|
}, |
|
{ |
|
"epoch": 9.01, |
|
"learning_rate": 9.459999999999999e-07, |
|
"loss": 2.9193, |
|
"step": 97200 |
|
}, |
|
{ |
|
"epoch": 9.02, |
|
"learning_rate": 9.126666666666667e-07, |
|
"loss": 2.9359, |
|
"step": 97300 |
|
}, |
|
{ |
|
"epoch": 9.03, |
|
"learning_rate": 8.793333333333333e-07, |
|
"loss": 2.9419, |
|
"step": 97400 |
|
}, |
|
{ |
|
"epoch": 9.04, |
|
"learning_rate": 8.46e-07, |
|
"loss": 2.9265, |
|
"step": 97500 |
|
}, |
|
{ |
|
"epoch": 9.04, |
|
"eval_loss": 3.3416593074798584, |
|
"eval_runtime": 58.7962, |
|
"eval_samples_per_second": 42.894, |
|
"eval_steps_per_second": 2.687, |
|
"step": 97500 |
|
}, |
|
{ |
|
"epoch": 9.05, |
|
"learning_rate": 8.126666666666667e-07, |
|
"loss": 2.9493, |
|
"step": 97600 |
|
}, |
|
{ |
|
"epoch": 9.06, |
|
"learning_rate": 7.793333333333333e-07, |
|
"loss": 2.9682, |
|
"step": 97700 |
|
}, |
|
{ |
|
"epoch": 9.07, |
|
"learning_rate": 7.459999999999999e-07, |
|
"loss": 2.9596, |
|
"step": 97800 |
|
}, |
|
{ |
|
"epoch": 9.07, |
|
"learning_rate": 7.126666666666667e-07, |
|
"loss": 2.9746, |
|
"step": 97900 |
|
}, |
|
{ |
|
"epoch": 9.08, |
|
"learning_rate": 6.793333333333333e-07, |
|
"loss": 2.9409, |
|
"step": 98000 |
|
}, |
|
{ |
|
"epoch": 9.08, |
|
"eval_loss": 3.3435006141662598, |
|
"eval_runtime": 58.7852, |
|
"eval_samples_per_second": 42.902, |
|
"eval_steps_per_second": 2.688, |
|
"step": 98000 |
|
}, |
|
{ |
|
"epoch": 9.09, |
|
"learning_rate": 6.46e-07, |
|
"loss": 2.9584, |
|
"step": 98100 |
|
}, |
|
{ |
|
"epoch": 9.1, |
|
"learning_rate": 6.126666666666667e-07, |
|
"loss": 2.9472, |
|
"step": 98200 |
|
}, |
|
{ |
|
"epoch": 9.11, |
|
"learning_rate": 5.793333333333334e-07, |
|
"loss": 2.9572, |
|
"step": 98300 |
|
}, |
|
{ |
|
"epoch": 9.12, |
|
"learning_rate": 5.46e-07, |
|
"loss": 2.9546, |
|
"step": 98400 |
|
}, |
|
{ |
|
"epoch": 9.13, |
|
"learning_rate": 5.126666666666667e-07, |
|
"loss": 2.9387, |
|
"step": 98500 |
|
}, |
|
{ |
|
"epoch": 9.13, |
|
"eval_loss": 3.3424575328826904, |
|
"eval_runtime": 58.7964, |
|
"eval_samples_per_second": 42.894, |
|
"eval_steps_per_second": 2.687, |
|
"step": 98500 |
|
}, |
|
{ |
|
"epoch": 9.14, |
|
"learning_rate": 4.793333333333333e-07, |
|
"loss": 2.9402, |
|
"step": 98600 |
|
}, |
|
{ |
|
"epoch": 9.15, |
|
"learning_rate": 4.46e-07, |
|
"loss": 2.9457, |
|
"step": 98700 |
|
}, |
|
{ |
|
"epoch": 9.16, |
|
"learning_rate": 4.126666666666667e-07, |
|
"loss": 2.9497, |
|
"step": 98800 |
|
}, |
|
{ |
|
"epoch": 9.17, |
|
"learning_rate": 3.793333333333333e-07, |
|
"loss": 2.9182, |
|
"step": 98900 |
|
}, |
|
{ |
|
"epoch": 9.18, |
|
"learning_rate": 3.46e-07, |
|
"loss": 2.9635, |
|
"step": 99000 |
|
}, |
|
{ |
|
"epoch": 9.18, |
|
"eval_loss": 3.3419737815856934, |
|
"eval_runtime": 58.8159, |
|
"eval_samples_per_second": 42.88, |
|
"eval_steps_per_second": 2.686, |
|
"step": 99000 |
|
}, |
|
{ |
|
"epoch": 9.19, |
|
"learning_rate": 3.1266666666666663e-07, |
|
"loss": 2.9419, |
|
"step": 99100 |
|
}, |
|
{ |
|
"epoch": 9.2, |
|
"learning_rate": 2.793333333333333e-07, |
|
"loss": 2.9275, |
|
"step": 99200 |
|
}, |
|
{ |
|
"epoch": 9.2, |
|
"learning_rate": 2.46e-07, |
|
"loss": 2.9403, |
|
"step": 99300 |
|
}, |
|
{ |
|
"epoch": 9.21, |
|
"learning_rate": 2.1300000000000001e-07, |
|
"loss": 2.9553, |
|
"step": 99400 |
|
}, |
|
{ |
|
"epoch": 9.22, |
|
"learning_rate": 1.7966666666666667e-07, |
|
"loss": 2.9527, |
|
"step": 99500 |
|
}, |
|
{ |
|
"epoch": 9.22, |
|
"eval_loss": 3.3421177864074707, |
|
"eval_runtime": 58.7204, |
|
"eval_samples_per_second": 42.949, |
|
"eval_steps_per_second": 2.691, |
|
"step": 99500 |
|
}, |
|
{ |
|
"epoch": 9.23, |
|
"learning_rate": 1.4633333333333333e-07, |
|
"loss": 2.9615, |
|
"step": 99600 |
|
}, |
|
{ |
|
"epoch": 9.24, |
|
"learning_rate": 1.13e-07, |
|
"loss": 2.948, |
|
"step": 99700 |
|
}, |
|
{ |
|
"epoch": 9.25, |
|
"learning_rate": 7.966666666666667e-08, |
|
"loss": 2.9377, |
|
"step": 99800 |
|
}, |
|
{ |
|
"epoch": 9.26, |
|
"learning_rate": 4.666666666666667e-08, |
|
"loss": 2.9516, |
|
"step": 99900 |
|
}, |
|
{ |
|
"epoch": 9.27, |
|
"learning_rate": 1.3333333333333334e-08, |
|
"loss": 2.9755, |
|
"step": 100000 |
|
}, |
|
{ |
|
"epoch": 9.27, |
|
"eval_loss": 3.343003511428833, |
|
"eval_runtime": 58.9494, |
|
"eval_samples_per_second": 42.782, |
|
"eval_steps_per_second": 2.68, |
|
"step": 100000 |
|
}, |
|
{ |
|
"epoch": 9.27, |
|
"step": 100000, |
|
"total_flos": 8.121856795040809e+18, |
|
"train_loss": 0.653541208190918, |
|
"train_runtime": 35450.0434, |
|
"train_samples_per_second": 45.134, |
|
"train_steps_per_second": 2.821 |
|
} |
|
], |
|
"max_steps": 100000, |
|
"num_train_epochs": 10, |
|
"total_flos": 8.121856795040809e+18, |
|
"trial_name": null, |
|
"trial_params": null |
|
} |
|
|