whisper-medium-eu / trainer_state.json
xezpeleta's picture
End of training
868f2a0
raw
history blame
42.4 kB
{
"best_metric": 12.839726193851513,
"best_model_checkpoint": "./checkpoint-7500",
"epoch": 2.176,
"global_step": 8000,
"is_hyper_param_search": false,
"is_local_process_zero": true,
"is_world_process_zero": true,
"log_history": [
{
"epoch": 0.0,
"learning_rate": 4.6000000000000004e-07,
"loss": 1.4182,
"step": 25
},
{
"epoch": 0.01,
"learning_rate": 9.400000000000001e-07,
"loss": 1.292,
"step": 50
},
{
"epoch": 0.01,
"learning_rate": 1.44e-06,
"loss": 1.0018,
"step": 75
},
{
"epoch": 0.01,
"learning_rate": 1.94e-06,
"loss": 0.7765,
"step": 100
},
{
"epoch": 0.02,
"learning_rate": 2.4400000000000004e-06,
"loss": 0.7103,
"step": 125
},
{
"epoch": 0.02,
"learning_rate": 2.9400000000000002e-06,
"loss": 0.6597,
"step": 150
},
{
"epoch": 0.02,
"learning_rate": 3.44e-06,
"loss": 0.6657,
"step": 175
},
{
"epoch": 0.03,
"learning_rate": 3.94e-06,
"loss": 0.5853,
"step": 200
},
{
"epoch": 0.03,
"learning_rate": 4.440000000000001e-06,
"loss": 0.5273,
"step": 225
},
{
"epoch": 0.03,
"learning_rate": 4.94e-06,
"loss": 0.5979,
"step": 250
},
{
"epoch": 0.03,
"learning_rate": 5.4400000000000004e-06,
"loss": 0.5861,
"step": 275
},
{
"epoch": 0.04,
"learning_rate": 5.94e-06,
"loss": 0.5085,
"step": 300
},
{
"epoch": 0.04,
"learning_rate": 6.440000000000001e-06,
"loss": 0.4827,
"step": 325
},
{
"epoch": 0.04,
"learning_rate": 6.9400000000000005e-06,
"loss": 0.4909,
"step": 350
},
{
"epoch": 0.05,
"learning_rate": 7.440000000000001e-06,
"loss": 0.4651,
"step": 375
},
{
"epoch": 0.05,
"learning_rate": 7.94e-06,
"loss": 0.494,
"step": 400
},
{
"epoch": 0.05,
"learning_rate": 8.44e-06,
"loss": 0.4188,
"step": 425
},
{
"epoch": 0.06,
"learning_rate": 8.94e-06,
"loss": 0.3849,
"step": 450
},
{
"epoch": 0.06,
"learning_rate": 9.440000000000001e-06,
"loss": 0.4577,
"step": 475
},
{
"epoch": 0.06,
"learning_rate": 9.940000000000001e-06,
"loss": 0.4415,
"step": 500
},
{
"epoch": 0.06,
"eval_loss": 0.5091741681098938,
"eval_runtime": 1795.8417,
"eval_samples_per_second": 3.67,
"eval_steps_per_second": 0.459,
"eval_wer": 36.96990562598728,
"step": 500
},
{
"epoch": 0.07,
"learning_rate": 9.970666666666668e-06,
"loss": 0.4614,
"step": 525
},
{
"epoch": 0.07,
"learning_rate": 9.937333333333334e-06,
"loss": 0.4284,
"step": 550
},
{
"epoch": 0.07,
"learning_rate": 9.904e-06,
"loss": 0.4486,
"step": 575
},
{
"epoch": 0.07,
"learning_rate": 9.870666666666667e-06,
"loss": 0.4431,
"step": 600
},
{
"epoch": 0.08,
"learning_rate": 9.837333333333335e-06,
"loss": 0.4245,
"step": 625
},
{
"epoch": 0.08,
"learning_rate": 9.804000000000001e-06,
"loss": 0.4264,
"step": 650
},
{
"epoch": 0.08,
"learning_rate": 9.770666666666668e-06,
"loss": 0.4147,
"step": 675
},
{
"epoch": 0.09,
"learning_rate": 9.737333333333334e-06,
"loss": 0.4116,
"step": 700
},
{
"epoch": 0.09,
"learning_rate": 9.704e-06,
"loss": 0.3665,
"step": 725
},
{
"epoch": 0.09,
"learning_rate": 9.670666666666667e-06,
"loss": 0.4009,
"step": 750
},
{
"epoch": 0.1,
"learning_rate": 9.637333333333333e-06,
"loss": 0.3902,
"step": 775
},
{
"epoch": 0.1,
"learning_rate": 9.604000000000002e-06,
"loss": 0.3657,
"step": 800
},
{
"epoch": 0.1,
"learning_rate": 9.570666666666666e-06,
"loss": 0.3781,
"step": 825
},
{
"epoch": 0.11,
"learning_rate": 9.537333333333334e-06,
"loss": 0.4346,
"step": 850
},
{
"epoch": 0.11,
"learning_rate": 9.504e-06,
"loss": 0.4036,
"step": 875
},
{
"epoch": 0.11,
"learning_rate": 9.470666666666667e-06,
"loss": 0.3776,
"step": 900
},
{
"epoch": 0.12,
"learning_rate": 9.437333333333334e-06,
"loss": 0.4082,
"step": 925
},
{
"epoch": 0.12,
"learning_rate": 9.404e-06,
"loss": 0.3838,
"step": 950
},
{
"epoch": 0.12,
"learning_rate": 9.370666666666668e-06,
"loss": 0.4215,
"step": 975
},
{
"epoch": 0.12,
"learning_rate": 9.337333333333335e-06,
"loss": 0.4206,
"step": 1000
},
{
"epoch": 0.12,
"eval_loss": 0.41442760825157166,
"eval_runtime": 1800.1281,
"eval_samples_per_second": 3.661,
"eval_steps_per_second": 0.458,
"eval_wer": 28.33650613633602,
"step": 1000
},
{
"epoch": 0.13,
"learning_rate": 9.304000000000001e-06,
"loss": 0.4108,
"step": 1025
},
{
"epoch": 0.13,
"learning_rate": 9.270666666666667e-06,
"loss": 0.3692,
"step": 1050
},
{
"epoch": 0.13,
"learning_rate": 9.237333333333334e-06,
"loss": 0.3605,
"step": 1075
},
{
"epoch": 0.14,
"learning_rate": 9.204e-06,
"loss": 0.3929,
"step": 1100
},
{
"epoch": 0.14,
"learning_rate": 9.170666666666668e-06,
"loss": 0.3869,
"step": 1125
},
{
"epoch": 0.14,
"learning_rate": 9.137333333333333e-06,
"loss": 0.3675,
"step": 1150
},
{
"epoch": 0.15,
"learning_rate": 9.104000000000001e-06,
"loss": 0.3237,
"step": 1175
},
{
"epoch": 0.15,
"learning_rate": 9.070666666666668e-06,
"loss": 0.3177,
"step": 1200
},
{
"epoch": 0.15,
"learning_rate": 9.037333333333334e-06,
"loss": 0.2814,
"step": 1225
},
{
"epoch": 0.16,
"learning_rate": 9.004e-06,
"loss": 0.3247,
"step": 1250
},
{
"epoch": 0.16,
"learning_rate": 8.970666666666667e-06,
"loss": 0.3484,
"step": 1275
},
{
"epoch": 0.16,
"learning_rate": 8.937333333333335e-06,
"loss": 0.3439,
"step": 1300
},
{
"epoch": 0.17,
"learning_rate": 8.904e-06,
"loss": 0.3278,
"step": 1325
},
{
"epoch": 0.17,
"learning_rate": 8.870666666666668e-06,
"loss": 0.2681,
"step": 1350
},
{
"epoch": 0.17,
"learning_rate": 8.837333333333334e-06,
"loss": 0.348,
"step": 1375
},
{
"epoch": 0.17,
"learning_rate": 8.804e-06,
"loss": 0.2799,
"step": 1400
},
{
"epoch": 0.18,
"learning_rate": 8.770666666666667e-06,
"loss": 0.2981,
"step": 1425
},
{
"epoch": 0.18,
"learning_rate": 8.737333333333334e-06,
"loss": 0.3931,
"step": 1450
},
{
"epoch": 0.18,
"learning_rate": 8.704e-06,
"loss": 0.3253,
"step": 1475
},
{
"epoch": 0.19,
"learning_rate": 8.670666666666666e-06,
"loss": 0.272,
"step": 1500
},
{
"epoch": 0.19,
"eval_loss": 0.355411559343338,
"eval_runtime": 1814.9108,
"eval_samples_per_second": 3.632,
"eval_steps_per_second": 0.454,
"eval_wer": 24.74381303414476,
"step": 1500
},
{
"epoch": 0.19,
"learning_rate": 8.637333333333335e-06,
"loss": 0.2907,
"step": 1525
},
{
"epoch": 0.19,
"learning_rate": 8.604000000000001e-06,
"loss": 0.2933,
"step": 1550
},
{
"epoch": 0.2,
"learning_rate": 8.570666666666667e-06,
"loss": 0.3691,
"step": 1575
},
{
"epoch": 0.2,
"learning_rate": 8.537333333333334e-06,
"loss": 0.3436,
"step": 1600
},
{
"epoch": 0.2,
"learning_rate": 8.504000000000002e-06,
"loss": 0.3675,
"step": 1625
},
{
"epoch": 0.21,
"learning_rate": 8.470666666666667e-06,
"loss": 0.3293,
"step": 1650
},
{
"epoch": 0.21,
"learning_rate": 8.437333333333335e-06,
"loss": 0.3261,
"step": 1675
},
{
"epoch": 0.21,
"learning_rate": 8.404000000000001e-06,
"loss": 0.2926,
"step": 1700
},
{
"epoch": 0.22,
"learning_rate": 8.370666666666668e-06,
"loss": 0.3077,
"step": 1725
},
{
"epoch": 0.22,
"learning_rate": 8.337333333333334e-06,
"loss": 0.3402,
"step": 1750
},
{
"epoch": 0.22,
"learning_rate": 8.304e-06,
"loss": 0.3268,
"step": 1775
},
{
"epoch": 0.23,
"learning_rate": 8.270666666666667e-06,
"loss": 0.3374,
"step": 1800
},
{
"epoch": 0.23,
"learning_rate": 8.237333333333333e-06,
"loss": 0.2706,
"step": 1825
},
{
"epoch": 0.23,
"learning_rate": 8.204000000000001e-06,
"loss": 0.3183,
"step": 1850
},
{
"epoch": 0.23,
"learning_rate": 8.170666666666668e-06,
"loss": 0.2651,
"step": 1875
},
{
"epoch": 0.24,
"learning_rate": 8.137333333333334e-06,
"loss": 0.2943,
"step": 1900
},
{
"epoch": 0.24,
"learning_rate": 8.104e-06,
"loss": 0.2566,
"step": 1925
},
{
"epoch": 0.24,
"learning_rate": 8.070666666666667e-06,
"loss": 0.2191,
"step": 1950
},
{
"epoch": 0.25,
"learning_rate": 8.037333333333334e-06,
"loss": 0.2475,
"step": 1975
},
{
"epoch": 0.25,
"learning_rate": 8.004e-06,
"loss": 0.2681,
"step": 2000
},
{
"epoch": 0.25,
"eval_loss": 0.32705560326576233,
"eval_runtime": 1813.7957,
"eval_samples_per_second": 3.634,
"eval_steps_per_second": 0.454,
"eval_wer": 22.141439507472963,
"step": 2000
},
{
"epoch": 0.25,
"learning_rate": 7.970666666666668e-06,
"loss": 0.2198,
"step": 2025
},
{
"epoch": 0.26,
"learning_rate": 7.937333333333333e-06,
"loss": 0.2488,
"step": 2050
},
{
"epoch": 0.26,
"learning_rate": 7.904000000000001e-06,
"loss": 0.255,
"step": 2075
},
{
"epoch": 0.26,
"learning_rate": 7.872e-06,
"loss": 0.3194,
"step": 2100
},
{
"epoch": 0.27,
"learning_rate": 7.838666666666668e-06,
"loss": 0.267,
"step": 2125
},
{
"epoch": 0.27,
"learning_rate": 7.805333333333333e-06,
"loss": 0.2606,
"step": 2150
},
{
"epoch": 0.27,
"learning_rate": 7.772000000000001e-06,
"loss": 0.298,
"step": 2175
},
{
"epoch": 0.28,
"learning_rate": 7.738666666666668e-06,
"loss": 0.2627,
"step": 2200
},
{
"epoch": 0.28,
"learning_rate": 7.705333333333334e-06,
"loss": 0.2669,
"step": 2225
},
{
"epoch": 0.28,
"learning_rate": 7.672e-06,
"loss": 0.2211,
"step": 2250
},
{
"epoch": 0.28,
"learning_rate": 7.638666666666667e-06,
"loss": 0.2841,
"step": 2275
},
{
"epoch": 0.29,
"learning_rate": 7.605333333333333e-06,
"loss": 0.2735,
"step": 2300
},
{
"epoch": 0.29,
"learning_rate": 7.5720000000000005e-06,
"loss": 0.2536,
"step": 2325
},
{
"epoch": 0.29,
"learning_rate": 7.538666666666668e-06,
"loss": 0.2091,
"step": 2350
},
{
"epoch": 0.3,
"learning_rate": 7.505333333333334e-06,
"loss": 0.2331,
"step": 2375
},
{
"epoch": 0.3,
"learning_rate": 7.472000000000001e-06,
"loss": 0.2565,
"step": 2400
},
{
"epoch": 0.3,
"learning_rate": 7.438666666666667e-06,
"loss": 0.2227,
"step": 2425
},
{
"epoch": 0.31,
"learning_rate": 7.405333333333334e-06,
"loss": 0.2651,
"step": 2450
},
{
"epoch": 0.31,
"learning_rate": 7.372e-06,
"loss": 0.2292,
"step": 2475
},
{
"epoch": 0.31,
"learning_rate": 7.338666666666667e-06,
"loss": 0.2099,
"step": 2500
},
{
"epoch": 0.31,
"eval_loss": 0.2973436415195465,
"eval_runtime": 1831.6606,
"eval_samples_per_second": 3.598,
"eval_steps_per_second": 0.45,
"eval_wer": 19.53501559398923,
"step": 2500
},
{
"epoch": 0.32,
"learning_rate": 7.3053333333333344e-06,
"loss": 0.2293,
"step": 2525
},
{
"epoch": 0.32,
"learning_rate": 7.272e-06,
"loss": 0.2747,
"step": 2550
},
{
"epoch": 0.32,
"learning_rate": 7.238666666666667e-06,
"loss": 0.2507,
"step": 2575
},
{
"epoch": 0.33,
"learning_rate": 7.2053333333333345e-06,
"loss": 0.2871,
"step": 2600
},
{
"epoch": 0.33,
"learning_rate": 7.172e-06,
"loss": 0.2031,
"step": 2625
},
{
"epoch": 0.33,
"learning_rate": 7.138666666666667e-06,
"loss": 0.2481,
"step": 2650
},
{
"epoch": 0.33,
"learning_rate": 7.105333333333334e-06,
"loss": 0.2173,
"step": 2675
},
{
"epoch": 0.34,
"learning_rate": 7.072000000000001e-06,
"loss": 0.2288,
"step": 2700
},
{
"epoch": 0.34,
"learning_rate": 7.038666666666667e-06,
"loss": 0.2227,
"step": 2725
},
{
"epoch": 0.34,
"learning_rate": 7.005333333333334e-06,
"loss": 0.2666,
"step": 2750
},
{
"epoch": 0.35,
"learning_rate": 6.972000000000001e-06,
"loss": 0.2017,
"step": 2775
},
{
"epoch": 0.35,
"learning_rate": 6.938666666666667e-06,
"loss": 0.2285,
"step": 2800
},
{
"epoch": 0.35,
"learning_rate": 6.905333333333334e-06,
"loss": 0.2226,
"step": 2825
},
{
"epoch": 0.36,
"learning_rate": 6.872000000000001e-06,
"loss": 0.2294,
"step": 2850
},
{
"epoch": 0.36,
"learning_rate": 6.838666666666667e-06,
"loss": 0.2147,
"step": 2875
},
{
"epoch": 0.36,
"learning_rate": 6.805333333333334e-06,
"loss": 0.2145,
"step": 2900
},
{
"epoch": 0.37,
"learning_rate": 6.7720000000000006e-06,
"loss": 0.2163,
"step": 2925
},
{
"epoch": 0.37,
"learning_rate": 6.738666666666667e-06,
"loss": 0.2418,
"step": 2950
},
{
"epoch": 0.37,
"learning_rate": 6.705333333333333e-06,
"loss": 0.2254,
"step": 2975
},
{
"epoch": 0.38,
"learning_rate": 6.672000000000001e-06,
"loss": 0.2283,
"step": 3000
},
{
"epoch": 0.38,
"eval_loss": 0.2760361433029175,
"eval_runtime": 1825.768,
"eval_samples_per_second": 3.61,
"eval_steps_per_second": 0.451,
"eval_wer": 18.50419215035036,
"step": 3000
},
{
"epoch": 0.38,
"learning_rate": 6.638666666666668e-06,
"loss": 0.2079,
"step": 3025
},
{
"epoch": 0.38,
"learning_rate": 6.6053333333333335e-06,
"loss": 0.2072,
"step": 3050
},
{
"epoch": 0.38,
"learning_rate": 6.572000000000001e-06,
"loss": 0.1982,
"step": 3075
},
{
"epoch": 0.39,
"learning_rate": 6.538666666666667e-06,
"loss": 0.203,
"step": 3100
},
{
"epoch": 0.39,
"learning_rate": 6.505333333333334e-06,
"loss": 0.2086,
"step": 3125
},
{
"epoch": 0.39,
"learning_rate": 6.472000000000001e-06,
"loss": 0.2027,
"step": 3150
},
{
"epoch": 0.4,
"learning_rate": 6.438666666666667e-06,
"loss": 0.2472,
"step": 3175
},
{
"epoch": 0.4,
"learning_rate": 6.405333333333334e-06,
"loss": 0.2051,
"step": 3200
},
{
"epoch": 0.4,
"learning_rate": 6.372e-06,
"loss": 0.2442,
"step": 3225
},
{
"epoch": 0.41,
"learning_rate": 6.338666666666667e-06,
"loss": 0.2736,
"step": 3250
},
{
"epoch": 0.41,
"learning_rate": 6.305333333333333e-06,
"loss": 0.2056,
"step": 3275
},
{
"epoch": 1.0,
"learning_rate": 6.272e-06,
"loss": 0.2335,
"step": 3300
},
{
"epoch": 1.0,
"learning_rate": 6.2386666666666675e-06,
"loss": 0.2336,
"step": 3325
},
{
"epoch": 1.01,
"learning_rate": 6.205333333333334e-06,
"loss": 0.2246,
"step": 3350
},
{
"epoch": 1.01,
"learning_rate": 6.172e-06,
"loss": 0.2139,
"step": 3375
},
{
"epoch": 1.01,
"learning_rate": 6.138666666666668e-06,
"loss": 0.1926,
"step": 3400
},
{
"epoch": 1.02,
"learning_rate": 6.105333333333334e-06,
"loss": 0.1883,
"step": 3425
},
{
"epoch": 1.02,
"learning_rate": 6.0720000000000005e-06,
"loss": 0.1779,
"step": 3450
},
{
"epoch": 1.02,
"learning_rate": 6.038666666666667e-06,
"loss": 0.1774,
"step": 3475
},
{
"epoch": 1.03,
"learning_rate": 6.005333333333334e-06,
"loss": 0.1477,
"step": 3500
},
{
"epoch": 1.03,
"eval_loss": 0.263724148273468,
"eval_runtime": 1810.3464,
"eval_samples_per_second": 3.641,
"eval_steps_per_second": 0.455,
"eval_wer": 17.149337761756247,
"step": 3500
},
{
"epoch": 1.03,
"learning_rate": 5.972e-06,
"loss": 0.1764,
"step": 3525
},
{
"epoch": 1.03,
"learning_rate": 5.938666666666667e-06,
"loss": 0.1823,
"step": 3550
},
{
"epoch": 1.03,
"learning_rate": 5.905333333333334e-06,
"loss": 0.1493,
"step": 3575
},
{
"epoch": 1.04,
"learning_rate": 5.872000000000001e-06,
"loss": 0.1619,
"step": 3600
},
{
"epoch": 1.04,
"learning_rate": 5.838666666666667e-06,
"loss": 0.1614,
"step": 3625
},
{
"epoch": 1.04,
"learning_rate": 5.8053333333333335e-06,
"loss": 0.1225,
"step": 3650
},
{
"epoch": 1.05,
"learning_rate": 5.772000000000001e-06,
"loss": 0.1155,
"step": 3675
},
{
"epoch": 1.05,
"learning_rate": 5.738666666666667e-06,
"loss": 0.1134,
"step": 3700
},
{
"epoch": 1.05,
"learning_rate": 5.705333333333334e-06,
"loss": 0.1134,
"step": 3725
},
{
"epoch": 1.06,
"learning_rate": 5.672000000000001e-06,
"loss": 0.1068,
"step": 3750
},
{
"epoch": 1.06,
"learning_rate": 5.6386666666666665e-06,
"loss": 0.1295,
"step": 3775
},
{
"epoch": 1.06,
"learning_rate": 5.605333333333334e-06,
"loss": 0.0968,
"step": 3800
},
{
"epoch": 1.07,
"learning_rate": 5.572000000000001e-06,
"loss": 0.1202,
"step": 3825
},
{
"epoch": 1.07,
"learning_rate": 5.538666666666667e-06,
"loss": 0.1058,
"step": 3850
},
{
"epoch": 1.07,
"learning_rate": 5.505333333333334e-06,
"loss": 0.0992,
"step": 3875
},
{
"epoch": 1.08,
"learning_rate": 5.472e-06,
"loss": 0.1327,
"step": 3900
},
{
"epoch": 1.08,
"learning_rate": 5.4386666666666676e-06,
"loss": 0.1263,
"step": 3925
},
{
"epoch": 1.08,
"learning_rate": 5.405333333333333e-06,
"loss": 0.1284,
"step": 3950
},
{
"epoch": 1.08,
"learning_rate": 5.372e-06,
"loss": 0.1268,
"step": 3975
},
{
"epoch": 1.09,
"learning_rate": 5.338666666666668e-06,
"loss": 0.1008,
"step": 4000
},
{
"epoch": 1.09,
"eval_loss": 0.2592164874076843,
"eval_runtime": 1806.1641,
"eval_samples_per_second": 3.649,
"eval_steps_per_second": 0.456,
"eval_wer": 16.393940621329335,
"step": 4000
},
{
"epoch": 1.09,
"learning_rate": 5.305333333333333e-06,
"loss": 0.1054,
"step": 4025
},
{
"epoch": 1.09,
"learning_rate": 5.2720000000000005e-06,
"loss": 0.0985,
"step": 4050
},
{
"epoch": 1.1,
"learning_rate": 5.238666666666668e-06,
"loss": 0.1112,
"step": 4075
},
{
"epoch": 1.1,
"learning_rate": 5.205333333333333e-06,
"loss": 0.117,
"step": 4100
},
{
"epoch": 1.1,
"learning_rate": 5.172000000000001e-06,
"loss": 0.1106,
"step": 4125
},
{
"epoch": 1.11,
"learning_rate": 5.140000000000001e-06,
"loss": 0.0938,
"step": 4150
},
{
"epoch": 1.11,
"learning_rate": 5.106666666666667e-06,
"loss": 0.1119,
"step": 4175
},
{
"epoch": 1.11,
"learning_rate": 5.073333333333334e-06,
"loss": 0.1204,
"step": 4200
},
{
"epoch": 1.12,
"learning_rate": 5.04e-06,
"loss": 0.1002,
"step": 4225
},
{
"epoch": 1.12,
"learning_rate": 5.006666666666667e-06,
"loss": 0.1252,
"step": 4250
},
{
"epoch": 1.12,
"learning_rate": 4.973333333333334e-06,
"loss": 0.1189,
"step": 4275
},
{
"epoch": 1.13,
"learning_rate": 4.94e-06,
"loss": 0.1079,
"step": 4300
},
{
"epoch": 1.13,
"learning_rate": 4.9066666666666666e-06,
"loss": 0.1053,
"step": 4325
},
{
"epoch": 1.13,
"learning_rate": 4.873333333333334e-06,
"loss": 0.1105,
"step": 4350
},
{
"epoch": 1.13,
"learning_rate": 4.84e-06,
"loss": 0.0836,
"step": 4375
},
{
"epoch": 1.14,
"learning_rate": 4.8066666666666675e-06,
"loss": 0.0927,
"step": 4400
},
{
"epoch": 1.14,
"learning_rate": 4.773333333333334e-06,
"loss": 0.0861,
"step": 4425
},
{
"epoch": 1.14,
"learning_rate": 4.74e-06,
"loss": 0.0705,
"step": 4450
},
{
"epoch": 1.15,
"learning_rate": 4.706666666666667e-06,
"loss": 0.0845,
"step": 4475
},
{
"epoch": 1.15,
"learning_rate": 4.673333333333333e-06,
"loss": 0.0866,
"step": 4500
},
{
"epoch": 1.15,
"eval_loss": 0.2561035752296448,
"eval_runtime": 1801.0109,
"eval_samples_per_second": 3.66,
"eval_steps_per_second": 0.458,
"eval_wer": 15.806634533597958,
"step": 4500
},
{
"epoch": 1.15,
"learning_rate": 4.6400000000000005e-06,
"loss": 0.0792,
"step": 4525
},
{
"epoch": 1.16,
"learning_rate": 4.606666666666667e-06,
"loss": 0.0782,
"step": 4550
},
{
"epoch": 1.16,
"learning_rate": 4.573333333333333e-06,
"loss": 0.1199,
"step": 4575
},
{
"epoch": 1.16,
"learning_rate": 4.540000000000001e-06,
"loss": 0.0928,
"step": 4600
},
{
"epoch": 1.17,
"learning_rate": 4.506666666666667e-06,
"loss": 0.0901,
"step": 4625
},
{
"epoch": 1.17,
"learning_rate": 4.473333333333334e-06,
"loss": 0.0739,
"step": 4650
},
{
"epoch": 1.17,
"learning_rate": 4.440000000000001e-06,
"loss": 0.0807,
"step": 4675
},
{
"epoch": 1.18,
"learning_rate": 4.406666666666667e-06,
"loss": 0.1097,
"step": 4700
},
{
"epoch": 1.18,
"learning_rate": 4.3733333333333335e-06,
"loss": 0.0824,
"step": 4725
},
{
"epoch": 1.18,
"learning_rate": 4.34e-06,
"loss": 0.0923,
"step": 4750
},
{
"epoch": 1.18,
"learning_rate": 4.306666666666666e-06,
"loss": 0.0891,
"step": 4775
},
{
"epoch": 1.19,
"learning_rate": 4.273333333333334e-06,
"loss": 0.0765,
"step": 4800
},
{
"epoch": 1.19,
"learning_rate": 4.24e-06,
"loss": 0.0725,
"step": 4825
},
{
"epoch": 1.19,
"learning_rate": 4.206666666666667e-06,
"loss": 0.0743,
"step": 4850
},
{
"epoch": 1.2,
"learning_rate": 4.173333333333334e-06,
"loss": 0.0888,
"step": 4875
},
{
"epoch": 1.2,
"learning_rate": 4.14e-06,
"loss": 0.088,
"step": 4900
},
{
"epoch": 1.2,
"learning_rate": 4.1066666666666674e-06,
"loss": 0.0856,
"step": 4925
},
{
"epoch": 1.21,
"learning_rate": 4.073333333333334e-06,
"loss": 0.0862,
"step": 4950
},
{
"epoch": 1.21,
"learning_rate": 4.04e-06,
"loss": 0.0986,
"step": 4975
},
{
"epoch": 1.21,
"learning_rate": 4.006666666666667e-06,
"loss": 0.0915,
"step": 5000
},
{
"epoch": 1.21,
"eval_loss": 0.24113886058330536,
"eval_runtime": 1828.0642,
"eval_samples_per_second": 3.605,
"eval_steps_per_second": 0.451,
"eval_wer": 15.030985459111346,
"step": 5000
},
{
"epoch": 1.22,
"learning_rate": 3.973333333333333e-06,
"loss": 0.0955,
"step": 5025
},
{
"epoch": 1.22,
"learning_rate": 3.94e-06,
"loss": 0.0729,
"step": 5050
},
{
"epoch": 1.22,
"learning_rate": 3.906666666666667e-06,
"loss": 0.0799,
"step": 5075
},
{
"epoch": 1.23,
"learning_rate": 3.873333333333333e-06,
"loss": 0.0848,
"step": 5100
},
{
"epoch": 1.23,
"learning_rate": 3.8400000000000005e-06,
"loss": 0.0813,
"step": 5125
},
{
"epoch": 1.23,
"learning_rate": 3.806666666666667e-06,
"loss": 0.0719,
"step": 5150
},
{
"epoch": 1.23,
"learning_rate": 3.7733333333333338e-06,
"loss": 0.0781,
"step": 5175
},
{
"epoch": 1.24,
"learning_rate": 3.74e-06,
"loss": 0.0582,
"step": 5200
},
{
"epoch": 1.24,
"learning_rate": 3.7066666666666666e-06,
"loss": 0.0838,
"step": 5225
},
{
"epoch": 1.24,
"learning_rate": 3.673333333333334e-06,
"loss": 0.0721,
"step": 5250
},
{
"epoch": 1.25,
"learning_rate": 3.6400000000000003e-06,
"loss": 0.0672,
"step": 5275
},
{
"epoch": 1.25,
"learning_rate": 3.606666666666667e-06,
"loss": 0.0654,
"step": 5300
},
{
"epoch": 1.25,
"learning_rate": 3.5733333333333336e-06,
"loss": 0.0514,
"step": 5325
},
{
"epoch": 1.26,
"learning_rate": 3.54e-06,
"loss": 0.061,
"step": 5350
},
{
"epoch": 1.26,
"learning_rate": 3.5066666666666673e-06,
"loss": 0.0919,
"step": 5375
},
{
"epoch": 1.26,
"learning_rate": 3.4733333333333337e-06,
"loss": 0.0565,
"step": 5400
},
{
"epoch": 1.27,
"learning_rate": 3.44e-06,
"loss": 0.0758,
"step": 5425
},
{
"epoch": 1.27,
"learning_rate": 3.406666666666667e-06,
"loss": 0.0724,
"step": 5450
},
{
"epoch": 1.27,
"learning_rate": 3.3733333333333334e-06,
"loss": 0.0687,
"step": 5475
},
{
"epoch": 1.28,
"learning_rate": 3.3400000000000006e-06,
"loss": 0.0803,
"step": 5500
},
{
"epoch": 1.28,
"eval_loss": 0.2330218106508255,
"eval_runtime": 1819.3056,
"eval_samples_per_second": 3.623,
"eval_steps_per_second": 0.453,
"eval_wer": 14.7616347361173,
"step": 5500
},
{
"epoch": 1.28,
"learning_rate": 3.306666666666667e-06,
"loss": 0.0637,
"step": 5525
},
{
"epoch": 1.28,
"learning_rate": 3.2733333333333335e-06,
"loss": 0.0459,
"step": 5550
},
{
"epoch": 1.28,
"learning_rate": 3.2400000000000003e-06,
"loss": 0.0658,
"step": 5575
},
{
"epoch": 1.29,
"learning_rate": 3.2066666666666667e-06,
"loss": 0.0685,
"step": 5600
},
{
"epoch": 1.29,
"learning_rate": 3.173333333333334e-06,
"loss": 0.0501,
"step": 5625
},
{
"epoch": 1.29,
"learning_rate": 3.1400000000000004e-06,
"loss": 0.066,
"step": 5650
},
{
"epoch": 1.3,
"learning_rate": 3.106666666666667e-06,
"loss": 0.0689,
"step": 5675
},
{
"epoch": 1.3,
"learning_rate": 3.0733333333333337e-06,
"loss": 0.0632,
"step": 5700
},
{
"epoch": 1.3,
"learning_rate": 3.04e-06,
"loss": 0.078,
"step": 5725
},
{
"epoch": 1.31,
"learning_rate": 3.0066666666666674e-06,
"loss": 0.0889,
"step": 5750
},
{
"epoch": 1.31,
"learning_rate": 2.973333333333334e-06,
"loss": 0.0808,
"step": 5775
},
{
"epoch": 1.31,
"learning_rate": 2.9400000000000002e-06,
"loss": 0.059,
"step": 5800
},
{
"epoch": 1.32,
"learning_rate": 2.906666666666667e-06,
"loss": 0.0658,
"step": 5825
},
{
"epoch": 1.32,
"learning_rate": 2.8733333333333335e-06,
"loss": 0.0509,
"step": 5850
},
{
"epoch": 1.32,
"learning_rate": 2.84e-06,
"loss": 0.0612,
"step": 5875
},
{
"epoch": 1.33,
"learning_rate": 2.806666666666667e-06,
"loss": 0.0515,
"step": 5900
},
{
"epoch": 1.33,
"learning_rate": 2.7733333333333336e-06,
"loss": 0.051,
"step": 5925
},
{
"epoch": 1.33,
"learning_rate": 2.7400000000000004e-06,
"loss": 0.09,
"step": 5950
},
{
"epoch": 1.33,
"learning_rate": 2.706666666666667e-06,
"loss": 0.0568,
"step": 5975
},
{
"epoch": 1.34,
"learning_rate": 2.6733333333333333e-06,
"loss": 0.0674,
"step": 6000
},
{
"epoch": 1.34,
"eval_loss": 0.23249581456184387,
"eval_runtime": 1802.9331,
"eval_samples_per_second": 3.656,
"eval_steps_per_second": 0.457,
"eval_wer": 13.846247316618737,
"step": 6000
},
{
"epoch": 1.34,
"learning_rate": 2.64e-06,
"loss": 0.0397,
"step": 6025
},
{
"epoch": 1.34,
"learning_rate": 2.606666666666667e-06,
"loss": 0.0617,
"step": 6050
},
{
"epoch": 1.35,
"learning_rate": 2.573333333333334e-06,
"loss": 0.0619,
"step": 6075
},
{
"epoch": 1.35,
"learning_rate": 2.5400000000000002e-06,
"loss": 0.0641,
"step": 6100
},
{
"epoch": 1.35,
"learning_rate": 2.5066666666666667e-06,
"loss": 0.0443,
"step": 6125
},
{
"epoch": 1.36,
"learning_rate": 2.4733333333333335e-06,
"loss": 0.0639,
"step": 6150
},
{
"epoch": 1.36,
"learning_rate": 2.4400000000000004e-06,
"loss": 0.0411,
"step": 6175
},
{
"epoch": 1.36,
"learning_rate": 2.4066666666666668e-06,
"loss": 0.0634,
"step": 6200
},
{
"epoch": 1.37,
"learning_rate": 2.3733333333333336e-06,
"loss": 0.0666,
"step": 6225
},
{
"epoch": 1.37,
"learning_rate": 2.3400000000000005e-06,
"loss": 0.0583,
"step": 6250
},
{
"epoch": 1.37,
"learning_rate": 2.306666666666667e-06,
"loss": 0.0491,
"step": 6275
},
{
"epoch": 1.38,
"learning_rate": 2.2733333333333333e-06,
"loss": 0.0515,
"step": 6300
},
{
"epoch": 1.38,
"learning_rate": 2.24e-06,
"loss": 0.0758,
"step": 6325
},
{
"epoch": 1.38,
"learning_rate": 2.206666666666667e-06,
"loss": 0.0582,
"step": 6350
},
{
"epoch": 1.38,
"learning_rate": 2.1733333333333334e-06,
"loss": 0.0468,
"step": 6375
},
{
"epoch": 1.39,
"learning_rate": 2.1413333333333336e-06,
"loss": 0.0589,
"step": 6400
},
{
"epoch": 1.39,
"learning_rate": 2.108e-06,
"loss": 0.0463,
"step": 6425
},
{
"epoch": 1.39,
"learning_rate": 2.074666666666667e-06,
"loss": 0.0396,
"step": 6450
},
{
"epoch": 1.4,
"learning_rate": 2.0413333333333337e-06,
"loss": 0.0605,
"step": 6475
},
{
"epoch": 1.4,
"learning_rate": 2.008e-06,
"loss": 0.0679,
"step": 6500
},
{
"epoch": 1.4,
"eval_loss": 0.22990146279335022,
"eval_runtime": 1798.7772,
"eval_samples_per_second": 3.664,
"eval_steps_per_second": 0.458,
"eval_wer": 13.58094698043663,
"step": 6500
},
{
"epoch": 1.4,
"learning_rate": 1.974666666666667e-06,
"loss": 0.0645,
"step": 6525
},
{
"epoch": 1.41,
"learning_rate": 1.9413333333333334e-06,
"loss": 0.0662,
"step": 6550
},
{
"epoch": 1.41,
"learning_rate": 1.908e-06,
"loss": 0.0646,
"step": 6575
},
{
"epoch": 2.0,
"learning_rate": 1.8746666666666668e-06,
"loss": 0.0518,
"step": 6600
},
{
"epoch": 2.0,
"learning_rate": 1.8413333333333337e-06,
"loss": 0.0731,
"step": 6625
},
{
"epoch": 2.01,
"learning_rate": 1.808e-06,
"loss": 0.0727,
"step": 6650
},
{
"epoch": 2.01,
"learning_rate": 1.7746666666666667e-06,
"loss": 0.0486,
"step": 6675
},
{
"epoch": 2.01,
"learning_rate": 1.7413333333333336e-06,
"loss": 0.052,
"step": 6700
},
{
"epoch": 2.02,
"learning_rate": 1.7080000000000002e-06,
"loss": 0.0494,
"step": 6725
},
{
"epoch": 2.02,
"learning_rate": 1.6746666666666668e-06,
"loss": 0.0393,
"step": 6750
},
{
"epoch": 2.02,
"learning_rate": 1.6413333333333335e-06,
"loss": 0.0436,
"step": 6775
},
{
"epoch": 2.03,
"learning_rate": 1.608e-06,
"loss": 0.0353,
"step": 6800
},
{
"epoch": 2.03,
"learning_rate": 1.5746666666666667e-06,
"loss": 0.0417,
"step": 6825
},
{
"epoch": 2.03,
"learning_rate": 1.5413333333333336e-06,
"loss": 0.0443,
"step": 6850
},
{
"epoch": 2.04,
"learning_rate": 1.508e-06,
"loss": 0.0409,
"step": 6875
},
{
"epoch": 2.04,
"learning_rate": 1.4746666666666668e-06,
"loss": 0.0454,
"step": 6900
},
{
"epoch": 2.04,
"learning_rate": 1.4413333333333335e-06,
"loss": 0.0391,
"step": 6925
},
{
"epoch": 2.04,
"learning_rate": 1.4080000000000001e-06,
"loss": 0.0411,
"step": 6950
},
{
"epoch": 2.05,
"learning_rate": 1.3746666666666667e-06,
"loss": 0.0278,
"step": 6975
},
{
"epoch": 2.05,
"learning_rate": 1.3413333333333334e-06,
"loss": 0.027,
"step": 7000
},
{
"epoch": 2.05,
"eval_loss": 0.23039141297340393,
"eval_runtime": 1798.6414,
"eval_samples_per_second": 3.664,
"eval_steps_per_second": 0.458,
"eval_wer": 13.380452833245576,
"step": 7000
},
{
"epoch": 2.05,
"learning_rate": 1.308e-06,
"loss": 0.0273,
"step": 7025
},
{
"epoch": 2.06,
"learning_rate": 1.2746666666666669e-06,
"loss": 0.0373,
"step": 7050
},
{
"epoch": 2.06,
"learning_rate": 1.2413333333333335e-06,
"loss": 0.0207,
"step": 7075
},
{
"epoch": 2.06,
"learning_rate": 1.2080000000000001e-06,
"loss": 0.0286,
"step": 7100
},
{
"epoch": 2.07,
"learning_rate": 1.1746666666666668e-06,
"loss": 0.0269,
"step": 7125
},
{
"epoch": 2.07,
"learning_rate": 1.1413333333333334e-06,
"loss": 0.0228,
"step": 7150
},
{
"epoch": 2.07,
"learning_rate": 1.108e-06,
"loss": 0.028,
"step": 7175
},
{
"epoch": 2.08,
"learning_rate": 1.0746666666666669e-06,
"loss": 0.0377,
"step": 7200
},
{
"epoch": 2.08,
"learning_rate": 1.0413333333333333e-06,
"loss": 0.0228,
"step": 7225
},
{
"epoch": 2.08,
"learning_rate": 1.0080000000000001e-06,
"loss": 0.0327,
"step": 7250
},
{
"epoch": 2.09,
"learning_rate": 9.746666666666668e-07,
"loss": 0.0354,
"step": 7275
},
{
"epoch": 2.09,
"learning_rate": 9.413333333333334e-07,
"loss": 0.0314,
"step": 7300
},
{
"epoch": 2.09,
"learning_rate": 9.080000000000001e-07,
"loss": 0.0347,
"step": 7325
},
{
"epoch": 2.09,
"learning_rate": 8.746666666666668e-07,
"loss": 0.0266,
"step": 7350
},
{
"epoch": 2.1,
"learning_rate": 8.413333333333334e-07,
"loss": 0.0327,
"step": 7375
},
{
"epoch": 2.1,
"learning_rate": 8.08e-07,
"loss": 0.0185,
"step": 7400
},
{
"epoch": 2.1,
"learning_rate": 7.746666666666668e-07,
"loss": 0.0214,
"step": 7425
},
{
"epoch": 2.11,
"learning_rate": 7.413333333333333e-07,
"loss": 0.0317,
"step": 7450
},
{
"epoch": 2.11,
"learning_rate": 7.08e-07,
"loss": 0.0275,
"step": 7475
},
{
"epoch": 2.11,
"learning_rate": 6.746666666666667e-07,
"loss": 0.0231,
"step": 7500
},
{
"epoch": 2.11,
"eval_loss": 0.22874309122562408,
"eval_runtime": 1793.9081,
"eval_samples_per_second": 3.674,
"eval_steps_per_second": 0.459,
"eval_wer": 12.839726193851513,
"step": 7500
},
{
"epoch": 2.12,
"learning_rate": 6.413333333333334e-07,
"loss": 0.0267,
"step": 7525
},
{
"epoch": 2.12,
"learning_rate": 6.08e-07,
"loss": 0.0251,
"step": 7550
},
{
"epoch": 2.12,
"learning_rate": 5.746666666666667e-07,
"loss": 0.0234,
"step": 7575
},
{
"epoch": 2.13,
"learning_rate": 5.413333333333334e-07,
"loss": 0.0352,
"step": 7600
},
{
"epoch": 2.13,
"learning_rate": 5.08e-07,
"loss": 0.0238,
"step": 7625
},
{
"epoch": 2.13,
"learning_rate": 4.746666666666667e-07,
"loss": 0.0245,
"step": 7650
},
{
"epoch": 2.14,
"learning_rate": 4.413333333333333e-07,
"loss": 0.0247,
"step": 7675
},
{
"epoch": 2.14,
"learning_rate": 4.0800000000000005e-07,
"loss": 0.0211,
"step": 7700
},
{
"epoch": 2.14,
"learning_rate": 3.7466666666666674e-07,
"loss": 0.0342,
"step": 7725
},
{
"epoch": 2.14,
"learning_rate": 3.4133333333333337e-07,
"loss": 0.0184,
"step": 7750
},
{
"epoch": 2.15,
"learning_rate": 3.0800000000000006e-07,
"loss": 0.0299,
"step": 7775
},
{
"epoch": 2.15,
"learning_rate": 2.746666666666667e-07,
"loss": 0.0139,
"step": 7800
},
{
"epoch": 2.15,
"learning_rate": 2.413333333333333e-07,
"loss": 0.0273,
"step": 7825
},
{
"epoch": 2.16,
"learning_rate": 2.08e-07,
"loss": 0.0201,
"step": 7850
},
{
"epoch": 2.16,
"learning_rate": 1.7466666666666667e-07,
"loss": 0.0237,
"step": 7875
},
{
"epoch": 2.16,
"learning_rate": 1.4133333333333333e-07,
"loss": 0.0227,
"step": 7900
},
{
"epoch": 2.17,
"learning_rate": 1.0800000000000001e-07,
"loss": 0.02,
"step": 7925
},
{
"epoch": 2.17,
"learning_rate": 7.466666666666667e-08,
"loss": 0.019,
"step": 7950
},
{
"epoch": 2.17,
"learning_rate": 4.133333333333334e-08,
"loss": 0.0285,
"step": 7975
},
{
"epoch": 2.18,
"learning_rate": 8e-09,
"loss": 0.0285,
"step": 8000
},
{
"epoch": 2.18,
"eval_loss": 0.23037254810333252,
"eval_runtime": 1820.2026,
"eval_samples_per_second": 3.621,
"eval_steps_per_second": 0.453,
"eval_wer": 12.8883308355948,
"step": 8000
},
{
"epoch": 2.18,
"step": 8000,
"total_flos": 3.265527462100992e+19,
"train_loss": 0.18796414549276233,
"train_runtime": 39400.0429,
"train_samples_per_second": 0.812,
"train_steps_per_second": 0.203
}
],
"max_steps": 8000,
"num_train_epochs": 9223372036854775807,
"total_flos": 3.265527462100992e+19,
"trial_name": null,
"trial_params": null
}