|
{ |
|
"best_metric": 8.8020814247499, |
|
"best_model_checkpoint": "./checkpoint-8000", |
|
"epoch": 4.148, |
|
"eval_steps": 500, |
|
"global_step": 8000, |
|
"is_hyper_param_search": false, |
|
"is_local_process_zero": true, |
|
"is_world_process_zero": true, |
|
"log_history": [ |
|
{ |
|
"epoch": 0.003125, |
|
"grad_norm": 15.080086708068848, |
|
"learning_rate": 2.875e-07, |
|
"loss": 1.3478, |
|
"step": 25 |
|
}, |
|
{ |
|
"epoch": 0.00625, |
|
"grad_norm": 11.962413787841797, |
|
"learning_rate": 6.000000000000001e-07, |
|
"loss": 1.14, |
|
"step": 50 |
|
}, |
|
{ |
|
"epoch": 0.009375, |
|
"grad_norm": 10.828227996826172, |
|
"learning_rate": 9.124999999999999e-07, |
|
"loss": 0.8401, |
|
"step": 75 |
|
}, |
|
{ |
|
"epoch": 0.0125, |
|
"grad_norm": 9.401681900024414, |
|
"learning_rate": 1.2250000000000001e-06, |
|
"loss": 0.7112, |
|
"step": 100 |
|
}, |
|
{ |
|
"epoch": 0.015625, |
|
"grad_norm": 9.252142906188965, |
|
"learning_rate": 1.5375e-06, |
|
"loss": 0.6528, |
|
"step": 125 |
|
}, |
|
{ |
|
"epoch": 0.01875, |
|
"grad_norm": 10.718783378601074, |
|
"learning_rate": 1.85e-06, |
|
"loss": 0.6492, |
|
"step": 150 |
|
}, |
|
{ |
|
"epoch": 0.021875, |
|
"grad_norm": 7.8105082511901855, |
|
"learning_rate": 2.1625e-06, |
|
"loss": 0.5886, |
|
"step": 175 |
|
}, |
|
{ |
|
"epoch": 0.025, |
|
"grad_norm": 8.969450950622559, |
|
"learning_rate": 2.4750000000000004e-06, |
|
"loss": 0.5284, |
|
"step": 200 |
|
}, |
|
{ |
|
"epoch": 0.028125, |
|
"grad_norm": 8.110017776489258, |
|
"learning_rate": 2.7875e-06, |
|
"loss": 0.5097, |
|
"step": 225 |
|
}, |
|
{ |
|
"epoch": 0.03125, |
|
"grad_norm": 8.07854175567627, |
|
"learning_rate": 3.1e-06, |
|
"loss": 0.48, |
|
"step": 250 |
|
}, |
|
{ |
|
"epoch": 0.034375, |
|
"grad_norm": 9.469429016113281, |
|
"learning_rate": 3.4125000000000004e-06, |
|
"loss": 0.4453, |
|
"step": 275 |
|
}, |
|
{ |
|
"epoch": 0.0375, |
|
"grad_norm": 6.849759578704834, |
|
"learning_rate": 3.725e-06, |
|
"loss": 0.4249, |
|
"step": 300 |
|
}, |
|
{ |
|
"epoch": 0.040625, |
|
"grad_norm": 8.43980598449707, |
|
"learning_rate": 4.037500000000001e-06, |
|
"loss": 0.4093, |
|
"step": 325 |
|
}, |
|
{ |
|
"epoch": 0.04375, |
|
"grad_norm": 7.9978132247924805, |
|
"learning_rate": 4.35e-06, |
|
"loss": 0.4179, |
|
"step": 350 |
|
}, |
|
{ |
|
"epoch": 0.046875, |
|
"grad_norm": 7.179676532745361, |
|
"learning_rate": 4.6625e-06, |
|
"loss": 0.366, |
|
"step": 375 |
|
}, |
|
{ |
|
"epoch": 0.05, |
|
"grad_norm": 8.746236801147461, |
|
"learning_rate": 4.975000000000001e-06, |
|
"loss": 0.3484, |
|
"step": 400 |
|
}, |
|
{ |
|
"epoch": 0.053125, |
|
"grad_norm": 6.08207893371582, |
|
"learning_rate": 5.2875e-06, |
|
"loss": 0.3177, |
|
"step": 425 |
|
}, |
|
{ |
|
"epoch": 0.05625, |
|
"grad_norm": 7.5096235275268555, |
|
"learning_rate": 5.600000000000001e-06, |
|
"loss": 0.3407, |
|
"step": 450 |
|
}, |
|
{ |
|
"epoch": 0.059375, |
|
"grad_norm": 6.521783828735352, |
|
"learning_rate": 5.9125e-06, |
|
"loss": 0.3323, |
|
"step": 475 |
|
}, |
|
{ |
|
"epoch": 0.0625, |
|
"grad_norm": 6.018587589263916, |
|
"learning_rate": 6.2250000000000005e-06, |
|
"loss": 0.3171, |
|
"step": 500 |
|
}, |
|
{ |
|
"epoch": 0.0625, |
|
"eval_loss": 0.33685919642448425, |
|
"eval_runtime": 2424.3615, |
|
"eval_samples_per_second": 5.622, |
|
"eval_steps_per_second": 0.703, |
|
"eval_wer": 25.53043350800689, |
|
"step": 500 |
|
}, |
|
{ |
|
"epoch": 0.065625, |
|
"grad_norm": 6.343411922454834, |
|
"learning_rate": 6.230833333333334e-06, |
|
"loss": 0.323, |
|
"step": 525 |
|
}, |
|
{ |
|
"epoch": 0.06875, |
|
"grad_norm": 6.164433479309082, |
|
"learning_rate": 6.210000000000001e-06, |
|
"loss": 0.2979, |
|
"step": 550 |
|
}, |
|
{ |
|
"epoch": 0.071875, |
|
"grad_norm": 7.514057159423828, |
|
"learning_rate": 6.1891666666666666e-06, |
|
"loss": 0.2956, |
|
"step": 575 |
|
}, |
|
{ |
|
"epoch": 0.075, |
|
"grad_norm": 5.7609992027282715, |
|
"learning_rate": 6.168333333333333e-06, |
|
"loss": 0.2966, |
|
"step": 600 |
|
}, |
|
{ |
|
"epoch": 0.078125, |
|
"grad_norm": 6.035708427429199, |
|
"learning_rate": 6.147500000000001e-06, |
|
"loss": 0.2914, |
|
"step": 625 |
|
}, |
|
{ |
|
"epoch": 0.08125, |
|
"grad_norm": 6.485240459442139, |
|
"learning_rate": 6.126666666666667e-06, |
|
"loss": 0.2929, |
|
"step": 650 |
|
}, |
|
{ |
|
"epoch": 0.084375, |
|
"grad_norm": 5.631970405578613, |
|
"learning_rate": 6.1058333333333335e-06, |
|
"loss": 0.2676, |
|
"step": 675 |
|
}, |
|
{ |
|
"epoch": 0.0875, |
|
"grad_norm": 6.642117977142334, |
|
"learning_rate": 6.085e-06, |
|
"loss": 0.2756, |
|
"step": 700 |
|
}, |
|
{ |
|
"epoch": 0.090625, |
|
"grad_norm": 6.473007678985596, |
|
"learning_rate": 6.064166666666667e-06, |
|
"loss": 0.2613, |
|
"step": 725 |
|
}, |
|
{ |
|
"epoch": 0.09375, |
|
"grad_norm": 6.47869348526001, |
|
"learning_rate": 6.043333333333334e-06, |
|
"loss": 0.2667, |
|
"step": 750 |
|
}, |
|
{ |
|
"epoch": 0.096875, |
|
"grad_norm": 6.658367156982422, |
|
"learning_rate": 6.0225e-06, |
|
"loss": 0.2778, |
|
"step": 775 |
|
}, |
|
{ |
|
"epoch": 0.1, |
|
"grad_norm": 7.887542724609375, |
|
"learning_rate": 6.001666666666667e-06, |
|
"loss": 0.3095, |
|
"step": 800 |
|
}, |
|
{ |
|
"epoch": 0.103125, |
|
"grad_norm": 6.103913307189941, |
|
"learning_rate": 5.980833333333334e-06, |
|
"loss": 0.297, |
|
"step": 825 |
|
}, |
|
{ |
|
"epoch": 0.10625, |
|
"grad_norm": 6.087416648864746, |
|
"learning_rate": 5.9600000000000005e-06, |
|
"loss": 0.2326, |
|
"step": 850 |
|
}, |
|
{ |
|
"epoch": 0.109375, |
|
"grad_norm": 5.486704349517822, |
|
"learning_rate": 5.939166666666667e-06, |
|
"loss": 0.2215, |
|
"step": 875 |
|
}, |
|
{ |
|
"epoch": 0.1125, |
|
"grad_norm": 5.353816986083984, |
|
"learning_rate": 5.918333333333333e-06, |
|
"loss": 0.205, |
|
"step": 900 |
|
}, |
|
{ |
|
"epoch": 0.115625, |
|
"grad_norm": 5.429187774658203, |
|
"learning_rate": 5.8975e-06, |
|
"loss": 0.2185, |
|
"step": 925 |
|
}, |
|
{ |
|
"epoch": 0.11875, |
|
"grad_norm": 5.181328773498535, |
|
"learning_rate": 5.8766666666666674e-06, |
|
"loss": 0.2069, |
|
"step": 950 |
|
}, |
|
{ |
|
"epoch": 0.121875, |
|
"grad_norm": 4.126291751861572, |
|
"learning_rate": 5.855833333333333e-06, |
|
"loss": 0.2062, |
|
"step": 975 |
|
}, |
|
{ |
|
"epoch": 0.125, |
|
"grad_norm": 5.896920204162598, |
|
"learning_rate": 5.835e-06, |
|
"loss": 0.1852, |
|
"step": 1000 |
|
}, |
|
{ |
|
"epoch": 0.125, |
|
"eval_loss": 0.2408558428287506, |
|
"eval_runtime": 2415.6545, |
|
"eval_samples_per_second": 5.642, |
|
"eval_steps_per_second": 0.705, |
|
"eval_wer": 17.311004434021037, |
|
"step": 1000 |
|
}, |
|
{ |
|
"epoch": 0.128125, |
|
"grad_norm": 5.046872138977051, |
|
"learning_rate": 5.814166666666667e-06, |
|
"loss": 0.2142, |
|
"step": 1025 |
|
}, |
|
{ |
|
"epoch": 0.13125, |
|
"grad_norm": 6.671748638153076, |
|
"learning_rate": 5.793333333333334e-06, |
|
"loss": 0.2208, |
|
"step": 1050 |
|
}, |
|
{ |
|
"epoch": 0.134375, |
|
"grad_norm": 6.533191680908203, |
|
"learning_rate": 5.7725e-06, |
|
"loss": 0.1944, |
|
"step": 1075 |
|
}, |
|
{ |
|
"epoch": 0.1375, |
|
"grad_norm": 4.43493127822876, |
|
"learning_rate": 5.751666666666667e-06, |
|
"loss": 0.1816, |
|
"step": 1100 |
|
}, |
|
{ |
|
"epoch": 0.140625, |
|
"grad_norm": 5.601134777069092, |
|
"learning_rate": 5.730833333333334e-06, |
|
"loss": 0.1884, |
|
"step": 1125 |
|
}, |
|
{ |
|
"epoch": 0.14375, |
|
"grad_norm": 4.886395454406738, |
|
"learning_rate": 5.71e-06, |
|
"loss": 0.1712, |
|
"step": 1150 |
|
}, |
|
{ |
|
"epoch": 0.146875, |
|
"grad_norm": 5.513830184936523, |
|
"learning_rate": 5.689166666666667e-06, |
|
"loss": 0.1835, |
|
"step": 1175 |
|
}, |
|
{ |
|
"epoch": 0.15, |
|
"grad_norm": 6.305610179901123, |
|
"learning_rate": 5.668333333333334e-06, |
|
"loss": 0.2221, |
|
"step": 1200 |
|
}, |
|
{ |
|
"epoch": 0.153125, |
|
"grad_norm": 6.482845306396484, |
|
"learning_rate": 5.6475e-06, |
|
"loss": 0.2138, |
|
"step": 1225 |
|
}, |
|
{ |
|
"epoch": 0.15625, |
|
"grad_norm": 6.316329002380371, |
|
"learning_rate": 5.626666666666667e-06, |
|
"loss": 0.2338, |
|
"step": 1250 |
|
}, |
|
{ |
|
"epoch": 0.159375, |
|
"grad_norm": 6.650278091430664, |
|
"learning_rate": 5.605833333333334e-06, |
|
"loss": 0.2231, |
|
"step": 1275 |
|
}, |
|
{ |
|
"epoch": 0.1625, |
|
"grad_norm": 5.289668560028076, |
|
"learning_rate": 5.585e-06, |
|
"loss": 0.2018, |
|
"step": 1300 |
|
}, |
|
{ |
|
"epoch": 0.165625, |
|
"grad_norm": 6.051737308502197, |
|
"learning_rate": 5.564166666666667e-06, |
|
"loss": 0.2092, |
|
"step": 1325 |
|
}, |
|
{ |
|
"epoch": 0.16875, |
|
"grad_norm": 4.950199604034424, |
|
"learning_rate": 5.543333333333333e-06, |
|
"loss": 0.1934, |
|
"step": 1350 |
|
}, |
|
{ |
|
"epoch": 0.171875, |
|
"grad_norm": 5.296252727508545, |
|
"learning_rate": 5.522500000000001e-06, |
|
"loss": 0.1806, |
|
"step": 1375 |
|
}, |
|
{ |
|
"epoch": 0.175, |
|
"grad_norm": 5.999615669250488, |
|
"learning_rate": 5.501666666666667e-06, |
|
"loss": 0.1782, |
|
"step": 1400 |
|
}, |
|
{ |
|
"epoch": 0.178125, |
|
"grad_norm": 3.7982959747314453, |
|
"learning_rate": 5.4808333333333335e-06, |
|
"loss": 0.1712, |
|
"step": 1425 |
|
}, |
|
{ |
|
"epoch": 0.18125, |
|
"grad_norm": 6.798803806304932, |
|
"learning_rate": 5.46e-06, |
|
"loss": 0.1972, |
|
"step": 1450 |
|
}, |
|
{ |
|
"epoch": 0.184375, |
|
"grad_norm": 5.545141220092773, |
|
"learning_rate": 5.439166666666667e-06, |
|
"loss": 0.2153, |
|
"step": 1475 |
|
}, |
|
{ |
|
"epoch": 0.1875, |
|
"grad_norm": 5.619574546813965, |
|
"learning_rate": 5.418333333333334e-06, |
|
"loss": 0.2353, |
|
"step": 1500 |
|
}, |
|
{ |
|
"epoch": 0.1875, |
|
"eval_loss": 0.20496371388435364, |
|
"eval_runtime": 2428.1499, |
|
"eval_samples_per_second": 5.613, |
|
"eval_steps_per_second": 0.702, |
|
"eval_wer": 14.222763750961926, |
|
"step": 1500 |
|
}, |
|
{ |
|
"epoch": 0.190625, |
|
"grad_norm": 6.522052764892578, |
|
"learning_rate": 5.3975e-06, |
|
"loss": 0.2049, |
|
"step": 1525 |
|
}, |
|
{ |
|
"epoch": 0.19375, |
|
"grad_norm": 5.805539608001709, |
|
"learning_rate": 5.376666666666666e-06, |
|
"loss": 0.1931, |
|
"step": 1550 |
|
}, |
|
{ |
|
"epoch": 0.196875, |
|
"grad_norm": 5.707961082458496, |
|
"learning_rate": 5.355833333333334e-06, |
|
"loss": 0.1944, |
|
"step": 1575 |
|
}, |
|
{ |
|
"epoch": 0.2, |
|
"grad_norm": 6.126225471496582, |
|
"learning_rate": 5.335000000000001e-06, |
|
"loss": 0.225, |
|
"step": 1600 |
|
}, |
|
{ |
|
"epoch": 0.203125, |
|
"grad_norm": 5.682012557983398, |
|
"learning_rate": 5.3141666666666665e-06, |
|
"loss": 0.2225, |
|
"step": 1625 |
|
}, |
|
{ |
|
"epoch": 0.20625, |
|
"grad_norm": 5.529600620269775, |
|
"learning_rate": 5.293333333333333e-06, |
|
"loss": 0.2154, |
|
"step": 1650 |
|
}, |
|
{ |
|
"epoch": 0.209375, |
|
"grad_norm": 8.373395919799805, |
|
"learning_rate": 5.272500000000001e-06, |
|
"loss": 0.1866, |
|
"step": 1675 |
|
}, |
|
{ |
|
"epoch": 0.2125, |
|
"grad_norm": 4.936291694641113, |
|
"learning_rate": 5.2516666666666675e-06, |
|
"loss": 0.1615, |
|
"step": 1700 |
|
}, |
|
{ |
|
"epoch": 1.002625, |
|
"grad_norm": 4.893776893615723, |
|
"learning_rate": 5.230833333333333e-06, |
|
"loss": 0.172, |
|
"step": 1725 |
|
}, |
|
{ |
|
"epoch": 1.00575, |
|
"grad_norm": 4.98813533782959, |
|
"learning_rate": 5.21e-06, |
|
"loss": 0.1591, |
|
"step": 1750 |
|
}, |
|
{ |
|
"epoch": 1.008875, |
|
"grad_norm": 6.166538715362549, |
|
"learning_rate": 5.189166666666667e-06, |
|
"loss": 0.1712, |
|
"step": 1775 |
|
}, |
|
{ |
|
"epoch": 1.012, |
|
"grad_norm": 4.1829071044921875, |
|
"learning_rate": 5.1683333333333335e-06, |
|
"loss": 0.1908, |
|
"step": 1800 |
|
}, |
|
{ |
|
"epoch": 1.015125, |
|
"grad_norm": 5.497808456420898, |
|
"learning_rate": 5.1475e-06, |
|
"loss": 0.1791, |
|
"step": 1825 |
|
}, |
|
{ |
|
"epoch": 1.01825, |
|
"grad_norm": 4.581858158111572, |
|
"learning_rate": 5.126666666666667e-06, |
|
"loss": 0.1685, |
|
"step": 1850 |
|
}, |
|
{ |
|
"epoch": 1.021375, |
|
"grad_norm": 4.6282267570495605, |
|
"learning_rate": 5.105833333333334e-06, |
|
"loss": 0.1691, |
|
"step": 1875 |
|
}, |
|
{ |
|
"epoch": 1.0245, |
|
"grad_norm": 5.748936653137207, |
|
"learning_rate": 5.0850000000000004e-06, |
|
"loss": 0.1577, |
|
"step": 1900 |
|
}, |
|
{ |
|
"epoch": 1.027625, |
|
"grad_norm": 4.339770793914795, |
|
"learning_rate": 5.064166666666667e-06, |
|
"loss": 0.168, |
|
"step": 1925 |
|
}, |
|
{ |
|
"epoch": 1.03075, |
|
"grad_norm": 3.72379469871521, |
|
"learning_rate": 5.043333333333333e-06, |
|
"loss": 0.1616, |
|
"step": 1950 |
|
}, |
|
{ |
|
"epoch": 1.033875, |
|
"grad_norm": 5.169766902923584, |
|
"learning_rate": 5.0225e-06, |
|
"loss": 0.1663, |
|
"step": 1975 |
|
}, |
|
{ |
|
"epoch": 1.037, |
|
"grad_norm": 6.120935440063477, |
|
"learning_rate": 5.001666666666667e-06, |
|
"loss": 0.1569, |
|
"step": 2000 |
|
}, |
|
{ |
|
"epoch": 1.037, |
|
"eval_loss": 0.181504026055336, |
|
"eval_runtime": 2441.5281, |
|
"eval_samples_per_second": 5.583, |
|
"eval_steps_per_second": 0.698, |
|
"eval_wer": 12.286085968705338, |
|
"step": 2000 |
|
}, |
|
{ |
|
"epoch": 1.040125, |
|
"grad_norm": 3.2327628135681152, |
|
"learning_rate": 4.980833333333334e-06, |
|
"loss": 0.1526, |
|
"step": 2025 |
|
}, |
|
{ |
|
"epoch": 1.04325, |
|
"grad_norm": 4.2089948654174805, |
|
"learning_rate": 4.96e-06, |
|
"loss": 0.1427, |
|
"step": 2050 |
|
}, |
|
{ |
|
"epoch": 1.046375, |
|
"grad_norm": 4.837276458740234, |
|
"learning_rate": 4.939166666666667e-06, |
|
"loss": 0.1429, |
|
"step": 2075 |
|
}, |
|
{ |
|
"epoch": 1.0495, |
|
"grad_norm": 4.590527057647705, |
|
"learning_rate": 4.918333333333334e-06, |
|
"loss": 0.1306, |
|
"step": 2100 |
|
}, |
|
{ |
|
"epoch": 1.052625, |
|
"grad_norm": 5.821957111358643, |
|
"learning_rate": 4.8975e-06, |
|
"loss": 0.1504, |
|
"step": 2125 |
|
}, |
|
{ |
|
"epoch": 1.05575, |
|
"grad_norm": 4.136687278747559, |
|
"learning_rate": 4.876666666666667e-06, |
|
"loss": 0.1431, |
|
"step": 2150 |
|
}, |
|
{ |
|
"epoch": 1.058875, |
|
"grad_norm": 4.310347080230713, |
|
"learning_rate": 4.8558333333333336e-06, |
|
"loss": 0.1364, |
|
"step": 2175 |
|
}, |
|
{ |
|
"epoch": 1.062, |
|
"grad_norm": 4.1295485496521, |
|
"learning_rate": 4.835e-06, |
|
"loss": 0.1272, |
|
"step": 2200 |
|
}, |
|
{ |
|
"epoch": 1.065125, |
|
"grad_norm": 4.432501316070557, |
|
"learning_rate": 4.814166666666667e-06, |
|
"loss": 0.1256, |
|
"step": 2225 |
|
}, |
|
{ |
|
"epoch": 1.06825, |
|
"grad_norm": 3.792029619216919, |
|
"learning_rate": 4.793333333333334e-06, |
|
"loss": 0.1322, |
|
"step": 2250 |
|
}, |
|
{ |
|
"epoch": 1.071375, |
|
"grad_norm": 4.919213771820068, |
|
"learning_rate": 4.7725e-06, |
|
"loss": 0.1477, |
|
"step": 2275 |
|
}, |
|
{ |
|
"epoch": 1.0745, |
|
"grad_norm": 5.92459774017334, |
|
"learning_rate": 4.751666666666666e-06, |
|
"loss": 0.1518, |
|
"step": 2300 |
|
}, |
|
{ |
|
"epoch": 1.077625, |
|
"grad_norm": 5.6381635665893555, |
|
"learning_rate": 4.730833333333334e-06, |
|
"loss": 0.1489, |
|
"step": 2325 |
|
}, |
|
{ |
|
"epoch": 1.08075, |
|
"grad_norm": 4.690910816192627, |
|
"learning_rate": 4.710000000000001e-06, |
|
"loss": 0.1216, |
|
"step": 2350 |
|
}, |
|
{ |
|
"epoch": 1.083875, |
|
"grad_norm": 3.847102165222168, |
|
"learning_rate": 4.6891666666666665e-06, |
|
"loss": 0.1243, |
|
"step": 2375 |
|
}, |
|
{ |
|
"epoch": 1.087, |
|
"grad_norm": 2.3183677196502686, |
|
"learning_rate": 4.668333333333333e-06, |
|
"loss": 0.1301, |
|
"step": 2400 |
|
}, |
|
{ |
|
"epoch": 1.090125, |
|
"grad_norm": 3.9808385372161865, |
|
"learning_rate": 4.647500000000001e-06, |
|
"loss": 0.1289, |
|
"step": 2425 |
|
}, |
|
{ |
|
"epoch": 1.09325, |
|
"grad_norm": 4.1279616355896, |
|
"learning_rate": 4.626666666666667e-06, |
|
"loss": 0.119, |
|
"step": 2450 |
|
}, |
|
{ |
|
"epoch": 1.096375, |
|
"grad_norm": 4.029735088348389, |
|
"learning_rate": 4.605833333333333e-06, |
|
"loss": 0.1235, |
|
"step": 2475 |
|
}, |
|
{ |
|
"epoch": 1.0995, |
|
"grad_norm": 5.72581148147583, |
|
"learning_rate": 4.585e-06, |
|
"loss": 0.125, |
|
"step": 2500 |
|
}, |
|
{ |
|
"epoch": 1.0995, |
|
"eval_loss": 0.16921907663345337, |
|
"eval_runtime": 2457.6523, |
|
"eval_samples_per_second": 5.546, |
|
"eval_steps_per_second": 0.693, |
|
"eval_wer": 11.114368426838652, |
|
"step": 2500 |
|
}, |
|
{ |
|
"epoch": 1.102625, |
|
"grad_norm": 4.8854875564575195, |
|
"learning_rate": 4.564166666666667e-06, |
|
"loss": 0.122, |
|
"step": 2525 |
|
}, |
|
{ |
|
"epoch": 1.10575, |
|
"grad_norm": 3.682393789291382, |
|
"learning_rate": 4.543333333333334e-06, |
|
"loss": 0.1169, |
|
"step": 2550 |
|
}, |
|
{ |
|
"epoch": 1.108875, |
|
"grad_norm": 3.8288307189941406, |
|
"learning_rate": 4.5225e-06, |
|
"loss": 0.1184, |
|
"step": 2575 |
|
}, |
|
{ |
|
"epoch": 1.112, |
|
"grad_norm": 5.098357677459717, |
|
"learning_rate": 4.501666666666667e-06, |
|
"loss": 0.1235, |
|
"step": 2600 |
|
}, |
|
{ |
|
"epoch": 1.115125, |
|
"grad_norm": 3.420466899871826, |
|
"learning_rate": 4.480833333333334e-06, |
|
"loss": 0.1277, |
|
"step": 2625 |
|
}, |
|
{ |
|
"epoch": 1.11825, |
|
"grad_norm": 4.542791843414307, |
|
"learning_rate": 4.4600000000000005e-06, |
|
"loss": 0.1214, |
|
"step": 2650 |
|
}, |
|
{ |
|
"epoch": 1.121375, |
|
"grad_norm": 3.245755195617676, |
|
"learning_rate": 4.439166666666667e-06, |
|
"loss": 0.1109, |
|
"step": 2675 |
|
}, |
|
{ |
|
"epoch": 1.1245, |
|
"grad_norm": 5.041585445404053, |
|
"learning_rate": 4.418333333333333e-06, |
|
"loss": 0.1295, |
|
"step": 2700 |
|
}, |
|
{ |
|
"epoch": 1.127625, |
|
"grad_norm": 4.113171577453613, |
|
"learning_rate": 4.3975e-06, |
|
"loss": 0.1153, |
|
"step": 2725 |
|
}, |
|
{ |
|
"epoch": 1.13075, |
|
"grad_norm": 5.032025337219238, |
|
"learning_rate": 4.376666666666667e-06, |
|
"loss": 0.1204, |
|
"step": 2750 |
|
}, |
|
{ |
|
"epoch": 1.133875, |
|
"grad_norm": 5.080983638763428, |
|
"learning_rate": 4.355833333333333e-06, |
|
"loss": 0.1213, |
|
"step": 2775 |
|
}, |
|
{ |
|
"epoch": 1.137, |
|
"grad_norm": 4.304152011871338, |
|
"learning_rate": 4.335e-06, |
|
"loss": 0.1069, |
|
"step": 2800 |
|
}, |
|
{ |
|
"epoch": 1.140125, |
|
"grad_norm": 3.1360485553741455, |
|
"learning_rate": 4.314166666666667e-06, |
|
"loss": 0.1167, |
|
"step": 2825 |
|
}, |
|
{ |
|
"epoch": 1.14325, |
|
"grad_norm": 4.444480895996094, |
|
"learning_rate": 4.2933333333333334e-06, |
|
"loss": 0.1117, |
|
"step": 2850 |
|
}, |
|
{ |
|
"epoch": 1.146375, |
|
"grad_norm": 3.8886942863464355, |
|
"learning_rate": 4.2725e-06, |
|
"loss": 0.1134, |
|
"step": 2875 |
|
}, |
|
{ |
|
"epoch": 1.1495, |
|
"grad_norm": 4.360485076904297, |
|
"learning_rate": 4.251666666666667e-06, |
|
"loss": 0.1334, |
|
"step": 2900 |
|
}, |
|
{ |
|
"epoch": 1.152625, |
|
"grad_norm": 5.376945972442627, |
|
"learning_rate": 4.230833333333334e-06, |
|
"loss": 0.1163, |
|
"step": 2925 |
|
}, |
|
{ |
|
"epoch": 1.15575, |
|
"grad_norm": 4.359200954437256, |
|
"learning_rate": 4.21e-06, |
|
"loss": 0.1351, |
|
"step": 2950 |
|
}, |
|
{ |
|
"epoch": 1.158875, |
|
"grad_norm": 5.360095977783203, |
|
"learning_rate": 4.189166666666667e-06, |
|
"loss": 0.1113, |
|
"step": 2975 |
|
}, |
|
{ |
|
"epoch": 1.162, |
|
"grad_norm": 3.6014363765716553, |
|
"learning_rate": 4.168333333333334e-06, |
|
"loss": 0.12, |
|
"step": 3000 |
|
}, |
|
{ |
|
"epoch": 1.162, |
|
"eval_loss": 0.15999051928520203, |
|
"eval_runtime": 2448.4453, |
|
"eval_samples_per_second": 5.567, |
|
"eval_steps_per_second": 0.696, |
|
"eval_wer": 10.697533804829785, |
|
"step": 3000 |
|
}, |
|
{ |
|
"epoch": 1.165125, |
|
"grad_norm": 4.150473594665527, |
|
"learning_rate": 4.1475e-06, |
|
"loss": 0.1196, |
|
"step": 3025 |
|
}, |
|
{ |
|
"epoch": 1.16825, |
|
"grad_norm": 4.962148666381836, |
|
"learning_rate": 4.126666666666667e-06, |
|
"loss": 0.1261, |
|
"step": 3050 |
|
}, |
|
{ |
|
"epoch": 1.171375, |
|
"grad_norm": 2.9675393104553223, |
|
"learning_rate": 4.105833333333334e-06, |
|
"loss": 0.1087, |
|
"step": 3075 |
|
}, |
|
{ |
|
"epoch": 1.1745, |
|
"grad_norm": 5.842774868011475, |
|
"learning_rate": 4.085e-06, |
|
"loss": 0.1067, |
|
"step": 3100 |
|
}, |
|
{ |
|
"epoch": 1.177625, |
|
"grad_norm": 5.209335803985596, |
|
"learning_rate": 4.064166666666667e-06, |
|
"loss": 0.114, |
|
"step": 3125 |
|
}, |
|
{ |
|
"epoch": 1.18075, |
|
"grad_norm": 4.343747138977051, |
|
"learning_rate": 4.043333333333333e-06, |
|
"loss": 0.1398, |
|
"step": 3150 |
|
}, |
|
{ |
|
"epoch": 1.183875, |
|
"grad_norm": 4.5666890144348145, |
|
"learning_rate": 4.0225e-06, |
|
"loss": 0.112, |
|
"step": 3175 |
|
}, |
|
{ |
|
"epoch": 1.187, |
|
"grad_norm": 3.5483310222625732, |
|
"learning_rate": 4.001666666666667e-06, |
|
"loss": 0.1041, |
|
"step": 3200 |
|
}, |
|
{ |
|
"epoch": 1.190125, |
|
"grad_norm": 5.006927013397217, |
|
"learning_rate": 3.9808333333333335e-06, |
|
"loss": 0.1184, |
|
"step": 3225 |
|
}, |
|
{ |
|
"epoch": 1.19325, |
|
"grad_norm": 5.658267498016357, |
|
"learning_rate": 3.96e-06, |
|
"loss": 0.1141, |
|
"step": 3250 |
|
}, |
|
{ |
|
"epoch": 1.196375, |
|
"grad_norm": 2.7597854137420654, |
|
"learning_rate": 3.939166666666667e-06, |
|
"loss": 0.1107, |
|
"step": 3275 |
|
}, |
|
{ |
|
"epoch": 1.1995, |
|
"grad_norm": 4.687257289886475, |
|
"learning_rate": 3.918333333333334e-06, |
|
"loss": 0.1223, |
|
"step": 3300 |
|
}, |
|
{ |
|
"epoch": 1.202625, |
|
"grad_norm": 5.1347336769104, |
|
"learning_rate": 3.8975e-06, |
|
"loss": 0.1277, |
|
"step": 3325 |
|
}, |
|
{ |
|
"epoch": 1.20575, |
|
"grad_norm": 7.7792067527771, |
|
"learning_rate": 3.876666666666666e-06, |
|
"loss": 0.1293, |
|
"step": 3350 |
|
}, |
|
{ |
|
"epoch": 1.208875, |
|
"grad_norm": 3.461538791656494, |
|
"learning_rate": 3.855833333333334e-06, |
|
"loss": 0.1235, |
|
"step": 3375 |
|
}, |
|
{ |
|
"epoch": 1.212, |
|
"grad_norm": 3.458538055419922, |
|
"learning_rate": 3.8350000000000006e-06, |
|
"loss": 0.1094, |
|
"step": 3400 |
|
}, |
|
{ |
|
"epoch": 2.002125, |
|
"grad_norm": 6.5652313232421875, |
|
"learning_rate": 3.8141666666666664e-06, |
|
"loss": 0.0766, |
|
"step": 3425 |
|
}, |
|
{ |
|
"epoch": 2.00525, |
|
"grad_norm": 2.599691152572632, |
|
"learning_rate": 3.7933333333333336e-06, |
|
"loss": 0.0666, |
|
"step": 3450 |
|
}, |
|
{ |
|
"epoch": 2.008375, |
|
"grad_norm": 5.211915493011475, |
|
"learning_rate": 3.7725000000000003e-06, |
|
"loss": 0.0635, |
|
"step": 3475 |
|
}, |
|
{ |
|
"epoch": 2.0115, |
|
"grad_norm": 3.1992459297180176, |
|
"learning_rate": 3.7516666666666666e-06, |
|
"loss": 0.069, |
|
"step": 3500 |
|
}, |
|
{ |
|
"epoch": 2.0115, |
|
"eval_loss": 0.15404893457889557, |
|
"eval_runtime": 2458.0949, |
|
"eval_samples_per_second": 5.545, |
|
"eval_steps_per_second": 0.693, |
|
"eval_wer": 9.764923595587966, |
|
"step": 3500 |
|
}, |
|
{ |
|
"epoch": 2.014625, |
|
"grad_norm": 3.740165948867798, |
|
"learning_rate": 3.7308333333333333e-06, |
|
"loss": 0.0699, |
|
"step": 3525 |
|
}, |
|
{ |
|
"epoch": 2.01775, |
|
"grad_norm": 2.624305009841919, |
|
"learning_rate": 3.7100000000000005e-06, |
|
"loss": 0.0644, |
|
"step": 3550 |
|
}, |
|
{ |
|
"epoch": 2.020875, |
|
"grad_norm": 3.66835355758667, |
|
"learning_rate": 3.689166666666667e-06, |
|
"loss": 0.0552, |
|
"step": 3575 |
|
}, |
|
{ |
|
"epoch": 2.024, |
|
"grad_norm": 3.7992517948150635, |
|
"learning_rate": 3.6683333333333335e-06, |
|
"loss": 0.0715, |
|
"step": 3600 |
|
}, |
|
{ |
|
"epoch": 2.027125, |
|
"grad_norm": 3.4328665733337402, |
|
"learning_rate": 3.6475000000000002e-06, |
|
"loss": 0.0642, |
|
"step": 3625 |
|
}, |
|
{ |
|
"epoch": 2.03025, |
|
"grad_norm": 3.206305503845215, |
|
"learning_rate": 3.626666666666667e-06, |
|
"loss": 0.068, |
|
"step": 3650 |
|
}, |
|
{ |
|
"epoch": 2.033375, |
|
"grad_norm": 3.6906914710998535, |
|
"learning_rate": 3.6058333333333333e-06, |
|
"loss": 0.065, |
|
"step": 3675 |
|
}, |
|
{ |
|
"epoch": 2.0365, |
|
"grad_norm": 3.6564929485321045, |
|
"learning_rate": 3.585e-06, |
|
"loss": 0.0634, |
|
"step": 3700 |
|
}, |
|
{ |
|
"epoch": 2.039625, |
|
"grad_norm": 2.8516416549682617, |
|
"learning_rate": 3.564166666666667e-06, |
|
"loss": 0.0632, |
|
"step": 3725 |
|
}, |
|
{ |
|
"epoch": 2.04275, |
|
"grad_norm": 2.905165672302246, |
|
"learning_rate": 3.5433333333333334e-06, |
|
"loss": 0.0528, |
|
"step": 3750 |
|
}, |
|
{ |
|
"epoch": 2.045875, |
|
"grad_norm": 2.2724170684814453, |
|
"learning_rate": 3.5225e-06, |
|
"loss": 0.0604, |
|
"step": 3775 |
|
}, |
|
{ |
|
"epoch": 2.049, |
|
"grad_norm": 2.6760237216949463, |
|
"learning_rate": 3.501666666666667e-06, |
|
"loss": 0.0528, |
|
"step": 3800 |
|
}, |
|
{ |
|
"epoch": 2.052125, |
|
"grad_norm": 4.052576541900635, |
|
"learning_rate": 3.480833333333333e-06, |
|
"loss": 0.0535, |
|
"step": 3825 |
|
}, |
|
{ |
|
"epoch": 2.05525, |
|
"grad_norm": 3.6434435844421387, |
|
"learning_rate": 3.46e-06, |
|
"loss": 0.0499, |
|
"step": 3850 |
|
}, |
|
{ |
|
"epoch": 2.058375, |
|
"grad_norm": 2.612650156021118, |
|
"learning_rate": 3.439166666666667e-06, |
|
"loss": 0.0489, |
|
"step": 3875 |
|
}, |
|
{ |
|
"epoch": 2.0615, |
|
"grad_norm": 1.6679494380950928, |
|
"learning_rate": 3.4183333333333338e-06, |
|
"loss": 0.0475, |
|
"step": 3900 |
|
}, |
|
{ |
|
"epoch": 2.064625, |
|
"grad_norm": 2.7951669692993164, |
|
"learning_rate": 3.3975e-06, |
|
"loss": 0.0517, |
|
"step": 3925 |
|
}, |
|
{ |
|
"epoch": 2.06775, |
|
"grad_norm": 2.6957435607910156, |
|
"learning_rate": 3.376666666666667e-06, |
|
"loss": 0.0508, |
|
"step": 3950 |
|
}, |
|
{ |
|
"epoch": 2.070875, |
|
"grad_norm": 2.930025577545166, |
|
"learning_rate": 3.355833333333334e-06, |
|
"loss": 0.0554, |
|
"step": 3975 |
|
}, |
|
{ |
|
"epoch": 2.074, |
|
"grad_norm": 2.0811214447021484, |
|
"learning_rate": 3.335e-06, |
|
"loss": 0.0606, |
|
"step": 4000 |
|
}, |
|
{ |
|
"epoch": 2.074, |
|
"eval_loss": 0.1549645960330963, |
|
"eval_runtime": 2475.9667, |
|
"eval_samples_per_second": 5.505, |
|
"eval_steps_per_second": 0.688, |
|
"eval_wer": 9.819890798490235, |
|
"step": 4000 |
|
}, |
|
{ |
|
"epoch": 2.077125, |
|
"grad_norm": 2.389423370361328, |
|
"learning_rate": 3.314166666666667e-06, |
|
"loss": 0.0551, |
|
"step": 4025 |
|
}, |
|
{ |
|
"epoch": 2.08025, |
|
"grad_norm": 1.8350708484649658, |
|
"learning_rate": 3.2933333333333337e-06, |
|
"loss": 0.0501, |
|
"step": 4050 |
|
}, |
|
{ |
|
"epoch": 2.083375, |
|
"grad_norm": 3.053312063217163, |
|
"learning_rate": 3.2725e-06, |
|
"loss": 0.0526, |
|
"step": 4075 |
|
}, |
|
{ |
|
"epoch": 2.0865, |
|
"grad_norm": 3.489823341369629, |
|
"learning_rate": 3.2516666666666667e-06, |
|
"loss": 0.0476, |
|
"step": 4100 |
|
}, |
|
{ |
|
"epoch": 2.089625, |
|
"grad_norm": 3.742950916290283, |
|
"learning_rate": 3.2308333333333335e-06, |
|
"loss": 0.0614, |
|
"step": 4125 |
|
}, |
|
{ |
|
"epoch": 2.09275, |
|
"grad_norm": 1.9854848384857178, |
|
"learning_rate": 3.2099999999999998e-06, |
|
"loss": 0.0487, |
|
"step": 4150 |
|
}, |
|
{ |
|
"epoch": 2.095875, |
|
"grad_norm": 2.3751885890960693, |
|
"learning_rate": 3.1891666666666665e-06, |
|
"loss": 0.0496, |
|
"step": 4175 |
|
}, |
|
{ |
|
"epoch": 2.099, |
|
"grad_norm": 2.182997703552246, |
|
"learning_rate": 3.1683333333333336e-06, |
|
"loss": 0.0442, |
|
"step": 4200 |
|
}, |
|
{ |
|
"epoch": 2.102125, |
|
"grad_norm": 1.963120937347412, |
|
"learning_rate": 3.1475000000000004e-06, |
|
"loss": 0.0437, |
|
"step": 4225 |
|
}, |
|
{ |
|
"epoch": 2.10525, |
|
"grad_norm": 1.7127807140350342, |
|
"learning_rate": 3.1266666666666667e-06, |
|
"loss": 0.0479, |
|
"step": 4250 |
|
}, |
|
{ |
|
"epoch": 2.108375, |
|
"grad_norm": 3.277400016784668, |
|
"learning_rate": 3.1058333333333334e-06, |
|
"loss": 0.0535, |
|
"step": 4275 |
|
}, |
|
{ |
|
"epoch": 2.1115, |
|
"grad_norm": 3.1404621601104736, |
|
"learning_rate": 3.085e-06, |
|
"loss": 0.0431, |
|
"step": 4300 |
|
}, |
|
{ |
|
"epoch": 2.114625, |
|
"grad_norm": 3.8738794326782227, |
|
"learning_rate": 3.064166666666667e-06, |
|
"loss": 0.0436, |
|
"step": 4325 |
|
}, |
|
{ |
|
"epoch": 2.11775, |
|
"grad_norm": 2.9267311096191406, |
|
"learning_rate": 3.0433333333333336e-06, |
|
"loss": 0.0496, |
|
"step": 4350 |
|
}, |
|
{ |
|
"epoch": 2.120875, |
|
"grad_norm": 4.0710320472717285, |
|
"learning_rate": 3.0225e-06, |
|
"loss": 0.047, |
|
"step": 4375 |
|
}, |
|
{ |
|
"epoch": 2.124, |
|
"grad_norm": 2.9265050888061523, |
|
"learning_rate": 3.001666666666667e-06, |
|
"loss": 0.0434, |
|
"step": 4400 |
|
}, |
|
{ |
|
"epoch": 2.127125, |
|
"grad_norm": 2.666417121887207, |
|
"learning_rate": 2.9808333333333333e-06, |
|
"loss": 0.0357, |
|
"step": 4425 |
|
}, |
|
{ |
|
"epoch": 2.13025, |
|
"grad_norm": 3.082674741744995, |
|
"learning_rate": 2.9600000000000005e-06, |
|
"loss": 0.0486, |
|
"step": 4450 |
|
}, |
|
{ |
|
"epoch": 2.133375, |
|
"grad_norm": 2.291168689727783, |
|
"learning_rate": 2.9391666666666668e-06, |
|
"loss": 0.046, |
|
"step": 4475 |
|
}, |
|
{ |
|
"epoch": 2.1365, |
|
"grad_norm": 2.878455877304077, |
|
"learning_rate": 2.9183333333333335e-06, |
|
"loss": 0.0434, |
|
"step": 4500 |
|
}, |
|
{ |
|
"epoch": 2.1365, |
|
"eval_loss": 0.15800228714942932, |
|
"eval_runtime": 2430.3639, |
|
"eval_samples_per_second": 5.608, |
|
"eval_steps_per_second": 0.701, |
|
"eval_wer": 9.457107259335263, |
|
"step": 4500 |
|
}, |
|
{ |
|
"epoch": 2.139625, |
|
"grad_norm": 2.2872824668884277, |
|
"learning_rate": 2.8975e-06, |
|
"loss": 0.0507, |
|
"step": 4525 |
|
}, |
|
{ |
|
"epoch": 2.14275, |
|
"grad_norm": 1.6797173023223877, |
|
"learning_rate": 2.876666666666667e-06, |
|
"loss": 0.044, |
|
"step": 4550 |
|
}, |
|
{ |
|
"epoch": 2.145875, |
|
"grad_norm": 2.690349817276001, |
|
"learning_rate": 2.8558333333333337e-06, |
|
"loss": 0.041, |
|
"step": 4575 |
|
}, |
|
{ |
|
"epoch": 2.149, |
|
"grad_norm": 2.515873670578003, |
|
"learning_rate": 2.835e-06, |
|
"loss": 0.0503, |
|
"step": 4600 |
|
}, |
|
{ |
|
"epoch": 2.152125, |
|
"grad_norm": 3.210235595703125, |
|
"learning_rate": 2.8141666666666667e-06, |
|
"loss": 0.0539, |
|
"step": 4625 |
|
}, |
|
{ |
|
"epoch": 2.15525, |
|
"grad_norm": 2.19775128364563, |
|
"learning_rate": 2.7933333333333334e-06, |
|
"loss": 0.0486, |
|
"step": 4650 |
|
}, |
|
{ |
|
"epoch": 2.158375, |
|
"grad_norm": 2.8275535106658936, |
|
"learning_rate": 2.7725e-06, |
|
"loss": 0.0455, |
|
"step": 4675 |
|
}, |
|
{ |
|
"epoch": 2.1615, |
|
"grad_norm": 2.911288022994995, |
|
"learning_rate": 2.7516666666666664e-06, |
|
"loss": 0.0495, |
|
"step": 4700 |
|
}, |
|
{ |
|
"epoch": 2.164625, |
|
"grad_norm": 3.446293592453003, |
|
"learning_rate": 2.7308333333333336e-06, |
|
"loss": 0.0527, |
|
"step": 4725 |
|
}, |
|
{ |
|
"epoch": 2.16775, |
|
"grad_norm": 2.1223082542419434, |
|
"learning_rate": 2.71e-06, |
|
"loss": 0.0437, |
|
"step": 4750 |
|
}, |
|
{ |
|
"epoch": 2.170875, |
|
"grad_norm": 2.4212393760681152, |
|
"learning_rate": 2.689166666666667e-06, |
|
"loss": 0.0504, |
|
"step": 4775 |
|
}, |
|
{ |
|
"epoch": 2.174, |
|
"grad_norm": 2.440826177597046, |
|
"learning_rate": 2.6683333333333333e-06, |
|
"loss": 0.0432, |
|
"step": 4800 |
|
}, |
|
{ |
|
"epoch": 2.177125, |
|
"grad_norm": 2.3568456172943115, |
|
"learning_rate": 2.6475e-06, |
|
"loss": 0.0404, |
|
"step": 4825 |
|
}, |
|
{ |
|
"epoch": 2.18025, |
|
"grad_norm": 2.638301372528076, |
|
"learning_rate": 2.6266666666666668e-06, |
|
"loss": 0.0528, |
|
"step": 4850 |
|
}, |
|
{ |
|
"epoch": 2.183375, |
|
"grad_norm": 2.1262662410736084, |
|
"learning_rate": 2.6058333333333335e-06, |
|
"loss": 0.0468, |
|
"step": 4875 |
|
}, |
|
{ |
|
"epoch": 2.1865, |
|
"grad_norm": 1.8121278285980225, |
|
"learning_rate": 2.5850000000000002e-06, |
|
"loss": 0.0414, |
|
"step": 4900 |
|
}, |
|
{ |
|
"epoch": 2.189625, |
|
"grad_norm": 3.5271337032318115, |
|
"learning_rate": 2.564166666666667e-06, |
|
"loss": 0.0477, |
|
"step": 4925 |
|
}, |
|
{ |
|
"epoch": 2.19275, |
|
"grad_norm": 2.0672607421875, |
|
"learning_rate": 2.5433333333333333e-06, |
|
"loss": 0.0402, |
|
"step": 4950 |
|
}, |
|
{ |
|
"epoch": 2.195875, |
|
"grad_norm": 2.3378803730010986, |
|
"learning_rate": 2.5225000000000004e-06, |
|
"loss": 0.0458, |
|
"step": 4975 |
|
}, |
|
{ |
|
"epoch": 2.199, |
|
"grad_norm": 2.3618690967559814, |
|
"learning_rate": 2.5016666666666667e-06, |
|
"loss": 0.0455, |
|
"step": 5000 |
|
}, |
|
{ |
|
"epoch": 2.199, |
|
"eval_loss": 0.15326862037181854, |
|
"eval_runtime": 2431.3758, |
|
"eval_samples_per_second": 5.606, |
|
"eval_steps_per_second": 0.701, |
|
"eval_wer": 9.14104584264722, |
|
"step": 5000 |
|
}, |
|
{ |
|
"epoch": 2.202125, |
|
"grad_norm": 3.066169261932373, |
|
"learning_rate": 2.4808333333333334e-06, |
|
"loss": 0.0514, |
|
"step": 5025 |
|
}, |
|
{ |
|
"epoch": 2.20525, |
|
"grad_norm": 2.8991472721099854, |
|
"learning_rate": 2.46e-06, |
|
"loss": 0.0454, |
|
"step": 5050 |
|
}, |
|
{ |
|
"epoch": 2.208375, |
|
"grad_norm": 2.641075611114502, |
|
"learning_rate": 2.439166666666667e-06, |
|
"loss": 0.0448, |
|
"step": 5075 |
|
}, |
|
{ |
|
"epoch": 2.2115, |
|
"grad_norm": 3.234225034713745, |
|
"learning_rate": 2.4183333333333336e-06, |
|
"loss": 0.0504, |
|
"step": 5100 |
|
}, |
|
{ |
|
"epoch": 3.001625, |
|
"grad_norm": 1.9421311616897583, |
|
"learning_rate": 2.3975e-06, |
|
"loss": 0.0377, |
|
"step": 5125 |
|
}, |
|
{ |
|
"epoch": 3.00475, |
|
"grad_norm": 1.9280989170074463, |
|
"learning_rate": 2.3766666666666666e-06, |
|
"loss": 0.0291, |
|
"step": 5150 |
|
}, |
|
{ |
|
"epoch": 3.007875, |
|
"grad_norm": 1.701106309890747, |
|
"learning_rate": 2.3558333333333334e-06, |
|
"loss": 0.0254, |
|
"step": 5175 |
|
}, |
|
{ |
|
"epoch": 3.011, |
|
"grad_norm": 1.4093270301818848, |
|
"learning_rate": 2.335e-06, |
|
"loss": 0.0267, |
|
"step": 5200 |
|
}, |
|
{ |
|
"epoch": 3.014125, |
|
"grad_norm": 2.7806079387664795, |
|
"learning_rate": 2.314166666666667e-06, |
|
"loss": 0.0271, |
|
"step": 5225 |
|
}, |
|
{ |
|
"epoch": 3.01725, |
|
"grad_norm": 2.454941511154175, |
|
"learning_rate": 2.2933333333333335e-06, |
|
"loss": 0.0296, |
|
"step": 5250 |
|
}, |
|
{ |
|
"epoch": 3.020375, |
|
"grad_norm": 1.8080620765686035, |
|
"learning_rate": 2.2725e-06, |
|
"loss": 0.0254, |
|
"step": 5275 |
|
}, |
|
{ |
|
"epoch": 3.0235, |
|
"grad_norm": 2.4920754432678223, |
|
"learning_rate": 2.251666666666667e-06, |
|
"loss": 0.0242, |
|
"step": 5300 |
|
}, |
|
{ |
|
"epoch": 3.026625, |
|
"grad_norm": 1.4802467823028564, |
|
"learning_rate": 2.2308333333333333e-06, |
|
"loss": 0.0242, |
|
"step": 5325 |
|
}, |
|
{ |
|
"epoch": 3.02975, |
|
"grad_norm": 4.049746036529541, |
|
"learning_rate": 2.2100000000000004e-06, |
|
"loss": 0.026, |
|
"step": 5350 |
|
}, |
|
{ |
|
"epoch": 3.032875, |
|
"grad_norm": 2.304689884185791, |
|
"learning_rate": 2.1891666666666667e-06, |
|
"loss": 0.0261, |
|
"step": 5375 |
|
}, |
|
{ |
|
"epoch": 3.036, |
|
"grad_norm": 1.9863944053649902, |
|
"learning_rate": 2.1683333333333335e-06, |
|
"loss": 0.0251, |
|
"step": 5400 |
|
}, |
|
{ |
|
"epoch": 3.039125, |
|
"grad_norm": 2.0497422218322754, |
|
"learning_rate": 2.1475e-06, |
|
"loss": 0.0254, |
|
"step": 5425 |
|
}, |
|
{ |
|
"epoch": 3.04225, |
|
"grad_norm": 2.5717766284942627, |
|
"learning_rate": 2.126666666666667e-06, |
|
"loss": 0.0238, |
|
"step": 5450 |
|
}, |
|
{ |
|
"epoch": 3.045375, |
|
"grad_norm": 1.1389164924621582, |
|
"learning_rate": 2.1058333333333332e-06, |
|
"loss": 0.0208, |
|
"step": 5475 |
|
}, |
|
{ |
|
"epoch": 3.0485, |
|
"grad_norm": 1.5230340957641602, |
|
"learning_rate": 2.085e-06, |
|
"loss": 0.0216, |
|
"step": 5500 |
|
}, |
|
{ |
|
"epoch": 3.0485, |
|
"eval_loss": 0.1619918942451477, |
|
"eval_runtime": 2437.6868, |
|
"eval_samples_per_second": 5.591, |
|
"eval_steps_per_second": 0.699, |
|
"eval_wer": 9.08424639964821, |
|
"step": 5500 |
|
}, |
|
{ |
|
"epoch": 3.051625, |
|
"grad_norm": 1.907436728477478, |
|
"learning_rate": 2.0641666666666667e-06, |
|
"loss": 0.0224, |
|
"step": 5525 |
|
}, |
|
{ |
|
"epoch": 3.05475, |
|
"grad_norm": 1.5222604274749756, |
|
"learning_rate": 2.0433333333333334e-06, |
|
"loss": 0.0197, |
|
"step": 5550 |
|
}, |
|
{ |
|
"epoch": 3.057875, |
|
"grad_norm": 1.5284624099731445, |
|
"learning_rate": 2.0225e-06, |
|
"loss": 0.0152, |
|
"step": 5575 |
|
}, |
|
{ |
|
"epoch": 3.061, |
|
"grad_norm": 0.7098265886306763, |
|
"learning_rate": 2.0016666666666664e-06, |
|
"loss": 0.019, |
|
"step": 5600 |
|
}, |
|
{ |
|
"epoch": 3.064125, |
|
"grad_norm": 2.1706318855285645, |
|
"learning_rate": 1.9808333333333336e-06, |
|
"loss": 0.0189, |
|
"step": 5625 |
|
}, |
|
{ |
|
"epoch": 3.06725, |
|
"grad_norm": 2.888962745666504, |
|
"learning_rate": 1.96e-06, |
|
"loss": 0.0201, |
|
"step": 5650 |
|
}, |
|
{ |
|
"epoch": 3.070375, |
|
"grad_norm": 3.0322179794311523, |
|
"learning_rate": 1.939166666666667e-06, |
|
"loss": 0.0211, |
|
"step": 5675 |
|
}, |
|
{ |
|
"epoch": 3.0735, |
|
"grad_norm": 3.066394329071045, |
|
"learning_rate": 1.9183333333333333e-06, |
|
"loss": 0.0253, |
|
"step": 5700 |
|
}, |
|
{ |
|
"epoch": 3.076625, |
|
"grad_norm": 2.5032601356506348, |
|
"learning_rate": 1.8975e-06, |
|
"loss": 0.0236, |
|
"step": 5725 |
|
}, |
|
{ |
|
"epoch": 3.07975, |
|
"grad_norm": 1.5625773668289185, |
|
"learning_rate": 1.8766666666666668e-06, |
|
"loss": 0.0193, |
|
"step": 5750 |
|
}, |
|
{ |
|
"epoch": 3.082875, |
|
"grad_norm": 1.7981406450271606, |
|
"learning_rate": 1.8558333333333333e-06, |
|
"loss": 0.0157, |
|
"step": 5775 |
|
}, |
|
{ |
|
"epoch": 3.086, |
|
"grad_norm": 1.1411957740783691, |
|
"learning_rate": 1.8350000000000002e-06, |
|
"loss": 0.0217, |
|
"step": 5800 |
|
}, |
|
{ |
|
"epoch": 3.089125, |
|
"grad_norm": 1.1639596223831177, |
|
"learning_rate": 1.8141666666666667e-06, |
|
"loss": 0.0239, |
|
"step": 5825 |
|
}, |
|
{ |
|
"epoch": 3.09225, |
|
"grad_norm": 0.7168381810188293, |
|
"learning_rate": 1.7933333333333332e-06, |
|
"loss": 0.0218, |
|
"step": 5850 |
|
}, |
|
{ |
|
"epoch": 3.095375, |
|
"grad_norm": 1.1308009624481201, |
|
"learning_rate": 1.7725000000000002e-06, |
|
"loss": 0.0214, |
|
"step": 5875 |
|
}, |
|
{ |
|
"epoch": 3.0985, |
|
"grad_norm": 2.1142430305480957, |
|
"learning_rate": 1.7516666666666667e-06, |
|
"loss": 0.0155, |
|
"step": 5900 |
|
}, |
|
{ |
|
"epoch": 3.101625, |
|
"grad_norm": 1.479252815246582, |
|
"learning_rate": 1.7308333333333332e-06, |
|
"loss": 0.0176, |
|
"step": 5925 |
|
}, |
|
{ |
|
"epoch": 3.10475, |
|
"grad_norm": 1.3254590034484863, |
|
"learning_rate": 1.7100000000000001e-06, |
|
"loss": 0.0144, |
|
"step": 5950 |
|
}, |
|
{ |
|
"epoch": 3.107875, |
|
"grad_norm": 2.1925458908081055, |
|
"learning_rate": 1.6891666666666667e-06, |
|
"loss": 0.0162, |
|
"step": 5975 |
|
}, |
|
{ |
|
"epoch": 3.111, |
|
"grad_norm": 1.774483561515808, |
|
"learning_rate": 1.6683333333333336e-06, |
|
"loss": 0.017, |
|
"step": 6000 |
|
}, |
|
{ |
|
"epoch": 3.111, |
|
"eval_loss": 0.17044013738632202, |
|
"eval_runtime": 2431.1861, |
|
"eval_samples_per_second": 5.606, |
|
"eval_steps_per_second": 0.701, |
|
"eval_wer": 9.097988200373777, |
|
"step": 6000 |
|
}, |
|
{ |
|
"epoch": 3.114125, |
|
"grad_norm": 3.372814893722534, |
|
"learning_rate": 1.6483333333333334e-06, |
|
"loss": 0.0216, |
|
"step": 6025 |
|
}, |
|
{ |
|
"epoch": 3.11725, |
|
"grad_norm": 0.39716529846191406, |
|
"learning_rate": 1.6275000000000003e-06, |
|
"loss": 0.0161, |
|
"step": 6050 |
|
}, |
|
{ |
|
"epoch": 3.120375, |
|
"grad_norm": 1.4220778942108154, |
|
"learning_rate": 1.6066666666666668e-06, |
|
"loss": 0.0211, |
|
"step": 6075 |
|
}, |
|
{ |
|
"epoch": 3.1235, |
|
"grad_norm": 1.2959835529327393, |
|
"learning_rate": 1.5858333333333333e-06, |
|
"loss": 0.0187, |
|
"step": 6100 |
|
}, |
|
{ |
|
"epoch": 3.1266249999999998, |
|
"grad_norm": 1.9399360418319702, |
|
"learning_rate": 1.565e-06, |
|
"loss": 0.0123, |
|
"step": 6125 |
|
}, |
|
{ |
|
"epoch": 3.12975, |
|
"grad_norm": 2.898085594177246, |
|
"learning_rate": 1.5441666666666668e-06, |
|
"loss": 0.0197, |
|
"step": 6150 |
|
}, |
|
{ |
|
"epoch": 3.132875, |
|
"grad_norm": 3.642364263534546, |
|
"learning_rate": 1.5233333333333333e-06, |
|
"loss": 0.0162, |
|
"step": 6175 |
|
}, |
|
{ |
|
"epoch": 3.136, |
|
"grad_norm": 1.7888002395629883, |
|
"learning_rate": 1.5025e-06, |
|
"loss": 0.0164, |
|
"step": 6200 |
|
}, |
|
{ |
|
"epoch": 3.139125, |
|
"grad_norm": 2.3871753215789795, |
|
"learning_rate": 1.4816666666666667e-06, |
|
"loss": 0.0175, |
|
"step": 6225 |
|
}, |
|
{ |
|
"epoch": 3.1422499999999998, |
|
"grad_norm": 1.4263437986373901, |
|
"learning_rate": 1.4608333333333333e-06, |
|
"loss": 0.0152, |
|
"step": 6250 |
|
}, |
|
{ |
|
"epoch": 3.145375, |
|
"grad_norm": 2.174880027770996, |
|
"learning_rate": 1.44e-06, |
|
"loss": 0.0172, |
|
"step": 6275 |
|
}, |
|
{ |
|
"epoch": 3.1485, |
|
"grad_norm": 0.9558664560317993, |
|
"learning_rate": 1.4191666666666667e-06, |
|
"loss": 0.0172, |
|
"step": 6300 |
|
}, |
|
{ |
|
"epoch": 3.151625, |
|
"grad_norm": 2.228374719619751, |
|
"learning_rate": 1.3983333333333334e-06, |
|
"loss": 0.0173, |
|
"step": 6325 |
|
}, |
|
{ |
|
"epoch": 3.15475, |
|
"grad_norm": 1.3473858833312988, |
|
"learning_rate": 1.3775000000000002e-06, |
|
"loss": 0.0211, |
|
"step": 6350 |
|
}, |
|
{ |
|
"epoch": 3.1578749999999998, |
|
"grad_norm": 1.575217843055725, |
|
"learning_rate": 1.3566666666666667e-06, |
|
"loss": 0.0195, |
|
"step": 6375 |
|
}, |
|
{ |
|
"epoch": 3.161, |
|
"grad_norm": 1.4997564554214478, |
|
"learning_rate": 1.3358333333333334e-06, |
|
"loss": 0.0174, |
|
"step": 6400 |
|
}, |
|
{ |
|
"epoch": 3.164125, |
|
"grad_norm": 1.6651334762573242, |
|
"learning_rate": 1.3150000000000001e-06, |
|
"loss": 0.0178, |
|
"step": 6425 |
|
}, |
|
{ |
|
"epoch": 3.16725, |
|
"grad_norm": 1.9218391180038452, |
|
"learning_rate": 1.2941666666666668e-06, |
|
"loss": 0.0168, |
|
"step": 6450 |
|
}, |
|
{ |
|
"epoch": 3.170375, |
|
"grad_norm": 1.322709560394287, |
|
"learning_rate": 1.2733333333333334e-06, |
|
"loss": 0.0155, |
|
"step": 6475 |
|
}, |
|
{ |
|
"epoch": 3.1734999999999998, |
|
"grad_norm": 0.7265995144844055, |
|
"learning_rate": 1.2525e-06, |
|
"loss": 0.0174, |
|
"step": 6500 |
|
}, |
|
{ |
|
"epoch": 3.1734999999999998, |
|
"eval_loss": 0.16809040307998657, |
|
"eval_runtime": 2425.0716, |
|
"eval_samples_per_second": 5.62, |
|
"eval_steps_per_second": 0.703, |
|
"eval_wer": 9.072336839019385, |
|
"step": 6500 |
|
}, |
|
{ |
|
"epoch": 3.176625, |
|
"grad_norm": 3.6835756301879883, |
|
"learning_rate": 1.2316666666666668e-06, |
|
"loss": 0.0177, |
|
"step": 6525 |
|
}, |
|
{ |
|
"epoch": 3.17975, |
|
"grad_norm": 1.7619342803955078, |
|
"learning_rate": 1.2108333333333335e-06, |
|
"loss": 0.0212, |
|
"step": 6550 |
|
}, |
|
{ |
|
"epoch": 3.182875, |
|
"grad_norm": 1.547814130783081, |
|
"learning_rate": 1.19e-06, |
|
"loss": 0.0213, |
|
"step": 6575 |
|
}, |
|
{ |
|
"epoch": 3.186, |
|
"grad_norm": 2.0077638626098633, |
|
"learning_rate": 1.1691666666666668e-06, |
|
"loss": 0.016, |
|
"step": 6600 |
|
}, |
|
{ |
|
"epoch": 3.1891249999999998, |
|
"grad_norm": 1.806665062904358, |
|
"learning_rate": 1.1483333333333333e-06, |
|
"loss": 0.0165, |
|
"step": 6625 |
|
}, |
|
{ |
|
"epoch": 3.19225, |
|
"grad_norm": 1.9576735496520996, |
|
"learning_rate": 1.1283333333333333e-06, |
|
"loss": 0.0173, |
|
"step": 6650 |
|
}, |
|
{ |
|
"epoch": 3.195375, |
|
"grad_norm": 1.992625117301941, |
|
"learning_rate": 1.1075e-06, |
|
"loss": 0.0179, |
|
"step": 6675 |
|
}, |
|
{ |
|
"epoch": 3.1985, |
|
"grad_norm": 1.9625897407531738, |
|
"learning_rate": 1.0866666666666667e-06, |
|
"loss": 0.0174, |
|
"step": 6700 |
|
}, |
|
{ |
|
"epoch": 3.201625, |
|
"grad_norm": 1.079950213432312, |
|
"learning_rate": 1.0658333333333334e-06, |
|
"loss": 0.0189, |
|
"step": 6725 |
|
}, |
|
{ |
|
"epoch": 3.2047499999999998, |
|
"grad_norm": 1.7856156826019287, |
|
"learning_rate": 1.045e-06, |
|
"loss": 0.0179, |
|
"step": 6750 |
|
}, |
|
{ |
|
"epoch": 3.207875, |
|
"grad_norm": 0.44674980640411377, |
|
"learning_rate": 1.0241666666666667e-06, |
|
"loss": 0.0185, |
|
"step": 6775 |
|
}, |
|
{ |
|
"epoch": 3.211, |
|
"grad_norm": 2.1849780082702637, |
|
"learning_rate": 1.0033333333333334e-06, |
|
"loss": 0.0208, |
|
"step": 6800 |
|
}, |
|
{ |
|
"epoch": 4.001125, |
|
"grad_norm": 1.4259858131408691, |
|
"learning_rate": 9.825000000000001e-07, |
|
"loss": 0.0162, |
|
"step": 6825 |
|
}, |
|
{ |
|
"epoch": 4.00425, |
|
"grad_norm": 0.5507416129112244, |
|
"learning_rate": 9.616666666666668e-07, |
|
"loss": 0.0099, |
|
"step": 6850 |
|
}, |
|
{ |
|
"epoch": 4.007375, |
|
"grad_norm": 1.9662590026855469, |
|
"learning_rate": 9.408333333333334e-07, |
|
"loss": 0.0117, |
|
"step": 6875 |
|
}, |
|
{ |
|
"epoch": 4.0105, |
|
"grad_norm": 1.9439060688018799, |
|
"learning_rate": 9.2e-07, |
|
"loss": 0.0114, |
|
"step": 6900 |
|
}, |
|
{ |
|
"epoch": 4.013625, |
|
"grad_norm": 1.266473412513733, |
|
"learning_rate": 8.991666666666667e-07, |
|
"loss": 0.0085, |
|
"step": 6925 |
|
}, |
|
{ |
|
"epoch": 4.01675, |
|
"grad_norm": 1.4318881034851074, |
|
"learning_rate": 8.783333333333334e-07, |
|
"loss": 0.0095, |
|
"step": 6950 |
|
}, |
|
{ |
|
"epoch": 4.019875, |
|
"grad_norm": 1.7301366329193115, |
|
"learning_rate": 8.574999999999999e-07, |
|
"loss": 0.01, |
|
"step": 6975 |
|
}, |
|
{ |
|
"epoch": 4.023, |
|
"grad_norm": 0.7250347137451172, |
|
"learning_rate": 8.366666666666667e-07, |
|
"loss": 0.0098, |
|
"step": 7000 |
|
}, |
|
{ |
|
"epoch": 4.023, |
|
"eval_loss": 0.17248913645744324, |
|
"eval_runtime": 2424.7286, |
|
"eval_samples_per_second": 5.621, |
|
"eval_steps_per_second": 0.703, |
|
"eval_wer": 8.862545347942394, |
|
"step": 7000 |
|
}, |
|
{ |
|
"epoch": 4.026125, |
|
"grad_norm": 0.9742090702056885, |
|
"learning_rate": 8.158333333333334e-07, |
|
"loss": 0.0083, |
|
"step": 7025 |
|
}, |
|
{ |
|
"epoch": 4.02925, |
|
"grad_norm": 1.966017723083496, |
|
"learning_rate": 7.950000000000001e-07, |
|
"loss": 0.0098, |
|
"step": 7050 |
|
}, |
|
{ |
|
"epoch": 4.032375, |
|
"grad_norm": 0.3238462209701538, |
|
"learning_rate": 7.741666666666667e-07, |
|
"loss": 0.0106, |
|
"step": 7075 |
|
}, |
|
{ |
|
"epoch": 4.0355, |
|
"grad_norm": 1.1980866193771362, |
|
"learning_rate": 7.533333333333334e-07, |
|
"loss": 0.0095, |
|
"step": 7100 |
|
}, |
|
{ |
|
"epoch": 4.038625, |
|
"grad_norm": 1.5639567375183105, |
|
"learning_rate": 7.325e-07, |
|
"loss": 0.0079, |
|
"step": 7125 |
|
}, |
|
{ |
|
"epoch": 4.04175, |
|
"grad_norm": 2.4864511489868164, |
|
"learning_rate": 7.116666666666667e-07, |
|
"loss": 0.0081, |
|
"step": 7150 |
|
}, |
|
{ |
|
"epoch": 4.044875, |
|
"grad_norm": 0.3260515332221985, |
|
"learning_rate": 6.908333333333333e-07, |
|
"loss": 0.0078, |
|
"step": 7175 |
|
}, |
|
{ |
|
"epoch": 4.048, |
|
"grad_norm": 1.6305910348892212, |
|
"learning_rate": 6.7e-07, |
|
"loss": 0.0093, |
|
"step": 7200 |
|
}, |
|
{ |
|
"epoch": 4.051125, |
|
"grad_norm": 0.6141969561576843, |
|
"learning_rate": 6.491666666666667e-07, |
|
"loss": 0.0082, |
|
"step": 7225 |
|
}, |
|
{ |
|
"epoch": 4.05425, |
|
"grad_norm": 1.9699019193649292, |
|
"learning_rate": 6.283333333333334e-07, |
|
"loss": 0.0089, |
|
"step": 7250 |
|
}, |
|
{ |
|
"epoch": 4.057375, |
|
"grad_norm": 0.2788224518299103, |
|
"learning_rate": 6.075e-07, |
|
"loss": 0.0053, |
|
"step": 7275 |
|
}, |
|
{ |
|
"epoch": 4.0605, |
|
"grad_norm": 1.0774401426315308, |
|
"learning_rate": 5.866666666666667e-07, |
|
"loss": 0.0074, |
|
"step": 7300 |
|
}, |
|
{ |
|
"epoch": 4.063625, |
|
"grad_norm": 0.2802826166152954, |
|
"learning_rate": 5.658333333333334e-07, |
|
"loss": 0.007, |
|
"step": 7325 |
|
}, |
|
{ |
|
"epoch": 4.06675, |
|
"grad_norm": 0.459989458322525, |
|
"learning_rate": 5.450000000000001e-07, |
|
"loss": 0.0061, |
|
"step": 7350 |
|
}, |
|
{ |
|
"epoch": 4.069875, |
|
"grad_norm": 1.6869885921478271, |
|
"learning_rate": 5.241666666666667e-07, |
|
"loss": 0.007, |
|
"step": 7375 |
|
}, |
|
{ |
|
"epoch": 4.073, |
|
"grad_norm": 1.150252103805542, |
|
"learning_rate": 5.033333333333333e-07, |
|
"loss": 0.009, |
|
"step": 7400 |
|
}, |
|
{ |
|
"epoch": 4.076125, |
|
"grad_norm": 0.7096041440963745, |
|
"learning_rate": 4.825e-07, |
|
"loss": 0.0074, |
|
"step": 7425 |
|
}, |
|
{ |
|
"epoch": 4.07925, |
|
"grad_norm": 1.9114930629730225, |
|
"learning_rate": 4.6166666666666666e-07, |
|
"loss": 0.0081, |
|
"step": 7450 |
|
}, |
|
{ |
|
"epoch": 4.082375, |
|
"grad_norm": 0.41340845823287964, |
|
"learning_rate": 4.408333333333334e-07, |
|
"loss": 0.0078, |
|
"step": 7475 |
|
}, |
|
{ |
|
"epoch": 4.0855, |
|
"grad_norm": 1.241665005683899, |
|
"learning_rate": 4.2e-07, |
|
"loss": 0.0076, |
|
"step": 7500 |
|
}, |
|
{ |
|
"epoch": 4.0855, |
|
"eval_loss": 0.17651478946208954, |
|
"eval_runtime": 2432.1699, |
|
"eval_samples_per_second": 5.604, |
|
"eval_steps_per_second": 0.701, |
|
"eval_wer": 8.83506174649126, |
|
"step": 7500 |
|
}, |
|
{ |
|
"epoch": 4.088625, |
|
"grad_norm": 0.6228423714637756, |
|
"learning_rate": 3.991666666666667e-07, |
|
"loss": 0.0075, |
|
"step": 7525 |
|
}, |
|
{ |
|
"epoch": 4.09175, |
|
"grad_norm": 0.5548863410949707, |
|
"learning_rate": 3.7833333333333335e-07, |
|
"loss": 0.007, |
|
"step": 7550 |
|
}, |
|
{ |
|
"epoch": 4.094875, |
|
"grad_norm": 0.33007875084877014, |
|
"learning_rate": 3.575e-07, |
|
"loss": 0.0058, |
|
"step": 7575 |
|
}, |
|
{ |
|
"epoch": 4.098, |
|
"grad_norm": 1.3314837217330933, |
|
"learning_rate": 3.366666666666667e-07, |
|
"loss": 0.0068, |
|
"step": 7600 |
|
}, |
|
{ |
|
"epoch": 4.101125, |
|
"grad_norm": 2.230480909347534, |
|
"learning_rate": 3.1583333333333336e-07, |
|
"loss": 0.007, |
|
"step": 7625 |
|
}, |
|
{ |
|
"epoch": 4.10425, |
|
"grad_norm": 0.3246554136276245, |
|
"learning_rate": 2.95e-07, |
|
"loss": 0.0058, |
|
"step": 7650 |
|
}, |
|
{ |
|
"epoch": 4.107375, |
|
"grad_norm": 3.8842251300811768, |
|
"learning_rate": 2.7416666666666665e-07, |
|
"loss": 0.0071, |
|
"step": 7675 |
|
}, |
|
{ |
|
"epoch": 4.1105, |
|
"grad_norm": 0.27049753069877625, |
|
"learning_rate": 2.533333333333333e-07, |
|
"loss": 0.0068, |
|
"step": 7700 |
|
}, |
|
{ |
|
"epoch": 4.113625, |
|
"grad_norm": 1.5919678211212158, |
|
"learning_rate": 2.325e-07, |
|
"loss": 0.009, |
|
"step": 7725 |
|
}, |
|
{ |
|
"epoch": 4.11675, |
|
"grad_norm": 1.0917800664901733, |
|
"learning_rate": 2.116666666666667e-07, |
|
"loss": 0.0083, |
|
"step": 7750 |
|
}, |
|
{ |
|
"epoch": 4.119875, |
|
"grad_norm": 1.6236002445220947, |
|
"learning_rate": 1.9083333333333334e-07, |
|
"loss": 0.0077, |
|
"step": 7775 |
|
}, |
|
{ |
|
"epoch": 4.123, |
|
"grad_norm": 0.34154245257377625, |
|
"learning_rate": 1.7e-07, |
|
"loss": 0.0064, |
|
"step": 7800 |
|
}, |
|
{ |
|
"epoch": 4.126125, |
|
"grad_norm": 0.7562180757522583, |
|
"learning_rate": 1.4916666666666669e-07, |
|
"loss": 0.0073, |
|
"step": 7825 |
|
}, |
|
{ |
|
"epoch": 4.12925, |
|
"grad_norm": 1.4198355674743652, |
|
"learning_rate": 1.2833333333333333e-07, |
|
"loss": 0.0051, |
|
"step": 7850 |
|
}, |
|
{ |
|
"epoch": 4.132375, |
|
"grad_norm": 0.38768094778060913, |
|
"learning_rate": 1.075e-07, |
|
"loss": 0.0073, |
|
"step": 7875 |
|
}, |
|
{ |
|
"epoch": 4.1355, |
|
"grad_norm": 2.1387102603912354, |
|
"learning_rate": 8.666666666666666e-08, |
|
"loss": 0.0078, |
|
"step": 7900 |
|
}, |
|
{ |
|
"epoch": 4.138625, |
|
"grad_norm": 0.7683693170547485, |
|
"learning_rate": 6.583333333333333e-08, |
|
"loss": 0.006, |
|
"step": 7925 |
|
}, |
|
{ |
|
"epoch": 4.14175, |
|
"grad_norm": 0.40976452827453613, |
|
"learning_rate": 4.5e-08, |
|
"loss": 0.0059, |
|
"step": 7950 |
|
}, |
|
{ |
|
"epoch": 4.144875, |
|
"grad_norm": 0.3620973229408264, |
|
"learning_rate": 2.4166666666666668e-08, |
|
"loss": 0.0054, |
|
"step": 7975 |
|
}, |
|
{ |
|
"epoch": 4.148, |
|
"grad_norm": 0.28266406059265137, |
|
"learning_rate": 3.333333333333334e-09, |
|
"loss": 0.007, |
|
"step": 8000 |
|
}, |
|
{ |
|
"epoch": 4.148, |
|
"eval_loss": 0.17873740196228027, |
|
"eval_runtime": 2435.5612, |
|
"eval_samples_per_second": 5.596, |
|
"eval_steps_per_second": 0.7, |
|
"eval_wer": 8.8020814247499, |
|
"step": 8000 |
|
}, |
|
{ |
|
"epoch": 4.148, |
|
"step": 8000, |
|
"total_flos": 1.3062109848403968e+20, |
|
"train_loss": 0.11351343880966305, |
|
"train_runtime": 52381.6915, |
|
"train_samples_per_second": 2.444, |
|
"train_steps_per_second": 0.153 |
|
} |
|
], |
|
"logging_steps": 25, |
|
"max_steps": 8000, |
|
"num_input_tokens_seen": 0, |
|
"num_train_epochs": 9223372036854775807, |
|
"save_steps": 1000, |
|
"stateful_callbacks": { |
|
"TrainerControl": { |
|
"args": { |
|
"should_epoch_stop": false, |
|
"should_evaluate": false, |
|
"should_log": false, |
|
"should_save": true, |
|
"should_training_stop": true |
|
}, |
|
"attributes": {} |
|
} |
|
}, |
|
"total_flos": 1.3062109848403968e+20, |
|
"train_batch_size": 16, |
|
"trial_name": null, |
|
"trial_params": null |
|
} |
|
|