whisper-medium-eu / trainer_state.json

End of training

9ddd378 verified about 2 months ago

56.1 kB

	{
	"best_metric": 8.8020814247499,
	"best_model_checkpoint": "./checkpoint-8000",
	"epoch": 4.148,
	"eval_steps": 500,
	"global_step": 8000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.003125,
	"grad_norm": 15.080086708068848,
	"learning_rate": 2.875e-07,
	"loss": 1.3478,
	"step": 25
	},
	{
	"epoch": 0.00625,
	"grad_norm": 11.962413787841797,
	"learning_rate": 6.000000000000001e-07,
	"loss": 1.14,
	"step": 50
	},
	{
	"epoch": 0.009375,
	"grad_norm": 10.828227996826172,
	"learning_rate": 9.124999999999999e-07,
	"loss": 0.8401,
	"step": 75
	},
	{
	"epoch": 0.0125,
	"grad_norm": 9.401681900024414,
	"learning_rate": 1.2250000000000001e-06,
	"loss": 0.7112,
	"step": 100
	},
	{
	"epoch": 0.015625,
	"grad_norm": 9.252142906188965,
	"learning_rate": 1.5375e-06,
	"loss": 0.6528,
	"step": 125
	},
	{
	"epoch": 0.01875,
	"grad_norm": 10.718783378601074,
	"learning_rate": 1.85e-06,
	"loss": 0.6492,
	"step": 150
	},
	{
	"epoch": 0.021875,
	"grad_norm": 7.8105082511901855,
	"learning_rate": 2.1625e-06,
	"loss": 0.5886,
	"step": 175
	},
	{
	"epoch": 0.025,
	"grad_norm": 8.969450950622559,
	"learning_rate": 2.4750000000000004e-06,
	"loss": 0.5284,
	"step": 200
	},
	{
	"epoch": 0.028125,
	"grad_norm": 8.110017776489258,
	"learning_rate": 2.7875e-06,
	"loss": 0.5097,
	"step": 225
	},
	{
	"epoch": 0.03125,
	"grad_norm": 8.07854175567627,
	"learning_rate": 3.1e-06,
	"loss": 0.48,
	"step": 250
	},
	{
	"epoch": 0.034375,
	"grad_norm": 9.469429016113281,
	"learning_rate": 3.4125000000000004e-06,
	"loss": 0.4453,
	"step": 275
	},
	{
	"epoch": 0.0375,
	"grad_norm": 6.849759578704834,
	"learning_rate": 3.725e-06,
	"loss": 0.4249,
	"step": 300
	},
	{
	"epoch": 0.040625,
	"grad_norm": 8.43980598449707,
	"learning_rate": 4.037500000000001e-06,
	"loss": 0.4093,
	"step": 325
	},
	{
	"epoch": 0.04375,
	"grad_norm": 7.9978132247924805,
	"learning_rate": 4.35e-06,
	"loss": 0.4179,
	"step": 350
	},
	{
	"epoch": 0.046875,
	"grad_norm": 7.179676532745361,
	"learning_rate": 4.6625e-06,
	"loss": 0.366,
	"step": 375
	},
	{
	"epoch": 0.05,
	"grad_norm": 8.746236801147461,
	"learning_rate": 4.975000000000001e-06,
	"loss": 0.3484,
	"step": 400
	},
	{
	"epoch": 0.053125,
	"grad_norm": 6.08207893371582,
	"learning_rate": 5.2875e-06,
	"loss": 0.3177,
	"step": 425
	},
	{
	"epoch": 0.05625,
	"grad_norm": 7.5096235275268555,
	"learning_rate": 5.600000000000001e-06,
	"loss": 0.3407,
	"step": 450
	},
	{
	"epoch": 0.059375,
	"grad_norm": 6.521783828735352,
	"learning_rate": 5.9125e-06,
	"loss": 0.3323,
	"step": 475
	},
	{
	"epoch": 0.0625,
	"grad_norm": 6.018587589263916,
	"learning_rate": 6.2250000000000005e-06,
	"loss": 0.3171,
	"step": 500
	},
	{
	"epoch": 0.0625,
	"eval_loss": 0.33685919642448425,
	"eval_runtime": 2424.3615,
	"eval_samples_per_second": 5.622,
	"eval_steps_per_second": 0.703,
	"eval_wer": 25.53043350800689,
	"step": 500
	},
	{
	"epoch": 0.065625,
	"grad_norm": 6.343411922454834,
	"learning_rate": 6.230833333333334e-06,
	"loss": 0.323,
	"step": 525
	},
	{
	"epoch": 0.06875,
	"grad_norm": 6.164433479309082,
	"learning_rate": 6.210000000000001e-06,
	"loss": 0.2979,
	"step": 550
	},
	{
	"epoch": 0.071875,
	"grad_norm": 7.514057159423828,
	"learning_rate": 6.1891666666666666e-06,
	"loss": 0.2956,
	"step": 575
	},
	{
	"epoch": 0.075,
	"grad_norm": 5.7609992027282715,
	"learning_rate": 6.168333333333333e-06,
	"loss": 0.2966,
	"step": 600
	},
	{
	"epoch": 0.078125,
	"grad_norm": 6.035708427429199,
	"learning_rate": 6.147500000000001e-06,
	"loss": 0.2914,
	"step": 625
	},
	{
	"epoch": 0.08125,
	"grad_norm": 6.485240459442139,
	"learning_rate": 6.126666666666667e-06,
	"loss": 0.2929,
	"step": 650
	},
	{
	"epoch": 0.084375,
	"grad_norm": 5.631970405578613,
	"learning_rate": 6.1058333333333335e-06,
	"loss": 0.2676,
	"step": 675
	},
	{
	"epoch": 0.0875,
	"grad_norm": 6.642117977142334,
	"learning_rate": 6.085e-06,
	"loss": 0.2756,
	"step": 700
	},
	{
	"epoch": 0.090625,
	"grad_norm": 6.473007678985596,
	"learning_rate": 6.064166666666667e-06,
	"loss": 0.2613,
	"step": 725
	},
	{
	"epoch": 0.09375,
	"grad_norm": 6.47869348526001,
	"learning_rate": 6.043333333333334e-06,
	"loss": 0.2667,
	"step": 750
	},
	{
	"epoch": 0.096875,
	"grad_norm": 6.658367156982422,
	"learning_rate": 6.0225e-06,
	"loss": 0.2778,
	"step": 775
	},
	{
	"epoch": 0.1,
	"grad_norm": 7.887542724609375,
	"learning_rate": 6.001666666666667e-06,
	"loss": 0.3095,
	"step": 800
	},
	{
	"epoch": 0.103125,
	"grad_norm": 6.103913307189941,
	"learning_rate": 5.980833333333334e-06,
	"loss": 0.297,
	"step": 825
	},
	{
	"epoch": 0.10625,
	"grad_norm": 6.087416648864746,
	"learning_rate": 5.9600000000000005e-06,
	"loss": 0.2326,
	"step": 850
	},
	{
	"epoch": 0.109375,
	"grad_norm": 5.486704349517822,
	"learning_rate": 5.939166666666667e-06,
	"loss": 0.2215,
	"step": 875
	},
	{
	"epoch": 0.1125,
	"grad_norm": 5.353816986083984,
	"learning_rate": 5.918333333333333e-06,
	"loss": 0.205,
	"step": 900
	},
	{
	"epoch": 0.115625,
	"grad_norm": 5.429187774658203,
	"learning_rate": 5.8975e-06,
	"loss": 0.2185,
	"step": 925
	},
	{
	"epoch": 0.11875,
	"grad_norm": 5.181328773498535,
	"learning_rate": 5.8766666666666674e-06,
	"loss": 0.2069,
	"step": 950
	},
	{
	"epoch": 0.121875,
	"grad_norm": 4.126291751861572,
	"learning_rate": 5.855833333333333e-06,
	"loss": 0.2062,
	"step": 975
	},
	{
	"epoch": 0.125,
	"grad_norm": 5.896920204162598,
	"learning_rate": 5.835e-06,
	"loss": 0.1852,
	"step": 1000
	},
	{
	"epoch": 0.125,
	"eval_loss": 0.2408558428287506,
	"eval_runtime": 2415.6545,
	"eval_samples_per_second": 5.642,
	"eval_steps_per_second": 0.705,
	"eval_wer": 17.311004434021037,
	"step": 1000
	},
	{
	"epoch": 0.128125,
	"grad_norm": 5.046872138977051,
	"learning_rate": 5.814166666666667e-06,
	"loss": 0.2142,
	"step": 1025
	},
	{
	"epoch": 0.13125,
	"grad_norm": 6.671748638153076,
	"learning_rate": 5.793333333333334e-06,
	"loss": 0.2208,
	"step": 1050
	},
	{
	"epoch": 0.134375,
	"grad_norm": 6.533191680908203,
	"learning_rate": 5.7725e-06,
	"loss": 0.1944,
	"step": 1075
	},
	{
	"epoch": 0.1375,
	"grad_norm": 4.43493127822876,
	"learning_rate": 5.751666666666667e-06,
	"loss": 0.1816,
	"step": 1100
	},
	{
	"epoch": 0.140625,
	"grad_norm": 5.601134777069092,
	"learning_rate": 5.730833333333334e-06,
	"loss": 0.1884,
	"step": 1125
	},
	{
	"epoch": 0.14375,
	"grad_norm": 4.886395454406738,
	"learning_rate": 5.71e-06,
	"loss": 0.1712,
	"step": 1150
	},
	{
	"epoch": 0.146875,
	"grad_norm": 5.513830184936523,
	"learning_rate": 5.689166666666667e-06,
	"loss": 0.1835,
	"step": 1175
	},
	{
	"epoch": 0.15,
	"grad_norm": 6.305610179901123,
	"learning_rate": 5.668333333333334e-06,
	"loss": 0.2221,
	"step": 1200
	},
	{
	"epoch": 0.153125,
	"grad_norm": 6.482845306396484,
	"learning_rate": 5.6475e-06,
	"loss": 0.2138,
	"step": 1225
	},
	{
	"epoch": 0.15625,
	"grad_norm": 6.316329002380371,
	"learning_rate": 5.626666666666667e-06,
	"loss": 0.2338,
	"step": 1250
	},
	{
	"epoch": 0.159375,
	"grad_norm": 6.650278091430664,
	"learning_rate": 5.605833333333334e-06,
	"loss": 0.2231,
	"step": 1275
	},
	{
	"epoch": 0.1625,
	"grad_norm": 5.289668560028076,
	"learning_rate": 5.585e-06,
	"loss": 0.2018,
	"step": 1300
	},
	{
	"epoch": 0.165625,
	"grad_norm": 6.051737308502197,
	"learning_rate": 5.564166666666667e-06,
	"loss": 0.2092,
	"step": 1325
	},
	{
	"epoch": 0.16875,
	"grad_norm": 4.950199604034424,
	"learning_rate": 5.543333333333333e-06,
	"loss": 0.1934,
	"step": 1350
	},
	{
	"epoch": 0.171875,
	"grad_norm": 5.296252727508545,
	"learning_rate": 5.522500000000001e-06,
	"loss": 0.1806,
	"step": 1375
	},
	{
	"epoch": 0.175,
	"grad_norm": 5.999615669250488,
	"learning_rate": 5.501666666666667e-06,
	"loss": 0.1782,
	"step": 1400
	},
	{
	"epoch": 0.178125,
	"grad_norm": 3.7982959747314453,
	"learning_rate": 5.4808333333333335e-06,
	"loss": 0.1712,
	"step": 1425
	},
	{
	"epoch": 0.18125,
	"grad_norm": 6.798803806304932,
	"learning_rate": 5.46e-06,
	"loss": 0.1972,
	"step": 1450
	},
	{
	"epoch": 0.184375,
	"grad_norm": 5.545141220092773,
	"learning_rate": 5.439166666666667e-06,
	"loss": 0.2153,
	"step": 1475
	},
	{
	"epoch": 0.1875,
	"grad_norm": 5.619574546813965,
	"learning_rate": 5.418333333333334e-06,
	"loss": 0.2353,
	"step": 1500
	},
	{
	"epoch": 0.1875,
	"eval_loss": 0.20496371388435364,
	"eval_runtime": 2428.1499,
	"eval_samples_per_second": 5.613,
	"eval_steps_per_second": 0.702,
	"eval_wer": 14.222763750961926,
	"step": 1500
	},
	{
	"epoch": 0.190625,
	"grad_norm": 6.522052764892578,
	"learning_rate": 5.3975e-06,
	"loss": 0.2049,
	"step": 1525
	},
	{
	"epoch": 0.19375,
	"grad_norm": 5.805539608001709,
	"learning_rate": 5.376666666666666e-06,
	"loss": 0.1931,
	"step": 1550
	},
	{
	"epoch": 0.196875,
	"grad_norm": 5.707961082458496,
	"learning_rate": 5.355833333333334e-06,
	"loss": 0.1944,
	"step": 1575
	},
	{
	"epoch": 0.2,
	"grad_norm": 6.126225471496582,
	"learning_rate": 5.335000000000001e-06,
	"loss": 0.225,
	"step": 1600
	},
	{
	"epoch": 0.203125,
	"grad_norm": 5.682012557983398,
	"learning_rate": 5.3141666666666665e-06,
	"loss": 0.2225,
	"step": 1625
	},
	{
	"epoch": 0.20625,
	"grad_norm": 5.529600620269775,
	"learning_rate": 5.293333333333333e-06,
	"loss": 0.2154,
	"step": 1650
	},
	{
	"epoch": 0.209375,
	"grad_norm": 8.373395919799805,
	"learning_rate": 5.272500000000001e-06,
	"loss": 0.1866,
	"step": 1675
	},
	{
	"epoch": 0.2125,
	"grad_norm": 4.936291694641113,
	"learning_rate": 5.2516666666666675e-06,
	"loss": 0.1615,
	"step": 1700
	},
	{
	"epoch": 1.002625,
	"grad_norm": 4.893776893615723,
	"learning_rate": 5.230833333333333e-06,
	"loss": 0.172,
	"step": 1725
	},
	{
	"epoch": 1.00575,
	"grad_norm": 4.98813533782959,
	"learning_rate": 5.21e-06,
	"loss": 0.1591,
	"step": 1750
	},
	{
	"epoch": 1.008875,
	"grad_norm": 6.166538715362549,
	"learning_rate": 5.189166666666667e-06,
	"loss": 0.1712,
	"step": 1775
	},
	{
	"epoch": 1.012,
	"grad_norm": 4.1829071044921875,
	"learning_rate": 5.1683333333333335e-06,
	"loss": 0.1908,
	"step": 1800
	},
	{
	"epoch": 1.015125,
	"grad_norm": 5.497808456420898,
	"learning_rate": 5.1475e-06,
	"loss": 0.1791,
	"step": 1825
	},
	{
	"epoch": 1.01825,
	"grad_norm": 4.581858158111572,
	"learning_rate": 5.126666666666667e-06,
	"loss": 0.1685,
	"step": 1850
	},
	{
	"epoch": 1.021375,
	"grad_norm": 4.6282267570495605,
	"learning_rate": 5.105833333333334e-06,
	"loss": 0.1691,
	"step": 1875
	},
	{
	"epoch": 1.0245,
	"grad_norm": 5.748936653137207,
	"learning_rate": 5.0850000000000004e-06,
	"loss": 0.1577,
	"step": 1900
	},
	{
	"epoch": 1.027625,
	"grad_norm": 4.339770793914795,
	"learning_rate": 5.064166666666667e-06,
	"loss": 0.168,
	"step": 1925
	},
	{
	"epoch": 1.03075,
	"grad_norm": 3.72379469871521,
	"learning_rate": 5.043333333333333e-06,
	"loss": 0.1616,
	"step": 1950
	},
	{
	"epoch": 1.033875,
	"grad_norm": 5.169766902923584,
	"learning_rate": 5.0225e-06,
	"loss": 0.1663,
	"step": 1975
	},
	{
	"epoch": 1.037,
	"grad_norm": 6.120935440063477,
	"learning_rate": 5.001666666666667e-06,
	"loss": 0.1569,
	"step": 2000
	},
	{
	"epoch": 1.037,
	"eval_loss": 0.181504026055336,
	"eval_runtime": 2441.5281,
	"eval_samples_per_second": 5.583,
	"eval_steps_per_second": 0.698,
	"eval_wer": 12.286085968705338,
	"step": 2000
	},
	{
	"epoch": 1.040125,
	"grad_norm": 3.2327628135681152,
	"learning_rate": 4.980833333333334e-06,
	"loss": 0.1526,
	"step": 2025
	},
	{
	"epoch": 1.04325,
	"grad_norm": 4.2089948654174805,
	"learning_rate": 4.96e-06,
	"loss": 0.1427,
	"step": 2050
	},
	{
	"epoch": 1.046375,
	"grad_norm": 4.837276458740234,
	"learning_rate": 4.939166666666667e-06,
	"loss": 0.1429,
	"step": 2075
	},
	{
	"epoch": 1.0495,
	"grad_norm": 4.590527057647705,
	"learning_rate": 4.918333333333334e-06,
	"loss": 0.1306,
	"step": 2100
	},
	{
	"epoch": 1.052625,
	"grad_norm": 5.821957111358643,
	"learning_rate": 4.8975e-06,
	"loss": 0.1504,
	"step": 2125
	},
	{
	"epoch": 1.05575,
	"grad_norm": 4.136687278747559,
	"learning_rate": 4.876666666666667e-06,
	"loss": 0.1431,
	"step": 2150
	},
	{
	"epoch": 1.058875,
	"grad_norm": 4.310347080230713,
	"learning_rate": 4.8558333333333336e-06,
	"loss": 0.1364,
	"step": 2175
	},
	{
	"epoch": 1.062,
	"grad_norm": 4.1295485496521,
	"learning_rate": 4.835e-06,
	"loss": 0.1272,
	"step": 2200
	},
	{
	"epoch": 1.065125,
	"grad_norm": 4.432501316070557,
	"learning_rate": 4.814166666666667e-06,
	"loss": 0.1256,
	"step": 2225
	},
	{
	"epoch": 1.06825,
	"grad_norm": 3.792029619216919,
	"learning_rate": 4.793333333333334e-06,
	"loss": 0.1322,
	"step": 2250
	},
	{
	"epoch": 1.071375,
	"grad_norm": 4.919213771820068,
	"learning_rate": 4.7725e-06,
	"loss": 0.1477,
	"step": 2275
	},
	{
	"epoch": 1.0745,
	"grad_norm": 5.92459774017334,
	"learning_rate": 4.751666666666666e-06,
	"loss": 0.1518,
	"step": 2300
	},
	{
	"epoch": 1.077625,
	"grad_norm": 5.6381635665893555,
	"learning_rate": 4.730833333333334e-06,
	"loss": 0.1489,
	"step": 2325
	},
	{
	"epoch": 1.08075,
	"grad_norm": 4.690910816192627,
	"learning_rate": 4.710000000000001e-06,
	"loss": 0.1216,
	"step": 2350
	},
	{
	"epoch": 1.083875,
	"grad_norm": 3.847102165222168,
	"learning_rate": 4.6891666666666665e-06,
	"loss": 0.1243,
	"step": 2375
	},
	{
	"epoch": 1.087,
	"grad_norm": 2.3183677196502686,
	"learning_rate": 4.668333333333333e-06,
	"loss": 0.1301,
	"step": 2400
	},
	{
	"epoch": 1.090125,
	"grad_norm": 3.9808385372161865,
	"learning_rate": 4.647500000000001e-06,
	"loss": 0.1289,
	"step": 2425
	},
	{
	"epoch": 1.09325,
	"grad_norm": 4.1279616355896,
	"learning_rate": 4.626666666666667e-06,
	"loss": 0.119,
	"step": 2450
	},
	{
	"epoch": 1.096375,
	"grad_norm": 4.029735088348389,
	"learning_rate": 4.605833333333333e-06,
	"loss": 0.1235,
	"step": 2475
	},
	{
	"epoch": 1.0995,
	"grad_norm": 5.72581148147583,
	"learning_rate": 4.585e-06,
	"loss": 0.125,
	"step": 2500
	},
	{
	"epoch": 1.0995,
	"eval_loss": 0.16921907663345337,
	"eval_runtime": 2457.6523,
	"eval_samples_per_second": 5.546,
	"eval_steps_per_second": 0.693,
	"eval_wer": 11.114368426838652,
	"step": 2500
	},
	{
	"epoch": 1.102625,
	"grad_norm": 4.8854875564575195,
	"learning_rate": 4.564166666666667e-06,
	"loss": 0.122,
	"step": 2525
	},
	{
	"epoch": 1.10575,
	"grad_norm": 3.682393789291382,
	"learning_rate": 4.543333333333334e-06,
	"loss": 0.1169,
	"step": 2550
	},
	{
	"epoch": 1.108875,
	"grad_norm": 3.8288307189941406,
	"learning_rate": 4.5225e-06,
	"loss": 0.1184,
	"step": 2575
	},
	{
	"epoch": 1.112,
	"grad_norm": 5.098357677459717,
	"learning_rate": 4.501666666666667e-06,
	"loss": 0.1235,
	"step": 2600
	},
	{
	"epoch": 1.115125,
	"grad_norm": 3.420466899871826,
	"learning_rate": 4.480833333333334e-06,
	"loss": 0.1277,
	"step": 2625
	},
	{
	"epoch": 1.11825,
	"grad_norm": 4.542791843414307,
	"learning_rate": 4.4600000000000005e-06,
	"loss": 0.1214,
	"step": 2650
	},
	{
	"epoch": 1.121375,
	"grad_norm": 3.245755195617676,
	"learning_rate": 4.439166666666667e-06,
	"loss": 0.1109,
	"step": 2675
	},
	{
	"epoch": 1.1245,
	"grad_norm": 5.041585445404053,
	"learning_rate": 4.418333333333333e-06,
	"loss": 0.1295,
	"step": 2700
	},
	{
	"epoch": 1.127625,
	"grad_norm": 4.113171577453613,
	"learning_rate": 4.3975e-06,
	"loss": 0.1153,
	"step": 2725
	},
	{
	"epoch": 1.13075,
	"grad_norm": 5.032025337219238,
	"learning_rate": 4.376666666666667e-06,
	"loss": 0.1204,
	"step": 2750
	},
	{
	"epoch": 1.133875,
	"grad_norm": 5.080983638763428,
	"learning_rate": 4.355833333333333e-06,
	"loss": 0.1213,
	"step": 2775
	},
	{
	"epoch": 1.137,
	"grad_norm": 4.304152011871338,
	"learning_rate": 4.335e-06,
	"loss": 0.1069,
	"step": 2800
	},
	{
	"epoch": 1.140125,
	"grad_norm": 3.1360485553741455,
	"learning_rate": 4.314166666666667e-06,
	"loss": 0.1167,
	"step": 2825
	},
	{
	"epoch": 1.14325,
	"grad_norm": 4.444480895996094,
	"learning_rate": 4.2933333333333334e-06,
	"loss": 0.1117,
	"step": 2850
	},
	{
	"epoch": 1.146375,
	"grad_norm": 3.8886942863464355,
	"learning_rate": 4.2725e-06,
	"loss": 0.1134,
	"step": 2875
	},
	{
	"epoch": 1.1495,
	"grad_norm": 4.360485076904297,
	"learning_rate": 4.251666666666667e-06,
	"loss": 0.1334,
	"step": 2900
	},
	{
	"epoch": 1.152625,
	"grad_norm": 5.376945972442627,
	"learning_rate": 4.230833333333334e-06,
	"loss": 0.1163,
	"step": 2925
	},
	{
	"epoch": 1.15575,
	"grad_norm": 4.359200954437256,
	"learning_rate": 4.21e-06,
	"loss": 0.1351,
	"step": 2950
	},
	{
	"epoch": 1.158875,
	"grad_norm": 5.360095977783203,
	"learning_rate": 4.189166666666667e-06,
	"loss": 0.1113,
	"step": 2975
	},
	{
	"epoch": 1.162,
	"grad_norm": 3.6014363765716553,
	"learning_rate": 4.168333333333334e-06,
	"loss": 0.12,
	"step": 3000
	},
	{
	"epoch": 1.162,
	"eval_loss": 0.15999051928520203,
	"eval_runtime": 2448.4453,
	"eval_samples_per_second": 5.567,
	"eval_steps_per_second": 0.696,
	"eval_wer": 10.697533804829785,
	"step": 3000
	},
	{
	"epoch": 1.165125,
	"grad_norm": 4.150473594665527,
	"learning_rate": 4.1475e-06,
	"loss": 0.1196,
	"step": 3025
	},
	{
	"epoch": 1.16825,
	"grad_norm": 4.962148666381836,
	"learning_rate": 4.126666666666667e-06,
	"loss": 0.1261,
	"step": 3050
	},
	{
	"epoch": 1.171375,
	"grad_norm": 2.9675393104553223,
	"learning_rate": 4.105833333333334e-06,
	"loss": 0.1087,
	"step": 3075
	},
	{
	"epoch": 1.1745,
	"grad_norm": 5.842774868011475,
	"learning_rate": 4.085e-06,
	"loss": 0.1067,
	"step": 3100
	},
	{
	"epoch": 1.177625,
	"grad_norm": 5.209335803985596,
	"learning_rate": 4.064166666666667e-06,
	"loss": 0.114,
	"step": 3125
	},
	{
	"epoch": 1.18075,
	"grad_norm": 4.343747138977051,
	"learning_rate": 4.043333333333333e-06,
	"loss": 0.1398,
	"step": 3150
	},
	{
	"epoch": 1.183875,
	"grad_norm": 4.5666890144348145,
	"learning_rate": 4.0225e-06,
	"loss": 0.112,
	"step": 3175
	},
	{
	"epoch": 1.187,
	"grad_norm": 3.5483310222625732,
	"learning_rate": 4.001666666666667e-06,
	"loss": 0.1041,
	"step": 3200
	},
	{
	"epoch": 1.190125,
	"grad_norm": 5.006927013397217,
	"learning_rate": 3.9808333333333335e-06,
	"loss": 0.1184,
	"step": 3225
	},
	{
	"epoch": 1.19325,
	"grad_norm": 5.658267498016357,
	"learning_rate": 3.96e-06,
	"loss": 0.1141,
	"step": 3250
	},
	{
	"epoch": 1.196375,
	"grad_norm": 2.7597854137420654,
	"learning_rate": 3.939166666666667e-06,
	"loss": 0.1107,
	"step": 3275
	},
	{
	"epoch": 1.1995,
	"grad_norm": 4.687257289886475,
	"learning_rate": 3.918333333333334e-06,
	"loss": 0.1223,
	"step": 3300
	},
	{
	"epoch": 1.202625,
	"grad_norm": 5.1347336769104,
	"learning_rate": 3.8975e-06,
	"loss": 0.1277,
	"step": 3325
	},
	{
	"epoch": 1.20575,
	"grad_norm": 7.7792067527771,
	"learning_rate": 3.876666666666666e-06,
	"loss": 0.1293,
	"step": 3350
	},
	{
	"epoch": 1.208875,
	"grad_norm": 3.461538791656494,
	"learning_rate": 3.855833333333334e-06,
	"loss": 0.1235,
	"step": 3375
	},
	{
	"epoch": 1.212,
	"grad_norm": 3.458538055419922,
	"learning_rate": 3.8350000000000006e-06,
	"loss": 0.1094,
	"step": 3400
	},
	{
	"epoch": 2.002125,
	"grad_norm": 6.5652313232421875,
	"learning_rate": 3.8141666666666664e-06,
	"loss": 0.0766,
	"step": 3425
	},
	{
	"epoch": 2.00525,
	"grad_norm": 2.599691152572632,
	"learning_rate": 3.7933333333333336e-06,
	"loss": 0.0666,
	"step": 3450
	},
	{
	"epoch": 2.008375,
	"grad_norm": 5.211915493011475,
	"learning_rate": 3.7725000000000003e-06,
	"loss": 0.0635,
	"step": 3475
	},
	{
	"epoch": 2.0115,
	"grad_norm": 3.1992459297180176,
	"learning_rate": 3.7516666666666666e-06,
	"loss": 0.069,
	"step": 3500
	},
	{
	"epoch": 2.0115,
	"eval_loss": 0.15404893457889557,
	"eval_runtime": 2458.0949,
	"eval_samples_per_second": 5.545,
	"eval_steps_per_second": 0.693,
	"eval_wer": 9.764923595587966,
	"step": 3500
	},
	{
	"epoch": 2.014625,
	"grad_norm": 3.740165948867798,
	"learning_rate": 3.7308333333333333e-06,
	"loss": 0.0699,
	"step": 3525
	},
	{
	"epoch": 2.01775,
	"grad_norm": 2.624305009841919,
	"learning_rate": 3.7100000000000005e-06,
	"loss": 0.0644,
	"step": 3550
	},
	{
	"epoch": 2.020875,
	"grad_norm": 3.66835355758667,
	"learning_rate": 3.689166666666667e-06,
	"loss": 0.0552,
	"step": 3575
	},
	{
	"epoch": 2.024,
	"grad_norm": 3.7992517948150635,
	"learning_rate": 3.6683333333333335e-06,
	"loss": 0.0715,
	"step": 3600
	},
	{
	"epoch": 2.027125,
	"grad_norm": 3.4328665733337402,
	"learning_rate": 3.6475000000000002e-06,
	"loss": 0.0642,
	"step": 3625
	},
	{
	"epoch": 2.03025,
	"grad_norm": 3.206305503845215,
	"learning_rate": 3.626666666666667e-06,
	"loss": 0.068,
	"step": 3650
	},
	{
	"epoch": 2.033375,
	"grad_norm": 3.6906914710998535,
	"learning_rate": 3.6058333333333333e-06,
	"loss": 0.065,
	"step": 3675
	},
	{
	"epoch": 2.0365,
	"grad_norm": 3.6564929485321045,
	"learning_rate": 3.585e-06,
	"loss": 0.0634,
	"step": 3700
	},
	{
	"epoch": 2.039625,
	"grad_norm": 2.8516416549682617,
	"learning_rate": 3.564166666666667e-06,
	"loss": 0.0632,
	"step": 3725
	},
	{
	"epoch": 2.04275,
	"grad_norm": 2.905165672302246,
	"learning_rate": 3.5433333333333334e-06,
	"loss": 0.0528,
	"step": 3750
	},
	{
	"epoch": 2.045875,
	"grad_norm": 2.2724170684814453,
	"learning_rate": 3.5225e-06,
	"loss": 0.0604,
	"step": 3775
	},
	{
	"epoch": 2.049,
	"grad_norm": 2.6760237216949463,
	"learning_rate": 3.501666666666667e-06,
	"loss": 0.0528,
	"step": 3800
	},
	{
	"epoch": 2.052125,
	"grad_norm": 4.052576541900635,
	"learning_rate": 3.480833333333333e-06,
	"loss": 0.0535,
	"step": 3825
	},
	{
	"epoch": 2.05525,
	"grad_norm": 3.6434435844421387,
	"learning_rate": 3.46e-06,
	"loss": 0.0499,
	"step": 3850
	},
	{
	"epoch": 2.058375,
	"grad_norm": 2.612650156021118,
	"learning_rate": 3.439166666666667e-06,
	"loss": 0.0489,
	"step": 3875
	},
	{
	"epoch": 2.0615,
	"grad_norm": 1.6679494380950928,
	"learning_rate": 3.4183333333333338e-06,
	"loss": 0.0475,
	"step": 3900
	},
	{
	"epoch": 2.064625,
	"grad_norm": 2.7951669692993164,
	"learning_rate": 3.3975e-06,
	"loss": 0.0517,
	"step": 3925
	},
	{
	"epoch": 2.06775,
	"grad_norm": 2.6957435607910156,
	"learning_rate": 3.376666666666667e-06,
	"loss": 0.0508,
	"step": 3950
	},
	{
	"epoch": 2.070875,
	"grad_norm": 2.930025577545166,
	"learning_rate": 3.355833333333334e-06,
	"loss": 0.0554,
	"step": 3975
	},
	{
	"epoch": 2.074,
	"grad_norm": 2.0811214447021484,
	"learning_rate": 3.335e-06,
	"loss": 0.0606,
	"step": 4000
	},
	{
	"epoch": 2.074,
	"eval_loss": 0.1549645960330963,
	"eval_runtime": 2475.9667,
	"eval_samples_per_second": 5.505,
	"eval_steps_per_second": 0.688,
	"eval_wer": 9.819890798490235,
	"step": 4000
	},
	{
	"epoch": 2.077125,
	"grad_norm": 2.389423370361328,
	"learning_rate": 3.314166666666667e-06,
	"loss": 0.0551,
	"step": 4025
	},
	{
	"epoch": 2.08025,
	"grad_norm": 1.8350708484649658,
	"learning_rate": 3.2933333333333337e-06,
	"loss": 0.0501,
	"step": 4050
	},
	{
	"epoch": 2.083375,
	"grad_norm": 3.053312063217163,
	"learning_rate": 3.2725e-06,
	"loss": 0.0526,
	"step": 4075
	},
	{
	"epoch": 2.0865,
	"grad_norm": 3.489823341369629,
	"learning_rate": 3.2516666666666667e-06,
	"loss": 0.0476,
	"step": 4100
	},
	{
	"epoch": 2.089625,
	"grad_norm": 3.742950916290283,
	"learning_rate": 3.2308333333333335e-06,
	"loss": 0.0614,
	"step": 4125
	},
	{
	"epoch": 2.09275,
	"grad_norm": 1.9854848384857178,
	"learning_rate": 3.2099999999999998e-06,
	"loss": 0.0487,
	"step": 4150
	},
	{
	"epoch": 2.095875,
	"grad_norm": 2.3751885890960693,
	"learning_rate": 3.1891666666666665e-06,
	"loss": 0.0496,
	"step": 4175
	},
	{
	"epoch": 2.099,
	"grad_norm": 2.182997703552246,
	"learning_rate": 3.1683333333333336e-06,
	"loss": 0.0442,
	"step": 4200
	},
	{
	"epoch": 2.102125,
	"grad_norm": 1.963120937347412,
	"learning_rate": 3.1475000000000004e-06,
	"loss": 0.0437,
	"step": 4225
	},
	{
	"epoch": 2.10525,
	"grad_norm": 1.7127807140350342,
	"learning_rate": 3.1266666666666667e-06,
	"loss": 0.0479,
	"step": 4250
	},
	{
	"epoch": 2.108375,
	"grad_norm": 3.277400016784668,
	"learning_rate": 3.1058333333333334e-06,
	"loss": 0.0535,
	"step": 4275
	},
	{
	"epoch": 2.1115,
	"grad_norm": 3.1404621601104736,
	"learning_rate": 3.085e-06,
	"loss": 0.0431,
	"step": 4300
	},
	{
	"epoch": 2.114625,
	"grad_norm": 3.8738794326782227,
	"learning_rate": 3.064166666666667e-06,
	"loss": 0.0436,
	"step": 4325
	},
	{
	"epoch": 2.11775,
	"grad_norm": 2.9267311096191406,
	"learning_rate": 3.0433333333333336e-06,
	"loss": 0.0496,
	"step": 4350
	},
	{
	"epoch": 2.120875,
	"grad_norm": 4.0710320472717285,
	"learning_rate": 3.0225e-06,
	"loss": 0.047,
	"step": 4375
	},
	{
	"epoch": 2.124,
	"grad_norm": 2.9265050888061523,
	"learning_rate": 3.001666666666667e-06,
	"loss": 0.0434,
	"step": 4400
	},
	{
	"epoch": 2.127125,
	"grad_norm": 2.666417121887207,
	"learning_rate": 2.9808333333333333e-06,
	"loss": 0.0357,
	"step": 4425
	},
	{
	"epoch": 2.13025,
	"grad_norm": 3.082674741744995,
	"learning_rate": 2.9600000000000005e-06,
	"loss": 0.0486,
	"step": 4450
	},
	{
	"epoch": 2.133375,
	"grad_norm": 2.291168689727783,
	"learning_rate": 2.9391666666666668e-06,
	"loss": 0.046,
	"step": 4475
	},
	{
	"epoch": 2.1365,
	"grad_norm": 2.878455877304077,
	"learning_rate": 2.9183333333333335e-06,
	"loss": 0.0434,
	"step": 4500
	},
	{
	"epoch": 2.1365,
	"eval_loss": 0.15800228714942932,
	"eval_runtime": 2430.3639,
	"eval_samples_per_second": 5.608,
	"eval_steps_per_second": 0.701,
	"eval_wer": 9.457107259335263,
	"step": 4500
	},
	{
	"epoch": 2.139625,
	"grad_norm": 2.2872824668884277,
	"learning_rate": 2.8975e-06,
	"loss": 0.0507,
	"step": 4525
	},
	{
	"epoch": 2.14275,
	"grad_norm": 1.6797173023223877,
	"learning_rate": 2.876666666666667e-06,
	"loss": 0.044,
	"step": 4550
	},
	{
	"epoch": 2.145875,
	"grad_norm": 2.690349817276001,
	"learning_rate": 2.8558333333333337e-06,
	"loss": 0.041,
	"step": 4575
	},
	{
	"epoch": 2.149,
	"grad_norm": 2.515873670578003,
	"learning_rate": 2.835e-06,
	"loss": 0.0503,
	"step": 4600
	},
	{
	"epoch": 2.152125,
	"grad_norm": 3.210235595703125,
	"learning_rate": 2.8141666666666667e-06,
	"loss": 0.0539,
	"step": 4625
	},
	{
	"epoch": 2.15525,
	"grad_norm": 2.19775128364563,
	"learning_rate": 2.7933333333333334e-06,
	"loss": 0.0486,
	"step": 4650
	},
	{
	"epoch": 2.158375,
	"grad_norm": 2.8275535106658936,
	"learning_rate": 2.7725e-06,
	"loss": 0.0455,
	"step": 4675
	},
	{
	"epoch": 2.1615,
	"grad_norm": 2.911288022994995,
	"learning_rate": 2.7516666666666664e-06,
	"loss": 0.0495,
	"step": 4700
	},
	{
	"epoch": 2.164625,
	"grad_norm": 3.446293592453003,
	"learning_rate": 2.7308333333333336e-06,
	"loss": 0.0527,
	"step": 4725
	},
	{
	"epoch": 2.16775,
	"grad_norm": 2.1223082542419434,
	"learning_rate": 2.71e-06,
	"loss": 0.0437,
	"step": 4750
	},
	{
	"epoch": 2.170875,
	"grad_norm": 2.4212393760681152,
	"learning_rate": 2.689166666666667e-06,
	"loss": 0.0504,
	"step": 4775
	},
	{
	"epoch": 2.174,
	"grad_norm": 2.440826177597046,
	"learning_rate": 2.6683333333333333e-06,
	"loss": 0.0432,
	"step": 4800
	},
	{
	"epoch": 2.177125,
	"grad_norm": 2.3568456172943115,
	"learning_rate": 2.6475e-06,
	"loss": 0.0404,
	"step": 4825
	},
	{
	"epoch": 2.18025,
	"grad_norm": 2.638301372528076,
	"learning_rate": 2.6266666666666668e-06,
	"loss": 0.0528,
	"step": 4850
	},
	{
	"epoch": 2.183375,
	"grad_norm": 2.1262662410736084,
	"learning_rate": 2.6058333333333335e-06,
	"loss": 0.0468,
	"step": 4875
	},
	{
	"epoch": 2.1865,
	"grad_norm": 1.8121278285980225,
	"learning_rate": 2.5850000000000002e-06,
	"loss": 0.0414,
	"step": 4900
	},
	{
	"epoch": 2.189625,
	"grad_norm": 3.5271337032318115,
	"learning_rate": 2.564166666666667e-06,
	"loss": 0.0477,
	"step": 4925
	},
	{
	"epoch": 2.19275,
	"grad_norm": 2.0672607421875,
	"learning_rate": 2.5433333333333333e-06,
	"loss": 0.0402,
	"step": 4950
	},
	{
	"epoch": 2.195875,
	"grad_norm": 2.3378803730010986,
	"learning_rate": 2.5225000000000004e-06,
	"loss": 0.0458,
	"step": 4975
	},
	{
	"epoch": 2.199,
	"grad_norm": 2.3618690967559814,
	"learning_rate": 2.5016666666666667e-06,
	"loss": 0.0455,
	"step": 5000
	},
	{
	"epoch": 2.199,
	"eval_loss": 0.15326862037181854,
	"eval_runtime": 2431.3758,
	"eval_samples_per_second": 5.606,
	"eval_steps_per_second": 0.701,
	"eval_wer": 9.14104584264722,
	"step": 5000
	},
	{
	"epoch": 2.202125,
	"grad_norm": 3.066169261932373,
	"learning_rate": 2.4808333333333334e-06,
	"loss": 0.0514,
	"step": 5025
	},
	{
	"epoch": 2.20525,
	"grad_norm": 2.8991472721099854,
	"learning_rate": 2.46e-06,
	"loss": 0.0454,
	"step": 5050
	},
	{
	"epoch": 2.208375,
	"grad_norm": 2.641075611114502,
	"learning_rate": 2.439166666666667e-06,
	"loss": 0.0448,
	"step": 5075
	},
	{
	"epoch": 2.2115,
	"grad_norm": 3.234225034713745,
	"learning_rate": 2.4183333333333336e-06,
	"loss": 0.0504,
	"step": 5100
	},
	{
	"epoch": 3.001625,
	"grad_norm": 1.9421311616897583,
	"learning_rate": 2.3975e-06,
	"loss": 0.0377,
	"step": 5125
	},
	{
	"epoch": 3.00475,
	"grad_norm": 1.9280989170074463,
	"learning_rate": 2.3766666666666666e-06,
	"loss": 0.0291,
	"step": 5150
	},
	{
	"epoch": 3.007875,
	"grad_norm": 1.701106309890747,
	"learning_rate": 2.3558333333333334e-06,
	"loss": 0.0254,
	"step": 5175
	},
	{
	"epoch": 3.011,
	"grad_norm": 1.4093270301818848,
	"learning_rate": 2.335e-06,
	"loss": 0.0267,
	"step": 5200
	},
	{
	"epoch": 3.014125,
	"grad_norm": 2.7806079387664795,
	"learning_rate": 2.314166666666667e-06,
	"loss": 0.0271,
	"step": 5225
	},
	{
	"epoch": 3.01725,
	"grad_norm": 2.454941511154175,
	"learning_rate": 2.2933333333333335e-06,
	"loss": 0.0296,
	"step": 5250
	},
	{
	"epoch": 3.020375,
	"grad_norm": 1.8080620765686035,
	"learning_rate": 2.2725e-06,
	"loss": 0.0254,
	"step": 5275
	},
	{
	"epoch": 3.0235,
	"grad_norm": 2.4920754432678223,
	"learning_rate": 2.251666666666667e-06,
	"loss": 0.0242,
	"step": 5300
	},
	{
	"epoch": 3.026625,
	"grad_norm": 1.4802467823028564,
	"learning_rate": 2.2308333333333333e-06,
	"loss": 0.0242,
	"step": 5325
	},
	{
	"epoch": 3.02975,
	"grad_norm": 4.049746036529541,
	"learning_rate": 2.2100000000000004e-06,
	"loss": 0.026,
	"step": 5350
	},
	{
	"epoch": 3.032875,
	"grad_norm": 2.304689884185791,
	"learning_rate": 2.1891666666666667e-06,
	"loss": 0.0261,
	"step": 5375
	},
	{
	"epoch": 3.036,
	"grad_norm": 1.9863944053649902,
	"learning_rate": 2.1683333333333335e-06,
	"loss": 0.0251,
	"step": 5400
	},
	{
	"epoch": 3.039125,
	"grad_norm": 2.0497422218322754,
	"learning_rate": 2.1475e-06,
	"loss": 0.0254,
	"step": 5425
	},
	{
	"epoch": 3.04225,
	"grad_norm": 2.5717766284942627,
	"learning_rate": 2.126666666666667e-06,
	"loss": 0.0238,
	"step": 5450
	},
	{
	"epoch": 3.045375,
	"grad_norm": 1.1389164924621582,
	"learning_rate": 2.1058333333333332e-06,
	"loss": 0.0208,
	"step": 5475
	},
	{
	"epoch": 3.0485,
	"grad_norm": 1.5230340957641602,
	"learning_rate": 2.085e-06,
	"loss": 0.0216,
	"step": 5500
	},
	{
	"epoch": 3.0485,
	"eval_loss": 0.1619918942451477,
	"eval_runtime": 2437.6868,
	"eval_samples_per_second": 5.591,
	"eval_steps_per_second": 0.699,
	"eval_wer": 9.08424639964821,
	"step": 5500
	},
	{
	"epoch": 3.051625,
	"grad_norm": 1.907436728477478,
	"learning_rate": 2.0641666666666667e-06,
	"loss": 0.0224,
	"step": 5525
	},
	{
	"epoch": 3.05475,
	"grad_norm": 1.5222604274749756,
	"learning_rate": 2.0433333333333334e-06,
	"loss": 0.0197,
	"step": 5550
	},
	{
	"epoch": 3.057875,
	"grad_norm": 1.5284624099731445,
	"learning_rate": 2.0225e-06,
	"loss": 0.0152,
	"step": 5575
	},
	{
	"epoch": 3.061,
	"grad_norm": 0.7098265886306763,
	"learning_rate": 2.0016666666666664e-06,
	"loss": 0.019,
	"step": 5600
	},
	{
	"epoch": 3.064125,
	"grad_norm": 2.1706318855285645,
	"learning_rate": 1.9808333333333336e-06,
	"loss": 0.0189,
	"step": 5625
	},
	{
	"epoch": 3.06725,
	"grad_norm": 2.888962745666504,
	"learning_rate": 1.96e-06,
	"loss": 0.0201,
	"step": 5650
	},
	{
	"epoch": 3.070375,
	"grad_norm": 3.0322179794311523,
	"learning_rate": 1.939166666666667e-06,
	"loss": 0.0211,
	"step": 5675
	},
	{
	"epoch": 3.0735,
	"grad_norm": 3.066394329071045,
	"learning_rate": 1.9183333333333333e-06,
	"loss": 0.0253,
	"step": 5700
	},
	{
	"epoch": 3.076625,
	"grad_norm": 2.5032601356506348,
	"learning_rate": 1.8975e-06,
	"loss": 0.0236,
	"step": 5725
	},
	{
	"epoch": 3.07975,
	"grad_norm": 1.5625773668289185,
	"learning_rate": 1.8766666666666668e-06,
	"loss": 0.0193,
	"step": 5750
	},
	{
	"epoch": 3.082875,
	"grad_norm": 1.7981406450271606,
	"learning_rate": 1.8558333333333333e-06,
	"loss": 0.0157,
	"step": 5775
	},
	{
	"epoch": 3.086,
	"grad_norm": 1.1411957740783691,
	"learning_rate": 1.8350000000000002e-06,
	"loss": 0.0217,
	"step": 5800
	},
	{
	"epoch": 3.089125,
	"grad_norm": 1.1639596223831177,
	"learning_rate": 1.8141666666666667e-06,
	"loss": 0.0239,
	"step": 5825
	},
	{
	"epoch": 3.09225,
	"grad_norm": 0.7168381810188293,
	"learning_rate": 1.7933333333333332e-06,
	"loss": 0.0218,
	"step": 5850
	},
	{
	"epoch": 3.095375,
	"grad_norm": 1.1308009624481201,
	"learning_rate": 1.7725000000000002e-06,
	"loss": 0.0214,
	"step": 5875
	},
	{
	"epoch": 3.0985,
	"grad_norm": 2.1142430305480957,
	"learning_rate": 1.7516666666666667e-06,
	"loss": 0.0155,
	"step": 5900
	},
	{
	"epoch": 3.101625,
	"grad_norm": 1.479252815246582,
	"learning_rate": 1.7308333333333332e-06,
	"loss": 0.0176,
	"step": 5925
	},
	{
	"epoch": 3.10475,
	"grad_norm": 1.3254590034484863,
	"learning_rate": 1.7100000000000001e-06,
	"loss": 0.0144,
	"step": 5950
	},
	{
	"epoch": 3.107875,
	"grad_norm": 2.1925458908081055,
	"learning_rate": 1.6891666666666667e-06,
	"loss": 0.0162,
	"step": 5975
	},
	{
	"epoch": 3.111,
	"grad_norm": 1.774483561515808,
	"learning_rate": 1.6683333333333336e-06,
	"loss": 0.017,
	"step": 6000
	},
	{
	"epoch": 3.111,
	"eval_loss": 0.17044013738632202,
	"eval_runtime": 2431.1861,
	"eval_samples_per_second": 5.606,
	"eval_steps_per_second": 0.701,
	"eval_wer": 9.097988200373777,
	"step": 6000
	},
	{
	"epoch": 3.114125,
	"grad_norm": 3.372814893722534,
	"learning_rate": 1.6483333333333334e-06,
	"loss": 0.0216,
	"step": 6025
	},
	{
	"epoch": 3.11725,
	"grad_norm": 0.39716529846191406,
	"learning_rate": 1.6275000000000003e-06,
	"loss": 0.0161,
	"step": 6050
	},
	{
	"epoch": 3.120375,
	"grad_norm": 1.4220778942108154,
	"learning_rate": 1.6066666666666668e-06,
	"loss": 0.0211,
	"step": 6075
	},
	{
	"epoch": 3.1235,
	"grad_norm": 1.2959835529327393,
	"learning_rate": 1.5858333333333333e-06,
	"loss": 0.0187,
	"step": 6100
	},
	{
	"epoch": 3.1266249999999998,
	"grad_norm": 1.9399360418319702,
	"learning_rate": 1.565e-06,
	"loss": 0.0123,
	"step": 6125
	},
	{
	"epoch": 3.12975,
	"grad_norm": 2.898085594177246,
	"learning_rate": 1.5441666666666668e-06,
	"loss": 0.0197,
	"step": 6150
	},
	{
	"epoch": 3.132875,
	"grad_norm": 3.642364263534546,
	"learning_rate": 1.5233333333333333e-06,
	"loss": 0.0162,
	"step": 6175
	},
	{
	"epoch": 3.136,
	"grad_norm": 1.7888002395629883,
	"learning_rate": 1.5025e-06,
	"loss": 0.0164,
	"step": 6200
	},
	{
	"epoch": 3.139125,
	"grad_norm": 2.3871753215789795,
	"learning_rate": 1.4816666666666667e-06,
	"loss": 0.0175,
	"step": 6225
	},
	{
	"epoch": 3.1422499999999998,
	"grad_norm": 1.4263437986373901,
	"learning_rate": 1.4608333333333333e-06,
	"loss": 0.0152,
	"step": 6250
	},
	{
	"epoch": 3.145375,
	"grad_norm": 2.174880027770996,
	"learning_rate": 1.44e-06,
	"loss": 0.0172,
	"step": 6275
	},
	{
	"epoch": 3.1485,
	"grad_norm": 0.9558664560317993,
	"learning_rate": 1.4191666666666667e-06,
	"loss": 0.0172,
	"step": 6300
	},
	{
	"epoch": 3.151625,
	"grad_norm": 2.228374719619751,
	"learning_rate": 1.3983333333333334e-06,
	"loss": 0.0173,
	"step": 6325
	},
	{
	"epoch": 3.15475,
	"grad_norm": 1.3473858833312988,
	"learning_rate": 1.3775000000000002e-06,
	"loss": 0.0211,
	"step": 6350
	},
	{
	"epoch": 3.1578749999999998,
	"grad_norm": 1.575217843055725,
	"learning_rate": 1.3566666666666667e-06,
	"loss": 0.0195,
	"step": 6375
	},
	{
	"epoch": 3.161,
	"grad_norm": 1.4997564554214478,
	"learning_rate": 1.3358333333333334e-06,
	"loss": 0.0174,
	"step": 6400
	},
	{
	"epoch": 3.164125,
	"grad_norm": 1.6651334762573242,
	"learning_rate": 1.3150000000000001e-06,
	"loss": 0.0178,
	"step": 6425
	},
	{
	"epoch": 3.16725,
	"grad_norm": 1.9218391180038452,
	"learning_rate": 1.2941666666666668e-06,
	"loss": 0.0168,
	"step": 6450
	},
	{
	"epoch": 3.170375,
	"grad_norm": 1.322709560394287,
	"learning_rate": 1.2733333333333334e-06,
	"loss": 0.0155,
	"step": 6475
	},
	{
	"epoch": 3.1734999999999998,
	"grad_norm": 0.7265995144844055,
	"learning_rate": 1.2525e-06,
	"loss": 0.0174,
	"step": 6500
	},
	{
	"epoch": 3.1734999999999998,
	"eval_loss": 0.16809040307998657,
	"eval_runtime": 2425.0716,
	"eval_samples_per_second": 5.62,
	"eval_steps_per_second": 0.703,
	"eval_wer": 9.072336839019385,
	"step": 6500
	},
	{
	"epoch": 3.176625,
	"grad_norm": 3.6835756301879883,
	"learning_rate": 1.2316666666666668e-06,
	"loss": 0.0177,
	"step": 6525
	},
	{
	"epoch": 3.17975,
	"grad_norm": 1.7619342803955078,
	"learning_rate": 1.2108333333333335e-06,
	"loss": 0.0212,
	"step": 6550
	},
	{
	"epoch": 3.182875,
	"grad_norm": 1.547814130783081,
	"learning_rate": 1.19e-06,
	"loss": 0.0213,
	"step": 6575
	},
	{
	"epoch": 3.186,
	"grad_norm": 2.0077638626098633,
	"learning_rate": 1.1691666666666668e-06,
	"loss": 0.016,
	"step": 6600
	},
	{
	"epoch": 3.1891249999999998,
	"grad_norm": 1.806665062904358,
	"learning_rate": 1.1483333333333333e-06,
	"loss": 0.0165,
	"step": 6625
	},
	{
	"epoch": 3.19225,
	"grad_norm": 1.9576735496520996,
	"learning_rate": 1.1283333333333333e-06,
	"loss": 0.0173,
	"step": 6650
	},
	{
	"epoch": 3.195375,
	"grad_norm": 1.992625117301941,
	"learning_rate": 1.1075e-06,
	"loss": 0.0179,
	"step": 6675
	},
	{
	"epoch": 3.1985,
	"grad_norm": 1.9625897407531738,
	"learning_rate": 1.0866666666666667e-06,
	"loss": 0.0174,
	"step": 6700
	},
	{
	"epoch": 3.201625,
	"grad_norm": 1.079950213432312,
	"learning_rate": 1.0658333333333334e-06,
	"loss": 0.0189,
	"step": 6725
	},
	{
	"epoch": 3.2047499999999998,
	"grad_norm": 1.7856156826019287,
	"learning_rate": 1.045e-06,
	"loss": 0.0179,
	"step": 6750
	},
	{
	"epoch": 3.207875,
	"grad_norm": 0.44674980640411377,
	"learning_rate": 1.0241666666666667e-06,
	"loss": 0.0185,
	"step": 6775
	},
	{
	"epoch": 3.211,
	"grad_norm": 2.1849780082702637,
	"learning_rate": 1.0033333333333334e-06,
	"loss": 0.0208,
	"step": 6800
	},
	{
	"epoch": 4.001125,
	"grad_norm": 1.4259858131408691,
	"learning_rate": 9.825000000000001e-07,
	"loss": 0.0162,
	"step": 6825
	},
	{
	"epoch": 4.00425,
	"grad_norm": 0.5507416129112244,
	"learning_rate": 9.616666666666668e-07,
	"loss": 0.0099,
	"step": 6850
	},
	{
	"epoch": 4.007375,
	"grad_norm": 1.9662590026855469,
	"learning_rate": 9.408333333333334e-07,
	"loss": 0.0117,
	"step": 6875
	},
	{
	"epoch": 4.0105,
	"grad_norm": 1.9439060688018799,
	"learning_rate": 9.2e-07,
	"loss": 0.0114,
	"step": 6900
	},
	{
	"epoch": 4.013625,
	"grad_norm": 1.266473412513733,
	"learning_rate": 8.991666666666667e-07,
	"loss": 0.0085,
	"step": 6925
	},
	{
	"epoch": 4.01675,
	"grad_norm": 1.4318881034851074,
	"learning_rate": 8.783333333333334e-07,
	"loss": 0.0095,
	"step": 6950
	},
	{
	"epoch": 4.019875,
	"grad_norm": 1.7301366329193115,
	"learning_rate": 8.574999999999999e-07,
	"loss": 0.01,
	"step": 6975
	},
	{
	"epoch": 4.023,
	"grad_norm": 0.7250347137451172,
	"learning_rate": 8.366666666666667e-07,
	"loss": 0.0098,
	"step": 7000
	},
	{
	"epoch": 4.023,
	"eval_loss": 0.17248913645744324,
	"eval_runtime": 2424.7286,
	"eval_samples_per_second": 5.621,
	"eval_steps_per_second": 0.703,
	"eval_wer": 8.862545347942394,
	"step": 7000
	},
	{
	"epoch": 4.026125,
	"grad_norm": 0.9742090702056885,
	"learning_rate": 8.158333333333334e-07,
	"loss": 0.0083,
	"step": 7025
	},
	{
	"epoch": 4.02925,
	"grad_norm": 1.966017723083496,
	"learning_rate": 7.950000000000001e-07,
	"loss": 0.0098,
	"step": 7050
	},
	{
	"epoch": 4.032375,
	"grad_norm": 0.3238462209701538,
	"learning_rate": 7.741666666666667e-07,
	"loss": 0.0106,
	"step": 7075
	},
	{
	"epoch": 4.0355,
	"grad_norm": 1.1980866193771362,
	"learning_rate": 7.533333333333334e-07,
	"loss": 0.0095,
	"step": 7100
	},
	{
	"epoch": 4.038625,
	"grad_norm": 1.5639567375183105,
	"learning_rate": 7.325e-07,
	"loss": 0.0079,
	"step": 7125
	},
	{
	"epoch": 4.04175,
	"grad_norm": 2.4864511489868164,
	"learning_rate": 7.116666666666667e-07,
	"loss": 0.0081,
	"step": 7150
	},
	{
	"epoch": 4.044875,
	"grad_norm": 0.3260515332221985,
	"learning_rate": 6.908333333333333e-07,
	"loss": 0.0078,
	"step": 7175
	},
	{
	"epoch": 4.048,
	"grad_norm": 1.6305910348892212,
	"learning_rate": 6.7e-07,
	"loss": 0.0093,
	"step": 7200
	},
	{
	"epoch": 4.051125,
	"grad_norm": 0.6141969561576843,
	"learning_rate": 6.491666666666667e-07,
	"loss": 0.0082,
	"step": 7225
	},
	{
	"epoch": 4.05425,
	"grad_norm": 1.9699019193649292,
	"learning_rate": 6.283333333333334e-07,
	"loss": 0.0089,
	"step": 7250
	},
	{
	"epoch": 4.057375,
	"grad_norm": 0.2788224518299103,
	"learning_rate": 6.075e-07,
	"loss": 0.0053,
	"step": 7275
	},
	{
	"epoch": 4.0605,
	"grad_norm": 1.0774401426315308,
	"learning_rate": 5.866666666666667e-07,
	"loss": 0.0074,
	"step": 7300
	},
	{
	"epoch": 4.063625,
	"grad_norm": 0.2802826166152954,
	"learning_rate": 5.658333333333334e-07,
	"loss": 0.007,
	"step": 7325
	},
	{
	"epoch": 4.06675,
	"grad_norm": 0.459989458322525,
	"learning_rate": 5.450000000000001e-07,
	"loss": 0.0061,
	"step": 7350
	},
	{
	"epoch": 4.069875,
	"grad_norm": 1.6869885921478271,
	"learning_rate": 5.241666666666667e-07,
	"loss": 0.007,
	"step": 7375
	},
	{
	"epoch": 4.073,
	"grad_norm": 1.150252103805542,
	"learning_rate": 5.033333333333333e-07,
	"loss": 0.009,
	"step": 7400
	},
	{
	"epoch": 4.076125,
	"grad_norm": 0.7096041440963745,
	"learning_rate": 4.825e-07,
	"loss": 0.0074,
	"step": 7425
	},
	{
	"epoch": 4.07925,
	"grad_norm": 1.9114930629730225,
	"learning_rate": 4.6166666666666666e-07,
	"loss": 0.0081,
	"step": 7450
	},
	{
	"epoch": 4.082375,
	"grad_norm": 0.41340845823287964,
	"learning_rate": 4.408333333333334e-07,
	"loss": 0.0078,
	"step": 7475
	},
	{
	"epoch": 4.0855,
	"grad_norm": 1.241665005683899,
	"learning_rate": 4.2e-07,
	"loss": 0.0076,
	"step": 7500
	},
	{
	"epoch": 4.0855,
	"eval_loss": 0.17651478946208954,
	"eval_runtime": 2432.1699,
	"eval_samples_per_second": 5.604,
	"eval_steps_per_second": 0.701,
	"eval_wer": 8.83506174649126,
	"step": 7500
	},
	{
	"epoch": 4.088625,
	"grad_norm": 0.6228423714637756,
	"learning_rate": 3.991666666666667e-07,
	"loss": 0.0075,
	"step": 7525
	},
	{
	"epoch": 4.09175,
	"grad_norm": 0.5548863410949707,
	"learning_rate": 3.7833333333333335e-07,
	"loss": 0.007,
	"step": 7550
	},
	{
	"epoch": 4.094875,
	"grad_norm": 0.33007875084877014,
	"learning_rate": 3.575e-07,
	"loss": 0.0058,
	"step": 7575
	},
	{
	"epoch": 4.098,
	"grad_norm": 1.3314837217330933,
	"learning_rate": 3.366666666666667e-07,
	"loss": 0.0068,
	"step": 7600
	},
	{
	"epoch": 4.101125,
	"grad_norm": 2.230480909347534,
	"learning_rate": 3.1583333333333336e-07,
	"loss": 0.007,
	"step": 7625
	},
	{
	"epoch": 4.10425,
	"grad_norm": 0.3246554136276245,
	"learning_rate": 2.95e-07,
	"loss": 0.0058,
	"step": 7650
	},
	{
	"epoch": 4.107375,
	"grad_norm": 3.8842251300811768,
	"learning_rate": 2.7416666666666665e-07,
	"loss": 0.0071,
	"step": 7675
	},
	{
	"epoch": 4.1105,
	"grad_norm": 0.27049753069877625,
	"learning_rate": 2.533333333333333e-07,
	"loss": 0.0068,
	"step": 7700
	},
	{
	"epoch": 4.113625,
	"grad_norm": 1.5919678211212158,
	"learning_rate": 2.325e-07,
	"loss": 0.009,
	"step": 7725
	},
	{
	"epoch": 4.11675,
	"grad_norm": 1.0917800664901733,
	"learning_rate": 2.116666666666667e-07,
	"loss": 0.0083,
	"step": 7750
	},
	{
	"epoch": 4.119875,
	"grad_norm": 1.6236002445220947,
	"learning_rate": 1.9083333333333334e-07,
	"loss": 0.0077,
	"step": 7775
	},
	{
	"epoch": 4.123,
	"grad_norm": 0.34154245257377625,
	"learning_rate": 1.7e-07,
	"loss": 0.0064,
	"step": 7800
	},
	{
	"epoch": 4.126125,
	"grad_norm": 0.7562180757522583,
	"learning_rate": 1.4916666666666669e-07,
	"loss": 0.0073,
	"step": 7825
	},
	{
	"epoch": 4.12925,
	"grad_norm": 1.4198355674743652,
	"learning_rate": 1.2833333333333333e-07,
	"loss": 0.0051,
	"step": 7850
	},
	{
	"epoch": 4.132375,
	"grad_norm": 0.38768094778060913,
	"learning_rate": 1.075e-07,
	"loss": 0.0073,
	"step": 7875
	},
	{
	"epoch": 4.1355,
	"grad_norm": 2.1387102603912354,
	"learning_rate": 8.666666666666666e-08,
	"loss": 0.0078,
	"step": 7900
	},
	{
	"epoch": 4.138625,
	"grad_norm": 0.7683693170547485,
	"learning_rate": 6.583333333333333e-08,
	"loss": 0.006,
	"step": 7925
	},
	{
	"epoch": 4.14175,
	"grad_norm": 0.40976452827453613,
	"learning_rate": 4.5e-08,
	"loss": 0.0059,
	"step": 7950
	},
	{
	"epoch": 4.144875,
	"grad_norm": 0.3620973229408264,
	"learning_rate": 2.4166666666666668e-08,
	"loss": 0.0054,
	"step": 7975
	},
	{
	"epoch": 4.148,
	"grad_norm": 0.28266406059265137,
	"learning_rate": 3.333333333333334e-09,
	"loss": 0.007,
	"step": 8000
	},
	{
	"epoch": 4.148,
	"eval_loss": 0.17873740196228027,
	"eval_runtime": 2435.5612,
	"eval_samples_per_second": 5.596,
	"eval_steps_per_second": 0.7,
	"eval_wer": 8.8020814247499,
	"step": 8000
	},
	{
	"epoch": 4.148,
	"step": 8000,
	"total_flos": 1.3062109848403968e+20,
	"train_loss": 0.11351343880966305,
	"train_runtime": 52381.6915,
	"train_samples_per_second": 2.444,
	"train_steps_per_second": 0.153
	}
	],
	"logging_steps": 25,
	"max_steps": 8000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 9223372036854775807,
	"save_steps": 1000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1.3062109848403968e+20,
	"train_batch_size": 16,
	"trial_name": null,
	"trial_params": null
	}