{ "best_metric": 10.886229784051602, "best_model_checkpoint": "./checkpoint-8000", "epoch": 1.0, "eval_steps": 1000, "global_step": 8000, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.003125, "grad_norm": 17.579944610595703, "learning_rate": 4.4e-07, "loss": 2.3284, "step": 25 }, { "epoch": 0.00625, "grad_norm": 9.753120422363281, "learning_rate": 9.400000000000001e-07, "loss": 1.9145, "step": 50 }, { "epoch": 0.009375, "grad_norm": 9.469987869262695, "learning_rate": 1.44e-06, "loss": 1.2892, "step": 75 }, { "epoch": 0.0125, "grad_norm": 6.952774524688721, "learning_rate": 1.94e-06, "loss": 0.9797, "step": 100 }, { "epoch": 0.015625, "grad_norm": 6.080902576446533, "learning_rate": 2.4400000000000004e-06, "loss": 0.8265, "step": 125 }, { "epoch": 0.01875, "grad_norm": 5.6766037940979, "learning_rate": 2.9400000000000002e-06, "loss": 0.6998, "step": 150 }, { "epoch": 0.021875, "grad_norm": 5.372249126434326, "learning_rate": 3.44e-06, "loss": 0.6537, "step": 175 }, { "epoch": 0.025, "grad_norm": 5.710323810577393, "learning_rate": 3.94e-06, "loss": 0.6149, "step": 200 }, { "epoch": 0.028125, "grad_norm": 5.235953330993652, "learning_rate": 4.440000000000001e-06, "loss": 0.5256, "step": 225 }, { "epoch": 0.03125, "grad_norm": 6.58635950088501, "learning_rate": 4.94e-06, "loss": 0.54, "step": 250 }, { "epoch": 0.034375, "grad_norm": 5.4912004470825195, "learning_rate": 5.4400000000000004e-06, "loss": 0.5521, "step": 275 }, { "epoch": 0.0375, "grad_norm": 5.846869945526123, "learning_rate": 5.94e-06, "loss": 0.5379, "step": 300 }, { "epoch": 0.040625, "grad_norm": 5.060309410095215, "learning_rate": 6.440000000000001e-06, "loss": 0.4778, "step": 325 }, { "epoch": 0.04375, "grad_norm": 5.06487512588501, "learning_rate": 6.9400000000000005e-06, "loss": 0.4152, "step": 350 }, { "epoch": 0.046875, "grad_norm": 4.936045169830322, "learning_rate": 7.440000000000001e-06, "loss": 0.3547, "step": 375 }, { "epoch": 0.05, "grad_norm": 3.8072471618652344, "learning_rate": 7.94e-06, "loss": 0.3428, "step": 400 }, { "epoch": 0.053125, "grad_norm": 3.9378795623779297, "learning_rate": 8.44e-06, "loss": 0.3099, "step": 425 }, { "epoch": 0.05625, "grad_norm": 3.732869863510132, "learning_rate": 8.94e-06, "loss": 0.2963, "step": 450 }, { "epoch": 0.059375, "grad_norm": 3.9596025943756104, "learning_rate": 9.440000000000001e-06, "loss": 0.2745, "step": 475 }, { "epoch": 0.0625, "grad_norm": 3.428398370742798, "learning_rate": 9.940000000000001e-06, "loss": 0.2626, "step": 500 }, { "epoch": 0.065625, "grad_norm": 5.03747034072876, "learning_rate": 9.970666666666668e-06, "loss": 0.2411, "step": 525 }, { "epoch": 0.06875, "grad_norm": 3.2012217044830322, "learning_rate": 9.937333333333334e-06, "loss": 0.2389, "step": 550 }, { "epoch": 0.071875, "grad_norm": 3.7361278533935547, "learning_rate": 9.904e-06, "loss": 0.2217, "step": 575 }, { "epoch": 0.075, "grad_norm": 4.509885787963867, "learning_rate": 9.870666666666667e-06, "loss": 0.2246, "step": 600 }, { "epoch": 0.078125, "grad_norm": 3.462961435317993, "learning_rate": 9.837333333333335e-06, "loss": 0.199, "step": 625 }, { "epoch": 0.08125, "grad_norm": 2.764691114425659, "learning_rate": 9.804000000000001e-06, "loss": 0.2156, "step": 650 }, { "epoch": 0.084375, "grad_norm": 3.059408187866211, "learning_rate": 9.770666666666668e-06, "loss": 0.212, "step": 675 }, { "epoch": 0.0875, "grad_norm": 3.952425718307495, "learning_rate": 9.737333333333334e-06, "loss": 0.2123, "step": 700 }, { "epoch": 0.090625, "grad_norm": 4.892609119415283, "learning_rate": 9.704e-06, "loss": 0.2343, "step": 725 }, { "epoch": 0.09375, "grad_norm": 4.592615127563477, "learning_rate": 9.670666666666667e-06, "loss": 0.3308, "step": 750 }, { "epoch": 0.096875, "grad_norm": 4.663967132568359, "learning_rate": 9.637333333333333e-06, "loss": 0.3146, "step": 775 }, { "epoch": 0.1, "grad_norm": 5.091048717498779, "learning_rate": 9.604000000000002e-06, "loss": 0.3519, "step": 800 }, { "epoch": 0.103125, "grad_norm": 3.8216071128845215, "learning_rate": 9.570666666666666e-06, "loss": 0.2365, "step": 825 }, { "epoch": 0.10625, "grad_norm": 3.122516393661499, "learning_rate": 9.537333333333334e-06, "loss": 0.193, "step": 850 }, { "epoch": 0.109375, "grad_norm": 2.657339096069336, "learning_rate": 9.504e-06, "loss": 0.1759, "step": 875 }, { "epoch": 0.1125, "grad_norm": 4.554510116577148, "learning_rate": 9.470666666666667e-06, "loss": 0.2387, "step": 900 }, { "epoch": 0.115625, "grad_norm": 5.045220851898193, "learning_rate": 9.437333333333334e-06, "loss": 0.2845, "step": 925 }, { "epoch": 0.11875, "grad_norm": 4.260054588317871, "learning_rate": 9.404e-06, "loss": 0.2755, "step": 950 }, { "epoch": 0.121875, "grad_norm": 5.8209147453308105, "learning_rate": 9.370666666666668e-06, "loss": 0.481, "step": 975 }, { "epoch": 0.125, "grad_norm": 5.498444557189941, "learning_rate": 9.337333333333335e-06, "loss": 0.3998, "step": 1000 }, { "epoch": 0.125, "eval_loss": 0.36512792110443115, "eval_runtime": 153.2646, "eval_samples_per_second": 13.728, "eval_steps_per_second": 0.861, "eval_wer": 21.50135552023932, "step": 1000 }, { "epoch": 0.128125, "grad_norm": 4.732964515686035, "learning_rate": 9.304000000000001e-06, "loss": 0.329, "step": 1025 }, { "epoch": 0.13125, "grad_norm": 3.3556125164031982, "learning_rate": 9.270666666666667e-06, "loss": 0.2319, "step": 1050 }, { "epoch": 0.134375, "grad_norm": 2.9708847999572754, "learning_rate": 9.237333333333334e-06, "loss": 0.174, "step": 1075 }, { "epoch": 0.1375, "grad_norm": 2.841306447982788, "learning_rate": 9.204e-06, "loss": 0.1447, "step": 1100 }, { "epoch": 0.140625, "grad_norm": 2.7909176349639893, "learning_rate": 9.170666666666668e-06, "loss": 0.1406, "step": 1125 }, { "epoch": 0.14375, "grad_norm": 3.37842059135437, "learning_rate": 9.137333333333333e-06, "loss": 0.151, "step": 1150 }, { "epoch": 0.146875, "grad_norm": 3.023977041244507, "learning_rate": 9.104000000000001e-06, "loss": 0.1529, "step": 1175 }, { "epoch": 0.15, "grad_norm": 3.015974283218384, "learning_rate": 9.070666666666668e-06, "loss": 0.1496, "step": 1200 }, { "epoch": 0.153125, "grad_norm": 4.30889892578125, "learning_rate": 9.037333333333334e-06, "loss": 0.219, "step": 1225 }, { "epoch": 0.15625, "grad_norm": 4.160729885101318, "learning_rate": 9.004e-06, "loss": 0.238, "step": 1250 }, { "epoch": 0.159375, "grad_norm": 4.687659740447998, "learning_rate": 8.970666666666667e-06, "loss": 0.2603, "step": 1275 }, { "epoch": 0.1625, "grad_norm": 4.577232837677002, "learning_rate": 8.937333333333335e-06, "loss": 0.2666, "step": 1300 }, { "epoch": 0.165625, "grad_norm": 5.091732501983643, "learning_rate": 8.904e-06, "loss": 0.2337, "step": 1325 }, { "epoch": 0.16875, "grad_norm": 4.125801086425781, "learning_rate": 8.870666666666668e-06, "loss": 0.2379, "step": 1350 }, { "epoch": 0.171875, "grad_norm": 5.142183303833008, "learning_rate": 8.837333333333334e-06, "loss": 0.2215, "step": 1375 }, { "epoch": 0.175, "grad_norm": 4.486277103424072, "learning_rate": 8.804e-06, "loss": 0.2136, "step": 1400 }, { "epoch": 0.178125, "grad_norm": 3.5466482639312744, "learning_rate": 8.770666666666667e-06, "loss": 0.2214, "step": 1425 }, { "epoch": 0.18125, "grad_norm": 3.6199097633361816, "learning_rate": 8.737333333333334e-06, "loss": 0.2113, "step": 1450 }, { "epoch": 0.184375, "grad_norm": 2.559951066970825, "learning_rate": 8.704e-06, "loss": 0.1552, "step": 1475 }, { "epoch": 0.1875, "grad_norm": 2.9152133464813232, "learning_rate": 8.670666666666666e-06, "loss": 0.1354, "step": 1500 }, { "epoch": 0.190625, "grad_norm": 2.608732223510742, "learning_rate": 8.637333333333335e-06, "loss": 0.144, "step": 1525 }, { "epoch": 0.19375, "grad_norm": 4.0043416023254395, "learning_rate": 8.604000000000001e-06, "loss": 0.1367, "step": 1550 }, { "epoch": 0.196875, "grad_norm": 2.3621206283569336, "learning_rate": 8.570666666666667e-06, "loss": 0.1194, "step": 1575 }, { "epoch": 0.2, "grad_norm": 2.6970181465148926, "learning_rate": 8.537333333333334e-06, "loss": 0.1283, "step": 1600 }, { "epoch": 0.203125, "grad_norm": 4.737370014190674, "learning_rate": 8.504000000000002e-06, "loss": 0.1858, "step": 1625 }, { "epoch": 0.20625, "grad_norm": 3.462738513946533, "learning_rate": 8.470666666666667e-06, "loss": 0.1995, "step": 1650 }, { "epoch": 0.209375, "grad_norm": 4.608364582061768, "learning_rate": 8.437333333333335e-06, "loss": 0.2028, "step": 1675 }, { "epoch": 0.2125, "grad_norm": 2.770601987838745, "learning_rate": 8.404000000000001e-06, "loss": 0.1952, "step": 1700 }, { "epoch": 0.215625, "grad_norm": 3.041656017303467, "learning_rate": 8.370666666666668e-06, "loss": 0.1464, "step": 1725 }, { "epoch": 0.21875, "grad_norm": 2.988032102584839, "learning_rate": 8.337333333333334e-06, "loss": 0.1424, "step": 1750 }, { "epoch": 0.221875, "grad_norm": 3.0646026134490967, "learning_rate": 8.304e-06, "loss": 0.1233, "step": 1775 }, { "epoch": 0.225, "grad_norm": 2.617403268814087, "learning_rate": 8.270666666666667e-06, "loss": 0.1384, "step": 1800 }, { "epoch": 0.228125, "grad_norm": 2.6170425415039062, "learning_rate": 8.237333333333333e-06, "loss": 0.1208, "step": 1825 }, { "epoch": 0.23125, "grad_norm": 2.1296098232269287, "learning_rate": 8.204000000000001e-06, "loss": 0.1176, "step": 1850 }, { "epoch": 0.234375, "grad_norm": 2.767275810241699, "learning_rate": 8.170666666666668e-06, "loss": 0.1189, "step": 1875 }, { "epoch": 0.2375, "grad_norm": 2.7053661346435547, "learning_rate": 8.137333333333334e-06, "loss": 0.1211, "step": 1900 }, { "epoch": 0.240625, "grad_norm": 2.281399965286255, "learning_rate": 8.104e-06, "loss": 0.1156, "step": 1925 }, { "epoch": 0.24375, "grad_norm": 3.7013635635375977, "learning_rate": 8.070666666666667e-06, "loss": 0.1517, "step": 1950 }, { "epoch": 0.246875, "grad_norm": 3.7125532627105713, "learning_rate": 8.037333333333334e-06, "loss": 0.2002, "step": 1975 }, { "epoch": 0.25, "grad_norm": 3.8716859817504883, "learning_rate": 8.004e-06, "loss": 0.1975, "step": 2000 }, { "epoch": 0.25, "eval_loss": 0.2918355464935303, "eval_runtime": 153.1763, "eval_samples_per_second": 13.736, "eval_steps_per_second": 0.862, "eval_wer": 15.873609423202767, "step": 2000 }, { "epoch": 0.253125, "grad_norm": 2.4911813735961914, "learning_rate": 7.970666666666668e-06, "loss": 0.1648, "step": 2025 }, { "epoch": 0.25625, "grad_norm": 2.604146718978882, "learning_rate": 7.937333333333333e-06, "loss": 0.1162, "step": 2050 }, { "epoch": 0.259375, "grad_norm": 2.7352280616760254, "learning_rate": 7.904000000000001e-06, "loss": 0.1135, "step": 2075 }, { "epoch": 0.2625, "grad_norm": 2.2932169437408447, "learning_rate": 7.870666666666667e-06, "loss": 0.1153, "step": 2100 }, { "epoch": 0.265625, "grad_norm": 3.1734797954559326, "learning_rate": 7.837333333333334e-06, "loss": 0.1005, "step": 2125 }, { "epoch": 0.26875, "grad_norm": 2.4353103637695312, "learning_rate": 7.804e-06, "loss": 0.0988, "step": 2150 }, { "epoch": 0.271875, "grad_norm": 2.8655478954315186, "learning_rate": 7.770666666666668e-06, "loss": 0.1028, "step": 2175 }, { "epoch": 0.275, "grad_norm": 3.800967216491699, "learning_rate": 7.737333333333335e-06, "loss": 0.1751, "step": 2200 }, { "epoch": 0.278125, "grad_norm": 4.212419509887695, "learning_rate": 7.704000000000001e-06, "loss": 0.1798, "step": 2225 }, { "epoch": 0.28125, "grad_norm": 3.5863020420074463, "learning_rate": 7.670666666666668e-06, "loss": 0.199, "step": 2250 }, { "epoch": 0.284375, "grad_norm": 3.1013996601104736, "learning_rate": 7.637333333333334e-06, "loss": 0.1335, "step": 2275 }, { "epoch": 0.2875, "grad_norm": 2.2462713718414307, "learning_rate": 7.604e-06, "loss": 0.0976, "step": 2300 }, { "epoch": 0.290625, "grad_norm": 2.9669203758239746, "learning_rate": 7.570666666666668e-06, "loss": 0.0946, "step": 2325 }, { "epoch": 0.29375, "grad_norm": 2.645289897918701, "learning_rate": 7.537333333333334e-06, "loss": 0.0935, "step": 2350 }, { "epoch": 0.296875, "grad_norm": 1.9715274572372437, "learning_rate": 7.5040000000000005e-06, "loss": 0.1045, "step": 2375 }, { "epoch": 0.3, "grad_norm": 2.1423373222351074, "learning_rate": 7.470666666666667e-06, "loss": 0.0977, "step": 2400 }, { "epoch": 0.303125, "grad_norm": 2.029958963394165, "learning_rate": 7.437333333333334e-06, "loss": 0.1061, "step": 2425 }, { "epoch": 0.30625, "grad_norm": 1.972732663154602, "learning_rate": 7.404e-06, "loss": 0.0998, "step": 2450 }, { "epoch": 0.309375, "grad_norm": 2.2875239849090576, "learning_rate": 7.370666666666667e-06, "loss": 0.1068, "step": 2475 }, { "epoch": 0.3125, "grad_norm": 3.1778981685638428, "learning_rate": 7.337333333333334e-06, "loss": 0.1168, "step": 2500 }, { "epoch": 0.315625, "grad_norm": 3.360576868057251, "learning_rate": 7.304000000000001e-06, "loss": 0.1524, "step": 2525 }, { "epoch": 0.31875, "grad_norm": 3.5467047691345215, "learning_rate": 7.270666666666667e-06, "loss": 0.1483, "step": 2550 }, { "epoch": 0.321875, "grad_norm": 3.488696575164795, "learning_rate": 7.237333333333334e-06, "loss": 0.1775, "step": 2575 }, { "epoch": 0.325, "grad_norm": 2.8800296783447266, "learning_rate": 7.204000000000001e-06, "loss": 0.135, "step": 2600 }, { "epoch": 0.328125, "grad_norm": 3.1020660400390625, "learning_rate": 7.170666666666667e-06, "loss": 0.1108, "step": 2625 }, { "epoch": 0.33125, "grad_norm": 2.1233720779418945, "learning_rate": 7.137333333333334e-06, "loss": 0.1002, "step": 2650 }, { "epoch": 0.334375, "grad_norm": 2.393425703048706, "learning_rate": 7.104000000000001e-06, "loss": 0.0941, "step": 2675 }, { "epoch": 0.3375, "grad_norm": 2.295924186706543, "learning_rate": 7.0706666666666665e-06, "loss": 0.0959, "step": 2700 }, { "epoch": 0.340625, "grad_norm": 1.8125039339065552, "learning_rate": 7.037333333333334e-06, "loss": 0.1116, "step": 2725 }, { "epoch": 0.34375, "grad_norm": 3.006834030151367, "learning_rate": 7.004000000000001e-06, "loss": 0.1146, "step": 2750 }, { "epoch": 0.346875, "grad_norm": 4.171006679534912, "learning_rate": 6.970666666666667e-06, "loss": 0.2029, "step": 2775 }, { "epoch": 0.35, "grad_norm": 3.68646240234375, "learning_rate": 6.937333333333334e-06, "loss": 0.1913, "step": 2800 }, { "epoch": 0.353125, "grad_norm": 3.7463300228118896, "learning_rate": 6.904e-06, "loss": 0.16, "step": 2825 }, { "epoch": 0.35625, "grad_norm": 3.069136381149292, "learning_rate": 6.8706666666666676e-06, "loss": 0.1571, "step": 2850 }, { "epoch": 0.359375, "grad_norm": 3.17172908782959, "learning_rate": 6.837333333333334e-06, "loss": 0.1608, "step": 2875 }, { "epoch": 0.3625, "grad_norm": 3.1673102378845215, "learning_rate": 6.804e-06, "loss": 0.1546, "step": 2900 }, { "epoch": 0.365625, "grad_norm": 2.344193935394287, "learning_rate": 6.770666666666668e-06, "loss": 0.1282, "step": 2925 }, { "epoch": 0.36875, "grad_norm": 2.5321226119995117, "learning_rate": 6.737333333333333e-06, "loss": 0.0979, "step": 2950 }, { "epoch": 0.371875, "grad_norm": 2.2652363777160645, "learning_rate": 6.7040000000000005e-06, "loss": 0.1049, "step": 2975 }, { "epoch": 0.375, "grad_norm": 2.7856993675231934, "learning_rate": 6.670666666666668e-06, "loss": 0.1433, "step": 3000 }, { "epoch": 0.375, "eval_loss": 0.2720916271209717, "eval_runtime": 151.7576, "eval_samples_per_second": 13.864, "eval_steps_per_second": 0.87, "eval_wer": 13.9010937646069, "step": 3000 }, { "epoch": 0.378125, "grad_norm": 4.214677810668945, "learning_rate": 6.637333333333333e-06, "loss": 0.1758, "step": 3025 }, { "epoch": 0.38125, "grad_norm": 4.144543647766113, "learning_rate": 6.604000000000001e-06, "loss": 0.1972, "step": 3050 }, { "epoch": 0.384375, "grad_norm": 2.1775295734405518, "learning_rate": 6.570666666666667e-06, "loss": 0.1293, "step": 3075 }, { "epoch": 0.3875, "grad_norm": 2.796152353286743, "learning_rate": 6.537333333333334e-06, "loss": 0.099, "step": 3100 }, { "epoch": 0.390625, "grad_norm": 2.1920204162597656, "learning_rate": 6.504e-06, "loss": 0.0945, "step": 3125 }, { "epoch": 0.39375, "grad_norm": 2.8689582347869873, "learning_rate": 6.470666666666667e-06, "loss": 0.1118, "step": 3150 }, { "epoch": 0.396875, "grad_norm": 3.580993175506592, "learning_rate": 6.4373333333333344e-06, "loss": 0.1732, "step": 3175 }, { "epoch": 0.4, "grad_norm": 3.9165573120117188, "learning_rate": 6.404e-06, "loss": 0.1581, "step": 3200 }, { "epoch": 0.403125, "grad_norm": 3.8235292434692383, "learning_rate": 6.370666666666667e-06, "loss": 0.1716, "step": 3225 }, { "epoch": 0.40625, "grad_norm": 3.21138072013855, "learning_rate": 6.3373333333333345e-06, "loss": 0.1364, "step": 3250 }, { "epoch": 0.409375, "grad_norm": 3.925539255142212, "learning_rate": 6.304e-06, "loss": 0.1459, "step": 3275 }, { "epoch": 0.4125, "grad_norm": 3.062764883041382, "learning_rate": 6.270666666666667e-06, "loss": 0.1668, "step": 3300 }, { "epoch": 0.415625, "grad_norm": 2.8379392623901367, "learning_rate": 6.237333333333334e-06, "loss": 0.1243, "step": 3325 }, { "epoch": 0.41875, "grad_norm": 2.979661226272583, "learning_rate": 6.204e-06, "loss": 0.0979, "step": 3350 }, { "epoch": 0.421875, "grad_norm": 2.4838883876800537, "learning_rate": 6.170666666666667e-06, "loss": 0.0848, "step": 3375 }, { "epoch": 0.425, "grad_norm": 2.3293073177337646, "learning_rate": 6.137333333333334e-06, "loss": 0.0927, "step": 3400 }, { "epoch": 0.428125, "grad_norm": 3.3497400283813477, "learning_rate": 6.104000000000001e-06, "loss": 0.0976, "step": 3425 }, { "epoch": 0.43125, "grad_norm": 2.0302255153656006, "learning_rate": 6.070666666666667e-06, "loss": 0.0881, "step": 3450 }, { "epoch": 0.434375, "grad_norm": 2.112396001815796, "learning_rate": 6.037333333333334e-06, "loss": 0.0828, "step": 3475 }, { "epoch": 0.4375, "grad_norm": 2.513197183609009, "learning_rate": 6.004000000000001e-06, "loss": 0.0983, "step": 3500 }, { "epoch": 0.440625, "grad_norm": 2.1429622173309326, "learning_rate": 5.970666666666667e-06, "loss": 0.0929, "step": 3525 }, { "epoch": 0.44375, "grad_norm": 2.7300236225128174, "learning_rate": 5.937333333333334e-06, "loss": 0.0916, "step": 3550 }, { "epoch": 0.446875, "grad_norm": 4.011541366577148, "learning_rate": 5.9040000000000006e-06, "loss": 0.1426, "step": 3575 }, { "epoch": 0.45, "grad_norm": 3.1994545459747314, "learning_rate": 5.870666666666667e-06, "loss": 0.163, "step": 3600 }, { "epoch": 0.453125, "grad_norm": 2.98388934135437, "learning_rate": 5.837333333333333e-06, "loss": 0.1568, "step": 3625 }, { "epoch": 0.45625, "grad_norm": 2.4515798091888428, "learning_rate": 5.804000000000001e-06, "loss": 0.0937, "step": 3650 }, { "epoch": 0.459375, "grad_norm": 2.0767834186553955, "learning_rate": 5.770666666666666e-06, "loss": 0.0861, "step": 3675 }, { "epoch": 0.4625, "grad_norm": 2.601104974746704, "learning_rate": 5.7373333333333335e-06, "loss": 0.0917, "step": 3700 }, { "epoch": 0.465625, "grad_norm": 2.593489408493042, "learning_rate": 5.704000000000001e-06, "loss": 0.1022, "step": 3725 }, { "epoch": 0.46875, "grad_norm": 3.5832834243774414, "learning_rate": 5.670666666666668e-06, "loss": 0.1304, "step": 3750 }, { "epoch": 0.471875, "grad_norm": 3.4403560161590576, "learning_rate": 5.637333333333334e-06, "loss": 0.1634, "step": 3775 }, { "epoch": 0.475, "grad_norm": 3.6842737197875977, "learning_rate": 5.604000000000001e-06, "loss": 0.1683, "step": 3800 }, { "epoch": 0.478125, "grad_norm": 3.8382315635681152, "learning_rate": 5.570666666666667e-06, "loss": 0.1538, "step": 3825 }, { "epoch": 0.48125, "grad_norm": 4.207257270812988, "learning_rate": 5.537333333333334e-06, "loss": 0.165, "step": 3850 }, { "epoch": 0.484375, "grad_norm": 2.4130444526672363, "learning_rate": 5.504e-06, "loss": 0.1558, "step": 3875 }, { "epoch": 0.4875, "grad_norm": 2.3981151580810547, "learning_rate": 5.4706666666666674e-06, "loss": 0.1096, "step": 3900 }, { "epoch": 0.490625, "grad_norm": 2.2837915420532227, "learning_rate": 5.437333333333333e-06, "loss": 0.0937, "step": 3925 }, { "epoch": 0.49375, "grad_norm": 2.6647775173187256, "learning_rate": 5.404e-06, "loss": 0.0876, "step": 3950 }, { "epoch": 0.496875, "grad_norm": 3.7677643299102783, "learning_rate": 5.3706666666666675e-06, "loss": 0.15, "step": 3975 }, { "epoch": 0.5, "grad_norm": 3.542175769805908, "learning_rate": 5.337333333333333e-06, "loss": 0.1925, "step": 4000 }, { "epoch": 0.5, "eval_loss": 0.25648659467697144, "eval_runtime": 150.6646, "eval_samples_per_second": 13.965, "eval_steps_per_second": 0.876, "eval_wer": 12.7372160418809, "step": 4000 }, { "epoch": 0.503125, "grad_norm": 2.5672571659088135, "learning_rate": 5.304e-06, "loss": 0.1434, "step": 4025 }, { "epoch": 0.50625, "grad_norm": 4.591808319091797, "learning_rate": 5.270666666666668e-06, "loss": 0.2075, "step": 4050 }, { "epoch": 0.509375, "grad_norm": 3.485185146331787, "learning_rate": 5.237333333333334e-06, "loss": 0.1478, "step": 4075 }, { "epoch": 0.5125, "grad_norm": 2.5995991230010986, "learning_rate": 5.2040000000000005e-06, "loss": 0.1383, "step": 4100 }, { "epoch": 0.515625, "grad_norm": 2.4682819843292236, "learning_rate": 5.170666666666667e-06, "loss": 0.0959, "step": 4125 }, { "epoch": 0.51875, "grad_norm": 2.436518669128418, "learning_rate": 5.137333333333334e-06, "loss": 0.0857, "step": 4150 }, { "epoch": 0.521875, "grad_norm": 2.0344107151031494, "learning_rate": 5.104e-06, "loss": 0.0862, "step": 4175 }, { "epoch": 0.525, "grad_norm": 1.6771937608718872, "learning_rate": 5.070666666666667e-06, "loss": 0.0808, "step": 4200 }, { "epoch": 0.528125, "grad_norm": 1.7831439971923828, "learning_rate": 5.037333333333334e-06, "loss": 0.0872, "step": 4225 }, { "epoch": 0.53125, "grad_norm": 2.228795051574707, "learning_rate": 5.004e-06, "loss": 0.0832, "step": 4250 }, { "epoch": 0.534375, "grad_norm": 3.1402647495269775, "learning_rate": 4.970666666666667e-06, "loss": 0.0927, "step": 4275 }, { "epoch": 0.5375, "grad_norm": 3.662506580352783, "learning_rate": 4.937333333333334e-06, "loss": 0.1477, "step": 4300 }, { "epoch": 0.540625, "grad_norm": 2.865934371948242, "learning_rate": 4.904000000000001e-06, "loss": 0.1262, "step": 4325 }, { "epoch": 0.54375, "grad_norm": 3.2233200073242188, "learning_rate": 4.870666666666667e-06, "loss": 0.1329, "step": 4350 }, { "epoch": 0.546875, "grad_norm": 2.093703269958496, "learning_rate": 4.837333333333334e-06, "loss": 0.0795, "step": 4375 }, { "epoch": 0.55, "grad_norm": 1.7601807117462158, "learning_rate": 4.804e-06, "loss": 0.0715, "step": 4400 }, { "epoch": 0.553125, "grad_norm": 2.1606643199920654, "learning_rate": 4.770666666666667e-06, "loss": 0.0797, "step": 4425 }, { "epoch": 0.55625, "grad_norm": 2.565343141555786, "learning_rate": 4.737333333333334e-06, "loss": 0.0883, "step": 4450 }, { "epoch": 0.559375, "grad_norm": 2.062619924545288, "learning_rate": 4.704e-06, "loss": 0.0965, "step": 4475 }, { "epoch": 0.5625, "grad_norm": 2.2219879627227783, "learning_rate": 4.6706666666666675e-06, "loss": 0.0891, "step": 4500 }, { "epoch": 0.565625, "grad_norm": 2.857029676437378, "learning_rate": 4.637333333333334e-06, "loss": 0.1147, "step": 4525 }, { "epoch": 0.56875, "grad_norm": 3.090247392654419, "learning_rate": 4.604e-06, "loss": 0.144, "step": 4550 }, { "epoch": 0.571875, "grad_norm": 3.8906264305114746, "learning_rate": 4.570666666666667e-06, "loss": 0.1451, "step": 4575 }, { "epoch": 0.575, "grad_norm": 3.7733590602874756, "learning_rate": 4.537333333333334e-06, "loss": 0.1475, "step": 4600 }, { "epoch": 0.578125, "grad_norm": 3.379163980484009, "learning_rate": 4.504e-06, "loss": 0.1509, "step": 4625 }, { "epoch": 0.58125, "grad_norm": 3.4210824966430664, "learning_rate": 4.470666666666667e-06, "loss": 0.1444, "step": 4650 }, { "epoch": 0.584375, "grad_norm": 3.7809910774230957, "learning_rate": 4.437333333333333e-06, "loss": 0.1295, "step": 4675 }, { "epoch": 0.5875, "grad_norm": 2.537574052810669, "learning_rate": 4.4040000000000005e-06, "loss": 0.1158, "step": 4700 }, { "epoch": 0.590625, "grad_norm": 3.482285261154175, "learning_rate": 4.370666666666667e-06, "loss": 0.1249, "step": 4725 }, { "epoch": 0.59375, "grad_norm": 3.0114011764526367, "learning_rate": 4.337333333333334e-06, "loss": 0.1238, "step": 4750 }, { "epoch": 0.596875, "grad_norm": 2.117215394973755, "learning_rate": 4.304000000000001e-06, "loss": 0.0888, "step": 4775 }, { "epoch": 0.6, "grad_norm": 2.0158379077911377, "learning_rate": 4.270666666666667e-06, "loss": 0.0972, "step": 4800 }, { "epoch": 0.603125, "grad_norm": 2.5208640098571777, "learning_rate": 4.2373333333333335e-06, "loss": 0.0793, "step": 4825 }, { "epoch": 0.60625, "grad_norm": 2.820002555847168, "learning_rate": 4.204e-06, "loss": 0.1035, "step": 4850 }, { "epoch": 0.609375, "grad_norm": 3.1144282817840576, "learning_rate": 4.170666666666667e-06, "loss": 0.1128, "step": 4875 }, { "epoch": 0.6125, "grad_norm": 3.1345527172088623, "learning_rate": 4.137333333333334e-06, "loss": 0.1217, "step": 4900 }, { "epoch": 0.615625, "grad_norm": 2.2702696323394775, "learning_rate": 4.104e-06, "loss": 0.1061, "step": 4925 }, { "epoch": 0.61875, "grad_norm": 2.714102268218994, "learning_rate": 4.072e-06, "loss": 0.0919, "step": 4950 }, { "epoch": 0.621875, "grad_norm": 2.448854923248291, "learning_rate": 4.0386666666666666e-06, "loss": 0.0855, "step": 4975 }, { "epoch": 0.625, "grad_norm": 2.9392127990722656, "learning_rate": 4.005333333333334e-06, "loss": 0.0818, "step": 5000 }, { "epoch": 0.625, "eval_loss": 0.2562941014766693, "eval_runtime": 160.0125, "eval_samples_per_second": 13.149, "eval_steps_per_second": 0.825, "eval_wer": 11.942600729176405, "step": 5000 }, { "epoch": 0.628125, "grad_norm": 2.4964210987091064, "learning_rate": 3.972e-06, "loss": 0.1203, "step": 5025 }, { "epoch": 0.63125, "grad_norm": 3.330078125, "learning_rate": 3.938666666666667e-06, "loss": 0.111, "step": 5050 }, { "epoch": 0.634375, "grad_norm": 3.6872191429138184, "learning_rate": 3.905333333333334e-06, "loss": 0.164, "step": 5075 }, { "epoch": 0.6375, "grad_norm": 3.728769063949585, "learning_rate": 3.872e-06, "loss": 0.1515, "step": 5100 }, { "epoch": 0.640625, "grad_norm": 3.4183156490325928, "learning_rate": 3.838666666666667e-06, "loss": 0.1334, "step": 5125 }, { "epoch": 0.64375, "grad_norm": 3.4580440521240234, "learning_rate": 3.8053333333333336e-06, "loss": 0.134, "step": 5150 }, { "epoch": 0.646875, "grad_norm": 2.2719855308532715, "learning_rate": 3.772e-06, "loss": 0.1088, "step": 5175 }, { "epoch": 0.65, "grad_norm": 2.3186910152435303, "learning_rate": 3.7386666666666673e-06, "loss": 0.0724, "step": 5200 }, { "epoch": 0.653125, "grad_norm": 1.8175565004348755, "learning_rate": 3.7053333333333337e-06, "loss": 0.0759, "step": 5225 }, { "epoch": 0.65625, "grad_norm": 2.0874826908111572, "learning_rate": 3.6720000000000006e-06, "loss": 0.0813, "step": 5250 }, { "epoch": 0.659375, "grad_norm": 1.9950120449066162, "learning_rate": 3.638666666666667e-06, "loss": 0.0824, "step": 5275 }, { "epoch": 0.6625, "grad_norm": 2.6349194049835205, "learning_rate": 3.6053333333333334e-06, "loss": 0.0835, "step": 5300 }, { "epoch": 0.665625, "grad_norm": 2.7667415142059326, "learning_rate": 3.5720000000000003e-06, "loss": 0.0823, "step": 5325 }, { "epoch": 0.66875, "grad_norm": 3.617748260498047, "learning_rate": 3.538666666666667e-06, "loss": 0.1077, "step": 5350 }, { "epoch": 0.671875, "grad_norm": 3.2603073120117188, "learning_rate": 3.5053333333333335e-06, "loss": 0.1268, "step": 5375 }, { "epoch": 0.675, "grad_norm": 2.9681355953216553, "learning_rate": 3.4720000000000004e-06, "loss": 0.1206, "step": 5400 }, { "epoch": 0.678125, "grad_norm": 4.156548500061035, "learning_rate": 3.438666666666667e-06, "loss": 0.1279, "step": 5425 }, { "epoch": 0.68125, "grad_norm": 3.2013888359069824, "learning_rate": 3.4053333333333337e-06, "loss": 0.1177, "step": 5450 }, { "epoch": 0.684375, "grad_norm": 3.299403190612793, "learning_rate": 3.372e-06, "loss": 0.0946, "step": 5475 }, { "epoch": 0.6875, "grad_norm": 2.39630389213562, "learning_rate": 3.338666666666667e-06, "loss": 0.0944, "step": 5500 }, { "epoch": 0.690625, "grad_norm": 3.7624928951263428, "learning_rate": 3.3053333333333338e-06, "loss": 0.1149, "step": 5525 }, { "epoch": 0.69375, "grad_norm": 3.3170886039733887, "learning_rate": 3.272e-06, "loss": 0.1373, "step": 5550 }, { "epoch": 0.696875, "grad_norm": 2.2296531200408936, "learning_rate": 3.238666666666667e-06, "loss": 0.1056, "step": 5575 }, { "epoch": 0.7, "grad_norm": 1.8995999097824097, "learning_rate": 3.2053333333333334e-06, "loss": 0.0724, "step": 5600 }, { "epoch": 0.703125, "grad_norm": 2.3782520294189453, "learning_rate": 3.172e-06, "loss": 0.0604, "step": 5625 }, { "epoch": 0.70625, "grad_norm": 2.2558810710906982, "learning_rate": 3.138666666666667e-06, "loss": 0.0581, "step": 5650 }, { "epoch": 0.709375, "grad_norm": 2.4040448665618896, "learning_rate": 3.1053333333333336e-06, "loss": 0.0713, "step": 5675 }, { "epoch": 0.7125, "grad_norm": 2.5696732997894287, "learning_rate": 3.072e-06, "loss": 0.0773, "step": 5700 }, { "epoch": 0.715625, "grad_norm": 2.237166404724121, "learning_rate": 3.038666666666667e-06, "loss": 0.0765, "step": 5725 }, { "epoch": 0.71875, "grad_norm": 1.8783671855926514, "learning_rate": 3.0053333333333332e-06, "loss": 0.0779, "step": 5750 }, { "epoch": 0.721875, "grad_norm": 2.096334457397461, "learning_rate": 2.9720000000000005e-06, "loss": 0.0751, "step": 5775 }, { "epoch": 0.725, "grad_norm": 2.0362164974212646, "learning_rate": 2.938666666666667e-06, "loss": 0.0711, "step": 5800 }, { "epoch": 0.728125, "grad_norm": 1.7136311531066895, "learning_rate": 2.9053333333333334e-06, "loss": 0.0635, "step": 5825 }, { "epoch": 0.73125, "grad_norm": 2.754848003387451, "learning_rate": 2.872e-06, "loss": 0.0698, "step": 5850 }, { "epoch": 0.734375, "grad_norm": 2.058065176010132, "learning_rate": 2.8386666666666666e-06, "loss": 0.0741, "step": 5875 }, { "epoch": 0.7375, "grad_norm": 3.0389583110809326, "learning_rate": 2.805333333333334e-06, "loss": 0.0938, "step": 5900 }, { "epoch": 0.740625, "grad_norm": 3.4811720848083496, "learning_rate": 2.7720000000000003e-06, "loss": 0.1387, "step": 5925 }, { "epoch": 0.74375, "grad_norm": 3.2388477325439453, "learning_rate": 2.7386666666666667e-06, "loss": 0.1283, "step": 5950 }, { "epoch": 0.746875, "grad_norm": 3.083925247192383, "learning_rate": 2.7053333333333336e-06, "loss": 0.1073, "step": 5975 }, { "epoch": 0.75, "grad_norm": 2.6847918033599854, "learning_rate": 2.672e-06, "loss": 0.1038, "step": 6000 }, { "epoch": 0.75, "eval_loss": 0.23902159929275513, "eval_runtime": 158.0693, "eval_samples_per_second": 13.311, "eval_steps_per_second": 0.835, "eval_wer": 11.07319809292325, "step": 6000 }, { "epoch": 0.753125, "grad_norm": 2.7315189838409424, "learning_rate": 2.6386666666666673e-06, "loss": 0.0987, "step": 6025 }, { "epoch": 0.75625, "grad_norm": 2.3389735221862793, "learning_rate": 2.6053333333333337e-06, "loss": 0.0858, "step": 6050 }, { "epoch": 0.759375, "grad_norm": 1.982534646987915, "learning_rate": 2.572e-06, "loss": 0.0764, "step": 6075 }, { "epoch": 0.7625, "grad_norm": 1.9040074348449707, "learning_rate": 2.538666666666667e-06, "loss": 0.0731, "step": 6100 }, { "epoch": 0.765625, "grad_norm": 2.654710054397583, "learning_rate": 2.5053333333333334e-06, "loss": 0.0758, "step": 6125 }, { "epoch": 0.76875, "grad_norm": 2.6400296688079834, "learning_rate": 2.4720000000000002e-06, "loss": 0.0824, "step": 6150 }, { "epoch": 0.771875, "grad_norm": 7.269197463989258, "learning_rate": 2.438666666666667e-06, "loss": 0.0822, "step": 6175 }, { "epoch": 0.775, "grad_norm": 2.363656520843506, "learning_rate": 2.4053333333333335e-06, "loss": 0.0818, "step": 6200 }, { "epoch": 0.778125, "grad_norm": 2.4660115242004395, "learning_rate": 2.3720000000000003e-06, "loss": 0.0768, "step": 6225 }, { "epoch": 0.78125, "grad_norm": 3.3116371631622314, "learning_rate": 2.3386666666666668e-06, "loss": 0.0783, "step": 6250 }, { "epoch": 0.784375, "grad_norm": 2.595853090286255, "learning_rate": 2.3053333333333336e-06, "loss": 0.0899, "step": 6275 }, { "epoch": 0.7875, "grad_norm": 2.709597587585449, "learning_rate": 2.2720000000000004e-06, "loss": 0.0953, "step": 6300 }, { "epoch": 0.790625, "grad_norm": 2.4446637630462646, "learning_rate": 2.238666666666667e-06, "loss": 0.1249, "step": 6325 }, { "epoch": 0.79375, "grad_norm": 3.4412341117858887, "learning_rate": 2.2053333333333333e-06, "loss": 0.1171, "step": 6350 }, { "epoch": 0.796875, "grad_norm": 2.2719008922576904, "learning_rate": 2.172e-06, "loss": 0.1065, "step": 6375 }, { "epoch": 0.8, "grad_norm": 1.9873290061950684, "learning_rate": 2.138666666666667e-06, "loss": 0.0872, "step": 6400 }, { "epoch": 0.803125, "grad_norm": 2.487403392791748, "learning_rate": 2.1053333333333334e-06, "loss": 0.0765, "step": 6425 }, { "epoch": 0.80625, "grad_norm": 2.4424736499786377, "learning_rate": 2.0720000000000002e-06, "loss": 0.0736, "step": 6450 }, { "epoch": 0.809375, "grad_norm": 3.1507577896118164, "learning_rate": 2.0386666666666667e-06, "loss": 0.1064, "step": 6475 }, { "epoch": 0.8125, "grad_norm": 2.6285648345947266, "learning_rate": 2.0053333333333335e-06, "loss": 0.0993, "step": 6500 }, { "epoch": 0.815625, "grad_norm": 4.1934967041015625, "learning_rate": 1.972e-06, "loss": 0.1299, "step": 6525 }, { "epoch": 0.81875, "grad_norm": 3.031852960586548, "learning_rate": 1.9386666666666668e-06, "loss": 0.1195, "step": 6550 }, { "epoch": 0.821875, "grad_norm": 2.9288837909698486, "learning_rate": 1.9053333333333334e-06, "loss": 0.1197, "step": 6575 }, { "epoch": 0.825, "grad_norm": 2.890054225921631, "learning_rate": 1.8720000000000002e-06, "loss": 0.1127, "step": 6600 }, { "epoch": 0.828125, "grad_norm": 3.130406618118286, "learning_rate": 1.8386666666666669e-06, "loss": 0.1155, "step": 6625 }, { "epoch": 0.83125, "grad_norm": 2.7169485092163086, "learning_rate": 1.8053333333333333e-06, "loss": 0.1291, "step": 6650 }, { "epoch": 0.834375, "grad_norm": 2.7390034198760986, "learning_rate": 1.7720000000000001e-06, "loss": 0.1097, "step": 6675 }, { "epoch": 0.8375, "grad_norm": 2.161604166030884, "learning_rate": 1.7386666666666668e-06, "loss": 0.1022, "step": 6700 }, { "epoch": 0.840625, "grad_norm": 2.210451126098633, "learning_rate": 1.7053333333333336e-06, "loss": 0.0779, "step": 6725 }, { "epoch": 0.84375, "grad_norm": 2.426438808441162, "learning_rate": 1.672e-06, "loss": 0.0728, "step": 6750 }, { "epoch": 0.846875, "grad_norm": 2.8744237422943115, "learning_rate": 1.6386666666666667e-06, "loss": 0.0859, "step": 6775 }, { "epoch": 0.85, "grad_norm": 2.8165483474731445, "learning_rate": 1.6053333333333335e-06, "loss": 0.1496, "step": 6800 }, { "epoch": 0.853125, "grad_norm": 4.0077738761901855, "learning_rate": 1.5720000000000002e-06, "loss": 0.1343, "step": 6825 }, { "epoch": 0.85625, "grad_norm": 3.8011586666107178, "learning_rate": 1.538666666666667e-06, "loss": 0.1397, "step": 6850 }, { "epoch": 0.859375, "grad_norm": 2.7379047870635986, "learning_rate": 1.5053333333333334e-06, "loss": 0.1262, "step": 6875 }, { "epoch": 0.8625, "grad_norm": 3.250950574874878, "learning_rate": 1.472e-06, "loss": 0.1188, "step": 6900 }, { "epoch": 0.865625, "grad_norm": 2.782945156097412, "learning_rate": 1.438666666666667e-06, "loss": 0.1103, "step": 6925 }, { "epoch": 0.86875, "grad_norm": 3.08154034614563, "learning_rate": 1.4053333333333335e-06, "loss": 0.1147, "step": 6950 }, { "epoch": 0.871875, "grad_norm": 3.5768070220947266, "learning_rate": 1.372e-06, "loss": 0.1332, "step": 6975 }, { "epoch": 0.875, "grad_norm": 3.155341863632202, "learning_rate": 1.3386666666666668e-06, "loss": 0.1282, "step": 7000 }, { "epoch": 0.875, "eval_loss": 0.23438745737075806, "eval_runtime": 154.8314, "eval_samples_per_second": 13.589, "eval_steps_per_second": 0.853, "eval_wer": 11.391044218005048, "step": 7000 }, { "epoch": 0.878125, "grad_norm": 11.062019348144531, "learning_rate": 1.308e-06, "loss": 0.2406, "step": 7025 }, { "epoch": 0.88125, "grad_norm": 4.648179531097412, "learning_rate": 1.2746666666666669e-06, "loss": 0.3469, "step": 7050 }, { "epoch": 0.884375, "grad_norm": 4.388245105743408, "learning_rate": 1.2413333333333335e-06, "loss": 0.3421, "step": 7075 }, { "epoch": 0.8875, "grad_norm": 4.806427478790283, "learning_rate": 1.2080000000000001e-06, "loss": 0.2847, "step": 7100 }, { "epoch": 0.890625, "grad_norm": 3.0818049907684326, "learning_rate": 1.1746666666666668e-06, "loss": 0.1671, "step": 7125 }, { "epoch": 0.89375, "grad_norm": 4.117819309234619, "learning_rate": 1.1413333333333334e-06, "loss": 0.1313, "step": 7150 }, { "epoch": 0.896875, "grad_norm": 2.8558835983276367, "learning_rate": 1.108e-06, "loss": 0.1177, "step": 7175 }, { "epoch": 0.9, "grad_norm": 3.0425021648406982, "learning_rate": 1.0746666666666669e-06, "loss": 0.0911, "step": 7200 }, { "epoch": 0.903125, "grad_norm": 2.6587588787078857, "learning_rate": 1.0413333333333333e-06, "loss": 0.0898, "step": 7225 }, { "epoch": 0.90625, "grad_norm": 1.7572664022445679, "learning_rate": 1.0080000000000001e-06, "loss": 0.0922, "step": 7250 }, { "epoch": 0.909375, "grad_norm": 2.00393009185791, "learning_rate": 9.746666666666668e-07, "loss": 0.0753, "step": 7275 }, { "epoch": 0.9125, "grad_norm": 1.845981478691101, "learning_rate": 9.413333333333334e-07, "loss": 0.0628, "step": 7300 }, { "epoch": 0.915625, "grad_norm": 2.008112907409668, "learning_rate": 9.080000000000001e-07, "loss": 0.0696, "step": 7325 }, { "epoch": 0.91875, "grad_norm": 2.837357759475708, "learning_rate": 8.746666666666668e-07, "loss": 0.0897, "step": 7350 }, { "epoch": 0.921875, "grad_norm": 2.4842417240142822, "learning_rate": 8.413333333333334e-07, "loss": 0.1227, "step": 7375 }, { "epoch": 0.925, "grad_norm": 2.7866716384887695, "learning_rate": 8.08e-07, "loss": 0.1012, "step": 7400 }, { "epoch": 0.928125, "grad_norm": 2.1826930046081543, "learning_rate": 7.746666666666668e-07, "loss": 0.1141, "step": 7425 }, { "epoch": 0.93125, "grad_norm": 2.014090061187744, "learning_rate": 7.413333333333333e-07, "loss": 0.0754, "step": 7450 }, { "epoch": 0.934375, "grad_norm": 2.1539175510406494, "learning_rate": 7.08e-07, "loss": 0.0736, "step": 7475 }, { "epoch": 0.9375, "grad_norm": 2.712541341781616, "learning_rate": 6.746666666666667e-07, "loss": 0.0684, "step": 7500 }, { "epoch": 0.940625, "grad_norm": 3.281242847442627, "learning_rate": 6.413333333333334e-07, "loss": 0.1414, "step": 7525 }, { "epoch": 0.94375, "grad_norm": 4.088025093078613, "learning_rate": 6.08e-07, "loss": 0.1895, "step": 7550 }, { "epoch": 0.946875, "grad_norm": 4.144560813903809, "learning_rate": 5.746666666666667e-07, "loss": 0.222, "step": 7575 }, { "epoch": 0.95, "grad_norm": 1.8468823432922363, "learning_rate": 5.413333333333334e-07, "loss": 0.1349, "step": 7600 }, { "epoch": 0.953125, "grad_norm": 2.5354621410369873, "learning_rate": 5.08e-07, "loss": 0.0872, "step": 7625 }, { "epoch": 0.95625, "grad_norm": 1.83882737159729, "learning_rate": 4.746666666666667e-07, "loss": 0.0725, "step": 7650 }, { "epoch": 0.959375, "grad_norm": 3.42556095123291, "learning_rate": 4.413333333333333e-07, "loss": 0.0988, "step": 7675 }, { "epoch": 0.9625, "grad_norm": 2.682558059692383, "learning_rate": 4.0800000000000005e-07, "loss": 0.1166, "step": 7700 }, { "epoch": 0.965625, "grad_norm": 3.2471797466278076, "learning_rate": 3.7466666666666674e-07, "loss": 0.1257, "step": 7725 }, { "epoch": 0.96875, "grad_norm": 2.4202020168304443, "learning_rate": 3.4133333333333337e-07, "loss": 0.1114, "step": 7750 }, { "epoch": 0.971875, "grad_norm": 2.8282711505889893, "learning_rate": 3.0800000000000006e-07, "loss": 0.0811, "step": 7775 }, { "epoch": 0.975, "grad_norm": 4.20676326751709, "learning_rate": 2.746666666666667e-07, "loss": 0.104, "step": 7800 }, { "epoch": 0.978125, "grad_norm": 4.955998420715332, "learning_rate": 2.413333333333333e-07, "loss": 0.2773, "step": 7825 }, { "epoch": 0.98125, "grad_norm": 2.0168468952178955, "learning_rate": 2.08e-07, "loss": 0.1105, "step": 7850 }, { "epoch": 0.984375, "grad_norm": 1.6335862874984741, "learning_rate": 1.7466666666666667e-07, "loss": 0.0808, "step": 7875 }, { "epoch": 0.9875, "grad_norm": 2.269954204559326, "learning_rate": 1.4133333333333333e-07, "loss": 0.0786, "step": 7900 }, { "epoch": 0.990625, "grad_norm": 2.0813560485839844, "learning_rate": 1.0800000000000001e-07, "loss": 0.0801, "step": 7925 }, { "epoch": 0.99375, "grad_norm": 1.6093230247497559, "learning_rate": 7.466666666666667e-08, "loss": 0.0687, "step": 7950 }, { "epoch": 0.996875, "grad_norm": 1.730695366859436, "learning_rate": 4.133333333333334e-08, "loss": 0.0814, "step": 7975 }, { "epoch": 1.0, "grad_norm": 3.418311595916748, "learning_rate": 8e-09, "loss": 0.0959, "step": 8000 }, { "epoch": 1.0, "eval_loss": 0.1835634410381317, "eval_runtime": 154.4338, "eval_samples_per_second": 13.624, "eval_steps_per_second": 0.855, "eval_wer": 10.886229784051602, "step": 8000 }, { "epoch": 1.0, "step": 8000, "total_flos": 7.387786248192e+19, "train_loss": 0.17036041705310345, "train_runtime": 11036.9074, "train_samples_per_second": 23.195, "train_steps_per_second": 0.725 } ], "logging_steps": 25, "max_steps": 8000, "num_input_tokens_seen": 0, "num_train_epochs": 9223372036854775807, "save_steps": 1000, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 7.387786248192e+19, "train_batch_size": 32, "trial_name": null, "trial_params": null }