{
  "best_metric": 10.886229784051602,
  "best_model_checkpoint": "./checkpoint-8000",
  "epoch": 1.0,
  "eval_steps": 1000,
  "global_step": 8000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.003125,
      "grad_norm": 17.579944610595703,
      "learning_rate": 4.4e-07,
      "loss": 2.3284,
      "step": 25
    },
    {
      "epoch": 0.00625,
      "grad_norm": 9.753120422363281,
      "learning_rate": 9.400000000000001e-07,
      "loss": 1.9145,
      "step": 50
    },
    {
      "epoch": 0.009375,
      "grad_norm": 9.469987869262695,
      "learning_rate": 1.44e-06,
      "loss": 1.2892,
      "step": 75
    },
    {
      "epoch": 0.0125,
      "grad_norm": 6.952774524688721,
      "learning_rate": 1.94e-06,
      "loss": 0.9797,
      "step": 100
    },
    {
      "epoch": 0.015625,
      "grad_norm": 6.080902576446533,
      "learning_rate": 2.4400000000000004e-06,
      "loss": 0.8265,
      "step": 125
    },
    {
      "epoch": 0.01875,
      "grad_norm": 5.6766037940979,
      "learning_rate": 2.9400000000000002e-06,
      "loss": 0.6998,
      "step": 150
    },
    {
      "epoch": 0.021875,
      "grad_norm": 5.372249126434326,
      "learning_rate": 3.44e-06,
      "loss": 0.6537,
      "step": 175
    },
    {
      "epoch": 0.025,
      "grad_norm": 5.710323810577393,
      "learning_rate": 3.94e-06,
      "loss": 0.6149,
      "step": 200
    },
    {
      "epoch": 0.028125,
      "grad_norm": 5.235953330993652,
      "learning_rate": 4.440000000000001e-06,
      "loss": 0.5256,
      "step": 225
    },
    {
      "epoch": 0.03125,
      "grad_norm": 6.58635950088501,
      "learning_rate": 4.94e-06,
      "loss": 0.54,
      "step": 250
    },
    {
      "epoch": 0.034375,
      "grad_norm": 5.4912004470825195,
      "learning_rate": 5.4400000000000004e-06,
      "loss": 0.5521,
      "step": 275
    },
    {
      "epoch": 0.0375,
      "grad_norm": 5.846869945526123,
      "learning_rate": 5.94e-06,
      "loss": 0.5379,
      "step": 300
    },
    {
      "epoch": 0.040625,
      "grad_norm": 5.060309410095215,
      "learning_rate": 6.440000000000001e-06,
      "loss": 0.4778,
      "step": 325
    },
    {
      "epoch": 0.04375,
      "grad_norm": 5.06487512588501,
      "learning_rate": 6.9400000000000005e-06,
      "loss": 0.4152,
      "step": 350
    },
    {
      "epoch": 0.046875,
      "grad_norm": 4.936045169830322,
      "learning_rate": 7.440000000000001e-06,
      "loss": 0.3547,
      "step": 375
    },
    {
      "epoch": 0.05,
      "grad_norm": 3.8072471618652344,
      "learning_rate": 7.94e-06,
      "loss": 0.3428,
      "step": 400
    },
    {
      "epoch": 0.053125,
      "grad_norm": 3.9378795623779297,
      "learning_rate": 8.44e-06,
      "loss": 0.3099,
      "step": 425
    },
    {
      "epoch": 0.05625,
      "grad_norm": 3.732869863510132,
      "learning_rate": 8.94e-06,
      "loss": 0.2963,
      "step": 450
    },
    {
      "epoch": 0.059375,
      "grad_norm": 3.9596025943756104,
      "learning_rate": 9.440000000000001e-06,
      "loss": 0.2745,
      "step": 475
    },
    {
      "epoch": 0.0625,
      "grad_norm": 3.428398370742798,
      "learning_rate": 9.940000000000001e-06,
      "loss": 0.2626,
      "step": 500
    },
    {
      "epoch": 0.065625,
      "grad_norm": 5.03747034072876,
      "learning_rate": 9.970666666666668e-06,
      "loss": 0.2411,
      "step": 525
    },
    {
      "epoch": 0.06875,
      "grad_norm": 3.2012217044830322,
      "learning_rate": 9.937333333333334e-06,
      "loss": 0.2389,
      "step": 550
    },
    {
      "epoch": 0.071875,
      "grad_norm": 3.7361278533935547,
      "learning_rate": 9.904e-06,
      "loss": 0.2217,
      "step": 575
    },
    {
      "epoch": 0.075,
      "grad_norm": 4.509885787963867,
      "learning_rate": 9.870666666666667e-06,
      "loss": 0.2246,
      "step": 600
    },
    {
      "epoch": 0.078125,
      "grad_norm": 3.462961435317993,
      "learning_rate": 9.837333333333335e-06,
      "loss": 0.199,
      "step": 625
    },
    {
      "epoch": 0.08125,
      "grad_norm": 2.764691114425659,
      "learning_rate": 9.804000000000001e-06,
      "loss": 0.2156,
      "step": 650
    },
    {
      "epoch": 0.084375,
      "grad_norm": 3.059408187866211,
      "learning_rate": 9.770666666666668e-06,
      "loss": 0.212,
      "step": 675
    },
    {
      "epoch": 0.0875,
      "grad_norm": 3.952425718307495,
      "learning_rate": 9.737333333333334e-06,
      "loss": 0.2123,
      "step": 700
    },
    {
      "epoch": 0.090625,
      "grad_norm": 4.892609119415283,
      "learning_rate": 9.704e-06,
      "loss": 0.2343,
      "step": 725
    },
    {
      "epoch": 0.09375,
      "grad_norm": 4.592615127563477,
      "learning_rate": 9.670666666666667e-06,
      "loss": 0.3308,
      "step": 750
    },
    {
      "epoch": 0.096875,
      "grad_norm": 4.663967132568359,
      "learning_rate": 9.637333333333333e-06,
      "loss": 0.3146,
      "step": 775
    },
    {
      "epoch": 0.1,
      "grad_norm": 5.091048717498779,
      "learning_rate": 9.604000000000002e-06,
      "loss": 0.3519,
      "step": 800
    },
    {
      "epoch": 0.103125,
      "grad_norm": 3.8216071128845215,
      "learning_rate": 9.570666666666666e-06,
      "loss": 0.2365,
      "step": 825
    },
    {
      "epoch": 0.10625,
      "grad_norm": 3.122516393661499,
      "learning_rate": 9.537333333333334e-06,
      "loss": 0.193,
      "step": 850
    },
    {
      "epoch": 0.109375,
      "grad_norm": 2.657339096069336,
      "learning_rate": 9.504e-06,
      "loss": 0.1759,
      "step": 875
    },
    {
      "epoch": 0.1125,
      "grad_norm": 4.554510116577148,
      "learning_rate": 9.470666666666667e-06,
      "loss": 0.2387,
      "step": 900
    },
    {
      "epoch": 0.115625,
      "grad_norm": 5.045220851898193,
      "learning_rate": 9.437333333333334e-06,
      "loss": 0.2845,
      "step": 925
    },
    {
      "epoch": 0.11875,
      "grad_norm": 4.260054588317871,
      "learning_rate": 9.404e-06,
      "loss": 0.2755,
      "step": 950
    },
    {
      "epoch": 0.121875,
      "grad_norm": 5.8209147453308105,
      "learning_rate": 9.370666666666668e-06,
      "loss": 0.481,
      "step": 975
    },
    {
      "epoch": 0.125,
      "grad_norm": 5.498444557189941,
      "learning_rate": 9.337333333333335e-06,
      "loss": 0.3998,
      "step": 1000
    },
    {
      "epoch": 0.125,
      "eval_loss": 0.36512792110443115,
      "eval_runtime": 153.2646,
      "eval_samples_per_second": 13.728,
      "eval_steps_per_second": 0.861,
      "eval_wer": 21.50135552023932,
      "step": 1000
    },
    {
      "epoch": 0.128125,
      "grad_norm": 4.732964515686035,
      "learning_rate": 9.304000000000001e-06,
      "loss": 0.329,
      "step": 1025
    },
    {
      "epoch": 0.13125,
      "grad_norm": 3.3556125164031982,
      "learning_rate": 9.270666666666667e-06,
      "loss": 0.2319,
      "step": 1050
    },
    {
      "epoch": 0.134375,
      "grad_norm": 2.9708847999572754,
      "learning_rate": 9.237333333333334e-06,
      "loss": 0.174,
      "step": 1075
    },
    {
      "epoch": 0.1375,
      "grad_norm": 2.841306447982788,
      "learning_rate": 9.204e-06,
      "loss": 0.1447,
      "step": 1100
    },
    {
      "epoch": 0.140625,
      "grad_norm": 2.7909176349639893,
      "learning_rate": 9.170666666666668e-06,
      "loss": 0.1406,
      "step": 1125
    },
    {
      "epoch": 0.14375,
      "grad_norm": 3.37842059135437,
      "learning_rate": 9.137333333333333e-06,
      "loss": 0.151,
      "step": 1150
    },
    {
      "epoch": 0.146875,
      "grad_norm": 3.023977041244507,
      "learning_rate": 9.104000000000001e-06,
      "loss": 0.1529,
      "step": 1175
    },
    {
      "epoch": 0.15,
      "grad_norm": 3.015974283218384,
      "learning_rate": 9.070666666666668e-06,
      "loss": 0.1496,
      "step": 1200
    },
    {
      "epoch": 0.153125,
      "grad_norm": 4.30889892578125,
      "learning_rate": 9.037333333333334e-06,
      "loss": 0.219,
      "step": 1225
    },
    {
      "epoch": 0.15625,
      "grad_norm": 4.160729885101318,
      "learning_rate": 9.004e-06,
      "loss": 0.238,
      "step": 1250
    },
    {
      "epoch": 0.159375,
      "grad_norm": 4.687659740447998,
      "learning_rate": 8.970666666666667e-06,
      "loss": 0.2603,
      "step": 1275
    },
    {
      "epoch": 0.1625,
      "grad_norm": 4.577232837677002,
      "learning_rate": 8.937333333333335e-06,
      "loss": 0.2666,
      "step": 1300
    },
    {
      "epoch": 0.165625,
      "grad_norm": 5.091732501983643,
      "learning_rate": 8.904e-06,
      "loss": 0.2337,
      "step": 1325
    },
    {
      "epoch": 0.16875,
      "grad_norm": 4.125801086425781,
      "learning_rate": 8.870666666666668e-06,
      "loss": 0.2379,
      "step": 1350
    },
    {
      "epoch": 0.171875,
      "grad_norm": 5.142183303833008,
      "learning_rate": 8.837333333333334e-06,
      "loss": 0.2215,
      "step": 1375
    },
    {
      "epoch": 0.175,
      "grad_norm": 4.486277103424072,
      "learning_rate": 8.804e-06,
      "loss": 0.2136,
      "step": 1400
    },
    {
      "epoch": 0.178125,
      "grad_norm": 3.5466482639312744,
      "learning_rate": 8.770666666666667e-06,
      "loss": 0.2214,
      "step": 1425
    },
    {
      "epoch": 0.18125,
      "grad_norm": 3.6199097633361816,
      "learning_rate": 8.737333333333334e-06,
      "loss": 0.2113,
      "step": 1450
    },
    {
      "epoch": 0.184375,
      "grad_norm": 2.559951066970825,
      "learning_rate": 8.704e-06,
      "loss": 0.1552,
      "step": 1475
    },
    {
      "epoch": 0.1875,
      "grad_norm": 2.9152133464813232,
      "learning_rate": 8.670666666666666e-06,
      "loss": 0.1354,
      "step": 1500
    },
    {
      "epoch": 0.190625,
      "grad_norm": 2.608732223510742,
      "learning_rate": 8.637333333333335e-06,
      "loss": 0.144,
      "step": 1525
    },
    {
      "epoch": 0.19375,
      "grad_norm": 4.0043416023254395,
      "learning_rate": 8.604000000000001e-06,
      "loss": 0.1367,
      "step": 1550
    },
    {
      "epoch": 0.196875,
      "grad_norm": 2.3621206283569336,
      "learning_rate": 8.570666666666667e-06,
      "loss": 0.1194,
      "step": 1575
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.6970181465148926,
      "learning_rate": 8.537333333333334e-06,
      "loss": 0.1283,
      "step": 1600
    },
    {
      "epoch": 0.203125,
      "grad_norm": 4.737370014190674,
      "learning_rate": 8.504000000000002e-06,
      "loss": 0.1858,
      "step": 1625
    },
    {
      "epoch": 0.20625,
      "grad_norm": 3.462738513946533,
      "learning_rate": 8.470666666666667e-06,
      "loss": 0.1995,
      "step": 1650
    },
    {
      "epoch": 0.209375,
      "grad_norm": 4.608364582061768,
      "learning_rate": 8.437333333333335e-06,
      "loss": 0.2028,
      "step": 1675
    },
    {
      "epoch": 0.2125,
      "grad_norm": 2.770601987838745,
      "learning_rate": 8.404000000000001e-06,
      "loss": 0.1952,
      "step": 1700
    },
    {
      "epoch": 0.215625,
      "grad_norm": 3.041656017303467,
      "learning_rate": 8.370666666666668e-06,
      "loss": 0.1464,
      "step": 1725
    },
    {
      "epoch": 0.21875,
      "grad_norm": 2.988032102584839,
      "learning_rate": 8.337333333333334e-06,
      "loss": 0.1424,
      "step": 1750
    },
    {
      "epoch": 0.221875,
      "grad_norm": 3.0646026134490967,
      "learning_rate": 8.304e-06,
      "loss": 0.1233,
      "step": 1775
    },
    {
      "epoch": 0.225,
      "grad_norm": 2.617403268814087,
      "learning_rate": 8.270666666666667e-06,
      "loss": 0.1384,
      "step": 1800
    },
    {
      "epoch": 0.228125,
      "grad_norm": 2.6170425415039062,
      "learning_rate": 8.237333333333333e-06,
      "loss": 0.1208,
      "step": 1825
    },
    {
      "epoch": 0.23125,
      "grad_norm": 2.1296098232269287,
      "learning_rate": 8.204000000000001e-06,
      "loss": 0.1176,
      "step": 1850
    },
    {
      "epoch": 0.234375,
      "grad_norm": 2.767275810241699,
      "learning_rate": 8.170666666666668e-06,
      "loss": 0.1189,
      "step": 1875
    },
    {
      "epoch": 0.2375,
      "grad_norm": 2.7053661346435547,
      "learning_rate": 8.137333333333334e-06,
      "loss": 0.1211,
      "step": 1900
    },
    {
      "epoch": 0.240625,
      "grad_norm": 2.281399965286255,
      "learning_rate": 8.104e-06,
      "loss": 0.1156,
      "step": 1925
    },
    {
      "epoch": 0.24375,
      "grad_norm": 3.7013635635375977,
      "learning_rate": 8.070666666666667e-06,
      "loss": 0.1517,
      "step": 1950
    },
    {
      "epoch": 0.246875,
      "grad_norm": 3.7125532627105713,
      "learning_rate": 8.037333333333334e-06,
      "loss": 0.2002,
      "step": 1975
    },
    {
      "epoch": 0.25,
      "grad_norm": 3.8716859817504883,
      "learning_rate": 8.004e-06,
      "loss": 0.1975,
      "step": 2000
    },
    {
      "epoch": 0.25,
      "eval_loss": 0.2918355464935303,
      "eval_runtime": 153.1763,
      "eval_samples_per_second": 13.736,
      "eval_steps_per_second": 0.862,
      "eval_wer": 15.873609423202767,
      "step": 2000
    },
    {
      "epoch": 0.253125,
      "grad_norm": 2.4911813735961914,
      "learning_rate": 7.970666666666668e-06,
      "loss": 0.1648,
      "step": 2025
    },
    {
      "epoch": 0.25625,
      "grad_norm": 2.604146718978882,
      "learning_rate": 7.937333333333333e-06,
      "loss": 0.1162,
      "step": 2050
    },
    {
      "epoch": 0.259375,
      "grad_norm": 2.7352280616760254,
      "learning_rate": 7.904000000000001e-06,
      "loss": 0.1135,
      "step": 2075
    },
    {
      "epoch": 0.2625,
      "grad_norm": 2.2932169437408447,
      "learning_rate": 7.870666666666667e-06,
      "loss": 0.1153,
      "step": 2100
    },
    {
      "epoch": 0.265625,
      "grad_norm": 3.1734797954559326,
      "learning_rate": 7.837333333333334e-06,
      "loss": 0.1005,
      "step": 2125
    },
    {
      "epoch": 0.26875,
      "grad_norm": 2.4353103637695312,
      "learning_rate": 7.804e-06,
      "loss": 0.0988,
      "step": 2150
    },
    {
      "epoch": 0.271875,
      "grad_norm": 2.8655478954315186,
      "learning_rate": 7.770666666666668e-06,
      "loss": 0.1028,
      "step": 2175
    },
    {
      "epoch": 0.275,
      "grad_norm": 3.800967216491699,
      "learning_rate": 7.737333333333335e-06,
      "loss": 0.1751,
      "step": 2200
    },
    {
      "epoch": 0.278125,
      "grad_norm": 4.212419509887695,
      "learning_rate": 7.704000000000001e-06,
      "loss": 0.1798,
      "step": 2225
    },
    {
      "epoch": 0.28125,
      "grad_norm": 3.5863020420074463,
      "learning_rate": 7.670666666666668e-06,
      "loss": 0.199,
      "step": 2250
    },
    {
      "epoch": 0.284375,
      "grad_norm": 3.1013996601104736,
      "learning_rate": 7.637333333333334e-06,
      "loss": 0.1335,
      "step": 2275
    },
    {
      "epoch": 0.2875,
      "grad_norm": 2.2462713718414307,
      "learning_rate": 7.604e-06,
      "loss": 0.0976,
      "step": 2300
    },
    {
      "epoch": 0.290625,
      "grad_norm": 2.9669203758239746,
      "learning_rate": 7.570666666666668e-06,
      "loss": 0.0946,
      "step": 2325
    },
    {
      "epoch": 0.29375,
      "grad_norm": 2.645289897918701,
      "learning_rate": 7.537333333333334e-06,
      "loss": 0.0935,
      "step": 2350
    },
    {
      "epoch": 0.296875,
      "grad_norm": 1.9715274572372437,
      "learning_rate": 7.5040000000000005e-06,
      "loss": 0.1045,
      "step": 2375
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.1423373222351074,
      "learning_rate": 7.470666666666667e-06,
      "loss": 0.0977,
      "step": 2400
    },
    {
      "epoch": 0.303125,
      "grad_norm": 2.029958963394165,
      "learning_rate": 7.437333333333334e-06,
      "loss": 0.1061,
      "step": 2425
    },
    {
      "epoch": 0.30625,
      "grad_norm": 1.972732663154602,
      "learning_rate": 7.404e-06,
      "loss": 0.0998,
      "step": 2450
    },
    {
      "epoch": 0.309375,
      "grad_norm": 2.2875239849090576,
      "learning_rate": 7.370666666666667e-06,
      "loss": 0.1068,
      "step": 2475
    },
    {
      "epoch": 0.3125,
      "grad_norm": 3.1778981685638428,
      "learning_rate": 7.337333333333334e-06,
      "loss": 0.1168,
      "step": 2500
    },
    {
      "epoch": 0.315625,
      "grad_norm": 3.360576868057251,
      "learning_rate": 7.304000000000001e-06,
      "loss": 0.1524,
      "step": 2525
    },
    {
      "epoch": 0.31875,
      "grad_norm": 3.5467047691345215,
      "learning_rate": 7.270666666666667e-06,
      "loss": 0.1483,
      "step": 2550
    },
    {
      "epoch": 0.321875,
      "grad_norm": 3.488696575164795,
      "learning_rate": 7.237333333333334e-06,
      "loss": 0.1775,
      "step": 2575
    },
    {
      "epoch": 0.325,
      "grad_norm": 2.8800296783447266,
      "learning_rate": 7.204000000000001e-06,
      "loss": 0.135,
      "step": 2600
    },
    {
      "epoch": 0.328125,
      "grad_norm": 3.1020660400390625,
      "learning_rate": 7.170666666666667e-06,
      "loss": 0.1108,
      "step": 2625
    },
    {
      "epoch": 0.33125,
      "grad_norm": 2.1233720779418945,
      "learning_rate": 7.137333333333334e-06,
      "loss": 0.1002,
      "step": 2650
    },
    {
      "epoch": 0.334375,
      "grad_norm": 2.393425703048706,
      "learning_rate": 7.104000000000001e-06,
      "loss": 0.0941,
      "step": 2675
    },
    {
      "epoch": 0.3375,
      "grad_norm": 2.295924186706543,
      "learning_rate": 7.0706666666666665e-06,
      "loss": 0.0959,
      "step": 2700
    },
    {
      "epoch": 0.340625,
      "grad_norm": 1.8125039339065552,
      "learning_rate": 7.037333333333334e-06,
      "loss": 0.1116,
      "step": 2725
    },
    {
      "epoch": 0.34375,
      "grad_norm": 3.006834030151367,
      "learning_rate": 7.004000000000001e-06,
      "loss": 0.1146,
      "step": 2750
    },
    {
      "epoch": 0.346875,
      "grad_norm": 4.171006679534912,
      "learning_rate": 6.970666666666667e-06,
      "loss": 0.2029,
      "step": 2775
    },
    {
      "epoch": 0.35,
      "grad_norm": 3.68646240234375,
      "learning_rate": 6.937333333333334e-06,
      "loss": 0.1913,
      "step": 2800
    },
    {
      "epoch": 0.353125,
      "grad_norm": 3.7463300228118896,
      "learning_rate": 6.904e-06,
      "loss": 0.16,
      "step": 2825
    },
    {
      "epoch": 0.35625,
      "grad_norm": 3.069136381149292,
      "learning_rate": 6.8706666666666676e-06,
      "loss": 0.1571,
      "step": 2850
    },
    {
      "epoch": 0.359375,
      "grad_norm": 3.17172908782959,
      "learning_rate": 6.837333333333334e-06,
      "loss": 0.1608,
      "step": 2875
    },
    {
      "epoch": 0.3625,
      "grad_norm": 3.1673102378845215,
      "learning_rate": 6.804e-06,
      "loss": 0.1546,
      "step": 2900
    },
    {
      "epoch": 0.365625,
      "grad_norm": 2.344193935394287,
      "learning_rate": 6.770666666666668e-06,
      "loss": 0.1282,
      "step": 2925
    },
    {
      "epoch": 0.36875,
      "grad_norm": 2.5321226119995117,
      "learning_rate": 6.737333333333333e-06,
      "loss": 0.0979,
      "step": 2950
    },
    {
      "epoch": 0.371875,
      "grad_norm": 2.2652363777160645,
      "learning_rate": 6.7040000000000005e-06,
      "loss": 0.1049,
      "step": 2975
    },
    {
      "epoch": 0.375,
      "grad_norm": 2.7856993675231934,
      "learning_rate": 6.670666666666668e-06,
      "loss": 0.1433,
      "step": 3000
    },
    {
      "epoch": 0.375,
      "eval_loss": 0.2720916271209717,
      "eval_runtime": 151.7576,
      "eval_samples_per_second": 13.864,
      "eval_steps_per_second": 0.87,
      "eval_wer": 13.9010937646069,
      "step": 3000
    },
    {
      "epoch": 0.378125,
      "grad_norm": 4.214677810668945,
      "learning_rate": 6.637333333333333e-06,
      "loss": 0.1758,
      "step": 3025
    },
    {
      "epoch": 0.38125,
      "grad_norm": 4.144543647766113,
      "learning_rate": 6.604000000000001e-06,
      "loss": 0.1972,
      "step": 3050
    },
    {
      "epoch": 0.384375,
      "grad_norm": 2.1775295734405518,
      "learning_rate": 6.570666666666667e-06,
      "loss": 0.1293,
      "step": 3075
    },
    {
      "epoch": 0.3875,
      "grad_norm": 2.796152353286743,
      "learning_rate": 6.537333333333334e-06,
      "loss": 0.099,
      "step": 3100
    },
    {
      "epoch": 0.390625,
      "grad_norm": 2.1920204162597656,
      "learning_rate": 6.504e-06,
      "loss": 0.0945,
      "step": 3125
    },
    {
      "epoch": 0.39375,
      "grad_norm": 2.8689582347869873,
      "learning_rate": 6.470666666666667e-06,
      "loss": 0.1118,
      "step": 3150
    },
    {
      "epoch": 0.396875,
      "grad_norm": 3.580993175506592,
      "learning_rate": 6.4373333333333344e-06,
      "loss": 0.1732,
      "step": 3175
    },
    {
      "epoch": 0.4,
      "grad_norm": 3.9165573120117188,
      "learning_rate": 6.404e-06,
      "loss": 0.1581,
      "step": 3200
    },
    {
      "epoch": 0.403125,
      "grad_norm": 3.8235292434692383,
      "learning_rate": 6.370666666666667e-06,
      "loss": 0.1716,
      "step": 3225
    },
    {
      "epoch": 0.40625,
      "grad_norm": 3.21138072013855,
      "learning_rate": 6.3373333333333345e-06,
      "loss": 0.1364,
      "step": 3250
    },
    {
      "epoch": 0.409375,
      "grad_norm": 3.925539255142212,
      "learning_rate": 6.304e-06,
      "loss": 0.1459,
      "step": 3275
    },
    {
      "epoch": 0.4125,
      "grad_norm": 3.062764883041382,
      "learning_rate": 6.270666666666667e-06,
      "loss": 0.1668,
      "step": 3300
    },
    {
      "epoch": 0.415625,
      "grad_norm": 2.8379392623901367,
      "learning_rate": 6.237333333333334e-06,
      "loss": 0.1243,
      "step": 3325
    },
    {
      "epoch": 0.41875,
      "grad_norm": 2.979661226272583,
      "learning_rate": 6.204e-06,
      "loss": 0.0979,
      "step": 3350
    },
    {
      "epoch": 0.421875,
      "grad_norm": 2.4838883876800537,
      "learning_rate": 6.170666666666667e-06,
      "loss": 0.0848,
      "step": 3375
    },
    {
      "epoch": 0.425,
      "grad_norm": 2.3293073177337646,
      "learning_rate": 6.137333333333334e-06,
      "loss": 0.0927,
      "step": 3400
    },
    {
      "epoch": 0.428125,
      "grad_norm": 3.3497400283813477,
      "learning_rate": 6.104000000000001e-06,
      "loss": 0.0976,
      "step": 3425
    },
    {
      "epoch": 0.43125,
      "grad_norm": 2.0302255153656006,
      "learning_rate": 6.070666666666667e-06,
      "loss": 0.0881,
      "step": 3450
    },
    {
      "epoch": 0.434375,
      "grad_norm": 2.112396001815796,
      "learning_rate": 6.037333333333334e-06,
      "loss": 0.0828,
      "step": 3475
    },
    {
      "epoch": 0.4375,
      "grad_norm": 2.513197183609009,
      "learning_rate": 6.004000000000001e-06,
      "loss": 0.0983,
      "step": 3500
    },
    {
      "epoch": 0.440625,
      "grad_norm": 2.1429622173309326,
      "learning_rate": 5.970666666666667e-06,
      "loss": 0.0929,
      "step": 3525
    },
    {
      "epoch": 0.44375,
      "grad_norm": 2.7300236225128174,
      "learning_rate": 5.937333333333334e-06,
      "loss": 0.0916,
      "step": 3550
    },
    {
      "epoch": 0.446875,
      "grad_norm": 4.011541366577148,
      "learning_rate": 5.9040000000000006e-06,
      "loss": 0.1426,
      "step": 3575
    },
    {
      "epoch": 0.45,
      "grad_norm": 3.1994545459747314,
      "learning_rate": 5.870666666666667e-06,
      "loss": 0.163,
      "step": 3600
    },
    {
      "epoch": 0.453125,
      "grad_norm": 2.98388934135437,
      "learning_rate": 5.837333333333333e-06,
      "loss": 0.1568,
      "step": 3625
    },
    {
      "epoch": 0.45625,
      "grad_norm": 2.4515798091888428,
      "learning_rate": 5.804000000000001e-06,
      "loss": 0.0937,
      "step": 3650
    },
    {
      "epoch": 0.459375,
      "grad_norm": 2.0767834186553955,
      "learning_rate": 5.770666666666666e-06,
      "loss": 0.0861,
      "step": 3675
    },
    {
      "epoch": 0.4625,
      "grad_norm": 2.601104974746704,
      "learning_rate": 5.7373333333333335e-06,
      "loss": 0.0917,
      "step": 3700
    },
    {
      "epoch": 0.465625,
      "grad_norm": 2.593489408493042,
      "learning_rate": 5.704000000000001e-06,
      "loss": 0.1022,
      "step": 3725
    },
    {
      "epoch": 0.46875,
      "grad_norm": 3.5832834243774414,
      "learning_rate": 5.670666666666668e-06,
      "loss": 0.1304,
      "step": 3750
    },
    {
      "epoch": 0.471875,
      "grad_norm": 3.4403560161590576,
      "learning_rate": 5.637333333333334e-06,
      "loss": 0.1634,
      "step": 3775
    },
    {
      "epoch": 0.475,
      "grad_norm": 3.6842737197875977,
      "learning_rate": 5.604000000000001e-06,
      "loss": 0.1683,
      "step": 3800
    },
    {
      "epoch": 0.478125,
      "grad_norm": 3.8382315635681152,
      "learning_rate": 5.570666666666667e-06,
      "loss": 0.1538,
      "step": 3825
    },
    {
      "epoch": 0.48125,
      "grad_norm": 4.207257270812988,
      "learning_rate": 5.537333333333334e-06,
      "loss": 0.165,
      "step": 3850
    },
    {
      "epoch": 0.484375,
      "grad_norm": 2.4130444526672363,
      "learning_rate": 5.504e-06,
      "loss": 0.1558,
      "step": 3875
    },
    {
      "epoch": 0.4875,
      "grad_norm": 2.3981151580810547,
      "learning_rate": 5.4706666666666674e-06,
      "loss": 0.1096,
      "step": 3900
    },
    {
      "epoch": 0.490625,
      "grad_norm": 2.2837915420532227,
      "learning_rate": 5.437333333333333e-06,
      "loss": 0.0937,
      "step": 3925
    },
    {
      "epoch": 0.49375,
      "grad_norm": 2.6647775173187256,
      "learning_rate": 5.404e-06,
      "loss": 0.0876,
      "step": 3950
    },
    {
      "epoch": 0.496875,
      "grad_norm": 3.7677643299102783,
      "learning_rate": 5.3706666666666675e-06,
      "loss": 0.15,
      "step": 3975
    },
    {
      "epoch": 0.5,
      "grad_norm": 3.542175769805908,
      "learning_rate": 5.337333333333333e-06,
      "loss": 0.1925,
      "step": 4000
    },
    {
      "epoch": 0.5,
      "eval_loss": 0.25648659467697144,
      "eval_runtime": 150.6646,
      "eval_samples_per_second": 13.965,
      "eval_steps_per_second": 0.876,
      "eval_wer": 12.7372160418809,
      "step": 4000
    },
    {
      "epoch": 0.503125,
      "grad_norm": 2.5672571659088135,
      "learning_rate": 5.304e-06,
      "loss": 0.1434,
      "step": 4025
    },
    {
      "epoch": 0.50625,
      "grad_norm": 4.591808319091797,
      "learning_rate": 5.270666666666668e-06,
      "loss": 0.2075,
      "step": 4050
    },
    {
      "epoch": 0.509375,
      "grad_norm": 3.485185146331787,
      "learning_rate": 5.237333333333334e-06,
      "loss": 0.1478,
      "step": 4075
    },
    {
      "epoch": 0.5125,
      "grad_norm": 2.5995991230010986,
      "learning_rate": 5.2040000000000005e-06,
      "loss": 0.1383,
      "step": 4100
    },
    {
      "epoch": 0.515625,
      "grad_norm": 2.4682819843292236,
      "learning_rate": 5.170666666666667e-06,
      "loss": 0.0959,
      "step": 4125
    },
    {
      "epoch": 0.51875,
      "grad_norm": 2.436518669128418,
      "learning_rate": 5.137333333333334e-06,
      "loss": 0.0857,
      "step": 4150
    },
    {
      "epoch": 0.521875,
      "grad_norm": 2.0344107151031494,
      "learning_rate": 5.104e-06,
      "loss": 0.0862,
      "step": 4175
    },
    {
      "epoch": 0.525,
      "grad_norm": 1.6771937608718872,
      "learning_rate": 5.070666666666667e-06,
      "loss": 0.0808,
      "step": 4200
    },
    {
      "epoch": 0.528125,
      "grad_norm": 1.7831439971923828,
      "learning_rate": 5.037333333333334e-06,
      "loss": 0.0872,
      "step": 4225
    },
    {
      "epoch": 0.53125,
      "grad_norm": 2.228795051574707,
      "learning_rate": 5.004e-06,
      "loss": 0.0832,
      "step": 4250
    },
    {
      "epoch": 0.534375,
      "grad_norm": 3.1402647495269775,
      "learning_rate": 4.970666666666667e-06,
      "loss": 0.0927,
      "step": 4275
    },
    {
      "epoch": 0.5375,
      "grad_norm": 3.662506580352783,
      "learning_rate": 4.937333333333334e-06,
      "loss": 0.1477,
      "step": 4300
    },
    {
      "epoch": 0.540625,
      "grad_norm": 2.865934371948242,
      "learning_rate": 4.904000000000001e-06,
      "loss": 0.1262,
      "step": 4325
    },
    {
      "epoch": 0.54375,
      "grad_norm": 3.2233200073242188,
      "learning_rate": 4.870666666666667e-06,
      "loss": 0.1329,
      "step": 4350
    },
    {
      "epoch": 0.546875,
      "grad_norm": 2.093703269958496,
      "learning_rate": 4.837333333333334e-06,
      "loss": 0.0795,
      "step": 4375
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.7601807117462158,
      "learning_rate": 4.804e-06,
      "loss": 0.0715,
      "step": 4400
    },
    {
      "epoch": 0.553125,
      "grad_norm": 2.1606643199920654,
      "learning_rate": 4.770666666666667e-06,
      "loss": 0.0797,
      "step": 4425
    },
    {
      "epoch": 0.55625,
      "grad_norm": 2.565343141555786,
      "learning_rate": 4.737333333333334e-06,
      "loss": 0.0883,
      "step": 4450
    },
    {
      "epoch": 0.559375,
      "grad_norm": 2.062619924545288,
      "learning_rate": 4.704e-06,
      "loss": 0.0965,
      "step": 4475
    },
    {
      "epoch": 0.5625,
      "grad_norm": 2.2219879627227783,
      "learning_rate": 4.6706666666666675e-06,
      "loss": 0.0891,
      "step": 4500
    },
    {
      "epoch": 0.565625,
      "grad_norm": 2.857029676437378,
      "learning_rate": 4.637333333333334e-06,
      "loss": 0.1147,
      "step": 4525
    },
    {
      "epoch": 0.56875,
      "grad_norm": 3.090247392654419,
      "learning_rate": 4.604e-06,
      "loss": 0.144,
      "step": 4550
    },
    {
      "epoch": 0.571875,
      "grad_norm": 3.8906264305114746,
      "learning_rate": 4.570666666666667e-06,
      "loss": 0.1451,
      "step": 4575
    },
    {
      "epoch": 0.575,
      "grad_norm": 3.7733590602874756,
      "learning_rate": 4.537333333333334e-06,
      "loss": 0.1475,
      "step": 4600
    },
    {
      "epoch": 0.578125,
      "grad_norm": 3.379163980484009,
      "learning_rate": 4.504e-06,
      "loss": 0.1509,
      "step": 4625
    },
    {
      "epoch": 0.58125,
      "grad_norm": 3.4210824966430664,
      "learning_rate": 4.470666666666667e-06,
      "loss": 0.1444,
      "step": 4650
    },
    {
      "epoch": 0.584375,
      "grad_norm": 3.7809910774230957,
      "learning_rate": 4.437333333333333e-06,
      "loss": 0.1295,
      "step": 4675
    },
    {
      "epoch": 0.5875,
      "grad_norm": 2.537574052810669,
      "learning_rate": 4.4040000000000005e-06,
      "loss": 0.1158,
      "step": 4700
    },
    {
      "epoch": 0.590625,
      "grad_norm": 3.482285261154175,
      "learning_rate": 4.370666666666667e-06,
      "loss": 0.1249,
      "step": 4725
    },
    {
      "epoch": 0.59375,
      "grad_norm": 3.0114011764526367,
      "learning_rate": 4.337333333333334e-06,
      "loss": 0.1238,
      "step": 4750
    },
    {
      "epoch": 0.596875,
      "grad_norm": 2.117215394973755,
      "learning_rate": 4.304000000000001e-06,
      "loss": 0.0888,
      "step": 4775
    },
    {
      "epoch": 0.6,
      "grad_norm": 2.0158379077911377,
      "learning_rate": 4.270666666666667e-06,
      "loss": 0.0972,
      "step": 4800
    },
    {
      "epoch": 0.603125,
      "grad_norm": 2.5208640098571777,
      "learning_rate": 4.2373333333333335e-06,
      "loss": 0.0793,
      "step": 4825
    },
    {
      "epoch": 0.60625,
      "grad_norm": 2.820002555847168,
      "learning_rate": 4.204e-06,
      "loss": 0.1035,
      "step": 4850
    },
    {
      "epoch": 0.609375,
      "grad_norm": 3.1144282817840576,
      "learning_rate": 4.170666666666667e-06,
      "loss": 0.1128,
      "step": 4875
    },
    {
      "epoch": 0.6125,
      "grad_norm": 3.1345527172088623,
      "learning_rate": 4.137333333333334e-06,
      "loss": 0.1217,
      "step": 4900
    },
    {
      "epoch": 0.615625,
      "grad_norm": 2.2702696323394775,
      "learning_rate": 4.104e-06,
      "loss": 0.1061,
      "step": 4925
    },
    {
      "epoch": 0.61875,
      "grad_norm": 2.714102268218994,
      "learning_rate": 4.072e-06,
      "loss": 0.0919,
      "step": 4950
    },
    {
      "epoch": 0.621875,
      "grad_norm": 2.448854923248291,
      "learning_rate": 4.0386666666666666e-06,
      "loss": 0.0855,
      "step": 4975
    },
    {
      "epoch": 0.625,
      "grad_norm": 2.9392127990722656,
      "learning_rate": 4.005333333333334e-06,
      "loss": 0.0818,
      "step": 5000
    },
    {
      "epoch": 0.625,
      "eval_loss": 0.2562941014766693,
      "eval_runtime": 160.0125,
      "eval_samples_per_second": 13.149,
      "eval_steps_per_second": 0.825,
      "eval_wer": 11.942600729176405,
      "step": 5000
    },
    {
      "epoch": 0.628125,
      "grad_norm": 2.4964210987091064,
      "learning_rate": 3.972e-06,
      "loss": 0.1203,
      "step": 5025
    },
    {
      "epoch": 0.63125,
      "grad_norm": 3.330078125,
      "learning_rate": 3.938666666666667e-06,
      "loss": 0.111,
      "step": 5050
    },
    {
      "epoch": 0.634375,
      "grad_norm": 3.6872191429138184,
      "learning_rate": 3.905333333333334e-06,
      "loss": 0.164,
      "step": 5075
    },
    {
      "epoch": 0.6375,
      "grad_norm": 3.728769063949585,
      "learning_rate": 3.872e-06,
      "loss": 0.1515,
      "step": 5100
    },
    {
      "epoch": 0.640625,
      "grad_norm": 3.4183156490325928,
      "learning_rate": 3.838666666666667e-06,
      "loss": 0.1334,
      "step": 5125
    },
    {
      "epoch": 0.64375,
      "grad_norm": 3.4580440521240234,
      "learning_rate": 3.8053333333333336e-06,
      "loss": 0.134,
      "step": 5150
    },
    {
      "epoch": 0.646875,
      "grad_norm": 2.2719855308532715,
      "learning_rate": 3.772e-06,
      "loss": 0.1088,
      "step": 5175
    },
    {
      "epoch": 0.65,
      "grad_norm": 2.3186910152435303,
      "learning_rate": 3.7386666666666673e-06,
      "loss": 0.0724,
      "step": 5200
    },
    {
      "epoch": 0.653125,
      "grad_norm": 1.8175565004348755,
      "learning_rate": 3.7053333333333337e-06,
      "loss": 0.0759,
      "step": 5225
    },
    {
      "epoch": 0.65625,
      "grad_norm": 2.0874826908111572,
      "learning_rate": 3.6720000000000006e-06,
      "loss": 0.0813,
      "step": 5250
    },
    {
      "epoch": 0.659375,
      "grad_norm": 1.9950120449066162,
      "learning_rate": 3.638666666666667e-06,
      "loss": 0.0824,
      "step": 5275
    },
    {
      "epoch": 0.6625,
      "grad_norm": 2.6349194049835205,
      "learning_rate": 3.6053333333333334e-06,
      "loss": 0.0835,
      "step": 5300
    },
    {
      "epoch": 0.665625,
      "grad_norm": 2.7667415142059326,
      "learning_rate": 3.5720000000000003e-06,
      "loss": 0.0823,
      "step": 5325
    },
    {
      "epoch": 0.66875,
      "grad_norm": 3.617748260498047,
      "learning_rate": 3.538666666666667e-06,
      "loss": 0.1077,
      "step": 5350
    },
    {
      "epoch": 0.671875,
      "grad_norm": 3.2603073120117188,
      "learning_rate": 3.5053333333333335e-06,
      "loss": 0.1268,
      "step": 5375
    },
    {
      "epoch": 0.675,
      "grad_norm": 2.9681355953216553,
      "learning_rate": 3.4720000000000004e-06,
      "loss": 0.1206,
      "step": 5400
    },
    {
      "epoch": 0.678125,
      "grad_norm": 4.156548500061035,
      "learning_rate": 3.438666666666667e-06,
      "loss": 0.1279,
      "step": 5425
    },
    {
      "epoch": 0.68125,
      "grad_norm": 3.2013888359069824,
      "learning_rate": 3.4053333333333337e-06,
      "loss": 0.1177,
      "step": 5450
    },
    {
      "epoch": 0.684375,
      "grad_norm": 3.299403190612793,
      "learning_rate": 3.372e-06,
      "loss": 0.0946,
      "step": 5475
    },
    {
      "epoch": 0.6875,
      "grad_norm": 2.39630389213562,
      "learning_rate": 3.338666666666667e-06,
      "loss": 0.0944,
      "step": 5500
    },
    {
      "epoch": 0.690625,
      "grad_norm": 3.7624928951263428,
      "learning_rate": 3.3053333333333338e-06,
      "loss": 0.1149,
      "step": 5525
    },
    {
      "epoch": 0.69375,
      "grad_norm": 3.3170886039733887,
      "learning_rate": 3.272e-06,
      "loss": 0.1373,
      "step": 5550
    },
    {
      "epoch": 0.696875,
      "grad_norm": 2.2296531200408936,
      "learning_rate": 3.238666666666667e-06,
      "loss": 0.1056,
      "step": 5575
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.8995999097824097,
      "learning_rate": 3.2053333333333334e-06,
      "loss": 0.0724,
      "step": 5600
    },
    {
      "epoch": 0.703125,
      "grad_norm": 2.3782520294189453,
      "learning_rate": 3.172e-06,
      "loss": 0.0604,
      "step": 5625
    },
    {
      "epoch": 0.70625,
      "grad_norm": 2.2558810710906982,
      "learning_rate": 3.138666666666667e-06,
      "loss": 0.0581,
      "step": 5650
    },
    {
      "epoch": 0.709375,
      "grad_norm": 2.4040448665618896,
      "learning_rate": 3.1053333333333336e-06,
      "loss": 0.0713,
      "step": 5675
    },
    {
      "epoch": 0.7125,
      "grad_norm": 2.5696732997894287,
      "learning_rate": 3.072e-06,
      "loss": 0.0773,
      "step": 5700
    },
    {
      "epoch": 0.715625,
      "grad_norm": 2.237166404724121,
      "learning_rate": 3.038666666666667e-06,
      "loss": 0.0765,
      "step": 5725
    },
    {
      "epoch": 0.71875,
      "grad_norm": 1.8783671855926514,
      "learning_rate": 3.0053333333333332e-06,
      "loss": 0.0779,
      "step": 5750
    },
    {
      "epoch": 0.721875,
      "grad_norm": 2.096334457397461,
      "learning_rate": 2.9720000000000005e-06,
      "loss": 0.0751,
      "step": 5775
    },
    {
      "epoch": 0.725,
      "grad_norm": 2.0362164974212646,
      "learning_rate": 2.938666666666667e-06,
      "loss": 0.0711,
      "step": 5800
    },
    {
      "epoch": 0.728125,
      "grad_norm": 1.7136311531066895,
      "learning_rate": 2.9053333333333334e-06,
      "loss": 0.0635,
      "step": 5825
    },
    {
      "epoch": 0.73125,
      "grad_norm": 2.754848003387451,
      "learning_rate": 2.872e-06,
      "loss": 0.0698,
      "step": 5850
    },
    {
      "epoch": 0.734375,
      "grad_norm": 2.058065176010132,
      "learning_rate": 2.8386666666666666e-06,
      "loss": 0.0741,
      "step": 5875
    },
    {
      "epoch": 0.7375,
      "grad_norm": 3.0389583110809326,
      "learning_rate": 2.805333333333334e-06,
      "loss": 0.0938,
      "step": 5900
    },
    {
      "epoch": 0.740625,
      "grad_norm": 3.4811720848083496,
      "learning_rate": 2.7720000000000003e-06,
      "loss": 0.1387,
      "step": 5925
    },
    {
      "epoch": 0.74375,
      "grad_norm": 3.2388477325439453,
      "learning_rate": 2.7386666666666667e-06,
      "loss": 0.1283,
      "step": 5950
    },
    {
      "epoch": 0.746875,
      "grad_norm": 3.083925247192383,
      "learning_rate": 2.7053333333333336e-06,
      "loss": 0.1073,
      "step": 5975
    },
    {
      "epoch": 0.75,
      "grad_norm": 2.6847918033599854,
      "learning_rate": 2.672e-06,
      "loss": 0.1038,
      "step": 6000
    },
    {
      "epoch": 0.75,
      "eval_loss": 0.23902159929275513,
      "eval_runtime": 158.0693,
      "eval_samples_per_second": 13.311,
      "eval_steps_per_second": 0.835,
      "eval_wer": 11.07319809292325,
      "step": 6000
    },
    {
      "epoch": 0.753125,
      "grad_norm": 2.7315189838409424,
      "learning_rate": 2.6386666666666673e-06,
      "loss": 0.0987,
      "step": 6025
    },
    {
      "epoch": 0.75625,
      "grad_norm": 2.3389735221862793,
      "learning_rate": 2.6053333333333337e-06,
      "loss": 0.0858,
      "step": 6050
    },
    {
      "epoch": 0.759375,
      "grad_norm": 1.982534646987915,
      "learning_rate": 2.572e-06,
      "loss": 0.0764,
      "step": 6075
    },
    {
      "epoch": 0.7625,
      "grad_norm": 1.9040074348449707,
      "learning_rate": 2.538666666666667e-06,
      "loss": 0.0731,
      "step": 6100
    },
    {
      "epoch": 0.765625,
      "grad_norm": 2.654710054397583,
      "learning_rate": 2.5053333333333334e-06,
      "loss": 0.0758,
      "step": 6125
    },
    {
      "epoch": 0.76875,
      "grad_norm": 2.6400296688079834,
      "learning_rate": 2.4720000000000002e-06,
      "loss": 0.0824,
      "step": 6150
    },
    {
      "epoch": 0.771875,
      "grad_norm": 7.269197463989258,
      "learning_rate": 2.438666666666667e-06,
      "loss": 0.0822,
      "step": 6175
    },
    {
      "epoch": 0.775,
      "grad_norm": 2.363656520843506,
      "learning_rate": 2.4053333333333335e-06,
      "loss": 0.0818,
      "step": 6200
    },
    {
      "epoch": 0.778125,
      "grad_norm": 2.4660115242004395,
      "learning_rate": 2.3720000000000003e-06,
      "loss": 0.0768,
      "step": 6225
    },
    {
      "epoch": 0.78125,
      "grad_norm": 3.3116371631622314,
      "learning_rate": 2.3386666666666668e-06,
      "loss": 0.0783,
      "step": 6250
    },
    {
      "epoch": 0.784375,
      "grad_norm": 2.595853090286255,
      "learning_rate": 2.3053333333333336e-06,
      "loss": 0.0899,
      "step": 6275
    },
    {
      "epoch": 0.7875,
      "grad_norm": 2.709597587585449,
      "learning_rate": 2.2720000000000004e-06,
      "loss": 0.0953,
      "step": 6300
    },
    {
      "epoch": 0.790625,
      "grad_norm": 2.4446637630462646,
      "learning_rate": 2.238666666666667e-06,
      "loss": 0.1249,
      "step": 6325
    },
    {
      "epoch": 0.79375,
      "grad_norm": 3.4412341117858887,
      "learning_rate": 2.2053333333333333e-06,
      "loss": 0.1171,
      "step": 6350
    },
    {
      "epoch": 0.796875,
      "grad_norm": 2.2719008922576904,
      "learning_rate": 2.172e-06,
      "loss": 0.1065,
      "step": 6375
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.9873290061950684,
      "learning_rate": 2.138666666666667e-06,
      "loss": 0.0872,
      "step": 6400
    },
    {
      "epoch": 0.803125,
      "grad_norm": 2.487403392791748,
      "learning_rate": 2.1053333333333334e-06,
      "loss": 0.0765,
      "step": 6425
    },
    {
      "epoch": 0.80625,
      "grad_norm": 2.4424736499786377,
      "learning_rate": 2.0720000000000002e-06,
      "loss": 0.0736,
      "step": 6450
    },
    {
      "epoch": 0.809375,
      "grad_norm": 3.1507577896118164,
      "learning_rate": 2.0386666666666667e-06,
      "loss": 0.1064,
      "step": 6475
    },
    {
      "epoch": 0.8125,
      "grad_norm": 2.6285648345947266,
      "learning_rate": 2.0053333333333335e-06,
      "loss": 0.0993,
      "step": 6500
    },
    {
      "epoch": 0.815625,
      "grad_norm": 4.1934967041015625,
      "learning_rate": 1.972e-06,
      "loss": 0.1299,
      "step": 6525
    },
    {
      "epoch": 0.81875,
      "grad_norm": 3.031852960586548,
      "learning_rate": 1.9386666666666668e-06,
      "loss": 0.1195,
      "step": 6550
    },
    {
      "epoch": 0.821875,
      "grad_norm": 2.9288837909698486,
      "learning_rate": 1.9053333333333334e-06,
      "loss": 0.1197,
      "step": 6575
    },
    {
      "epoch": 0.825,
      "grad_norm": 2.890054225921631,
      "learning_rate": 1.8720000000000002e-06,
      "loss": 0.1127,
      "step": 6600
    },
    {
      "epoch": 0.828125,
      "grad_norm": 3.130406618118286,
      "learning_rate": 1.8386666666666669e-06,
      "loss": 0.1155,
      "step": 6625
    },
    {
      "epoch": 0.83125,
      "grad_norm": 2.7169485092163086,
      "learning_rate": 1.8053333333333333e-06,
      "loss": 0.1291,
      "step": 6650
    },
    {
      "epoch": 0.834375,
      "grad_norm": 2.7390034198760986,
      "learning_rate": 1.7720000000000001e-06,
      "loss": 0.1097,
      "step": 6675
    },
    {
      "epoch": 0.8375,
      "grad_norm": 2.161604166030884,
      "learning_rate": 1.7386666666666668e-06,
      "loss": 0.1022,
      "step": 6700
    },
    {
      "epoch": 0.840625,
      "grad_norm": 2.210451126098633,
      "learning_rate": 1.7053333333333336e-06,
      "loss": 0.0779,
      "step": 6725
    },
    {
      "epoch": 0.84375,
      "grad_norm": 2.426438808441162,
      "learning_rate": 1.672e-06,
      "loss": 0.0728,
      "step": 6750
    },
    {
      "epoch": 0.846875,
      "grad_norm": 2.8744237422943115,
      "learning_rate": 1.6386666666666667e-06,
      "loss": 0.0859,
      "step": 6775
    },
    {
      "epoch": 0.85,
      "grad_norm": 2.8165483474731445,
      "learning_rate": 1.6053333333333335e-06,
      "loss": 0.1496,
      "step": 6800
    },
    {
      "epoch": 0.853125,
      "grad_norm": 4.0077738761901855,
      "learning_rate": 1.5720000000000002e-06,
      "loss": 0.1343,
      "step": 6825
    },
    {
      "epoch": 0.85625,
      "grad_norm": 3.8011586666107178,
      "learning_rate": 1.538666666666667e-06,
      "loss": 0.1397,
      "step": 6850
    },
    {
      "epoch": 0.859375,
      "grad_norm": 2.7379047870635986,
      "learning_rate": 1.5053333333333334e-06,
      "loss": 0.1262,
      "step": 6875
    },
    {
      "epoch": 0.8625,
      "grad_norm": 3.250950574874878,
      "learning_rate": 1.472e-06,
      "loss": 0.1188,
      "step": 6900
    },
    {
      "epoch": 0.865625,
      "grad_norm": 2.782945156097412,
      "learning_rate": 1.438666666666667e-06,
      "loss": 0.1103,
      "step": 6925
    },
    {
      "epoch": 0.86875,
      "grad_norm": 3.08154034614563,
      "learning_rate": 1.4053333333333335e-06,
      "loss": 0.1147,
      "step": 6950
    },
    {
      "epoch": 0.871875,
      "grad_norm": 3.5768070220947266,
      "learning_rate": 1.372e-06,
      "loss": 0.1332,
      "step": 6975
    },
    {
      "epoch": 0.875,
      "grad_norm": 3.155341863632202,
      "learning_rate": 1.3386666666666668e-06,
      "loss": 0.1282,
      "step": 7000
    },
    {
      "epoch": 0.875,
      "eval_loss": 0.23438745737075806,
      "eval_runtime": 154.8314,
      "eval_samples_per_second": 13.589,
      "eval_steps_per_second": 0.853,
      "eval_wer": 11.391044218005048,
      "step": 7000
    },
    {
      "epoch": 0.878125,
      "grad_norm": 11.062019348144531,
      "learning_rate": 1.308e-06,
      "loss": 0.2406,
      "step": 7025
    },
    {
      "epoch": 0.88125,
      "grad_norm": 4.648179531097412,
      "learning_rate": 1.2746666666666669e-06,
      "loss": 0.3469,
      "step": 7050
    },
    {
      "epoch": 0.884375,
      "grad_norm": 4.388245105743408,
      "learning_rate": 1.2413333333333335e-06,
      "loss": 0.3421,
      "step": 7075
    },
    {
      "epoch": 0.8875,
      "grad_norm": 4.806427478790283,
      "learning_rate": 1.2080000000000001e-06,
      "loss": 0.2847,
      "step": 7100
    },
    {
      "epoch": 0.890625,
      "grad_norm": 3.0818049907684326,
      "learning_rate": 1.1746666666666668e-06,
      "loss": 0.1671,
      "step": 7125
    },
    {
      "epoch": 0.89375,
      "grad_norm": 4.117819309234619,
      "learning_rate": 1.1413333333333334e-06,
      "loss": 0.1313,
      "step": 7150
    },
    {
      "epoch": 0.896875,
      "grad_norm": 2.8558835983276367,
      "learning_rate": 1.108e-06,
      "loss": 0.1177,
      "step": 7175
    },
    {
      "epoch": 0.9,
      "grad_norm": 3.0425021648406982,
      "learning_rate": 1.0746666666666669e-06,
      "loss": 0.0911,
      "step": 7200
    },
    {
      "epoch": 0.903125,
      "grad_norm": 2.6587588787078857,
      "learning_rate": 1.0413333333333333e-06,
      "loss": 0.0898,
      "step": 7225
    },
    {
      "epoch": 0.90625,
      "grad_norm": 1.7572664022445679,
      "learning_rate": 1.0080000000000001e-06,
      "loss": 0.0922,
      "step": 7250
    },
    {
      "epoch": 0.909375,
      "grad_norm": 2.00393009185791,
      "learning_rate": 9.746666666666668e-07,
      "loss": 0.0753,
      "step": 7275
    },
    {
      "epoch": 0.9125,
      "grad_norm": 1.845981478691101,
      "learning_rate": 9.413333333333334e-07,
      "loss": 0.0628,
      "step": 7300
    },
    {
      "epoch": 0.915625,
      "grad_norm": 2.008112907409668,
      "learning_rate": 9.080000000000001e-07,
      "loss": 0.0696,
      "step": 7325
    },
    {
      "epoch": 0.91875,
      "grad_norm": 2.837357759475708,
      "learning_rate": 8.746666666666668e-07,
      "loss": 0.0897,
      "step": 7350
    },
    {
      "epoch": 0.921875,
      "grad_norm": 2.4842417240142822,
      "learning_rate": 8.413333333333334e-07,
      "loss": 0.1227,
      "step": 7375
    },
    {
      "epoch": 0.925,
      "grad_norm": 2.7866716384887695,
      "learning_rate": 8.08e-07,
      "loss": 0.1012,
      "step": 7400
    },
    {
      "epoch": 0.928125,
      "grad_norm": 2.1826930046081543,
      "learning_rate": 7.746666666666668e-07,
      "loss": 0.1141,
      "step": 7425
    },
    {
      "epoch": 0.93125,
      "grad_norm": 2.014090061187744,
      "learning_rate": 7.413333333333333e-07,
      "loss": 0.0754,
      "step": 7450
    },
    {
      "epoch": 0.934375,
      "grad_norm": 2.1539175510406494,
      "learning_rate": 7.08e-07,
      "loss": 0.0736,
      "step": 7475
    },
    {
      "epoch": 0.9375,
      "grad_norm": 2.712541341781616,
      "learning_rate": 6.746666666666667e-07,
      "loss": 0.0684,
      "step": 7500
    },
    {
      "epoch": 0.940625,
      "grad_norm": 3.281242847442627,
      "learning_rate": 6.413333333333334e-07,
      "loss": 0.1414,
      "step": 7525
    },
    {
      "epoch": 0.94375,
      "grad_norm": 4.088025093078613,
      "learning_rate": 6.08e-07,
      "loss": 0.1895,
      "step": 7550
    },
    {
      "epoch": 0.946875,
      "grad_norm": 4.144560813903809,
      "learning_rate": 5.746666666666667e-07,
      "loss": 0.222,
      "step": 7575
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.8468823432922363,
      "learning_rate": 5.413333333333334e-07,
      "loss": 0.1349,
      "step": 7600
    },
    {
      "epoch": 0.953125,
      "grad_norm": 2.5354621410369873,
      "learning_rate": 5.08e-07,
      "loss": 0.0872,
      "step": 7625
    },
    {
      "epoch": 0.95625,
      "grad_norm": 1.83882737159729,
      "learning_rate": 4.746666666666667e-07,
      "loss": 0.0725,
      "step": 7650
    },
    {
      "epoch": 0.959375,
      "grad_norm": 3.42556095123291,
      "learning_rate": 4.413333333333333e-07,
      "loss": 0.0988,
      "step": 7675
    },
    {
      "epoch": 0.9625,
      "grad_norm": 2.682558059692383,
      "learning_rate": 4.0800000000000005e-07,
      "loss": 0.1166,
      "step": 7700
    },
    {
      "epoch": 0.965625,
      "grad_norm": 3.2471797466278076,
      "learning_rate": 3.7466666666666674e-07,
      "loss": 0.1257,
      "step": 7725
    },
    {
      "epoch": 0.96875,
      "grad_norm": 2.4202020168304443,
      "learning_rate": 3.4133333333333337e-07,
      "loss": 0.1114,
      "step": 7750
    },
    {
      "epoch": 0.971875,
      "grad_norm": 2.8282711505889893,
      "learning_rate": 3.0800000000000006e-07,
      "loss": 0.0811,
      "step": 7775
    },
    {
      "epoch": 0.975,
      "grad_norm": 4.20676326751709,
      "learning_rate": 2.746666666666667e-07,
      "loss": 0.104,
      "step": 7800
    },
    {
      "epoch": 0.978125,
      "grad_norm": 4.955998420715332,
      "learning_rate": 2.413333333333333e-07,
      "loss": 0.2773,
      "step": 7825
    },
    {
      "epoch": 0.98125,
      "grad_norm": 2.0168468952178955,
      "learning_rate": 2.08e-07,
      "loss": 0.1105,
      "step": 7850
    },
    {
      "epoch": 0.984375,
      "grad_norm": 1.6335862874984741,
      "learning_rate": 1.7466666666666667e-07,
      "loss": 0.0808,
      "step": 7875
    },
    {
      "epoch": 0.9875,
      "grad_norm": 2.269954204559326,
      "learning_rate": 1.4133333333333333e-07,
      "loss": 0.0786,
      "step": 7900
    },
    {
      "epoch": 0.990625,
      "grad_norm": 2.0813560485839844,
      "learning_rate": 1.0800000000000001e-07,
      "loss": 0.0801,
      "step": 7925
    },
    {
      "epoch": 0.99375,
      "grad_norm": 1.6093230247497559,
      "learning_rate": 7.466666666666667e-08,
      "loss": 0.0687,
      "step": 7950
    },
    {
      "epoch": 0.996875,
      "grad_norm": 1.730695366859436,
      "learning_rate": 4.133333333333334e-08,
      "loss": 0.0814,
      "step": 7975
    },
    {
      "epoch": 1.0,
      "grad_norm": 3.418311595916748,
      "learning_rate": 8e-09,
      "loss": 0.0959,
      "step": 8000
    },
    {
      "epoch": 1.0,
      "eval_loss": 0.1835634410381317,
      "eval_runtime": 154.4338,
      "eval_samples_per_second": 13.624,
      "eval_steps_per_second": 0.855,
      "eval_wer": 10.886229784051602,
      "step": 8000
    },
    {
      "epoch": 1.0,
      "step": 8000,
      "total_flos": 7.387786248192e+19,
      "train_loss": 0.17036041705310345,
      "train_runtime": 11036.9074,
      "train_samples_per_second": 23.195,
      "train_steps_per_second": 0.725
    }
  ],
  "logging_steps": 25,
  "max_steps": 8000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 9223372036854775807,
  "save_steps": 1000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 7.387786248192e+19,
  "train_batch_size": 32,
  "trial_name": null,
  "trial_params": null
}