{
  "best_metric": 0.24565543234348297,
  "best_model_checkpoint": "/scratch/skscla001/speech/results/mms-1b-bemgen-combined-model/checkpoint-3900",
  "epoch": 2.1660649819494586,
  "eval_steps": 100,
  "global_step": 4200,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.05157297576070139,
      "grad_norm": 2.867751359939575,
      "learning_rate": 0.000285,
      "loss": 6.8762,
      "step": 100
    },
    {
      "epoch": 0.05157297576070139,
      "eval_loss": 0.9800576567649841,
      "eval_runtime": 61.3726,
      "eval_samples_per_second": 15.903,
      "eval_steps_per_second": 3.976,
      "eval_wer": 0.9386155855463648,
      "step": 100
    },
    {
      "epoch": 0.10314595152140278,
      "grad_norm": 4.205641269683838,
      "learning_rate": 0.0002995092130187704,
      "loss": 0.5788,
      "step": 200
    },
    {
      "epoch": 0.10314595152140278,
      "eval_loss": 0.34664157032966614,
      "eval_runtime": 60.8325,
      "eval_samples_per_second": 16.044,
      "eval_steps_per_second": 4.011,
      "eval_wer": 0.5014148889856335,
      "step": 200
    },
    {
      "epoch": 0.15471892728210418,
      "grad_norm": 16.612009048461914,
      "learning_rate": 0.00029899259514379193,
      "loss": 0.4891,
      "step": 300
    },
    {
      "epoch": 0.15471892728210418,
      "eval_loss": 0.3219561278820038,
      "eval_runtime": 60.7824,
      "eval_samples_per_second": 16.057,
      "eval_steps_per_second": 4.014,
      "eval_wer": 0.48204179364388333,
      "step": 300
    },
    {
      "epoch": 0.20629190304280556,
      "grad_norm": 15.71129035949707,
      "learning_rate": 0.0002984759772688135,
      "loss": 0.4386,
      "step": 400
    },
    {
      "epoch": 0.20629190304280556,
      "eval_loss": 0.30709779262542725,
      "eval_runtime": 60.8186,
      "eval_samples_per_second": 16.048,
      "eval_steps_per_second": 4.012,
      "eval_wer": 0.4801915542011319,
      "step": 400
    },
    {
      "epoch": 0.25786487880350695,
      "grad_norm": 2.6226158142089844,
      "learning_rate": 0.000297959359393835,
      "loss": 0.4272,
      "step": 500
    },
    {
      "epoch": 0.25786487880350695,
      "eval_loss": 0.30557531118392944,
      "eval_runtime": 61.7053,
      "eval_samples_per_second": 15.817,
      "eval_steps_per_second": 3.954,
      "eval_wer": 0.49880278624292557,
      "step": 500
    },
    {
      "epoch": 0.30943785456420836,
      "grad_norm": 2.265719413757324,
      "learning_rate": 0.00029744274151885655,
      "loss": 0.3982,
      "step": 600
    },
    {
      "epoch": 0.30943785456420836,
      "eval_loss": 0.2980726957321167,
      "eval_runtime": 61.2582,
      "eval_samples_per_second": 15.933,
      "eval_steps_per_second": 3.983,
      "eval_wer": 0.4625598606878537,
      "step": 600
    },
    {
      "epoch": 0.36101083032490977,
      "grad_norm": 1.4846241474151611,
      "learning_rate": 0.00029692612364387805,
      "loss": 0.425,
      "step": 700
    },
    {
      "epoch": 0.36101083032490977,
      "eval_loss": 0.2976619601249695,
      "eval_runtime": 61.0566,
      "eval_samples_per_second": 15.985,
      "eval_steps_per_second": 3.996,
      "eval_wer": 0.4631040487592512,
      "step": 700
    },
    {
      "epoch": 0.4125838060856111,
      "grad_norm": 1.5233323574066162,
      "learning_rate": 0.0002964095057688996,
      "loss": 0.4036,
      "step": 800
    },
    {
      "epoch": 0.4125838060856111,
      "eval_loss": 0.2897385358810425,
      "eval_runtime": 60.9529,
      "eval_samples_per_second": 16.012,
      "eval_steps_per_second": 4.003,
      "eval_wer": 0.44383979103178056,
      "step": 800
    },
    {
      "epoch": 0.46415678184631254,
      "grad_norm": 1.4918992519378662,
      "learning_rate": 0.0002958928878939211,
      "loss": 0.3903,
      "step": 900
    },
    {
      "epoch": 0.46415678184631254,
      "eval_loss": 0.28775253891944885,
      "eval_runtime": 61.5398,
      "eval_samples_per_second": 15.86,
      "eval_steps_per_second": 3.965,
      "eval_wer": 0.4626686983021332,
      "step": 900
    },
    {
      "epoch": 0.5157297576070139,
      "grad_norm": 35.91661071777344,
      "learning_rate": 0.0002953762700189426,
      "loss": 0.3758,
      "step": 1000
    },
    {
      "epoch": 0.5157297576070139,
      "eval_loss": 0.29262155294418335,
      "eval_runtime": 61.6256,
      "eval_samples_per_second": 15.838,
      "eval_steps_per_second": 3.959,
      "eval_wer": 0.4523291249455812,
      "step": 1000
    },
    {
      "epoch": 0.5673027333677153,
      "grad_norm": 2.335728645324707,
      "learning_rate": 0.0002948596521439642,
      "loss": 0.3861,
      "step": 1100
    },
    {
      "epoch": 0.5673027333677153,
      "eval_loss": 0.28073564171791077,
      "eval_runtime": 60.9884,
      "eval_samples_per_second": 16.003,
      "eval_steps_per_second": 4.001,
      "eval_wer": 0.44101001306051374,
      "step": 1100
    },
    {
      "epoch": 0.6188757091284167,
      "grad_norm": 1.2785513401031494,
      "learning_rate": 0.0002943430342689857,
      "loss": 0.3763,
      "step": 1200
    },
    {
      "epoch": 0.6188757091284167,
      "eval_loss": 0.2789745032787323,
      "eval_runtime": 61.0183,
      "eval_samples_per_second": 15.995,
      "eval_steps_per_second": 3.999,
      "eval_wer": 0.4330648672181106,
      "step": 1200
    },
    {
      "epoch": 0.6704486848891181,
      "grad_norm": 4.705647945404053,
      "learning_rate": 0.0002938264163940072,
      "loss": 0.3984,
      "step": 1300
    },
    {
      "epoch": 0.6704486848891181,
      "eval_loss": 0.2803143262863159,
      "eval_runtime": 61.7547,
      "eval_samples_per_second": 15.804,
      "eval_steps_per_second": 3.951,
      "eval_wer": 0.4312146277753592,
      "step": 1300
    },
    {
      "epoch": 0.7220216606498195,
      "grad_norm": 1.780588984489441,
      "learning_rate": 0.00029330979851902874,
      "loss": 0.373,
      "step": 1400
    },
    {
      "epoch": 0.7220216606498195,
      "eval_loss": 0.2802477478981018,
      "eval_runtime": 61.6178,
      "eval_samples_per_second": 15.84,
      "eval_steps_per_second": 3.96,
      "eval_wer": 0.42457553330430997,
      "step": 1400
    },
    {
      "epoch": 0.7735946364105208,
      "grad_norm": 2.3556313514709473,
      "learning_rate": 0.0002927931806440503,
      "loss": 0.3848,
      "step": 1500
    },
    {
      "epoch": 0.7735946364105208,
      "eval_loss": 0.2759012281894684,
      "eval_runtime": 61.2513,
      "eval_samples_per_second": 15.934,
      "eval_steps_per_second": 3.984,
      "eval_wer": 0.47518502394427514,
      "step": 1500
    },
    {
      "epoch": 0.8251676121712223,
      "grad_norm": 4.117414951324463,
      "learning_rate": 0.0002922765627690718,
      "loss": 0.4235,
      "step": 1600
    },
    {
      "epoch": 0.8251676121712223,
      "eval_loss": 0.2738034725189209,
      "eval_runtime": 60.9855,
      "eval_samples_per_second": 16.004,
      "eval_steps_per_second": 4.001,
      "eval_wer": 0.42675228558989986,
      "step": 1600
    },
    {
      "epoch": 0.8767405879319237,
      "grad_norm": 7.5644683837890625,
      "learning_rate": 0.0002917651110728431,
      "loss": 0.3704,
      "step": 1700
    },
    {
      "epoch": 0.8767405879319237,
      "eval_loss": 0.26875266432762146,
      "eval_runtime": 61.6159,
      "eval_samples_per_second": 15.84,
      "eval_steps_per_second": 3.96,
      "eval_wer": 0.4218545929473226,
      "step": 1700
    },
    {
      "epoch": 0.9283135636926251,
      "grad_norm": 2.0241034030914307,
      "learning_rate": 0.00029124849319786463,
      "loss": 0.3911,
      "step": 1800
    },
    {
      "epoch": 0.9283135636926251,
      "eval_loss": 0.2653037905693054,
      "eval_runtime": 61.6914,
      "eval_samples_per_second": 15.821,
      "eval_steps_per_second": 3.955,
      "eval_wer": 0.42011319111885065,
      "step": 1800
    },
    {
      "epoch": 0.9798865394533265,
      "grad_norm": 1.9250996112823486,
      "learning_rate": 0.00029073187532288613,
      "loss": 0.3954,
      "step": 1900
    },
    {
      "epoch": 0.9798865394533265,
      "eval_loss": 0.26971080899238586,
      "eval_runtime": 61.0364,
      "eval_samples_per_second": 15.99,
      "eval_steps_per_second": 3.998,
      "eval_wer": 0.4481932956029604,
      "step": 1900
    },
    {
      "epoch": 1.0314595152140278,
      "grad_norm": 2.152578353881836,
      "learning_rate": 0.0002902152574479077,
      "loss": 0.352,
      "step": 2000
    },
    {
      "epoch": 1.0314595152140278,
      "eval_loss": 0.26541659235954285,
      "eval_runtime": 61.1446,
      "eval_samples_per_second": 15.962,
      "eval_steps_per_second": 3.991,
      "eval_wer": 0.4154331737048324,
      "step": 2000
    },
    {
      "epoch": 1.0830324909747293,
      "grad_norm": 1.2193535566329956,
      "learning_rate": 0.0002896986395729292,
      "loss": 0.3808,
      "step": 2100
    },
    {
      "epoch": 1.0830324909747293,
      "eval_loss": 0.2631310522556305,
      "eval_runtime": 61.7949,
      "eval_samples_per_second": 15.794,
      "eval_steps_per_second": 3.949,
      "eval_wer": 0.40509360034828035,
      "step": 2100
    },
    {
      "epoch": 1.1346054667354306,
      "grad_norm": 0.9607815742492676,
      "learning_rate": 0.0002891820216979507,
      "loss": 0.3681,
      "step": 2200
    },
    {
      "epoch": 1.1346054667354306,
      "eval_loss": 0.26097217202186584,
      "eval_runtime": 61.6359,
      "eval_samples_per_second": 15.835,
      "eval_steps_per_second": 3.959,
      "eval_wer": 0.4218545929473226,
      "step": 2200
    },
    {
      "epoch": 1.1861784424961321,
      "grad_norm": 1.6105040311813354,
      "learning_rate": 0.00028866540382297226,
      "loss": 0.3355,
      "step": 2300
    },
    {
      "epoch": 1.1861784424961321,
      "eval_loss": 0.26081275939941406,
      "eval_runtime": 61.1026,
      "eval_samples_per_second": 15.973,
      "eval_steps_per_second": 3.993,
      "eval_wer": 0.40977361776229865,
      "step": 2300
    },
    {
      "epoch": 1.2377514182568334,
      "grad_norm": 2.3081679344177246,
      "learning_rate": 0.0002881487859479938,
      "loss": 0.342,
      "step": 2400
    },
    {
      "epoch": 1.2377514182568334,
      "eval_loss": 0.2601791322231293,
      "eval_runtime": 61.0993,
      "eval_samples_per_second": 15.974,
      "eval_steps_per_second": 3.993,
      "eval_wer": 0.40824989116238575,
      "step": 2400
    },
    {
      "epoch": 1.2893243940175347,
      "grad_norm": 0.6918842792510986,
      "learning_rate": 0.0002876321680730153,
      "loss": 0.347,
      "step": 2500
    },
    {
      "epoch": 1.2893243940175347,
      "eval_loss": 0.26280567049980164,
      "eval_runtime": 61.7023,
      "eval_samples_per_second": 15.818,
      "eval_steps_per_second": 3.954,
      "eval_wer": 0.40552895080539836,
      "step": 2500
    },
    {
      "epoch": 1.3408973697782363,
      "grad_norm": 0.920050323009491,
      "learning_rate": 0.0002871155501980368,
      "loss": 0.3409,
      "step": 2600
    },
    {
      "epoch": 1.3408973697782363,
      "eval_loss": 0.25879552960395813,
      "eval_runtime": 61.69,
      "eval_samples_per_second": 15.821,
      "eval_steps_per_second": 3.955,
      "eval_wer": 0.412929908576404,
      "step": 2600
    },
    {
      "epoch": 1.3924703455389376,
      "grad_norm": 0.7028564810752869,
      "learning_rate": 0.0002865989323230584,
      "loss": 0.3423,
      "step": 2700
    },
    {
      "epoch": 1.3924703455389376,
      "eval_loss": 0.2616526484489441,
      "eval_runtime": 61.13,
      "eval_samples_per_second": 15.966,
      "eval_steps_per_second": 3.991,
      "eval_wer": 0.41924249020461474,
      "step": 2700
    },
    {
      "epoch": 1.444043321299639,
      "grad_norm": 3.5141775608062744,
      "learning_rate": 0.0002860823144480799,
      "loss": 0.3341,
      "step": 2800
    },
    {
      "epoch": 1.444043321299639,
      "eval_loss": 0.25779473781585693,
      "eval_runtime": 61.3161,
      "eval_samples_per_second": 15.918,
      "eval_steps_per_second": 3.979,
      "eval_wer": 0.40552895080539836,
      "step": 2800
    },
    {
      "epoch": 1.4956162970603404,
      "grad_norm": 1.0055650472640991,
      "learning_rate": 0.0002855656965731014,
      "loss": 0.3425,
      "step": 2900
    },
    {
      "epoch": 1.4956162970603404,
      "eval_loss": 0.2579568922519684,
      "eval_runtime": 61.9639,
      "eval_samples_per_second": 15.751,
      "eval_steps_per_second": 3.938,
      "eval_wer": 0.39878101872006966,
      "step": 2900
    },
    {
      "epoch": 1.5471892728210417,
      "grad_norm": 1.4293900728225708,
      "learning_rate": 0.00028504907869812294,
      "loss": 0.337,
      "step": 3000
    },
    {
      "epoch": 1.5471892728210417,
      "eval_loss": 0.25681352615356445,
      "eval_runtime": 61.6019,
      "eval_samples_per_second": 15.844,
      "eval_steps_per_second": 3.961,
      "eval_wer": 0.40705267740531126,
      "step": 3000
    },
    {
      "epoch": 1.5987622485817432,
      "grad_norm": 0.6135945916175842,
      "learning_rate": 0.00028453246082314445,
      "loss": 0.3412,
      "step": 3100
    },
    {
      "epoch": 1.5987622485817432,
      "eval_loss": 0.25524020195007324,
      "eval_runtime": 61.308,
      "eval_samples_per_second": 15.92,
      "eval_steps_per_second": 3.98,
      "eval_wer": 0.39932520679146716,
      "step": 3100
    },
    {
      "epoch": 1.6503352243424445,
      "grad_norm": 4.757889270782471,
      "learning_rate": 0.00028401584294816595,
      "loss": 0.3837,
      "step": 3200
    },
    {
      "epoch": 1.6503352243424445,
      "eval_loss": 0.26221156120300293,
      "eval_runtime": 61.5959,
      "eval_samples_per_second": 15.845,
      "eval_steps_per_second": 3.961,
      "eval_wer": 0.40835872877666524,
      "step": 3200
    },
    {
      "epoch": 1.701908200103146,
      "grad_norm": 1.1227970123291016,
      "learning_rate": 0.0002834992250731875,
      "loss": 0.3372,
      "step": 3300
    },
    {
      "epoch": 1.701908200103146,
      "eval_loss": 0.2548165023326874,
      "eval_runtime": 61.9858,
      "eval_samples_per_second": 15.746,
      "eval_steps_per_second": 3.936,
      "eval_wer": 0.3991075315629081,
      "step": 3300
    },
    {
      "epoch": 1.7534811758638473,
      "grad_norm": 0.8613722324371338,
      "learning_rate": 0.00028298260719820907,
      "loss": 0.3394,
      "step": 3400
    },
    {
      "epoch": 1.7534811758638473,
      "eval_loss": 0.2535094916820526,
      "eval_runtime": 61.5961,
      "eval_samples_per_second": 15.845,
      "eval_steps_per_second": 3.961,
      "eval_wer": 0.4060731388767958,
      "step": 3400
    },
    {
      "epoch": 1.8050541516245486,
      "grad_norm": 0.5101200938224792,
      "learning_rate": 0.00028246598932323057,
      "loss": 0.3542,
      "step": 3500
    },
    {
      "epoch": 1.8050541516245486,
      "eval_loss": 0.25123441219329834,
      "eval_runtime": 61.2846,
      "eval_samples_per_second": 15.926,
      "eval_steps_per_second": 3.981,
      "eval_wer": 0.39268611232041795,
      "step": 3500
    },
    {
      "epoch": 1.8566271273852502,
      "grad_norm": 1.271552324295044,
      "learning_rate": 0.0002819493714482521,
      "loss": 0.3368,
      "step": 3600
    },
    {
      "epoch": 1.8566271273852502,
      "eval_loss": 0.258027583360672,
      "eval_runtime": 61.4346,
      "eval_samples_per_second": 15.887,
      "eval_steps_per_second": 3.972,
      "eval_wer": 0.4004135829342621,
      "step": 3600
    },
    {
      "epoch": 1.9082001031459517,
      "grad_norm": 1.8105818033218384,
      "learning_rate": 0.00028143275357327363,
      "loss": 0.3807,
      "step": 3700
    },
    {
      "epoch": 1.9082001031459517,
      "eval_loss": 0.24900555610656738,
      "eval_runtime": 61.7426,
      "eval_samples_per_second": 15.808,
      "eval_steps_per_second": 3.952,
      "eval_wer": 0.39747496734871574,
      "step": 3700
    },
    {
      "epoch": 1.959773078906653,
      "grad_norm": 1.8133718967437744,
      "learning_rate": 0.00028091613569829514,
      "loss": 0.3454,
      "step": 3800
    },
    {
      "epoch": 1.959773078906653,
      "eval_loss": 0.2513742446899414,
      "eval_runtime": 61.6449,
      "eval_samples_per_second": 15.833,
      "eval_steps_per_second": 3.958,
      "eval_wer": 0.40019590770570307,
      "step": 3800
    },
    {
      "epoch": 2.0113460546673543,
      "grad_norm": 0.7546507120132446,
      "learning_rate": 0.00028039951782331664,
      "loss": 0.3456,
      "step": 3900
    },
    {
      "epoch": 2.0113460546673543,
      "eval_loss": 0.24565543234348297,
      "eval_runtime": 61.2207,
      "eval_samples_per_second": 15.942,
      "eval_steps_per_second": 3.986,
      "eval_wer": 0.3931214627775359,
      "step": 3900
    },
    {
      "epoch": 2.0629190304280556,
      "grad_norm": 0.9227738976478577,
      "learning_rate": 0.0002798828999483382,
      "loss": 0.3202,
      "step": 4000
    },
    {
      "epoch": 2.0629190304280556,
      "eval_loss": 0.24660241603851318,
      "eval_runtime": 61.4456,
      "eval_samples_per_second": 15.884,
      "eval_steps_per_second": 3.971,
      "eval_wer": 0.391597736177623,
      "step": 4000
    },
    {
      "epoch": 2.114492006188757,
      "grad_norm": 1.0991692543029785,
      "learning_rate": 0.00027937144825210947,
      "loss": 0.3233,
      "step": 4100
    },
    {
      "epoch": 2.114492006188757,
      "eval_loss": 0.2494671791791916,
      "eval_runtime": 61.9678,
      "eval_samples_per_second": 15.75,
      "eval_steps_per_second": 3.938,
      "eval_wer": 0.39747496734871574,
      "step": 4100
    },
    {
      "epoch": 2.1660649819494586,
      "grad_norm": 0.6972938776016235,
      "learning_rate": 0.000278854830377131,
      "loss": 0.3052,
      "step": 4200
    },
    {
      "epoch": 2.1660649819494586,
      "eval_loss": 0.247751384973526,
      "eval_runtime": 61.6785,
      "eval_samples_per_second": 15.824,
      "eval_steps_per_second": 3.956,
      "eval_wer": 0.38985633434915107,
      "step": 4200
    },
    {
      "epoch": 2.1660649819494586,
      "step": 4200,
      "total_flos": 1.0016492328632693e+19,
      "train_loss": 0.5294508952186221,
      "train_runtime": 6287.6058,
      "train_samples_per_second": 37.006,
      "train_steps_per_second": 9.252
    }
  ],
  "logging_steps": 100,
  "max_steps": 58170,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 30,
  "save_steps": 400,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 3,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 1
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 1.0016492328632693e+19,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}