{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.03266372693124286,
  "eval_steps": 5,
  "global_step": 50,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0006532745386248571,
      "eval_loss": 11.931960105895996,
      "eval_runtime": 13.773,
      "eval_samples_per_second": 187.178,
      "eval_steps_per_second": 23.452,
      "step": 1
    },
    {
      "epoch": 0.0019598236158745713,
      "grad_norm": 0.020362956449389458,
      "learning_rate": 3e-05,
      "loss": 11.9308,
      "step": 3
    },
    {
      "epoch": 0.0032663726931242854,
      "eval_loss": 11.931897163391113,
      "eval_runtime": 13.7499,
      "eval_samples_per_second": 187.492,
      "eval_steps_per_second": 23.491,
      "step": 5
    },
    {
      "epoch": 0.0039196472317491425,
      "grad_norm": 0.02846713550388813,
      "learning_rate": 6e-05,
      "loss": 11.9329,
      "step": 6
    },
    {
      "epoch": 0.005879470847623714,
      "grad_norm": 0.02312803640961647,
      "learning_rate": 9e-05,
      "loss": 11.9319,
      "step": 9
    },
    {
      "epoch": 0.006532745386248571,
      "eval_loss": 11.931661605834961,
      "eval_runtime": 13.8267,
      "eval_samples_per_second": 186.451,
      "eval_steps_per_second": 23.361,
      "step": 10
    },
    {
      "epoch": 0.007839294463498285,
      "grad_norm": 0.03231659159064293,
      "learning_rate": 9.938441702975689e-05,
      "loss": 11.9325,
      "step": 12
    },
    {
      "epoch": 0.009799118079372856,
      "grad_norm": 0.04685976356267929,
      "learning_rate": 9.619397662556435e-05,
      "loss": 11.9309,
      "step": 15
    },
    {
      "epoch": 0.009799118079372856,
      "eval_loss": 11.93124008178711,
      "eval_runtime": 13.8993,
      "eval_samples_per_second": 185.477,
      "eval_steps_per_second": 23.239,
      "step": 15
    },
    {
      "epoch": 0.011758941695247428,
      "grad_norm": 0.06638278812170029,
      "learning_rate": 9.045084971874738e-05,
      "loss": 11.9307,
      "step": 18
    },
    {
      "epoch": 0.013065490772497142,
      "eval_loss": 11.930602073669434,
      "eval_runtime": 13.7708,
      "eval_samples_per_second": 187.207,
      "eval_steps_per_second": 23.455,
      "step": 20
    },
    {
      "epoch": 0.013718765311121999,
      "grad_norm": 0.0493074432015419,
      "learning_rate": 8.247240241650918e-05,
      "loss": 11.9315,
      "step": 21
    },
    {
      "epoch": 0.01567858892699657,
      "grad_norm": 0.07554084807634354,
      "learning_rate": 7.269952498697734e-05,
      "loss": 11.9296,
      "step": 24
    },
    {
      "epoch": 0.01633186346562143,
      "eval_loss": 11.929768562316895,
      "eval_runtime": 13.7987,
      "eval_samples_per_second": 186.829,
      "eval_steps_per_second": 23.408,
      "step": 25
    },
    {
      "epoch": 0.017638412542871143,
      "grad_norm": 0.06065281108021736,
      "learning_rate": 6.167226819279528e-05,
      "loss": 11.9298,
      "step": 27
    },
    {
      "epoch": 0.019598236158745713,
      "grad_norm": 0.07697712630033493,
      "learning_rate": 5e-05,
      "loss": 11.9307,
      "step": 30
    },
    {
      "epoch": 0.019598236158745713,
      "eval_loss": 11.928912162780762,
      "eval_runtime": 13.8185,
      "eval_samples_per_second": 186.561,
      "eval_steps_per_second": 23.374,
      "step": 30
    },
    {
      "epoch": 0.021558059774620286,
      "grad_norm": 0.10647869855165482,
      "learning_rate": 3.832773180720475e-05,
      "loss": 11.9291,
      "step": 33
    },
    {
      "epoch": 0.02286460885187,
      "eval_loss": 11.928193092346191,
      "eval_runtime": 13.8052,
      "eval_samples_per_second": 186.742,
      "eval_steps_per_second": 23.397,
      "step": 35
    },
    {
      "epoch": 0.023517883390494855,
      "grad_norm": 0.09626563638448715,
      "learning_rate": 2.7300475013022663e-05,
      "loss": 11.9286,
      "step": 36
    },
    {
      "epoch": 0.025477707006369428,
      "grad_norm": 0.07464616745710373,
      "learning_rate": 1.7527597583490822e-05,
      "loss": 11.9282,
      "step": 39
    },
    {
      "epoch": 0.026130981544994283,
      "eval_loss": 11.927738189697266,
      "eval_runtime": 13.7693,
      "eval_samples_per_second": 187.229,
      "eval_steps_per_second": 23.458,
      "step": 40
    },
    {
      "epoch": 0.027437530622243998,
      "grad_norm": 0.08178170025348663,
      "learning_rate": 9.549150281252633e-06,
      "loss": 11.9273,
      "step": 42
    },
    {
      "epoch": 0.02939735423811857,
      "grad_norm": 0.10721062123775482,
      "learning_rate": 3.8060233744356633e-06,
      "loss": 11.9275,
      "step": 45
    },
    {
      "epoch": 0.02939735423811857,
      "eval_loss": 11.927544593811035,
      "eval_runtime": 13.7916,
      "eval_samples_per_second": 186.925,
      "eval_steps_per_second": 23.42,
      "step": 45
    },
    {
      "epoch": 0.03135717785399314,
      "grad_norm": 0.09193761646747589,
      "learning_rate": 6.15582970243117e-07,
      "loss": 11.9265,
      "step": 48
    },
    {
      "epoch": 0.03266372693124286,
      "eval_loss": 11.927508354187012,
      "eval_runtime": 13.8198,
      "eval_samples_per_second": 186.544,
      "eval_steps_per_second": 23.372,
      "step": 50
    }
  ],
  "logging_steps": 3,
  "max_steps": 50,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 5,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 241041408000.0,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}