{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 100.0,
  "eval_steps": 390,
  "global_step": 3900,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 10.0,
      "grad_norm": 12.714141845703125,
      "learning_rate": 9e-06,
      "loss": 3.3102,
      "step": 390
    },
    {
      "epoch": 10.0,
      "eval_loss": 2.768110990524292,
      "eval_runtime": 9.8747,
      "eval_samples_per_second": 252.057,
      "eval_steps_per_second": 2.532,
      "step": 390
    },
    {
      "epoch": 20.0,
      "grad_norm": 13.40042781829834,
      "learning_rate": 8.000000000000001e-06,
      "loss": 1.6079,
      "step": 780
    },
    {
      "epoch": 20.0,
      "eval_loss": 1.5404176712036133,
      "eval_runtime": 9.8518,
      "eval_samples_per_second": 252.644,
      "eval_steps_per_second": 2.538,
      "step": 780
    },
    {
      "epoch": 30.0,
      "grad_norm": 11.014426231384277,
      "learning_rate": 7e-06,
      "loss": 0.7749,
      "step": 1170
    },
    {
      "epoch": 30.0,
      "eval_loss": 0.9965859651565552,
      "eval_runtime": 9.5463,
      "eval_samples_per_second": 260.73,
      "eval_steps_per_second": 2.619,
      "step": 1170
    },
    {
      "epoch": 40.0,
      "grad_norm": 5.882655620574951,
      "learning_rate": 6e-06,
      "loss": 0.4468,
      "step": 1560
    },
    {
      "epoch": 40.0,
      "eval_loss": 0.7464911937713623,
      "eval_runtime": 9.522,
      "eval_samples_per_second": 261.395,
      "eval_steps_per_second": 2.626,
      "step": 1560
    },
    {
      "epoch": 50.0,
      "grad_norm": 6.569639682769775,
      "learning_rate": 5e-06,
      "loss": 0.2965,
      "step": 1950
    },
    {
      "epoch": 50.0,
      "eval_loss": 0.5969729423522949,
      "eval_runtime": 9.4996,
      "eval_samples_per_second": 262.01,
      "eval_steps_per_second": 2.632,
      "step": 1950
    },
    {
      "epoch": 60.0,
      "grad_norm": 4.880886554718018,
      "learning_rate": 4.000000000000001e-06,
      "loss": 0.2199,
      "step": 2340
    },
    {
      "epoch": 60.0,
      "eval_loss": 0.5014213919639587,
      "eval_runtime": 9.4946,
      "eval_samples_per_second": 262.15,
      "eval_steps_per_second": 2.633,
      "step": 2340
    },
    {
      "epoch": 70.0,
      "grad_norm": 5.099749565124512,
      "learning_rate": 3e-06,
      "loss": 0.1751,
      "step": 2730
    },
    {
      "epoch": 70.0,
      "eval_loss": 0.44686585664749146,
      "eval_runtime": 9.4777,
      "eval_samples_per_second": 262.616,
      "eval_steps_per_second": 2.638,
      "step": 2730
    },
    {
      "epoch": 80.0,
      "grad_norm": 3.513817548751831,
      "learning_rate": 2.0000000000000003e-06,
      "loss": 0.1487,
      "step": 3120
    },
    {
      "epoch": 80.0,
      "eval_loss": 0.402406245470047,
      "eval_runtime": 9.4812,
      "eval_samples_per_second": 262.52,
      "eval_steps_per_second": 2.637,
      "step": 3120
    },
    {
      "epoch": 90.0,
      "grad_norm": 2.282205104827881,
      "learning_rate": 1.0000000000000002e-06,
      "loss": 0.1317,
      "step": 3510
    },
    {
      "epoch": 90.0,
      "eval_loss": 0.3745902478694916,
      "eval_runtime": 9.5617,
      "eval_samples_per_second": 260.309,
      "eval_steps_per_second": 2.615,
      "step": 3510
    },
    {
      "epoch": 100.0,
      "grad_norm": 2.7403271198272705,
      "learning_rate": 0.0,
      "loss": 0.1234,
      "step": 3900
    },
    {
      "epoch": 100.0,
      "eval_loss": 0.37145158648490906,
      "eval_runtime": 9.4722,
      "eval_samples_per_second": 262.769,
      "eval_steps_per_second": 2.639,
      "step": 3900
    },
    {
      "epoch": 100.0,
      "step": 3900,
      "total_flos": 6.5849779842816e+16,
      "train_loss": 0.7235021141247872,
      "train_runtime": 2314.4669,
      "train_samples_per_second": 107.541,
      "train_steps_per_second": 1.685
    }
  ],
  "logging_steps": 390,
  "max_steps": 3900,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 100,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 6.5849779842816e+16,
  "train_batch_size": 64,
  "trial_name": null,
  "trial_params": null
}