{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 9.972144846796658,
  "eval_steps": 500,
  "global_step": 1790,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.11,
      "learning_rate": 2e-05,
      "loss": 95.2205,
      "step": 20
    },
    {
      "epoch": 0.22,
      "learning_rate": 2e-05,
      "loss": 48.3233,
      "step": 40
    },
    {
      "epoch": 0.33,
      "learning_rate": 2e-05,
      "loss": 13.9954,
      "step": 60
    },
    {
      "epoch": 0.45,
      "learning_rate": 2e-05,
      "loss": 2.0884,
      "step": 80
    },
    {
      "epoch": 0.56,
      "learning_rate": 2e-05,
      "loss": 1.5549,
      "step": 100
    },
    {
      "epoch": 0.67,
      "learning_rate": 2e-05,
      "loss": 2.0528,
      "step": 120
    },
    {
      "epoch": 0.78,
      "learning_rate": 2e-05,
      "loss": 3.102,
      "step": 140
    },
    {
      "epoch": 0.89,
      "learning_rate": 2e-05,
      "loss": 1.2929,
      "step": 160
    },
    {
      "epoch": 1.0,
      "eval_f1": 0.1941564561734213,
      "eval_loss": 13.452169418334961,
      "eval_runtime": 23.1921,
      "eval_samples_per_second": 82.614,
      "eval_steps_per_second": 1.294,
      "step": 179
    },
    {
      "epoch": 1.0,
      "learning_rate": 2e-05,
      "loss": 0.5906,
      "step": 180
    },
    {
      "epoch": 1.11,
      "learning_rate": 2e-05,
      "loss": 0.3674,
      "step": 200
    },
    {
      "epoch": 1.23,
      "learning_rate": 2e-05,
      "loss": 0.5531,
      "step": 220
    },
    {
      "epoch": 1.34,
      "learning_rate": 2e-05,
      "loss": 0.2448,
      "step": 240
    },
    {
      "epoch": 1.45,
      "learning_rate": 2e-05,
      "loss": 0.1894,
      "step": 260
    },
    {
      "epoch": 1.56,
      "learning_rate": 2e-05,
      "loss": 0.2385,
      "step": 280
    },
    {
      "epoch": 1.67,
      "learning_rate": 2e-05,
      "loss": 0.2773,
      "step": 300
    },
    {
      "epoch": 1.78,
      "learning_rate": 2e-05,
      "loss": 0.1879,
      "step": 320
    },
    {
      "epoch": 1.89,
      "learning_rate": 2e-05,
      "loss": 0.1541,
      "step": 340
    },
    {
      "epoch": 2.0,
      "eval_f1": 0.1941564561734213,
      "eval_loss": 8.468379020690918,
      "eval_runtime": 22.9961,
      "eval_samples_per_second": 83.318,
      "eval_steps_per_second": 1.305,
      "step": 359
    },
    {
      "epoch": 2.01,
      "learning_rate": 2e-05,
      "loss": 0.1381,
      "step": 360
    },
    {
      "epoch": 2.12,
      "learning_rate": 2e-05,
      "loss": 0.1464,
      "step": 380
    },
    {
      "epoch": 2.23,
      "learning_rate": 2e-05,
      "loss": 0.2856,
      "step": 400
    },
    {
      "epoch": 2.34,
      "learning_rate": 2e-05,
      "loss": 0.3727,
      "step": 420
    },
    {
      "epoch": 2.45,
      "learning_rate": 2e-05,
      "loss": 0.2145,
      "step": 440
    },
    {
      "epoch": 2.56,
      "learning_rate": 2e-05,
      "loss": 0.0867,
      "step": 460
    },
    {
      "epoch": 2.67,
      "learning_rate": 2e-05,
      "loss": 0.232,
      "step": 480
    },
    {
      "epoch": 2.79,
      "learning_rate": 2e-05,
      "loss": 0.1407,
      "step": 500
    },
    {
      "epoch": 2.9,
      "learning_rate": 2e-05,
      "loss": 0.1257,
      "step": 520
    },
    {
      "epoch": 3.0,
      "eval_f1": 0.1941564561734213,
      "eval_loss": 7.637044906616211,
      "eval_runtime": 22.6323,
      "eval_samples_per_second": 84.658,
      "eval_steps_per_second": 1.326,
      "step": 538
    },
    {
      "epoch": 3.01,
      "learning_rate": 2e-05,
      "loss": 0.1963,
      "step": 540
    },
    {
      "epoch": 3.12,
      "learning_rate": 2e-05,
      "loss": 0.1485,
      "step": 560
    },
    {
      "epoch": 3.23,
      "learning_rate": 2e-05,
      "loss": 0.1373,
      "step": 580
    },
    {
      "epoch": 3.34,
      "learning_rate": 2e-05,
      "loss": 0.0971,
      "step": 600
    },
    {
      "epoch": 3.45,
      "learning_rate": 2e-05,
      "loss": 0.2036,
      "step": 620
    },
    {
      "epoch": 3.57,
      "learning_rate": 2e-05,
      "loss": 0.2205,
      "step": 640
    },
    {
      "epoch": 3.68,
      "learning_rate": 2e-05,
      "loss": 0.0547,
      "step": 660
    },
    {
      "epoch": 3.79,
      "learning_rate": 2e-05,
      "loss": 0.0957,
      "step": 680
    },
    {
      "epoch": 3.9,
      "learning_rate": 2e-05,
      "loss": 0.1684,
      "step": 700
    },
    {
      "epoch": 4.0,
      "eval_f1": 0.6376360808709176,
      "eval_loss": 0.7054294943809509,
      "eval_runtime": 22.968,
      "eval_samples_per_second": 83.42,
      "eval_steps_per_second": 1.306,
      "step": 718
    },
    {
      "epoch": 4.01,
      "learning_rate": 2e-05,
      "loss": 0.145,
      "step": 720
    },
    {
      "epoch": 4.12,
      "learning_rate": 2e-05,
      "loss": 0.1186,
      "step": 740
    },
    {
      "epoch": 4.23,
      "learning_rate": 2e-05,
      "loss": 0.0227,
      "step": 760
    },
    {
      "epoch": 4.35,
      "learning_rate": 2e-05,
      "loss": 0.0556,
      "step": 780
    },
    {
      "epoch": 4.46,
      "learning_rate": 2e-05,
      "loss": 0.141,
      "step": 800
    },
    {
      "epoch": 4.57,
      "learning_rate": 2e-05,
      "loss": 0.1328,
      "step": 820
    },
    {
      "epoch": 4.68,
      "learning_rate": 2e-05,
      "loss": 0.0992,
      "step": 840
    },
    {
      "epoch": 4.79,
      "learning_rate": 2e-05,
      "loss": 0.1691,
      "step": 860
    },
    {
      "epoch": 4.9,
      "learning_rate": 2e-05,
      "loss": 0.0911,
      "step": 880
    },
    {
      "epoch": 5.0,
      "eval_f1": 0.1941564561734213,
      "eval_loss": 5.119464874267578,
      "eval_runtime": 22.7812,
      "eval_samples_per_second": 84.104,
      "eval_steps_per_second": 1.317,
      "step": 897
    },
    {
      "epoch": 5.01,
      "learning_rate": 2e-05,
      "loss": 0.0993,
      "step": 900
    },
    {
      "epoch": 5.13,
      "learning_rate": 2e-05,
      "loss": 0.0972,
      "step": 920
    },
    {
      "epoch": 5.24,
      "learning_rate": 2e-05,
      "loss": 0.0389,
      "step": 940
    },
    {
      "epoch": 5.35,
      "learning_rate": 2e-05,
      "loss": 0.1366,
      "step": 960
    },
    {
      "epoch": 5.46,
      "learning_rate": 2e-05,
      "loss": 0.0833,
      "step": 980
    },
    {
      "epoch": 5.57,
      "learning_rate": 2e-05,
      "loss": 0.1634,
      "step": 1000
    },
    {
      "epoch": 5.68,
      "learning_rate": 2e-05,
      "loss": 0.0691,
      "step": 1020
    },
    {
      "epoch": 5.79,
      "learning_rate": 2e-05,
      "loss": 0.1487,
      "step": 1040
    },
    {
      "epoch": 5.91,
      "learning_rate": 2e-05,
      "loss": 0.145,
      "step": 1060
    },
    {
      "epoch": 6.0,
      "eval_f1": 0.7984031936127745,
      "eval_loss": 0.2693595290184021,
      "eval_runtime": 22.9118,
      "eval_samples_per_second": 83.625,
      "eval_steps_per_second": 1.309,
      "step": 1077
    },
    {
      "epoch": 6.02,
      "learning_rate": 2e-05,
      "loss": 0.0373,
      "step": 1080
    },
    {
      "epoch": 6.13,
      "learning_rate": 2e-05,
      "loss": 0.0409,
      "step": 1100
    },
    {
      "epoch": 6.24,
      "learning_rate": 2e-05,
      "loss": 0.0714,
      "step": 1120
    },
    {
      "epoch": 6.35,
      "learning_rate": 2e-05,
      "loss": 0.0915,
      "step": 1140
    },
    {
      "epoch": 6.46,
      "learning_rate": 2e-05,
      "loss": 0.1359,
      "step": 1160
    },
    {
      "epoch": 6.57,
      "learning_rate": 2e-05,
      "loss": 0.1016,
      "step": 1180
    },
    {
      "epoch": 6.69,
      "learning_rate": 2e-05,
      "loss": 0.0346,
      "step": 1200
    },
    {
      "epoch": 6.8,
      "learning_rate": 2e-05,
      "loss": 0.0437,
      "step": 1220
    },
    {
      "epoch": 6.91,
      "learning_rate": 2e-05,
      "loss": 0.1191,
      "step": 1240
    },
    {
      "epoch": 7.0,
      "eval_f1": 0.20265617314313825,
      "eval_loss": 2.941455602645874,
      "eval_runtime": 22.6391,
      "eval_samples_per_second": 84.632,
      "eval_steps_per_second": 1.325,
      "step": 1256
    },
    {
      "epoch": 7.02,
      "learning_rate": 2e-05,
      "loss": 0.069,
      "step": 1260
    },
    {
      "epoch": 7.13,
      "learning_rate": 2e-05,
      "loss": 0.009,
      "step": 1280
    },
    {
      "epoch": 7.24,
      "learning_rate": 2e-05,
      "loss": 0.0485,
      "step": 1300
    },
    {
      "epoch": 7.35,
      "learning_rate": 2e-05,
      "loss": 0.0105,
      "step": 1320
    },
    {
      "epoch": 7.47,
      "learning_rate": 2e-05,
      "loss": 0.0835,
      "step": 1340
    },
    {
      "epoch": 7.58,
      "learning_rate": 2e-05,
      "loss": 0.1458,
      "step": 1360
    },
    {
      "epoch": 7.69,
      "learning_rate": 2e-05,
      "loss": 0.0553,
      "step": 1380
    },
    {
      "epoch": 7.8,
      "learning_rate": 2e-05,
      "loss": 0.005,
      "step": 1400
    },
    {
      "epoch": 7.91,
      "learning_rate": 2e-05,
      "loss": 0.1008,
      "step": 1420
    },
    {
      "epoch": 8.0,
      "eval_f1": 0.9023255813953488,
      "eval_loss": 0.17851048707962036,
      "eval_runtime": 22.8798,
      "eval_samples_per_second": 83.742,
      "eval_steps_per_second": 1.311,
      "step": 1436
    },
    {
      "epoch": 8.02,
      "learning_rate": 2e-05,
      "loss": 0.0414,
      "step": 1440
    },
    {
      "epoch": 8.13,
      "learning_rate": 2e-05,
      "loss": 0.0351,
      "step": 1460
    },
    {
      "epoch": 8.25,
      "learning_rate": 2e-05,
      "loss": 0.115,
      "step": 1480
    },
    {
      "epoch": 8.36,
      "learning_rate": 2e-05,
      "loss": 0.0453,
      "step": 1500
    },
    {
      "epoch": 8.47,
      "learning_rate": 2e-05,
      "loss": 0.0035,
      "step": 1520
    },
    {
      "epoch": 8.58,
      "learning_rate": 2e-05,
      "loss": 0.139,
      "step": 1540
    },
    {
      "epoch": 8.69,
      "learning_rate": 2e-05,
      "loss": 0.0617,
      "step": 1560
    },
    {
      "epoch": 8.8,
      "learning_rate": 2e-05,
      "loss": 0.0684,
      "step": 1580
    },
    {
      "epoch": 8.91,
      "learning_rate": 2e-05,
      "loss": 0.0231,
      "step": 1600
    },
    {
      "epoch": 9.0,
      "eval_f1": 0.1941564561734213,
      "eval_loss": 8.572157859802246,
      "eval_runtime": 22.7298,
      "eval_samples_per_second": 84.295,
      "eval_steps_per_second": 1.32,
      "step": 1615
    },
    {
      "epoch": 9.03,
      "learning_rate": 2e-05,
      "loss": 0.0565,
      "step": 1620
    },
    {
      "epoch": 9.14,
      "learning_rate": 2e-05,
      "loss": 0.0025,
      "step": 1640
    },
    {
      "epoch": 9.25,
      "learning_rate": 2e-05,
      "loss": 0.0,
      "step": 1660
    },
    {
      "epoch": 9.36,
      "learning_rate": 2e-05,
      "loss": 0.1041,
      "step": 1680
    },
    {
      "epoch": 9.47,
      "learning_rate": 2e-05,
      "loss": 0.0822,
      "step": 1700
    },
    {
      "epoch": 9.58,
      "learning_rate": 2e-05,
      "loss": 0.0923,
      "step": 1720
    },
    {
      "epoch": 9.69,
      "learning_rate": 2e-05,
      "loss": 0.0367,
      "step": 1740
    },
    {
      "epoch": 9.81,
      "learning_rate": 2e-05,
      "loss": 0.0083,
      "step": 1760
    },
    {
      "epoch": 9.92,
      "learning_rate": 2e-05,
      "loss": 0.0521,
      "step": 1780
    },
    {
      "epoch": 9.97,
      "eval_f1": 0.1941564561734213,
      "eval_loss": 4.426720142364502,
      "eval_runtime": 22.899,
      "eval_samples_per_second": 83.672,
      "eval_steps_per_second": 1.31,
      "step": 1790
    },
    {
      "epoch": 9.97,
      "step": 1790,
      "total_flos": 4485749565030400.0,
      "train_loss": 1.9846372914412187,
      "train_runtime": 5392.4255,
      "train_samples_per_second": 10.65,
      "train_steps_per_second": 0.332
    }
  ],
  "logging_steps": 20,
  "max_steps": 1790,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 10,
  "save_steps": 500,
  "total_flos": 4485749565030400.0,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}