Sven00
/

redpj7B-lora-cnn-dailymail_2870_samples

Model card Files Files and versions Community

Sven00 commited on Aug 16, 2023

Commit

b5a2f9f

•

1 Parent(s): 8a1acd7

Upload 28 files

Browse files

Files changed (28) hide show

redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-600/adapter_config.json +16 -0
redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-600/adapter_model.bin +3 -0
redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-600/optimizer.pt +3 -0
redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-600/rng_state.pth +3 -0
redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-600/scheduler.pt +3 -0
redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-600/trainer_state.json +220 -0
redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-600/training_args.bin +3 -0
redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-8800/adapter_config.json +16 -0
redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-8800/adapter_model.bin +3 -0
redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-8800/optimizer.pt +3 -0
redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-8800/rng_state.pth +3 -0
redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-8800/scheduler.pt +3 -0
redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-8800/trainer_state.json +3008 -0
redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-8800/training_args.bin +3 -0
redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-9000/adapter_config.json +16 -0
redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-9000/adapter_model.bin +3 -0
redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-9000/optimizer.pt +3 -0
redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-9000/rng_state.pth +3 -0
redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-9000/scheduler.pt +3 -0
redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-9000/trainer_state.json +3076 -0
redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-9000/training_args.bin +3 -0
redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail_6000_samples/adapter_config.json +16 -0
redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail_6000_samples/adapter_model.bin +3 -0
redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail_6000_samples/special_tokens_map.json +6 -0
redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail_6000_samples/tokenizer.json +0 -0
redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail_6000_samples/tokenizer_config.json +10 -0
redpj7B-lora-cnn-dailymail_6000_samples/results/stdout.txt +0 -0
redpj7B-lora-cnn-dailymail_6000_samples/script_fine_tuning.py +170 -0

redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-600/adapter_config.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+  "base_model_name_or_path": "/domino/edv/afs-mrmc-data-store-rw/innovation/hf/RedPajama-INCITE-7B-Base",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "lora_alpha": 16,
+  "lora_dropout": 0.05,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "target_modules": [
+    "query_key_value"
+  ],
+  "task_type": "CAUSAL_LM"
+}

redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-600/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7004b69a5e5338ee5dbc682271079d0cf6750a64f3dd06f0dabf0a4c8129f41b
+size 16800753

redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-600/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e30ce31dcb0eb6fc197fa6178337af09855e350ceabc29748e3bfad2865b0828
+size 33592261

redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-600/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bf3c8c6a24cf587ccbaf1b3ebf006c31756fbbb284486b45c4447d10a3da99c3
+size 14575

redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-600/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ff6d8dcf74529ca71baf62714afafbea88dc48c81b1277347aebdfdd87c4533d
+size 627

redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-600/trainer_state.json ADDED Viewed

	@@ -0,0 +1,220 @@

+{
+  "best_metric": 1.9635850191116333,
+  "best_model_checkpoint": "./results/redpj7B-lora-cnn-dailymail-results_fine_tune_test/checkpoint-600",
+  "epoch": 0.19900497512437812,
+  "global_step": 600,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.00027082228116710874,
+      "loss": 1.8654,
+      "step": 20
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0002681697612732095,
+      "loss": 1.8124,
+      "step": 40
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0002655172413793103,
+      "loss": 1.8231,
+      "step": 60
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0002628647214854111,
+      "loss": 1.7818,
+      "step": 80
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.00026021220159151194,
+      "loss": 1.8446,
+      "step": 100
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0002575596816976127,
+      "loss": 1.9001,
+      "step": 120
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0002549071618037135,
+      "loss": 1.8073,
+      "step": 140
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0002522546419098143,
+      "loss": 1.8506,
+      "step": 160
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0002496021220159151,
+      "loss": 1.8471,
+      "step": 180
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0002469496021220159,
+      "loss": 1.8647,
+      "step": 200
+    },
+    {
+      "epoch": 0.07,
+      "eval_loss": 1.966022253036499,
+      "eval_runtime": 12002.3952,
+      "eval_samples_per_second": 1.114,
+      "eval_steps_per_second": 0.139,
+      "step": 200
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.00024429708222811666,
+      "loss": 1.8578,
+      "step": 220
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0002416445623342175,
+      "loss": 1.8329,
+      "step": 240
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0002389920424403183,
+      "loss": 1.8119,
+      "step": 260
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0002363395225464191,
+      "loss": 1.8884,
+      "step": 280
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.00023368700265251986,
+      "loss": 1.9077,
+      "step": 300
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00023103448275862065,
+      "loss": 1.8092,
+      "step": 320
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00022838196286472146,
+      "loss": 1.9237,
+      "step": 340
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00022572944297082225,
+      "loss": 1.8701,
+      "step": 360
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00022307692307692306,
+      "loss": 1.8933,
+      "step": 380
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00022042440318302385,
+      "loss": 1.8453,
+      "step": 400
+    },
+    {
+      "epoch": 0.13,
+      "eval_loss": 1.9667036533355713,
+      "eval_runtime": 11991.8036,
+      "eval_samples_per_second": 1.115,
+      "eval_steps_per_second": 0.139,
+      "step": 400
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00021777188328912466,
+      "loss": 1.8272,
+      "step": 420
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.00021511936339522545,
+      "loss": 1.8149,
+      "step": 440
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.00021246684350132626,
+      "loss": 1.8565,
+      "step": 460
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.00020981432360742705,
+      "loss": 1.8139,
+      "step": 480
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0002071618037135278,
+      "loss": 1.802,
+      "step": 500
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.00020450928381962862,
+      "loss": 1.8795,
+      "step": 520
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0002018567639257294,
+      "loss": 1.8621,
+      "step": 540
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.00019920424403183022,
+      "loss": 1.8363,
+      "step": 560
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.000196551724137931,
+      "loss": 1.8746,
+      "step": 580
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00019389920424403182,
+      "loss": 1.7763,
+      "step": 600
+    },
+    {
+      "epoch": 0.2,
+      "eval_loss": 1.9635850191116333,
+      "eval_runtime": 11976.5234,
+      "eval_samples_per_second": 1.116,
+      "eval_steps_per_second": 0.14,
+      "step": 600
+    }
+  ],
+  "max_steps": 9045,
+  "num_train_epochs": 3,
+  "total_flos": 3.74219846516736e+16,
+  "trial_name": null,
+  "trial_params": null
+}

redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-600/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f5a78612ea8930d68eba4cb53d62254ccf547582e754aa049d169c3c11dd5fe4
+size 4027

redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-8800/adapter_config.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+  "base_model_name_or_path": "/domino/edv/afs-mrmc-data-store-rw/innovation/hf/RedPajama-INCITE-7B-Base",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "lora_alpha": 16,
+  "lora_dropout": 0.05,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "target_modules": [
+    "query_key_value"
+  ],
+  "task_type": "CAUSAL_LM"
+}

redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-8800/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:36c95157caaa0e8a49516175a38f9e3dfad6634df6c2d7fc47b2e3298cf4d68e
+size 16800753

redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-8800/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f45578cb0861cd43c16230fed120f8164d6858bd1387fe11181131bf8618591c
+size 33592261

redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-8800/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c4113cbc0a2963d4c364a9d22be5bb0998af83f60ca6808727b9e33650e173f6
+size 14575

redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-8800/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c67c61a9d3974b17ff5914527d23045fa60ef4e1f1e7017cc41f7ea5686f8e9a
+size 627

redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-8800/trainer_state.json ADDED Viewed

	@@ -0,0 +1,3008 @@

+{
+  "best_metric": 1.9635850191116333,
+  "best_model_checkpoint": "./results/redpj7B-lora-cnn-dailymail-results_fine_tune_test/checkpoint-600",
+  "epoch": 2.9187396351575456,
+  "global_step": 8800,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.00027082228116710874,
+      "loss": 1.8654,
+      "step": 20
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0002681697612732095,
+      "loss": 1.8124,
+      "step": 40
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0002655172413793103,
+      "loss": 1.8231,
+      "step": 60
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0002628647214854111,
+      "loss": 1.7818,
+      "step": 80
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.00026021220159151194,
+      "loss": 1.8446,
+      "step": 100
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0002575596816976127,
+      "loss": 1.9001,
+      "step": 120
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0002549071618037135,
+      "loss": 1.8073,
+      "step": 140
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0002522546419098143,
+      "loss": 1.8506,
+      "step": 160
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0002496021220159151,
+      "loss": 1.8471,
+      "step": 180
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0002469496021220159,
+      "loss": 1.8647,
+      "step": 200
+    },
+    {
+      "epoch": 0.07,
+      "eval_loss": 1.966022253036499,
+      "eval_runtime": 12002.3952,
+      "eval_samples_per_second": 1.114,
+      "eval_steps_per_second": 0.139,
+      "step": 200
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.00024429708222811666,
+      "loss": 1.8578,
+      "step": 220
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0002416445623342175,
+      "loss": 1.8329,
+      "step": 240
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0002389920424403183,
+      "loss": 1.8119,
+      "step": 260
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0002363395225464191,
+      "loss": 1.8884,
+      "step": 280
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.00023368700265251986,
+      "loss": 1.9077,
+      "step": 300
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00023103448275862065,
+      "loss": 1.8092,
+      "step": 320
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00022838196286472146,
+      "loss": 1.9237,
+      "step": 340
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00022572944297082225,
+      "loss": 1.8701,
+      "step": 360
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00022307692307692306,
+      "loss": 1.8933,
+      "step": 380
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00022042440318302385,
+      "loss": 1.8453,
+      "step": 400
+    },
+    {
+      "epoch": 0.13,
+      "eval_loss": 1.9667036533355713,
+      "eval_runtime": 11991.8036,
+      "eval_samples_per_second": 1.115,
+      "eval_steps_per_second": 0.139,
+      "step": 400
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00021777188328912466,
+      "loss": 1.8272,
+      "step": 420
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.00021511936339522545,
+      "loss": 1.8149,
+      "step": 440
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.00021246684350132626,
+      "loss": 1.8565,
+      "step": 460
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.00020981432360742705,
+      "loss": 1.8139,
+      "step": 480
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0002071618037135278,
+      "loss": 1.802,
+      "step": 500
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.00020450928381962862,
+      "loss": 1.8795,
+      "step": 520
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0002018567639257294,
+      "loss": 1.8621,
+      "step": 540
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.00019920424403183022,
+      "loss": 1.8363,
+      "step": 560
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.000196551724137931,
+      "loss": 1.8746,
+      "step": 580
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00019389920424403182,
+      "loss": 1.7763,
+      "step": 600
+    },
+    {
+      "epoch": 0.2,
+      "eval_loss": 1.9635850191116333,
+      "eval_runtime": 11976.5234,
+      "eval_samples_per_second": 1.116,
+      "eval_steps_per_second": 0.14,
+      "step": 600
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0001912466843501326,
+      "loss": 1.8423,
+      "step": 620
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.00018859416445623343,
+      "loss": 1.8998,
+      "step": 640
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0001859416445623342,
+      "loss": 1.8131,
+      "step": 660
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.00018328912466843497,
+      "loss": 1.8656,
+      "step": 680
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.00018063660477453579,
+      "loss": 1.8181,
+      "step": 700
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00017798408488063657,
+      "loss": 1.8425,
+      "step": 720
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.00017533156498673739,
+      "loss": 1.7883,
+      "step": 740
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.00017267904509283817,
+      "loss": 1.8469,
+      "step": 760
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.000170026525198939,
+      "loss": 1.8447,
+      "step": 780
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.00016737400530503977,
+      "loss": 1.7872,
+      "step": 800
+    },
+    {
+      "epoch": 0.27,
+      "eval_loss": 1.9704641103744507,
+      "eval_runtime": 11963.7945,
+      "eval_samples_per_second": 1.117,
+      "eval_steps_per_second": 0.14,
+      "step": 800
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0001647214854111406,
+      "loss": 1.8032,
+      "step": 820
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00016206896551724137,
+      "loss": 1.8709,
+      "step": 840
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.00015941644562334216,
+      "loss": 1.8801,
+      "step": 860
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.00015676392572944298,
+      "loss": 1.8535,
+      "step": 880
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00015411140583554373,
+      "loss": 1.8631,
+      "step": 900
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.00015145888594164455,
+      "loss": 1.752,
+      "step": 920
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.00014880636604774534,
+      "loss": 1.8705,
+      "step": 940
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.00014615384615384615,
+      "loss": 1.8301,
+      "step": 960
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.00014350132625994694,
+      "loss": 1.7892,
+      "step": 980
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.00014084880636604772,
+      "loss": 1.8671,
+      "step": 1000
+    },
+    {
+      "epoch": 0.33,
+      "eval_loss": 1.9677250385284424,
+      "eval_runtime": 11951.074,
+      "eval_samples_per_second": 1.119,
+      "eval_steps_per_second": 0.14,
+      "step": 1000
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.00013819628647214854,
+      "loss": 1.8168,
+      "step": 1020
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.00013554376657824932,
+      "loss": 1.8268,
+      "step": 1040
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.00013289124668435014,
+      "loss": 1.8073,
+      "step": 1060
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0001302387267904509,
+      "loss": 1.9313,
+      "step": 1080
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0001275862068965517,
+      "loss": 1.9097,
+      "step": 1100
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0001249336870026525,
+      "loss": 1.9032,
+      "step": 1120
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.0001222811671087533,
+      "loss": 1.8207,
+      "step": 1140
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.0001196286472148541,
+      "loss": 1.8815,
+      "step": 1160
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0001169761273209549,
+      "loss": 1.8297,
+      "step": 1180
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0001143236074270557,
+      "loss": 1.8899,
+      "step": 1200
+    },
+    {
+      "epoch": 0.4,
+      "eval_loss": 1.9722812175750732,
+      "eval_runtime": 11951.1639,
+      "eval_samples_per_second": 1.119,
+      "eval_steps_per_second": 0.14,
+      "step": 1200
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0001116710875331565,
+      "loss": 1.8803,
+      "step": 1220
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00010901856763925729,
+      "loss": 1.8548,
+      "step": 1240
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.00010636604774535807,
+      "loss": 1.8498,
+      "step": 1260
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.00010371352785145887,
+      "loss": 1.8057,
+      "step": 1280
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00010106100795755967,
+      "loss": 1.8572,
+      "step": 1300
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 9.840848806366047e-05,
+      "loss": 1.8469,
+      "step": 1320
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 9.575596816976126e-05,
+      "loss": 1.8405,
+      "step": 1340
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 9.310344827586206e-05,
+      "loss": 1.8193,
+      "step": 1360
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 9.045092838196286e-05,
+      "loss": 1.7731,
+      "step": 1380
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 8.779840848806366e-05,
+      "loss": 1.8329,
+      "step": 1400
+    },
+    {
+      "epoch": 0.46,
+      "eval_loss": 1.9736511707305908,
+      "eval_runtime": 11956.5916,
+      "eval_samples_per_second": 1.118,
+      "eval_steps_per_second": 0.14,
+      "step": 1400
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 8.514588859416444e-05,
+      "loss": 1.8872,
+      "step": 1420
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 8.249336870026524e-05,
+      "loss": 1.8511,
+      "step": 1440
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 7.984084880636604e-05,
+      "loss": 1.7523,
+      "step": 1460
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 7.718832891246684e-05,
+      "loss": 1.8619,
+      "step": 1480
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 7.453580901856764e-05,
+      "loss": 1.8363,
+      "step": 1500
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 7.188328912466844e-05,
+      "loss": 1.7745,
+      "step": 1520
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 6.923076923076922e-05,
+      "loss": 1.8164,
+      "step": 1540
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 6.657824933687002e-05,
+      "loss": 1.7997,
+      "step": 1560
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 6.392572944297081e-05,
+      "loss": 1.8377,
+      "step": 1580
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 6.127320954907161e-05,
+      "loss": 1.851,
+      "step": 1600
+    },
+    {
+      "epoch": 0.53,
+      "eval_loss": 1.9729183912277222,
+      "eval_runtime": 11970.5767,
+      "eval_samples_per_second": 1.117,
+      "eval_steps_per_second": 0.14,
+      "step": 1600
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 5.862068965517241e-05,
+      "loss": 1.8382,
+      "step": 1620
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 5.59681697612732e-05,
+      "loss": 1.8863,
+      "step": 1640
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 5.3315649867374e-05,
+      "loss": 1.762,
+      "step": 1660
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 5.06631299734748e-05,
+      "loss": 1.822,
+      "step": 1680
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 4.801061007957559e-05,
+      "loss": 1.7776,
+      "step": 1700
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 4.5358090185676386e-05,
+      "loss": 1.809,
+      "step": 1720
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 4.2705570291777186e-05,
+      "loss": 1.912,
+      "step": 1740
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 4.005305039787798e-05,
+      "loss": 1.7557,
+      "step": 1760
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 3.7400530503978774e-05,
+      "loss": 1.8232,
+      "step": 1780
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 3.4748010610079574e-05,
+      "loss": 1.8613,
+      "step": 1800
+    },
+    {
+      "epoch": 0.6,
+      "eval_loss": 1.9704504013061523,
+      "eval_runtime": 11980.5334,
+      "eval_samples_per_second": 1.116,
+      "eval_steps_per_second": 0.139,
+      "step": 1800
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 3.209549071618037e-05,
+      "loss": 1.8378,
+      "step": 1820
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 2.9442970822281164e-05,
+      "loss": 1.8871,
+      "step": 1840
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 2.679045092838196e-05,
+      "loss": 1.8821,
+      "step": 1860
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 2.4137931034482755e-05,
+      "loss": 1.8487,
+      "step": 1880
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 2.1485411140583555e-05,
+      "loss": 1.8439,
+      "step": 1900
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 1.883289124668435e-05,
+      "loss": 1.8469,
+      "step": 1920
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 1.6180371352785142e-05,
+      "loss": 1.7797,
+      "step": 1940
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 1.352785145888594e-05,
+      "loss": 1.7795,
+      "step": 1960
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 1.0875331564986736e-05,
+      "loss": 1.8483,
+      "step": 1980
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 8.222811671087533e-06,
+      "loss": 1.8321,
+      "step": 2000
+    },
+    {
+      "epoch": 0.66,
+      "eval_loss": 1.9704707860946655,
+      "eval_runtime": 11964.4776,
+      "eval_samples_per_second": 1.117,
+      "eval_steps_per_second": 0.14,
+      "step": 2000
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 5.5702917771883284e-06,
+      "loss": 1.7708,
+      "step": 2020
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 2.9177718832891245e-06,
+      "loss": 1.8731,
+      "step": 2040
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 2.652519893899204e-07,
+      "loss": 1.8181,
+      "step": 2060
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.0,
+      "loss": 1.8692,
+      "step": 2080
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.0,
+      "loss": 1.8602,
+      "step": 2100
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.0,
+      "loss": 1.8891,
+      "step": 2120
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.0,
+      "loss": 1.8205,
+      "step": 2140
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.0,
+      "loss": 1.8242,
+      "step": 2160
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.0,
+      "loss": 1.8661,
+      "step": 2180
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.0,
+      "loss": 1.7982,
+      "step": 2200
+    },
+    {
+      "epoch": 0.73,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11950.1314,
+      "eval_samples_per_second": 1.119,
+      "eval_steps_per_second": 0.14,
+      "step": 2200
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.0,
+      "loss": 1.7967,
+      "step": 2220
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.0,
+      "loss": 1.8346,
+      "step": 2240
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.0,
+      "loss": 1.8242,
+      "step": 2260
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.0,
+      "loss": 1.8429,
+      "step": 2280
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.0,
+      "loss": 1.8795,
+      "step": 2300
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.0,
+      "loss": 1.8967,
+      "step": 2320
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.0,
+      "loss": 1.815,
+      "step": 2340
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.0,
+      "loss": 1.8165,
+      "step": 2360
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.0,
+      "loss": 1.838,
+      "step": 2380
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.0,
+      "loss": 1.7798,
+      "step": 2400
+    },
+    {
+      "epoch": 0.8,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11951.0888,
+      "eval_samples_per_second": 1.119,
+      "eval_steps_per_second": 0.14,
+      "step": 2400
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.0,
+      "loss": 1.7999,
+      "step": 2420
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.0,
+      "loss": 1.7957,
+      "step": 2440
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 0.0,
+      "loss": 1.8306,
+      "step": 2460
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 0.0,
+      "loss": 1.87,
+      "step": 2480
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 0.0,
+      "loss": 1.8046,
+      "step": 2500
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.0,
+      "loss": 1.76,
+      "step": 2520
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.0,
+      "loss": 1.869,
+      "step": 2540
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 0.0,
+      "loss": 1.8684,
+      "step": 2560
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 0.0,
+      "loss": 1.8757,
+      "step": 2580
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 0.0,
+      "loss": 1.868,
+      "step": 2600
+    },
+    {
+      "epoch": 0.86,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11952.488,
+      "eval_samples_per_second": 1.118,
+      "eval_steps_per_second": 0.14,
+      "step": 2600
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 0.0,
+      "loss": 1.8228,
+      "step": 2620
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 0.0,
+      "loss": 1.8721,
+      "step": 2640
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 0.0,
+      "loss": 1.8557,
+      "step": 2660
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 0.0,
+      "loss": 1.8545,
+      "step": 2680
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.0,
+      "loss": 1.8366,
+      "step": 2700
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.0,
+      "loss": 1.8381,
+      "step": 2720
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 0.0,
+      "loss": 1.8305,
+      "step": 2740
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.0,
+      "loss": 1.8162,
+      "step": 2760
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.0,
+      "loss": 1.8109,
+      "step": 2780
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 0.0,
+      "loss": 1.8694,
+      "step": 2800
+    },
+    {
+      "epoch": 0.93,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11969.9504,
+      "eval_samples_per_second": 1.117,
+      "eval_steps_per_second": 0.14,
+      "step": 2800
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 0.0,
+      "loss": 1.8201,
+      "step": 2820
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 0.0,
+      "loss": 1.848,
+      "step": 2840
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 0.0,
+      "loss": 1.8138,
+      "step": 2860
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.0,
+      "loss": 1.8554,
+      "step": 2880
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.0,
+      "loss": 1.8321,
+      "step": 2900
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 0.0,
+      "loss": 1.8404,
+      "step": 2920
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 0.0,
+      "loss": 1.7883,
+      "step": 2940
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 0.0,
+      "loss": 1.8733,
+      "step": 2960
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 0.0,
+      "loss": 1.8074,
+      "step": 2980
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.0,
+      "loss": 1.887,
+      "step": 3000
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11974.5637,
+      "eval_samples_per_second": 1.116,
+      "eval_steps_per_second": 0.14,
+      "step": 3000
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.0,
+      "loss": 1.7165,
+      "step": 3020
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 0.0,
+      "loss": 1.8041,
+      "step": 3040
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 0.0,
+      "loss": 1.8031,
+      "step": 3060
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 0.0,
+      "loss": 1.8493,
+      "step": 3080
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 0.0,
+      "loss": 1.8475,
+      "step": 3100
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 0.0,
+      "loss": 1.7994,
+      "step": 3120
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 0.0,
+      "loss": 1.7904,
+      "step": 3140
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 0.0,
+      "loss": 1.8078,
+      "step": 3160
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 0.0,
+      "loss": 1.8625,
+      "step": 3180
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 0.0,
+      "loss": 1.7874,
+      "step": 3200
+    },
+    {
+      "epoch": 1.06,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11966.566,
+      "eval_samples_per_second": 1.117,
+      "eval_steps_per_second": 0.14,
+      "step": 3200
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 0.0,
+      "loss": 1.7956,
+      "step": 3220
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 0.0,
+      "loss": 1.7517,
+      "step": 3240
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 0.0,
+      "loss": 1.7861,
+      "step": 3260
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 0.0,
+      "loss": 1.7957,
+      "step": 3280
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 0.0,
+      "loss": 1.8147,
+      "step": 3300
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 0.0,
+      "loss": 1.7795,
+      "step": 3320
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 0.0,
+      "loss": 1.7532,
+      "step": 3340
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 0.0,
+      "loss": 1.8414,
+      "step": 3360
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 0.0,
+      "loss": 1.771,
+      "step": 3380
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 0.0,
+      "loss": 1.8119,
+      "step": 3400
+    },
+    {
+      "epoch": 1.13,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11954.7549,
+      "eval_samples_per_second": 1.118,
+      "eval_steps_per_second": 0.14,
+      "step": 3400
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 0.0,
+      "loss": 1.7944,
+      "step": 3420
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 0.0,
+      "loss": 1.7855,
+      "step": 3440
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 0.0,
+      "loss": 1.8574,
+      "step": 3460
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 0.0,
+      "loss": 1.8189,
+      "step": 3480
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 0.0,
+      "loss": 1.8033,
+      "step": 3500
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 0.0,
+      "loss": 1.7689,
+      "step": 3520
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 0.0,
+      "loss": 1.8455,
+      "step": 3540
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 0.0,
+      "loss": 1.8255,
+      "step": 3560
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 0.0,
+      "loss": 1.8431,
+      "step": 3580
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 0.0,
+      "loss": 1.7924,
+      "step": 3600
+    },
+    {
+      "epoch": 1.19,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11953.5885,
+      "eval_samples_per_second": 1.118,
+      "eval_steps_per_second": 0.14,
+      "step": 3600
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 0.0,
+      "loss": 1.8475,
+      "step": 3620
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 0.0,
+      "loss": 1.6746,
+      "step": 3640
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 0.0,
+      "loss": 1.8006,
+      "step": 3660
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 0.0,
+      "loss": 1.816,
+      "step": 3680
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 0.0,
+      "loss": 1.7486,
+      "step": 3700
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 0.0,
+      "loss": 1.8086,
+      "step": 3720
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 0.0,
+      "loss": 1.8241,
+      "step": 3740
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 0.0,
+      "loss": 1.823,
+      "step": 3760
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 0.0,
+      "loss": 1.7365,
+      "step": 3780
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 0.0,
+      "loss": 1.801,
+      "step": 3800
+    },
+    {
+      "epoch": 1.26,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11952.013,
+      "eval_samples_per_second": 1.118,
+      "eval_steps_per_second": 0.14,
+      "step": 3800
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 0.0,
+      "loss": 1.8497,
+      "step": 3820
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 0.0,
+      "loss": 1.7803,
+      "step": 3840
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 0.0,
+      "loss": 1.6921,
+      "step": 3860
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 0.0,
+      "loss": 1.8508,
+      "step": 3880
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 0.0,
+      "loss": 1.8816,
+      "step": 3900
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 0.0,
+      "loss": 1.8105,
+      "step": 3920
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 0.0,
+      "loss": 1.8477,
+      "step": 3940
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 0.0,
+      "loss": 1.841,
+      "step": 3960
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 0.0,
+      "loss": 1.7599,
+      "step": 3980
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 0.0,
+      "loss": 1.7074,
+      "step": 4000
+    },
+    {
+      "epoch": 1.33,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11952.3623,
+      "eval_samples_per_second": 1.118,
+      "eval_steps_per_second": 0.14,
+      "step": 4000
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 0.0,
+      "loss": 1.7529,
+      "step": 4020
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 0.0,
+      "loss": 1.8928,
+      "step": 4040
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 0.0,
+      "loss": 1.8585,
+      "step": 4060
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 0.0,
+      "loss": 1.8279,
+      "step": 4080
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 0.0,
+      "loss": 1.7949,
+      "step": 4100
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 0.0,
+      "loss": 1.8488,
+      "step": 4120
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 0.0,
+      "loss": 1.7572,
+      "step": 4140
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 0.0,
+      "loss": 1.7533,
+      "step": 4160
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 0.0,
+      "loss": 1.772,
+      "step": 4180
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 0.0,
+      "loss": 1.8338,
+      "step": 4200
+    },
+    {
+      "epoch": 1.39,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11954.2113,
+      "eval_samples_per_second": 1.118,
+      "eval_steps_per_second": 0.14,
+      "step": 4200
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 0.0,
+      "loss": 1.8084,
+      "step": 4220
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 0.0,
+      "loss": 1.8791,
+      "step": 4240
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 0.0,
+      "loss": 1.7906,
+      "step": 4260
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 0.0,
+      "loss": 1.8669,
+      "step": 4280
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 0.0,
+      "loss": 1.8108,
+      "step": 4300
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 0.0,
+      "loss": 1.7769,
+      "step": 4320
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 0.0,
+      "loss": 1.7599,
+      "step": 4340
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 0.0,
+      "loss": 1.843,
+      "step": 4360
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 0.0,
+      "loss": 1.8608,
+      "step": 4380
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 0.0,
+      "loss": 1.8382,
+      "step": 4400
+    },
+    {
+      "epoch": 1.46,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11958.7166,
+      "eval_samples_per_second": 1.118,
+      "eval_steps_per_second": 0.14,
+      "step": 4400
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 0.0,
+      "loss": 1.8002,
+      "step": 4420
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 0.0,
+      "loss": 1.8292,
+      "step": 4440
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 0.0,
+      "loss": 1.8184,
+      "step": 4460
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 0.0,
+      "loss": 1.7712,
+      "step": 4480
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 0.0,
+      "loss": 1.8307,
+      "step": 4500
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 0.0,
+      "loss": 1.7883,
+      "step": 4520
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 0.0,
+      "loss": 1.8106,
+      "step": 4540
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 0.0,
+      "loss": 1.7999,
+      "step": 4560
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 0.0,
+      "loss": 1.8353,
+      "step": 4580
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 0.0,
+      "loss": 1.8366,
+      "step": 4600
+    },
+    {
+      "epoch": 1.53,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11971.0491,
+      "eval_samples_per_second": 1.117,
+      "eval_steps_per_second": 0.14,
+      "step": 4600
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 0.0,
+      "loss": 1.8018,
+      "step": 4620
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 0.0,
+      "loss": 1.84,
+      "step": 4640
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 0.0,
+      "loss": 1.7784,
+      "step": 4660
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 0.0,
+      "loss": 1.794,
+      "step": 4680
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 0.0,
+      "loss": 1.8237,
+      "step": 4700
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 0.0,
+      "loss": 1.7697,
+      "step": 4720
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 0.0,
+      "loss": 1.8482,
+      "step": 4740
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 0.0,
+      "loss": 1.8008,
+      "step": 4760
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 0.0,
+      "loss": 1.8082,
+      "step": 4780
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 0.0,
+      "loss": 1.7799,
+      "step": 4800
+    },
+    {
+      "epoch": 1.59,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11955.9821,
+      "eval_samples_per_second": 1.118,
+      "eval_steps_per_second": 0.14,
+      "step": 4800
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 0.0,
+      "loss": 1.8339,
+      "step": 4820
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 0.0,
+      "loss": 1.8072,
+      "step": 4840
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 0.0,
+      "loss": 1.8024,
+      "step": 4860
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 0.0,
+      "loss": 1.8609,
+      "step": 4880
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 0.0,
+      "loss": 1.8769,
+      "step": 4900
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 0.0,
+      "loss": 1.808,
+      "step": 4920
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 0.0,
+      "loss": 1.8482,
+      "step": 4940
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 0.0,
+      "loss": 1.8116,
+      "step": 4960
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 0.0,
+      "loss": 1.7922,
+      "step": 4980
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 0.0,
+      "loss": 1.8409,
+      "step": 5000
+    },
+    {
+      "epoch": 1.66,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11953.6568,
+      "eval_samples_per_second": 1.118,
+      "eval_steps_per_second": 0.14,
+      "step": 5000
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 0.0,
+      "loss": 1.867,
+      "step": 5020
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 0.0,
+      "loss": 1.8902,
+      "step": 5040
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 0.0,
+      "loss": 1.8835,
+      "step": 5060
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 0.0,
+      "loss": 1.741,
+      "step": 5080
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 0.0,
+      "loss": 1.7543,
+      "step": 5100
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 0.0,
+      "loss": 1.7913,
+      "step": 5120
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 0.0,
+      "loss": 1.829,
+      "step": 5140
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 0.0,
+      "loss": 1.7915,
+      "step": 5160
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 0.0,
+      "loss": 1.767,
+      "step": 5180
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 0.0,
+      "loss": 1.7809,
+      "step": 5200
+    },
+    {
+      "epoch": 1.72,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11951.295,
+      "eval_samples_per_second": 1.119,
+      "eval_steps_per_second": 0.14,
+      "step": 5200
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 0.0,
+      "loss": 1.8715,
+      "step": 5220
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 0.0,
+      "loss": 1.8517,
+      "step": 5240
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 0.0,
+      "loss": 1.8255,
+      "step": 5260
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 0.0,
+      "loss": 1.7973,
+      "step": 5280
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 0.0,
+      "loss": 1.7912,
+      "step": 5300
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 0.0,
+      "loss": 1.8331,
+      "step": 5320
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 0.0,
+      "loss": 1.835,
+      "step": 5340
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 0.0,
+      "loss": 1.8051,
+      "step": 5360
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 0.0,
+      "loss": 1.8007,
+      "step": 5380
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 0.0,
+      "loss": 1.8069,
+      "step": 5400
+    },
+    {
+      "epoch": 1.79,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11948.5086,
+      "eval_samples_per_second": 1.119,
+      "eval_steps_per_second": 0.14,
+      "step": 5400
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 0.0,
+      "loss": 1.784,
+      "step": 5420
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 0.0,
+      "loss": 1.7557,
+      "step": 5440
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 0.0,
+      "loss": 1.8011,
+      "step": 5460
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 0.0,
+      "loss": 1.8392,
+      "step": 5480
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 0.0,
+      "loss": 1.7507,
+      "step": 5500
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 0.0,
+      "loss": 1.8043,
+      "step": 5520
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 0.0,
+      "loss": 1.7804,
+      "step": 5540
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 0.0,
+      "loss": 1.811,
+      "step": 5560
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 0.0,
+      "loss": 1.806,
+      "step": 5580
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 0.0,
+      "loss": 1.8103,
+      "step": 5600
+    },
+    {
+      "epoch": 1.86,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11953.5582,
+      "eval_samples_per_second": 1.118,
+      "eval_steps_per_second": 0.14,
+      "step": 5600
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 0.0,
+      "loss": 1.7947,
+      "step": 5620
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 0.0,
+      "loss": 1.8062,
+      "step": 5640
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 0.0,
+      "loss": 1.7997,
+      "step": 5660
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 0.0,
+      "loss": 1.843,
+      "step": 5680
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 0.0,
+      "loss": 1.848,
+      "step": 5700
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 0.0,
+      "loss": 1.8393,
+      "step": 5720
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 0.0,
+      "loss": 1.8187,
+      "step": 5740
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 0.0,
+      "loss": 1.802,
+      "step": 5760
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 0.0,
+      "loss": 1.7646,
+      "step": 5780
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 0.0,
+      "loss": 1.7993,
+      "step": 5800
+    },
+    {
+      "epoch": 1.92,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11953.0956,
+      "eval_samples_per_second": 1.118,
+      "eval_steps_per_second": 0.14,
+      "step": 5800
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 0.0,
+      "loss": 1.7962,
+      "step": 5820
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 0.0,
+      "loss": 1.849,
+      "step": 5840
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 0.0,
+      "loss": 1.8254,
+      "step": 5860
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 0.0,
+      "loss": 1.8583,
+      "step": 5880
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 0.0,
+      "loss": 1.8398,
+      "step": 5900
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 0.0,
+      "loss": 1.7306,
+      "step": 5920
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 0.0,
+      "loss": 1.81,
+      "step": 5940
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 0.0,
+      "loss": 1.7762,
+      "step": 5960
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 0.0,
+      "loss": 1.8549,
+      "step": 5980
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 0.0,
+      "loss": 1.84,
+      "step": 6000
+    },
+    {
+      "epoch": 1.99,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11950.3766,
+      "eval_samples_per_second": 1.119,
+      "eval_steps_per_second": 0.14,
+      "step": 6000
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 0.0,
+      "loss": 1.7897,
+      "step": 6020
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 0.0,
+      "loss": 1.7844,
+      "step": 6040
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 0.0,
+      "loss": 1.8453,
+      "step": 6060
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 0.0,
+      "loss": 1.8268,
+      "step": 6080
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 0.0,
+      "loss": 1.7932,
+      "step": 6100
+    },
+    {
+      "epoch": 2.03,
+      "learning_rate": 0.0,
+      "loss": 1.8005,
+      "step": 6120
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 0.0,
+      "loss": 1.773,
+      "step": 6140
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 0.0,
+      "loss": 1.8029,
+      "step": 6160
+    },
+    {
+      "epoch": 2.05,
+      "learning_rate": 0.0,
+      "loss": 1.8283,
+      "step": 6180
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 0.0,
+      "loss": 1.8167,
+      "step": 6200
+    },
+    {
+      "epoch": 2.06,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11950.9199,
+      "eval_samples_per_second": 1.119,
+      "eval_steps_per_second": 0.14,
+      "step": 6200
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 0.0,
+      "loss": 1.8465,
+      "step": 6220
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 0.0,
+      "loss": 1.8747,
+      "step": 6240
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 0.0,
+      "loss": 1.8031,
+      "step": 6260
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 0.0,
+      "loss": 1.8366,
+      "step": 6280
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 0.0,
+      "loss": 1.7998,
+      "step": 6300
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 0.0,
+      "loss": 1.8143,
+      "step": 6320
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 0.0,
+      "loss": 1.8586,
+      "step": 6340
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 0.0,
+      "loss": 1.836,
+      "step": 6360
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 0.0,
+      "loss": 1.863,
+      "step": 6380
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 0.0,
+      "loss": 1.7667,
+      "step": 6400
+    },
+    {
+      "epoch": 2.12,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11949.7143,
+      "eval_samples_per_second": 1.119,
+      "eval_steps_per_second": 0.14,
+      "step": 6400
+    },
+    {
+      "epoch": 2.13,
+      "learning_rate": 0.0,
+      "loss": 1.8187,
+      "step": 6420
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 0.0,
+      "loss": 1.7883,
+      "step": 6440
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 0.0,
+      "loss": 1.9299,
+      "step": 6460
+    },
+    {
+      "epoch": 2.15,
+      "learning_rate": 0.0,
+      "loss": 1.8286,
+      "step": 6480
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 0.0,
+      "loss": 1.8181,
+      "step": 6500
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 0.0,
+      "loss": 1.7856,
+      "step": 6520
+    },
+    {
+      "epoch": 2.17,
+      "learning_rate": 0.0,
+      "loss": 1.7192,
+      "step": 6540
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 0.0,
+      "loss": 1.7715,
+      "step": 6560
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 0.0,
+      "loss": 1.8359,
+      "step": 6580
+    },
+    {
+      "epoch": 2.19,
+      "learning_rate": 0.0,
+      "loss": 1.7989,
+      "step": 6600
+    },
+    {
+      "epoch": 2.19,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11949.8024,
+      "eval_samples_per_second": 1.119,
+      "eval_steps_per_second": 0.14,
+      "step": 6600
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 0.0,
+      "loss": 1.7869,
+      "step": 6620
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 0.0,
+      "loss": 1.7855,
+      "step": 6640
+    },
+    {
+      "epoch": 2.21,
+      "learning_rate": 0.0,
+      "loss": 1.8312,
+      "step": 6660
+    },
+    {
+      "epoch": 2.22,
+      "learning_rate": 0.0,
+      "loss": 1.7717,
+      "step": 6680
+    },
+    {
+      "epoch": 2.22,
+      "learning_rate": 0.0,
+      "loss": 1.7621,
+      "step": 6700
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 0.0,
+      "loss": 1.8031,
+      "step": 6720
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 0.0,
+      "loss": 1.8061,
+      "step": 6740
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 0.0,
+      "loss": 1.8063,
+      "step": 6760
+    },
+    {
+      "epoch": 2.25,
+      "learning_rate": 0.0,
+      "loss": 1.7469,
+      "step": 6780
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 0.0,
+      "loss": 1.7543,
+      "step": 6800
+    },
+    {
+      "epoch": 2.26,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11954.2042,
+      "eval_samples_per_second": 1.118,
+      "eval_steps_per_second": 0.14,
+      "step": 6800
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 0.0,
+      "loss": 1.8659,
+      "step": 6820
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 0.0,
+      "loss": 1.7935,
+      "step": 6840
+    },
+    {
+      "epoch": 2.28,
+      "learning_rate": 0.0,
+      "loss": 1.8247,
+      "step": 6860
+    },
+    {
+      "epoch": 2.28,
+      "learning_rate": 0.0,
+      "loss": 1.8339,
+      "step": 6880
+    },
+    {
+      "epoch": 2.29,
+      "learning_rate": 0.0,
+      "loss": 1.8419,
+      "step": 6900
+    },
+    {
+      "epoch": 2.3,
+      "learning_rate": 0.0,
+      "loss": 1.7978,
+      "step": 6920
+    },
+    {
+      "epoch": 2.3,
+      "learning_rate": 0.0,
+      "loss": 1.8048,
+      "step": 6940
+    },
+    {
+      "epoch": 2.31,
+      "learning_rate": 0.0,
+      "loss": 1.8523,
+      "step": 6960
+    },
+    {
+      "epoch": 2.32,
+      "learning_rate": 0.0,
+      "loss": 1.7875,
+      "step": 6980
+    },
+    {
+      "epoch": 2.32,
+      "learning_rate": 0.0,
+      "loss": 1.8262,
+      "step": 7000
+    },
+    {
+      "epoch": 2.32,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11967.8262,
+      "eval_samples_per_second": 1.117,
+      "eval_steps_per_second": 0.14,
+      "step": 7000
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 0.0,
+      "loss": 1.8661,
+      "step": 7020
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 0.0,
+      "loss": 1.8136,
+      "step": 7040
+    },
+    {
+      "epoch": 2.34,
+      "learning_rate": 0.0,
+      "loss": 1.8066,
+      "step": 7060
+    },
+    {
+      "epoch": 2.35,
+      "learning_rate": 0.0,
+      "loss": 1.8355,
+      "step": 7080
+    },
+    {
+      "epoch": 2.35,
+      "learning_rate": 0.0,
+      "loss": 1.7598,
+      "step": 7100
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 0.0,
+      "loss": 1.8384,
+      "step": 7120
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 0.0,
+      "loss": 1.7768,
+      "step": 7140
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 0.0,
+      "loss": 1.8371,
+      "step": 7160
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 0.0,
+      "loss": 1.7989,
+      "step": 7180
+    },
+    {
+      "epoch": 2.39,
+      "learning_rate": 0.0,
+      "loss": 1.8204,
+      "step": 7200
+    },
+    {
+      "epoch": 2.39,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11959.9088,
+      "eval_samples_per_second": 1.118,
+      "eval_steps_per_second": 0.14,
+      "step": 7200
+    },
+    {
+      "epoch": 2.39,
+      "learning_rate": 0.0,
+      "loss": 1.8632,
+      "step": 7220
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 0.0,
+      "loss": 1.838,
+      "step": 7240
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 0.0,
+      "loss": 1.8492,
+      "step": 7260
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 0.0,
+      "loss": 1.8213,
+      "step": 7280
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 0.0,
+      "loss": 1.7367,
+      "step": 7300
+    },
+    {
+      "epoch": 2.43,
+      "learning_rate": 0.0,
+      "loss": 1.9046,
+      "step": 7320
+    },
+    {
+      "epoch": 2.43,
+      "learning_rate": 0.0,
+      "loss": 1.7799,
+      "step": 7340
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 0.0,
+      "loss": 1.793,
+      "step": 7360
+    },
+    {
+      "epoch": 2.45,
+      "learning_rate": 0.0,
+      "loss": 1.7864,
+      "step": 7380
+    },
+    {
+      "epoch": 2.45,
+      "learning_rate": 0.0,
+      "loss": 1.8071,
+      "step": 7400
+    },
+    {
+      "epoch": 2.45,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11949.9374,
+      "eval_samples_per_second": 1.119,
+      "eval_steps_per_second": 0.14,
+      "step": 7400
+    },
+    {
+      "epoch": 2.46,
+      "learning_rate": 0.0,
+      "loss": 1.7708,
+      "step": 7420
+    },
+    {
+      "epoch": 2.47,
+      "learning_rate": 0.0,
+      "loss": 1.8234,
+      "step": 7440
+    },
+    {
+      "epoch": 2.47,
+      "learning_rate": 0.0,
+      "loss": 1.8214,
+      "step": 7460
+    },
+    {
+      "epoch": 2.48,
+      "learning_rate": 0.0,
+      "loss": 1.8468,
+      "step": 7480
+    },
+    {
+      "epoch": 2.49,
+      "learning_rate": 0.0,
+      "loss": 1.784,
+      "step": 7500
+    },
+    {
+      "epoch": 2.49,
+      "learning_rate": 0.0,
+      "loss": 1.8571,
+      "step": 7520
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 0.0,
+      "loss": 1.7871,
+      "step": 7540
+    },
+    {
+      "epoch": 2.51,
+      "learning_rate": 0.0,
+      "loss": 1.7819,
+      "step": 7560
+    },
+    {
+      "epoch": 2.51,
+      "learning_rate": 0.0,
+      "loss": 1.8035,
+      "step": 7580
+    },
+    {
+      "epoch": 2.52,
+      "learning_rate": 0.0,
+      "loss": 1.801,
+      "step": 7600
+    },
+    {
+      "epoch": 2.52,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11949.3183,
+      "eval_samples_per_second": 1.119,
+      "eval_steps_per_second": 0.14,
+      "step": 7600
+    },
+    {
+      "epoch": 2.53,
+      "learning_rate": 0.0,
+      "loss": 1.8302,
+      "step": 7620
+    },
+    {
+      "epoch": 2.53,
+      "learning_rate": 0.0,
+      "loss": 1.8208,
+      "step": 7640
+    },
+    {
+      "epoch": 2.54,
+      "learning_rate": 0.0,
+      "loss": 1.917,
+      "step": 7660
+    },
+    {
+      "epoch": 2.55,
+      "learning_rate": 0.0,
+      "loss": 1.8184,
+      "step": 7680
+    },
+    {
+      "epoch": 2.55,
+      "learning_rate": 0.0,
+      "loss": 1.7462,
+      "step": 7700
+    },
+    {
+      "epoch": 2.56,
+      "learning_rate": 0.0,
+      "loss": 1.7699,
+      "step": 7720
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 0.0,
+      "loss": 1.8377,
+      "step": 7740
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 0.0,
+      "loss": 1.7713,
+      "step": 7760
+    },
+    {
+      "epoch": 2.58,
+      "learning_rate": 0.0,
+      "loss": 1.798,
+      "step": 7780
+    },
+    {
+      "epoch": 2.59,
+      "learning_rate": 0.0,
+      "loss": 1.8425,
+      "step": 7800
+    },
+    {
+      "epoch": 2.59,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11947.7265,
+      "eval_samples_per_second": 1.119,
+      "eval_steps_per_second": 0.14,
+      "step": 7800
+    },
+    {
+      "epoch": 2.59,
+      "learning_rate": 0.0,
+      "loss": 1.7816,
+      "step": 7820
+    },
+    {
+      "epoch": 2.6,
+      "learning_rate": 0.0,
+      "loss": 1.8193,
+      "step": 7840
+    },
+    {
+      "epoch": 2.61,
+      "learning_rate": 0.0,
+      "loss": 1.8044,
+      "step": 7860
+    },
+    {
+      "epoch": 2.61,
+      "learning_rate": 0.0,
+      "loss": 1.7937,
+      "step": 7880
+    },
+    {
+      "epoch": 2.62,
+      "learning_rate": 0.0,
+      "loss": 1.8224,
+      "step": 7900
+    },
+    {
+      "epoch": 2.63,
+      "learning_rate": 0.0,
+      "loss": 1.7937,
+      "step": 7920
+    },
+    {
+      "epoch": 2.63,
+      "learning_rate": 0.0,
+      "loss": 1.7988,
+      "step": 7940
+    },
+    {
+      "epoch": 2.64,
+      "learning_rate": 0.0,
+      "loss": 1.8622,
+      "step": 7960
+    },
+    {
+      "epoch": 2.65,
+      "learning_rate": 0.0,
+      "loss": 1.8407,
+      "step": 7980
+    },
+    {
+      "epoch": 2.65,
+      "learning_rate": 0.0,
+      "loss": 1.7578,
+      "step": 8000
+    },
+    {
+      "epoch": 2.65,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11948.4274,
+      "eval_samples_per_second": 1.119,
+      "eval_steps_per_second": 0.14,
+      "step": 8000
+    },
+    {
+      "epoch": 2.66,
+      "learning_rate": 0.0,
+      "loss": 1.789,
+      "step": 8020
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 0.0,
+      "loss": 1.7939,
+      "step": 8040
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 0.0,
+      "loss": 1.7694,
+      "step": 8060
+    },
+    {
+      "epoch": 2.68,
+      "learning_rate": 0.0,
+      "loss": 1.7917,
+      "step": 8080
+    },
+    {
+      "epoch": 2.69,
+      "learning_rate": 0.0,
+      "loss": 1.7737,
+      "step": 8100
+    },
+    {
+      "epoch": 2.69,
+      "learning_rate": 0.0,
+      "loss": 1.8049,
+      "step": 8120
+    },
+    {
+      "epoch": 2.7,
+      "learning_rate": 0.0,
+      "loss": 1.8419,
+      "step": 8140
+    },
+    {
+      "epoch": 2.71,
+      "learning_rate": 0.0,
+      "loss": 1.7835,
+      "step": 8160
+    },
+    {
+      "epoch": 2.71,
+      "learning_rate": 0.0,
+      "loss": 1.7898,
+      "step": 8180
+    },
+    {
+      "epoch": 2.72,
+      "learning_rate": 0.0,
+      "loss": 1.7798,
+      "step": 8200
+    },
+    {
+      "epoch": 2.72,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11959.3563,
+      "eval_samples_per_second": 1.118,
+      "eval_steps_per_second": 0.14,
+      "step": 8200
+    },
+    {
+      "epoch": 2.73,
+      "learning_rate": 0.0,
+      "loss": 1.7904,
+      "step": 8220
+    },
+    {
+      "epoch": 2.73,
+      "learning_rate": 0.0,
+      "loss": 1.8054,
+      "step": 8240
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 0.0,
+      "loss": 1.8316,
+      "step": 8260
+    },
+    {
+      "epoch": 2.75,
+      "learning_rate": 0.0,
+      "loss": 1.8059,
+      "step": 8280
+    },
+    {
+      "epoch": 2.75,
+      "learning_rate": 0.0,
+      "loss": 1.7908,
+      "step": 8300
+    },
+    {
+      "epoch": 2.76,
+      "learning_rate": 0.0,
+      "loss": 1.8092,
+      "step": 8320
+    },
+    {
+      "epoch": 2.77,
+      "learning_rate": 0.0,
+      "loss": 1.8954,
+      "step": 8340
+    },
+    {
+      "epoch": 2.77,
+      "learning_rate": 0.0,
+      "loss": 1.835,
+      "step": 8360
+    },
+    {
+      "epoch": 2.78,
+      "learning_rate": 0.0,
+      "loss": 1.8018,
+      "step": 8380
+    },
+    {
+      "epoch": 2.79,
+      "learning_rate": 0.0,
+      "loss": 1.8474,
+      "step": 8400
+    },
+    {
+      "epoch": 2.79,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11978.111,
+      "eval_samples_per_second": 1.116,
+      "eval_steps_per_second": 0.14,
+      "step": 8400
+    },
+    {
+      "epoch": 2.79,
+      "learning_rate": 0.0,
+      "loss": 1.7878,
+      "step": 8420
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 0.0,
+      "loss": 1.7629,
+      "step": 8440
+    },
+    {
+      "epoch": 2.81,
+      "learning_rate": 0.0,
+      "loss": 1.8068,
+      "step": 8460
+    },
+    {
+      "epoch": 2.81,
+      "learning_rate": 0.0,
+      "loss": 1.7907,
+      "step": 8480
+    },
+    {
+      "epoch": 2.82,
+      "learning_rate": 0.0,
+      "loss": 1.7598,
+      "step": 8500
+    },
+    {
+      "epoch": 2.83,
+      "learning_rate": 0.0,
+      "loss": 1.7964,
+      "step": 8520
+    },
+    {
+      "epoch": 2.83,
+      "learning_rate": 0.0,
+      "loss": 1.7951,
+      "step": 8540
+    },
+    {
+      "epoch": 2.84,
+      "learning_rate": 0.0,
+      "loss": 1.7962,
+      "step": 8560
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 0.0,
+      "loss": 1.7908,
+      "step": 8580
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 0.0,
+      "loss": 1.7525,
+      "step": 8600
+    },
+    {
+      "epoch": 2.85,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11977.8941,
+      "eval_samples_per_second": 1.116,
+      "eval_steps_per_second": 0.14,
+      "step": 8600
+    },
+    {
+      "epoch": 2.86,
+      "learning_rate": 0.0,
+      "loss": 1.7268,
+      "step": 8620
+    },
+    {
+      "epoch": 2.87,
+      "learning_rate": 0.0,
+      "loss": 1.7716,
+      "step": 8640
+    },
+    {
+      "epoch": 2.87,
+      "learning_rate": 0.0,
+      "loss": 1.8214,
+      "step": 8660
+    },
+    {
+      "epoch": 2.88,
+      "learning_rate": 0.0,
+      "loss": 1.8116,
+      "step": 8680
+    },
+    {
+      "epoch": 2.89,
+      "learning_rate": 0.0,
+      "loss": 1.8204,
+      "step": 8700
+    },
+    {
+      "epoch": 2.89,
+      "learning_rate": 0.0,
+      "loss": 1.7878,
+      "step": 8720
+    },
+    {
+      "epoch": 2.9,
+      "learning_rate": 0.0,
+      "loss": 1.8828,
+      "step": 8740
+    },
+    {
+      "epoch": 2.91,
+      "learning_rate": 0.0,
+      "loss": 1.8015,
+      "step": 8760
+    },
+    {
+      "epoch": 2.91,
+      "learning_rate": 0.0,
+      "loss": 1.7989,
+      "step": 8780
+    },
+    {
+      "epoch": 2.92,
+      "learning_rate": 0.0,
+      "loss": 1.7467,
+      "step": 8800
+    },
+    {
+      "epoch": 2.92,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11960.8065,
+      "eval_samples_per_second": 1.118,
+      "eval_steps_per_second": 0.14,
+      "step": 8800
+    }
+  ],
+  "max_steps": 9045,
+  "num_train_epochs": 3,
+  "total_flos": 5.4879340491679334e+17,
+  "trial_name": null,
+  "trial_params": null
+}

redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-8800/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f5a78612ea8930d68eba4cb53d62254ccf547582e754aa049d169c3c11dd5fe4
+size 4027

redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-9000/adapter_config.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+  "base_model_name_or_path": "/domino/edv/afs-mrmc-data-store-rw/innovation/hf/RedPajama-INCITE-7B-Base",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "lora_alpha": 16,
+  "lora_dropout": 0.05,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "target_modules": [
+    "query_key_value"
+  ],
+  "task_type": "CAUSAL_LM"
+}

redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-9000/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:36c95157caaa0e8a49516175a38f9e3dfad6634df6c2d7fc47b2e3298cf4d68e
+size 16800753

redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-9000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a3c62c46fbec701f73b9c0d2af49122155f2c1654a0d513a7842e367f0516218
+size 33592261

redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-9000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2d6e839a14f185d11ef5c6540bd37eb7bad7288947ab9f31a50d914db4272e23
+size 14575

redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-9000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:471be078058bbf990ff963153250176cf0c4eef4d5abd363e271020185c5758c
+size 627

redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-9000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,3076 @@

+{
+  "best_metric": 1.9635850191116333,
+  "best_model_checkpoint": "./results/redpj7B-lora-cnn-dailymail-results_fine_tune_test/checkpoint-600",
+  "epoch": 2.9850746268656714,
+  "global_step": 9000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.00027082228116710874,
+      "loss": 1.8654,
+      "step": 20
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0002681697612732095,
+      "loss": 1.8124,
+      "step": 40
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0002655172413793103,
+      "loss": 1.8231,
+      "step": 60
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0002628647214854111,
+      "loss": 1.7818,
+      "step": 80
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.00026021220159151194,
+      "loss": 1.8446,
+      "step": 100
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0002575596816976127,
+      "loss": 1.9001,
+      "step": 120
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0002549071618037135,
+      "loss": 1.8073,
+      "step": 140
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0002522546419098143,
+      "loss": 1.8506,
+      "step": 160
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0002496021220159151,
+      "loss": 1.8471,
+      "step": 180
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0002469496021220159,
+      "loss": 1.8647,
+      "step": 200
+    },
+    {
+      "epoch": 0.07,
+      "eval_loss": 1.966022253036499,
+      "eval_runtime": 12002.3952,
+      "eval_samples_per_second": 1.114,
+      "eval_steps_per_second": 0.139,
+      "step": 200
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.00024429708222811666,
+      "loss": 1.8578,
+      "step": 220
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0002416445623342175,
+      "loss": 1.8329,
+      "step": 240
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0002389920424403183,
+      "loss": 1.8119,
+      "step": 260
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0002363395225464191,
+      "loss": 1.8884,
+      "step": 280
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.00023368700265251986,
+      "loss": 1.9077,
+      "step": 300
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00023103448275862065,
+      "loss": 1.8092,
+      "step": 320
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00022838196286472146,
+      "loss": 1.9237,
+      "step": 340
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00022572944297082225,
+      "loss": 1.8701,
+      "step": 360
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00022307692307692306,
+      "loss": 1.8933,
+      "step": 380
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00022042440318302385,
+      "loss": 1.8453,
+      "step": 400
+    },
+    {
+      "epoch": 0.13,
+      "eval_loss": 1.9667036533355713,
+      "eval_runtime": 11991.8036,
+      "eval_samples_per_second": 1.115,
+      "eval_steps_per_second": 0.139,
+      "step": 400
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00021777188328912466,
+      "loss": 1.8272,
+      "step": 420
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.00021511936339522545,
+      "loss": 1.8149,
+      "step": 440
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.00021246684350132626,
+      "loss": 1.8565,
+      "step": 460
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.00020981432360742705,
+      "loss": 1.8139,
+      "step": 480
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0002071618037135278,
+      "loss": 1.802,
+      "step": 500
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.00020450928381962862,
+      "loss": 1.8795,
+      "step": 520
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0002018567639257294,
+      "loss": 1.8621,
+      "step": 540
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.00019920424403183022,
+      "loss": 1.8363,
+      "step": 560
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.000196551724137931,
+      "loss": 1.8746,
+      "step": 580
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00019389920424403182,
+      "loss": 1.7763,
+      "step": 600
+    },
+    {
+      "epoch": 0.2,
+      "eval_loss": 1.9635850191116333,
+      "eval_runtime": 11976.5234,
+      "eval_samples_per_second": 1.116,
+      "eval_steps_per_second": 0.14,
+      "step": 600
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0001912466843501326,
+      "loss": 1.8423,
+      "step": 620
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.00018859416445623343,
+      "loss": 1.8998,
+      "step": 640
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0001859416445623342,
+      "loss": 1.8131,
+      "step": 660
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.00018328912466843497,
+      "loss": 1.8656,
+      "step": 680
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.00018063660477453579,
+      "loss": 1.8181,
+      "step": 700
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00017798408488063657,
+      "loss": 1.8425,
+      "step": 720
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.00017533156498673739,
+      "loss": 1.7883,
+      "step": 740
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.00017267904509283817,
+      "loss": 1.8469,
+      "step": 760
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.000170026525198939,
+      "loss": 1.8447,
+      "step": 780
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.00016737400530503977,
+      "loss": 1.7872,
+      "step": 800
+    },
+    {
+      "epoch": 0.27,
+      "eval_loss": 1.9704641103744507,
+      "eval_runtime": 11963.7945,
+      "eval_samples_per_second": 1.117,
+      "eval_steps_per_second": 0.14,
+      "step": 800
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0001647214854111406,
+      "loss": 1.8032,
+      "step": 820
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00016206896551724137,
+      "loss": 1.8709,
+      "step": 840
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.00015941644562334216,
+      "loss": 1.8801,
+      "step": 860
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.00015676392572944298,
+      "loss": 1.8535,
+      "step": 880
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00015411140583554373,
+      "loss": 1.8631,
+      "step": 900
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.00015145888594164455,
+      "loss": 1.752,
+      "step": 920
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.00014880636604774534,
+      "loss": 1.8705,
+      "step": 940
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.00014615384615384615,
+      "loss": 1.8301,
+      "step": 960
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.00014350132625994694,
+      "loss": 1.7892,
+      "step": 980
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.00014084880636604772,
+      "loss": 1.8671,
+      "step": 1000
+    },
+    {
+      "epoch": 0.33,
+      "eval_loss": 1.9677250385284424,
+      "eval_runtime": 11951.074,
+      "eval_samples_per_second": 1.119,
+      "eval_steps_per_second": 0.14,
+      "step": 1000
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.00013819628647214854,
+      "loss": 1.8168,
+      "step": 1020
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.00013554376657824932,
+      "loss": 1.8268,
+      "step": 1040
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.00013289124668435014,
+      "loss": 1.8073,
+      "step": 1060
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0001302387267904509,
+      "loss": 1.9313,
+      "step": 1080
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0001275862068965517,
+      "loss": 1.9097,
+      "step": 1100
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0001249336870026525,
+      "loss": 1.9032,
+      "step": 1120
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.0001222811671087533,
+      "loss": 1.8207,
+      "step": 1140
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.0001196286472148541,
+      "loss": 1.8815,
+      "step": 1160
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0001169761273209549,
+      "loss": 1.8297,
+      "step": 1180
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0001143236074270557,
+      "loss": 1.8899,
+      "step": 1200
+    },
+    {
+      "epoch": 0.4,
+      "eval_loss": 1.9722812175750732,
+      "eval_runtime": 11951.1639,
+      "eval_samples_per_second": 1.119,
+      "eval_steps_per_second": 0.14,
+      "step": 1200
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0001116710875331565,
+      "loss": 1.8803,
+      "step": 1220
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00010901856763925729,
+      "loss": 1.8548,
+      "step": 1240
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.00010636604774535807,
+      "loss": 1.8498,
+      "step": 1260
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.00010371352785145887,
+      "loss": 1.8057,
+      "step": 1280
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00010106100795755967,
+      "loss": 1.8572,
+      "step": 1300
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 9.840848806366047e-05,
+      "loss": 1.8469,
+      "step": 1320
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 9.575596816976126e-05,
+      "loss": 1.8405,
+      "step": 1340
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 9.310344827586206e-05,
+      "loss": 1.8193,
+      "step": 1360
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 9.045092838196286e-05,
+      "loss": 1.7731,
+      "step": 1380
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 8.779840848806366e-05,
+      "loss": 1.8329,
+      "step": 1400
+    },
+    {
+      "epoch": 0.46,
+      "eval_loss": 1.9736511707305908,
+      "eval_runtime": 11956.5916,
+      "eval_samples_per_second": 1.118,
+      "eval_steps_per_second": 0.14,
+      "step": 1400
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 8.514588859416444e-05,
+      "loss": 1.8872,
+      "step": 1420
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 8.249336870026524e-05,
+      "loss": 1.8511,
+      "step": 1440
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 7.984084880636604e-05,
+      "loss": 1.7523,
+      "step": 1460
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 7.718832891246684e-05,
+      "loss": 1.8619,
+      "step": 1480
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 7.453580901856764e-05,
+      "loss": 1.8363,
+      "step": 1500
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 7.188328912466844e-05,
+      "loss": 1.7745,
+      "step": 1520
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 6.923076923076922e-05,
+      "loss": 1.8164,
+      "step": 1540
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 6.657824933687002e-05,
+      "loss": 1.7997,
+      "step": 1560
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 6.392572944297081e-05,
+      "loss": 1.8377,
+      "step": 1580
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 6.127320954907161e-05,
+      "loss": 1.851,
+      "step": 1600
+    },
+    {
+      "epoch": 0.53,
+      "eval_loss": 1.9729183912277222,
+      "eval_runtime": 11970.5767,
+      "eval_samples_per_second": 1.117,
+      "eval_steps_per_second": 0.14,
+      "step": 1600
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 5.862068965517241e-05,
+      "loss": 1.8382,
+      "step": 1620
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 5.59681697612732e-05,
+      "loss": 1.8863,
+      "step": 1640
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 5.3315649867374e-05,
+      "loss": 1.762,
+      "step": 1660
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 5.06631299734748e-05,
+      "loss": 1.822,
+      "step": 1680
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 4.801061007957559e-05,
+      "loss": 1.7776,
+      "step": 1700
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 4.5358090185676386e-05,
+      "loss": 1.809,
+      "step": 1720
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 4.2705570291777186e-05,
+      "loss": 1.912,
+      "step": 1740
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 4.005305039787798e-05,
+      "loss": 1.7557,
+      "step": 1760
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 3.7400530503978774e-05,
+      "loss": 1.8232,
+      "step": 1780
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 3.4748010610079574e-05,
+      "loss": 1.8613,
+      "step": 1800
+    },
+    {
+      "epoch": 0.6,
+      "eval_loss": 1.9704504013061523,
+      "eval_runtime": 11980.5334,
+      "eval_samples_per_second": 1.116,
+      "eval_steps_per_second": 0.139,
+      "step": 1800
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 3.209549071618037e-05,
+      "loss": 1.8378,
+      "step": 1820
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 2.9442970822281164e-05,
+      "loss": 1.8871,
+      "step": 1840
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 2.679045092838196e-05,
+      "loss": 1.8821,
+      "step": 1860
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 2.4137931034482755e-05,
+      "loss": 1.8487,
+      "step": 1880
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 2.1485411140583555e-05,
+      "loss": 1.8439,
+      "step": 1900
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 1.883289124668435e-05,
+      "loss": 1.8469,
+      "step": 1920
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 1.6180371352785142e-05,
+      "loss": 1.7797,
+      "step": 1940
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 1.352785145888594e-05,
+      "loss": 1.7795,
+      "step": 1960
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 1.0875331564986736e-05,
+      "loss": 1.8483,
+      "step": 1980
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 8.222811671087533e-06,
+      "loss": 1.8321,
+      "step": 2000
+    },
+    {
+      "epoch": 0.66,
+      "eval_loss": 1.9704707860946655,
+      "eval_runtime": 11964.4776,
+      "eval_samples_per_second": 1.117,
+      "eval_steps_per_second": 0.14,
+      "step": 2000
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 5.5702917771883284e-06,
+      "loss": 1.7708,
+      "step": 2020
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 2.9177718832891245e-06,
+      "loss": 1.8731,
+      "step": 2040
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 2.652519893899204e-07,
+      "loss": 1.8181,
+      "step": 2060
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.0,
+      "loss": 1.8692,
+      "step": 2080
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.0,
+      "loss": 1.8602,
+      "step": 2100
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.0,
+      "loss": 1.8891,
+      "step": 2120
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.0,
+      "loss": 1.8205,
+      "step": 2140
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.0,
+      "loss": 1.8242,
+      "step": 2160
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.0,
+      "loss": 1.8661,
+      "step": 2180
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.0,
+      "loss": 1.7982,
+      "step": 2200
+    },
+    {
+      "epoch": 0.73,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11950.1314,
+      "eval_samples_per_second": 1.119,
+      "eval_steps_per_second": 0.14,
+      "step": 2200
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.0,
+      "loss": 1.7967,
+      "step": 2220
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.0,
+      "loss": 1.8346,
+      "step": 2240
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.0,
+      "loss": 1.8242,
+      "step": 2260
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.0,
+      "loss": 1.8429,
+      "step": 2280
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.0,
+      "loss": 1.8795,
+      "step": 2300
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.0,
+      "loss": 1.8967,
+      "step": 2320
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.0,
+      "loss": 1.815,
+      "step": 2340
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.0,
+      "loss": 1.8165,
+      "step": 2360
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.0,
+      "loss": 1.838,
+      "step": 2380
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.0,
+      "loss": 1.7798,
+      "step": 2400
+    },
+    {
+      "epoch": 0.8,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11951.0888,
+      "eval_samples_per_second": 1.119,
+      "eval_steps_per_second": 0.14,
+      "step": 2400
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.0,
+      "loss": 1.7999,
+      "step": 2420
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.0,
+      "loss": 1.7957,
+      "step": 2440
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 0.0,
+      "loss": 1.8306,
+      "step": 2460
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 0.0,
+      "loss": 1.87,
+      "step": 2480
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 0.0,
+      "loss": 1.8046,
+      "step": 2500
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.0,
+      "loss": 1.76,
+      "step": 2520
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.0,
+      "loss": 1.869,
+      "step": 2540
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 0.0,
+      "loss": 1.8684,
+      "step": 2560
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 0.0,
+      "loss": 1.8757,
+      "step": 2580
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 0.0,
+      "loss": 1.868,
+      "step": 2600
+    },
+    {
+      "epoch": 0.86,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11952.488,
+      "eval_samples_per_second": 1.118,
+      "eval_steps_per_second": 0.14,
+      "step": 2600
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 0.0,
+      "loss": 1.8228,
+      "step": 2620
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 0.0,
+      "loss": 1.8721,
+      "step": 2640
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 0.0,
+      "loss": 1.8557,
+      "step": 2660
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 0.0,
+      "loss": 1.8545,
+      "step": 2680
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.0,
+      "loss": 1.8366,
+      "step": 2700
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.0,
+      "loss": 1.8381,
+      "step": 2720
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 0.0,
+      "loss": 1.8305,
+      "step": 2740
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.0,
+      "loss": 1.8162,
+      "step": 2760
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.0,
+      "loss": 1.8109,
+      "step": 2780
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 0.0,
+      "loss": 1.8694,
+      "step": 2800
+    },
+    {
+      "epoch": 0.93,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11969.9504,
+      "eval_samples_per_second": 1.117,
+      "eval_steps_per_second": 0.14,
+      "step": 2800
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 0.0,
+      "loss": 1.8201,
+      "step": 2820
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 0.0,
+      "loss": 1.848,
+      "step": 2840
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 0.0,
+      "loss": 1.8138,
+      "step": 2860
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.0,
+      "loss": 1.8554,
+      "step": 2880
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.0,
+      "loss": 1.8321,
+      "step": 2900
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 0.0,
+      "loss": 1.8404,
+      "step": 2920
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 0.0,
+      "loss": 1.7883,
+      "step": 2940
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 0.0,
+      "loss": 1.8733,
+      "step": 2960
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 0.0,
+      "loss": 1.8074,
+      "step": 2980
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.0,
+      "loss": 1.887,
+      "step": 3000
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11974.5637,
+      "eval_samples_per_second": 1.116,
+      "eval_steps_per_second": 0.14,
+      "step": 3000
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.0,
+      "loss": 1.7165,
+      "step": 3020
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 0.0,
+      "loss": 1.8041,
+      "step": 3040
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 0.0,
+      "loss": 1.8031,
+      "step": 3060
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 0.0,
+      "loss": 1.8493,
+      "step": 3080
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 0.0,
+      "loss": 1.8475,
+      "step": 3100
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 0.0,
+      "loss": 1.7994,
+      "step": 3120
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 0.0,
+      "loss": 1.7904,
+      "step": 3140
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 0.0,
+      "loss": 1.8078,
+      "step": 3160
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 0.0,
+      "loss": 1.8625,
+      "step": 3180
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 0.0,
+      "loss": 1.7874,
+      "step": 3200
+    },
+    {
+      "epoch": 1.06,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11966.566,
+      "eval_samples_per_second": 1.117,
+      "eval_steps_per_second": 0.14,
+      "step": 3200
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 0.0,
+      "loss": 1.7956,
+      "step": 3220
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 0.0,
+      "loss": 1.7517,
+      "step": 3240
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 0.0,
+      "loss": 1.7861,
+      "step": 3260
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 0.0,
+      "loss": 1.7957,
+      "step": 3280
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 0.0,
+      "loss": 1.8147,
+      "step": 3300
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 0.0,
+      "loss": 1.7795,
+      "step": 3320
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 0.0,
+      "loss": 1.7532,
+      "step": 3340
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 0.0,
+      "loss": 1.8414,
+      "step": 3360
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 0.0,
+      "loss": 1.771,
+      "step": 3380
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 0.0,
+      "loss": 1.8119,
+      "step": 3400
+    },
+    {
+      "epoch": 1.13,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11954.7549,
+      "eval_samples_per_second": 1.118,
+      "eval_steps_per_second": 0.14,
+      "step": 3400
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 0.0,
+      "loss": 1.7944,
+      "step": 3420
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 0.0,
+      "loss": 1.7855,
+      "step": 3440
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 0.0,
+      "loss": 1.8574,
+      "step": 3460
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 0.0,
+      "loss": 1.8189,
+      "step": 3480
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 0.0,
+      "loss": 1.8033,
+      "step": 3500
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 0.0,
+      "loss": 1.7689,
+      "step": 3520
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 0.0,
+      "loss": 1.8455,
+      "step": 3540
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 0.0,
+      "loss": 1.8255,
+      "step": 3560
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 0.0,
+      "loss": 1.8431,
+      "step": 3580
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 0.0,
+      "loss": 1.7924,
+      "step": 3600
+    },
+    {
+      "epoch": 1.19,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11953.5885,
+      "eval_samples_per_second": 1.118,
+      "eval_steps_per_second": 0.14,
+      "step": 3600
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 0.0,
+      "loss": 1.8475,
+      "step": 3620
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 0.0,
+      "loss": 1.6746,
+      "step": 3640
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 0.0,
+      "loss": 1.8006,
+      "step": 3660
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 0.0,
+      "loss": 1.816,
+      "step": 3680
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 0.0,
+      "loss": 1.7486,
+      "step": 3700
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 0.0,
+      "loss": 1.8086,
+      "step": 3720
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 0.0,
+      "loss": 1.8241,
+      "step": 3740
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 0.0,
+      "loss": 1.823,
+      "step": 3760
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 0.0,
+      "loss": 1.7365,
+      "step": 3780
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 0.0,
+      "loss": 1.801,
+      "step": 3800
+    },
+    {
+      "epoch": 1.26,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11952.013,
+      "eval_samples_per_second": 1.118,
+      "eval_steps_per_second": 0.14,
+      "step": 3800
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 0.0,
+      "loss": 1.8497,
+      "step": 3820
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 0.0,
+      "loss": 1.7803,
+      "step": 3840
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 0.0,
+      "loss": 1.6921,
+      "step": 3860
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 0.0,
+      "loss": 1.8508,
+      "step": 3880
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 0.0,
+      "loss": 1.8816,
+      "step": 3900
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 0.0,
+      "loss": 1.8105,
+      "step": 3920
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 0.0,
+      "loss": 1.8477,
+      "step": 3940
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 0.0,
+      "loss": 1.841,
+      "step": 3960
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 0.0,
+      "loss": 1.7599,
+      "step": 3980
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 0.0,
+      "loss": 1.7074,
+      "step": 4000
+    },
+    {
+      "epoch": 1.33,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11952.3623,
+      "eval_samples_per_second": 1.118,
+      "eval_steps_per_second": 0.14,
+      "step": 4000
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 0.0,
+      "loss": 1.7529,
+      "step": 4020
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 0.0,
+      "loss": 1.8928,
+      "step": 4040
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 0.0,
+      "loss": 1.8585,
+      "step": 4060
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 0.0,
+      "loss": 1.8279,
+      "step": 4080
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 0.0,
+      "loss": 1.7949,
+      "step": 4100
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 0.0,
+      "loss": 1.8488,
+      "step": 4120
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 0.0,
+      "loss": 1.7572,
+      "step": 4140
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 0.0,
+      "loss": 1.7533,
+      "step": 4160
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 0.0,
+      "loss": 1.772,
+      "step": 4180
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 0.0,
+      "loss": 1.8338,
+      "step": 4200
+    },
+    {
+      "epoch": 1.39,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11954.2113,
+      "eval_samples_per_second": 1.118,
+      "eval_steps_per_second": 0.14,
+      "step": 4200
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 0.0,
+      "loss": 1.8084,
+      "step": 4220
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 0.0,
+      "loss": 1.8791,
+      "step": 4240
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 0.0,
+      "loss": 1.7906,
+      "step": 4260
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 0.0,
+      "loss": 1.8669,
+      "step": 4280
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 0.0,
+      "loss": 1.8108,
+      "step": 4300
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 0.0,
+      "loss": 1.7769,
+      "step": 4320
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 0.0,
+      "loss": 1.7599,
+      "step": 4340
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 0.0,
+      "loss": 1.843,
+      "step": 4360
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 0.0,
+      "loss": 1.8608,
+      "step": 4380
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 0.0,
+      "loss": 1.8382,
+      "step": 4400
+    },
+    {
+      "epoch": 1.46,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11958.7166,
+      "eval_samples_per_second": 1.118,
+      "eval_steps_per_second": 0.14,
+      "step": 4400
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 0.0,
+      "loss": 1.8002,
+      "step": 4420
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 0.0,
+      "loss": 1.8292,
+      "step": 4440
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 0.0,
+      "loss": 1.8184,
+      "step": 4460
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 0.0,
+      "loss": 1.7712,
+      "step": 4480
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 0.0,
+      "loss": 1.8307,
+      "step": 4500
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 0.0,
+      "loss": 1.7883,
+      "step": 4520
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 0.0,
+      "loss": 1.8106,
+      "step": 4540
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 0.0,
+      "loss": 1.7999,
+      "step": 4560
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 0.0,
+      "loss": 1.8353,
+      "step": 4580
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 0.0,
+      "loss": 1.8366,
+      "step": 4600
+    },
+    {
+      "epoch": 1.53,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11971.0491,
+      "eval_samples_per_second": 1.117,
+      "eval_steps_per_second": 0.14,
+      "step": 4600
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 0.0,
+      "loss": 1.8018,
+      "step": 4620
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 0.0,
+      "loss": 1.84,
+      "step": 4640
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 0.0,
+      "loss": 1.7784,
+      "step": 4660
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 0.0,
+      "loss": 1.794,
+      "step": 4680
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 0.0,
+      "loss": 1.8237,
+      "step": 4700
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 0.0,
+      "loss": 1.7697,
+      "step": 4720
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 0.0,
+      "loss": 1.8482,
+      "step": 4740
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 0.0,
+      "loss": 1.8008,
+      "step": 4760
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 0.0,
+      "loss": 1.8082,
+      "step": 4780
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 0.0,
+      "loss": 1.7799,
+      "step": 4800
+    },
+    {
+      "epoch": 1.59,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11955.9821,
+      "eval_samples_per_second": 1.118,
+      "eval_steps_per_second": 0.14,
+      "step": 4800
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 0.0,
+      "loss": 1.8339,
+      "step": 4820
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 0.0,
+      "loss": 1.8072,
+      "step": 4840
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 0.0,
+      "loss": 1.8024,
+      "step": 4860
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 0.0,
+      "loss": 1.8609,
+      "step": 4880
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 0.0,
+      "loss": 1.8769,
+      "step": 4900
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 0.0,
+      "loss": 1.808,
+      "step": 4920
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 0.0,
+      "loss": 1.8482,
+      "step": 4940
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 0.0,
+      "loss": 1.8116,
+      "step": 4960
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 0.0,
+      "loss": 1.7922,
+      "step": 4980
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 0.0,
+      "loss": 1.8409,
+      "step": 5000
+    },
+    {
+      "epoch": 1.66,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11953.6568,
+      "eval_samples_per_second": 1.118,
+      "eval_steps_per_second": 0.14,
+      "step": 5000
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 0.0,
+      "loss": 1.867,
+      "step": 5020
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 0.0,
+      "loss": 1.8902,
+      "step": 5040
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 0.0,
+      "loss": 1.8835,
+      "step": 5060
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 0.0,
+      "loss": 1.741,
+      "step": 5080
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 0.0,
+      "loss": 1.7543,
+      "step": 5100
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 0.0,
+      "loss": 1.7913,
+      "step": 5120
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 0.0,
+      "loss": 1.829,
+      "step": 5140
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 0.0,
+      "loss": 1.7915,
+      "step": 5160
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 0.0,
+      "loss": 1.767,
+      "step": 5180
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 0.0,
+      "loss": 1.7809,
+      "step": 5200
+    },
+    {
+      "epoch": 1.72,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11951.295,
+      "eval_samples_per_second": 1.119,
+      "eval_steps_per_second": 0.14,
+      "step": 5200
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 0.0,
+      "loss": 1.8715,
+      "step": 5220
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 0.0,
+      "loss": 1.8517,
+      "step": 5240
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 0.0,
+      "loss": 1.8255,
+      "step": 5260
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 0.0,
+      "loss": 1.7973,
+      "step": 5280
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 0.0,
+      "loss": 1.7912,
+      "step": 5300
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 0.0,
+      "loss": 1.8331,
+      "step": 5320
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 0.0,
+      "loss": 1.835,
+      "step": 5340
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 0.0,
+      "loss": 1.8051,
+      "step": 5360
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 0.0,
+      "loss": 1.8007,
+      "step": 5380
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 0.0,
+      "loss": 1.8069,
+      "step": 5400
+    },
+    {
+      "epoch": 1.79,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11948.5086,
+      "eval_samples_per_second": 1.119,
+      "eval_steps_per_second": 0.14,
+      "step": 5400
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 0.0,
+      "loss": 1.784,
+      "step": 5420
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 0.0,
+      "loss": 1.7557,
+      "step": 5440
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 0.0,
+      "loss": 1.8011,
+      "step": 5460
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 0.0,
+      "loss": 1.8392,
+      "step": 5480
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 0.0,
+      "loss": 1.7507,
+      "step": 5500
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 0.0,
+      "loss": 1.8043,
+      "step": 5520
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 0.0,
+      "loss": 1.7804,
+      "step": 5540
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 0.0,
+      "loss": 1.811,
+      "step": 5560
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 0.0,
+      "loss": 1.806,
+      "step": 5580
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 0.0,
+      "loss": 1.8103,
+      "step": 5600
+    },
+    {
+      "epoch": 1.86,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11953.5582,
+      "eval_samples_per_second": 1.118,
+      "eval_steps_per_second": 0.14,
+      "step": 5600
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 0.0,
+      "loss": 1.7947,
+      "step": 5620
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 0.0,
+      "loss": 1.8062,
+      "step": 5640
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 0.0,
+      "loss": 1.7997,
+      "step": 5660
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 0.0,
+      "loss": 1.843,
+      "step": 5680
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 0.0,
+      "loss": 1.848,
+      "step": 5700
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 0.0,
+      "loss": 1.8393,
+      "step": 5720
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 0.0,
+      "loss": 1.8187,
+      "step": 5740
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 0.0,
+      "loss": 1.802,
+      "step": 5760
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 0.0,
+      "loss": 1.7646,
+      "step": 5780
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 0.0,
+      "loss": 1.7993,
+      "step": 5800
+    },
+    {
+      "epoch": 1.92,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11953.0956,
+      "eval_samples_per_second": 1.118,
+      "eval_steps_per_second": 0.14,
+      "step": 5800
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 0.0,
+      "loss": 1.7962,
+      "step": 5820
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 0.0,
+      "loss": 1.849,
+      "step": 5840
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 0.0,
+      "loss": 1.8254,
+      "step": 5860
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 0.0,
+      "loss": 1.8583,
+      "step": 5880
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 0.0,
+      "loss": 1.8398,
+      "step": 5900
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 0.0,
+      "loss": 1.7306,
+      "step": 5920
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 0.0,
+      "loss": 1.81,
+      "step": 5940
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 0.0,
+      "loss": 1.7762,
+      "step": 5960
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 0.0,
+      "loss": 1.8549,
+      "step": 5980
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 0.0,
+      "loss": 1.84,
+      "step": 6000
+    },
+    {
+      "epoch": 1.99,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11950.3766,
+      "eval_samples_per_second": 1.119,
+      "eval_steps_per_second": 0.14,
+      "step": 6000
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 0.0,
+      "loss": 1.7897,
+      "step": 6020
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 0.0,
+      "loss": 1.7844,
+      "step": 6040
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 0.0,
+      "loss": 1.8453,
+      "step": 6060
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 0.0,
+      "loss": 1.8268,
+      "step": 6080
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 0.0,
+      "loss": 1.7932,
+      "step": 6100
+    },
+    {
+      "epoch": 2.03,
+      "learning_rate": 0.0,
+      "loss": 1.8005,
+      "step": 6120
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 0.0,
+      "loss": 1.773,
+      "step": 6140
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 0.0,
+      "loss": 1.8029,
+      "step": 6160
+    },
+    {
+      "epoch": 2.05,
+      "learning_rate": 0.0,
+      "loss": 1.8283,
+      "step": 6180
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 0.0,
+      "loss": 1.8167,
+      "step": 6200
+    },
+    {
+      "epoch": 2.06,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11950.9199,
+      "eval_samples_per_second": 1.119,
+      "eval_steps_per_second": 0.14,
+      "step": 6200
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 0.0,
+      "loss": 1.8465,
+      "step": 6220
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 0.0,
+      "loss": 1.8747,
+      "step": 6240
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 0.0,
+      "loss": 1.8031,
+      "step": 6260
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 0.0,
+      "loss": 1.8366,
+      "step": 6280
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 0.0,
+      "loss": 1.7998,
+      "step": 6300
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 0.0,
+      "loss": 1.8143,
+      "step": 6320
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 0.0,
+      "loss": 1.8586,
+      "step": 6340
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 0.0,
+      "loss": 1.836,
+      "step": 6360
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 0.0,
+      "loss": 1.863,
+      "step": 6380
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 0.0,
+      "loss": 1.7667,
+      "step": 6400
+    },
+    {
+      "epoch": 2.12,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11949.7143,
+      "eval_samples_per_second": 1.119,
+      "eval_steps_per_second": 0.14,
+      "step": 6400
+    },
+    {
+      "epoch": 2.13,
+      "learning_rate": 0.0,
+      "loss": 1.8187,
+      "step": 6420
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 0.0,
+      "loss": 1.7883,
+      "step": 6440
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 0.0,
+      "loss": 1.9299,
+      "step": 6460
+    },
+    {
+      "epoch": 2.15,
+      "learning_rate": 0.0,
+      "loss": 1.8286,
+      "step": 6480
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 0.0,
+      "loss": 1.8181,
+      "step": 6500
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 0.0,
+      "loss": 1.7856,
+      "step": 6520
+    },
+    {
+      "epoch": 2.17,
+      "learning_rate": 0.0,
+      "loss": 1.7192,
+      "step": 6540
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 0.0,
+      "loss": 1.7715,
+      "step": 6560
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 0.0,
+      "loss": 1.8359,
+      "step": 6580
+    },
+    {
+      "epoch": 2.19,
+      "learning_rate": 0.0,
+      "loss": 1.7989,
+      "step": 6600
+    },
+    {
+      "epoch": 2.19,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11949.8024,
+      "eval_samples_per_second": 1.119,
+      "eval_steps_per_second": 0.14,
+      "step": 6600
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 0.0,
+      "loss": 1.7869,
+      "step": 6620
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 0.0,
+      "loss": 1.7855,
+      "step": 6640
+    },
+    {
+      "epoch": 2.21,
+      "learning_rate": 0.0,
+      "loss": 1.8312,
+      "step": 6660
+    },
+    {
+      "epoch": 2.22,
+      "learning_rate": 0.0,
+      "loss": 1.7717,
+      "step": 6680
+    },
+    {
+      "epoch": 2.22,
+      "learning_rate": 0.0,
+      "loss": 1.7621,
+      "step": 6700
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 0.0,
+      "loss": 1.8031,
+      "step": 6720
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 0.0,
+      "loss": 1.8061,
+      "step": 6740
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 0.0,
+      "loss": 1.8063,
+      "step": 6760
+    },
+    {
+      "epoch": 2.25,
+      "learning_rate": 0.0,
+      "loss": 1.7469,
+      "step": 6780
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 0.0,
+      "loss": 1.7543,
+      "step": 6800
+    },
+    {
+      "epoch": 2.26,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11954.2042,
+      "eval_samples_per_second": 1.118,
+      "eval_steps_per_second": 0.14,
+      "step": 6800
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 0.0,
+      "loss": 1.8659,
+      "step": 6820
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 0.0,
+      "loss": 1.7935,
+      "step": 6840
+    },
+    {
+      "epoch": 2.28,
+      "learning_rate": 0.0,
+      "loss": 1.8247,
+      "step": 6860
+    },
+    {
+      "epoch": 2.28,
+      "learning_rate": 0.0,
+      "loss": 1.8339,
+      "step": 6880
+    },
+    {
+      "epoch": 2.29,
+      "learning_rate": 0.0,
+      "loss": 1.8419,
+      "step": 6900
+    },
+    {
+      "epoch": 2.3,
+      "learning_rate": 0.0,
+      "loss": 1.7978,
+      "step": 6920
+    },
+    {
+      "epoch": 2.3,
+      "learning_rate": 0.0,
+      "loss": 1.8048,
+      "step": 6940
+    },
+    {
+      "epoch": 2.31,
+      "learning_rate": 0.0,
+      "loss": 1.8523,
+      "step": 6960
+    },
+    {
+      "epoch": 2.32,
+      "learning_rate": 0.0,
+      "loss": 1.7875,
+      "step": 6980
+    },
+    {
+      "epoch": 2.32,
+      "learning_rate": 0.0,
+      "loss": 1.8262,
+      "step": 7000
+    },
+    {
+      "epoch": 2.32,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11967.8262,
+      "eval_samples_per_second": 1.117,
+      "eval_steps_per_second": 0.14,
+      "step": 7000
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 0.0,
+      "loss": 1.8661,
+      "step": 7020
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 0.0,
+      "loss": 1.8136,
+      "step": 7040
+    },
+    {
+      "epoch": 2.34,
+      "learning_rate": 0.0,
+      "loss": 1.8066,
+      "step": 7060
+    },
+    {
+      "epoch": 2.35,
+      "learning_rate": 0.0,
+      "loss": 1.8355,
+      "step": 7080
+    },
+    {
+      "epoch": 2.35,
+      "learning_rate": 0.0,
+      "loss": 1.7598,
+      "step": 7100
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 0.0,
+      "loss": 1.8384,
+      "step": 7120
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 0.0,
+      "loss": 1.7768,
+      "step": 7140
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 0.0,
+      "loss": 1.8371,
+      "step": 7160
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 0.0,
+      "loss": 1.7989,
+      "step": 7180
+    },
+    {
+      "epoch": 2.39,
+      "learning_rate": 0.0,
+      "loss": 1.8204,
+      "step": 7200
+    },
+    {
+      "epoch": 2.39,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11959.9088,
+      "eval_samples_per_second": 1.118,
+      "eval_steps_per_second": 0.14,
+      "step": 7200
+    },
+    {
+      "epoch": 2.39,
+      "learning_rate": 0.0,
+      "loss": 1.8632,
+      "step": 7220
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 0.0,
+      "loss": 1.838,
+      "step": 7240
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 0.0,
+      "loss": 1.8492,
+      "step": 7260
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 0.0,
+      "loss": 1.8213,
+      "step": 7280
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 0.0,
+      "loss": 1.7367,
+      "step": 7300
+    },
+    {
+      "epoch": 2.43,
+      "learning_rate": 0.0,
+      "loss": 1.9046,
+      "step": 7320
+    },
+    {
+      "epoch": 2.43,
+      "learning_rate": 0.0,
+      "loss": 1.7799,
+      "step": 7340
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 0.0,
+      "loss": 1.793,
+      "step": 7360
+    },
+    {
+      "epoch": 2.45,
+      "learning_rate": 0.0,
+      "loss": 1.7864,
+      "step": 7380
+    },
+    {
+      "epoch": 2.45,
+      "learning_rate": 0.0,
+      "loss": 1.8071,
+      "step": 7400
+    },
+    {
+      "epoch": 2.45,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11949.9374,
+      "eval_samples_per_second": 1.119,
+      "eval_steps_per_second": 0.14,
+      "step": 7400
+    },
+    {
+      "epoch": 2.46,
+      "learning_rate": 0.0,
+      "loss": 1.7708,
+      "step": 7420
+    },
+    {
+      "epoch": 2.47,
+      "learning_rate": 0.0,
+      "loss": 1.8234,
+      "step": 7440
+    },
+    {
+      "epoch": 2.47,
+      "learning_rate": 0.0,
+      "loss": 1.8214,
+      "step": 7460
+    },
+    {
+      "epoch": 2.48,
+      "learning_rate": 0.0,
+      "loss": 1.8468,
+      "step": 7480
+    },
+    {
+      "epoch": 2.49,
+      "learning_rate": 0.0,
+      "loss": 1.784,
+      "step": 7500
+    },
+    {
+      "epoch": 2.49,
+      "learning_rate": 0.0,
+      "loss": 1.8571,
+      "step": 7520
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 0.0,
+      "loss": 1.7871,
+      "step": 7540
+    },
+    {
+      "epoch": 2.51,
+      "learning_rate": 0.0,
+      "loss": 1.7819,
+      "step": 7560
+    },
+    {
+      "epoch": 2.51,
+      "learning_rate": 0.0,
+      "loss": 1.8035,
+      "step": 7580
+    },
+    {
+      "epoch": 2.52,
+      "learning_rate": 0.0,
+      "loss": 1.801,
+      "step": 7600
+    },
+    {
+      "epoch": 2.52,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11949.3183,
+      "eval_samples_per_second": 1.119,
+      "eval_steps_per_second": 0.14,
+      "step": 7600
+    },
+    {
+      "epoch": 2.53,
+      "learning_rate": 0.0,
+      "loss": 1.8302,
+      "step": 7620
+    },
+    {
+      "epoch": 2.53,
+      "learning_rate": 0.0,
+      "loss": 1.8208,
+      "step": 7640
+    },
+    {
+      "epoch": 2.54,
+      "learning_rate": 0.0,
+      "loss": 1.917,
+      "step": 7660
+    },
+    {
+      "epoch": 2.55,
+      "learning_rate": 0.0,
+      "loss": 1.8184,
+      "step": 7680
+    },
+    {
+      "epoch": 2.55,
+      "learning_rate": 0.0,
+      "loss": 1.7462,
+      "step": 7700
+    },
+    {
+      "epoch": 2.56,
+      "learning_rate": 0.0,
+      "loss": 1.7699,
+      "step": 7720
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 0.0,
+      "loss": 1.8377,
+      "step": 7740
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 0.0,
+      "loss": 1.7713,
+      "step": 7760
+    },
+    {
+      "epoch": 2.58,
+      "learning_rate": 0.0,
+      "loss": 1.798,
+      "step": 7780
+    },
+    {
+      "epoch": 2.59,
+      "learning_rate": 0.0,
+      "loss": 1.8425,
+      "step": 7800
+    },
+    {
+      "epoch": 2.59,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11947.7265,
+      "eval_samples_per_second": 1.119,
+      "eval_steps_per_second": 0.14,
+      "step": 7800
+    },
+    {
+      "epoch": 2.59,
+      "learning_rate": 0.0,
+      "loss": 1.7816,
+      "step": 7820
+    },
+    {
+      "epoch": 2.6,
+      "learning_rate": 0.0,
+      "loss": 1.8193,
+      "step": 7840
+    },
+    {
+      "epoch": 2.61,
+      "learning_rate": 0.0,
+      "loss": 1.8044,
+      "step": 7860
+    },
+    {
+      "epoch": 2.61,
+      "learning_rate": 0.0,
+      "loss": 1.7937,
+      "step": 7880
+    },
+    {
+      "epoch": 2.62,
+      "learning_rate": 0.0,
+      "loss": 1.8224,
+      "step": 7900
+    },
+    {
+      "epoch": 2.63,
+      "learning_rate": 0.0,
+      "loss": 1.7937,
+      "step": 7920
+    },
+    {
+      "epoch": 2.63,
+      "learning_rate": 0.0,
+      "loss": 1.7988,
+      "step": 7940
+    },
+    {
+      "epoch": 2.64,
+      "learning_rate": 0.0,
+      "loss": 1.8622,
+      "step": 7960
+    },
+    {
+      "epoch": 2.65,
+      "learning_rate": 0.0,
+      "loss": 1.8407,
+      "step": 7980
+    },
+    {
+      "epoch": 2.65,
+      "learning_rate": 0.0,
+      "loss": 1.7578,
+      "step": 8000
+    },
+    {
+      "epoch": 2.65,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11948.4274,
+      "eval_samples_per_second": 1.119,
+      "eval_steps_per_second": 0.14,
+      "step": 8000
+    },
+    {
+      "epoch": 2.66,
+      "learning_rate": 0.0,
+      "loss": 1.789,
+      "step": 8020
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 0.0,
+      "loss": 1.7939,
+      "step": 8040
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 0.0,
+      "loss": 1.7694,
+      "step": 8060
+    },
+    {
+      "epoch": 2.68,
+      "learning_rate": 0.0,
+      "loss": 1.7917,
+      "step": 8080
+    },
+    {
+      "epoch": 2.69,
+      "learning_rate": 0.0,
+      "loss": 1.7737,
+      "step": 8100
+    },
+    {
+      "epoch": 2.69,
+      "learning_rate": 0.0,
+      "loss": 1.8049,
+      "step": 8120
+    },
+    {
+      "epoch": 2.7,
+      "learning_rate": 0.0,
+      "loss": 1.8419,
+      "step": 8140
+    },
+    {
+      "epoch": 2.71,
+      "learning_rate": 0.0,
+      "loss": 1.7835,
+      "step": 8160
+    },
+    {
+      "epoch": 2.71,
+      "learning_rate": 0.0,
+      "loss": 1.7898,
+      "step": 8180
+    },
+    {
+      "epoch": 2.72,
+      "learning_rate": 0.0,
+      "loss": 1.7798,
+      "step": 8200
+    },
+    {
+      "epoch": 2.72,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11959.3563,
+      "eval_samples_per_second": 1.118,
+      "eval_steps_per_second": 0.14,
+      "step": 8200
+    },
+    {
+      "epoch": 2.73,
+      "learning_rate": 0.0,
+      "loss": 1.7904,
+      "step": 8220
+    },
+    {
+      "epoch": 2.73,
+      "learning_rate": 0.0,
+      "loss": 1.8054,
+      "step": 8240
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 0.0,
+      "loss": 1.8316,
+      "step": 8260
+    },
+    {
+      "epoch": 2.75,
+      "learning_rate": 0.0,
+      "loss": 1.8059,
+      "step": 8280
+    },
+    {
+      "epoch": 2.75,
+      "learning_rate": 0.0,
+      "loss": 1.7908,
+      "step": 8300
+    },
+    {
+      "epoch": 2.76,
+      "learning_rate": 0.0,
+      "loss": 1.8092,
+      "step": 8320
+    },
+    {
+      "epoch": 2.77,
+      "learning_rate": 0.0,
+      "loss": 1.8954,
+      "step": 8340
+    },
+    {
+      "epoch": 2.77,
+      "learning_rate": 0.0,
+      "loss": 1.835,
+      "step": 8360
+    },
+    {
+      "epoch": 2.78,
+      "learning_rate": 0.0,
+      "loss": 1.8018,
+      "step": 8380
+    },
+    {
+      "epoch": 2.79,
+      "learning_rate": 0.0,
+      "loss": 1.8474,
+      "step": 8400
+    },
+    {
+      "epoch": 2.79,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11978.111,
+      "eval_samples_per_second": 1.116,
+      "eval_steps_per_second": 0.14,
+      "step": 8400
+    },
+    {
+      "epoch": 2.79,
+      "learning_rate": 0.0,
+      "loss": 1.7878,
+      "step": 8420
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 0.0,
+      "loss": 1.7629,
+      "step": 8440
+    },
+    {
+      "epoch": 2.81,
+      "learning_rate": 0.0,
+      "loss": 1.8068,
+      "step": 8460
+    },
+    {
+      "epoch": 2.81,
+      "learning_rate": 0.0,
+      "loss": 1.7907,
+      "step": 8480
+    },
+    {
+      "epoch": 2.82,
+      "learning_rate": 0.0,
+      "loss": 1.7598,
+      "step": 8500
+    },
+    {
+      "epoch": 2.83,
+      "learning_rate": 0.0,
+      "loss": 1.7964,
+      "step": 8520
+    },
+    {
+      "epoch": 2.83,
+      "learning_rate": 0.0,
+      "loss": 1.7951,
+      "step": 8540
+    },
+    {
+      "epoch": 2.84,
+      "learning_rate": 0.0,
+      "loss": 1.7962,
+      "step": 8560
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 0.0,
+      "loss": 1.7908,
+      "step": 8580
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 0.0,
+      "loss": 1.7525,
+      "step": 8600
+    },
+    {
+      "epoch": 2.85,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11977.8941,
+      "eval_samples_per_second": 1.116,
+      "eval_steps_per_second": 0.14,
+      "step": 8600
+    },
+    {
+      "epoch": 2.86,
+      "learning_rate": 0.0,
+      "loss": 1.7268,
+      "step": 8620
+    },
+    {
+      "epoch": 2.87,
+      "learning_rate": 0.0,
+      "loss": 1.7716,
+      "step": 8640
+    },
+    {
+      "epoch": 2.87,
+      "learning_rate": 0.0,
+      "loss": 1.8214,
+      "step": 8660
+    },
+    {
+      "epoch": 2.88,
+      "learning_rate": 0.0,
+      "loss": 1.8116,
+      "step": 8680
+    },
+    {
+      "epoch": 2.89,
+      "learning_rate": 0.0,
+      "loss": 1.8204,
+      "step": 8700
+    },
+    {
+      "epoch": 2.89,
+      "learning_rate": 0.0,
+      "loss": 1.7878,
+      "step": 8720
+    },
+    {
+      "epoch": 2.9,
+      "learning_rate": 0.0,
+      "loss": 1.8828,
+      "step": 8740
+    },
+    {
+      "epoch": 2.91,
+      "learning_rate": 0.0,
+      "loss": 1.8015,
+      "step": 8760
+    },
+    {
+      "epoch": 2.91,
+      "learning_rate": 0.0,
+      "loss": 1.7989,
+      "step": 8780
+    },
+    {
+      "epoch": 2.92,
+      "learning_rate": 0.0,
+      "loss": 1.7467,
+      "step": 8800
+    },
+    {
+      "epoch": 2.92,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11960.8065,
+      "eval_samples_per_second": 1.118,
+      "eval_steps_per_second": 0.14,
+      "step": 8800
+    },
+    {
+      "epoch": 2.93,
+      "learning_rate": 0.0,
+      "loss": 1.7823,
+      "step": 8820
+    },
+    {
+      "epoch": 2.93,
+      "learning_rate": 0.0,
+      "loss": 1.8734,
+      "step": 8840
+    },
+    {
+      "epoch": 2.94,
+      "learning_rate": 0.0,
+      "loss": 1.8192,
+      "step": 8860
+    },
+    {
+      "epoch": 2.95,
+      "learning_rate": 0.0,
+      "loss": 1.8,
+      "step": 8880
+    },
+    {
+      "epoch": 2.95,
+      "learning_rate": 0.0,
+      "loss": 1.8057,
+      "step": 8900
+    },
+    {
+      "epoch": 2.96,
+      "learning_rate": 0.0,
+      "loss": 1.8007,
+      "step": 8920
+    },
+    {
+      "epoch": 2.97,
+      "learning_rate": 0.0,
+      "loss": 1.7826,
+      "step": 8940
+    },
+    {
+      "epoch": 2.97,
+      "learning_rate": 0.0,
+      "loss": 1.8612,
+      "step": 8960
+    },
+    {
+      "epoch": 2.98,
+      "learning_rate": 0.0,
+      "loss": 1.7843,
+      "step": 8980
+    },
+    {
+      "epoch": 2.99,
+      "learning_rate": 0.0,
+      "loss": 1.8619,
+      "step": 9000
+    },
+    {
+      "epoch": 2.99,
+      "eval_loss": 1.970503568649292,
+      "eval_runtime": 11953.5723,
+      "eval_samples_per_second": 1.118,
+      "eval_steps_per_second": 0.14,
+      "step": 9000
+    }
+  ],
+  "max_steps": 9045,
+  "num_train_epochs": 3,
+  "total_flos": 5.6126739980068454e+17,
+  "trial_name": null,
+  "trial_params": null
+}

redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail-results_6000_samples/checkpoint-9000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f5a78612ea8930d68eba4cb53d62254ccf547582e754aa049d169c3c11dd5fe4
+size 4027

redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail_6000_samples/adapter_config.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+  "base_model_name_or_path": "/domino/edv/afs-mrmc-data-store-rw/innovation/hf/RedPajama-INCITE-7B-Base",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "lora_alpha": 16,
+  "lora_dropout": 0.05,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "target_modules": [
+    "query_key_value"
+  ],
+  "task_type": "CAUSAL_LM"
+}

redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail_6000_samples/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7004b69a5e5338ee5dbc682271079d0cf6750a64f3dd06f0dabf0a4c8129f41b
+size 16800753

redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail_6000_samples/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "bos_token": "<|endoftext|>",
+  "eos_token": "<eos>",
+  "pad_token": "<|endoftext|>",
+  "unk_token": "<|endoftext|>"
+}

redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail_6000_samples/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

redpj7B-lora-cnn-dailymail_6000_samples/results/redpj7B-lora-cnn-dailymail_6000_samples/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "add_eos_token": true,
+  "add_prefix_space": false,
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|endoftext|>",
+  "model_max_length": 2048,
+  "tokenizer_class": "GPTNeoXTokenizer",
+  "unk_token": "<|endoftext|>"
+}

redpj7B-lora-cnn-dailymail_6000_samples/results/stdout.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

redpj7B-lora-cnn-dailymail_6000_samples/script_fine_tuning.py ADDED Viewed

	@@ -0,0 +1,170 @@

+afs_path = '/domino/edv/afs-mrmc-data-store-rw/innovation/hf/'
+import datasets
+from datasets import  load_dataset
+import numpy as np
+from peft import LoraConfig, get_peft_model, prepare_model_for_int8_training, TaskType, PeftModel
+import transformers
+import torch
+print('transformers version: '+transformers.__version__)
+#print('tensorflow version: '+tf.__version__)
+print('torch version: '+torch.__version__)
+device = 'cuda' if torch.cuda.is_available() else 'cpu'
+model = '7B' #'7B' # Pick your poison
+if model == '7B':
+    model_name = ("RedPajama-INCITE-7B-Base","RedPajama-INCITE-7B-Base")
+    run_name = 'redpj7B-lora-cnn-dailymail_fine_tune_test'
+    dataset = 'cnn_dailymail'
+    peft_name = './results/redpj7B-lora-cnn-dailymail_fine_tune_test'
+    output_dir = './results/redpj7B-lora-cnn-dailymail-results_fine_tune_test'
+else: #3B
+    model_name = ("RedPajama-INCITE-Base-3B-v1","RedPajama-INCITE-Base-3B-v1")
+    run_name = 'redpj3B-lora-cnn-dailymail_fine_tune_test'
+    dataset = 'cnn_dailymail'
+    peft_name = './results/redpj3B-lora-cnn-dailymail_fine_tune_test'
+    output_dir = './results/redpj3B-lora-cnn-dailymail-results_fine_tune_test'
+print(f"""model_name: {model_name[1]}, dataset: {dataset}, peft_name {peft_name},  run_name {run_name}, output_dir {output_dir}""")
+from transformers import AutoTokenizer
+print("Loading tokenizer for model: ", model_name[1])
+tokenizer = AutoTokenizer.from_pretrained(afs_path+model_name[1],add_eos_token=True)
+tokenizer.pad_token_id = 0
+tokenizer.add_special_tokens({'eos_token':'<eos>'})
+print('eos_token_id:',tokenizer.eos_token_id)
+#CUTOFF_LEN = 256  # 256 accounts for about 96% of the data in the alpaca dataset
+CUTOFF_LEN = 781  # 781 is the average token count for the articles according to https://huggingface.co/datasets/cnn_dailymail
+def tokenize(prompt, tokenizer,add_eos_token=True):
+    result = tokenizer(
+        prompt+"<eos>",  # add the end-of-stream token
+        truncation=True,
+        max_length=CUTOFF_LEN,
+        padding="max_length",
+    )
+    return {
+        "input_ids": result["input_ids"],
+        "attention_mask": result["attention_mask"],
+    }
+data = datasets.load_from_disk('cnn_dailymail_dataset')
+num_train_examples = len(data['train'])
+# Define the percentage of data you want to keep
+percentage_to_keep = 0.02  # Adjust this value to your desired percentage (0.02 is about 6k samples)
+# Calculate the number of examples to keep
+num_examples_to_keep = int(num_train_examples * percentage_to_keep)
+# Reduce the 'train' split to the desired amount
+train_data_reduced = data['train'].select(range(num_examples_to_keep))
+#train_data_reduced.save_to_disk("./cnn_dailymail_dataset/train_data_reduced")
+def generate_prompt(data_point):
+    # sorry about the formatting disaster gotta move fast
+    if data_point["article"]:
+        return f"""Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.
+### Instruction:
+Summarize the text from the input.
+### Input:
+{data_point["article"]}
+### Response:
+{data_point["highlights"]}"""
+    else:
+        return f"""Below is an instruction that describes a task. Write a response that appropriately completes the request.
+### Instruction:
+Summarize the text.
+### Response:
+{data_point["highlights"]}"""
+train_data = data["train"]
+val_data = data["validation"]
+#train_data = train_data.map(lambda x: tokenize(generate_prompt(x), tokenizer))
+train_data = train_data_reduced.map(lambda x: tokenize(generate_prompt(x), tokenizer)) # use reduced train set
+val_data = val_data.map(lambda x: tokenize(generate_prompt(x), tokenizer))
+from transformers import AutoModelForCausalLM
+print("Loading model for model: ", model_name[0])
+model = AutoModelForCausalLM.from_pretrained(
+    afs_path+model_name[0],
+    load_in_8bit=False, # changed from True to False
+    device_map="auto",
+)
+# Define LoRA Config
+lora_config = LoraConfig(
+ r= 8,
+ lora_alpha=16,
+ target_modules=["query_key_value"],
+ lora_dropout=0.05,
+ bias="none",
+ task_type=TaskType.CAUSAL_LM
+)
+# prepare int-8 model for training
+#model = prepare_model_for_int8_training(model) #uncomment for int8
+# add LoRA adaptor
+model = get_peft_model(model, lora_config)
+eval_steps = 200
+save_steps = 200
+logging_steps = 20
+trainer = transformers.Trainer(
+    model=model,
+    train_dataset=train_data,
+    eval_dataset=val_data,
+    args=transformers.TrainingArguments(
+        num_train_epochs=3,
+        learning_rate=3e-4,
+        logging_steps=logging_steps,
+        logging_dir='./results',            # directory for storing logs
+        evaluation_strategy="steps",
+        save_strategy="steps",
+        eval_steps=eval_steps,
+        save_steps=save_steps,
+        output_dir=output_dir,
+        report_to="none", #changed from report_to if report_to else to "none"
+        save_total_limit=3,
+        load_best_model_at_end=True,
+        push_to_hub=False,
+        auto_find_batch_size=True
+    ),
+    data_collator=transformers.DataCollatorForLanguageModeling(tokenizer, mlm=False),
+)
+model.config.use_cache = False  # silence the warnings. Please re-enable for inference!
+trainer.train()
+# Save our LoRA model & tokenizer results
+trainer.model.save_pretrained(peft_name)
+tokenizer.save_pretrained(peft_name)