Model save

Browse files

Files changed (7) hide show

README.md +63 -0
adapter_model.safetensors +1 -1
all_results.json +13 -0
config_argument.yaml +50 -0
eval_results.json +8 -0
train_results.json +8 -0
trainer_state.json +1802 -0

README.md ADDED Viewed

	@@ -0,0 +1,63 @@

+---
+base_model: hllj/zephyr-7b-beta-vi-math
+tags:
+- generated_from_trainer
+model-index:
+- name: sft-zephyr-7b-beta-v2
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# sft-zephyr-7b-beta-v2
+This model is a fine-tuned version of [hllj/zephyr-7b-beta-vi-math](https://huggingface.co/hllj/zephyr-7b-beta-vi-math) on the None dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.4432
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-05
+- train_batch_size: 4
+- eval_batch_size: 4
+- seed: 42
+- distributed_type: multi-GPU
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.05
+- num_epochs: 2
+- mixed_precision_training: Native AMP
+### Training results
+| Training Loss | Epoch | Step | Validation Loss |
+|:-------------:|:-----:|:----:|:---------------:|
+| 0.3943        | 0.35  | 500  | 0.4903          |
+| 0.3796        | 0.69  | 1000 | 0.4698          |
+| 0.353         | 1.04  | 1500 | 0.4521          |
+| 0.3173        | 1.39  | 2000 | 0.4463          |
+| 0.3276        | 1.73  | 2500 | 0.4431          |
+### Framework versions
+- Transformers 4.35.2
+- Pytorch 2.1.0
+- Datasets 2.15.0
+- Tokenizers 0.15.0

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dd5901f63bb24dd17ef0d37473620ef497f32d0945592634fbcfe3c7b253f08f
 size 872450448

 version https://git-lfs.github.com/spec/v1
+oid sha256:ad8bb3bca951a9d1513286b9f2d9e0ab164c4e7349a9215df143b36d9549888e
 size 872450448

all_results.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+    "epoch": 2.0,
+    "eval_loss": 0.44321340322494507,
+    "eval_runtime": 79.4506,
+    "eval_samples": 640,
+    "eval_samples_per_second": 8.055,
+    "eval_steps_per_second": 2.014,
+    "train_loss": 0.3615408574310464,
+    "train_runtime": 5165.0048,
+    "train_samples": 5762,
+    "train_samples_per_second": 2.231,
+    "train_steps_per_second": 0.558
+}

config_argument.yaml ADDED Viewed

	@@ -0,0 +1,50 @@

+cache_dir: ./cache
+ddp_find_unused_parameters: false
+ddp_timeout: 30000
+device_map: auto
+do_eval: true
+do_train: true
+eval_steps: 500
+evaluation_strategy: steps
+fp16: true
+gradient_accumulation_steps: 1
+gradient_checkpointing: true
+gradient_checkpointing_kwargs:
+  use_reentrant: false
+hub_model_id: hllj/sft-zephyr-7b-beta-v2
+hub_strategy: every_save
+learning_rate: 5.0e-05
+log_level: info
+logging_first_step: true
+logging_steps: 10
+logging_strategy: steps
+lora_alpha: 128
+lora_dropout: 0.05
+lora_r: 256
+lora_target_modules:
+- q_proj
+- k_proj
+- v_proj
+- o_proj
+lr_scheduler_type: cosine
+max_seq_length: 512
+model_name_or_path: hllj/zephyr-7b-beta-vi-math
+model_type: auto
+num_train_epochs: 2
+output_dir: outputs-sft-zephyr-beta-v2
+overwrite_output_dir: true
+per_device_eval_batch_size: 4
+per_device_train_batch_size: 4
+preprocessing_num_workers: 4
+push_to_hub: true
+report_to: wandb
+run_name: sft-zephyr-7b-beta-v2
+save_steps: 500
+save_strategy: steps
+save_total_limit: 13
+seed: 42
+torch_dtype: float16
+train_file_dir: datasets/finetune
+use_peft: true
+warmup_ratio: 0.05
+weight_decay: 0.05

eval_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 2.0,
+    "eval_loss": 0.44321340322494507,
+    "eval_runtime": 79.4506,
+    "eval_samples": 640,
+    "eval_samples_per_second": 8.055,
+    "eval_steps_per_second": 2.014
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 2.0,
+    "train_loss": 0.3615408574310464,
+    "train_runtime": 5165.0048,
+    "train_samples": 5762,
+    "train_samples_per_second": 2.231,
+    "train_steps_per_second": 0.558
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1802 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.0,
+  "eval_steps": 500,
+  "global_step": 2882,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "learning_rate": 3.4482758620689656e-07,
+      "loss": 0.8107,
+      "step": 1
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 2.7586206896551725e-06,
+      "loss": 0.9975,
+      "step": 10
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 5.517241379310345e-06,
+      "loss": 0.8562,
+      "step": 20
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 8.96551724137931e-06,
+      "loss": 0.8419,
+      "step": 30
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 1.2413793103448277e-05,
+      "loss": 0.6876,
+      "step": 40
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 1.586206896551724e-05,
+      "loss": 0.532,
+      "step": 50
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.9310344827586207e-05,
+      "loss": 0.4951,
+      "step": 60
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 2.2413793103448276e-05,
+      "loss": 0.5264,
+      "step": 70
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 2.5862068965517244e-05,
+      "loss": 0.5313,
+      "step": 80
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 2.9310344827586206e-05,
+      "loss": 0.4944,
+      "step": 90
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 3.275862068965517e-05,
+      "loss": 0.4927,
+      "step": 100
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 3.620689655172414e-05,
+      "loss": 0.483,
+      "step": 110
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 3.965517241379311e-05,
+      "loss": 0.4766,
+      "step": 120
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 4.275862068965518e-05,
+      "loss": 0.5116,
+      "step": 130
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 4.6206896551724135e-05,
+      "loss": 0.4383,
+      "step": 140
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 4.9655172413793107e-05,
+      "loss": 0.4489,
+      "step": 150
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 4.999866604456691e-05,
+      "loss": 0.4921,
+      "step": 160
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 4.999405502336266e-05,
+      "loss": 0.4698,
+      "step": 170
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 4.998615107515172e-05,
+      "loss": 0.4356,
+      "step": 180
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 4.9974955241266695e-05,
+      "loss": 0.5204,
+      "step": 190
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 4.996046899674091e-05,
+      "loss": 0.4585,
+      "step": 200
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 4.994269425011402e-05,
+      "loss": 0.4721,
+      "step": 210
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 4.9921633343180654e-05,
+      "loss": 0.4852,
+      "step": 220
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 4.98972890506818e-05,
+      "loss": 0.4478,
+      "step": 230
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 4.986966457993929e-05,
+      "loss": 0.4189,
+      "step": 240
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 4.983876357043322e-05,
+      "loss": 0.439,
+      "step": 250
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 4.980459009332246e-05,
+      "loss": 0.4436,
+      "step": 260
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 4.976714865090827e-05,
+      "loss": 0.4002,
+      "step": 270
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 4.972644417604117e-05,
+      "loss": 0.4599,
+      "step": 280
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 4.9682482031470975e-05,
+      "loss": 0.4055,
+      "step": 290
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 4.963526800914035e-05,
+      "loss": 0.4235,
+      "step": 300
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 4.958480832942165e-05,
+      "loss": 0.397,
+      "step": 310
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 4.9531109640297455e-05,
+      "loss": 0.4319,
+      "step": 320
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 4.947417901648467e-05,
+      "loss": 0.4318,
+      "step": 330
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 4.9414023958502444e-05,
+      "loss": 0.3984,
+      "step": 340
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 4.9350652391684024e-05,
+      "loss": 0.4399,
+      "step": 350
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 4.9284072665132576e-05,
+      "loss": 0.4207,
+      "step": 360
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 4.92142935506212e-05,
+      "loss": 0.3951,
+      "step": 370
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 4.9141324241437284e-05,
+      "loss": 0.3983,
+      "step": 380
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 4.906517435117128e-05,
+      "loss": 0.4133,
+      "step": 390
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 4.8985853912450155e-05,
+      "loss": 0.4269,
+      "step": 400
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 4.8903373375615564e-05,
+      "loss": 0.4028,
+      "step": 410
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 4.88177436073471e-05,
+      "loss": 0.3755,
+      "step": 420
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 4.8728975889230576e-05,
+      "loss": 0.3991,
+      "step": 430
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 4.86370819162717e-05,
+      "loss": 0.3806,
+      "step": 440
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 4.8542073795355294e-05,
+      "loss": 0.4233,
+      "step": 450
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 4.8443964043650204e-05,
+      "loss": 0.4172,
+      "step": 460
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 4.8342765586960234e-05,
+      "loss": 0.4218,
+      "step": 470
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 4.823849175802113e-05,
+      "loss": 0.3584,
+      "step": 480
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 4.813115629474405e-05,
+      "loss": 0.3933,
+      "step": 490
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 4.802077333840561e-05,
+      "loss": 0.3943,
+      "step": 500
+    },
+    {
+      "epoch": 0.35,
+      "eval_loss": 0.4903396666049957,
+      "eval_runtime": 79.5297,
+      "eval_samples_per_second": 8.047,
+      "eval_steps_per_second": 2.012,
+      "step": 500
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 4.7907357431784786e-05,
+      "loss": 0.3576,
+      "step": 510
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 4.779092351724694e-05,
+      "loss": 0.3631,
+      "step": 520
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 4.767148693477517e-05,
+      "loss": 0.432,
+      "step": 530
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 4.75490634199493e-05,
+      "loss": 0.4042,
+      "step": 540
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 4.742366910187275e-05,
+      "loss": 0.3582,
+      "step": 550
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 4.7295320501047536e-05,
+      "loss": 0.3894,
+      "step": 560
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 4.716403452719773e-05,
+      "loss": 0.3687,
+      "step": 570
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 4.702982847704163e-05,
+      "loss": 0.3736,
+      "step": 580
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 4.6892720032012953e-05,
+      "loss": 0.4158,
+      "step": 590
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 4.6752727255931314e-05,
+      "loss": 0.3849,
+      "step": 600
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 4.660986859262236e-05,
+      "loss": 0.4131,
+      "step": 610
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 4.646416286348783e-05,
+      "loss": 0.3922,
+      "step": 620
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 4.631562926502584e-05,
+      "loss": 0.4013,
+      "step": 630
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 4.6164287366301816e-05,
+      "loss": 0.4209,
+      "step": 640
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 4.6010157106370266e-05,
+      "loss": 0.432,
+      "step": 650
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 4.5853258791647864e-05,
+      "loss": 0.4061,
+      "step": 660
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 4.569361309323809e-05,
+      "loss": 0.3992,
+      "step": 670
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 4.553124104420784e-05,
+      "loss": 0.4148,
+      "step": 680
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 4.536616403681642e-05,
+      "loss": 0.4124,
+      "step": 690
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 4.5198403819697045e-05,
+      "loss": 0.3989,
+      "step": 700
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 4.5027982494991574e-05,
+      "loss": 0.3927,
+      "step": 710
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 4.485492251543856e-05,
+      "loss": 0.415,
+      "step": 720
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 4.467924668141512e-05,
+      "loss": 0.3861,
+      "step": 730
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 4.450097813793305e-05,
+      "loss": 0.3943,
+      "step": 740
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 4.432014037158949e-05,
+      "loss": 0.3947,
+      "step": 750
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 4.4136757207472626e-05,
+      "loss": 0.4037,
+      "step": 760
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 4.3950852806022704e-05,
+      "loss": 0.3525,
+      "step": 770
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 4.376245165984903e-05,
+      "loss": 0.3653,
+      "step": 780
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 4.357157859050305e-05,
+      "loss": 0.3715,
+      "step": 790
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 4.3378258745208124e-05,
+      "loss": 0.3226,
+      "step": 800
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 4.318251759354648e-05,
+      "loss": 0.4124,
+      "step": 810
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 4.2984380924103614e-05,
+      "loss": 0.4113,
+      "step": 820
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 4.278387484107067e-05,
+      "loss": 0.4211,
+      "step": 830
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 4.258102576080526e-05,
+      "loss": 0.3897,
+      "step": 840
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 4.237586040835117e-05,
+      "loss": 0.3771,
+      "step": 850
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 4.2168405813917335e-05,
+      "loss": 0.3633,
+      "step": 860
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 4.1958689309316725e-05,
+      "loss": 0.3735,
+      "step": 870
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 4.174673852436535e-05,
+      "loss": 0.3905,
+      "step": 880
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 4.1532581383242094e-05,
+      "loss": 0.4141,
+      "step": 890
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 4.1316246100809784e-05,
+      "loss": 0.3535,
+      "step": 900
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 4.109776117889789e-05,
+      "loss": 0.3709,
+      "step": 910
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 4.087715540254747e-05,
+      "loss": 0.3693,
+      "step": 920
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 4.065445783621876e-05,
+      "loss": 0.3672,
+      "step": 930
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 4.042969781996203e-05,
+      "loss": 0.3624,
+      "step": 940
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 4.020290496555202e-05,
+      "loss": 0.3854,
+      "step": 950
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 3.997410915258669e-05,
+      "loss": 0.3877,
+      "step": 960
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 3.9743340524550596e-05,
+      "loss": 0.3653,
+      "step": 970
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 3.9510629484843536e-05,
+      "loss": 0.3426,
+      "step": 980
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 3.9276006692774964e-05,
+      "loss": 0.4158,
+      "step": 990
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 3.903950305952466e-05,
+      "loss": 0.3796,
+      "step": 1000
+    },
+    {
+      "epoch": 0.69,
+      "eval_loss": 0.4698101580142975,
+      "eval_runtime": 79.5766,
+      "eval_samples_per_second": 8.043,
+      "eval_steps_per_second": 2.011,
+      "step": 1000
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 3.880114974407024e-05,
+      "loss": 0.3567,
+      "step": 1010
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 3.8560978149082026e-05,
+      "loss": 0.3904,
+      "step": 1020
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 3.831901991678576e-05,
+      "loss": 0.35,
+      "step": 1030
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 3.807530692479382e-05,
+      "loss": 0.3931,
+      "step": 1040
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 3.7829871281905354e-05,
+      "loss": 0.3523,
+      "step": 1050
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 3.7582745323876076e-05,
+      "loss": 0.3798,
+      "step": 1060
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 3.7333961609157986e-05,
+      "loss": 0.3955,
+      "step": 1070
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 3.708355291460992e-05,
+      "loss": 0.3749,
+      "step": 1080
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 3.683155223117922e-05,
+      "loss": 0.395,
+      "step": 1090
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 3.657799275955522e-05,
+      "loss": 0.3852,
+      "step": 1100
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 3.632290790579512e-05,
+      "loss": 0.3744,
+      "step": 1110
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 3.60663312769228e-05,
+      "loss": 0.3901,
+      "step": 1120
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 3.580829667650114e-05,
+      "loss": 0.3669,
+      "step": 1130
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 3.554883810017844e-05,
+      "loss": 0.3951,
+      "step": 1140
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 3.528798973120959e-05,
+      "loss": 0.3885,
+      "step": 1150
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 3.5025785935952404e-05,
+      "loss": 0.36,
+      "step": 1160
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 3.476226125934e-05,
+      "loss": 0.3997,
+      "step": 1170
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 3.4497450420329485e-05,
+      "loss": 0.3966,
+      "step": 1180
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 3.423138830732783e-05,
+      "loss": 0.367,
+      "step": 1190
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 3.396410997359537e-05,
+      "loss": 0.3615,
+      "step": 1200
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 3.3695650632627576e-05,
+      "loss": 0.3618,
+      "step": 1210
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 3.342604565351573e-05,
+      "loss": 0.3984,
+      "step": 1220
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 3.315533055628716e-05,
+      "loss": 0.3856,
+      "step": 1230
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 3.288354100722545e-05,
+      "loss": 0.4113,
+      "step": 1240
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 3.2610712814171534e-05,
+      "loss": 0.4048,
+      "step": 1250
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 3.233688192180602e-05,
+      "loss": 0.3547,
+      "step": 1260
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 3.206208440691356e-05,
+      "loss": 0.3758,
+      "step": 1270
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 3.17863564736298e-05,
+      "loss": 0.3788,
+      "step": 1280
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 3.150973444867151e-05,
+      "loss": 0.3839,
+      "step": 1290
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 3.123225477655063e-05,
+      "loss": 0.355,
+      "step": 1300
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 3.095395401477274e-05,
+      "loss": 0.4029,
+      "step": 1310
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 3.067486882902069e-05,
+      "loss": 0.3823,
+      "step": 1320
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 3.039503598832394e-05,
+      "loss": 0.3735,
+      "step": 1330
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 3.011449236021428e-05,
+      "loss": 0.3794,
+      "step": 1340
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 2.9833274905868635e-05,
+      "loss": 0.3865,
+      "step": 1350
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 2.955142067523945e-05,
+      "loss": 0.3723,
+      "step": 1360
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 2.9268966802173436e-05,
+      "loss": 0.3733,
+      "step": 1370
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 2.898595049951926e-05,
+      "loss": 0.3802,
+      "step": 1380
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 2.8702409054224762e-05,
+      "loss": 0.3808,
+      "step": 1390
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 2.8418379822424514e-05,
+      "loss": 0.3666,
+      "step": 1400
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 2.8133900224518167e-05,
+      "loss": 0.4061,
+      "step": 1410
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 2.784900774024041e-05,
+      "loss": 0.3445,
+      "step": 1420
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 2.7563739903723024e-05,
+      "loss": 0.363,
+      "step": 1430
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 2.7278134298549883e-05,
+      "loss": 0.3969,
+      "step": 1440
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 2.6992228552805342e-05,
+      "loss": 0.3143,
+      "step": 1450
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 2.6706060334116777e-05,
+      "loss": 0.3433,
+      "step": 1460
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 2.6419667344691974e-05,
+      "loss": 0.3077,
+      "step": 1470
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 2.613308731635189e-05,
+      "loss": 0.3177,
+      "step": 1480
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 2.5846358005559584e-05,
+      "loss": 0.3146,
+      "step": 1490
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 2.5559517188445825e-05,
+      "loss": 0.353,
+      "step": 1500
+    },
+    {
+      "epoch": 1.04,
+      "eval_loss": 0.4521051347255707,
+      "eval_runtime": 79.5515,
+      "eval_samples_per_second": 8.045,
+      "eval_steps_per_second": 2.011,
+      "step": 1500
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 2.527260265583216e-05,
+      "loss": 0.3193,
+      "step": 1510
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 2.4985652208252055e-05,
+      "loss": 0.3137,
+      "step": 1520
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 2.4698703650970705e-05,
+      "loss": 0.2973,
+      "step": 1530
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 2.4411794789004254e-05,
+      "loss": 0.3087,
+      "step": 1540
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 2.412496342213905e-05,
+      "loss": 0.2978,
+      "step": 1550
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 2.3838247339951595e-05,
+      "loss": 0.3012,
+      "step": 1560
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 2.355168431682982e-05,
+      "loss": 0.3112,
+      "step": 1570
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 2.3265312106996367e-05,
+      "loss": 0.3282,
+      "step": 1580
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 2.2979168439534505e-05,
+      "loss": 0.3003,
+      "step": 1590
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 2.2693291013417453e-05,
+      "loss": 0.3309,
+      "step": 1600
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 2.2407717492541526e-05,
+      "loss": 0.3306,
+      "step": 1610
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 2.2122485500763997e-05,
+      "loss": 0.2955,
+      "step": 1620
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 2.1837632616946266e-05,
+      "loss": 0.3153,
+      "step": 1630
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 2.1553196370002824e-05,
+      "loss": 0.3004,
+      "step": 1640
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 2.1269214233956922e-05,
+      "loss": 0.3089,
+      "step": 1650
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 2.0985723623003433e-05,
+      "loss": 0.3178,
+      "step": 1660
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 2.070276188657959e-05,
+      "loss": 0.3203,
+      "step": 1670
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 2.042036630444421e-05,
+      "loss": 0.3192,
+      "step": 1680
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 2.0138574081766224e-05,
+      "loss": 0.3271,
+      "step": 1690
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 1.9857422344222895e-05,
+      "loss": 0.304,
+      "step": 1700
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 1.9576948133108585e-05,
+      "loss": 0.3135,
+      "step": 1710
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 1.929718840045463e-05,
+      "loss": 0.3074,
+      "step": 1720
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 1.9018180004160967e-05,
+      "loss": 0.3077,
+      "step": 1730
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 1.8739959703140167e-05,
+      "loss": 0.3066,
+      "step": 1740
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 1.846256415247449e-05,
+      "loss": 0.302,
+      "step": 1750
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 1.8186029898586646e-05,
+      "loss": 0.3125,
+      "step": 1760
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 1.791039337442489e-05,
+      "loss": 0.3242,
+      "step": 1770
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 1.7635690894662986e-05,
+      "loss": 0.2919,
+      "step": 1780
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 1.7361958650915844e-05,
+      "loss": 0.2989,
+      "step": 1790
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 1.7089232706971313e-05,
+      "loss": 0.2763,
+      "step": 1800
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 1.6817548994038864e-05,
+      "loss": 0.3313,
+      "step": 1810
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 1.6546943306015667e-05,
+      "loss": 0.3257,
+      "step": 1820
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 1.6277451294770834e-05,
+      "loss": 0.294,
+      "step": 1830
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 1.6009108465448332e-05,
+      "loss": 0.3138,
+      "step": 1840
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 1.5741950171789245e-05,
+      "loss": 0.3267,
+      "step": 1850
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 1.5476011611473944e-05,
+      "loss": 0.2859,
+      "step": 1860
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 1.52113278214849e-05,
+      "loss": 0.3092,
+      "step": 1870
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 1.4947933673490567e-05,
+      "loss": 0.3094,
+      "step": 1880
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 1.468586386925113e-05,
+      "loss": 0.3053,
+      "step": 1890
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 1.4425152936046568e-05,
+      "loss": 0.3089,
+      "step": 1900
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 1.4165835222127804e-05,
+      "loss": 0.2878,
+      "step": 1910
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 1.3907944892191294e-05,
+      "loss": 0.296,
+      "step": 1920
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 1.3651515922877933e-05,
+      "loss": 0.2979,
+      "step": 1930
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 1.3396582098296705e-05,
+      "loss": 0.3373,
+      "step": 1940
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 1.3143177005573626e-05,
+      "loss": 0.305,
+      "step": 1950
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 1.2891334030426722e-05,
+      "loss": 0.3245,
+      "step": 1960
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 1.2641086352767506e-05,
+      "loss": 0.3012,
+      "step": 1970
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 1.2392466942329616e-05,
+      "loss": 0.316,
+      "step": 1980
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 1.2145508554325043e-05,
+      "loss": 0.2949,
+      "step": 1990
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 1.1900243725128715e-05,
+      "loss": 0.3173,
+      "step": 2000
+    },
+    {
+      "epoch": 1.39,
+      "eval_loss": 0.44626814126968384,
+      "eval_runtime": 79.5481,
+      "eval_samples_per_second": 8.045,
+      "eval_steps_per_second": 2.011,
+      "step": 2000
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 1.1656704767991902e-05,
+      "loss": 0.3123,
+      "step": 2010
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 1.1414923768784953e-05,
+      "loss": 0.3117,
+      "step": 2020
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 1.117493258177006e-05,
+      "loss": 0.2914,
+      "step": 2030
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 1.0936762825404492e-05,
+      "loss": 0.2955,
+      "step": 2040
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 1.0700445878174969e-05,
+      "loss": 0.2983,
+      "step": 2050
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 1.0466012874463507e-05,
+      "loss": 0.31,
+      "step": 2060
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 1.0233494700445573e-05,
+      "loss": 0.295,
+      "step": 2070
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 1.0002921990020885e-05,
+      "loss": 0.3042,
+      "step": 2080
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 9.774325120777405e-06,
+      "loss": 0.3037,
+      "step": 2090
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 9.547734209989168e-06,
+      "loss": 0.2866,
+      "step": 2100
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 9.323179110648361e-06,
+      "loss": 0.2923,
+      "step": 2110
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 9.100689407532278e-06,
+      "loss": 0.3533,
+      "step": 2120
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 8.880294413305523e-06,
+      "loss": 0.3055,
+      "step": 2130
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 8.662023164658125e-06,
+      "loss": 0.2817,
+      "step": 2140
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 8.445904418480044e-06,
+      "loss": 0.2986,
+      "step": 2150
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 8.231966648072432e-06,
+      "loss": 0.2918,
+      "step": 2160
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 8.020238039396352e-06,
+      "loss": 0.3322,
+      "step": 2170
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 7.810746487359351e-06,
+      "loss": 0.3345,
+      "step": 2180
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 7.603519592140293e-06,
+      "loss": 0.29,
+      "step": 2190
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 7.398584655553109e-06,
+      "loss": 0.2871,
+      "step": 2200
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 7.195968677449827e-06,
+      "loss": 0.2861,
+      "step": 2210
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 6.995698352163402e-06,
+      "loss": 0.3197,
+      "step": 2220
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 6.7978000649907335e-06,
+      "loss": 0.3123,
+      "step": 2230
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 6.602299888716479e-06,
+      "loss": 0.3117,
+      "step": 2240
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 6.409223580178009e-06,
+      "loss": 0.3292,
+      "step": 2250
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 6.218596576871963e-06,
+      "loss": 0.2987,
+      "step": 2260
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 6.0304439936029135e-06,
+      "loss": 0.2915,
+      "step": 2270
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 5.84479061917452e-06,
+      "loss": 0.2838,
+      "step": 2280
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 5.661660913123673e-06,
+      "loss": 0.3064,
+      "step": 2290
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 5.481079002497947e-06,
+      "loss": 0.3264,
+      "step": 2300
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 5.30306867867692e-06,
+      "loss": 0.2947,
+      "step": 2310
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 5.127653394237717e-06,
+      "loss": 0.2978,
+      "step": 2320
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 4.9548562598651286e-06,
+      "loss": 0.2788,
+      "step": 2330
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 4.78470004130685e-06,
+      "loss": 0.3119,
+      "step": 2340
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 4.61720715637411e-06,
+      "loss": 0.2923,
+      "step": 2350
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 4.452399671988175e-06,
+      "loss": 0.2904,
+      "step": 2360
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 4.290299301273054e-06,
+      "loss": 0.2994,
+      "step": 2370
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 4.130927400694831e-06,
+      "loss": 0.3022,
+      "step": 2380
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 3.974304967248002e-06,
+      "loss": 0.3162,
+      "step": 2390
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 3.820452635689126e-06,
+      "loss": 0.3139,
+      "step": 2400
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 3.6693906758182462e-06,
+      "loss": 0.3179,
+      "step": 2410
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 3.521138989808373e-06,
+      "loss": 0.3531,
+      "step": 2420
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 3.3757171095834124e-06,
+      "loss": 0.2865,
+      "step": 2430
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 3.2331441942448442e-06,
+      "loss": 0.3204,
+      "step": 2440
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 3.093439027547562e-06,
+      "loss": 0.2953,
+      "step": 2450
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 2.9566200154251407e-06,
+      "loss": 0.2895,
+      "step": 2460
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 2.8227051835648722e-06,
+      "loss": 0.3028,
+      "step": 2470
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 2.691712175032912e-06,
+      "loss": 0.2979,
+      "step": 2480
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 2.5636582479498517e-06,
+      "loss": 0.2922,
+      "step": 2490
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 2.4385602732169692e-06,
+      "loss": 0.3276,
+      "step": 2500
+    },
+    {
+      "epoch": 1.73,
+      "eval_loss": 0.44305261969566345,
+      "eval_runtime": 79.5937,
+      "eval_samples_per_second": 8.041,
+      "eval_steps_per_second": 2.01,
+      "step": 2500
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 2.3164347322935128e-06,
+      "loss": 0.324,
+      "step": 2510
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 2.1972977150253064e-06,
+      "loss": 0.3013,
+      "step": 2520
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 2.0811649175249497e-06,
+      "loss": 0.2888,
+      "step": 2530
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 1.9680516401038435e-06,
+      "loss": 0.3062,
+      "step": 2540
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 1.8579727852564287e-06,
+      "loss": 0.329,
+      "step": 2550
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 1.750942855696802e-06,
+      "loss": 0.3261,
+      "step": 2560
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 1.6469759524479933e-06,
+      "loss": 0.3179,
+      "step": 2570
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 1.5460857729841877e-06,
+      "loss": 0.3144,
+      "step": 2580
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 1.448285609426106e-06,
+      "loss": 0.333,
+      "step": 2590
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 1.3535883467897914e-06,
+      "loss": 0.3049,
+      "step": 2600
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 1.2620064612890142e-06,
+      "loss": 0.3349,
+      "step": 2610
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 1.1735520186915678e-06,
+      "loss": 0.2748,
+      "step": 2620
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 1.0882366727296173e-06,
+      "loss": 0.3011,
+      "step": 2630
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 1.0060716635643313e-06,
+      "loss": 0.3385,
+      "step": 2640
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 9.270678163050217e-07,
+      "loss": 0.2985,
+      "step": 2650
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 8.512355395829341e-07,
+      "loss": 0.2894,
+      "step": 2660
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 7.785848241799564e-07,
+      "loss": 0.2569,
+      "step": 2670
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 7.09125241712319e-07,
+      "loss": 0.3214,
+      "step": 2680
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 6.42865943369561e-07,
+      "loss": 0.2708,
+      "step": 2690
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 5.798156587088877e-07,
+      "loss": 0.3013,
+      "step": 2700
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 5.199826945050473e-07,
+      "loss": 0.3242,
+      "step": 2710
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 4.6337493365592733e-07,
+      "loss": 0.305,
+      "step": 2720
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 4.0999983414401754e-07,
+      "loss": 0.3078,
+      "step": 2730
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 3.598644280538049e-07,
+      "loss": 0.3247,
+      "step": 2740
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 3.129753206453201e-07,
+      "loss": 0.2903,
+      "step": 2750
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 2.6933868948390284e-07,
+      "loss": 0.3032,
+      "step": 2760
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 2.2896028362633383e-07,
+      "loss": 0.3086,
+      "step": 2770
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 1.9184542286337092e-07,
+      "loss": 0.3085,
+      "step": 2780
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 1.5799899701890443e-07,
+      "loss": 0.3126,
+      "step": 2790
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 1.2742546530572496e-07,
+      "loss": 0.328,
+      "step": 2800
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 1.0012885573802145e-07,
+      "loss": 0.2739,
+      "step": 2810
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 7.611276460069428e-08,
+      "loss": 0.2971,
+      "step": 2820
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 5.538035597556779e-08,
+      "loss": 0.3123,
+      "step": 2830
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 3.7934361324512556e-08,
+      "loss": 0.3296,
+      "step": 2840
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 2.377707912958327e-08,
+      "loss": 0.2975,
+      "step": 2850
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 1.2910374590194285e-08,
+      "loss": 0.3368,
+      "step": 2860
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 5.335679377391212e-09,
+      "loss": 0.3273,
+      "step": 2870
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 1.0539914452267762e-09,
+      "loss": 0.2978,
+      "step": 2880
+    },
+    {
+      "epoch": 2.0,
+      "step": 2882,
+      "total_flos": 2.5530693253595136e+17,
+      "train_loss": 0.3615408574310464,
+      "train_runtime": 5165.0048,
+      "train_samples_per_second": 2.231,
+      "train_steps_per_second": 0.558
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 2882,
+  "num_train_epochs": 2,
+  "save_steps": 500,
+  "total_flos": 2.5530693253595136e+17,
+  "trial_name": null,
+  "trial_params": null
+}