End of training

Browse files

Files changed (9) hide show

README.md +25 -61
adapter_config.json +7 -7
adapter_model.safetensors +2 -2
all_results.json +16 -5
eval_results.json +14 -0
metrics.json +1 -0
train_results.json +5 -5
trainer_state.json +324 -1938
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -18,14 +18,14 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0353
-- Precision Micro: 0.8057
-- Precision Macro: 0.7027
-- Recall Micro: 0.8057
-- Recall Macro: 0.6940
-- F1 Micro: 0.8057
-- F1 Macro: 0.6867
-- Accuracy: 0.8057
 ## Model description
@@ -45,70 +45,34 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 3e-05
-- train_batch_size: 4
 - eval_batch_size: 4
 - seed: 42
 - gradient_accumulation_steps: 4
-- total_train_batch_size: 16
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: constant
 - lr_scheduler_warmup_ratio: 0.03
-- num_epochs: 2.0
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss | Precision Micro | Precision Macro | Recall Micro | Recall Macro | F1 Micro | F1 Macro | Accuracy |
 |:-------------:|:-----:|:----:|:---------------:|:---------------:|:---------------:|:------------:|:------------:|:--------:|:--------:|:--------:|
-| 0.1114        | 0.04  | 50   | 0.2315          | 0.3613          | 0.1236          | 0.3613       | 0.1194       | 0.3613   | 0.0986   | 0.3613   |
-| 0.1009        | 0.08  | 100  | 0.1300          | 0.4868          | 0.2602          | 0.4868       | 0.2927       | 0.4868   | 0.2574   | 0.4868   |
-| 0.0655        | 0.12  | 150  | 0.1111          | 0.5821          | 0.4592          | 0.5821       | 0.3260       | 0.5821   | 0.3407   | 0.5821   |
-| 0.0675        | 0.16  | 200  | 0.0980          | 0.6104          | 0.4309          | 0.6104       | 0.4116       | 0.6104   | 0.3994   | 0.6104   |
-| 0.0613        | 0.2   | 250  | 0.0868          | 0.6349          | 0.5027          | 0.6349       | 0.4238       | 0.6349   | 0.4328   | 0.6349   |
-| 0.0423        | 0.24  | 300  | 0.0829          | 0.6406          | 0.4971          | 0.6406       | 0.5150       | 0.6406   | 0.4838   | 0.6406   |
-| 0.0495        | 0.28  | 350  | 0.0647          | 0.6840          | 0.5621          | 0.6840       | 0.5110       | 0.6840   | 0.5118   | 0.6840   |
-| 0.0696        | 0.32  | 400  | 0.0583          | 0.7236          | 0.5854          | 0.7236       | 0.5476       | 0.7236   | 0.5523   | 0.7236   |
-| 0.0551        | 0.36  | 450  | 0.0470          | 0.7538          | 0.6037          | 0.7538       | 0.5804       | 0.7538   | 0.5801   | 0.7538   |
-| 0.0485        | 0.4   | 500  | 0.0467          | 0.7632          | 0.6244          | 0.7632       | 0.6093       | 0.7632   | 0.5976   | 0.7632   |
-| 0.0514        | 0.44  | 550  | 0.0491          | 0.7453          | 0.6624          | 0.7453       | 0.6055       | 0.7453   | 0.6149   | 0.7453   |
-| 0.0537        | 0.48  | 600  | 0.0469          | 0.7547          | 0.6565          | 0.7547       | 0.6140       | 0.7547   | 0.5956   | 0.7547   |
-| 0.0503        | 0.52  | 650  | 0.0473          | 0.7434          | 0.6365          | 0.7434       | 0.5711       | 0.7434   | 0.5711   | 0.7434   |
-| 0.0502        | 0.56  | 700  | 0.0429          | 0.7991          | 0.6675          | 0.7991       | 0.6430       | 0.7991   | 0.6487   | 0.7991   |
-| 0.0568        | 0.6   | 750  | 0.0421          | 0.7830          | 0.6400          | 0.7830       | 0.6197       | 0.7830   | 0.6035   | 0.7830   |
-| 0.0456        | 0.64  | 800  | 0.0385          | 0.8038          | 0.6660          | 0.8038       | 0.7100       | 0.8038   | 0.6795   | 0.8038   |
-| 0.0465        | 0.68  | 850  | 0.0423          | 0.7868          | 0.7080          | 0.7868       | 0.6536       | 0.7868   | 0.6638   | 0.7868   |
-| 0.0517        | 0.72  | 900  | 0.0405          | 0.7830          | 0.6482          | 0.7830       | 0.5953       | 0.7830   | 0.6044   | 0.7830   |
-| 0.0449        | 0.76  | 950  | 0.0395          | 0.7962          | 0.6783          | 0.7962       | 0.6782       | 0.7962   | 0.6595   | 0.7962   |
-| 0.0438        | 0.79  | 1000 | 0.0415          | 0.7651          | 0.6310          | 0.7651       | 0.6519       | 0.7651   | 0.6270   | 0.7651   |
-| 0.0368        | 0.83  | 1050 | 0.0367          | 0.8142          | 0.7077          | 0.8142       | 0.6998       | 0.8142   | 0.6885   | 0.8142   |
-| 0.0351        | 0.87  | 1100 | 0.0350          | 0.8151          | 0.6864          | 0.8151       | 0.6838       | 0.8151   | 0.6796   | 0.8151   |
-| 0.042         | 0.91  | 1150 | 0.0362          | 0.8066          | 0.6895          | 0.8066       | 0.6593       | 0.8066   | 0.6627   | 0.8066   |
-| 0.0449        | 0.95  | 1200 | 0.0367          | 0.7925          | 0.6685          | 0.7925       | 0.6671       | 0.7925   | 0.6583   | 0.7925   |
-| 0.0331        | 0.99  | 1250 | 0.0382          | 0.8019          | 0.6760          | 0.8019       | 0.6848       | 0.8019   | 0.6661   | 0.8019   |
-| 0.0367        | 1.03  | 1300 | 0.0372          | 0.8038          | 0.7119          | 0.8038       | 0.6501       | 0.8038   | 0.6590   | 0.8038   |
-| 0.0357        | 1.07  | 1350 | 0.0375          | 0.7991          | 0.6822          | 0.7991       | 0.6657       | 0.7991   | 0.6639   | 0.7991   |
-| 0.0405        | 1.11  | 1400 | 0.0354          | 0.8104          | 0.6735          | 0.8104       | 0.7011       | 0.8104   | 0.6823   | 0.8104   |
-| 0.0281        | 1.15  | 1450 | 0.0338          | 0.8302          | 0.6881          | 0.8302       | 0.7082       | 0.8302   | 0.6937   | 0.8302   |
-| 0.0362        | 1.19  | 1500 | 0.0351          | 0.8123          | 0.7044          | 0.8123       | 0.6559       | 0.8123   | 0.6607   | 0.8123   |
-| 0.0214        | 1.23  | 1550 | 0.0350          | 0.8104          | 0.7081          | 0.8104       | 0.6749       | 0.8104   | 0.6779   | 0.8104   |
-| 0.0321        | 1.27  | 1600 | 0.0368          | 0.8094          | 0.7541          | 0.8094       | 0.7254       | 0.8094   | 0.7278   | 0.8094   |
-| 0.0332        | 1.31  | 1650 | 0.0339          | 0.8255          | 0.7291          | 0.8255       | 0.7104       | 0.8255   | 0.7081   | 0.8255   |
-| 0.0306        | 1.35  | 1700 | 0.0339          | 0.8179          | 0.6816          | 0.8179       | 0.6804       | 0.8179   | 0.6770   | 0.8179   |
-| 0.0231        | 1.39  | 1750 | 0.0373          | 0.8179          | 0.6983          | 0.8179       | 0.6881       | 0.8179   | 0.6890   | 0.8179   |
-| 0.0351        | 1.43  | 1800 | 0.0356          | 0.8217          | 0.6989          | 0.8217       | 0.6917       | 0.8217   | 0.6893   | 0.8217   |
-| 0.0259        | 1.47  | 1850 | 0.0335          | 0.8208          | 0.6999          | 0.8208       | 0.6823       | 0.8208   | 0.6885   | 0.8208   |
-| 0.0371        | 1.51  | 1900 | 0.0367          | 0.8123          | 0.7412          | 0.8123       | 0.6617       | 0.8123   | 0.6817   | 0.8123   |
-| 0.0288        | 1.55  | 1950 | 0.0347          | 0.8179          | 0.6758          | 0.8179       | 0.6916       | 0.8179   | 0.6808   | 0.8179   |
-| 0.0252        | 1.59  | 2000 | 0.0357          | 0.8113          | 0.7003          | 0.8113       | 0.6714       | 0.8113   | 0.6787   | 0.8113   |
-| 0.0374        | 1.63  | 2050 | 0.0332          | 0.8208          | 0.7747          | 0.8208       | 0.7233       | 0.8208   | 0.7379   | 0.8208   |
-| 0.0356        | 1.67  | 2100 | 0.0323          | 0.8283          | 0.7425          | 0.8283       | 0.7046       | 0.8283   | 0.7162   | 0.8283   |
-| 0.0294        | 1.71  | 2150 | 0.0346          | 0.8113          | 0.7173          | 0.8113       | 0.7227       | 0.8113   | 0.7101   | 0.8113   |
-| 0.035         | 1.75  | 2200 | 0.0338          | 0.8236          | 0.7591          | 0.8236       | 0.7307       | 0.8236   | 0.7390   | 0.8236   |
-| 0.0432        | 1.79  | 2250 | 0.0348          | 0.8217          | 0.7694          | 0.8217       | 0.7204       | 0.8217   | 0.7295   | 0.8217   |
-| 0.0325        | 1.83  | 2300 | 0.0324          | 0.8330          | 0.7441          | 0.8330       | 0.7231       | 0.8330   | 0.7261   | 0.8330   |
-| 0.0318        | 1.87  | 2350 | 0.0321          | 0.8311          | 0.7397          | 0.8311       | 0.7241       | 0.8311   | 0.7248   | 0.8311   |
-| 0.0315        | 1.91  | 2400 | 0.0335          | 0.8179          | 0.6793          | 0.8179       | 0.7035       | 0.8179   | 0.6858   | 0.8179   |
-| 0.0331        | 1.95  | 2450 | 0.0335          | 0.8179          | 0.7295          | 0.8179       | 0.6879       | 0.8179   | 0.6956   | 0.8179   |
-| 0.0293        | 1.99  | 2500 | 0.0353          | 0.8057          | 0.7027          | 0.8057       | 0.6940       | 0.8057   | 0.6867   | 0.8057   |
 ### Framework versions

 This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.0357
+- Precision Micro: 0.8047
+- Precision Macro: 0.6995
+- Recall Micro: 0.8047
+- Recall Macro: 0.6609
+- F1 Micro: 0.8047
+- F1 Macro: 0.6661
+- Accuracy: 0.8047
 ## Model description
 The following hyperparameters were used during training:
 - learning_rate: 3e-05
+- train_batch_size: 8
 - eval_batch_size: 4
 - seed: 42
 - gradient_accumulation_steps: 4
+- total_train_batch_size: 32
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: constant
 - lr_scheduler_warmup_ratio: 0.03
+- training_steps: 725
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss | Precision Micro | Precision Macro | Recall Micro | Recall Macro | F1 Micro | F1 Macro | Accuracy |
 |:-------------:|:-----:|:----:|:---------------:|:---------------:|:---------------:|:------------:|:------------:|:--------:|:--------:|:--------:|
+| 0.0886        | 0.08  | 50   | 0.1082          | 0.5774          | 0.3988          | 0.5774       | 0.3124       | 0.5774   | 0.3222   | 0.5774   |
+| 0.0572        | 0.16  | 100  | 0.0832          | 0.5877          | 0.4716          | 0.5877       | 0.3681       | 0.5877   | 0.3797   | 0.5877   |
+| 0.0496        | 0.24  | 150  | 0.0525          | 0.7311          | 0.5911          | 0.7311       | 0.5747       | 0.7311   | 0.5703   | 0.7311   |
+| 0.0541        | 0.32  | 200  | 0.0464          | 0.7566          | 0.6151          | 0.7566       | 0.5606       | 0.7566   | 0.5584   | 0.7566   |
+| 0.0481        | 0.4   | 250  | 0.0433          | 0.7811          | 0.6636          | 0.7811       | 0.6514       | 0.7811   | 0.6369   | 0.7811   |
+| 0.053         | 0.48  | 300  | 0.0452          | 0.7632          | 0.6936          | 0.7632       | 0.6461       | 0.7632   | 0.6338   | 0.7632   |
+| 0.0401        | 0.56  | 350  | 0.0399          | 0.7943          | 0.7381          | 0.7943       | 0.6604       | 0.7943   | 0.6697   | 0.7943   |
+| 0.0509        | 0.64  | 400  | 0.0393          | 0.8009          | 0.6546          | 0.8009       | 0.6612       | 0.8009   | 0.6501   | 0.8009   |
+| 0.0474        | 0.72  | 450  | 0.0401          | 0.8019          | 0.7255          | 0.8019       | 0.6927       | 0.8019   | 0.6865   | 0.8019   |
+| 0.045         | 0.79  | 500  | 0.0379          | 0.8009          | 0.7147          | 0.8009       | 0.7108       | 0.8009   | 0.6977   | 0.8009   |
+| 0.0335        | 0.87  | 550  | 0.0369          | 0.8151          | 0.7046          | 0.8151       | 0.7335       | 0.8151   | 0.7135   | 0.8151   |
+| 0.0429        | 0.95  | 600  | 0.0367          | 0.7962          | 0.7081          | 0.7962       | 0.6959       | 0.7962   | 0.6878   | 0.7962   |
+| 0.0253        | 1.03  | 650  | 0.0342          | 0.8255          | 0.7370          | 0.8255       | 0.6975       | 0.8255   | 0.7098   | 0.8255   |
+| 0.0311        | 1.11  | 700  | 0.0357          | 0.8047          | 0.6995          | 0.8047       | 0.6609       | 0.8047   | 0.6661   | 0.8047   |
 ### Framework versions

adapter_config.json CHANGED Viewed

@@ -9,24 +9,24 @@
   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
-  "lora_alpha": 16,
   "lora_dropout": 0.1,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
   "peft_type": "LORA",
-  "r": 64,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "k_proj",
-    "gate_proj",
-    "score",
     "v_proj",
     "o_proj",
     "q_proj",
-    "down_proj",
-    "up_proj"
   ],
   "task_type": "SEQ_CLS"
 }

   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
+  "lora_alpha": 128.0,
   "lora_dropout": 0.1,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
   "peft_type": "LORA",
+  "r": 256,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "v_proj",
     "o_proj",
     "q_proj",
+    "score",
+    "up_proj",
+    "gate_proj",
+    "k_proj",
+    "down_proj"
   ],
   "task_type": "SEQ_CLS"
 }

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5a422c5174be4eb7630594a16f33d5bc3e20cdf0c0d2abdbf1a70dd0cd05a2b8
-size 337444704

 version https://git-lfs.github.com/spec/v1
+oid sha256:b4588a44476ad4d20a67980ab65272547e28c871b645204568d0aee1091e5f12
+size 1348832888

all_results.json CHANGED Viewed

@@ -1,7 +1,18 @@
 {
-    "epoch": 2.0,
-    "train_loss": 0.05790289470982191,
-    "train_runtime": 10296.0519,
-    "train_samples_per_second": 3.91,
-    "train_steps_per_second": 0.244
 }

 {
+    "epoch": 1.15,
+    "eval_accuracy": 0.8207547169811321,
+    "eval_f1_macro": 0.728031211883242,
+    "eval_f1_micro": 0.8207547169811321,
+    "eval_loss": 0.03309142589569092,
+    "eval_precision_macro": 0.7489147130312945,
+    "eval_precision_micro": 0.8207547169811321,
+    "eval_recall_macro": 0.7312128559829479,
+    "eval_recall_micro": 0.8207547169811321,
+    "eval_runtime": 66.9147,
+    "eval_samples_per_second": 15.841,
+    "eval_steps_per_second": 3.96,
+    "train_loss": 0.06415341473858932,
+    "train_runtime": 4786.626,
+    "train_samples_per_second": 4.847,
+    "train_steps_per_second": 0.151
 }

eval_results.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+    "epoch": 2.0,
+    "eval_accuracy": 0.8207547169811321,
+    "eval_f1_macro": 0.728031211883242,
+    "eval_f1_micro": 0.8207547169811321,
+    "eval_loss": 0.03309142589569092,
+    "eval_precision_macro": 0.7489147130312945,
+    "eval_precision_micro": 0.8207547169811321,
+    "eval_recall_macro": 0.7312128559829479,
+    "eval_recall_micro": 0.8207547169811321,
+    "eval_runtime": 66.9147,
+    "eval_samples_per_second": 15.841,
+    "eval_steps_per_second": 3.96
+}

metrics.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"run_name": "./output", "train_runtime": 10296.0519, "train_samples_per_second": 3.91, "train_steps_per_second": 0.244, "train_loss": 0.05790289470982191, "epoch": 2.0, "eval_loss": 0.03309142589569092, "eval_precision_micro": 0.8207547169811321, "eval_precision_macro": 0.7489147130312945, "eval_recall_micro": 0.8207547169811321, "eval_recall_macro": 0.7312128559829479, "eval_f1_micro": 0.8207547169811321, "eval_f1_macro": 0.728031211883242, "eval_accuracy": 0.8207547169811321, "eval_runtime": 66.9147, "eval_samples_per_second": 15.841, "eval_steps_per_second": 3.96}

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-    "epoch": 2.0,
-    "train_loss": 0.05790289470982191,
-    "train_runtime": 10296.0519,
-    "train_samples_per_second": 3.91,
-    "train_steps_per_second": 0.244
 }

 {
+    "epoch": 1.15,
+    "train_loss": 0.06415341473858932,
+    "train_runtime": 4786.626,
+    "train_samples_per_second": 4.847,
+    "train_steps_per_second": 0.151
 }

trainer_state.json CHANGED Viewed

@@ -1,2286 +1,672 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.9996026226902444,
   "eval_steps": 50,
-  "global_step": 2516,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.01,
       "learning_rate": 3e-05,
-      "loss": 2.1025,
       "step": 10
     },
     {
-      "epoch": 0.02,
       "learning_rate": 3e-05,
-      "loss": 0.2678,
       "step": 20
     },
     {
-      "epoch": 0.02,
       "learning_rate": 3e-05,
-      "loss": 0.1686,
       "step": 30
     },
     {
-      "epoch": 0.03,
       "learning_rate": 3e-05,
-      "loss": 0.1283,
       "step": 40
     },
     {
-      "epoch": 0.04,
       "learning_rate": 3e-05,
-      "loss": 0.1114,
       "step": 50
     },
     {
-      "epoch": 0.04,
-      "eval_accuracy": 0.3613207547169811,
-      "eval_f1_macro": 0.09860460155366327,
-      "eval_f1_micro": 0.3613207547169811,
-      "eval_loss": 0.2315492480993271,
-      "eval_precision_macro": 0.12357052455449527,
-      "eval_precision_micro": 0.3613207547169811,
-      "eval_recall_macro": 0.11941290624193263,
-      "eval_recall_micro": 0.3613207547169811,
-      "eval_runtime": 66.9606,
-      "eval_samples_per_second": 15.83,
-      "eval_steps_per_second": 3.958,
       "step": 50
     },
     {
-      "epoch": 0.05,
       "learning_rate": 3e-05,
-      "loss": 0.6159,
       "step": 60
     },
     {
-      "epoch": 0.06,
       "learning_rate": 3e-05,
-      "loss": 0.1207,
       "step": 70
     },
     {
-      "epoch": 0.06,
       "learning_rate": 3e-05,
-      "loss": 0.0914,
       "step": 80
     },
     {
-      "epoch": 0.07,
       "learning_rate": 3e-05,
-      "loss": 0.0971,
       "step": 90
     },
     {
-      "epoch": 0.08,
       "learning_rate": 3e-05,
-      "loss": 0.1009,
       "step": 100
     },
     {
-      "epoch": 0.08,
-      "eval_accuracy": 0.4867924528301887,
-      "eval_f1_macro": 0.2574441564495774,
-      "eval_f1_micro": 0.4867924528301887,
-      "eval_loss": 0.1300116926431656,
-      "eval_precision_macro": 0.26018914773023644,
-      "eval_precision_micro": 0.4867924528301887,
-      "eval_recall_macro": 0.2927378841554505,
-      "eval_recall_micro": 0.4867924528301887,
-      "eval_runtime": 66.8969,
-      "eval_samples_per_second": 15.845,
-      "eval_steps_per_second": 3.961,
       "step": 100
     },
     {
-      "epoch": 0.09,
       "learning_rate": 3e-05,
-      "loss": 0.2813,
       "step": 110
     },
     {
-      "epoch": 0.1,
       "learning_rate": 3e-05,
-      "loss": 0.0721,
       "step": 120
     },
     {
-      "epoch": 0.1,
       "learning_rate": 3e-05,
-      "loss": 0.0789,
       "step": 130
     },
     {
-      "epoch": 0.11,
       "learning_rate": 3e-05,
-      "loss": 0.0559,
       "step": 140
     },
     {
-      "epoch": 0.12,
       "learning_rate": 3e-05,
-      "loss": 0.0655,
       "step": 150
     },
     {
-      "epoch": 0.12,
-      "eval_accuracy": 0.5820754716981132,
-      "eval_f1_macro": 0.3406909384301982,
-      "eval_f1_micro": 0.5820754716981132,
-      "eval_loss": 0.11111029237508774,
-      "eval_precision_macro": 0.4592469495612598,
-      "eval_precision_micro": 0.5820754716981132,
-      "eval_recall_macro": 0.32597718546465326,
-      "eval_recall_micro": 0.5820754716981132,
-      "eval_runtime": 67.3369,
-      "eval_samples_per_second": 15.742,
-      "eval_steps_per_second": 3.935,
       "step": 150
     },
     {
-      "epoch": 0.13,
       "learning_rate": 3e-05,
-      "loss": 0.2815,
       "step": 160
     },
     {
-      "epoch": 0.14,
       "learning_rate": 3e-05,
-      "loss": 0.0738,
       "step": 170
     },
     {
-      "epoch": 0.14,
       "learning_rate": 3e-05,
-      "loss": 0.06,
       "step": 180
     },
     {
-      "epoch": 0.15,
       "learning_rate": 3e-05,
-      "loss": 0.064,
       "step": 190
     },
     {
-      "epoch": 0.16,
       "learning_rate": 3e-05,
-      "loss": 0.0675,
       "step": 200
     },
     {
-      "epoch": 0.16,
-      "eval_accuracy": 0.6103773584905661,
-      "eval_f1_macro": 0.39941812670769666,
-      "eval_f1_micro": 0.6103773584905661,
-      "eval_loss": 0.09801042824983597,
-      "eval_precision_macro": 0.4309243547594424,
-      "eval_precision_micro": 0.6103773584905661,
-      "eval_recall_macro": 0.4115863977855726,
-      "eval_recall_micro": 0.6103773584905661,
-      "eval_runtime": 66.8379,
-      "eval_samples_per_second": 15.859,
-      "eval_steps_per_second": 3.965,
       "step": 200
     },
     {
-      "epoch": 0.17,
       "learning_rate": 3e-05,
-      "loss": 0.2238,
       "step": 210
     },
     {
-      "epoch": 0.17,
       "learning_rate": 3e-05,
-      "loss": 0.0665,
       "step": 220
     },
     {
-      "epoch": 0.18,
       "learning_rate": 3e-05,
-      "loss": 0.0526,
       "step": 230
     },
     {
-      "epoch": 0.19,
       "learning_rate": 3e-05,
-      "loss": 0.0622,
       "step": 240
     },
     {
-      "epoch": 0.2,
       "learning_rate": 3e-05,
-      "loss": 0.0613,
       "step": 250
     },
     {
-      "epoch": 0.2,
-      "eval_accuracy": 0.6349056603773585,
-      "eval_f1_macro": 0.43281084183779084,
-      "eval_f1_micro": 0.6349056603773585,
-      "eval_loss": 0.0867743045091629,
-      "eval_precision_macro": 0.5027159556787124,
-      "eval_precision_micro": 0.6349056603773585,
-      "eval_recall_macro": 0.42379042156244773,
-      "eval_recall_micro": 0.6349056603773585,
-      "eval_runtime": 66.7898,
-      "eval_samples_per_second": 15.871,
-      "eval_steps_per_second": 3.968,
       "step": 250
     },
     {
-      "epoch": 0.21,
       "learning_rate": 3e-05,
-      "loss": 0.211,
       "step": 260
     },
     {
-      "epoch": 0.21,
       "learning_rate": 3e-05,
-      "loss": 0.0642,
       "step": 270
     },
     {
-      "epoch": 0.22,
       "learning_rate": 3e-05,
-      "loss": 0.0571,
       "step": 280
     },
     {
-      "epoch": 0.23,
       "learning_rate": 3e-05,
-      "loss": 0.0595,
       "step": 290
     },
     {
-      "epoch": 0.24,
       "learning_rate": 3e-05,
-      "loss": 0.0423,
       "step": 300
     },
     {
-      "epoch": 0.24,
-      "eval_accuracy": 0.6405660377358491,
-      "eval_f1_macro": 0.48377541137861874,
-      "eval_f1_micro": 0.6405660377358491,
-      "eval_loss": 0.08292412012815475,
-      "eval_precision_macro": 0.4971153033333408,
-      "eval_precision_micro": 0.6405660377358491,
-      "eval_recall_macro": 0.5150079548728711,
-      "eval_recall_micro": 0.6405660377358491,
-      "eval_runtime": 66.8647,
-      "eval_samples_per_second": 15.853,
-      "eval_steps_per_second": 3.963,
       "step": 300
     },
     {
-      "epoch": 0.25,
       "learning_rate": 3e-05,
-      "loss": 0.1501,
       "step": 310
     },
     {
-      "epoch": 0.25,
       "learning_rate": 3e-05,
-      "loss": 0.0583,
       "step": 320
     },
     {
-      "epoch": 0.26,
       "learning_rate": 3e-05,
-      "loss": 0.0406,
       "step": 330
     },
     {
-      "epoch": 0.27,
       "learning_rate": 3e-05,
-      "loss": 0.0512,
       "step": 340
     },
     {
-      "epoch": 0.28,
       "learning_rate": 3e-05,
-      "loss": 0.0495,
       "step": 350
     },
     {
-      "epoch": 0.28,
-      "eval_accuracy": 0.6839622641509434,
-      "eval_f1_macro": 0.5117892165590059,
-      "eval_f1_micro": 0.6839622641509434,
-      "eval_loss": 0.06472181528806686,
-      "eval_precision_macro": 0.5620645130448471,
-      "eval_precision_micro": 0.6839622641509434,
-      "eval_recall_macro": 0.5110243944495119,
-      "eval_recall_micro": 0.6839622641509434,
-      "eval_runtime": 66.951,
-      "eval_samples_per_second": 15.832,
-      "eval_steps_per_second": 3.958,
       "step": 350
     },
     {
-      "epoch": 0.29,
       "learning_rate": 3e-05,
-      "loss": 0.126,
       "step": 360
     },
     {
-      "epoch": 0.29,
       "learning_rate": 3e-05,
-      "loss": 0.0659,
       "step": 370
     },
     {
-      "epoch": 0.3,
       "learning_rate": 3e-05,
-      "loss": 0.0521,
       "step": 380
     },
     {
-      "epoch": 0.31,
       "learning_rate": 3e-05,
-      "loss": 0.0558,
       "step": 390
     },
     {
-      "epoch": 0.32,
       "learning_rate": 3e-05,
-      "loss": 0.0696,
       "step": 400
     },
     {
-      "epoch": 0.32,
-      "eval_accuracy": 0.7235849056603774,
-      "eval_f1_macro": 0.5523304099808589,
-      "eval_f1_micro": 0.7235849056603774,
-      "eval_loss": 0.05833260715007782,
-      "eval_precision_macro": 0.5853706474287289,
-      "eval_precision_micro": 0.7235849056603774,
-      "eval_recall_macro": 0.5476004753387752,
-      "eval_recall_micro": 0.7235849056603774,
-      "eval_runtime": 67.3456,
-      "eval_samples_per_second": 15.74,
-      "eval_steps_per_second": 3.935,
       "step": 400
     },
     {
-      "epoch": 0.33,
       "learning_rate": 3e-05,
-      "loss": 0.0861,
       "step": 410
     },
     {
-      "epoch": 0.33,
       "learning_rate": 3e-05,
-      "loss": 0.0457,
       "step": 420
     },
     {
-      "epoch": 0.34,
       "learning_rate": 3e-05,
-      "loss": 0.0549,
       "step": 430
     },
     {
-      "epoch": 0.35,
       "learning_rate": 3e-05,
-      "loss": 0.0505,
       "step": 440
     },
     {
-      "epoch": 0.36,
       "learning_rate": 3e-05,
-      "loss": 0.0551,
       "step": 450
     },
     {
-      "epoch": 0.36,
-      "eval_accuracy": 0.7537735849056604,
-      "eval_f1_macro": 0.580144082849279,
-      "eval_f1_micro": 0.7537735849056603,
-      "eval_loss": 0.04702736809849739,
-      "eval_precision_macro": 0.6037061602706483,
-      "eval_precision_micro": 0.7537735849056604,
-      "eval_recall_macro": 0.5804359588026832,
-      "eval_recall_micro": 0.7537735849056604,
-      "eval_runtime": 66.8194,
-      "eval_samples_per_second": 15.864,
-      "eval_steps_per_second": 3.966,
       "step": 450
     },
     {
-      "epoch": 0.37,
       "learning_rate": 3e-05,
-      "loss": 0.0701,
       "step": 460
     },
     {
-      "epoch": 0.37,
       "learning_rate": 3e-05,
-      "loss": 0.0483,
       "step": 470
     },
     {
-      "epoch": 0.38,
       "learning_rate": 3e-05,
-      "loss": 0.0427,
       "step": 480
     },
     {
-      "epoch": 0.39,
       "learning_rate": 3e-05,
-      "loss": 0.0437,
       "step": 490
     },
     {
-      "epoch": 0.4,
       "learning_rate": 3e-05,
-      "loss": 0.0485,
       "step": 500
     },
     {
-      "epoch": 0.4,
-      "eval_accuracy": 0.7632075471698113,
-      "eval_f1_macro": 0.5976025328641371,
-      "eval_f1_micro": 0.7632075471698113,
-      "eval_loss": 0.046745266765356064,
-      "eval_precision_macro": 0.6244027962032025,
-      "eval_precision_micro": 0.7632075471698113,
-      "eval_recall_macro": 0.6092701629048938,
-      "eval_recall_micro": 0.7632075471698113,
-      "eval_runtime": 66.8345,
-      "eval_samples_per_second": 15.86,
-      "eval_steps_per_second": 3.965,
       "step": 500
     },
     {
-      "epoch": 0.41,
       "learning_rate": 3e-05,
-      "loss": 0.0676,
       "step": 510
     },
     {
-      "epoch": 0.41,
       "learning_rate": 3e-05,
-      "loss": 0.0424,
       "step": 520
     },
     {
-      "epoch": 0.42,
       "learning_rate": 3e-05,
-      "loss": 0.0533,
       "step": 530
     },
     {
-      "epoch": 0.43,
       "learning_rate": 3e-05,
-      "loss": 0.0405,
       "step": 540
     },
     {
-      "epoch": 0.44,
       "learning_rate": 3e-05,
-      "loss": 0.0514,
       "step": 550
     },
     {
-      "epoch": 0.44,
-      "eval_accuracy": 0.7452830188679245,
-      "eval_f1_macro": 0.6148723643378806,
-      "eval_f1_micro": 0.7452830188679244,
-      "eval_loss": 0.0491117425262928,
-      "eval_precision_macro": 0.6623956744108057,
-      "eval_precision_micro": 0.7452830188679245,
-      "eval_recall_macro": 0.6055074363524768,
-      "eval_recall_micro": 0.7452830188679245,
-      "eval_runtime": 66.8014,
-      "eval_samples_per_second": 15.868,
-      "eval_steps_per_second": 3.967,
       "step": 550
     },
     {
-      "epoch": 0.45,
       "learning_rate": 3e-05,
-      "loss": 0.0657,
       "step": 560
     },
     {
-      "epoch": 0.45,
       "learning_rate": 3e-05,
-      "loss": 0.0491,
       "step": 570
     },
     {
-      "epoch": 0.46,
       "learning_rate": 3e-05,
-      "loss": 0.0415,
       "step": 580
     },
     {
-      "epoch": 0.47,
       "learning_rate": 3e-05,
-      "loss": 0.0485,
       "step": 590
     },
     {
-      "epoch": 0.48,
       "learning_rate": 3e-05,
-      "loss": 0.0537,
       "step": 600
     },
     {
-      "epoch": 0.48,
-      "eval_accuracy": 0.7547169811320755,
-      "eval_f1_macro": 0.5955912007854481,
-      "eval_f1_micro": 0.7547169811320754,
-      "eval_loss": 0.04687512293457985,
-      "eval_precision_macro": 0.6564521374886103,
-      "eval_precision_micro": 0.7547169811320755,
-      "eval_recall_macro": 0.6140077817767989,
-      "eval_recall_micro": 0.7547169811320755,
-      "eval_runtime": 67.0823,
-      "eval_samples_per_second": 15.801,
-      "eval_steps_per_second": 3.95,
       "step": 600
     },
     {
-      "epoch": 0.48,
       "learning_rate": 3e-05,
-      "loss": 0.0494,
       "step": 610
     },
     {
-      "epoch": 0.49,
       "learning_rate": 3e-05,
-      "loss": 0.0472,
       "step": 620
     },
     {
-      "epoch": 0.5,
       "learning_rate": 3e-05,
-      "loss": 0.045,
       "step": 630
     },
     {
-      "epoch": 0.51,
       "learning_rate": 3e-05,
-      "loss": 0.0447,
       "step": 640
     },
     {
-      "epoch": 0.52,
       "learning_rate": 3e-05,
-      "loss": 0.0503,
       "step": 650
     },
     {
-      "epoch": 0.52,
-      "eval_accuracy": 0.7433962264150943,
-      "eval_f1_macro": 0.5711369889957133,
-      "eval_f1_micro": 0.7433962264150943,
-      "eval_loss": 0.04730157181620598,
-      "eval_precision_macro": 0.6365229300442473,
-      "eval_precision_micro": 0.7433962264150943,
-      "eval_recall_macro": 0.5711131524489298,
-      "eval_recall_micro": 0.7433962264150943,
-      "eval_runtime": 66.9933,
-      "eval_samples_per_second": 15.822,
-      "eval_steps_per_second": 3.956,
       "step": 650
     },
     {
-      "epoch": 0.52,
       "learning_rate": 3e-05,
-      "loss": 0.0632,
       "step": 660
     },
     {
-      "epoch": 0.53,
       "learning_rate": 3e-05,
-      "loss": 0.0525,
       "step": 670
     },
     {
-      "epoch": 0.54,
       "learning_rate": 3e-05,
-      "loss": 0.0369,
       "step": 680
     },
     {
-      "epoch": 0.55,
       "learning_rate": 3e-05,
-      "loss": 0.0392,
       "step": 690
     },
     {
-      "epoch": 0.56,
       "learning_rate": 3e-05,
-      "loss": 0.0502,
       "step": 700
     },
     {
-      "epoch": 0.56,
-      "eval_accuracy": 0.7990566037735849,
-      "eval_f1_macro": 0.6486516495348912,
-      "eval_f1_micro": 0.799056603773585,
-      "eval_loss": 0.04286834970116615,
-      "eval_precision_macro": 0.6674675949162269,
-      "eval_precision_micro": 0.7990566037735849,
-      "eval_recall_macro": 0.6430318401752134,
-      "eval_recall_micro": 0.7990566037735849,
-      "eval_runtime": 66.7816,
-      "eval_samples_per_second": 15.873,
-      "eval_steps_per_second": 3.968,
       "step": 700
     },
     {
-      "epoch": 0.56,
       "learning_rate": 3e-05,
-      "loss": 0.0562,
       "step": 710
     },
     {
-      "epoch": 0.57,
       "learning_rate": 3e-05,
-      "loss": 0.0417,
       "step": 720
     },
     {
-      "epoch": 0.58,
-      "learning_rate": 3e-05,
-      "loss": 0.0384,
-      "step": 730
-    },
-    {
-      "epoch": 0.59,
-      "learning_rate": 3e-05,
-      "loss": 0.0386,
-      "step": 740
-    },
-    {
-      "epoch": 0.6,
-      "learning_rate": 3e-05,
-      "loss": 0.0568,
-      "step": 750
-    },
-    {
-      "epoch": 0.6,
-      "eval_accuracy": 0.7830188679245284,
-      "eval_f1_macro": 0.6035355055785452,
-      "eval_f1_micro": 0.7830188679245284,
-      "eval_loss": 0.04214347526431084,
-      "eval_precision_macro": 0.6399716318087022,
-      "eval_precision_micro": 0.7830188679245284,
-      "eval_recall_macro": 0.6197061339803496,
-      "eval_recall_micro": 0.7830188679245284,
-      "eval_runtime": 66.9036,
-      "eval_samples_per_second": 15.844,
-      "eval_steps_per_second": 3.961,
-      "step": 750
-    },
-    {
-      "epoch": 0.6,
-      "learning_rate": 3e-05,
-      "loss": 0.0524,
-      "step": 760
-    },
-    {
-      "epoch": 0.61,
-      "learning_rate": 3e-05,
-      "loss": 0.0403,
-      "step": 770
-    },
-    {
-      "epoch": 0.62,
-      "learning_rate": 3e-05,
-      "loss": 0.0346,
-      "step": 780
-    },
-    {
-      "epoch": 0.63,
-      "learning_rate": 3e-05,
-      "loss": 0.0436,
-      "step": 790
-    },
-    {
-      "epoch": 0.64,
-      "learning_rate": 3e-05,
-      "loss": 0.0456,
-      "step": 800
-    },
-    {
-      "epoch": 0.64,
-      "eval_accuracy": 0.8037735849056604,
-      "eval_f1_macro": 0.6795100443217031,
-      "eval_f1_micro": 0.8037735849056604,
-      "eval_loss": 0.03851619362831116,
-      "eval_precision_macro": 0.6660272950062351,
-      "eval_precision_micro": 0.8037735849056604,
-      "eval_recall_macro": 0.7100461955802515,
-      "eval_recall_micro": 0.8037735849056604,
-      "eval_runtime": 66.7565,
-      "eval_samples_per_second": 15.879,
-      "eval_steps_per_second": 3.97,
-      "step": 800
-    },
-    {
-      "epoch": 0.64,
-      "learning_rate": 3e-05,
-      "loss": 0.0404,
-      "step": 810
-    },
-    {
-      "epoch": 0.65,
-      "learning_rate": 3e-05,
-      "loss": 0.0415,
-      "step": 820
-    },
-    {
-      "epoch": 0.66,
-      "learning_rate": 3e-05,
-      "loss": 0.034,
-      "step": 830
-    },
-    {
-      "epoch": 0.67,
-      "learning_rate": 3e-05,
-      "loss": 0.0465,
-      "step": 840
-    },
-    {
-      "epoch": 0.68,
-      "learning_rate": 3e-05,
-      "loss": 0.0465,
-      "step": 850
-    },
-    {
-      "epoch": 0.68,
-      "eval_accuracy": 0.7867924528301887,
-      "eval_f1_macro": 0.6637790925123535,
-      "eval_f1_micro": 0.7867924528301887,
-      "eval_loss": 0.04226187616586685,
-      "eval_precision_macro": 0.70799384577877,
-      "eval_precision_micro": 0.7867924528301887,
-      "eval_recall_macro": 0.6535685213398926,
-      "eval_recall_micro": 0.7867924528301887,
-      "eval_runtime": 66.8456,
-      "eval_samples_per_second": 15.857,
-      "eval_steps_per_second": 3.964,
-      "step": 850
-    },
-    {
-      "epoch": 0.68,
-      "learning_rate": 3e-05,
-      "loss": 0.0428,
-      "step": 860
-    },
-    {
-      "epoch": 0.69,
-      "learning_rate": 3e-05,
-      "loss": 0.0455,
-      "step": 870
-    },
-    {
-      "epoch": 0.7,
-      "learning_rate": 3e-05,
-      "loss": 0.0467,
-      "step": 880
-    },
-    {
-      "epoch": 0.71,
-      "learning_rate": 3e-05,
-      "loss": 0.0381,
-      "step": 890
-    },
-    {
-      "epoch": 0.72,
-      "learning_rate": 3e-05,
-      "loss": 0.0517,
-      "step": 900
-    },
-    {
-      "epoch": 0.72,
-      "eval_accuracy": 0.7830188679245284,
-      "eval_f1_macro": 0.604409711538349,
-      "eval_f1_micro": 0.7830188679245284,
-      "eval_loss": 0.04051998630166054,
-      "eval_precision_macro": 0.6482245905845607,
-      "eval_precision_micro": 0.7830188679245284,
-      "eval_recall_macro": 0.5953272937433359,
-      "eval_recall_micro": 0.7830188679245284,
-      "eval_runtime": 66.9721,
-      "eval_samples_per_second": 15.827,
-      "eval_steps_per_second": 3.957,
-      "step": 900
-    },
-    {
-      "epoch": 0.72,
-      "learning_rate": 3e-05,
-      "loss": 0.0406,
-      "step": 910
-    },
-    {
-      "epoch": 0.73,
-      "learning_rate": 3e-05,
-      "loss": 0.037,
-      "step": 920
-    },
-    {
-      "epoch": 0.74,
-      "learning_rate": 3e-05,
-      "loss": 0.0445,
-      "step": 930
-    },
-    {
-      "epoch": 0.75,
-      "learning_rate": 3e-05,
-      "loss": 0.0359,
-      "step": 940
-    },
-    {
-      "epoch": 0.76,
-      "learning_rate": 3e-05,
-      "loss": 0.0449,
-      "step": 950
-    },
-    {
-      "epoch": 0.76,
-      "eval_accuracy": 0.7962264150943397,
-      "eval_f1_macro": 0.6595487480161657,
-      "eval_f1_micro": 0.7962264150943396,
-      "eval_loss": 0.03951858729124069,
-      "eval_precision_macro": 0.678313535245044,
-      "eval_precision_micro": 0.7962264150943397,
-      "eval_recall_macro": 0.6782248779232171,
-      "eval_recall_micro": 0.7962264150943397,
-      "eval_runtime": 67.2586,
-      "eval_samples_per_second": 15.76,
-      "eval_steps_per_second": 3.94,
-      "step": 950
-    },
-    {
-      "epoch": 0.76,
-      "learning_rate": 3e-05,
-      "loss": 0.0473,
-      "step": 960
-    },
-    {
-      "epoch": 0.77,
-      "learning_rate": 3e-05,
-      "loss": 0.0387,
-      "step": 970
-    },
-    {
-      "epoch": 0.78,
-      "learning_rate": 3e-05,
-      "loss": 0.0393,
-      "step": 980
-    },
-    {
-      "epoch": 0.79,
-      "learning_rate": 3e-05,
-      "loss": 0.0344,
-      "step": 990
-    },
-    {
-      "epoch": 0.79,
-      "learning_rate": 3e-05,
-      "loss": 0.0438,
-      "step": 1000
-    },
-    {
-      "epoch": 0.79,
-      "eval_accuracy": 0.7650943396226415,
-      "eval_f1_macro": 0.6269730408930883,
-      "eval_f1_micro": 0.7650943396226415,
-      "eval_loss": 0.041479434818029404,
-      "eval_precision_macro": 0.6310264924491513,
-      "eval_precision_micro": 0.7650943396226415,
-      "eval_recall_macro": 0.651893356526834,
-      "eval_recall_micro": 0.7650943396226415,
-      "eval_runtime": 66.8963,
-      "eval_samples_per_second": 15.845,
-      "eval_steps_per_second": 3.961,
-      "step": 1000
-    },
-    {
-      "epoch": 0.8,
-      "learning_rate": 3e-05,
-      "loss": 0.0454,
-      "step": 1010
-    },
-    {
-      "epoch": 0.81,
-      "learning_rate": 3e-05,
-      "loss": 0.0389,
-      "step": 1020
-    },
-    {
-      "epoch": 0.82,
-      "learning_rate": 3e-05,
-      "loss": 0.0385,
-      "step": 1030
-    },
-    {
-      "epoch": 0.83,
-      "learning_rate": 3e-05,
-      "loss": 0.0465,
-      "step": 1040
-    },
-    {
-      "epoch": 0.83,
-      "learning_rate": 3e-05,
-      "loss": 0.0368,
-      "step": 1050
-    },
-    {
-      "epoch": 0.83,
-      "eval_accuracy": 0.8141509433962264,
-      "eval_f1_macro": 0.6884941209926929,
-      "eval_f1_micro": 0.8141509433962264,
-      "eval_loss": 0.036739904433488846,
-      "eval_precision_macro": 0.7076595104531683,
-      "eval_precision_micro": 0.8141509433962264,
-      "eval_recall_macro": 0.6998335623662951,
-      "eval_recall_micro": 0.8141509433962264,
-      "eval_runtime": 66.8429,
-      "eval_samples_per_second": 15.858,
-      "eval_steps_per_second": 3.965,
-      "step": 1050
-    },
-    {
-      "epoch": 0.84,
-      "learning_rate": 3e-05,
-      "loss": 0.0315,
-      "step": 1060
-    },
-    {
-      "epoch": 0.85,
-      "learning_rate": 3e-05,
-      "loss": 0.048,
-      "step": 1070
-    },
-    {
-      "epoch": 0.86,
-      "learning_rate": 3e-05,
-      "loss": 0.0423,
-      "step": 1080
-    },
-    {
-      "epoch": 0.87,
-      "learning_rate": 3e-05,
-      "loss": 0.0399,
-      "step": 1090
-    },
-    {
-      "epoch": 0.87,
-      "learning_rate": 3e-05,
-      "loss": 0.0351,
-      "step": 1100
-    },
-    {
-      "epoch": 0.87,
-      "eval_accuracy": 0.8150943396226416,
-      "eval_f1_macro": 0.6795761385716744,
-      "eval_f1_micro": 0.8150943396226416,
-      "eval_loss": 0.03497824817895889,
-      "eval_precision_macro": 0.6863775670636837,
-      "eval_precision_micro": 0.8150943396226416,
-      "eval_recall_macro": 0.6837727133564548,
-      "eval_recall_micro": 0.8150943396226416,
-      "eval_runtime": 66.7682,
-      "eval_samples_per_second": 15.876,
-      "eval_steps_per_second": 3.969,
-      "step": 1100
-    },
-    {
-      "epoch": 0.88,
-      "learning_rate": 3e-05,
-      "loss": 0.0356,
-      "step": 1110
-    },
-    {
-      "epoch": 0.89,
-      "learning_rate": 3e-05,
-      "loss": 0.034,
-      "step": 1120
-    },
-    {
-      "epoch": 0.9,
-      "learning_rate": 3e-05,
-      "loss": 0.0379,
-      "step": 1130
-    },
-    {
-      "epoch": 0.91,
-      "learning_rate": 3e-05,
-      "loss": 0.0354,
-      "step": 1140
-    },
-    {
-      "epoch": 0.91,
-      "learning_rate": 3e-05,
-      "loss": 0.042,
-      "step": 1150
-    },
-    {
-      "epoch": 0.91,
-      "eval_accuracy": 0.8066037735849056,
-      "eval_f1_macro": 0.662741723846436,
-      "eval_f1_micro": 0.8066037735849056,
-      "eval_loss": 0.036217570304870605,
-      "eval_precision_macro": 0.6895018843592504,
-      "eval_precision_micro": 0.8066037735849056,
-      "eval_recall_macro": 0.6592689442585865,
-      "eval_recall_micro": 0.8066037735849056,
-      "eval_runtime": 66.8597,
-      "eval_samples_per_second": 15.854,
-      "eval_steps_per_second": 3.964,
-      "step": 1150
-    },
-    {
-      "epoch": 0.92,
-      "learning_rate": 3e-05,
-      "loss": 0.0405,
-      "step": 1160
-    },
-    {
-      "epoch": 0.93,
-      "learning_rate": 3e-05,
-      "loss": 0.0408,
-      "step": 1170
-    },
-    {
-      "epoch": 0.94,
-      "learning_rate": 3e-05,
-      "loss": 0.0522,
-      "step": 1180
-    },
-    {
-      "epoch": 0.95,
-      "learning_rate": 3e-05,
-      "loss": 0.0356,
-      "step": 1190
-    },
-    {
-      "epoch": 0.95,
-      "learning_rate": 3e-05,
-      "loss": 0.0449,
-      "step": 1200
-    },
-    {
-      "epoch": 0.95,
-      "eval_accuracy": 0.7924528301886793,
-      "eval_f1_macro": 0.6582734622403671,
-      "eval_f1_micro": 0.7924528301886793,
-      "eval_loss": 0.036735132336616516,
-      "eval_precision_macro": 0.6685428560679947,
-      "eval_precision_micro": 0.7924528301886793,
-      "eval_recall_macro": 0.6671460190032963,
-      "eval_recall_micro": 0.7924528301886793,
-      "eval_runtime": 66.7753,
-      "eval_samples_per_second": 15.874,
-      "eval_steps_per_second": 3.969,
-      "step": 1200
-    },
-    {
-      "epoch": 0.96,
-      "learning_rate": 3e-05,
-      "loss": 0.0422,
-      "step": 1210
-    },
-    {
-      "epoch": 0.97,
-      "learning_rate": 3e-05,
-      "loss": 0.0469,
-      "step": 1220
-    },
-    {
-      "epoch": 0.98,
-      "learning_rate": 3e-05,
-      "loss": 0.0403,
-      "step": 1230
-    },
-    {
-      "epoch": 0.99,
-      "learning_rate": 3e-05,
-      "loss": 0.0401,
-      "step": 1240
-    },
-    {
-      "epoch": 0.99,
-      "learning_rate": 3e-05,
-      "loss": 0.0331,
-      "step": 1250
-    },
-    {
-      "epoch": 0.99,
-      "eval_accuracy": 0.8018867924528302,
-      "eval_f1_macro": 0.6660554002763479,
-      "eval_f1_micro": 0.8018867924528302,
-      "eval_loss": 0.038156915456056595,
-      "eval_precision_macro": 0.6760235498659594,
-      "eval_precision_micro": 0.8018867924528302,
-      "eval_recall_macro": 0.6847602869615839,
-      "eval_recall_micro": 0.8018867924528302,
-      "eval_runtime": 66.972,
-      "eval_samples_per_second": 15.828,
-      "eval_steps_per_second": 3.957,
-      "step": 1250
-    },
-    {
-      "epoch": 1.0,
-      "learning_rate": 3e-05,
-      "loss": 0.0403,
-      "step": 1260
-    },
-    {
-      "epoch": 1.01,
-      "learning_rate": 3e-05,
-      "loss": 0.0391,
-      "step": 1270
-    },
-    {
-      "epoch": 1.02,
-      "learning_rate": 3e-05,
-      "loss": 0.0315,
-      "step": 1280
-    },
-    {
-      "epoch": 1.03,
-      "learning_rate": 3e-05,
-      "loss": 0.0334,
-      "step": 1290
-    },
-    {
-      "epoch": 1.03,
-      "learning_rate": 3e-05,
-      "loss": 0.0367,
-      "step": 1300
-    },
-    {
-      "epoch": 1.03,
-      "eval_accuracy": 0.8037735849056604,
-      "eval_f1_macro": 0.6590298558707023,
-      "eval_f1_micro": 0.8037735849056604,
-      "eval_loss": 0.037248801440000534,
-      "eval_precision_macro": 0.711878576411288,
-      "eval_precision_micro": 0.8037735849056604,
-      "eval_recall_macro": 0.6500565322393169,
-      "eval_recall_micro": 0.8037735849056604,
-      "eval_runtime": 66.9977,
-      "eval_samples_per_second": 15.821,
-      "eval_steps_per_second": 3.955,
-      "step": 1300
-    },
-    {
-      "epoch": 1.04,
-      "learning_rate": 3e-05,
-      "loss": 0.0323,
-      "step": 1310
-    },
-    {
-      "epoch": 1.05,
-      "learning_rate": 3e-05,
-      "loss": 0.0283,
-      "step": 1320
-    },
-    {
-      "epoch": 1.06,
-      "learning_rate": 3e-05,
-      "loss": 0.0317,
-      "step": 1330
-    },
-    {
-      "epoch": 1.06,
-      "learning_rate": 3e-05,
-      "loss": 0.0368,
-      "step": 1340
-    },
-    {
-      "epoch": 1.07,
-      "learning_rate": 3e-05,
-      "loss": 0.0357,
-      "step": 1350
-    },
-    {
-      "epoch": 1.07,
-      "eval_accuracy": 0.7990566037735849,
-      "eval_f1_macro": 0.6639410239226647,
-      "eval_f1_micro": 0.799056603773585,
-      "eval_loss": 0.03749080002307892,
-      "eval_precision_macro": 0.68220871249212,
-      "eval_precision_micro": 0.7990566037735849,
-      "eval_recall_macro": 0.6657052159769387,
-      "eval_recall_micro": 0.7990566037735849,
-      "eval_runtime": 67.3114,
-      "eval_samples_per_second": 15.748,
-      "eval_steps_per_second": 3.937,
-      "step": 1350
-    },
-    {
-      "epoch": 1.08,
-      "learning_rate": 3e-05,
-      "loss": 0.0411,
-      "step": 1360
-    },
-    {
-      "epoch": 1.09,
-      "learning_rate": 3e-05,
-      "loss": 0.035,
-      "step": 1370
-    },
-    {
-      "epoch": 1.1,
-      "learning_rate": 3e-05,
-      "loss": 0.0365,
-      "step": 1380
-    },
-    {
-      "epoch": 1.1,
-      "learning_rate": 3e-05,
-      "loss": 0.0321,
-      "step": 1390
-    },
-    {
-      "epoch": 1.11,
-      "learning_rate": 3e-05,
-      "loss": 0.0405,
-      "step": 1400
-    },
-    {
-      "epoch": 1.11,
-      "eval_accuracy": 0.810377358490566,
-      "eval_f1_macro": 0.6823173521717408,
-      "eval_f1_micro": 0.8103773584905661,
-      "eval_loss": 0.03539792075753212,
-      "eval_precision_macro": 0.6735195406597105,
-      "eval_precision_micro": 0.810377358490566,
-      "eval_recall_macro": 0.7010849626749771,
-      "eval_recall_micro": 0.810377358490566,
-      "eval_runtime": 66.9573,
-      "eval_samples_per_second": 15.831,
-      "eval_steps_per_second": 3.958,
-      "step": 1400
-    },
-    {
-      "epoch": 1.12,
-      "learning_rate": 3e-05,
-      "loss": 0.0403,
-      "step": 1410
-    },
-    {
-      "epoch": 1.13,
-      "learning_rate": 3e-05,
-      "loss": 0.0355,
-      "step": 1420
-    },
-    {
-      "epoch": 1.14,
-      "learning_rate": 3e-05,
-      "loss": 0.0262,
-      "step": 1430
-    },
-    {
-      "epoch": 1.14,
-      "learning_rate": 3e-05,
-      "loss": 0.0314,
-      "step": 1440
-    },
-    {
-      "epoch": 1.15,
-      "learning_rate": 3e-05,
-      "loss": 0.0281,
-      "step": 1450
-    },
-    {
-      "epoch": 1.15,
-      "eval_accuracy": 0.8301886792452831,
-      "eval_f1_macro": 0.6936579743869716,
-      "eval_f1_micro": 0.8301886792452831,
-      "eval_loss": 0.03378523513674736,
-      "eval_precision_macro": 0.6880699408956382,
-      "eval_precision_micro": 0.8301886792452831,
-      "eval_recall_macro": 0.7081810763903263,
-      "eval_recall_micro": 0.8301886792452831,
-      "eval_runtime": 66.8615,
-      "eval_samples_per_second": 15.854,
-      "eval_steps_per_second": 3.963,
-      "step": 1450
-    },
-    {
-      "epoch": 1.16,
-      "learning_rate": 3e-05,
-      "loss": 0.0426,
-      "step": 1460
-    },
-    {
-      "epoch": 1.17,
-      "learning_rate": 3e-05,
-      "loss": 0.0331,
-      "step": 1470
-    },
-    {
-      "epoch": 1.18,
-      "learning_rate": 3e-05,
-      "loss": 0.0274,
-      "step": 1480
-    },
-    {
-      "epoch": 1.18,
-      "learning_rate": 3e-05,
-      "loss": 0.0303,
-      "step": 1490
-    },
-    {
-      "epoch": 1.19,
-      "learning_rate": 3e-05,
-      "loss": 0.0362,
-      "step": 1500
-    },
-    {
-      "epoch": 1.19,
-      "eval_accuracy": 0.8122641509433962,
-      "eval_f1_macro": 0.6607417290714642,
-      "eval_f1_micro": 0.8122641509433962,
-      "eval_loss": 0.0350893959403038,
-      "eval_precision_macro": 0.7043834982343933,
-      "eval_precision_micro": 0.8122641509433962,
-      "eval_recall_macro": 0.6559410812932247,
-      "eval_recall_micro": 0.8122641509433962,
-      "eval_runtime": 67.0277,
-      "eval_samples_per_second": 15.814,
-      "eval_steps_per_second": 3.954,
-      "step": 1500
-    },
-    {
-      "epoch": 1.2,
-      "learning_rate": 3e-05,
-      "loss": 0.0359,
-      "step": 1510
-    },
-    {
-      "epoch": 1.21,
-      "learning_rate": 3e-05,
-      "loss": 0.0223,
-      "step": 1520
-    },
-    {
-      "epoch": 1.22,
-      "learning_rate": 3e-05,
-      "loss": 0.0284,
-      "step": 1530
-    },
-    {
-      "epoch": 1.22,
-      "learning_rate": 3e-05,
-      "loss": 0.0445,
-      "step": 1540
-    },
-    {
-      "epoch": 1.23,
-      "learning_rate": 3e-05,
-      "loss": 0.0214,
-      "step": 1550
-    },
-    {
-      "epoch": 1.23,
-      "eval_accuracy": 0.810377358490566,
-      "eval_f1_macro": 0.6778793723330956,
-      "eval_f1_micro": 0.8103773584905661,
-      "eval_loss": 0.035039015114307404,
-      "eval_precision_macro": 0.7081161930503027,
-      "eval_precision_micro": 0.810377358490566,
-      "eval_recall_macro": 0.6748998812700701,
-      "eval_recall_micro": 0.810377358490566,
-      "eval_runtime": 67.0902,
-      "eval_samples_per_second": 15.8,
-      "eval_steps_per_second": 3.95,
-      "step": 1550
-    },
-    {
-      "epoch": 1.24,
-      "learning_rate": 3e-05,
-      "loss": 0.0396,
-      "step": 1560
-    },
-    {
-      "epoch": 1.25,
-      "learning_rate": 3e-05,
-      "loss": 0.0421,
-      "step": 1570
-    },
-    {
-      "epoch": 1.26,
-      "learning_rate": 3e-05,
-      "loss": 0.0367,
-      "step": 1580
-    },
-    {
-      "epoch": 1.26,
-      "learning_rate": 3e-05,
-      "loss": 0.029,
-      "step": 1590
-    },
-    {
-      "epoch": 1.27,
-      "learning_rate": 3e-05,
-      "loss": 0.0321,
-      "step": 1600
-    },
-    {
-      "epoch": 1.27,
-      "eval_accuracy": 0.809433962264151,
-      "eval_f1_macro": 0.7277842533202593,
-      "eval_f1_micro": 0.809433962264151,
-      "eval_loss": 0.036841992288827896,
-      "eval_precision_macro": 0.754059995164892,
-      "eval_precision_micro": 0.809433962264151,
-      "eval_recall_macro": 0.7253784421960152,
-      "eval_recall_micro": 0.809433962264151,
-      "eval_runtime": 67.1117,
-      "eval_samples_per_second": 15.795,
-      "eval_steps_per_second": 3.949,
-      "step": 1600
-    },
-    {
-      "epoch": 1.28,
-      "learning_rate": 3e-05,
-      "loss": 0.0338,
-      "step": 1610
-    },
-    {
-      "epoch": 1.29,
-      "learning_rate": 3e-05,
-      "loss": 0.0361,
-      "step": 1620
-    },
-    {
-      "epoch": 1.3,
-      "learning_rate": 3e-05,
-      "loss": 0.0415,
-      "step": 1630
-    },
-    {
-      "epoch": 1.3,
-      "learning_rate": 3e-05,
-      "loss": 0.0354,
-      "step": 1640
-    },
-    {
-      "epoch": 1.31,
-      "learning_rate": 3e-05,
-      "loss": 0.0332,
-      "step": 1650
-    },
-    {
-      "epoch": 1.31,
-      "eval_accuracy": 0.8254716981132075,
-      "eval_f1_macro": 0.7081292929169892,
-      "eval_f1_micro": 0.8254716981132075,
-      "eval_loss": 0.03387230262160301,
-      "eval_precision_macro": 0.7291239674093415,
-      "eval_precision_micro": 0.8254716981132075,
-      "eval_recall_macro": 0.7104202884103088,
-      "eval_recall_micro": 0.8254716981132075,
-      "eval_runtime": 67.285,
-      "eval_samples_per_second": 15.754,
-      "eval_steps_per_second": 3.938,
-      "step": 1650
-    },
-    {
-      "epoch": 1.32,
-      "learning_rate": 3e-05,
-      "loss": 0.0337,
-      "step": 1660
-    },
-    {
-      "epoch": 1.33,
-      "learning_rate": 3e-05,
-      "loss": 0.0281,
-      "step": 1670
-    },
-    {
-      "epoch": 1.34,
-      "learning_rate": 3e-05,
-      "loss": 0.0269,
-      "step": 1680
-    },
-    {
-      "epoch": 1.34,
-      "learning_rate": 3e-05,
-      "loss": 0.0339,
-      "step": 1690
-    },
-    {
-      "epoch": 1.35,
-      "learning_rate": 3e-05,
-      "loss": 0.0306,
-      "step": 1700
-    },
-    {
-      "epoch": 1.35,
-      "eval_accuracy": 0.8179245283018868,
-      "eval_f1_macro": 0.6769788054372391,
-      "eval_f1_micro": 0.8179245283018868,
-      "eval_loss": 0.03388019651174545,
-      "eval_precision_macro": 0.6816133549156956,
-      "eval_precision_micro": 0.8179245283018868,
-      "eval_recall_macro": 0.680429225227406,
-      "eval_recall_micro": 0.8179245283018868,
-      "eval_runtime": 67.4515,
-      "eval_samples_per_second": 15.715,
-      "eval_steps_per_second": 3.929,
-      "step": 1700
-    },
-    {
-      "epoch": 1.36,
-      "learning_rate": 3e-05,
-      "loss": 0.0376,
-      "step": 1710
-    },
-    {
-      "epoch": 1.37,
-      "learning_rate": 3e-05,
-      "loss": 0.0243,
-      "step": 1720
-    },
-    {
-      "epoch": 1.37,
-      "learning_rate": 3e-05,
-      "loss": 0.0302,
-      "step": 1730
-    },
-    {
-      "epoch": 1.38,
-      "learning_rate": 3e-05,
-      "loss": 0.0334,
-      "step": 1740
-    },
-    {
-      "epoch": 1.39,
-      "learning_rate": 3e-05,
-      "loss": 0.0231,
-      "step": 1750
-    },
-    {
-      "epoch": 1.39,
-      "eval_accuracy": 0.8179245283018868,
-      "eval_f1_macro": 0.6890240801949487,
-      "eval_f1_micro": 0.8179245283018868,
-      "eval_loss": 0.03725350275635719,
-      "eval_precision_macro": 0.6983358697605533,
-      "eval_precision_micro": 0.8179245283018868,
-      "eval_recall_macro": 0.6881012857058126,
-      "eval_recall_micro": 0.8179245283018868,
-      "eval_runtime": 67.1945,
-      "eval_samples_per_second": 15.775,
-      "eval_steps_per_second": 3.944,
-      "step": 1750
-    },
-    {
-      "epoch": 1.4,
-      "learning_rate": 3e-05,
-      "loss": 0.0351,
-      "step": 1760
-    },
-    {
-      "epoch": 1.41,
-      "learning_rate": 3e-05,
-      "loss": 0.0312,
-      "step": 1770
-    },
-    {
-      "epoch": 1.41,
-      "learning_rate": 3e-05,
-      "loss": 0.036,
-      "step": 1780
-    },
-    {
-      "epoch": 1.42,
-      "learning_rate": 3e-05,
-      "loss": 0.0336,
-      "step": 1790
-    },
-    {
-      "epoch": 1.43,
-      "learning_rate": 3e-05,
-      "loss": 0.0351,
-      "step": 1800
-    },
-    {
-      "epoch": 1.43,
-      "eval_accuracy": 0.8216981132075472,
-      "eval_f1_macro": 0.6893274603000062,
-      "eval_f1_micro": 0.821698113207547,
-      "eval_loss": 0.035641398280858994,
-      "eval_precision_macro": 0.6989494989333128,
-      "eval_precision_micro": 0.8216981132075472,
-      "eval_recall_macro": 0.6917495141935277,
-      "eval_recall_micro": 0.8216981132075472,
-      "eval_runtime": 72.4563,
-      "eval_samples_per_second": 14.629,
-      "eval_steps_per_second": 3.657,
-      "step": 1800
-    },
-    {
-      "epoch": 1.44,
-      "learning_rate": 3e-05,
-      "loss": 0.0315,
-      "step": 1810
-    },
-    {
-      "epoch": 1.45,
-      "learning_rate": 3e-05,
-      "loss": 0.0378,
-      "step": 1820
-    },
-    {
-      "epoch": 1.45,
-      "learning_rate": 3e-05,
-      "loss": 0.0297,
-      "step": 1830
-    },
-    {
-      "epoch": 1.46,
-      "learning_rate": 3e-05,
-      "loss": 0.0405,
-      "step": 1840
-    },
-    {
-      "epoch": 1.47,
-      "learning_rate": 3e-05,
-      "loss": 0.0259,
-      "step": 1850
-    },
-    {
-      "epoch": 1.47,
-      "eval_accuracy": 0.8207547169811321,
-      "eval_f1_macro": 0.6884764059910556,
-      "eval_f1_micro": 0.8207547169811321,
-      "eval_loss": 0.033535219728946686,
-      "eval_precision_macro": 0.6999273971863751,
-      "eval_precision_micro": 0.8207547169811321,
-      "eval_recall_macro": 0.6823064809142775,
-      "eval_recall_micro": 0.8207547169811321,
-      "eval_runtime": 75.3135,
-      "eval_samples_per_second": 14.074,
-      "eval_steps_per_second": 3.519,
-      "step": 1850
-    },
-    {
-      "epoch": 1.48,
-      "learning_rate": 3e-05,
-      "loss": 0.0313,
-      "step": 1860
-    },
-    {
-      "epoch": 1.49,
-      "learning_rate": 3e-05,
-      "loss": 0.0411,
-      "step": 1870
-    },
-    {
-      "epoch": 1.49,
-      "learning_rate": 3e-05,
-      "loss": 0.0294,
-      "step": 1880
-    },
-    {
-      "epoch": 1.5,
-      "learning_rate": 3e-05,
-      "loss": 0.0357,
-      "step": 1890
-    },
-    {
-      "epoch": 1.51,
-      "learning_rate": 3e-05,
-      "loss": 0.0371,
-      "step": 1900
-    },
-    {
-      "epoch": 1.51,
-      "eval_accuracy": 0.8122641509433962,
-      "eval_f1_macro": 0.6817031059683786,
-      "eval_f1_micro": 0.8122641509433962,
-      "eval_loss": 0.03668028488755226,
-      "eval_precision_macro": 0.7411726936728738,
-      "eval_precision_micro": 0.8122641509433962,
-      "eval_recall_macro": 0.6617258448443556,
-      "eval_recall_micro": 0.8122641509433962,
-      "eval_runtime": 68.4416,
-      "eval_samples_per_second": 15.488,
-      "eval_steps_per_second": 3.872,
-      "step": 1900
-    },
-    {
-      "epoch": 1.52,
-      "learning_rate": 3e-05,
-      "loss": 0.0414,
-      "step": 1910
-    },
-    {
-      "epoch": 1.53,
-      "learning_rate": 3e-05,
-      "loss": 0.0359,
-      "step": 1920
-    },
-    {
-      "epoch": 1.53,
-      "learning_rate": 3e-05,
-      "loss": 0.0364,
-      "step": 1930
-    },
-    {
-      "epoch": 1.54,
-      "learning_rate": 3e-05,
-      "loss": 0.0328,
-      "step": 1940
-    },
-    {
-      "epoch": 1.55,
-      "learning_rate": 3e-05,
-      "loss": 0.0288,
-      "step": 1950
-    },
-    {
-      "epoch": 1.55,
-      "eval_accuracy": 0.8179245283018868,
-      "eval_f1_macro": 0.6808261949093507,
-      "eval_f1_micro": 0.8179245283018868,
-      "eval_loss": 0.03465178981423378,
-      "eval_precision_macro": 0.6758330579285278,
-      "eval_precision_micro": 0.8179245283018868,
-      "eval_recall_macro": 0.6916444013212283,
-      "eval_recall_micro": 0.8179245283018868,
-      "eval_runtime": 67.4794,
-      "eval_samples_per_second": 15.708,
-      "eval_steps_per_second": 3.927,
-      "step": 1950
-    },
-    {
-      "epoch": 1.56,
-      "learning_rate": 3e-05,
-      "loss": 0.0292,
-      "step": 1960
-    },
-    {
-      "epoch": 1.57,
-      "learning_rate": 3e-05,
-      "loss": 0.0372,
-      "step": 1970
-    },
-    {
-      "epoch": 1.57,
-      "learning_rate": 3e-05,
-      "loss": 0.0371,
-      "step": 1980
-    },
-    {
-      "epoch": 1.58,
-      "learning_rate": 3e-05,
-      "loss": 0.0292,
-      "step": 1990
-    },
-    {
-      "epoch": 1.59,
-      "learning_rate": 3e-05,
-      "loss": 0.0252,
-      "step": 2000
-    },
-    {
-      "epoch": 1.59,
-      "eval_accuracy": 0.8113207547169812,
-      "eval_f1_macro": 0.6786603793711855,
-      "eval_f1_micro": 0.8113207547169812,
-      "eval_loss": 0.03572586923837662,
-      "eval_precision_macro": 0.7003439014078875,
-      "eval_precision_micro": 0.8113207547169812,
-      "eval_recall_macro": 0.6714151723581485,
-      "eval_recall_micro": 0.8113207547169812,
-      "eval_runtime": 67.3677,
-      "eval_samples_per_second": 15.735,
-      "eval_steps_per_second": 3.934,
-      "step": 2000
-    },
-    {
-      "epoch": 1.6,
-      "learning_rate": 3e-05,
-      "loss": 0.0418,
-      "step": 2010
-    },
-    {
-      "epoch": 1.61,
-      "learning_rate": 3e-05,
-      "loss": 0.0306,
-      "step": 2020
-    },
-    {
-      "epoch": 1.61,
-      "learning_rate": 3e-05,
-      "loss": 0.0264,
-      "step": 2030
-    },
-    {
-      "epoch": 1.62,
-      "learning_rate": 3e-05,
-      "loss": 0.0352,
-      "step": 2040
-    },
-    {
-      "epoch": 1.63,
-      "learning_rate": 3e-05,
-      "loss": 0.0374,
-      "step": 2050
-    },
-    {
-      "epoch": 1.63,
-      "eval_accuracy": 0.8207547169811321,
-      "eval_f1_macro": 0.7378651093912652,
-      "eval_f1_micro": 0.8207547169811321,
-      "eval_loss": 0.03318563476204872,
-      "eval_precision_macro": 0.7746611477051377,
-      "eval_precision_micro": 0.8207547169811321,
-      "eval_recall_macro": 0.7232885741364632,
-      "eval_recall_micro": 0.8207547169811321,
-      "eval_runtime": 67.1675,
-      "eval_samples_per_second": 15.781,
-      "eval_steps_per_second": 3.945,
-      "step": 2050
-    },
-    {
-      "epoch": 1.64,
-      "learning_rate": 3e-05,
-      "loss": 0.0334,
-      "step": 2060
-    },
-    {
-      "epoch": 1.65,
-      "learning_rate": 3e-05,
-      "loss": 0.0275,
-      "step": 2070
-    },
-    {
-      "epoch": 1.65,
-      "learning_rate": 3e-05,
-      "loss": 0.0367,
-      "step": 2080
-    },
-    {
-      "epoch": 1.66,
-      "learning_rate": 3e-05,
-      "loss": 0.0347,
-      "step": 2090
-    },
-    {
-      "epoch": 1.67,
-      "learning_rate": 3e-05,
-      "loss": 0.0356,
-      "step": 2100
-    },
-    {
-      "epoch": 1.67,
-      "eval_accuracy": 0.8283018867924529,
-      "eval_f1_macro": 0.7162407407283602,
-      "eval_f1_micro": 0.8283018867924529,
-      "eval_loss": 0.032257240265607834,
-      "eval_precision_macro": 0.7425264980116305,
-      "eval_precision_micro": 0.8283018867924529,
-      "eval_recall_macro": 0.7045621292629789,
-      "eval_recall_micro": 0.8283018867924529,
-      "eval_runtime": 67.05,
-      "eval_samples_per_second": 15.809,
-      "eval_steps_per_second": 3.952,
-      "step": 2100
-    },
-    {
-      "epoch": 1.68,
-      "learning_rate": 3e-05,
-      "loss": 0.0345,
-      "step": 2110
-    },
-    {
-      "epoch": 1.68,
-      "learning_rate": 3e-05,
-      "loss": 0.0324,
-      "step": 2120
-    },
-    {
-      "epoch": 1.69,
-      "learning_rate": 3e-05,
-      "loss": 0.0317,
-      "step": 2130
-    },
-    {
-      "epoch": 1.7,
-      "learning_rate": 3e-05,
-      "loss": 0.0372,
-      "step": 2140
-    },
-    {
-      "epoch": 1.71,
-      "learning_rate": 3e-05,
-      "loss": 0.0294,
-      "step": 2150
-    },
-    {
-      "epoch": 1.71,
-      "eval_accuracy": 0.8113207547169812,
-      "eval_f1_macro": 0.7100925220691637,
-      "eval_f1_micro": 0.8113207547169812,
-      "eval_loss": 0.03457261621952057,
-      "eval_precision_macro": 0.7173368388422002,
-      "eval_precision_micro": 0.8113207547169812,
-      "eval_recall_macro": 0.722749933086757,
-      "eval_recall_micro": 0.8113207547169812,
-      "eval_runtime": 66.9989,
-      "eval_samples_per_second": 15.821,
-      "eval_steps_per_second": 3.955,
-      "step": 2150
-    },
-    {
-      "epoch": 1.72,
-      "learning_rate": 3e-05,
-      "loss": 0.0322,
-      "step": 2160
-    },
-    {
-      "epoch": 1.72,
-      "learning_rate": 3e-05,
-      "loss": 0.038,
-      "step": 2170
-    },
-    {
-      "epoch": 1.73,
-      "learning_rate": 3e-05,
-      "loss": 0.0283,
-      "step": 2180
-    },
-    {
-      "epoch": 1.74,
-      "learning_rate": 3e-05,
-      "loss": 0.0346,
-      "step": 2190
-    },
-    {
-      "epoch": 1.75,
-      "learning_rate": 3e-05,
-      "loss": 0.035,
-      "step": 2200
-    },
-    {
-      "epoch": 1.75,
-      "eval_accuracy": 0.8235849056603773,
-      "eval_f1_macro": 0.7390128397138074,
-      "eval_f1_micro": 0.8235849056603773,
-      "eval_loss": 0.033848535269498825,
-      "eval_precision_macro": 0.7590826949473053,
-      "eval_precision_micro": 0.8235849056603773,
-      "eval_recall_macro": 0.730688195944597,
-      "eval_recall_micro": 0.8235849056603773,
-      "eval_runtime": 66.9638,
-      "eval_samples_per_second": 15.829,
-      "eval_steps_per_second": 3.957,
-      "step": 2200
-    },
-    {
-      "epoch": 1.76,
-      "learning_rate": 3e-05,
-      "loss": 0.0347,
-      "step": 2210
-    },
-    {
-      "epoch": 1.76,
-      "learning_rate": 3e-05,
-      "loss": 0.0252,
-      "step": 2220
-    },
-    {
-      "epoch": 1.77,
-      "learning_rate": 3e-05,
-      "loss": 0.037,
-      "step": 2230
-    },
-    {
-      "epoch": 1.78,
-      "learning_rate": 3e-05,
-      "loss": 0.0352,
-      "step": 2240
-    },
-    {
-      "epoch": 1.79,
-      "learning_rate": 3e-05,
-      "loss": 0.0432,
-      "step": 2250
-    },
-    {
-      "epoch": 1.79,
-      "eval_accuracy": 0.8216981132075472,
-      "eval_f1_macro": 0.7295141356598547,
-      "eval_f1_micro": 0.821698113207547,
-      "eval_loss": 0.03482788801193237,
-      "eval_precision_macro": 0.7693704211435056,
-      "eval_precision_micro": 0.8216981132075472,
-      "eval_recall_macro": 0.7204303826474574,
-      "eval_recall_micro": 0.8216981132075472,
-      "eval_runtime": 67.0744,
-      "eval_samples_per_second": 15.803,
-      "eval_steps_per_second": 3.951,
-      "step": 2250
-    },
-    {
-      "epoch": 1.8,
-      "learning_rate": 3e-05,
-      "loss": 0.0313,
-      "step": 2260
-    },
-    {
-      "epoch": 1.8,
-      "learning_rate": 3e-05,
-      "loss": 0.0367,
-      "step": 2270
-    },
-    {
-      "epoch": 1.81,
-      "learning_rate": 3e-05,
-      "loss": 0.0294,
-      "step": 2280
-    },
-    {
-      "epoch": 1.82,
-      "learning_rate": 3e-05,
-      "loss": 0.0265,
-      "step": 2290
-    },
-    {
-      "epoch": 1.83,
-      "learning_rate": 3e-05,
-      "loss": 0.0325,
-      "step": 2300
-    },
-    {
-      "epoch": 1.83,
-      "eval_accuracy": 0.8330188679245283,
-      "eval_f1_macro": 0.7260646503551377,
-      "eval_f1_micro": 0.8330188679245283,
-      "eval_loss": 0.032365720719099045,
-      "eval_precision_macro": 0.7440576765333733,
-      "eval_precision_micro": 0.8330188679245283,
-      "eval_recall_macro": 0.7231434220015308,
-      "eval_recall_micro": 0.8330188679245283,
-      "eval_runtime": 67.0867,
-      "eval_samples_per_second": 15.8,
-      "eval_steps_per_second": 3.95,
-      "step": 2300
-    },
-    {
-      "epoch": 1.84,
-      "learning_rate": 3e-05,
-      "loss": 0.0361,
-      "step": 2310
-    },
-    {
-      "epoch": 1.84,
-      "learning_rate": 3e-05,
-      "loss": 0.029,
-      "step": 2320
-    },
-    {
-      "epoch": 1.85,
-      "learning_rate": 3e-05,
-      "loss": 0.0325,
-      "step": 2330
-    },
-    {
-      "epoch": 1.86,
-      "learning_rate": 3e-05,
-      "loss": 0.0266,
-      "step": 2340
-    },
-    {
-      "epoch": 1.87,
-      "learning_rate": 3e-05,
-      "loss": 0.0318,
-      "step": 2350
-    },
-    {
-      "epoch": 1.87,
-      "eval_accuracy": 0.8311320754716981,
-      "eval_f1_macro": 0.7248036031015876,
-      "eval_f1_micro": 0.8311320754716981,
-      "eval_loss": 0.03213372081518173,
-      "eval_precision_macro": 0.7397395837984007,
-      "eval_precision_micro": 0.8311320754716981,
-      "eval_recall_macro": 0.7241410864722072,
-      "eval_recall_micro": 0.8311320754716981,
-      "eval_runtime": 67.1828,
-      "eval_samples_per_second": 15.778,
-      "eval_steps_per_second": 3.944,
-      "step": 2350
-    },
-    {
-      "epoch": 1.88,
-      "learning_rate": 3e-05,
-      "loss": 0.0339,
-      "step": 2360
-    },
-    {
-      "epoch": 1.88,
-      "learning_rate": 3e-05,
-      "loss": 0.0359,
-      "step": 2370
-    },
-    {
-      "epoch": 1.89,
-      "learning_rate": 3e-05,
-      "loss": 0.0296,
-      "step": 2380
-    },
-    {
-      "epoch": 1.9,
-      "learning_rate": 3e-05,
-      "loss": 0.0249,
-      "step": 2390
-    },
-    {
-      "epoch": 1.91,
-      "learning_rate": 3e-05,
-      "loss": 0.0315,
-      "step": 2400
-    },
-    {
-      "epoch": 1.91,
-      "eval_accuracy": 0.8179245283018868,
-      "eval_f1_macro": 0.6858375088253653,
-      "eval_f1_micro": 0.8179245283018868,
-      "eval_loss": 0.033517900854349136,
-      "eval_precision_macro": 0.6792945547363913,
-      "eval_precision_micro": 0.8179245283018868,
-      "eval_recall_macro": 0.7034801209007658,
-      "eval_recall_micro": 0.8179245283018868,
-      "eval_runtime": 67.2538,
-      "eval_samples_per_second": 15.761,
-      "eval_steps_per_second": 3.94,
-      "step": 2400
-    },
-    {
-      "epoch": 1.92,
-      "learning_rate": 3e-05,
-      "loss": 0.037,
-      "step": 2410
-    },
-    {
-      "epoch": 1.92,
-      "learning_rate": 3e-05,
-      "loss": 0.032,
-      "step": 2420
-    },
-    {
-      "epoch": 1.93,
-      "learning_rate": 3e-05,
-      "loss": 0.0333,
-      "step": 2430
-    },
-    {
-      "epoch": 1.94,
-      "learning_rate": 3e-05,
-      "loss": 0.0369,
-      "step": 2440
-    },
-    {
-      "epoch": 1.95,
-      "learning_rate": 3e-05,
-      "loss": 0.0331,
-      "step": 2450
-    },
-    {
-      "epoch": 1.95,
-      "eval_accuracy": 0.8179245283018868,
-      "eval_f1_macro": 0.6955540611871792,
-      "eval_f1_micro": 0.8179245283018868,
-      "eval_loss": 0.033520761877298355,
-      "eval_precision_macro": 0.7294988206190055,
-      "eval_precision_micro": 0.8179245283018868,
-      "eval_recall_macro": 0.6879491415746545,
-      "eval_recall_micro": 0.8179245283018868,
-      "eval_runtime": 67.0948,
-      "eval_samples_per_second": 15.799,
-      "eval_steps_per_second": 3.95,
-      "step": 2450
-    },
-    {
-      "epoch": 1.96,
-      "learning_rate": 3e-05,
-      "loss": 0.035,
-      "step": 2460
-    },
-    {
-      "epoch": 1.96,
-      "learning_rate": 3e-05,
-      "loss": 0.0323,
-      "step": 2470
-    },
-    {
-      "epoch": 1.97,
-      "learning_rate": 3e-05,
-      "loss": 0.0346,
-      "step": 2480
-    },
-    {
-      "epoch": 1.98,
-      "learning_rate": 3e-05,
-      "loss": 0.0287,
-      "step": 2490
-    },
-    {
-      "epoch": 1.99,
-      "learning_rate": 3e-05,
-      "loss": 0.0293,
-      "step": 2500
-    },
-    {
-      "epoch": 1.99,
-      "eval_accuracy": 0.8056603773584906,
-      "eval_f1_macro": 0.6866675132658472,
-      "eval_f1_micro": 0.8056603773584906,
-      "eval_loss": 0.03530614450573921,
-      "eval_precision_macro": 0.7026639102515493,
-      "eval_precision_micro": 0.8056603773584906,
-      "eval_recall_macro": 0.6939733521884667,
-      "eval_recall_micro": 0.8056603773584906,
-      "eval_runtime": 67.0079,
-      "eval_samples_per_second": 15.819,
-      "eval_steps_per_second": 3.955,
-      "step": 2500
-    },
-    {
-      "epoch": 1.99,
-      "learning_rate": 3e-05,
-      "loss": 0.0347,
-      "step": 2510
-    },
-    {
-      "epoch": 2.0,
-      "step": 2516,
-      "total_flos": 6.250904333773187e+17,
-      "train_loss": 0.05790289470982191,
-      "train_runtime": 10296.0519,
-      "train_samples_per_second": 3.91,
-      "train_steps_per_second": 0.244
     }
   ],
   "logging_steps": 10,
-  "max_steps": 2516,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 250,
-  "total_flos": 6.250904333773187e+17,
-  "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.152165276122368,
   "eval_steps": 50,
+  "global_step": 725,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.02,
       "learning_rate": 3e-05,
+      "loss": 0.9927,
       "step": 10
     },
     {
+      "epoch": 0.03,
       "learning_rate": 3e-05,
+      "loss": 0.1794,
       "step": 20
     },
     {
+      "epoch": 0.05,
       "learning_rate": 3e-05,
+      "loss": 0.1202,
       "step": 30
     },
     {
+      "epoch": 0.06,
       "learning_rate": 3e-05,
+      "loss": 0.0955,
       "step": 40
     },
     {
+      "epoch": 0.08,
       "learning_rate": 3e-05,
+      "loss": 0.0886,
       "step": 50
     },
     {
+      "epoch": 0.08,
+      "eval_accuracy": 0.5773584905660377,
+      "eval_f1_macro": 0.32220178110380887,
+      "eval_f1_micro": 0.5773584905660377,
+      "eval_loss": 0.10824274271726608,
+      "eval_precision_macro": 0.3987863781703509,
+      "eval_precision_micro": 0.5773584905660377,
+      "eval_recall_macro": 0.31235484191508905,
+      "eval_recall_micro": 0.5773584905660377,
+      "eval_runtime": 68.6809,
+      "eval_samples_per_second": 15.434,
+      "eval_steps_per_second": 3.858,
       "step": 50
     },
     {
+      "epoch": 0.1,
       "learning_rate": 3e-05,
+      "loss": 0.2261,
       "step": 60
     },
     {
+      "epoch": 0.11,
       "learning_rate": 3e-05,
+      "loss": 0.0728,
       "step": 70
     },
     {
+      "epoch": 0.13,
       "learning_rate": 3e-05,
+      "loss": 0.0659,
       "step": 80
     },
     {
+      "epoch": 0.14,
       "learning_rate": 3e-05,
+      "loss": 0.051,
       "step": 90
     },
     {
+      "epoch": 0.16,
       "learning_rate": 3e-05,
+      "loss": 0.0572,
       "step": 100
     },
     {
+      "epoch": 0.16,
+      "eval_accuracy": 0.5877358490566038,
+      "eval_f1_macro": 0.379683051721915,
+      "eval_f1_micro": 0.5877358490566038,
+      "eval_loss": 0.08316469192504883,
+      "eval_precision_macro": 0.4716361677310224,
+      "eval_precision_micro": 0.5877358490566038,
+      "eval_recall_macro": 0.3681154625887901,
+      "eval_recall_micro": 0.5877358490566038,
+      "eval_runtime": 68.5728,
+      "eval_samples_per_second": 15.458,
+      "eval_steps_per_second": 3.865,
       "step": 100
     },
     {
+      "epoch": 0.17,
       "learning_rate": 3e-05,
+      "loss": 0.1229,
       "step": 110
     },
     {
+      "epoch": 0.19,
       "learning_rate": 3e-05,
+      "loss": 0.0561,
       "step": 120
     },
     {
+      "epoch": 0.21,
       "learning_rate": 3e-05,
+      "loss": 0.0549,
       "step": 130
     },
     {
+      "epoch": 0.22,
       "learning_rate": 3e-05,
+      "loss": 0.0562,
       "step": 140
     },
     {
+      "epoch": 0.24,
       "learning_rate": 3e-05,
+      "loss": 0.0496,
       "step": 150
     },
     {
+      "epoch": 0.24,
+      "eval_accuracy": 0.7311320754716981,
+      "eval_f1_macro": 0.5702888507555568,
+      "eval_f1_micro": 0.7311320754716981,
+      "eval_loss": 0.05246850848197937,
+      "eval_precision_macro": 0.5911132598584014,
+      "eval_precision_micro": 0.7311320754716981,
+      "eval_recall_macro": 0.5746634992387409,
+      "eval_recall_micro": 0.7311320754716981,
+      "eval_runtime": 68.5467,
+      "eval_samples_per_second": 15.464,
+      "eval_steps_per_second": 3.866,
       "step": 150
     },
     {
+      "epoch": 0.25,
       "learning_rate": 3e-05,
+      "loss": 0.067,
       "step": 160
     },
     {
+      "epoch": 0.27,
       "learning_rate": 3e-05,
+      "loss": 0.0551,
       "step": 170
     },
     {
+      "epoch": 0.29,
       "learning_rate": 3e-05,
+      "loss": 0.0426,
       "step": 180
     },
     {
+      "epoch": 0.3,
       "learning_rate": 3e-05,
+      "loss": 0.0475,
       "step": 190
     },
     {
+      "epoch": 0.32,
       "learning_rate": 3e-05,
+      "loss": 0.0541,
       "step": 200
     },
     {
+      "epoch": 0.32,
+      "eval_accuracy": 0.7566037735849057,
+      "eval_f1_macro": 0.5584352420606399,
+      "eval_f1_micro": 0.7566037735849057,
+      "eval_loss": 0.04639677330851555,
+      "eval_precision_macro": 0.6151030653662273,
+      "eval_precision_micro": 0.7566037735849057,
+      "eval_recall_macro": 0.5606200967693734,
+      "eval_recall_micro": 0.7566037735849057,
+      "eval_runtime": 68.5714,
+      "eval_samples_per_second": 15.458,
+      "eval_steps_per_second": 3.865,
       "step": 200
     },
     {
+      "epoch": 0.33,
       "learning_rate": 3e-05,
+      "loss": 0.052,
       "step": 210
     },
     {
+      "epoch": 0.35,
       "learning_rate": 3e-05,
+      "loss": 0.0435,
       "step": 220
     },
     {
+      "epoch": 0.37,
       "learning_rate": 3e-05,
+      "loss": 0.0407,
       "step": 230
     },
     {
+      "epoch": 0.38,
       "learning_rate": 3e-05,
+      "loss": 0.0475,
       "step": 240
     },
     {
+      "epoch": 0.4,
       "learning_rate": 3e-05,
+      "loss": 0.0481,
       "step": 250
     },
     {
+      "epoch": 0.4,
+      "eval_accuracy": 0.7811320754716982,
+      "eval_f1_macro": 0.6368753336945477,
+      "eval_f1_micro": 0.7811320754716982,
+      "eval_loss": 0.04328591376543045,
+      "eval_precision_macro": 0.6636054486047108,
+      "eval_precision_micro": 0.7811320754716982,
+      "eval_recall_macro": 0.6513962288983521,
+      "eval_recall_micro": 0.7811320754716982,
+      "eval_runtime": 68.5331,
+      "eval_samples_per_second": 15.467,
+      "eval_steps_per_second": 3.867,
       "step": 250
     },
     {
+      "epoch": 0.41,
       "learning_rate": 3e-05,
+      "loss": 0.0533,
       "step": 260
     },
     {
+      "epoch": 0.43,
       "learning_rate": 3e-05,
+      "loss": 0.0433,
       "step": 270
     },
     {
+      "epoch": 0.44,
       "learning_rate": 3e-05,
+      "loss": 0.0432,
       "step": 280
     },
     {
+      "epoch": 0.46,
       "learning_rate": 3e-05,
+      "loss": 0.0466,
       "step": 290
     },
     {
+      "epoch": 0.48,
       "learning_rate": 3e-05,
+      "loss": 0.053,
       "step": 300
     },
     {
+      "epoch": 0.48,
+      "eval_accuracy": 0.7632075471698113,
+      "eval_f1_macro": 0.6337788769448006,
+      "eval_f1_micro": 0.7632075471698113,
+      "eval_loss": 0.0451766662299633,
+      "eval_precision_macro": 0.6935549047637881,
+      "eval_precision_micro": 0.7632075471698113,
+      "eval_recall_macro": 0.6461210681607904,
+      "eval_recall_micro": 0.7632075471698113,
+      "eval_runtime": 68.6668,
+      "eval_samples_per_second": 15.437,
+      "eval_steps_per_second": 3.859,
       "step": 300
     },
     {
+      "epoch": 0.49,
       "learning_rate": 3e-05,
+      "loss": 0.0455,
       "step": 310
     },
     {
+      "epoch": 0.51,
       "learning_rate": 3e-05,
+      "loss": 0.049,
       "step": 320
     },
     {
+      "epoch": 0.52,
       "learning_rate": 3e-05,
+      "loss": 0.0426,
       "step": 330
     },
     {
+      "epoch": 0.54,
       "learning_rate": 3e-05,
+      "loss": 0.0396,
       "step": 340
     },
     {
+      "epoch": 0.56,
       "learning_rate": 3e-05,
+      "loss": 0.0401,
       "step": 350
     },
     {
+      "epoch": 0.56,
+      "eval_accuracy": 0.7943396226415095,
+      "eval_f1_macro": 0.6696815276160976,
+      "eval_f1_micro": 0.7943396226415095,
+      "eval_loss": 0.039866555482149124,
+      "eval_precision_macro": 0.7380690805686413,
+      "eval_precision_micro": 0.7943396226415095,
+      "eval_recall_macro": 0.660366139065656,
+      "eval_recall_micro": 0.7943396226415095,
+      "eval_runtime": 68.673,
+      "eval_samples_per_second": 15.435,
+      "eval_steps_per_second": 3.859,
       "step": 350
     },
     {
+      "epoch": 0.57,
       "learning_rate": 3e-05,
+      "loss": 0.0482,
       "step": 360
     },
     {
+      "epoch": 0.59,
       "learning_rate": 3e-05,
+      "loss": 0.0373,
       "step": 370
     },
     {
+      "epoch": 0.6,
       "learning_rate": 3e-05,
+      "loss": 0.036,
       "step": 380
     },
     {
+      "epoch": 0.62,
       "learning_rate": 3e-05,
+      "loss": 0.0428,
       "step": 390
     },
     {
+      "epoch": 0.64,
       "learning_rate": 3e-05,
+      "loss": 0.0509,
       "step": 400
     },
     {
+      "epoch": 0.64,
+      "eval_accuracy": 0.8009433962264151,
+      "eval_f1_macro": 0.6501313860427956,
+      "eval_f1_micro": 0.8009433962264151,
+      "eval_loss": 0.03930637985467911,
+      "eval_precision_macro": 0.6546476325081232,
+      "eval_precision_micro": 0.8009433962264151,
+      "eval_recall_macro": 0.6611935636788673,
+      "eval_recall_micro": 0.8009433962264151,
+      "eval_runtime": 68.557,
+      "eval_samples_per_second": 15.462,
+      "eval_steps_per_second": 3.865,
       "step": 400
     },
     {
+      "epoch": 0.65,
       "learning_rate": 3e-05,
+      "loss": 0.0375,
       "step": 410
     },
     {
+      "epoch": 0.67,
       "learning_rate": 3e-05,
+      "loss": 0.041,
       "step": 420
     },
     {
+      "epoch": 0.68,
       "learning_rate": 3e-05,
+      "loss": 0.0416,
       "step": 430
     },
     {
+      "epoch": 0.7,
       "learning_rate": 3e-05,
+      "loss": 0.0396,
       "step": 440
     },
     {
+      "epoch": 0.72,
       "learning_rate": 3e-05,
+      "loss": 0.0474,
       "step": 450
     },
     {
+      "epoch": 0.72,
+      "eval_accuracy": 0.8018867924528302,
+      "eval_f1_macro": 0.6864569711826704,
+      "eval_f1_micro": 0.8018867924528302,
+      "eval_loss": 0.04012966528534889,
+      "eval_precision_macro": 0.7255429634365795,
+      "eval_precision_micro": 0.8018867924528302,
+      "eval_recall_macro": 0.6926779368041328,
+      "eval_recall_micro": 0.8018867924528302,
+      "eval_runtime": 68.6193,
+      "eval_samples_per_second": 15.448,
+      "eval_steps_per_second": 3.862,
       "step": 450
     },
     {
+      "epoch": 0.73,
       "learning_rate": 3e-05,
+      "loss": 0.0434,
       "step": 460
     },
     {
+      "epoch": 0.75,
       "learning_rate": 3e-05,
+      "loss": 0.0358,
       "step": 470
     },
     {
+      "epoch": 0.76,
       "learning_rate": 3e-05,
+      "loss": 0.0416,
       "step": 480
     },
     {
+      "epoch": 0.78,
       "learning_rate": 3e-05,
+      "loss": 0.0334,
       "step": 490
     },
     {
+      "epoch": 0.79,
       "learning_rate": 3e-05,
+      "loss": 0.045,
       "step": 500
     },
     {
+      "epoch": 0.79,
+      "eval_accuracy": 0.8009433962264151,
+      "eval_f1_macro": 0.6977412107603574,
+      "eval_f1_micro": 0.8009433962264151,
+      "eval_loss": 0.0379195362329483,
+      "eval_precision_macro": 0.7146704097806501,
+      "eval_precision_micro": 0.8009433962264151,
+      "eval_recall_macro": 0.710805016133364,
+      "eval_recall_micro": 0.8009433962264151,
+      "eval_runtime": 68.6344,
+      "eval_samples_per_second": 15.444,
+      "eval_steps_per_second": 3.861,
       "step": 500
     },
     {
+      "epoch": 0.81,
       "learning_rate": 3e-05,
+      "loss": 0.0425,
       "step": 510
     },
     {
+      "epoch": 0.83,
       "learning_rate": 3e-05,
+      "loss": 0.036,
       "step": 520
     },
     {
+      "epoch": 0.84,
       "learning_rate": 3e-05,
+      "loss": 0.0444,
       "step": 530
     },
     {
+      "epoch": 0.86,
       "learning_rate": 3e-05,
+      "loss": 0.0394,
       "step": 540
     },
     {
+      "epoch": 0.87,
       "learning_rate": 3e-05,
+      "loss": 0.0335,
       "step": 550
     },
     {
+      "epoch": 0.87,
+      "eval_accuracy": 0.8150943396226416,
+      "eval_f1_macro": 0.7134710025440245,
+      "eval_f1_micro": 0.8150943396226416,
+      "eval_loss": 0.03691105917096138,
+      "eval_precision_macro": 0.7046165923538829,
+      "eval_precision_micro": 0.8150943396226416,
+      "eval_recall_macro": 0.7335435173781253,
+      "eval_recall_micro": 0.8150943396226416,
+      "eval_runtime": 68.5596,
+      "eval_samples_per_second": 15.461,
+      "eval_steps_per_second": 3.865,
       "step": 550
     },
     {
+      "epoch": 0.89,
       "learning_rate": 3e-05,
+      "loss": 0.0421,
       "step": 560
     },
     {
+      "epoch": 0.91,
       "learning_rate": 3e-05,
+      "loss": 0.0407,
       "step": 570
     },
     {
+      "epoch": 0.92,
       "learning_rate": 3e-05,
+      "loss": 0.0429,
       "step": 580
     },
     {
+      "epoch": 0.94,
       "learning_rate": 3e-05,
+      "loss": 0.0378,
       "step": 590
     },
     {
+      "epoch": 0.95,
       "learning_rate": 3e-05,
+      "loss": 0.0429,
       "step": 600
     },
     {
+      "epoch": 0.95,
+      "eval_accuracy": 0.7962264150943397,
+      "eval_f1_macro": 0.687832173620461,
+      "eval_f1_micro": 0.7962264150943396,
+      "eval_loss": 0.03668661788105965,
+      "eval_precision_macro": 0.7081030422724828,
+      "eval_precision_micro": 0.7962264150943397,
+      "eval_recall_macro": 0.6958905634881637,
+      "eval_recall_micro": 0.7962264150943397,
+      "eval_runtime": 68.6225,
+      "eval_samples_per_second": 15.447,
+      "eval_steps_per_second": 3.862,
       "step": 600
     },
     {
+      "epoch": 0.97,
       "learning_rate": 3e-05,
+      "loss": 0.0394,
       "step": 610
     },
     {
+      "epoch": 0.99,
       "learning_rate": 3e-05,
+      "loss": 0.0363,
       "step": 620
     },
     {
+      "epoch": 1.0,
       "learning_rate": 3e-05,
+      "loss": 0.0428,
       "step": 630
     },
     {
+      "epoch": 1.02,
       "learning_rate": 3e-05,
+      "loss": 0.0265,
       "step": 640
     },
     {
+      "epoch": 1.03,
       "learning_rate": 3e-05,
+      "loss": 0.0253,
       "step": 650
     },
     {
+      "epoch": 1.03,
+      "eval_accuracy": 0.8254716981132075,
+      "eval_f1_macro": 0.7098363543260356,
+      "eval_f1_micro": 0.8254716981132075,
+      "eval_loss": 0.03421418368816376,
+      "eval_precision_macro": 0.7370277877974788,
+      "eval_precision_micro": 0.8254716981132075,
+      "eval_recall_macro": 0.6974501533785277,
+      "eval_recall_micro": 0.8254716981132075,
+      "eval_runtime": 68.5452,
+      "eval_samples_per_second": 15.464,
+      "eval_steps_per_second": 3.866,
       "step": 650
     },
     {
+      "epoch": 1.05,
       "learning_rate": 3e-05,
+      "loss": 0.0243,
       "step": 660
     },
     {
+      "epoch": 1.06,
       "learning_rate": 3e-05,
+      "loss": 0.0313,
       "step": 670
     },
     {
+      "epoch": 1.08,
       "learning_rate": 3e-05,
+      "loss": 0.0285,
       "step": 680
     },
     {
+      "epoch": 1.1,
       "learning_rate": 3e-05,
+      "loss": 0.0262,
       "step": 690
     },
     {
+      "epoch": 1.11,
       "learning_rate": 3e-05,
+      "loss": 0.0311,
       "step": 700
     },
     {
+      "epoch": 1.11,
+      "eval_accuracy": 0.8047169811320755,
+      "eval_f1_macro": 0.6661175684975367,
+      "eval_f1_micro": 0.8047169811320755,
+      "eval_loss": 0.0357016883790493,
+      "eval_precision_macro": 0.6994736595477448,
+      "eval_precision_micro": 0.8047169811320755,
+      "eval_recall_macro": 0.660920267471505,
+      "eval_recall_micro": 0.8047169811320755,
+      "eval_runtime": 68.6332,
+      "eval_samples_per_second": 15.444,
+      "eval_steps_per_second": 3.861,
       "step": 700
     },
     {
+      "epoch": 1.13,
       "learning_rate": 3e-05,
+      "loss": 0.0311,
       "step": 710
     },
     {
+      "epoch": 1.14,
       "learning_rate": 3e-05,
+      "loss": 0.0298,
       "step": 720
     },
     {
+      "epoch": 1.15,
+      "step": 725,
+      "total_flos": 3.949643257934285e+17,
+      "train_loss": 0.06415341473858932,
+      "train_runtime": 4786.626,
+      "train_samples_per_second": 4.847,
+      "train_steps_per_second": 0.151
     }
   ],
   "logging_steps": 10,
+  "max_steps": 725,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 250,
+  "total_flos": 3.949643257934285e+17,
+  "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9aa409b842e6508386b92f28b3d9a90969b3355d546c84d641c78491d8d4d0e8
 size 6712

 version https://git-lfs.github.com/spec/v1
+oid sha256:9bf04f3f4781ddaca55355307209daf77a530710545740be26ab36316891d09c
 size 6712