End of training

Browse files

Files changed (9) hide show

README.md +195 -0
all_results.json +13 -0
config.json +71 -0
eval_results.json +8 -0
model.safetensors +3 -0
preprocessor_config.json +22 -0
train_results.json +8 -0
trainer_state.json +1944 -0
training_args.bin +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,195 @@

+---
+license: apache-2.0
+base_model: facebook/convnextv2-tiny-1k-224
+tags:
+- generated_from_trainer
+datasets:
+- imagefolder
+metrics:
+- accuracy
+model-index:
+- name: convnextv2-tiny-1k-224-finetuned-fullwear
+  results:
+  - task:
+      name: Image Classification
+      type: image-classification
+    dataset:
+      name: imagefolder
+      type: imagefolder
+      config: default
+      split: train
+      args: default
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.8402777777777778
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# convnextv2-tiny-1k-224-finetuned-fullwear
+This model is a fine-tuned version of [facebook/convnextv2-tiny-1k-224](https://huggingface.co/facebook/convnextv2-tiny-1k-224) on the imagefolder dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.5203
+- Accuracy: 0.8403
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-05
+- train_batch_size: 32
+- eval_batch_size: 32
+- seed: 42
+- gradient_accumulation_steps: 4
+- total_train_batch_size: 128
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 120
+### Training results
+| Training Loss | Epoch    | Step | Validation Loss | Accuracy |
+|:-------------:|:--------:|:----:|:---------------:|:--------:|
+| 2.4871        | 0.9756   | 10   | 2.4771          | 0.0694   |
+| 2.4464        | 1.9512   | 20   | 2.4333          | 0.1528   |
+| 2.3911        | 2.9268   | 30   | 2.3670          | 0.2778   |
+| 2.3204        | 4.0      | 41   | 2.2617          | 0.3681   |
+| 2.206         | 4.9756   | 51   | 2.1445          | 0.3958   |
+| 2.0869        | 5.9512   | 61   | 2.0146          | 0.4444   |
+| 1.9756        | 6.9268   | 71   | 1.8763          | 0.5139   |
+| 1.8124        | 8.0      | 82   | 1.7422          | 0.5486   |
+| 1.6624        | 8.9756   | 92   | 1.6629          | 0.5903   |
+| 1.587         | 9.9512   | 102  | 1.5474          | 0.6111   |
+| 1.4746        | 10.9268  | 112  | 1.4577          | 0.625    |
+| 1.359         | 12.0     | 123  | 1.3055          | 0.6736   |
+| 1.2412        | 12.9756  | 133  | 1.2241          | 0.6736   |
+| 1.1374        | 13.9512  | 143  | 1.2003          | 0.6736   |
+| 1.0194        | 14.9268  | 153  | 1.0233          | 0.7569   |
+| 0.9705        | 16.0     | 164  | 0.9492          | 0.7847   |
+| 0.8949        | 16.9756  | 174  | 0.9246          | 0.75     |
+| 0.7959        | 17.9512  | 184  | 0.8148          | 0.7639   |
+| 0.7491        | 18.9268  | 194  | 0.7858          | 0.7569   |
+| 0.6783        | 20.0     | 205  | 0.8010          | 0.7569   |
+| 0.6257        | 20.9756  | 215  | 0.7295          | 0.7847   |
+| 0.5999        | 21.9512  | 225  | 0.6219          | 0.8333   |
+| 0.5701        | 22.9268  | 235  | 0.5932          | 0.8403   |
+| 0.4926        | 24.0     | 246  | 0.5970          | 0.8056   |
+| 0.4692        | 24.9756  | 256  | 0.6298          | 0.8194   |
+| 0.4393        | 25.9512  | 266  | 0.5857          | 0.8056   |
+| 0.419         | 26.9268  | 276  | 0.5203          | 0.8542   |
+| 0.3454        | 28.0     | 287  | 0.6084          | 0.8264   |
+| 0.36          | 28.9756  | 297  | 0.5928          | 0.8264   |
+| 0.3265        | 29.9512  | 307  | 0.5303          | 0.8403   |
+| 0.3278        | 30.9268  | 317  | 0.6049          | 0.8194   |
+| 0.2766        | 32.0     | 328  | 0.5656          | 0.8264   |
+| 0.2805        | 32.9756  | 338  | 0.5003          | 0.8681   |
+| 0.2505        | 33.9512  | 348  | 0.5412          | 0.8403   |
+| 0.2464        | 34.9268  | 358  | 0.5410          | 0.8333   |
+| 0.2166        | 36.0     | 369  | 0.5000          | 0.8472   |
+| 0.2           | 36.9756  | 379  | 0.5053          | 0.8056   |
+| 0.1914        | 37.9512  | 389  | 0.5161          | 0.8403   |
+| 0.186         | 38.9268  | 399  | 0.4242          | 0.8681   |
+| 0.1592        | 40.0     | 410  | 0.5059          | 0.8472   |
+| 0.1598        | 40.9756  | 420  | 0.5143          | 0.8264   |
+| 0.1565        | 41.9512  | 430  | 0.4703          | 0.8542   |
+| 0.1598        | 42.9268  | 440  | 0.4384          | 0.8542   |
+| 0.139         | 44.0     | 451  | 0.4850          | 0.8403   |
+| 0.1137        | 44.9756  | 461  | 0.4405          | 0.8542   |
+| 0.1158        | 45.9512  | 471  | 0.5250          | 0.8333   |
+| 0.1192        | 46.9268  | 481  | 0.5843          | 0.8194   |
+| 0.1271        | 48.0     | 492  | 0.4498          | 0.8611   |
+| 0.0914        | 48.9756  | 502  | 0.5167          | 0.8264   |
+| 0.1079        | 49.9512  | 512  | 0.4648          | 0.8681   |
+| 0.091         | 50.9268  | 522  | 0.5321          | 0.8194   |
+| 0.1053        | 52.0     | 533  | 0.4402          | 0.8611   |
+| 0.0842        | 52.9756  | 543  | 0.4776          | 0.8542   |
+| 0.0961        | 53.9512  | 553  | 0.4762          | 0.8681   |
+| 0.0896        | 54.9268  | 563  | 0.4477          | 0.8681   |
+| 0.0876        | 56.0     | 574  | 0.4951          | 0.8472   |
+| 0.0855        | 56.9756  | 584  | 0.5653          | 0.8125   |
+| 0.073         | 57.9512  | 594  | 0.5315          | 0.8472   |
+| 0.0804        | 58.9268  | 604  | 0.5064          | 0.8681   |
+| 0.0765        | 60.0     | 615  | 0.6316          | 0.8264   |
+| 0.0782        | 60.9756  | 625  | 0.5733          | 0.8056   |
+| 0.069         | 61.9512  | 635  | 0.6994          | 0.8056   |
+| 0.0809        | 62.9268  | 645  | 0.4898          | 0.8611   |
+| 0.0829        | 64.0     | 656  | 0.6042          | 0.8194   |
+| 0.0735        | 64.9756  | 666  | 0.4758          | 0.8611   |
+| 0.0763        | 65.9512  | 676  | 0.4921          | 0.8542   |
+| 0.0565        | 66.9268  | 686  | 0.4700          | 0.8681   |
+| 0.062         | 68.0     | 697  | 0.4944          | 0.8819   |
+| 0.0644        | 68.9756  | 707  | 0.4733          | 0.8681   |
+| 0.0659        | 69.9512  | 717  | 0.4703          | 0.8819   |
+| 0.0625        | 70.9268  | 727  | 0.5075          | 0.8542   |
+| 0.042         | 72.0     | 738  | 0.5464          | 0.8264   |
+| 0.056         | 72.9756  | 748  | 0.5186          | 0.8333   |
+| 0.0858        | 73.9512  | 758  | 0.5403          | 0.8264   |
+| 0.0616        | 74.9268  | 768  | 0.5104          | 0.8472   |
+| 0.0777        | 76.0     | 779  | 0.5516          | 0.8403   |
+| 0.0668        | 76.9756  | 789  | 0.4918          | 0.8611   |
+| 0.0585        | 77.9512  | 799  | 0.5692          | 0.8403   |
+| 0.0562        | 78.9268  | 809  | 0.5734          | 0.8403   |
+| 0.0653        | 80.0     | 820  | 0.5403          | 0.8264   |
+| 0.0434        | 80.9756  | 830  | 0.5108          | 0.8333   |
+| 0.0483        | 81.9512  | 840  | 0.5699          | 0.8125   |
+| 0.0329        | 82.9268  | 850  | 0.6028          | 0.8056   |
+| 0.0431        | 84.0     | 861  | 0.5230          | 0.8333   |
+| 0.042         | 84.9756  | 871  | 0.5875          | 0.8194   |
+| 0.0449        | 85.9512  | 881  | 0.5180          | 0.8611   |
+| 0.0512        | 86.9268  | 891  | 0.5425          | 0.8194   |
+| 0.0545        | 88.0     | 902  | 0.5690          | 0.8264   |
+| 0.0496        | 88.9756  | 912  | 0.5619          | 0.8611   |
+| 0.0449        | 89.9512  | 922  | 0.5626          | 0.8333   |
+| 0.0405        | 90.9268  | 932  | 0.5267          | 0.8403   |
+| 0.0344        | 92.0     | 943  | 0.5617          | 0.8403   |
+| 0.0421        | 92.9756  | 953  | 0.5400          | 0.8611   |
+| 0.0341        | 93.9512  | 963  | 0.5729          | 0.8333   |
+| 0.0492        | 94.9268  | 973  | 0.5855          | 0.8056   |
+| 0.0374        | 96.0     | 984  | 0.6113          | 0.8125   |
+| 0.0375        | 96.9756  | 994  | 0.5511          | 0.8403   |
+| 0.0373        | 97.9512  | 1004 | 0.4942          | 0.8542   |
+| 0.0447        | 98.9268  | 1014 | 0.5031          | 0.8542   |
+| 0.0519        | 100.0    | 1025 | 0.5349          | 0.8542   |
+| 0.0387        | 100.9756 | 1035 | 0.5511          | 0.8542   |
+| 0.0256        | 101.9512 | 1045 | 0.5319          | 0.8403   |
+| 0.043         | 102.9268 | 1055 | 0.5605          | 0.8264   |
+| 0.029         | 104.0    | 1066 | 0.5776          | 0.8403   |
+| 0.0379        | 104.9756 | 1076 | 0.5697          | 0.8472   |
+| 0.0445        | 105.9512 | 1086 | 0.5133          | 0.8681   |
+| 0.0267        | 106.9268 | 1096 | 0.5076          | 0.8681   |
+| 0.044         | 108.0    | 1107 | 0.5260          | 0.8403   |
+| 0.0263        | 108.9756 | 1117 | 0.5101          | 0.8542   |
+| 0.0247        | 109.9512 | 1127 | 0.4972          | 0.8542   |
+| 0.0441        | 110.9268 | 1137 | 0.5094          | 0.8472   |
+| 0.0263        | 112.0    | 1148 | 0.5259          | 0.8333   |
+| 0.0247        | 112.9756 | 1158 | 0.5323          | 0.8403   |
+| 0.0356        | 113.9512 | 1168 | 0.5275          | 0.8403   |
+| 0.0297        | 114.9268 | 1178 | 0.5240          | 0.8333   |
+| 0.044         | 116.0    | 1189 | 0.5201          | 0.8472   |
+| 0.031         | 116.9756 | 1199 | 0.5203          | 0.8403   |
+| 0.0369        | 117.0732 | 1200 | 0.5203          | 0.8403   |
+### Framework versions
+- Transformers 4.44.0
+- Pytorch 2.4.0
+- Datasets 2.21.0
+- Tokenizers 0.19.1

all_results.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+    "epoch": 117.07317073170732,
+    "eval_accuracy": 0.8402777777777778,
+    "eval_loss": 0.5202847123146057,
+    "eval_runtime": 3.1405,
+    "eval_samples_per_second": 45.852,
+    "eval_steps_per_second": 1.592,
+    "total_flos": 3.819974210196996e+18,
+    "train_loss": 0.3624983422954877,
+    "train_runtime": 4158.3882,
+    "train_samples_per_second": 37.399,
+    "train_steps_per_second": 0.289
+}

config.json ADDED Viewed

	@@ -0,0 +1,71 @@

+{
+  "_name_or_path": "facebook/convnextv2-tiny-1k-224",
+  "architectures": [
+    "ConvNextV2ForImageClassification"
+  ],
+  "depths": [
+    3,
+    3,
+    9,
+    3
+  ],
+  "drop_path_rate": 0.0,
+  "hidden_act": "gelu",
+  "hidden_sizes": [
+    96,
+    192,
+    384,
+    768
+  ],
+  "id2label": {
+    "0": "Co_ords",
+    "1": "Kaftan",
+    "2": "anarkali",
+    "3": "cloaks_abaya",
+    "4": "dress",
+    "5": "dungaree",
+    "6": "ethnic",
+    "7": "gown",
+    "8": "jumpsuit",
+    "9": "robe",
+    "10": "salwar_suit",
+    "11": "saree"
+  },
+  "image_size": 224,
+  "initializer_range": 0.02,
+  "label2id": {
+    "Co_ords": 0,
+    "Kaftan": 1,
+    "anarkali": 2,
+    "cloaks_abaya": 3,
+    "dress": 4,
+    "dungaree": 5,
+    "ethnic": 6,
+    "gown": 7,
+    "jumpsuit": 8,
+    "robe": 9,
+    "salwar_suit": 10,
+    "saree": 11
+  },
+  "layer_norm_eps": 1e-12,
+  "model_type": "convnextv2",
+  "num_channels": 3,
+  "num_stages": 4,
+  "out_features": [
+    "stage4"
+  ],
+  "out_indices": [
+    4
+  ],
+  "patch_size": 4,
+  "problem_type": "single_label_classification",
+  "stage_names": [
+    "stem",
+    "stage1",
+    "stage2",
+    "stage3",
+    "stage4"
+  ],
+  "torch_dtype": "float32",
+  "transformers_version": "4.44.0"
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 117.07317073170732,
+    "eval_accuracy": 0.8402777777777778,
+    "eval_loss": 0.5202847123146057,
+    "eval_runtime": 3.1405,
+    "eval_samples_per_second": 45.852,
+    "eval_steps_per_second": 1.592
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8800c431490f289e457718c9f52dffebdccfedd69f45c4922365a8a84a3b5788
+size 111526592

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,22 @@

+{
+  "crop_pct": 0.875,
+  "do_normalize": true,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_mean": [
+    0.485,
+    0.456,
+    0.406
+  ],
+  "image_processor_type": "ConvNextImageProcessor",
+  "image_std": [
+    0.229,
+    0.224,
+    0.225
+  ],
+  "resample": 3,
+  "rescale_factor": 0.00392156862745098,
+  "size": {
+    "shortest_edge": 224
+  }
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 117.07317073170732,
+    "total_flos": 3.819974210196996e+18,
+    "train_loss": 0.3624983422954877,
+    "train_runtime": 4158.3882,
+    "train_samples_per_second": 37.399,
+    "train_steps_per_second": 0.289
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1944 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 117.07317073170732,
+  "eval_steps": 500,
+  "global_step": 1200,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.975609756097561,
+      "grad_norm": 3.532809257507324,
+      "learning_rate": 4.166666666666667e-06,
+      "loss": 2.4871,
+      "step": 10
+    },
+    {
+      "epoch": 0.975609756097561,
+      "eval_accuracy": 0.06944444444444445,
+      "eval_loss": 2.4770686626434326,
+      "eval_runtime": 3.5274,
+      "eval_samples_per_second": 40.824,
+      "eval_steps_per_second": 1.417,
+      "step": 10
+    },
+    {
+      "epoch": 1.951219512195122,
+      "grad_norm": 5.7173171043396,
+      "learning_rate": 8.333333333333334e-06,
+      "loss": 2.4464,
+      "step": 20
+    },
+    {
+      "epoch": 1.951219512195122,
+      "eval_accuracy": 0.1527777777777778,
+      "eval_loss": 2.4332642555236816,
+      "eval_runtime": 2.9731,
+      "eval_samples_per_second": 48.435,
+      "eval_steps_per_second": 1.682,
+      "step": 20
+    },
+    {
+      "epoch": 2.926829268292683,
+      "grad_norm": 6.289983749389648,
+      "learning_rate": 1.25e-05,
+      "loss": 2.3911,
+      "step": 30
+    },
+    {
+      "epoch": 2.926829268292683,
+      "eval_accuracy": 0.2777777777777778,
+      "eval_loss": 2.3669984340667725,
+      "eval_runtime": 2.9436,
+      "eval_samples_per_second": 48.919,
+      "eval_steps_per_second": 1.699,
+      "step": 30
+    },
+    {
+      "epoch": 3.902439024390244,
+      "grad_norm": 12.364039421081543,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 2.3204,
+      "step": 40
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.3680555555555556,
+      "eval_loss": 2.261659860610962,
+      "eval_runtime": 2.9933,
+      "eval_samples_per_second": 48.107,
+      "eval_steps_per_second": 1.67,
+      "step": 41
+    },
+    {
+      "epoch": 4.878048780487805,
+      "grad_norm": 14.902889251708984,
+      "learning_rate": 2.0833333333333336e-05,
+      "loss": 2.206,
+      "step": 50
+    },
+    {
+      "epoch": 4.975609756097561,
+      "eval_accuracy": 0.3958333333333333,
+      "eval_loss": 2.144454002380371,
+      "eval_runtime": 3.011,
+      "eval_samples_per_second": 47.824,
+      "eval_steps_per_second": 1.661,
+      "step": 51
+    },
+    {
+      "epoch": 5.853658536585366,
+      "grad_norm": 17.006898880004883,
+      "learning_rate": 2.5e-05,
+      "loss": 2.0869,
+      "step": 60
+    },
+    {
+      "epoch": 5.951219512195122,
+      "eval_accuracy": 0.4444444444444444,
+      "eval_loss": 2.0146427154541016,
+      "eval_runtime": 3.0417,
+      "eval_samples_per_second": 47.342,
+      "eval_steps_per_second": 1.644,
+      "step": 61
+    },
+    {
+      "epoch": 6.829268292682927,
+      "grad_norm": 42.38038635253906,
+      "learning_rate": 2.916666666666667e-05,
+      "loss": 1.9756,
+      "step": 70
+    },
+    {
+      "epoch": 6.926829268292683,
+      "eval_accuracy": 0.5138888888888888,
+      "eval_loss": 1.8763340711593628,
+      "eval_runtime": 3.096,
+      "eval_samples_per_second": 46.512,
+      "eval_steps_per_second": 1.615,
+      "step": 71
+    },
+    {
+      "epoch": 7.804878048780488,
+      "grad_norm": 26.403841018676758,
+      "learning_rate": 3.3333333333333335e-05,
+      "loss": 1.8124,
+      "step": 80
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.5486111111111112,
+      "eval_loss": 1.7422140836715698,
+      "eval_runtime": 3.1203,
+      "eval_samples_per_second": 46.15,
+      "eval_steps_per_second": 1.602,
+      "step": 82
+    },
+    {
+      "epoch": 8.78048780487805,
+      "grad_norm": 38.676876068115234,
+      "learning_rate": 3.7500000000000003e-05,
+      "loss": 1.6624,
+      "step": 90
+    },
+    {
+      "epoch": 8.975609756097562,
+      "eval_accuracy": 0.5902777777777778,
+      "eval_loss": 1.6628881692886353,
+      "eval_runtime": 3.1378,
+      "eval_samples_per_second": 45.893,
+      "eval_steps_per_second": 1.593,
+      "step": 92
+    },
+    {
+      "epoch": 9.75609756097561,
+      "grad_norm": 25.14325523376465,
+      "learning_rate": 4.166666666666667e-05,
+      "loss": 1.587,
+      "step": 100
+    },
+    {
+      "epoch": 9.951219512195122,
+      "eval_accuracy": 0.6111111111111112,
+      "eval_loss": 1.547376036643982,
+      "eval_runtime": 3.0786,
+      "eval_samples_per_second": 46.774,
+      "eval_steps_per_second": 1.624,
+      "step": 102
+    },
+    {
+      "epoch": 10.731707317073171,
+      "grad_norm": 59.02862548828125,
+      "learning_rate": 4.5833333333333334e-05,
+      "loss": 1.4746,
+      "step": 110
+    },
+    {
+      "epoch": 10.926829268292684,
+      "eval_accuracy": 0.625,
+      "eval_loss": 1.4577171802520752,
+      "eval_runtime": 3.0847,
+      "eval_samples_per_second": 46.683,
+      "eval_steps_per_second": 1.621,
+      "step": 112
+    },
+    {
+      "epoch": 11.707317073170731,
+      "grad_norm": 39.518768310546875,
+      "learning_rate": 5e-05,
+      "loss": 1.359,
+      "step": 120
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.6736111111111112,
+      "eval_loss": 1.30553138256073,
+      "eval_runtime": 3.1033,
+      "eval_samples_per_second": 46.403,
+      "eval_steps_per_second": 1.611,
+      "step": 123
+    },
+    {
+      "epoch": 12.682926829268293,
+      "grad_norm": 41.855445861816406,
+      "learning_rate": 4.9537037037037035e-05,
+      "loss": 1.2412,
+      "step": 130
+    },
+    {
+      "epoch": 12.975609756097562,
+      "eval_accuracy": 0.6736111111111112,
+      "eval_loss": 1.2240564823150635,
+      "eval_runtime": 3.1092,
+      "eval_samples_per_second": 46.314,
+      "eval_steps_per_second": 1.608,
+      "step": 133
+    },
+    {
+      "epoch": 13.658536585365853,
+      "grad_norm": 14.434544563293457,
+      "learning_rate": 4.9074074074074075e-05,
+      "loss": 1.1374,
+      "step": 140
+    },
+    {
+      "epoch": 13.951219512195122,
+      "eval_accuracy": 0.6736111111111112,
+      "eval_loss": 1.2003458738327026,
+      "eval_runtime": 3.1022,
+      "eval_samples_per_second": 46.419,
+      "eval_steps_per_second": 1.612,
+      "step": 143
+    },
+    {
+      "epoch": 14.634146341463415,
+      "grad_norm": 51.862064361572266,
+      "learning_rate": 4.8611111111111115e-05,
+      "loss": 1.0194,
+      "step": 150
+    },
+    {
+      "epoch": 14.926829268292684,
+      "eval_accuracy": 0.7569444444444444,
+      "eval_loss": 1.0233235359191895,
+      "eval_runtime": 3.1109,
+      "eval_samples_per_second": 46.288,
+      "eval_steps_per_second": 1.607,
+      "step": 153
+    },
+    {
+      "epoch": 15.609756097560975,
+      "grad_norm": 59.053375244140625,
+      "learning_rate": 4.814814814814815e-05,
+      "loss": 0.9705,
+      "step": 160
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.7847222222222222,
+      "eval_loss": 0.9492360353469849,
+      "eval_runtime": 3.0962,
+      "eval_samples_per_second": 46.509,
+      "eval_steps_per_second": 1.615,
+      "step": 164
+    },
+    {
+      "epoch": 16.585365853658537,
+      "grad_norm": 23.618066787719727,
+      "learning_rate": 4.768518518518519e-05,
+      "loss": 0.8949,
+      "step": 170
+    },
+    {
+      "epoch": 16.975609756097562,
+      "eval_accuracy": 0.75,
+      "eval_loss": 0.9246302843093872,
+      "eval_runtime": 3.3666,
+      "eval_samples_per_second": 42.773,
+      "eval_steps_per_second": 1.485,
+      "step": 174
+    },
+    {
+      "epoch": 17.5609756097561,
+      "grad_norm": 37.61671447753906,
+      "learning_rate": 4.722222222222222e-05,
+      "loss": 0.7959,
+      "step": 180
+    },
+    {
+      "epoch": 17.951219512195124,
+      "eval_accuracy": 0.7638888888888888,
+      "eval_loss": 0.8147740960121155,
+      "eval_runtime": 3.1586,
+      "eval_samples_per_second": 45.589,
+      "eval_steps_per_second": 1.583,
+      "step": 184
+    },
+    {
+      "epoch": 18.536585365853657,
+      "grad_norm": 22.54252052307129,
+      "learning_rate": 4.675925925925926e-05,
+      "loss": 0.7491,
+      "step": 190
+    },
+    {
+      "epoch": 18.926829268292682,
+      "eval_accuracy": 0.7569444444444444,
+      "eval_loss": 0.785780668258667,
+      "eval_runtime": 3.1126,
+      "eval_samples_per_second": 46.264,
+      "eval_steps_per_second": 1.606,
+      "step": 194
+    },
+    {
+      "epoch": 19.51219512195122,
+      "grad_norm": 73.11436462402344,
+      "learning_rate": 4.62962962962963e-05,
+      "loss": 0.6783,
+      "step": 200
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.7569444444444444,
+      "eval_loss": 0.8010105490684509,
+      "eval_runtime": 3.0934,
+      "eval_samples_per_second": 46.55,
+      "eval_steps_per_second": 1.616,
+      "step": 205
+    },
+    {
+      "epoch": 20.48780487804878,
+      "grad_norm": 25.613719940185547,
+      "learning_rate": 4.5833333333333334e-05,
+      "loss": 0.6257,
+      "step": 210
+    },
+    {
+      "epoch": 20.975609756097562,
+      "eval_accuracy": 0.7847222222222222,
+      "eval_loss": 0.7294739484786987,
+      "eval_runtime": 3.0855,
+      "eval_samples_per_second": 46.67,
+      "eval_steps_per_second": 1.62,
+      "step": 215
+    },
+    {
+      "epoch": 21.463414634146343,
+      "grad_norm": 21.02585220336914,
+      "learning_rate": 4.5370370370370374e-05,
+      "loss": 0.5999,
+      "step": 220
+    },
+    {
+      "epoch": 21.951219512195124,
+      "eval_accuracy": 0.8333333333333334,
+      "eval_loss": 0.6218506097793579,
+      "eval_runtime": 3.0821,
+      "eval_samples_per_second": 46.722,
+      "eval_steps_per_second": 1.622,
+      "step": 225
+    },
+    {
+      "epoch": 22.4390243902439,
+      "grad_norm": 24.335525512695312,
+      "learning_rate": 4.490740740740741e-05,
+      "loss": 0.5701,
+      "step": 230
+    },
+    {
+      "epoch": 22.926829268292682,
+      "eval_accuracy": 0.8402777777777778,
+      "eval_loss": 0.5932477116584778,
+      "eval_runtime": 3.1062,
+      "eval_samples_per_second": 46.359,
+      "eval_steps_per_second": 1.61,
+      "step": 235
+    },
+    {
+      "epoch": 23.414634146341463,
+      "grad_norm": 25.651668548583984,
+      "learning_rate": 4.4444444444444447e-05,
+      "loss": 0.4926,
+      "step": 240
+    },
+    {
+      "epoch": 24.0,
+      "eval_accuracy": 0.8055555555555556,
+      "eval_loss": 0.5970398783683777,
+      "eval_runtime": 3.1225,
+      "eval_samples_per_second": 46.116,
+      "eval_steps_per_second": 1.601,
+      "step": 246
+    },
+    {
+      "epoch": 24.390243902439025,
+      "grad_norm": 46.76804733276367,
+      "learning_rate": 4.3981481481481486e-05,
+      "loss": 0.4692,
+      "step": 250
+    },
+    {
+      "epoch": 24.975609756097562,
+      "eval_accuracy": 0.8194444444444444,
+      "eval_loss": 0.6297520995140076,
+      "eval_runtime": 3.3496,
+      "eval_samples_per_second": 42.99,
+      "eval_steps_per_second": 1.493,
+      "step": 256
+    },
+    {
+      "epoch": 25.365853658536587,
+      "grad_norm": 28.9127140045166,
+      "learning_rate": 4.351851851851852e-05,
+      "loss": 0.4393,
+      "step": 260
+    },
+    {
+      "epoch": 25.951219512195124,
+      "eval_accuracy": 0.8055555555555556,
+      "eval_loss": 0.5856587886810303,
+      "eval_runtime": 3.1545,
+      "eval_samples_per_second": 45.648,
+      "eval_steps_per_second": 1.585,
+      "step": 266
+    },
+    {
+      "epoch": 26.341463414634145,
+      "grad_norm": 18.964569091796875,
+      "learning_rate": 4.305555555555556e-05,
+      "loss": 0.419,
+      "step": 270
+    },
+    {
+      "epoch": 26.926829268292682,
+      "eval_accuracy": 0.8541666666666666,
+      "eval_loss": 0.5202641487121582,
+      "eval_runtime": 3.0877,
+      "eval_samples_per_second": 46.637,
+      "eval_steps_per_second": 1.619,
+      "step": 276
+    },
+    {
+      "epoch": 27.317073170731707,
+      "grad_norm": 27.72169303894043,
+      "learning_rate": 4.259259259259259e-05,
+      "loss": 0.3454,
+      "step": 280
+    },
+    {
+      "epoch": 28.0,
+      "eval_accuracy": 0.8263888888888888,
+      "eval_loss": 0.6083860397338867,
+      "eval_runtime": 3.1332,
+      "eval_samples_per_second": 45.959,
+      "eval_steps_per_second": 1.596,
+      "step": 287
+    },
+    {
+      "epoch": 28.29268292682927,
+      "grad_norm": 34.03929138183594,
+      "learning_rate": 4.212962962962963e-05,
+      "loss": 0.36,
+      "step": 290
+    },
+    {
+      "epoch": 28.975609756097562,
+      "eval_accuracy": 0.8263888888888888,
+      "eval_loss": 0.5927634835243225,
+      "eval_runtime": 3.105,
+      "eval_samples_per_second": 46.377,
+      "eval_steps_per_second": 1.61,
+      "step": 297
+    },
+    {
+      "epoch": 29.26829268292683,
+      "grad_norm": 12.895988464355469,
+      "learning_rate": 4.166666666666667e-05,
+      "loss": 0.3265,
+      "step": 300
+    },
+    {
+      "epoch": 29.951219512195124,
+      "eval_accuracy": 0.8402777777777778,
+      "eval_loss": 0.5302631855010986,
+      "eval_runtime": 3.1155,
+      "eval_samples_per_second": 46.22,
+      "eval_steps_per_second": 1.605,
+      "step": 307
+    },
+    {
+      "epoch": 30.24390243902439,
+      "grad_norm": 25.50472640991211,
+      "learning_rate": 4.1203703703703705e-05,
+      "loss": 0.3278,
+      "step": 310
+    },
+    {
+      "epoch": 30.926829268292682,
+      "eval_accuracy": 0.8194444444444444,
+      "eval_loss": 0.6049231886863708,
+      "eval_runtime": 3.093,
+      "eval_samples_per_second": 46.557,
+      "eval_steps_per_second": 1.617,
+      "step": 317
+    },
+    {
+      "epoch": 31.21951219512195,
+      "grad_norm": 24.565650939941406,
+      "learning_rate": 4.074074074074074e-05,
+      "loss": 0.2766,
+      "step": 320
+    },
+    {
+      "epoch": 32.0,
+      "eval_accuracy": 0.8263888888888888,
+      "eval_loss": 0.5656167268753052,
+      "eval_runtime": 3.1109,
+      "eval_samples_per_second": 46.289,
+      "eval_steps_per_second": 1.607,
+      "step": 328
+    },
+    {
+      "epoch": 32.19512195121951,
+      "grad_norm": 55.43843460083008,
+      "learning_rate": 4.027777777777778e-05,
+      "loss": 0.2805,
+      "step": 330
+    },
+    {
+      "epoch": 32.97560975609756,
+      "eval_accuracy": 0.8680555555555556,
+      "eval_loss": 0.500336229801178,
+      "eval_runtime": 3.0516,
+      "eval_samples_per_second": 47.188,
+      "eval_steps_per_second": 1.638,
+      "step": 338
+    },
+    {
+      "epoch": 33.170731707317074,
+      "grad_norm": 21.027912139892578,
+      "learning_rate": 3.981481481481482e-05,
+      "loss": 0.2505,
+      "step": 340
+    },
+    {
+      "epoch": 33.951219512195124,
+      "eval_accuracy": 0.8402777777777778,
+      "eval_loss": 0.5412003397941589,
+      "eval_runtime": 2.9972,
+      "eval_samples_per_second": 48.044,
+      "eval_steps_per_second": 1.668,
+      "step": 348
+    },
+    {
+      "epoch": 34.146341463414636,
+      "grad_norm": 15.519696235656738,
+      "learning_rate": 3.935185185185186e-05,
+      "loss": 0.2464,
+      "step": 350
+    },
+    {
+      "epoch": 34.926829268292686,
+      "eval_accuracy": 0.8333333333333334,
+      "eval_loss": 0.5409752130508423,
+      "eval_runtime": 3.024,
+      "eval_samples_per_second": 47.62,
+      "eval_steps_per_second": 1.653,
+      "step": 358
+    },
+    {
+      "epoch": 35.1219512195122,
+      "grad_norm": 24.68006134033203,
+      "learning_rate": 3.888888888888889e-05,
+      "loss": 0.2166,
+      "step": 360
+    },
+    {
+      "epoch": 36.0,
+      "eval_accuracy": 0.8472222222222222,
+      "eval_loss": 0.499971866607666,
+      "eval_runtime": 2.9993,
+      "eval_samples_per_second": 48.011,
+      "eval_steps_per_second": 1.667,
+      "step": 369
+    },
+    {
+      "epoch": 36.09756097560975,
+      "grad_norm": 16.784454345703125,
+      "learning_rate": 3.8425925925925924e-05,
+      "loss": 0.2,
+      "step": 370
+    },
+    {
+      "epoch": 36.97560975609756,
+      "eval_accuracy": 0.8055555555555556,
+      "eval_loss": 0.5053013563156128,
+      "eval_runtime": 2.9731,
+      "eval_samples_per_second": 48.435,
+      "eval_steps_per_second": 1.682,
+      "step": 379
+    },
+    {
+      "epoch": 37.073170731707314,
+      "grad_norm": 16.091339111328125,
+      "learning_rate": 3.7962962962962964e-05,
+      "loss": 0.1914,
+      "step": 380
+    },
+    {
+      "epoch": 37.951219512195124,
+      "eval_accuracy": 0.8402777777777778,
+      "eval_loss": 0.5161268711090088,
+      "eval_runtime": 3.0408,
+      "eval_samples_per_second": 47.356,
+      "eval_steps_per_second": 1.644,
+      "step": 389
+    },
+    {
+      "epoch": 38.048780487804876,
+      "grad_norm": 19.708166122436523,
+      "learning_rate": 3.7500000000000003e-05,
+      "loss": 0.186,
+      "step": 390
+    },
+    {
+      "epoch": 38.926829268292686,
+      "eval_accuracy": 0.8680555555555556,
+      "eval_loss": 0.42421483993530273,
+      "eval_runtime": 3.0128,
+      "eval_samples_per_second": 47.796,
+      "eval_steps_per_second": 1.66,
+      "step": 399
+    },
+    {
+      "epoch": 39.02439024390244,
+      "grad_norm": 18.210954666137695,
+      "learning_rate": 3.7037037037037037e-05,
+      "loss": 0.1767,
+      "step": 400
+    },
+    {
+      "epoch": 40.0,
+      "grad_norm": 12.815789222717285,
+      "learning_rate": 3.6574074074074076e-05,
+      "loss": 0.1592,
+      "step": 410
+    },
+    {
+      "epoch": 40.0,
+      "eval_accuracy": 0.8472222222222222,
+      "eval_loss": 0.5058771967887878,
+      "eval_runtime": 3.0381,
+      "eval_samples_per_second": 47.399,
+      "eval_steps_per_second": 1.646,
+      "step": 410
+    },
+    {
+      "epoch": 40.97560975609756,
+      "grad_norm": 17.878015518188477,
+      "learning_rate": 3.611111111111111e-05,
+      "loss": 0.1598,
+      "step": 420
+    },
+    {
+      "epoch": 40.97560975609756,
+      "eval_accuracy": 0.8263888888888888,
+      "eval_loss": 0.5143249034881592,
+      "eval_runtime": 3.2074,
+      "eval_samples_per_second": 44.896,
+      "eval_steps_per_second": 1.559,
+      "step": 420
+    },
+    {
+      "epoch": 41.951219512195124,
+      "grad_norm": 18.464937210083008,
+      "learning_rate": 3.564814814814815e-05,
+      "loss": 0.1565,
+      "step": 430
+    },
+    {
+      "epoch": 41.951219512195124,
+      "eval_accuracy": 0.8541666666666666,
+      "eval_loss": 0.47032684087753296,
+      "eval_runtime": 3.4622,
+      "eval_samples_per_second": 41.592,
+      "eval_steps_per_second": 1.444,
+      "step": 430
+    },
+    {
+      "epoch": 42.926829268292686,
+      "grad_norm": 21.608076095581055,
+      "learning_rate": 3.518518518518519e-05,
+      "loss": 0.1598,
+      "step": 440
+    },
+    {
+      "epoch": 42.926829268292686,
+      "eval_accuracy": 0.8541666666666666,
+      "eval_loss": 0.4383782148361206,
+      "eval_runtime": 3.2144,
+      "eval_samples_per_second": 44.798,
+      "eval_steps_per_second": 1.555,
+      "step": 440
+    },
+    {
+      "epoch": 43.90243902439025,
+      "grad_norm": 16.986896514892578,
+      "learning_rate": 3.472222222222222e-05,
+      "loss": 0.139,
+      "step": 450
+    },
+    {
+      "epoch": 44.0,
+      "eval_accuracy": 0.8402777777777778,
+      "eval_loss": 0.48497942090034485,
+      "eval_runtime": 3.1916,
+      "eval_samples_per_second": 45.118,
+      "eval_steps_per_second": 1.567,
+      "step": 451
+    },
+    {
+      "epoch": 44.8780487804878,
+      "grad_norm": 10.322036743164062,
+      "learning_rate": 3.425925925925926e-05,
+      "loss": 0.1137,
+      "step": 460
+    },
+    {
+      "epoch": 44.97560975609756,
+      "eval_accuracy": 0.8541666666666666,
+      "eval_loss": 0.4405103623867035,
+      "eval_runtime": 3.1456,
+      "eval_samples_per_second": 45.778,
+      "eval_steps_per_second": 1.59,
+      "step": 461
+    },
+    {
+      "epoch": 45.853658536585364,
+      "grad_norm": 24.03445053100586,
+      "learning_rate": 3.3796296296296295e-05,
+      "loss": 0.1158,
+      "step": 470
+    },
+    {
+      "epoch": 45.951219512195124,
+      "eval_accuracy": 0.8333333333333334,
+      "eval_loss": 0.5250218510627747,
+      "eval_runtime": 3.2289,
+      "eval_samples_per_second": 44.597,
+      "eval_steps_per_second": 1.549,
+      "step": 471
+    },
+    {
+      "epoch": 46.829268292682926,
+      "grad_norm": 19.822120666503906,
+      "learning_rate": 3.3333333333333335e-05,
+      "loss": 0.1192,
+      "step": 480
+    },
+    {
+      "epoch": 46.926829268292686,
+      "eval_accuracy": 0.8194444444444444,
+      "eval_loss": 0.5843467116355896,
+      "eval_runtime": 3.1862,
+      "eval_samples_per_second": 45.195,
+      "eval_steps_per_second": 1.569,
+      "step": 481
+    },
+    {
+      "epoch": 47.80487804878049,
+      "grad_norm": 14.12452220916748,
+      "learning_rate": 3.2870370370370375e-05,
+      "loss": 0.1271,
+      "step": 490
+    },
+    {
+      "epoch": 48.0,
+      "eval_accuracy": 0.8611111111111112,
+      "eval_loss": 0.44981643557548523,
+      "eval_runtime": 3.0999,
+      "eval_samples_per_second": 46.453,
+      "eval_steps_per_second": 1.613,
+      "step": 492
+    },
+    {
+      "epoch": 48.78048780487805,
+      "grad_norm": 12.838052749633789,
+      "learning_rate": 3.240740740740741e-05,
+      "loss": 0.0914,
+      "step": 500
+    },
+    {
+      "epoch": 48.97560975609756,
+      "eval_accuracy": 0.8263888888888888,
+      "eval_loss": 0.5166668891906738,
+      "eval_runtime": 3.2195,
+      "eval_samples_per_second": 44.728,
+      "eval_steps_per_second": 1.553,
+      "step": 502
+    },
+    {
+      "epoch": 49.75609756097561,
+      "grad_norm": 20.458118438720703,
+      "learning_rate": 3.194444444444444e-05,
+      "loss": 0.1079,
+      "step": 510
+    },
+    {
+      "epoch": 49.951219512195124,
+      "eval_accuracy": 0.8680555555555556,
+      "eval_loss": 0.46484246850013733,
+      "eval_runtime": 3.1773,
+      "eval_samples_per_second": 45.322,
+      "eval_steps_per_second": 1.574,
+      "step": 512
+    },
+    {
+      "epoch": 50.73170731707317,
+      "grad_norm": 20.558439254760742,
+      "learning_rate": 3.148148148148148e-05,
+      "loss": 0.091,
+      "step": 520
+    },
+    {
+      "epoch": 50.926829268292686,
+      "eval_accuracy": 0.8194444444444444,
+      "eval_loss": 0.5321457386016846,
+      "eval_runtime": 3.1291,
+      "eval_samples_per_second": 46.02,
+      "eval_steps_per_second": 1.598,
+      "step": 522
+    },
+    {
+      "epoch": 51.707317073170735,
+      "grad_norm": 11.692161560058594,
+      "learning_rate": 3.101851851851852e-05,
+      "loss": 0.1053,
+      "step": 530
+    },
+    {
+      "epoch": 52.0,
+      "eval_accuracy": 0.8611111111111112,
+      "eval_loss": 0.4402025043964386,
+      "eval_runtime": 3.1245,
+      "eval_samples_per_second": 46.087,
+      "eval_steps_per_second": 1.6,
+      "step": 533
+    },
+    {
+      "epoch": 52.68292682926829,
+      "grad_norm": 8.12877082824707,
+      "learning_rate": 3.055555555555556e-05,
+      "loss": 0.0842,
+      "step": 540
+    },
+    {
+      "epoch": 52.97560975609756,
+      "eval_accuracy": 0.8541666666666666,
+      "eval_loss": 0.477556437253952,
+      "eval_runtime": 3.1029,
+      "eval_samples_per_second": 46.408,
+      "eval_steps_per_second": 1.611,
+      "step": 543
+    },
+    {
+      "epoch": 53.65853658536585,
+      "grad_norm": 21.6231746673584,
+      "learning_rate": 3.0092592592592593e-05,
+      "loss": 0.0961,
+      "step": 550
+    },
+    {
+      "epoch": 53.951219512195124,
+      "eval_accuracy": 0.8680555555555556,
+      "eval_loss": 0.4761970341205597,
+      "eval_runtime": 3.0897,
+      "eval_samples_per_second": 46.607,
+      "eval_steps_per_second": 1.618,
+      "step": 553
+    },
+    {
+      "epoch": 54.63414634146341,
+      "grad_norm": 22.6603946685791,
+      "learning_rate": 2.962962962962963e-05,
+      "loss": 0.0896,
+      "step": 560
+    },
+    {
+      "epoch": 54.926829268292686,
+      "eval_accuracy": 0.8680555555555556,
+      "eval_loss": 0.4477081894874573,
+      "eval_runtime": 3.1158,
+      "eval_samples_per_second": 46.216,
+      "eval_steps_per_second": 1.605,
+      "step": 563
+    },
+    {
+      "epoch": 55.609756097560975,
+      "grad_norm": 20.613056182861328,
+      "learning_rate": 2.916666666666667e-05,
+      "loss": 0.0876,
+      "step": 570
+    },
+    {
+      "epoch": 56.0,
+      "eval_accuracy": 0.8472222222222222,
+      "eval_loss": 0.49506622552871704,
+      "eval_runtime": 3.1109,
+      "eval_samples_per_second": 46.289,
+      "eval_steps_per_second": 1.607,
+      "step": 574
+    },
+    {
+      "epoch": 56.58536585365854,
+      "grad_norm": 15.108587265014648,
+      "learning_rate": 2.8703703703703706e-05,
+      "loss": 0.0855,
+      "step": 580
+    },
+    {
+      "epoch": 56.97560975609756,
+      "eval_accuracy": 0.8125,
+      "eval_loss": 0.565302312374115,
+      "eval_runtime": 3.3057,
+      "eval_samples_per_second": 43.562,
+      "eval_steps_per_second": 1.513,
+      "step": 584
+    },
+    {
+      "epoch": 57.5609756097561,
+      "grad_norm": 14.336268424987793,
+      "learning_rate": 2.824074074074074e-05,
+      "loss": 0.073,
+      "step": 590
+    },
+    {
+      "epoch": 57.951219512195124,
+      "eval_accuracy": 0.8472222222222222,
+      "eval_loss": 0.5314738750457764,
+      "eval_runtime": 3.1166,
+      "eval_samples_per_second": 46.205,
+      "eval_steps_per_second": 1.604,
+      "step": 594
+    },
+    {
+      "epoch": 58.53658536585366,
+      "grad_norm": 31.659631729125977,
+      "learning_rate": 2.777777777777778e-05,
+      "loss": 0.0804,
+      "step": 600
+    },
+    {
+      "epoch": 58.926829268292686,
+      "eval_accuracy": 0.8680555555555556,
+      "eval_loss": 0.5064035058021545,
+      "eval_runtime": 3.1077,
+      "eval_samples_per_second": 46.336,
+      "eval_steps_per_second": 1.609,
+      "step": 604
+    },
+    {
+      "epoch": 59.51219512195122,
+      "grad_norm": 6.317721366882324,
+      "learning_rate": 2.7314814814814816e-05,
+      "loss": 0.0765,
+      "step": 610
+    },
+    {
+      "epoch": 60.0,
+      "eval_accuracy": 0.8263888888888888,
+      "eval_loss": 0.63160640001297,
+      "eval_runtime": 3.0861,
+      "eval_samples_per_second": 46.661,
+      "eval_steps_per_second": 1.62,
+      "step": 615
+    },
+    {
+      "epoch": 60.48780487804878,
+      "grad_norm": 41.102962493896484,
+      "learning_rate": 2.6851851851851855e-05,
+      "loss": 0.0782,
+      "step": 620
+    },
+    {
+      "epoch": 60.97560975609756,
+      "eval_accuracy": 0.8055555555555556,
+      "eval_loss": 0.5733475089073181,
+      "eval_runtime": 3.1325,
+      "eval_samples_per_second": 45.97,
+      "eval_steps_per_second": 1.596,
+      "step": 625
+    },
+    {
+      "epoch": 61.46341463414634,
+      "grad_norm": 6.797872066497803,
+      "learning_rate": 2.6388888888888892e-05,
+      "loss": 0.069,
+      "step": 630
+    },
+    {
+      "epoch": 61.951219512195124,
+      "eval_accuracy": 0.8055555555555556,
+      "eval_loss": 0.6994370222091675,
+      "eval_runtime": 3.1742,
+      "eval_samples_per_second": 45.365,
+      "eval_steps_per_second": 1.575,
+      "step": 635
+    },
+    {
+      "epoch": 62.4390243902439,
+      "grad_norm": 9.439558029174805,
+      "learning_rate": 2.5925925925925925e-05,
+      "loss": 0.0809,
+      "step": 640
+    },
+    {
+      "epoch": 62.926829268292686,
+      "eval_accuracy": 0.8611111111111112,
+      "eval_loss": 0.48975637555122375,
+      "eval_runtime": 3.1035,
+      "eval_samples_per_second": 46.4,
+      "eval_steps_per_second": 1.611,
+      "step": 645
+    },
+    {
+      "epoch": 63.41463414634146,
+      "grad_norm": 23.557085037231445,
+      "learning_rate": 2.5462962962962965e-05,
+      "loss": 0.0829,
+      "step": 650
+    },
+    {
+      "epoch": 64.0,
+      "eval_accuracy": 0.8194444444444444,
+      "eval_loss": 0.6042267680168152,
+      "eval_runtime": 3.0922,
+      "eval_samples_per_second": 46.569,
+      "eval_steps_per_second": 1.617,
+      "step": 656
+    },
+    {
+      "epoch": 64.39024390243902,
+      "grad_norm": 5.313930511474609,
+      "learning_rate": 2.5e-05,
+      "loss": 0.0735,
+      "step": 660
+    },
+    {
+      "epoch": 64.97560975609755,
+      "eval_accuracy": 0.8611111111111112,
+      "eval_loss": 0.4758368730545044,
+      "eval_runtime": 3.1221,
+      "eval_samples_per_second": 46.122,
+      "eval_steps_per_second": 1.601,
+      "step": 666
+    },
+    {
+      "epoch": 65.36585365853658,
+      "grad_norm": 21.385704040527344,
+      "learning_rate": 2.4537037037037038e-05,
+      "loss": 0.0763,
+      "step": 670
+    },
+    {
+      "epoch": 65.95121951219512,
+      "eval_accuracy": 0.8541666666666666,
+      "eval_loss": 0.4920533001422882,
+      "eval_runtime": 3.0958,
+      "eval_samples_per_second": 46.514,
+      "eval_steps_per_second": 1.615,
+      "step": 676
+    },
+    {
+      "epoch": 66.34146341463415,
+      "grad_norm": 5.922763347625732,
+      "learning_rate": 2.4074074074074074e-05,
+      "loss": 0.0565,
+      "step": 680
+    },
+    {
+      "epoch": 66.92682926829268,
+      "eval_accuracy": 0.8680555555555556,
+      "eval_loss": 0.47003433108329773,
+      "eval_runtime": 3.0115,
+      "eval_samples_per_second": 47.816,
+      "eval_steps_per_second": 1.66,
+      "step": 686
+    },
+    {
+      "epoch": 67.3170731707317,
+      "grad_norm": 8.859350204467773,
+      "learning_rate": 2.361111111111111e-05,
+      "loss": 0.062,
+      "step": 690
+    },
+    {
+      "epoch": 68.0,
+      "eval_accuracy": 0.8819444444444444,
+      "eval_loss": 0.49443933367729187,
+      "eval_runtime": 3.0558,
+      "eval_samples_per_second": 47.123,
+      "eval_steps_per_second": 1.636,
+      "step": 697
+    },
+    {
+      "epoch": 68.29268292682927,
+      "grad_norm": 11.291411399841309,
+      "learning_rate": 2.314814814814815e-05,
+      "loss": 0.0644,
+      "step": 700
+    },
+    {
+      "epoch": 68.97560975609755,
+      "eval_accuracy": 0.8680555555555556,
+      "eval_loss": 0.47334182262420654,
+      "eval_runtime": 3.1099,
+      "eval_samples_per_second": 46.303,
+      "eval_steps_per_second": 1.608,
+      "step": 707
+    },
+    {
+      "epoch": 69.26829268292683,
+      "grad_norm": 4.428774356842041,
+      "learning_rate": 2.2685185185185187e-05,
+      "loss": 0.0659,
+      "step": 710
+    },
+    {
+      "epoch": 69.95121951219512,
+      "eval_accuracy": 0.8819444444444444,
+      "eval_loss": 0.4702872037887573,
+      "eval_runtime": 3.1595,
+      "eval_samples_per_second": 45.577,
+      "eval_steps_per_second": 1.583,
+      "step": 717
+    },
+    {
+      "epoch": 70.2439024390244,
+      "grad_norm": 20.887792587280273,
+      "learning_rate": 2.2222222222222223e-05,
+      "loss": 0.0625,
+      "step": 720
+    },
+    {
+      "epoch": 70.92682926829268,
+      "eval_accuracy": 0.8541666666666666,
+      "eval_loss": 0.5075345635414124,
+      "eval_runtime": 3.1136,
+      "eval_samples_per_second": 46.248,
+      "eval_steps_per_second": 1.606,
+      "step": 727
+    },
+    {
+      "epoch": 71.21951219512195,
+      "grad_norm": 7.4120917320251465,
+      "learning_rate": 2.175925925925926e-05,
+      "loss": 0.042,
+      "step": 730
+    },
+    {
+      "epoch": 72.0,
+      "eval_accuracy": 0.8263888888888888,
+      "eval_loss": 0.5463792085647583,
+      "eval_runtime": 3.1979,
+      "eval_samples_per_second": 45.029,
+      "eval_steps_per_second": 1.564,
+      "step": 738
+    },
+    {
+      "epoch": 72.1951219512195,
+      "grad_norm": 4.7453532218933105,
+      "learning_rate": 2.1296296296296296e-05,
+      "loss": 0.056,
+      "step": 740
+    },
+    {
+      "epoch": 72.97560975609755,
+      "eval_accuracy": 0.8333333333333334,
+      "eval_loss": 0.5185548067092896,
+      "eval_runtime": 3.2157,
+      "eval_samples_per_second": 44.78,
+      "eval_steps_per_second": 1.555,
+      "step": 748
+    },
+    {
+      "epoch": 73.17073170731707,
+      "grad_norm": 40.11507034301758,
+      "learning_rate": 2.0833333333333336e-05,
+      "loss": 0.0858,
+      "step": 750
+    },
+    {
+      "epoch": 73.95121951219512,
+      "eval_accuracy": 0.8263888888888888,
+      "eval_loss": 0.5403424501419067,
+      "eval_runtime": 3.1711,
+      "eval_samples_per_second": 45.41,
+      "eval_steps_per_second": 1.577,
+      "step": 758
+    },
+    {
+      "epoch": 74.14634146341463,
+      "grad_norm": 21.469833374023438,
+      "learning_rate": 2.037037037037037e-05,
+      "loss": 0.0616,
+      "step": 760
+    },
+    {
+      "epoch": 74.92682926829268,
+      "eval_accuracy": 0.8472222222222222,
+      "eval_loss": 0.5104292631149292,
+      "eval_runtime": 3.1108,
+      "eval_samples_per_second": 46.29,
+      "eval_steps_per_second": 1.607,
+      "step": 768
+    },
+    {
+      "epoch": 75.1219512195122,
+      "grad_norm": 17.34604263305664,
+      "learning_rate": 1.990740740740741e-05,
+      "loss": 0.0777,
+      "step": 770
+    },
+    {
+      "epoch": 76.0,
+      "eval_accuracy": 0.8402777777777778,
+      "eval_loss": 0.5515955686569214,
+      "eval_runtime": 3.0985,
+      "eval_samples_per_second": 46.474,
+      "eval_steps_per_second": 1.614,
+      "step": 779
+    },
+    {
+      "epoch": 76.09756097560975,
+      "grad_norm": 25.844533920288086,
+      "learning_rate": 1.9444444444444445e-05,
+      "loss": 0.0668,
+      "step": 780
+    },
+    {
+      "epoch": 76.97560975609755,
+      "eval_accuracy": 0.8611111111111112,
+      "eval_loss": 0.49184906482696533,
+      "eval_runtime": 3.1523,
+      "eval_samples_per_second": 45.68,
+      "eval_steps_per_second": 1.586,
+      "step": 789
+    },
+    {
+      "epoch": 77.07317073170732,
+      "grad_norm": 3.816899299621582,
+      "learning_rate": 1.8981481481481482e-05,
+      "loss": 0.0585,
+      "step": 790
+    },
+    {
+      "epoch": 77.95121951219512,
+      "eval_accuracy": 0.8402777777777778,
+      "eval_loss": 0.5692147612571716,
+      "eval_runtime": 3.1238,
+      "eval_samples_per_second": 46.098,
+      "eval_steps_per_second": 1.601,
+      "step": 799
+    },
+    {
+      "epoch": 78.04878048780488,
+      "grad_norm": 1.5959941148757935,
+      "learning_rate": 1.8518518518518518e-05,
+      "loss": 0.0562,
+      "step": 800
+    },
+    {
+      "epoch": 78.92682926829268,
+      "eval_accuracy": 0.8402777777777778,
+      "eval_loss": 0.5733731389045715,
+      "eval_runtime": 3.161,
+      "eval_samples_per_second": 45.556,
+      "eval_steps_per_second": 1.582,
+      "step": 809
+    },
+    {
+      "epoch": 79.02439024390245,
+      "grad_norm": 8.219141960144043,
+      "learning_rate": 1.8055555555555555e-05,
+      "loss": 0.067,
+      "step": 810
+    },
+    {
+      "epoch": 80.0,
+      "grad_norm": 15.953410148620605,
+      "learning_rate": 1.7592592592592595e-05,
+      "loss": 0.0653,
+      "step": 820
+    },
+    {
+      "epoch": 80.0,
+      "eval_accuracy": 0.8263888888888888,
+      "eval_loss": 0.5403192639350891,
+      "eval_runtime": 3.2805,
+      "eval_samples_per_second": 43.896,
+      "eval_steps_per_second": 1.524,
+      "step": 820
+    },
+    {
+      "epoch": 80.97560975609755,
+      "grad_norm": 6.4320783615112305,
+      "learning_rate": 1.712962962962963e-05,
+      "loss": 0.0434,
+      "step": 830
+    },
+    {
+      "epoch": 80.97560975609755,
+      "eval_accuracy": 0.8333333333333334,
+      "eval_loss": 0.5107588171958923,
+      "eval_runtime": 3.1353,
+      "eval_samples_per_second": 45.929,
+      "eval_steps_per_second": 1.595,
+      "step": 830
+    },
+    {
+      "epoch": 81.95121951219512,
+      "grad_norm": 4.175785064697266,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 0.0483,
+      "step": 840
+    },
+    {
+      "epoch": 81.95121951219512,
+      "eval_accuracy": 0.8125,
+      "eval_loss": 0.5699278712272644,
+      "eval_runtime": 3.084,
+      "eval_samples_per_second": 46.693,
+      "eval_steps_per_second": 1.621,
+      "step": 840
+    },
+    {
+      "epoch": 82.92682926829268,
+      "grad_norm": 7.429763317108154,
+      "learning_rate": 1.6203703703703704e-05,
+      "loss": 0.0329,
+      "step": 850
+    },
+    {
+      "epoch": 82.92682926829268,
+      "eval_accuracy": 0.8055555555555556,
+      "eval_loss": 0.6027733087539673,
+      "eval_runtime": 3.1234,
+      "eval_samples_per_second": 46.104,
+      "eval_steps_per_second": 1.601,
+      "step": 850
+    },
+    {
+      "epoch": 83.90243902439025,
+      "grad_norm": 5.646729946136475,
+      "learning_rate": 1.574074074074074e-05,
+      "loss": 0.0431,
+      "step": 860
+    },
+    {
+      "epoch": 84.0,
+      "eval_accuracy": 0.8333333333333334,
+      "eval_loss": 0.5230019092559814,
+      "eval_runtime": 3.1681,
+      "eval_samples_per_second": 45.453,
+      "eval_steps_per_second": 1.578,
+      "step": 861
+    },
+    {
+      "epoch": 84.8780487804878,
+      "grad_norm": 4.747640132904053,
+      "learning_rate": 1.527777777777778e-05,
+      "loss": 0.042,
+      "step": 870
+    },
+    {
+      "epoch": 84.97560975609755,
+      "eval_accuracy": 0.8194444444444444,
+      "eval_loss": 0.5875388979911804,
+      "eval_runtime": 3.1311,
+      "eval_samples_per_second": 45.99,
+      "eval_steps_per_second": 1.597,
+      "step": 871
+    },
+    {
+      "epoch": 85.85365853658537,
+      "grad_norm": 7.094844341278076,
+      "learning_rate": 1.4814814814814815e-05,
+      "loss": 0.0449,
+      "step": 880
+    },
+    {
+      "epoch": 85.95121951219512,
+      "eval_accuracy": 0.8611111111111112,
+      "eval_loss": 0.5179998278617859,
+      "eval_runtime": 3.1291,
+      "eval_samples_per_second": 46.02,
+      "eval_steps_per_second": 1.598,
+      "step": 881
+    },
+    {
+      "epoch": 86.82926829268293,
+      "grad_norm": 9.338136672973633,
+      "learning_rate": 1.4351851851851853e-05,
+      "loss": 0.0512,
+      "step": 890
+    },
+    {
+      "epoch": 86.92682926829268,
+      "eval_accuracy": 0.8194444444444444,
+      "eval_loss": 0.5425156354904175,
+      "eval_runtime": 3.1587,
+      "eval_samples_per_second": 45.588,
+      "eval_steps_per_second": 1.583,
+      "step": 891
+    },
+    {
+      "epoch": 87.8048780487805,
+      "grad_norm": 20.005054473876953,
+      "learning_rate": 1.388888888888889e-05,
+      "loss": 0.0545,
+      "step": 900
+    },
+    {
+      "epoch": 88.0,
+      "eval_accuracy": 0.8263888888888888,
+      "eval_loss": 0.5689591765403748,
+      "eval_runtime": 3.1184,
+      "eval_samples_per_second": 46.177,
+      "eval_steps_per_second": 1.603,
+      "step": 902
+    },
+    {
+      "epoch": 88.78048780487805,
+      "grad_norm": 6.419548034667969,
+      "learning_rate": 1.3425925925925928e-05,
+      "loss": 0.0496,
+      "step": 910
+    },
+    {
+      "epoch": 88.97560975609755,
+      "eval_accuracy": 0.8611111111111112,
+      "eval_loss": 0.5619076490402222,
+      "eval_runtime": 3.1196,
+      "eval_samples_per_second": 46.16,
+      "eval_steps_per_second": 1.603,
+      "step": 912
+    },
+    {
+      "epoch": 89.7560975609756,
+      "grad_norm": 4.659784317016602,
+      "learning_rate": 1.2962962962962962e-05,
+      "loss": 0.0449,
+      "step": 920
+    },
+    {
+      "epoch": 89.95121951219512,
+      "eval_accuracy": 0.8333333333333334,
+      "eval_loss": 0.5625645518302917,
+      "eval_runtime": 3.1196,
+      "eval_samples_per_second": 46.16,
+      "eval_steps_per_second": 1.603,
+      "step": 922
+    },
+    {
+      "epoch": 90.73170731707317,
+      "grad_norm": 10.376348495483398,
+      "learning_rate": 1.25e-05,
+      "loss": 0.0405,
+      "step": 930
+    },
+    {
+      "epoch": 90.92682926829268,
+      "eval_accuracy": 0.8402777777777778,
+      "eval_loss": 0.526747465133667,
+      "eval_runtime": 3.1368,
+      "eval_samples_per_second": 45.906,
+      "eval_steps_per_second": 1.594,
+      "step": 932
+    },
+    {
+      "epoch": 91.70731707317073,
+      "grad_norm": 1.9461939334869385,
+      "learning_rate": 1.2037037037037037e-05,
+      "loss": 0.0344,
+      "step": 940
+    },
+    {
+      "epoch": 92.0,
+      "eval_accuracy": 0.8402777777777778,
+      "eval_loss": 0.5616637468338013,
+      "eval_runtime": 3.1356,
+      "eval_samples_per_second": 45.925,
+      "eval_steps_per_second": 1.595,
+      "step": 943
+    },
+    {
+      "epoch": 92.6829268292683,
+      "grad_norm": 6.943029880523682,
+      "learning_rate": 1.1574074074074075e-05,
+      "loss": 0.0421,
+      "step": 950
+    },
+    {
+      "epoch": 92.97560975609755,
+      "eval_accuracy": 0.8611111111111112,
+      "eval_loss": 0.5399531126022339,
+      "eval_runtime": 3.1511,
+      "eval_samples_per_second": 45.698,
+      "eval_steps_per_second": 1.587,
+      "step": 953
+    },
+    {
+      "epoch": 93.65853658536585,
+      "grad_norm": 3.614881753921509,
+      "learning_rate": 1.1111111111111112e-05,
+      "loss": 0.0341,
+      "step": 960
+    },
+    {
+      "epoch": 93.95121951219512,
+      "eval_accuracy": 0.8333333333333334,
+      "eval_loss": 0.5728729963302612,
+      "eval_runtime": 3.1618,
+      "eval_samples_per_second": 45.544,
+      "eval_steps_per_second": 1.581,
+      "step": 963
+    },
+    {
+      "epoch": 94.63414634146342,
+      "grad_norm": 24.69358253479004,
+      "learning_rate": 1.0648148148148148e-05,
+      "loss": 0.0492,
+      "step": 970
+    },
+    {
+      "epoch": 94.92682926829268,
+      "eval_accuracy": 0.8055555555555556,
+      "eval_loss": 0.5855351686477661,
+      "eval_runtime": 3.1608,
+      "eval_samples_per_second": 45.559,
+      "eval_steps_per_second": 1.582,
+      "step": 973
+    },
+    {
+      "epoch": 95.60975609756098,
+      "grad_norm": 7.931139945983887,
+      "learning_rate": 1.0185185185185185e-05,
+      "loss": 0.0374,
+      "step": 980
+    },
+    {
+      "epoch": 96.0,
+      "eval_accuracy": 0.8125,
+      "eval_loss": 0.6113177537918091,
+      "eval_runtime": 2.99,
+      "eval_samples_per_second": 48.161,
+      "eval_steps_per_second": 1.672,
+      "step": 984
+    },
+    {
+      "epoch": 96.58536585365853,
+      "grad_norm": 7.854911804199219,
+      "learning_rate": 9.722222222222223e-06,
+      "loss": 0.0375,
+      "step": 990
+    },
+    {
+      "epoch": 96.97560975609755,
+      "eval_accuracy": 0.8402777777777778,
+      "eval_loss": 0.5511393547058105,
+      "eval_runtime": 3.0799,
+      "eval_samples_per_second": 46.755,
+      "eval_steps_per_second": 1.623,
+      "step": 994
+    },
+    {
+      "epoch": 97.5609756097561,
+      "grad_norm": 19.6168270111084,
+      "learning_rate": 9.259259259259259e-06,
+      "loss": 0.0373,
+      "step": 1000
+    },
+    {
+      "epoch": 97.95121951219512,
+      "eval_accuracy": 0.8541666666666666,
+      "eval_loss": 0.49421417713165283,
+      "eval_runtime": 3.1042,
+      "eval_samples_per_second": 46.388,
+      "eval_steps_per_second": 1.611,
+      "step": 1004
+    },
+    {
+      "epoch": 98.53658536585365,
+      "grad_norm": 11.319071769714355,
+      "learning_rate": 8.796296296296297e-06,
+      "loss": 0.0447,
+      "step": 1010
+    },
+    {
+      "epoch": 98.92682926829268,
+      "eval_accuracy": 0.8541666666666666,
+      "eval_loss": 0.5030938982963562,
+      "eval_runtime": 3.0891,
+      "eval_samples_per_second": 46.615,
+      "eval_steps_per_second": 1.619,
+      "step": 1014
+    },
+    {
+      "epoch": 99.51219512195122,
+      "grad_norm": 12.67363452911377,
+      "learning_rate": 8.333333333333334e-06,
+      "loss": 0.0519,
+      "step": 1020
+    },
+    {
+      "epoch": 100.0,
+      "eval_accuracy": 0.8541666666666666,
+      "eval_loss": 0.5348986983299255,
+      "eval_runtime": 3.0853,
+      "eval_samples_per_second": 46.673,
+      "eval_steps_per_second": 1.621,
+      "step": 1025
+    },
+    {
+      "epoch": 100.48780487804878,
+      "grad_norm": 17.858867645263672,
+      "learning_rate": 7.87037037037037e-06,
+      "loss": 0.0387,
+      "step": 1030
+    },
+    {
+      "epoch": 100.97560975609755,
+      "eval_accuracy": 0.8541666666666666,
+      "eval_loss": 0.5510598421096802,
+      "eval_runtime": 3.1136,
+      "eval_samples_per_second": 46.249,
+      "eval_steps_per_second": 1.606,
+      "step": 1035
+    },
+    {
+      "epoch": 101.46341463414635,
+      "grad_norm": 2.6209030151367188,
+      "learning_rate": 7.4074074074074075e-06,
+      "loss": 0.0256,
+      "step": 1040
+    },
+    {
+      "epoch": 101.95121951219512,
+      "eval_accuracy": 0.8402777777777778,
+      "eval_loss": 0.5319210290908813,
+      "eval_runtime": 3.0318,
+      "eval_samples_per_second": 47.496,
+      "eval_steps_per_second": 1.649,
+      "step": 1045
+    },
+    {
+      "epoch": 102.4390243902439,
+      "grad_norm": 8.14228630065918,
+      "learning_rate": 6.944444444444445e-06,
+      "loss": 0.043,
+      "step": 1050
+    },
+    {
+      "epoch": 102.92682926829268,
+      "eval_accuracy": 0.8263888888888888,
+      "eval_loss": 0.5605261325836182,
+      "eval_runtime": 3.0596,
+      "eval_samples_per_second": 47.064,
+      "eval_steps_per_second": 1.634,
+      "step": 1055
+    },
+    {
+      "epoch": 103.41463414634147,
+      "grad_norm": 8.247823715209961,
+      "learning_rate": 6.481481481481481e-06,
+      "loss": 0.029,
+      "step": 1060
+    },
+    {
+      "epoch": 104.0,
+      "eval_accuracy": 0.8402777777777778,
+      "eval_loss": 0.5775593519210815,
+      "eval_runtime": 3.3388,
+      "eval_samples_per_second": 43.13,
+      "eval_steps_per_second": 1.498,
+      "step": 1066
+    },
+    {
+      "epoch": 104.39024390243902,
+      "grad_norm": 7.826836585998535,
+      "learning_rate": 6.0185185185185185e-06,
+      "loss": 0.0379,
+      "step": 1070
+    },
+    {
+      "epoch": 104.97560975609755,
+      "eval_accuracy": 0.8472222222222222,
+      "eval_loss": 0.5697184801101685,
+      "eval_runtime": 3.1172,
+      "eval_samples_per_second": 46.196,
+      "eval_steps_per_second": 1.604,
+      "step": 1076
+    },
+    {
+      "epoch": 105.36585365853658,
+      "grad_norm": 7.729676246643066,
+      "learning_rate": 5.555555555555556e-06,
+      "loss": 0.0445,
+      "step": 1080
+    },
+    {
+      "epoch": 105.95121951219512,
+      "eval_accuracy": 0.8680555555555556,
+      "eval_loss": 0.5132907629013062,
+      "eval_runtime": 3.1003,
+      "eval_samples_per_second": 46.447,
+      "eval_steps_per_second": 1.613,
+      "step": 1086
+    },
+    {
+      "epoch": 106.34146341463415,
+      "grad_norm": 18.125850677490234,
+      "learning_rate": 5.092592592592592e-06,
+      "loss": 0.0267,
+      "step": 1090
+    },
+    {
+      "epoch": 106.92682926829268,
+      "eval_accuracy": 0.8680555555555556,
+      "eval_loss": 0.5075670480728149,
+      "eval_runtime": 2.9664,
+      "eval_samples_per_second": 48.543,
+      "eval_steps_per_second": 1.686,
+      "step": 1096
+    },
+    {
+      "epoch": 107.3170731707317,
+      "grad_norm": 11.351465225219727,
+      "learning_rate": 4.6296296296296296e-06,
+      "loss": 0.044,
+      "step": 1100
+    },
+    {
+      "epoch": 108.0,
+      "eval_accuracy": 0.8402777777777778,
+      "eval_loss": 0.5260215401649475,
+      "eval_runtime": 3.1083,
+      "eval_samples_per_second": 46.328,
+      "eval_steps_per_second": 1.609,
+      "step": 1107
+    },
+    {
+      "epoch": 108.29268292682927,
+      "grad_norm": 2.0481507778167725,
+      "learning_rate": 4.166666666666667e-06,
+      "loss": 0.0263,
+      "step": 1110
+    },
+    {
+      "epoch": 108.97560975609755,
+      "eval_accuracy": 0.8541666666666666,
+      "eval_loss": 0.5101317167282104,
+      "eval_runtime": 3.0889,
+      "eval_samples_per_second": 46.619,
+      "eval_steps_per_second": 1.619,
+      "step": 1117
+    },
+    {
+      "epoch": 109.26829268292683,
+      "grad_norm": 4.980681419372559,
+      "learning_rate": 3.7037037037037037e-06,
+      "loss": 0.0247,
+      "step": 1120
+    },
+    {
+      "epoch": 109.95121951219512,
+      "eval_accuracy": 0.8541666666666666,
+      "eval_loss": 0.49724239110946655,
+      "eval_runtime": 3.1321,
+      "eval_samples_per_second": 45.975,
+      "eval_steps_per_second": 1.596,
+      "step": 1127
+    },
+    {
+      "epoch": 110.2439024390244,
+      "grad_norm": 11.607294082641602,
+      "learning_rate": 3.2407407407407406e-06,
+      "loss": 0.0441,
+      "step": 1130
+    },
+    {
+      "epoch": 110.92682926829268,
+      "eval_accuracy": 0.8472222222222222,
+      "eval_loss": 0.5093557834625244,
+      "eval_runtime": 3.2177,
+      "eval_samples_per_second": 44.753,
+      "eval_steps_per_second": 1.554,
+      "step": 1137
+    },
+    {
+      "epoch": 111.21951219512195,
+      "grad_norm": 0.6021797060966492,
+      "learning_rate": 2.777777777777778e-06,
+      "loss": 0.0263,
+      "step": 1140
+    },
+    {
+      "epoch": 112.0,
+      "eval_accuracy": 0.8333333333333334,
+      "eval_loss": 0.525884747505188,
+      "eval_runtime": 3.1645,
+      "eval_samples_per_second": 45.505,
+      "eval_steps_per_second": 1.58,
+      "step": 1148
+    },
+    {
+      "epoch": 112.1951219512195,
+      "grad_norm": 8.183242797851562,
+      "learning_rate": 2.3148148148148148e-06,
+      "loss": 0.0247,
+      "step": 1150
+    },
+    {
+      "epoch": 112.97560975609755,
+      "eval_accuracy": 0.8402777777777778,
+      "eval_loss": 0.5323313474655151,
+      "eval_runtime": 3.0594,
+      "eval_samples_per_second": 47.067,
+      "eval_steps_per_second": 1.634,
+      "step": 1158
+    },
+    {
+      "epoch": 113.17073170731707,
+      "grad_norm": 18.887975692749023,
+      "learning_rate": 1.8518518518518519e-06,
+      "loss": 0.0356,
+      "step": 1160
+    },
+    {
+      "epoch": 113.95121951219512,
+      "eval_accuracy": 0.8402777777777778,
+      "eval_loss": 0.5275124907493591,
+      "eval_runtime": 3.1264,
+      "eval_samples_per_second": 46.059,
+      "eval_steps_per_second": 1.599,
+      "step": 1168
+    },
+    {
+      "epoch": 114.14634146341463,
+      "grad_norm": 9.692997932434082,
+      "learning_rate": 1.388888888888889e-06,
+      "loss": 0.0297,
+      "step": 1170
+    },
+    {
+      "epoch": 114.92682926829268,
+      "eval_accuracy": 0.8333333333333334,
+      "eval_loss": 0.5239912867546082,
+      "eval_runtime": 3.0878,
+      "eval_samples_per_second": 46.636,
+      "eval_steps_per_second": 1.619,
+      "step": 1178
+    },
+    {
+      "epoch": 115.1219512195122,
+      "grad_norm": 7.508498191833496,
+      "learning_rate": 9.259259259259259e-07,
+      "loss": 0.044,
+      "step": 1180
+    },
+    {
+      "epoch": 116.0,
+      "eval_accuracy": 0.8472222222222222,
+      "eval_loss": 0.520145833492279,
+      "eval_runtime": 3.0984,
+      "eval_samples_per_second": 46.475,
+      "eval_steps_per_second": 1.614,
+      "step": 1189
+    },
+    {
+      "epoch": 116.09756097560975,
+      "grad_norm": 2.9772377014160156,
+      "learning_rate": 4.6296296296296297e-07,
+      "loss": 0.031,
+      "step": 1190
+    },
+    {
+      "epoch": 116.97560975609755,
+      "eval_accuracy": 0.8402777777777778,
+      "eval_loss": 0.5203036069869995,
+      "eval_runtime": 3.066,
+      "eval_samples_per_second": 46.966,
+      "eval_steps_per_second": 1.631,
+      "step": 1199
+    },
+    {
+      "epoch": 117.07317073170732,
+      "grad_norm": 3.435035467147827,
+      "learning_rate": 0.0,
+      "loss": 0.0369,
+      "step": 1200
+    },
+    {
+      "epoch": 117.07317073170732,
+      "eval_accuracy": 0.8402777777777778,
+      "eval_loss": 0.5202847123146057,
+      "eval_runtime": 3.0873,
+      "eval_samples_per_second": 46.642,
+      "eval_steps_per_second": 1.62,
+      "step": 1200
+    },
+    {
+      "epoch": 117.07317073170732,
+      "step": 1200,
+      "total_flos": 3.819974210196996e+18,
+      "train_loss": 0.3624983422954877,
+      "train_runtime": 4158.3882,
+      "train_samples_per_second": 37.399,
+      "train_steps_per_second": 0.289
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 1200,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 120,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": false,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 3.819974210196996e+18,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2df9544a19a4652671b3b26f754625fdaf4703202fcdfb2d53d46014e546b32e
+size 5240